BE1030666B1

BE1030666B1 - HAND MOVEMENT OR HAND POSE RECOGNITION FOR SMARTGLASSES

Info

Publication number: BE1030666B1
Application number: BE20225516A
Authority: BE
Inventors: Jan Dheeden; Bruno Dheedene; Benoit Quirynen; Dario Vuljanic; Dalibor Kofjac
Original assignee: Rods&Cones Holding Bv
Priority date: 2022-06-28
Filing date: 2022-06-28
Publication date: 2024-01-30
Also published as: BE1030666A1

Abstract

De huidige uitvinding betreft een verbeterde werkwijze voor het beheren van audio-intake, en in het bijzonder het inschakelen daarvan, tijdens videoconferenties voor een medische gebruiker in een steriele ruimte.The present invention concerns an improved method for managing audio intake, and in particular enabling it, during videoconferencing for a medical user in a sterile room.

Description

1 BE2022/55161 BE2022/5516

HANDBEWEGING- OF HANDPOSEHERKENNING VOOR SMARTGLASSESHAND MOVEMENT OR HAND POSE RECOGNITION FOR SMARTGLASSES

TECHNISCH DOMEINTECHNICAL DOMAIN

De uitvinding heeft betrekking op een verbeterde werkwijze van het beheren van videoconferenties op een handenvrije wijze.The invention relates to an improved method of managing video conferences in a hands-free manner.

STAND DER TECHNIEKSTATE OF THE TECHNOLOGY

Bij medische ingrepen, en andere procedures in een steriele omgeving (zoals bepaalde handelingen in een clean room en gelijkaardige situaties), wordt steeds meer nadruk gelegd op contactloos ageren, en moet door de aanwezige personen zo veel mogelijk vermeden worden om te interageren met andere objecten, in het bijzonder met hun handen, gezien deze steriel moeten blijven om op een later moment bepaalde handelingen uit te voeren.During medical interventions and other procedures in a sterile environment (such as certain actions in a clean room and similar situations), increasing emphasis is placed on contactless handling, and the persons present should avoid interacting with other objects as much as possible , in particular with their hands, as they must remain sterile to perform certain actions at a later time.

In een medische omgeving, moet gerekend worden dat een chirurg reeds een geruime tijd voor de procedure begint steriel moet zijn, en vervolgens niet meer mag interageren met zaken die niet steriel zijn. Echter, in de huidige operatiekamers staan onder meer een groot aantal medische instrumenten waarmee geïnterageerd kan worden, maar dit brengt de steriliteit in gevaar.In a medical environment, it must be assumed that a surgeon must be sterile for a considerable time before the procedure begins, and then may no longer interact with items that are not sterile. However, current operating rooms contain a large number of medical instruments that can be interacted with, but this endangers sterility.

Daarnaast wordt bij medische ingrepen steeds vaker beroep gedaan op experts uit meerdere gebieden, zeker bij complexe ingrepen. Echter, deze kunnen moeilijk allen fysiek aanwezig zijn door de beperkte ruimte in een OK, maar evenzeer omdat elke extra persoon de steriliteit verder in gevaar brengt, en ook de voorbereiding voor elke procedure veel omslachtiger en langer maakt.In addition, experts from multiple areas are increasingly being called upon for medical interventions, especially in the case of complex procedures. However, it is difficult for all of these to be physically present due to the limited space in an OR, but also because each additional person further compromises sterility and also makes the preparation for each procedure much more cumbersome and longer.

Een oplossing waar steeds vaker naar teruggegrepen wordt is videoconferencing, waarbij de experts de persoon (of personen) die fysiek aanwezig is in de steriele ruimte kunnen assisteren en raad geven. In deze toepassing wordt daarbij ook vaak beroep gedaan op smart glasses of andere draagbare toestellen met één of meerdere beeldsensoren, zodat de persoon ter plaatse zijn handen vrij heeft, en de remote experts een gelijkaardig beeld hebben als de persoon ter plaatse, en zo onderling beter kunnen afstemmen. Hierbij is het ook voordelig dat ze de persoon ter plaatse duidelijk kunnen aansturen door het sterk overlappende gezichtsveld tussen de beeldsensor (wat de remote experts zien) en het zicht van de persoon ter plaatse.A solution that is increasingly being used is videoconferencing, where experts can assist and advise the person (or persons) physically present in the sterile room. In this application, smart glasses or other wearable devices with one or more image sensors are often used, so that the person on site has his hands free, and the remote experts have a similar image as the person on site, and thus better mutual understanding. can coordinate. It is also advantageous that they can clearly control the person on site due to the strongly overlapping field of view between the image sensor (what the remote experts see) and the view of the person on site.

2 BE2022/55162 BE2022/5516

Het blijft echter een probleem om de videoconferentie te configureren, gezien dit in eerste instantie door de persoon in de steriele omgeving dient te gebruiken, die toegang heeft tot de instrumentatie en ook overzicht heeft wie nodig is bij de videoconferentie.However, it remains a problem to configure the videoconference, as it must initially be used by the person in the sterile environment, who has access to the instrumentation and who also has an overview of who is needed at the videoconference.

Eén van de problemen die erkend worden in deze context, is de moeilijkheid voor het handenvrij beheren van de videoconferentie en randapparatuur voor de (medische) gebruiker in de steriele ruimte. Specifiek zit een moeilijkheid in het feit dat audio intake, en specifiek voice command (spraakcommando's), in sommige omstandigheden - tijdelijk — uitgeschakeld moeten worden om te vermijden dat ongeautoriseerde gebruikers bepaalde apparatuur of de videoconferentie kunnen manipuleren hiermee, of er conflicten zijn met omgevingsgeluid. Anderzijds is er ook de wens voor de persoon ter plaatse om diens stem (en/of ander omgevingsgeluid) niet langer te delen in de videoconferentie, hetzij om de andere partijen niet te storen, hetzij om privacy-redenen, hetzij omdat de persoon ter plaatse zich hier ongemakkelijk bij voelt.One of the problems recognized in this context is the difficulty in managing the video conference and peripherals hands-free for the (medical) user in the sterile room. Specifically, a difficulty lies in the fact that audio intake, and specific voice commands, must be disabled - temporarily - in some circumstances to prevent unauthorized users from manipulating certain equipment or the video conference, or from conflicting with ambient noise. On the other hand, there is also the wish for the person on site to no longer share their voice (and/or other ambient noise) in the video conference, either so as not to disturb the other parties, or for privacy reasons, or because the person on site feels uncomfortable about this.

In bovenstaande situatie is het echter vervolgens niet mogelijk voor de gebruiker ter plaatse om voice command terug in te schakelen, gezien de gebruiker ter plaatse handenvrij moet werken, en voice command uitgeschakeld is. Een optie bestaat er in een zogenaamde circulation nurse of andere persoon die wel zijn handen kan gebruiken, in te schakelen om audio intake, en zo ook voice command, terug in te schakelen. Een ander alternatief is te proberen de wens om dit terug in te schakelen kenbaar te maken aan een remote gebruiker die een bepaalde hoeveelheid controle heeft over de videoconferentie en dit terug kan inschakelen, bijvoorbeeld via vooraf afgesproken signalen. Zo wordt er echter afgehangen van deze remote gebruiker en diens controle over de videoconferentie, wat niet wenselijk is.In the above situation, however, it is not possible for the on-site user to re-enable voice command, as the on-site user must work hands-free and voice command is disabled. One option is to engage a so-called circulation nurse or other person who can use his hands to re-enable audio intake, and also voice command. Another alternative is to try to communicate the desire to re-enable this to a remote user who has a certain amount of control over the video conference and can re-enable it, for example via pre-arranged signals. However, this depends on this remote user and his control over the video conference, which is not desirable.

In WO2022/035910 wordt een systeem en werkwijze beschreven voor het houden van videoconferenties in medische toepassingen, waarbij hoofdbewegingen gebruikt worden om bepaalde menukeuzes en andere manipulaties te activeren. Dit is echter niet wenselijk gezien tijdens een operatie veel simpele hoofdbewegingen al gebruikt worden, en het gebruik van complexere hoofdbewegingen alles nodeloos moeilijker maat. Bovendien beïnvloedt dit de positionering van het hoofd van de gebruiker ter plaatse, terwijl diens gezichtsveld bij voorkeur stabiel gehouden moet worden, of het nu is om zelf een goed overzicht te behouden op elk moment, of om de remote gebruikers een stabiel en continu zicht te blijven geven.WO2022/035910 describes a system and method for holding video conferences in medical applications, where head movements are used to activate certain menu choices and other manipulations. However, this is not desirable since many simple head movements are already used during an operation, and the use of more complex head movements is all unnecessarily more difficult. Furthermore, this affects the positioning of the user's head on site, while their field of view should preferably be kept stable, whether to maintain a good overview themselves at all times, or to provide remote users with a stable and continuous view. keep giving.

3 BE2022/55163 BE2022/5516

De huidige uitvinding beoogt een oplossing te vinden voor tenminste enkele van bovenvermelde problemen, en voorziet een intuïtieve, eenvoudige werkwijze die een persoon toestaat om handenvrij een videoconferentie te beheren.The present invention aims to solve at least some of the above problems, and provides an intuitive, simple method that allows a person to manage a video conference hands-free.

SAMENVATTING VAN DE UITVINDINGSUMMARY OF THE INVENTION

De uitvinding betreft een verbeterde werkwijze voor het beheren van een videoconferentie tussen een medische gebruiker die zich in een steriele ruimte bevindt, bij voorkeur tijdens een medische behandeling in de steriele ruimte, en één of meerdere remote gebruikers, waarbij de gebruiker in de steriele ruimte een draagbare, handenvrije beeldsensor draagt, waarbij een tweede, bij voorkeur stationaire, beeldsensor voorzien is in de steriele ruimte, de tweede beeldsensor deelnemend in de videoconferentie, en waarbij een microfoon voorzien is in de steriele ruimte, bij voorkeur op de draagbare handenvrije beeldsensor, de microfoon deelnemend in de videoconferentie, de werkwijze omvattende volgende stappen.The invention relates to an improved method for managing a video conference between a medical user located in a sterile room, preferably during medical treatment in the sterile room, and one or more remote users, wherein the user in the sterile room has a wears a portable, hands-free image sensor, wherein a second, preferably stationary, image sensor is provided in the sterile area, the second image sensor participating in the video conference, and wherein a microphone is provided in the sterile area, preferably on the portable hands-free image sensor, the microphone participating in the video conference, the method including following steps.

De werkwijze omvat volgende stappen: a. het delen van video-input van de draagbare, handenvrije beeldsensor in de videoconferentie; b. het delen van audio-input van de microfoon in de videoconferentie; c. optioneel het delen van additionele video- en/of audio-input van één of meerdere van de remote gebruikers in de videoconferentie; d. het uitschakelen van audio-intake via de microfoon of het uitgeschakeld zijn van audio-intake via de microfoon, waarbij de audio-input van de microfoon niet gedeeld wordt over de videoconferentie wanneer de audio-intake via de microfoon uitgeschakeld is; e. het detecteren van een handbeweging of handpose met de tweede beeldsensor; f. het herkennen van een voorafbepaalde handbeweging of voorafbepaalde handpose in de door de tweede beeldsensor gedetecteerde handbeweging of handpose; g. het inschakelen van de audio-intake via de microfoon bij herkenning van de voorafbepaalde handbeweging of de voorafbepaalde handpose met de tweede beeldsensor, waarbij de audio-input van de microfoon gedeeld wordt over de videoconferentie wanneer de audio-intake via de microfoon ingeschakeld is.The method includes the following steps: a. sharing video input from the portable, hands-free image sensor in the video conference; b. sharing audio input from the microphone in the video conference; c. optionally sharing additional video and/or audio input from one or more of the remote users in the video conference; d. disabling audio input via the microphone or disabling audio input via the microphone, whereby the audio input from the microphone is not shared over the video conference when the audio input via the microphone is disabled; e. detecting a hand movement or hand pose with the second image sensor; f. recognizing a predetermined hand movement or predetermined hand pose in the hand movement or hand pose detected by the second image sensor; g. switching on the audio input via the microphone upon recognition of the predetermined hand movement or the predetermined hand pose with the second image sensor, whereby the audio input from the microphone is shared over the video conference when the audio input via the microphone is switched on.

4 BE2022/55164 BE2022/5516

Bij voorkeur is de draagbare, handenvrije beeldsensor deel van een hoofdgedragen toestel (HMD of head-mounted device), en in het bijzonder van smartglasses.Preferably, the wearable, hands-free image sensor is part of a head-worn device (HMD or head-mounted device), and in particular smart glasses.

Door aan de hand van handbewegingen en/of handposes te werken, waarbij voorafbepaalde (voorgeprogrammeerde) bewegingen/poses geassocieerd zijn aan een bepaalde actie, hier in het bijzonder het inschakelen van audio-intake via de microfoon in de steriele ruimte, is de persoon ter plaatse in staat gesteld om dit terug in te schakelen zonder zijn of haar handen te gebruiken, en daarbij bijvoorbeeld steriliteit te verbreken.By working on the basis of hand movements and/or hand poses, where predetermined (pre-programmed) movements/poses are associated with a certain action, here in particular switching on audio intake via the microphone in the sterile room, the person is able to on site to switch this back on without using his or her hands, thereby breaking sterility, for example.

Het dient opgemerkt te worden dat niet alle deelnemende apparaten/instrumenten in de videoconferentie ook effectief gedeeld worden in de videoconferentie. Zo kan bijvoorbeeld data van een bepaald instrument passief beschikbaar zijn in de videoconferentie, maar slechts op verzoek van een gebruiker (tijdelijk) gedeeld worden, of wordt een bepaalde audio-feed gebruikt om de videoconferentie aan te sturen via spraakcommando's, zonder dat deze audio-feed effectief beluisterd kan worden in de videoconferentie. Daarnaast is het natuurlijk ook mogelijk om bepaalde feeds van deelnemende apparaten/instrumenten expliciet uit te sluiten van gedeeld worden in de videoconferentie.It should be noted that not all participating devices/tools in the video conference are actually shared in the video conference. For example, data from a certain instrument can be passively available in the video conference, but can only be shared (temporarily) at the request of a user, or a certain audio feed can be used to control the video conference via voice commands, without this audio feed can be listened to effectively in the video conference. In addition, it is of course also possible to explicitly exclude certain feeds from participating devices/instruments from being shared in the video conference.

Hierbij dient het opgemerkt te worden dat de toepassing van de werkwijze niet noodzakelijk beperkt is tot een medische context, maar ook daarbuiten kan gebruikt worden, zoals in clean rooms of andere contexten waar manueel contact met objecten ongewenst is, moeilijk of onmogelijk is, of vermeden moet worden, maar ook in toepassingen waarin dit wel mogelijk is, zoals een ‘normale’ videoconferentie. Ook in deze contexten zijn de voordelen van de huidige uitvinding van toepassing.It should be noted that the application of the method is not necessarily limited to a medical context, but can also be used outside of it, such as in clean rooms or other contexts where manual contact with objects is undesirable, difficult or impossible, or avoided should be done, but also in applications where this is possible, such as a 'normal' video conference. The advantages of the present invention also apply in these contexts.

BESCHRIJVING VAN DE FIGURENDESCRIPTION OF THE FIGURES

Figuur 1 toont een schematische opstelling van een steriele ruimte met gebruikers, instrumenten, en de remote gebruikers, volgens een uitvoeringsvorm van de uitvinding.Figure 1 shows a schematic arrangement of a sterile room with users, instruments, and the remote users, according to an embodiment of the invention.

Figuur 2 geeft een schematische voorstelling van de grafische presentatie weergegeven bij een remote gebruiker die deelneemt aan een videoconferentie, volgens een uitvoeringsvorm van de uitvinding.Figure 2 provides a schematic representation of the graphical presentation displayed by a remote user participating in a video conference, according to an embodiment of the invention.

GEDETAILLEERDE BESCHRIJVINGDETAILED DESCRIPTION

Tenzij anders gedefinieerd hebben alle termen die gebruikt worden in de beschrijving van de uitvinding, ook technische en wetenschappelijke termen, de betekenis zoals 5 ze algemeen begrepen worden door de vakman in het technisch veld van de uitvinding. Voor een betere beoordeling van de beschrijving van de uitvinding, worden de volgende termen expliciet uitgelegd. “Een”, ”de” en “het” refereren in dit document aan zowel het enkelvoud als het meervoud tenzij de context duidelijk anders veronderstelt. Bijvoorbeeld, “een segment” betekent een of meer dan een segment.Unless otherwise defined, all terms used in the description of the invention, including technical and scientific terms, have the meanings commonly understood by those skilled in the art of the invention. For a better appreciation of the description of the invention, the following terms are explicitly explained. “A”, “the” and “it” in this document refer to both the singular and the plural unless the context clearly suggests otherwise. For example, “a segment” means one or more than one segment.

Wanneer “ongeveer” of “rond” in dit document gebruikt wordt bij een meetbare grootheid, een parameter, een tijdsduur of moment, en dergelijke, dan worden variaties bedoeld van +/-20% of minder, bij voorkeur +/-10% of minder, meer bij voorkeur +/-5% of minder, nog meer bij voorkeur +/-1% of minder, en zelfs nog meer bij voorkeur +/-0.1% of minder dan en van de geciteerde waarde, voor zoverre zulke variaties van toepassing zijn in de beschreven uitvinding. Hier moet echter wel onder verstaan worden dat de waarde van de grootheid waarbij de term “ongeveer” of “rond” gebruikt wordt, zelf specifiek wordt bekendgemaakt.When “about” or “around” is used in this document for a measurable quantity, a parameter, a period of time or moment, or the like, variations of +/-20% or less are meant, preferably +/-10% or less, more preferably +/-5% or less, even more preferably +/-1% or less, and even more preferably +/-0.1% or less than and of the quoted value, to the extent that such variations from are applicable in the described invention. However, this must be understood to mean that the value of the quantity for which the term “approximately” or “around” is used is itself specifically disclosed.

De termen “omvatten”, “omvattende”, “bestaan uit”, “bestaande uit”, “voorzien van”, “bevatten”, “bevattende”, “behelzen”, “behelzende”, “inhouden”, “inhoudende” zijn synoniemen en zijn inclusieve of open termen die de aanwezigheid van wat volgt aanduiden, en die de aanwezigheid niet uitsluiten of beletten van andere componenten, kenmerken, elementen, leden, stappen, gekend uit of beschreven in de stand der techniek.The terms “comprise”, “comprising”, “consist of”, “consisting of”, “providing”, “containing”, “containing”, “containing”, “containing”, “containing”, “containing” are synonyms and are inclusive or open terms that indicate the presence of what follows, and do not exclude or preclude the presence of other components, features, elements, members, steps, known or described in the prior art.

Instrumenten/toestellen die deelnemen aan de videoconferentie delen een eigen data-feed (video, audio en/of andere) die beschikbaar gesteld wordt in de videoconferentie, en al of niet gevisualiseerd, afgespeeld of weergegeven wordt op een andere manier, en/of ontvangen de data-feed van de videoconferentie, typisch vanuit een server, en spelen deze af (visueel, auditief en/of andere). In wat volgt zal duidelijk blijken of een instrument/toestel eigen data-feed deelt en/of de data-feed van de videoconferentie ontvangt, wat vaak ook logisch volgt uit het type instrument/toestel. Tenzij anders aangegeven mag uitgegaan worden dat data- creërende instrumenten/toestellen (bvb. elektrocardiograaf, endoscoop, camera,Instruments/devices participating in the video conference share their own data feed (video, audio and/or other) that is made available in the video conference, and may or may not be visualized, played or displayed in another way, and/or received the data feed from the video conference, typically from a server, and play it back (visual, auditory and/or other). In what follows it will become clear whether an instrument/device shares its own data feed and/or receives the data feed from the video conference, which often also follows logically from the type of instrument/device. Unless otherwise stated, it may be assumed that data-creating instruments/devices (e.g. electrocardiograph, endoscope, camera,

6 BE2022/5516 microfoon, etc.) de eigen, gecreëerde data-feeds delen met de videoconferentie en optioneel ook de data-feed van de videoconferentie ontvangen, en dat instrumenten/toestellen die niet overduidelijk eigen data creëren (bvb. beeldscherm, geluidsinstallatie) enkel de data-feed van de videoconferentie ontvangen.6 BE2022/5516 microphone, etc.) share their own created data feeds with the video conference and optionally also receive the data feed from the video conference, and that instruments/devices that do not clearly create their own data (e.g. screen, sound system) only receive the data feed from the video conference.

De termen “handgebaren”, “handbewegingen” en “handposes” zijn in wat volgt gebruikt als synoniemen voor de eenvoud tenzij expliciet anders aangegeven, waarbij zowel specifieke sequenties van handpositioneringen (bewegingen/gebaren) als enkelvoudige positioneringen (poses) worden beschouwd als deel uitmakend hiervan.The terms “hand gestures”, “hand movements” and “hand poses” are used in the following as synonyms for simplicity unless explicitly stated otherwise, whereby both specific sequences of hand positionings (movements/gestures) and single positionings (poses) are considered to be included of this.

Het citeren van numerieke intervallen door de eindpunten omvat alle gehele getallen, breuken en/of reële getallen tussen de eindpunten, deze eindpunten inbegrepen.Quoting numerical intervals through the endpoints includes all integers, fractions, and/or real numbers between the endpoints, including these endpoints.

In een eerste aspect een werkwijze voor het beheren van een videoconferentie volgens conclusie 1. Een algemene context wordt onder meer geschetst inIn a first aspect, a method for managing a video conference according to claim 1. A general context is outlined, among other things, in

PCT/EP2021/087293, waarin een specifieke methodologie voor het handenvrij opzetten en beheren van videoconferenties in een medische context beschreven is, maar de huidige methode is hier niet toe beperkt. Het gebruik van videoconferenties in een medische context gebeurt steeds vaker, onder meer omdat dit het mogelijk maakt om expertise van heel veel bronnen op een zeer eenvoudige manier beschikbaar te maken, zonder gebonden te zijn aan geografische nabijheid, vereisten naar steriliteit, bewegingsruimte, voorbereiding, etc., voor de andere deelnemers. Zo kunnen specialisten op elk aspect (tijdelijk) ingeschakeld worden tijdens een medische procedure, zonder grote impact op deze specialisten of op de locatie zelf.PCT/EP2021/087293, which describes a specific methodology for hands-free setup and management of videoconferencing in a medical context, but the current method is not limited to this. The use of videoconferencing in a medical context is becoming increasingly common, partly because it makes it possible to make expertise from many sources available in a very simple way, without being bound by geographical proximity, sterility requirements, space for movement, preparation, etc., for the other participants. This way, specialists can be (temporarily) involved in every aspect during a medical procedure, without major impact on these specialists or on the location itself.

Alleen al op vlak van de reductie van gevaar voor een patiënt door vermindering van aanwezig personeel, is dit ongelofelijk waardevol.Just in terms of reducing the danger to a patient by reducing the number of staff present, this is incredibly valuable.

Zoals al besproken, biedt de huidige uitvinding aanzienlijke voordelen in de context van een medische aangelegenheid waar de gebruiker die de handenvrije beeldsensor draagt, enkel via stemcommando’s kan interageren met de beeldsensor, alsook met veel andere instrumenten. In de praktijk bleek dat tijdens videoconferenties, hier nieuwe problemen mee gepaard gingen, onder meer in grotere operatiekwartieren waar een aantal andere instrumenten deel uitmaken van de videoconferentie, in de zin dat output daarvan gedeeld wordt in de videoconferentie, en/of in de zin dat input vanuit de videoconferentie daarop geactueerd wordt. Een aantal van de instrumenten in de steriele ruimte, waaronder vaak ook de beeldsensoren zelf (zoals bijvoorbeeld in de vorm van smartglasses), hebben steeds meer de mogelijkheid om metAs already discussed, the present invention offers significant advantages in the context of a medical situation where the user wearing the hands-free image sensor can interact with the image sensor, as well as many other instruments, via voice commands only. In practice, it turned out that videoconferencing presented new problems, including in larger operating theaters where a number of other instruments are part of the videoconference, in the sense that output is shared in the videoconference, and/or in the sense that input from the video conference is updated accordingly. A number of the instruments in the sterile room, including often the image sensors themselves (such as in the form of smart glasses), increasingly have the option of

7 BE2022/5516 spraakcommando's aangestuurd te worden. Bijkomend is het echter mogelijk om instrumenten die deelnemen aan de videoconferentie, via deze link ook aan te sturen.7 BE2022/5516 voice commands. However, it is also possible to control instruments that participate in the video conference via this link.

Dit kan dan ook voor instrumenten die zelf geen spraakcommando-functionaliteit hebben, door de functionaliteit te integreren in de videconferentie zelf, bij voorkeur waarbij dit gelimiteerd is tot audio-input die langs de microfoon in de steriele ruimte wordt opgepikt, om zo te vermijden dat remote gebruikers onbeperkt deze mogelijkheid hebben.This can also be done for instruments that do not have voice command functionality themselves, by integrating the functionality into the video conference itself, preferably where this is limited to audio input that is picked up via the microphone in the sterile room, to avoid remote users have this option without any restrictions.

Bij een herkend commando voor een bepaald instrument (opgepikt door de microfoon), wordt via de videoconferentie-link naar het instrument een aan het herkende commando geassocieerde actie gecommuniceerd waarop het instrument actueert.When a command is recognized for a specific instrument (picked up by the microphone), an action associated with the recognized command is communicated via the video conference link to the instrument, upon which the instrument acts.

Remote gebruikers, al of niet met bepaalde controle over zaken in de videoconferentie (zoals beschreven in bovengenoemde aanvrage) hebben in veel gevallen ook de mogelijkheid om verbaal te communiceren met de andere gebruikers in de videoconferentie, en in het bijzonder met de gebruiker ter plaatse. Zo kan de gebruiker ter plaatse een koptelefoon of oordopjes dragen, maar vaak is er een geluidsinstallatie aanwezig in de steriele ruimte, al of niet geïntegreerd in een ander instrument. Op die manier is het voor de remote gebruikers ook mogelijk om rechtstreeks instrumenten aan te sturen die spraakcommando's gebruiken.Remote users, with or without certain control over matters in the video conference (as described in the above-mentioned application) in many cases also have the ability to communicate verbally with the other users in the video conference, and in particular with the user on site. For example, the user can wear headphones or earplugs on site, but there is often a sound system in the sterile room, which may or may not be integrated into another instrument. This also makes it possible for remote users to directly control instruments that use voice commands.

Daarnaast kan er ook gecommuniceerd worden met iedereen aanwezig in de steriele ruimte, die niet noodzakelijk aan de videoconferentie deelneemt.In addition, communication can also take place with everyone present in the sterile room, who is not necessarily participating in the video conference.

In sommige situaties, zij het uit privacy-redenen, ter concentratie, of eenvoudigweg omdat het delen van de audio uit de steriele ruimte niet gewenst is, wordt de audio- intake via de microfoon in de steriele ruimte uitgeschakeld.In some situations, be it for privacy reasons, for concentration, or simply because sharing the audio from the sterile room is not desired, the audio intake via the microphone in the sterile room is turned off.

Bijkomend wil de gebruiker ter plaatse in sommige omstandigheden de mogelijkheid uitschakelen dat andere partijen via spraakcommando's instrumenten ter plaatse aansturen, zonder echter de audio in de steriele ruimte uit te schakelen. Dit kan eenvoudig gebeuren door alle audio-intake uit te schakelen via de microfoon in de steriele ruimte.Additionally, in some circumstances the on-site user may wish to disable the ability of other parties to control on-site instruments via voice commands, without however disabling the audio in the sterile room. This can easily be done by turning off all audio intake via the microphone in the sterile room.

In dergelijke situaties is het voor de gebruiker ter plaatse, wiens handen spreekwoordelijk gebonden zĳn, om dit terug in te schakelen, gezien spraakcommando's rekenen op audio-intake via de microfoon, wat uitgeschakeld is, en ze ook niet manueel instellingen kunnen wijzigen.In such situations, it is up to the on-site user, whose hands are proverbially tied, to re-enable this, as voice commands rely on audio intake via the microphone, which is disabled, and they cannot manually change settings.

Om hierbij niet overgeleverd te zijn aan een remote gebruiker die kan raden dat dit terug ingeschakeld moet worden (als een remote gebruiker deze mogelijkheid zelfs al heeft), heeft het systeem volgens de uitvinding een verbetering toegepast van hetIn order not to be at the mercy of a remote user who can guess that this should be switched back on (if a remote user even already has this option), the system according to the invention has applied an improvement to the

8 BE2022/5516 detecteren en herkennen van een handbeweging met een tweede beeldsensor, ook deelnemend in de videoconferentie, en op basis van het al of niet herkennen, automatisch audio-intake via de microfoon terug in te schakelen.8 BE2022/5516 detect and recognize a hand movement with a second image sensor, also participating in the video conference, and based on whether or not it is recognized, automatically reactivate audio intake via the microphone.

Het herkennen gebeurt via herkenningsalgoritmes die de gedetecteerde beelden analyseren en vergelijken met de voorafbepaalde handbewegingen en/of handposes.Recognition is done via recognition algorithms that analyze the detected images and compare them with the predetermined hand movements and/or hand poses.

Typisch wordt een bepaalde drempel ingesteld van de mate van herkenning. Onder deze drempel beschouwt het algoritme de gedetecteerde handbeweging/handpose als niet overeenkomend met de voorafbepaalde, en is de herkenningsstap niet voldaan, waardoor de audio-intake uitgeschakeld blijft.Typically, a certain threshold is set for the degree of recognition. Below this threshold, the algorithm considers the detected hand movement/hand pose as not matching the predetermined one, and the recognition step is not satisfied, leaving the audio intake disabled.

Het spreekt voor zich dat andere handbewegingen en/of handposes kunnen voorgeprogrammeerd zĳn met andere gevolgen (bijvoorbeeld volume verhogen/verlagen, het veranderen van een focus in de videoconferentie naar een andere feed, etc.).It goes without saying that other hand movements and/or hand poses may be pre-programmed with different consequences (e.g. increasing/decreasing volume, changing a focus in the video conference to another feed, etc.).

De voorafbepaalde handbeweging of handpose is opgeslagen in een database, toegankelijk voor een server via dewelke de videoconferentie gehouden wordt, en wordt vergeleken met gedetecteerde handbewegingen of handposes. Bij voorkeur worden er gelaagde detectiemethodes worden toegepast, om de computationele last te verlagen, en niet constant vergelijkingen uit te voeren met gecapteerde beelden van de beeldsensoren. Zo kan in eerste instantie gezocht worden naar handen met voldoende zichtbaarheid, en met verdere voorwaarden zoals al of niet stationair zijn daarvan, afhankelijk of de voorafbepaalde trigger een beweging of een pose is. Enkel indien deze voorwaarden voldaan zijn, wordt overgegaan tot de vergelijking met de voorafbepaalde handbeweging of handpose. Er kunnen nog verdere voorwaarden opgelegd worden, zoals een minimale periode van stationair zijn van de hand/de handen.The predetermined hand movement or hand pose is stored in a database, accessible to a server through which the video conference is held, and is compared with detected hand movements or hand poses. Preferably, layered detection methods are applied to reduce the computational burden and not to constantly perform comparisons with captured images from the image sensors. In this way, one can initially look for hands with sufficient visibility, and with further conditions such as whether or not they are stationary, depending on whether the predetermined trigger is a movement or a pose. Only if these conditions are met will the comparison be made with the predetermined hand movement or hand pose. Further conditions may be imposed, such as a minimum period of stationarity of the hand(s).

In bepaalde uitvoeringsvormen zijn meerdere microfoons voorzien in of rond de steriele ruimte, bijvoorbeeld op één of meerdere van medische (beeldvormende) instrumenten die deelnemen aan de videoconferentie.In certain embodiments, multiple microphones are provided in or around the sterile space, for example on one or more medical (imaging) instruments participating in the video conference.

In een voorkeurdragende uitvoeringsvorm is de microfoon geïntegreerd in de draagbare, handenvrije beeldsensor, en de microfoon en de draagbare, handenvrije beeldsensor bij voorkeur deel uitmaken van smartglasses.In a preferred embodiment, the microphone is integrated into the wearable, hands-free image sensor, and the microphone and the wearable, hands-free image sensor preferably form part of smart glasses.

9 BE2022/55169 BE2022/5516

Het gebruik van smartglasses in operatiezalen is steeds meer in opmars, gezien de enorme voordelen hieraan gekoppeld. Voor de remote gebruikers kan er quasi vanuit het oogpunt van een chirurg of andere medische gebruiker gekeken worden naar de operatie, wat problemen van perspectief sterk verlicht. Bovendien kunnen smartglasses van meerdere camera's voorzien zijn, een ingebouwde microfoon, geluidsinstallatie, etc. om alle communicatie-opties naar en van remote gebruikers mogelijk te maken.The use of smartglasses in operating rooms is increasingly on the rise, given the enormous benefits associated with this. For remote users, the operation can be viewed almost from the point of view of a surgeon or other medical user, which greatly alleviates perspective problems. In addition, smartglasses can be equipped with multiple cameras, a built-in microphone, sound system, etc. to enable all communication options to and from remote users.

In een voorkeurdragende uitvoeringsvorm is de tweede beeldsensor voorzien aan of op een beeldscherm in de steriele ruimte, waarbij het beeldscherm minstens een gedeelte van een visuele presentatie van de videoconferentie weergeeft.In a preferred embodiment, the second image sensor is provided on or on a screen in the sterile room, wherein the screen displays at least part of a visual presentation of the video conference.

Door de tweede beeldsensor expliciet te voorzien op het beeldscherm in de steriele ruimte, dat deelneemt aan de videoconferentie, is het eenvoudiger voor de gebruiker ter plaatse om een duidelijk zichtbaar handgebaar te vertonen naar de tweede beeldsensor toe, die stationair is, en vaak op een strategische plaats opgesteld is.By explicitly providing the second image sensor on the screen in the sterile room that participates in the video conference, it is easier for the user on site to show a clearly visible hand gesture towards the second image sensor, which is stationary, and often at a strategically placed.

Deze is bij voorkeur gericht naar de zone waar de patiënt typisch gepositioneerd is.This is preferably directed towards the zone where the patient is typically positioned.

In verder voorkeurdragende uitvoeringsvormen kunnen meerdere tweede beeldsensoren voorzien worden, gespreid over de steriele ruimte, bij voorkeur opnieuw gericht naar een gemeenschappelijke zone waar een patiënt typisch gepositioneerd is, zodat de medische gebruiker uit meerdere perspectieven kan gecapteerd worden en het eenvoudiger is om naar minstens één van de tweede beeldsensoren de handbeweging of handpose kenbaar te maken, zonder dat de medische gebruiker zijn of haar positie drastisch moet aanpassen, of zich specifiek moet richten naar een enkelvoudige tweede beeldsensor. Bovendien is het op deze manier ook mogelijk om meervoudige bevestiging te krijgen van het herkennen van de handbeweging of handpose, vanuit meerdere perspectieven.In further preferred embodiments, multiple second image sensors can be provided, spread across the sterile space, preferably redirected to a common area where a patient is typically positioned, so that the medical user can be captured from multiple perspectives and it is easier to navigate to at least one of the second image sensors to indicate the hand movement or hand pose, without the medical user having to drastically adjust his or her position, or having to focus specifically on a single second image sensor. Moreover, in this way it is also possible to receive multiple confirmation of recognizing the hand movement or hand pose, from multiple perspectives.

In een voorkeurdragende uitvoeringsvorm, omvat de werkwijze volgende stappen: - het detecteren van een handbeweging of handpose met de draagbare, handenvrije beeldsensor; en - het herkennen van een voorafbepaalde handbeweging of voorafbepaalde handpose in de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose;In a preferred embodiment, the method comprises the following steps: - detecting a hand movement or hand pose with the wearable, hands-free image sensor; and - recognizing a predetermined hand movement or predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor;

10 BE2022/5516 waarbij het inschakelen van de audio-intake gebeurt bij herkenning van de voorafbepaalde handbeweging of de voorafbepaalde handpose in de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose10 BE2022/5516 whereby the audio intake is switched on upon recognition of the predetermined hand movement or the predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor

Bijkomend kan de draagbare beeldsensor ook gebruikt worden om het handgebaar te detecteren, en op basis van de beelden van de draagbare beeldsensor deze te herkennen en de audio-intake in te schakelen. Dit is in het bijzonder nuttig voor situaties waarin de medisch gebruiker zich niet kan positioneren zodanig dat de tweede beeldsensor het handgebaar kan detecteren.In addition, the wearable image sensor can also be used to detect the hand gesture, and based on the images from the wearable image sensor, recognize it and enable the audio input. This is particularly useful for situations where the medical user cannot position himself in such a way that the second image sensor can detect the hand gesture.

In een voorkeurdragende uitvoeringsvorm omvat de werkwijze volgende stappen: - het detecteren van een handbeweging of handpose met de draagbare, handenvrije beeldsensor; en - het herkennen van een voorafbepaalde handbeweging of voorafbepaalde handpose in de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose; waarbij het inschakelen van de audio-intake gebeurt bij substantieel gelijktijdige herkenning van de voorafbepaalde handbeweging of de voorafbepaalde handpose in de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose en in de door de tweede beeldsensor gedetecteerde handbeweging of handpose.In a preferred embodiment, the method comprises the following steps: - detecting a hand movement or hand pose with the portable, hands-free image sensor; and - recognizing a predetermined hand movement or predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor; wherein the audio intake is switched on upon substantially simultaneous recognition of the predetermined hand movement or the predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor and in the hand movement or hand pose detected by the second image sensor.

De bovenstaande uitvoeringsvorm biedt een hogere graad van zekerheid dat het inschakelen gewenst is, door te eisen dat de gedetecteerde handbeweging of handpose simultaan waargenomen wordt in de tweede en de handenvrije beeldsensor. Op die manier is het waarschijnlijker dat het handgebaar een bewuste actie betreft van de gebruiker ter plaatse, gezien het handgebaar specifiek in het gezichtsveld van beide beeldsensoren moet uitgevoerd worden. De bijkomende voorwaarde zorgt er typisch ook voor dat er vanuit twee verschillende perspectieven naar het handgebaar gekeken wordt, wat de betrouwbaarheid van de match met de voorafbepaalde handbeweging of handpose en de gedetecteerde versie ervan aanzienlijk verhoogt.The above embodiment offers a higher degree of certainty that switching on is desired, by requiring that the detected hand movement or hand pose is simultaneously observed in the second and the hands-free image sensor. In this way, it is more likely that the hand gesture is a conscious action by the user on site, since the hand gesture must be performed specifically in the field of view of both image sensors. The additional condition also typically ensures that the hand gesture is looked at from two different perspectives, which significantly increases the reliability of the match between the predetermined hand movement or hand pose and the detected version of it.

In een voorkeurdragende uitvoeringsvorm, is een geluidsinstallatie voorzien in of nabij de steriele ruimte, voor het afspelen van audio in de steriele ruimte, waarbij de geluidsinstallatie gekoppeld is in de videoconferentie voor het afspelen van audio uit de videoconferentie.In a preferred embodiment, a sound system is provided in or near the sterile room, for playing audio in the sterile room, wherein the sound system is coupled into the video conference for playing audio from the video conference.

11 BE2022/551611 BE2022/5516

Het gebruik van de geluidsinstallatie in de videoconferentie levert een aantal voordelen op naar communicatie toe, zodat met alle aanwezigen in en rond de steriele ruimte kan gecommuniceerd worden, maar levert anderzijds de eerder vernoemde complicatie op dat remote gebruikers via spraakcommando's instrumenten in en rond de steriele ruimten zouden kunnen aansturen. Zoals gezegd, door het uitschakelen van audio-intake van de microfoon in de steriele ruimte, kan dit onmogelijk gemaakt worden, met de provisie van de uitvinding om dit handenvrij terug in te schakelen.The use of the sound system in the video conference provides a number of advantages in terms of communication, so that everyone present in and around the sterile room can be communicated with, but on the other hand it results in the aforementioned complication that remote users can use instruments in and around the sterile room via voice commands. could control spaces. As mentioned, by disabling audio intake from the microphone in the sterile room, this can be made impossible, with the provision of the invention to enable it hands-free again.

In een verder voorkeurdragende uitvoeringsvorm, kan het inschakelen van de audio- intake via de microfoon niet geactiveerd worden via spraakcommando of stemherkenning.In a further preferred embodiment, switching on the audio intake via the microphone cannot be activated via voice command or voice recognition.

Zoals aangegeven, zijn er veel situaties geluidsinstallaties aanwezig in de steriele ruimte, die deelnemen aan de videoconferentie. Om te vermijden dat remote gebruikers spraakcommando's kunnen geven aan instrumenten en toestellen in de steriele ruimte, kunnen spraakcommando's per definitie uitgeschakeld zijn.As indicated, in many situations there are sound systems present in the sterile room that participate in the video conference. To prevent remote users from giving voice commands to instruments and devices in the sterile room, voice commands can be disabled by definition.

In een voorkeurdragende uitvoeringsvorm, is de draagbare, handenvrije beeldsensor aanstuurbaar via spraakcommando's wanneer audio-intake via de microfoon ingeschakeld is.In a preferred embodiment, the portable, hands-free image sensor is controllable via voice commands when audio intake via the microphone is enabled.

In bepaalde variaties worden spraakcommando's wel toegelaten, maar enkel als audio-intake via de microfoon ingeschakeld is. Dit biedt onder meer het voordeel dat remote gebruikers de lokale instrumenten wel kunnen aansturen indien een geluidsinstallatie aanwezig is (die deelneemt aan de videoconferentie), en ze op die manier via de microfoon ter plaatse commando's kunnen geven. Anderzijds, bij afwezigheid van een geluidsinstallatie in de steriele ruimte, is verzekerd dat remote gebruikers de lokale instrumenten niet kunnen aansturen, wat voordelen biedt naar de controle van het personeel ter plaatse, zodat de instrumenten geen conflicterende of ongewenste commando's kunnen krijgen.In certain variations, voice commands are allowed, but only if audio intake via the microphone is enabled. This offers the advantage, among other things, that remote users can control the local instruments if a sound system is present (which participates in the video conference), and can thus give commands on site via the microphone. On the other hand, in the absence of a sound system in the sterile room, it is ensured that remote users cannot control the local instruments, which offers advantages in terms of control of the on-site personnel, so that the instruments cannot receive conflicting or unwanted commands.

In een verder voorkeurdragende uitvoeringsvorm, omvat de werkwijze volgende stappen: - het delen van additionele audio-input van één of meerdere van de remote gebruikers in de videoconferentie; enIn a further preferred embodiment, the method comprises the following steps: - sharing additional audio input from one or more of the remote users in the video conference; and

12 BE2022/5516 - het aansturen van de draagbare, handenvrije beeldsensor via spraakcommando of stemherkenning toegepast op de additionele audio-input, bij voorkeur waarbij het aansturen van de beeldsensor via de additionele audio-input enkel mogelijk is wanneer audio-intake via de microfoon ingeschakeld is.12 BE2022/5516 - controlling the portable, hands-free image sensor via voice command or voice recognition applied to the additional audio input, preferably whereby controlling the image sensor via the additional audio input is only possible when audio intake via the microphone is enabled is.

In een verder voorkeurdragende uitvoeringsvorm, omvat het aansturen van de beeldsensor minstens het manipuleren van focus en contrast van de beeldsensor.In a further preferred embodiment, controlling the image sensor comprises at least manipulating focus and contrast of the image sensor.

Voor een remote gebruiker is de feed van de beeldsensoren in de steriele ruimte (kan in principe een handenvrije, draagbare beeldsensor zijn, of een tweede beeldsensor) de voornaamste manier om inzage te kijken in wat in de steriele ruimte gebeurt.For a remote user, the feed from the image sensors in the sterile room (can in principle be a hands-free, wearable image sensor, or a second image sensor) is the main way to view what is happening in the sterile room.

Door de remote gebruikers de mogelijkheid te bieden om via spraakcommando de beeldsensor aan te sturen, krijgen deze meer opties om te interageren met de procedure in de steriele ruimte, maar kan de gebruiker ter plaatse dit naar wens nog steeds deactiveren.By offering remote users the option to control the image sensor via voice command, they are given more options to interact with the procedure in the sterile room, but the user on site can still deactivate this if desired.

Belangrijke parameters die gemanipuleerd kunnen worden voor de beeldsensoren zijn onder meer contrast, focus, maar evengoed zoom, bijkomende belichting, of zelfs oriëntatie (bvb. tweede beeldsensor op een pivoteerbare voet).Important parameters that can be manipulated for the image sensors include contrast, focus, but also zoom, additional lighting, or even orientation (e.g. second image sensor on a pivotable base).

In een voorkeurdragende uitvoeringsvorm, is minstens één bijkomende video-input gedeeld in de videoconferentie, de bijkomende video-input afkomstig van een medisch beeldvormend instrument.In a preferred embodiment, at least one additional video input is shared in the video conference, the additional video input coming from a medical imaging instrument.

Video-input van medisch beeldvormende instrumenten in de videoconferentie kan zeer relevante bijkomende informatie voorzien aan de remote gebruikers. Deze kunnen deze informatie bovendien veel dynamischer benutten dan de persoon ter plaatse, die typisch handenvrij moet werken, terwijl de remote gebruikers de info kunnen bewerken, voorzien van annotaties, etc.Video input from medical imaging instruments in the video conference can provide highly relevant additional information to the remote users. They can also use this information much more dynamically than the person on site, who typically has to work hands-free, while remote users can edit the information, provide annotations, etc.

In een voorkeurdragende uitvoeringsvorm, wordt audio-input en/of video-input van de draagbare, handenvrije beeldsensor en de remote gebruikers via een intermediaire server uitgewisseld tussen de medische gebruiker en de remote gebruikers tijdens de videoconferentie, bij voorkeur via een selective forwarding unit (SFU) server. Hierbij vindt het herkennen van de voorafbepaalde handbeweging of de voorafbepaalde handpose plaats op de intermediaire server, aan de hand van een voorgeprogrammeerde signaaldatabase omvattende handbewegingen en/ofIn a preferred embodiment, audio input and/or video input from the portable, hands-free image sensor and the remote users are exchanged via an intermediary server between the medical user and the remote users during the video conference, preferably via a selective forwarding unit ( SFU) server. The recognition of the predetermined hand movement or the predetermined hand pose takes place on the intermediate server, on the basis of a pre-programmed signal database comprising hand movements and/or

13 BE2022/5516 handposes en daaraan geassocieerde acties, waarbij de acties het manipuleren van de audio-input en/of video-input in de videoconferentie betreft.13 BE2022/5516 hand poses and associated actions, where the actions involve manipulating the audio input and/or video input in the video conference.

Het gebruik van een voorgeprogrammeerde signaaldatabase laat toe om ook andere handbewegingen en handposes op te nemen en acties te associëren hieraan.The use of a pre-programmed signal database also allows other hand movements and hand poses to be recorded and actions to be associated with them.

Bijkomend is het voorzien van een intermediaire server ook veel voordeliger qua gebruikte bandbreedte. De problemen met peer-to-peer-communicatie beginnen met gesprekken met meerdere partijen. In een scenario met meerdere partijen moet elke deelnemer zijn of haar data naar alle andere deelnemers sturen. Als we aannemen dat er n deelnemers in het gesprek zijn, moet dezelfde datastroom n-1 keer naar de n-1 deelnemers worden verzonden. Dit vereist een aanzienlijke hoeveelheid bandbreedte. Bovendien zijn er ook aanzienlijke rekenkosten voor elk clientapparaat, omdat het dezelfde stream meerdere keren moet coderen. In de praktijk werkt directe peer-to-peer communicatie goed als het aantal gespreksdeelnemers laag is.In addition, providing an intermediary server is also much cheaper in terms of bandwidth used. The problems with peer-to-peer communication start with multi-party conversations. In a multi-party scenario, each participant must send his or her data to all other participants. If we assume that there are n participants in the call, the same data stream must be sent n-1 times to the n-1 participants. This requires a significant amount of bandwidth. In addition, there is also a significant computational cost for each client device as it must encode the same stream multiple times. In practice, direct peer-to-peer communication works well when the number of conversation participants is low.

Een server, bij voorkeur een centrale SFU-server, is hier dus essentieel om meerdere beeldschermen te kunnen connecteren met het draagbaar apparaat van de persoon in de steriele omgeving op een efficiënte manier. De SFU-server laat toe om de datastroom van één deelnemer uit de n deelnemers slechts één keer te verzenden naar de SFU-server, waarna de SFU-server deze informatie bezorgt aan de n-1 andere deelnemers. Een extra scherm toevoegen gaat zo uitermate efficiënt, omdat de SFU-server zelf de hoeveelheid data kan controleren zodat de bandbreedte niet overschreden wordt. Het gevaar op een tekort aan bandbreedte is dus veel kleiner, waardoor het systeem betrouwbaarder wordt voor de gebruikers.A server, preferably a central SFU server, is therefore essential here to be able to connect multiple displays to the person's portable device in the sterile environment in an efficient manner. The SFU server allows the data stream of one participant out of n participants to be sent to the SFU server only once, after which the SFU server delivers this information to the n-1 other participants. Adding an extra screen is extremely efficient, because the SFU server itself can control the amount of data so that the bandwidth is not exceeded. The risk of bandwidth shortage is therefore much smaller, making the system more reliable for users.

In een voorkeurdragende uitvoeringsvorm, is de draagbare, handenvrije beeldsensor geïntegreerd in smartglasses, de smartglasses verder omvattende een beeldscherm, waarbij het beeldscherm van de smartglasses de videoconferentie weergeeft.In a preferred embodiment, the wearable, hands-free image sensor is integrated into smart glasses, the smart glasses further comprising a display, wherein the display of the smart glasses displays the video conference.

In een voorkeurdragende uitvoeringsvorm, gebeurt het herkennen van de voorafbepaalde handbeweging of de voorafbepaalde handpose op basis van het vergelijken van de gedetecteerde handbeweging of handpose met een handbewegings- of handposemodel dat met een driedimensionaal model is en/of minstens twee verschillende perspectiefaanzichten omvat op een driedimensionale handbeweging of handpose.In a preferred embodiment, the recognition of the predetermined hand movement or the predetermined hand pose is based on comparing the detected hand movement or hand pose with a hand movement or hand pose model that is a three-dimensional model and/or includes at least two different perspective views on a three-dimensional hand movement or hand pose.

14 BE2022/551614 BE2022/5516

Door met verschillende perspectieven en/of een 3D model te werken voor de herkenning, wordt verzekerd dat de herkenning onafhankelijk gebeurt van de oriëntatie van de gebruiker ter plaatse. Zo kunnen handposes en handbewegingen ook herkend worden langs de achterzijde, zonder de gebruiker ter plaatse te dwingen zich te heroriënteren, of dienst hand in vreemde bochten te dwingen.By working with different perspectives and/or a 3D model for recognition, it is ensured that recognition occurs independently of the user's orientation on site. In this way, hand poses and hand movements can also be recognized from the back, without forcing the user to reorientate himself or force the hand into strange bends.

Bijkomend kan verzekerd worden dat een bepaald gewicht gegeven wordt aan bepaalde perspectieven, en/of bepaalde perspectieven uitgesloten, zodat er niet foutief een herkenning gebeurt op basis van een zeer generisch aanzicht (bvb. het beeld van de zijkant van de hand waar weinig pose in te detecteren valt, kan gemakkelijk overeenkomen voor een groot aantal variaties).In addition, it can be ensured that a certain weight is given to certain perspectives, and/or certain perspectives are excluded, so that incorrect recognition is not made on the basis of a very generic view (e.g. the image of the side of the hand with little pose in it). detectable can easily match for a large number of variations).

In sommige uitvoeringsvormen kunnen meerdere tweede beeldsensoren voorzien zijn in de steriele ruimte, typisch allen gericht naar een centrale, gemeenschappelijke zone (operatietafel bijvoorbeeld). Door met meerdere tweede beeldsensoren te werken, kan verzekerd worden dat minstens één een goed zicht heeft op de handbeweging/handpose van de gebruiker ter plaatse, die gematcht kan worden aan een perspectief (van het driedimensionaal model), opnieuw zonder de gebruiker ter plaatse te dwingen om de oriëntatie van zijn of haar hand tijdens de beweging of pose in gedachten te houden. Zo kan er ook gebruik gemaakt worden van de meerdere perspectieven om een hogere graad van zekerheid te hebben bij de herkenning, zodat de vereiste drempel voor confirmatie van herkenning behaald wordt. Door bovendien voorafbepaalde gewichten te geven aan de perspectieven, kan objectiever beslist worden of de graad van zekerheid van herkenning voldoende is om de audio-intake terug in te schakelen. Zo kan een metriek opgesteld worden waarbij een drempelzekerheid X nodig is om de herkenning te confirmeren, waarbij een perspectief N een gewicht Yn krijgt en een perspectief M een gewicht Yu krijgt, en de graad van zekerheid van herkenning voor het bepaald perspectief N dan Zy is, en voor perspectief M dit Zu is. Indien Yn'Zn + Ym'Zm = X, beschouwt het systeem de handbeweging of handpose als herkend, en wordt audio-intake ingeschakeld. Indien nog extra perspectieven beschikbaar zijn, kunnen deze natuurlijk ook opgenomen worden in bovenstaande berekening, met bijvoorbeeld ook nog verschillende X- waarden, afhankelijk van het aantal perspectieven (bij voorkeur X niet lineair stijgend met het aantal perspectieven).In some embodiments, multiple second image sensors may be provided in the sterile space, typically all directed toward a central, common area (operating table, for example). By working with multiple second image sensors, it can be ensured that at least one has a good view of the user's hand movement/hand pose on site, which can be matched to a perspective (of the three-dimensional model), again without having to place the user on site. forcing him or her to keep in mind the orientation of his or her hand during the movement or pose. In this way, multiple perspectives can also be used to have a higher degree of certainty in recognition, so that the required threshold for confirmation of recognition is achieved. By also giving predetermined weights to the perspectives, it can be decided more objectively whether the degree of certainty of recognition is sufficient to switch the audio intake back on. For example, a metric can be drawn up in which a threshold certainty , and for perspective M this is Zu. If Yn'Zn + Ym'Zm = X, the system considers the hand movement or hand pose as recognized, and audio intake is enabled. If additional perspectives are available, these can of course also be included in the above calculation, for example with different X values, depending on the number of perspectives (preferably X does not increase linearly with the number of perspectives).

In een verder voorkeurdragende uitvoeringsvorm, omvat de werkwijze volgende stappen:In a further preferred embodiment, the method comprises the following steps:

15 BE2022/5516 - het detecteren van een handbeweging of handpose met de draagbare, handenvrije beeldsensor; en - het herkennen van een voorafbepaalde handbeweging of voorafbepaalde handpose in de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose.15 BE2022/5516 - detecting a hand movement or hand pose with the portable, hands-free image sensor; and - recognizing a predetermined hand movement or predetermined hand pose in the hand movement or hand pose detected by the wearable, hands-free image sensor.

Het inschakelen van de audio-intake gebeurt bij substantieel gelijktijdige herkenning van de voorafbepaalde handbeweging of de voorafbepaalde handpose in de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose en in de door de tweede beeldsensor gedetecteerde handbeweging of handpose.The audio intake is activated upon substantially simultaneous recognition of the predetermined hand movement or the predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor and in the hand movement or hand pose detected by the second image sensor.

Het inschakelen van de audio-intake gebeurt daarbij bij substantieel gelijktijdige herkenning van de voorafbepaalde handbeweging of de voorafbepaalde handpose in de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose en in de door de tweede beeldsensor gedetecteerde handbeweging of handpose. Hierbij komt de door de draagbare, handenvrije beeldsensor gedetecteerde handbeweging of handpose overeen met een eerste perspectiefaanzicht van het handbewegings- of handsposemodel, en de door de tweede beeldsensor gedetecteerde handbeweging of handpose komt overeen met een tweede perspectiefaanzicht van het handbewegings- of handposemodel, verschillend van het eerste perspectiefaanzicht.The audio intake is activated upon substantially simultaneous recognition of the predetermined hand movement or the predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor and in the hand movement or hand pose detected by the second image sensor. Here, the hand movement or hand pose detected by the wearable, hands-free image sensor corresponds to a first perspective view of the hand movement or hand pose model, and the hand movement or hand pose detected by the second image sensor corresponds to a second perspective view of the hand movement or hand pose model, different from the first perspective view.

Het gebruik van beeldmateriaal uit de handenvrije beeldsensor om de herkenning verder te verzekeren kan zoals hierboven beschreven met een bepaald model geregeld worden, zodat een drempelwaarde geaggregeerd moet bereikt worden qua herkenning om deze te confirmeren.The use of images from the hands-free image sensor to further ensure recognition can be controlled with a specific model, as described above, so that a threshold value must be reached in aggregate in terms of recognition to confirm this.

In een voorkeurdragende uitvoeringsvorm kunnen de remote gebruikers bijkomende visuele output voorzien op de grafische presentatie. De remote gebruikers nemen typisch deel aan de videoconferentie via een elektronisch toestel met beeldscherm en inputmechanismen, zoals touchscreen, keyboard, muis, joystick en/of andere, en kunnen via de inputmechanismen annotaties voorzien op de grafische presentatie.In a preferred embodiment, the remote users can provide additional visual output to the graphical presentation. The remote users typically participate in the video conference via an electronic device with a display and input mechanisms, such as touchscreen, keyboard, mouse, joystick and/or others, and can provide annotations on the graphical presentation via the input mechanisms.

Anderzijds kunnen de remote gebruikers bijkomende visuele output voorzien, zoals via het delen van een scherm van hun pc, laptop of andere, het delen van een bestand, en/of via een eigen beeldsensor (webcam en dergelijk).On the other hand, remote users can provide additional visual output, such as by sharing a screen of their PC, laptop or other, sharing a file, and/or via their own image sensor (webcam and the like).

In een voorkeurdragende uitvoeringsvorm delen de instrumenten waarvan de output gedeeld wordt in de videoconferentie, de output via een draadloze verbinding, bij voorkeur via Wi-Fi. Hiertoe wordt bij voorkeur een WAP of wireless access pointIn a preferred embodiment, the instruments whose output is shared in the video conference share the output via a wireless connection, preferably via Wi-Fi. Preferably a WAP or wireless access point is used for this purpose

16 BE2022/5516 voorzien in de steriele omgeving, via hetwelke de instrumenten hun output via Wi-Fi rechtstreeks kunnen delen met de deelnemers aan de videoconferentie. Dit vermijdt dat de output van de instrumenten langs een lokale server moet lopen.16 BE2022/5516 provide the sterile environment, through which the instruments can share their output via Wi-Fi directly with the video conference participants. This avoids the need for the output of the instruments to pass through a local server.

In een voorkeurdragende uitvoeringsvorm kunnen remote gebruikers augmented reality content voorzien in de gedeelde visuele output voor het markeren van objecten en/of zones in de visuele output, waarbij genoemde augmented reality content verankerd wordt aan het gemarkeerde object en/of zone, en waarbij bij beweging van het gemarkeerde object en/of zone, de positie van de augmented reality content aangepast wordt op basis van genoemde beweging.In a preferred embodiment, remote users can provide augmented reality content in the shared visual output for marking objects and/or zones in the visual output, whereby said augmented reality content is anchored to the marked object and/or zone, and upon movement of the marked object and/or zone, the position of the augmented reality content is adjusted based on said movement.

Remote gebruikers kunnen via het annoteren van bepaalde beelden met augmented reality content (hierna annotatie genoemd), ervoor opteren dat deze annotaties verankerd zijn aan een bepaalde positie of object in het beeld (bijvoorbeeld locatie van of voor een incisie), en niet statisch zijn (i.e. verankerd op een bepaalde pixel).By annotating certain images with augmented reality content (hereinafter referred to as annotation), remote users can choose that these annotations are anchored to a certain position or object in the image (for example, location of or in front of an incision), and are not static ( i.e. anchored on a particular pixel).

Het systeem is hierbij geconfigureerd om de locatie/positie van de annotatie op te slaan, met alle relevante data daarbij opgeslagen. Het is daarbij het doel dat, bij verandering van standpunt van de beeldsensor die het geannoteerde beeld capteert, de relatieve positie behouden blijft, en de annotatie dus meebeweegt naarmate het beeld beweegt. Zo wordt verzekerd dat bij minder stabiele beeldsensoren, de annotatie zijn gewenste betekenis of doel blijft behouden.The system is configured to store the location/position of the annotation, with all relevant data stored there. The aim is that, when the position of the image sensor that captures the annotated image changes, the relative position is maintained, and the annotation therefore moves as the image moves. This ensures that with less stable image sensors, the annotation retains its desired meaning or purpose.

Het aanpassen van de positie van de augmented reality content in de weergegeven visuele output kan op meerdere wijzen bereikt worden. Enerzijds kan dit door gebruik te maken van gyroscopen en dergelijke systemen, die de verandering in oriëntatie/positie van de beeldsensor kunnen bepalen, en waardoor op basis daarvan de positie van de augmented reality content kan herberekend worden. Alternatief of aanvullend kan ook geopteerd worden voor objectherkenning. Door bij het plaatsen van de annotatie, de zone daarrond, of zelfs het volledige beeld in acht te nemen, kan dit vergeleken worden met beelden uit nieuwe standpunten, en aan de hand daarvan kan de positie van de annotatie geüpdatet worden.Adjusting the position of the augmented reality content in the displayed visual output can be achieved in several ways. On the one hand, this can be done by using gyroscopes and similar systems, which can determine the change in orientation/position of the image sensor, and on this basis the position of the augmented reality content can be recalculated. Alternatively or additionally, object recognition can also be opted for. By taking the area around it, or even the entire image into account when placing the annotation, this can be compared with images from new viewpoints, and based on this the position of the annotation can be updated.

In het bijzonder de combinatie van de twee bovenstaande kan nuttig zijn, waarbij de objectherkenning bij voorkeur gebruikt wordt als finetuning op de ‘loggere’ herberekening op basis van determinatie van aangepaste oriëntatie/positie via gyroscopen en aanverwante sensoren.In particular, the combination of the above two can be useful, whereby object recognition is preferably used as fine-tuning over the 'more cumbersome' recalculation based on determination of adjusted orientation/position via gyroscopes and related sensors.

De augmented reality content kan vele vormen aannemen, zoals tekst, tekens, een sequentie van beelden, etc. Er kunnen één of meerdere verschillende annotaties verankerd worden aan een object/positie, terwijl bijkomend ook niet-verankerdeThe augmented reality content can take many forms, such as text, characters, a sequence of images, etc. One or more different annotations can be anchored to an object/position, while additionally non-anchored

17 BE2022/5516 annotaties kunnen toegevoegd worden (die een vaste positie in de weergave van het beeld krijgen, bijvoorbeeld voor algemene opmerkingen).17 BE2022/5516 annotations can be added (which are given a fixed position in the display of the image, for example for general comments).

In wat volgt, wordt de uitvinding beschreven a.d.h.v. niet-limiterende voorbeelden die de uitvinding illustreren, en die niet bedoeld zijn of geïnterpreteerd mogen worden om de omvang van de uitvinding te limiteren.In what follows, the invention is described by means of: non-limiting examples that illustrate the invention and are not intended or should be construed to limit the scope of the invention.

VOORBEELDENEXAMPLES

Figuur 1 toont een schematische configuratie van de actoren in een videoconferentie.Figure 1 shows a schematic configuration of the actors in a video conference.

In of rond de steriele ruimte (100), in dit geval een operatiezaal, is een operatietafel (120) centraal gepositioneerd. Een medische gebruiker zoals een chirurg (110) is aanwezig, en draagt smartglasses (112) die een draagbare, handenvrije beeldsensor omvatten. De smartglasses (112) deelt en ontvangt data in de videoconferentie.An operating table (120) is centrally positioned in or around the sterile space (100), in this case an operating room. A medical user such as a surgeon (110) is present, wearing smartglasses (112) that include a wearable, hands-free image sensor. The smartglasses (112) share and receive data in the video conference.

Daarnaast omvat de steriele ruimte (100) een aantal medische instrumenten (140) die deelnemen aan de videoconferentie en een bepaalde data-output (video, audio en/of andere) delen daarin, en optioneel ook ontvangen. Daarnaast zijn er een aantal tweede beeldsensoren (130, 130’) voorzien in de steriele ruimte (100), georiënteerd met hun gezichtsveld (130, 130”) op de operatietafel (120) in dit geval, met het oog om bewegingen en/of poses van de hand (111) van de medische gebruiker (110) op te vangen. Ook een geluidsinstallatie (150) is voorzien.In addition, the sterile room (100) includes a number of medical instruments (140) that participate in the video conference and share therein, and optionally also receive, a certain data output (video, audio and/or other). In addition, a number of second image sensors (130, 130') are provided in the sterile room (100), oriented with their field of view (130, 130') on the operating table (120) in this case, in order to detect movements and/or to accommodate poses of the hand (111) of the medical user (110). A sound system (150) is also provided.

De voorgenoemde toestellen (112, 130, 130’, 140, 150) delen en/of ontvangen data in de videoconferentie over een intermediaire server (200), waarlangs ook remote gebruikers (301, 302, 303) data kunnen delen en ontvangen in de videoconferentie.The aforementioned devices (112, 130, 130', 140, 150) share and/or receive data in the video conference via an intermediate server (200), through which remote users (301, 302, 303) can also share and receive data in the video conference. video conference.

In veel gevallen kunnen enkelzijde pijlen ook dubbelzijdig worden, indien vanuit de videoconferentie data (bvb. instructies) wordt gedeeld naar de toestellen.In many cases, single-sided arrows can also become double-sided, if data (e.g. instructions) is shared from the video conference to the devices.

Het is hiernaast natuurlijk mogelijk dat bijkomende medische instrumenten of andere types toestellen aanwezig zijn in de steriele ruimte (100) die niet deelnemen aan de videoconferentie. Deze zijn echter niet weergegeven op de Figuur.It is of course possible that additional medical instruments or other types of equipment are present in the sterile room (100) that do not participate in the video conference. However, these are not shown in the Figure.

Figuur 2 toont een schematische weergave van de grafische presentatie zichtbaar voor een remote gebruiker die deelneemt aan een videoconferentie.Figure 2 shows a schematic representation of the graphical presentation visible to a remote user participating in a video conference.

De grafische presentatie (1) wordt weergegeven op een beeldscherm van een elektronisch toestel van de remote gebruiker, bijvoorbeeld een laptop, tablet of pc, voorzien van muis, joystick, toetsenbord, touchscreen, of andere alsThe graphical presentation (1) is displayed on a screen of an electronic device of the remote user, for example a laptop, tablet or PC, equipped with a mouse, joystick, keyboard, touchscreen, or other such

18 BE2022/5516 inputmechanismen. De presentatie (1) kan hierbij eventueel gemaximaliseerd worden, of in een ander formaat weergegeven op het beeldscherm.18 BE2022/5516 input mechanisms. The presentation (1) can be maximized or displayed in a different format on the screen.

De grafische presentatie (1) omvat een aantal secties (2a, 2b), waaronder een vergrote sectie (2a), en een aantal ‘gewone’ secties (2b). Elk van de secties (2a, 2b) staat voor een remote gebruiker, al of niet zichtbaar weergegeven via een eigen beeldsensor, of een beeldvormend instrument.The graphical presentation (1) includes a number of sections (2a, 2b), including an enlarged section (2a), and a number of 'normal' sections (2b). Each of the sections (2a, 2b) represents a remote user, whether or not visibly displayed via its own image sensor or an imaging instrument.

In dit geval geeft de vergrote sectie (2a) de visuele output weer van een beeldsensor met zoomlens op het draagbare apparaat van de gebruiker ter plaatse, zoals ook te zien is in een label (3) in genoemde vergrote sectie (2a). Ook de andere secties (2b) zijn voorzien van dergelijke labels (3). In de grafische presentatie (1) zijn hier een anesthesist aanwezig, zichtbaar in het label (3) van de bovenste sectie (2b), en de visuele output van een centrale camera op het handenvrij toestel van de gebruiker ter plaatse. Ten slotte is ook de visuele output van een echografisch apparaat beschikbaar via de videoconferentie in de onderste sectie (2b).In this case, the enlarged section (2a) displays the visual output of a zoom lens image sensor on the user's portable device on site, as can also be seen in a label (3) in said enlarged section (2a). The other sections (2b) also have such labels (3). In the graphical presentation (1), an anesthetist is present here, visible in the label (3) of the upper section (2b), and the visual output from a central camera on the user's hands-free device on site. Finally, the visual output of an ultrasound device is also available via the video conference in the lower section (2b).

De remote gebruiker (anesthesist in dit geval), kan naargelang wensen kiezen welke visuele output hij wil visualiseren in de vergrote sectie (2a), bijvoorbeeld door touch- interactie met de sectie die de visuele output van de centrale camera weergeeft.The remote user (anesthetist in this case) can choose which visual output he wants to visualize in the enlarged section (2a), for example by touch interaction with the section that displays the visual output of the central camera.

Op de grafische presentatie (1) is eveneens een actie-werkbalk (4) voorzien voor het controleren of manipuleren van de gedeelde visuele output, in het bijzonder deze in de vergrote sectie (2a). Veelal wordt dit mogelijk gemaakt via iconen (4a-4g) in de werkbalk, die kunnen ingesteld worden naargelang de wens van de gebruikers.The graphical presentation (1) also provides an action toolbar (4) for controlling or manipulating the shared visual output, especially that in the enlarged section (2a). This is often made possible via icons (4a-4g) in the toolbar, which can be set according to the wishes of the users.

In dit geval heeft de werkbalk (4) de mogelijkheid voor het aansturen van een lamp (4a) op de beeldsensor van de gebruiker ter plaatse, kan hij de grafische presentatie maximaliseren in zijn scherm (4b), kan hij een foto nemen (4c) van het beeld in de vergrote sectie (2a), kan het geluidsniveau van de videoconferentie aangepast worden (4d), wordt de levensduur van de batterij van de beeldsensor van de gebruiker ter plaatse weergegeven (4e), kunnen instellingen gewijzigd worden (4f), kan ook de verbindingssterkte weergegeven worden (4g), en kunnen ten slotte annotaties voorzien worden, zowel statisch (4h) als verankerd (4). Het dient natuurlijk beseft te worden dat voorgaande slechts een voorbeeld is, en dat bijkomende functionaliteiten kunnen voorzien worden, zoals contrast aanpassen, inzoomen, het aanpassen van de oriëntatie van de beeldsensor, etc.In this case, the toolbar (4) has the possibility of controlling a lamp (4a) on the image sensor of the user on site, he can maximize the graphical presentation in his screen (4b), he can take a photo (4c) of the image in the enlarged section (2a), the audio level of the video conference can be adjusted (4d), the battery life of the user's image sensor is displayed on site (4e), settings can be changed (4f), the connection strength can also be displayed (4g), and finally annotations can be provided, both static (4h) and anchored (4). It should of course be realized that the foregoing is just an example, and that additional functionalities can be provided, such as adjusting contrast, zooming in, adjusting the orientation of the image sensor, etc.

19 BE2022/551619 BE2022/5516

Ten slotte zijn op de vergrote sectie (2a) twee vormen van annotaties voorzien, een verankerde (5a), die zal meebewegen met de zone waarop ze afgebeeld is, en een stationaire (5b), die substantieel op dezelfde positie in de vergrote sectie (2a) zal blijven staan.Finally, the enlarged section (2a) has two annotated shapes, an anchored one (5a), which will move with the area on which it is mapped, and a stationary one (5b), which will be substantially in the same position in the enlarged section ( 2a) will remain.

Het is verondersteld dat de huidige uitvinding niet beperkt is tot de uitvoeringsvormen die hierboven beschreven zijn en dat enkele aanpassingen of veranderingen aan de beschreven voorbeelden kunnen toegevoegd worden zonder de toegevoegde conclusies te herwaarderen. Bijvoorbeeld, de huidige uitvinding werd beschreven met verwijzing naar medische procedures, maar het mag duidelijk zijn dat de uitvinding kan toegepast worden op bvb. gevaarlijke operaties, zoals het ontmantelen van explosieven of onderhoud in omgevingen met hoge radioactiviteit, onderhoud van diepzee-systemen, moeilijk toegankelijke systemen of apparatuur en andere. In elk van deze situaties zou de expertise van meerdere personen extreem voordelig uitkomen, maar is dit ofwel onmogelijk, ofwel een te hoog bijkomend risico.It is understood that the present invention is not limited to the embodiments described above and that some modifications or changes may be added to the described examples without revising the appended claims. For example, the present invention has been described with reference to medical procedures, but it should be understood that the invention may be applied to e.g. hazardous operations, such as dismantling explosives or maintenance in high radioactivity environments, maintenance of deep-sea systems, difficult-to-access systems or equipment and others. In each of these situations, the expertise of several people would be extremely beneficial, but this is either impossible or too high an additional risk.

Claims

20 BE2022/5516 CONCLUSIONS

1. Method for managing a video conference between a medical user located in a sterile room, preferably during medical treatment in the sterile room, and one or more remote users, wherein the user in the sterile room has a portable, hands-free image sensor, preferably on the head, and preferably the image sensor forms part of smart glasses, wherein a second, preferably stationary, image sensor is provided in the sterile space, the second image sensor participates in the video conference, and where a microphone is provided in the sterile room, preferably on the portable hands-free image sensor, the microphone participating in the video conference, the method includes the following steps:

a. sharing video input from the wearable, hands-free image sensor in the video conference;

b. sharing audio input from the microphone in the video conference;

c. optionally sharing additional video and/or audio input from one or more of the remote users in the video conference;

d. disabling audio input via the microphone or disabling audio input via the microphone, whereby the audio input from the microphone is not shared over the video conference when the audio input via the microphone is disabled;

e. detecting a hand movement or hand pose with the second image sensor;

f. recognizing a predetermined hand movement or predetermined hand pose in the hand movement or hand pose detected by the second image sensor;

g. switching on the audio input via the microphone upon recognition of the predetermined hand movement or the predetermined hand pose with the second image sensor, whereby the audio input from the microphone is shared over the video conference when the audio input via the microphone is switched on.

2. Method according to the preceding claim 1, wherein the microphone is integrated into the portable, hands-free image sensor, and the microphone and the portable, hands-free image sensor preferably form part of smart glasses.

21 BE2022/5516

3. Method according to one of the preceding claims 1 or 2, wherein the second image sensor is provided on or on a screen in the sterile room, wherein the screen displays at least part of a visual presentation of the video conference.

4. Method according to any of the preceding claims 1 to 3, comprising a step of detecting a hand movement or hand pose with the wearable, hands-free image sensor, and a step of recognizing a predetermined hand movement or predetermined hand pose in the position determined by the hand movement or hand pose detected by the portable, hands-free image sensor, whereby the audio intake is switched on upon recognition of the predetermined hand movement or the predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor.

5. Method according to any of the preceding claims 1 to 4, comprising a step of detecting a hand movement or hand pose with the wearable, hands-free image sensor, and a step of recognizing a predetermined hand movement or predetermined hand pose in the position determined by the portable, hands-free image sensor detected hand movement or hand pose, whereby the audio intake is switched on upon substantially simultaneous recognition of the predetermined hand movement or the predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor and in the hand movement or hand pose detected by the second image sensor hand movement or hand pose.

6. Method according to any of the preceding claims 1 to 5, wherein a sound system is provided in or near the sterile room for playing audio in the sterile room, wherein the sound system is linked in the video conference for playing audio from the video conference.

7. Method according to the preceding claim 6, wherein switching on the audio intake via the microphone cannot be activated via voice command or voice recognition.

22 BE2022/5516

8. Method according to any of the preceding claims 1 to 7, wherein the portable, hands-free image sensor can be controlled via voice commands when audio intake via the microphone is enabled.

A method according to the preceding claim 8, comprising a step of sharing additional audio input from one or more of the remote users in the video conference, and comprising a step of controlling the portable, hands-free image sensor via voice command or voice recognition applied on the additional audio input, preferably whereby controlling the image sensor via the additional audio input is only possible when audio intake via the microphone is enabled.

10. Method according to one of the preceding claims 8 or 9, wherein controlling the image sensor comprises at least manipulating focus and contrast of the image sensor.

Method according to any one of the preceding claims 1 to 10, wherein at least one additional video input is shared in the video conference, the additional video input originating from a medical imaging instrument.

12. Method according to any of the preceding claims 1 to 11, wherein audio input and/or video input from the portable, hands-free image sensor and the remote users are exchanged via an intermediary server between the medical user and the remote users during the video conference, preferably via a selective forwarding unit (SFU) server, and where the recognition of the predetermined hand movement or the predetermined hand pose takes place on the intermediary server, on the basis of a pre-programmed signal database comprising hand movements and/or hand poses and associated actions , where the actions involve manipulating the audio input and/or video input in the video conference.

Method according to any of the preceding claims 1 to 12, wherein the wearable, hands-free image sensor is integrated in smart glasses, further comprising a screen, wherein the screen of the smart glasses displays the video conference.

23 BE2022/5516

14. Method according to any of the preceding claims 1 to 13, wherein the recognition of the predetermined hand movement or the predetermined hand pose takes place on the basis of comparing the detected hand movement or hand pose with a hand movement or hand pose model that has been compared with a three-dimensional model. and/or includes at least two different perspective views of a three-dimensional hand movement or hand pose.

15. Method according to the preceding claims 5 and 14, wherein the audio intake is switched on upon substantially simultaneous recognition of the predetermined hand movement or the predetermined hand pose in the hand movement or hand pose detected by the portable, hands-free image sensor and in the hand movement or hand pose detected by the second image sensor-detected hand movement or hand pose, wherein the hand movement or hand pose detected by the wearable, hands-free image sensor corresponds to a first perspective view of the hand movement or hand pose model, and the hand movement or hand pose detected by the second image sensor corresponds to a second perspective view of the hand movement or hand pose hand pose model, different from the first perspective view.