FR3113762A1

FR3113762A1 - Procédé de contrôle vocal dans une salle notamment opératoire d’un plateau médico-technique

Info

Publication number: FR3113762A1
Application number: FR2008870A
Authority: FR
Inventors: Ilyes Sghir
Original assignee: Deepor
Current assignee: Deepor
Priority date: 2020-09-01
Filing date: 2020-09-01
Publication date: 2022-03-04

Abstract

Un procédé de contrôle vocal dans une salle (1) d’un plateau médico-technique, comprenant la mise en œuvre par des moyens de traitement de données (21) d’un terminal (2) disposé dans la salle (1) et implémentant un système d’exploitation intégrant un assistant personnel intelligent de reconnaissance vocale, d’étapes de : Réception depuis des moyens d’acquisition et de restitution sonore (20) connectés audit terminal (2), d’un signal sonore ; Traitement dudit signal sonore de sorte à identifier un fragment dudit signal sonore représentatif d’une commande vocale, ledit traitement étant mis en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale ; Transmission dudit fragment à un serveur distant (3) pour analyse de sorte à comprendre la commande vocale et l’exécuter ; Réception en retour d’un message de réponse à ladite commande vocale ; Synthèse vocale dudit message en utilisant ledit assistant personnel intelligent de reconnaissance vocale, et transmission auxdits moyens d’acquisition et de restitution sonore (20) pour restitution. Figure pour l’abrégé : Fig. 1

Description

Procédé de contrôle vocal dans une salle notamment opératoire d’un plateau médico-technique

DOMAINE TECHNIQUE GÉNÉRAL

La présente invention se rapporte au domaine hospitalier. Plus précisément, elle concerne un procédé de contrôle vocal dans une salle d’un plateau médico-technique, en particulier pour requérir des informations sur un patient, dicter un compte-rendu opératoire, ou encore piloter la salle.

ETAT DE L’ART

Les blocs opératoires sont des structures où sont pratiqués les interventions chirurgicales et les gestes d’anesthésie-réanimation nécessaires au bon déroulement de l’intervention, ainsi formées d’un ensemble de salles opératoires (dans lesquelles les interventions sont à proprement parler effectuées), de vestiaires chirurgicaux, d’une salle de réveil (dite SSPI, pour Salle de Surveillance Post-Interventionnelle), et de bureaux.

Les blocs opératoires font partie de ce que l’on appelle le « plateau médico-technique » (ou simplement le plateau technique), c’est-à-dire l’ensemble des lieux d’un hôpital ou d’une clinique permettant de réaliser, des actes curatifs ou diagnostiques. Le plateau peut comprendre en outre des salles d'accouchement, des salles d'imagerie médicale, des salles d'exploration fonctionnelles, etc.

Les blocs opératoires et de façon générale les plateaux médico-techniques sont des ressources complexes et coûteuses à gérer au sein d’un hôpital ou d’une clinique.

Les grands hôpitaux ont plusieurs dizaines de salles opératoires avec chacune plusieurs opérations par jour, lesquelles sont souvent planifiées plusieurs semaines en avance.

De manière à améliorer l’exploitation des blocs opératoires et faciliter le travail des chirurgiens, ont été déployés des systèmes de contrôle vocal, permettant au chirurgien de dicter son compte-rendu opératoire en direct (alors qu’auparavant il l’écrivait à posteriori de mémoire, ce qui pouvait nuire à sa qualité), de contrôler des instruments chirurgicaux (voir notamment le brevet US7921017), voire de piloter complètement la salle opératoire (voir notamment la demande FR1760148).

L’intérêt de la reconnaissance vocale est qu’elle ne nécessite pas d’utiliser ses mains, et donc qu’un chirurgien ou un autre membre du personnel peut tout à fait l’utiliser sans impact sur l’opération et sans risque d’hygiène.

Le système classique utilisé comprend un équipement central de type mini-PC disposé dans la salle, connecté à des moyens d’acquisition sonore tels qu’un casque sans-fil porté par le chirurgien (par exemple via Bluetooth), et à un serveur distant (via un réseau filaire internet) dédié. L’équipement s’occupe de la synchronisation avec les moyens d’acquisition sonore, de l’enregistrement et du pré-traitement des commandes prononcées par le chirurgien, ainsi que du retour vocal confirmant la bonne compréhension de ses instructions. Le serveur distant réalise la partie la plus lourde du traitement avec la compréhension sémantique de la commande vocale et son exécution.

De surcroit, un terminal tel qu’une tablette tactile ou un smartphone est généralement également connecté à l’équipement central pour offrir une interface graphique. Un tel terminal est peu onéreux et peut être désinfecté très facilement.

Une telle architecture offre satisfaction mais s’avère inutilement complexe et optimisable. En particulier, les moyens d’acquisition sonore pourraient directement être connectés au terminal, ce qui augmenterait sensiblement l’ergonomie, et l’équipement central pourrait être complètement supprimé (le terminal peut être directement connecté à Internet et donc au serveur distant, par exemple en Wi-Fi).

Le problème est qu’un terminal de type smartphone ou tablette tactile n’a d’une part pas la puissance de traitement d’un PC et d’autre part a généralement un OS assez fermé de sorte qu’il n’est pas possible de simplement transférer au terminal le rôle de l’équipement central.

On pourrait néanmoins s’en sortir en utilisant les outils directement intégrés à l’OS appelés « assistants personnels intelligents » tel que Siri®, Assistant Google® ou encore Alexa® pour analyser les commandes, et n’externaliser sur le serveur distant que l’exécution de ces dernières.

Le problème est que les assistants personnels intelligents externalisent eux même sur des serveurs propriétaires (d’Apple® par exemple pour Siri®) la partie compréhension du langage naturel, ce qui n’est pas acceptable pour des questions de confidentialité des données médicales.

Il serait ainsi souhaitable de disposer d’une nouvelle solution de contrôle vocal dans une salle d’un plateau médico-technique, qui soit plus simple, plus optimisée, encore plus efficace, et ne cause aucun problème de confidentialité des données.

PRÉSENTATION DE L’INVENTION

La présente invention se rapporte donc selon un premier aspect à un procédé de contrôle vocal dans une salle d’un plateau médico-technique, le procédé étant caractérisé en ce qu’il comprend la mise en œuvre par des moyens de traitement de données d’un terminal disposé dans la salle et implémentant un système d’exploitation intégrant un assistant personnel intelligent de reconnaissance vocale, d’étapes de :

Réception depuis des moyens d’acquisition et de restitution sonore connectés audit terminal, d’un signal sonore ;
Traitement dudit signal sonore de sorte à identifier un fragment dudit signal sonore représentatif d’une commande vocale, ledit traitement étant mis en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale ;
Transmission dudit fragment à un serveur distant pour analyse de sorte à comprendre la commande vocale et l’exécuter ;
Réception en retour d’un message de réponse à ladite commande vocale ;
Synthèse vocale dudit message en utilisant ledit assistant personnel intelligent de reconnaissance vocale, et transmission auxdits moyens d’acquisition et de restitution sonore (20) pour restitution.

Selon des caractéristiques avantageuses et non-limitatives :

L’étape (a) comprend la détection préalable d’une requête d’invocation de commande vocale.

L’étape (a) comprend l’enregistrement dudit signal sonore à partir de la détection de ladite requête d’invocation de commande vocale.

Ladite requête d’invocation de commande vocale est la prononciation d’un mot clé de réveil ou l’appui d’un bouton sur le terminal ou les moyens d’acquisition et de restitution sonore.

L’étape (b) comprend la détection d’un silence, ledit fragment dudit signal sonore représentatif d’une commande vocale s’étendant jusqu’au silence.

Lesdits moyens d’acquisition et de restitution sonore sont un casque à conduction osseuse.

Ledit message de réponse est généré par le serveur distant lors de l’exécution de la commande vocale.

La commande vocale est une requête d’informations relatives à un patient traité dans la salle, et ledit message de réponse contient lesdites informations relatives à un patient traité dans la salle.

L’étape (b) comprend le pré-traitement du fragment dudit signal sonore représentatif d’une commande vocale en fonction d’un contexte sonore de la salle.

L’étape (e) comprend la fourniture audit assistant personnel intelligent de reconnaissance vocale du message sous la même forme qu’une forme dans laquelle sont reçues les réponses à des commandes vocales traitées directement par ledit assistant personnel intelligent.

Selon un deuxième aspect, l’invention propose un terminal de contrôle vocal dans une salle d’un plateau médico-technique, implémentant un système d’exploitation intégrant un assistant personnel intelligent de reconnaissance vocale, caractérisé en ce qu’il comprend des moyens de traitement de données configurés pour mettre en œuvre des étapes de :

Réception depuis des moyens d’acquisition et de restitution sonore connectés audit terminal, d’un signal sonore ;
Traitement dudit signal sonore de sorte à identifier un fragment dudit signal sonore représentatif d’une commande vocale, ledit traitement étant mis en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale ;
Transmission dudit fragment à un serveur distant pour analyse de sorte à comprendre la commande vocale et l’exécuter ;
Réception en retour d’un message de réponse à ladite commande vocale ;
Synthèse vocale dudit message en utilisant ledit assistant personnel intelligent de reconnaissance vocale, et transmission auxdits moyens d’acquisition et de restitution sonore pour restitution.

Selon un troisième aspect, l’invention propose un système de contrôle vocal dans un plateau médico-technique comprenant au moins une salle, comprenant, pour au moins une salle un terminal selon le deuxième aspect disposé dans la salle, et un serveur distant, connectés.

Selon un quatrième et un cinquième aspect, l’invention propose un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon le premier aspect de contrôle vocal dans une salle d’un plateau médico-technique ; et un moyen de stockage lisible par un équipement informatique sur lequel est enregistré un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé le premier aspect de contrôle vocal dans une salle d’un plateau médico-technique.

PRÉSENTATION DES FIGURES

D’autres caractéristiques et avantages de la présente invention apparaîtront à la lecture de la description qui va suivre d’un mode de réalisation préférentiel. Cette description sera donnée en référence aux dessins annexés dans lesquels :

- la est un schéma d’un système pour la mise en œuvre du procédé selon l’invention ;

- la illustre schématiquement les étapes d’un mode de réalisation du procédé selon l’invention.

DESCRIPTION DÉTAILLÉE

Contrôle vocal d’une salle d’un plateau médico-technique

La présente invention concerne un procédé de contrôle vocal dans une salle d’un plateau médico-technique, et notamment d’une salle opératoire 1.

Comme expliqué, la salle opératoire est une pièce du bloc opératoire dans laquelle les opérations sont effectuées. A ce titre une salle opératoire 1 comprend une table d’opération, généralement disposée en son centre de sorte à pouvoir circuler autour, sur laquelle le patient est allongé pour l’opération. Dans la suite de la présente description on prendra l’exemple préféré de la salle opératoire mais on comprendra que l’invention peut être mise en œuvre dans les autres salles du plateau médico-technique telle qu’une salle d’imagerie médicale, une salle de réveil ou une salle de cardiologie.

Par « contrôle » vocal on entend de manière large toute exécution d’une commande pouvant être prononcée oralement par le personnel de ladite salle 1, et ayant un intérêt dans l’exploitation de la salle 1, en particulier en cours d’opération.

Ledit contrôle peut en particulier concerner :

le pilotage de la salle 1 (gestion de la disponibilité de la salle 1, les commandes vocales associées concernent des étapes de changement d’état de la salle comme « opération terminée ») ;
le contrôle d’instruments chirurgicaux de la salle 1 (par exemple « allumage aspiration ») ;
la dictée d’un compte-rendu opératoire ;
la requête d’informations sur le patient qui est/sera opéré dans la salle 1 (commande telle que « quel est le poids du patient ? ») ;
la recherche de documents patient (commande telle que « ouvre-moi les résultats de la dernière IRM ») ;
la requête d’introduction de données dans le dossier patient ;
etc.

En référence à la , le procédé est mis en œuvre au sein d’un système comprenant au moins un terminal 2 et des moyens d’acquisition et de restitution sonore 20 connectés audit terminal 2.

Le terminal 2 comprend des moyens de traitement de données 21 tel qu’un processeur, typiquement des moyens de stockage de données 22 tels qu’une mémoire, et est disposé dans la salle opératoire 1 (cela est nécessaire pour qu’il puisse afficher des informations pour le chirurgien, et également pour des questions de sécurité informatique). Le terminal 2 est typiquement un terminal mobile, c’est-à-dire un équipement léger et facilement manipulable, en particulier une tablette tactile ou un smartphone, un tel terminal est peu onéreux et peut être désinfecté très facilement, car généralement résistant aux liquides. Alternativement, il peut s’agir d’un terminal fixe, en particulier directement intégré à la salle 1, par exemple une tablette montée sur un bras s’étendant depuis la table d’opération ou depuis un système d’éclairage chirurgical au plafond (un scialytique), voire même un écran tactile fixé au mur.

Il implémente un système d’exploitation intégrant un assistant personnel intelligent de reconnaissance vocale, par exemple Siri® pour iOS, assistant Google® pour Android®, Cortana® pour Windows Mobile®, etc. Par assistant personnel intelligent de reconnaissance vocale, on entend toute application permettant nativement de comprendre et traiter des commandes vocales généralement liées au fonctionnement normal du terminal 2, par exemple, donner la météo lorsqu’on lui demande, mettre une alarme lorsqu’on lui demande, etc. On comprendra que ledit assistant personnel intelligent de reconnaissance vocale est « tel quel » c’est-à-dire qu’il n’est pas modifié, ce qui serait d’ailleurs quasi impossible vu que les systèmes d’exploitation de tels terminaux sont généralement fermés. On suppose également qu’un serveur propriétaire est associé audit assistant personnel intelligent de reconnaissance vocale, par exemple un serveur Apple® pour Siri®, pour le traitement des commandes vocales passées via l’assistant personnel intelligent.

Le terminal 2 peut également être connecté à un serveur distant 3 dédié, i.e. un serveur lié au plateau médico-technique et sous-contrôle (par exemple par l’hôpital), par opposition à l’éventuel serveur qu’utiliserait ledit assistant personnel intelligent de reconnaissance vocale. Pour reformuler, le serveur 3 est totalement indépendant du système d’exploitation du terminal 2 ou de son opérateur (et n’a ainsi rien à voir avec ledit serveur associé à l’assistant personnel intelligent de reconnaissance vocale), ce qui signifie qu’on peut lui envoyer des données médicales de patients de manière confidentielle sans risque pour la confidentialité.

La connexion peut être via le réseau internet 30, typiquement le terminal 2 peut se connecter au réseau internet 30 sans fil, en Wifi ou via un réseau de communication mobile de type 3G, 4G ou 5G.

Les moyens d’acquisition et de restitution sonore 20 sont typiquement un casque ou des écouteurs (avec micro) porté par le chirurgien (ou tout personnel présent dans la salle 1), très avantageusement un casque à conduction osseuse. L'ostéophonie ou conduction osseuse désigne le phénomène de propagation du son jusqu'à l'oreille interne via les os du crâne. De même, un microphone peut être utilisé pour enregistrer des sons parlés par conduction osseuse.

Un tel casque comprend des transducteurs électromécaniques, positionnés typiquement sur la tempe, la joue, l’arrière du crâne ou encore la mâchoire, de sorte à convertir les signaux électriques en vibrations mécaniques et envoyer le son à l'oreille interne à travers les os du crâne, et inversement convertir les vibrations des os du crane ou de la mâchoire causées par la parole en signaux électriques.

Les casques à conduction osseuse sont très intéressants car :

ils n’empêchent pas d’entendre le son ambiant de sorte que le praticien peut parler avec son équipe,
sont facilement utilisable avec des équipements de protection comme une masque, et
comme le terminal 2 ils peuvent être désinfectés facilement car résistants à l’eau.

Les moyens d’acquisition et de restitution sonore 20 peuvent être de types variés, il suffit qu‘ils soient aptes à écouter le son ambiant de la salle 1 et à permettre un retour vocal, ainsi alternativement un couple microphone/haut-parleur disposé dans la salle 1 est possible même si un casque est préféré (le fait d’entendre via le casque les informations sur le patient permet aussi de diriger les informations personnelles sur le patient vers un seul interlocuteur identifié. Il s’agit d’une surcouche de protection des données médicales du patient. De plus l’acquisition sonore est focalisée sur le porteur du casque et réduit les risques d’erreur). On note qu’on pourra combiner un casque avec un microphone et/ou un haut-parleur de sorte à dans certains cas autoriser une acquisition sonore de toute la salle 1 et/ou une restitution sonore à destination de toute la salle.

La connexion entre les moyens 20 et le terminal 2 est avantageusement directe, il suffit par exemple d’un appariement Bluetooth.

Ainsi selon un premier scénario, le chirurgien entre en salle 1 où il trouve le casque 20 et le terminal 2 désinfectés et déjà appariés. Il lance avantageusement une application, et si besoin entre alors des identifiants personnels (ou présente sa biométrie) sur le terminal 2 pour pouvoir l’utiliser.

Selon un deuxième scénario, le terminal 2 est un équipement personnel du chirurgien tel que son smartphone. Il entre dans la salle 1, désinfecte le terminal 2, et le casque 20 s’y apparie automatiquement du fait de la proximité (il reste possible de sélectionner le casque 20 manuellement sur le terminal 2).

Les moyens d’acquisition et de restitution sonore 20 comprennent avantageusement un bouton lecture/pause, qui peut être utilisé comme bouton de requête d’invocation de commande vocale, voir plus loin.

On note que par opposition à la solution connue, il n’y a pas d’autre équipement central qui traiterait des données de manière intermédiaire entre le terminal 2 et le serveur 3.

A noter que le présent procédé peut être simultanément mis en œuvre dans plusieurs salles opératoires 1 chacune équipée d’un terminal 2, chacun connecté au serveur 3.

Procédé

Le présent procédé est mis en œuvre par les moyens de traitement de données 21 du terminal 2 disposé dans la salle 1. On suppose comme expliqué avantageusement qu’une application dédiée est installée sur le terminal 2.

L’idée à la base du présent procédé est de séparer la partie reconnaissance vocale (identification et traitement d’une commande vocale) de la partie synthèse vocale (génération d’un message de réponse à la commande vocale), en utilisant ledit assistant personnel intelligent de reconnaissance vocale non pas pour la reconnaissance vocale mais uniquement pour la synthèse vocale.

En d’autres termes, la partie reconnaissance vocale dudit procédé est codée nativement, et mise en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale.

Cela peut paraitre paradoxal, mais cela permet d’éviter tout envoi de données aux serveurs utilisés par ledit assistant personnel (les serveurs d’Apple® par exemple pour Siri®), tout en bénéficiant des fonctionnalités existantes de cet assistant personnel pour alléger les ressources nécessaires, et ce avec une latence minimale et une disponibilité « indéfectible ». Comme l’on verra le gros du traitement reste mis en œuvre par le serveur 3 qui lui est un serveur connu et contrôlé.

A ce titre ladite application dédiée installée sur le terminal 2 comprend avantageusement un connecteur pour envoyer des données audit assistant personnel intelligent. En particulier, l’assistant personnel intelligent dispose généralement d’APIs (interface de programmation d’application) publiques pouvant être utilisées par ledit connecteur. En d’autres termes, ladite application dédiée installée sur le terminal 2 utilise au moins une API dudit assistant personnel intelligent, on citera par exemple l’API iOS Siri® TTS (Text-To-Speech).

L’autre intérêt d’utiliser les API de l’assistant personnel intelligent est qu’il est possible de modifier directement des paramètres tels que le choix de la voix (notamment voix féminine ou masculine) la vitesse d’élocution, la hauteur, contrôler le volume, la langue (i.e. l’accent de la prononciation), etc.

En référence à la , le procédé commence par une première étape (a) de réception depuis les moyens d’acquisition et de restitution sonore 20 connectés audit terminal 2, d’un signal sonore (i.e. le signal électrique représentatif d’une vibration acoustique, représentatif du son ambiant). On comprend que ce signal sonore comprend la transcription d’au moins une commande vocale prononcée qui doit être identifiée et exécutée. Le signal sonore est enregistré par les moyens de traitement de données 21 sous la forme d’un fichier audio.

Naturellement, cette étape (a) implique l’acquisition dudit signal sonore par lesdits moyens d’acquisition et de restitution sonore 20, et sa transmission au terminal 2, qui enregistrent alors le signal sonore sous la forme dudit fichier audio.

Selon un premier mode de réalisation, les moyens 20 écoutent en permanence le son et l’envoient à la volée au terminal 2 qui l’enregistre en continu sous forme de flux. Une telle solution est possible mais très lourde en termes de traitements subséquent du signal (les moyens de traitement de données 21 doivent en permanence chercher à identifier une potentielle commande vocale dans le flux sonore).

Selon un deuxième mode de réalisation préféré, l’étape (a) comprend la détection d’une requête d’invocation de commande vocale.

Par « requête d’invocation de commande vocale » on entend soit une commande vocale spécifique d’initialisation du procédé, indiquant que la vraie commande vocale va suivre (par exemple la prononciation d’un mot-clé, voir plus loin), mais également la simple pression d’un bouton sur les moyens 20 (en particulier un bouton lecture/pause), le terminal 2, ou un autre actionneur (par exemple une pédale dans la salle 1). Plus précisément, si une requête d’invocation de commande vocale est valablement détectée, alors (et seulement là) l’enregistrement d’un signal sonore est mis en œuvre.

Naturellement, dans le cas d’une commande vocale spécifique d’initialisation de type mot-clé, le son ambiant reste en permanence écouté et transmis au terminal 2, mais ce dernier ne l’enregistre pas sous forme d’un fichier audio tant qu’il n’a pas détecté le mot-clé. Le traitement est bien plus léger car seul le mot-clé est attendu.

Dans ce mode de réalisation, l’étape (a) comprend l’analyse par les moyens de traitement de données 21 du terminal 2 de la requête d’invocation de commande vocale de sorte à détecter au moins un mot-clé. En d’autres termes, l’acquisition d’une commande vocale n’est pas mise en œuvre tant que le mot clé (ou un des mots-clés) n’a pas été détecté. Si le mot clé n’est pas détecté, on considère que l’on n’a pas affaire à une requête d’invocation de commande vocale.

Le mot-clé de réveil, ou « wake word » ou encore « trigger word » en anglais, est un mot ou une phrase (et de façon générale une sonorité) prédéterminé facile à reconnaître, et dont la détection entraîne l’acquisition de la commande vocale, i.e. autorise la mise en œuvre de la suite du procédé.

On connaît par exemple les wake words « Ok Google® » ou « Dis Siri® » dans les systèmes de reconnaissance vocale Android® et iOS, mais dans le présent contexte opératoire, on pourra prendre n’importe quel mot-tel que « Requête ».

Et dans la mesure où le wake word est unique et bref (et souvent choisi comme une sonorité ou une succession de sonorités peu communes lors d’une discussion), il est plus facile de le détecter que de détecter l’une des commandes vocales.

Un module de détection de mots-clés de réveil est mis en œuvre par les moyens de traitement de données 21 (comme expliqué, indépendamment dudit assistant personnel intelligent de reconnaissance vocale). Le module reçoit en permanence le signal sonore produit par les moyens d’acquisition sonore 20 (le son ambiant est donc écouté en permanence), et le traite en permanence en y cherchant le mot-clé. On répète que ce traitement est à la portée d’un simple terminal 2 car la détection est bien plus simple que la compréhension d’une commande vocale.

Dans le cas d’un bouton sur un casque 20, on note que la plupart des casques existants ont comme évoqué avant un bouton « lecture/pause » pour prendre/raccrocher un appel ou écouter de la musique. Le présent procédé utilise astucieusement ce bouton lecture/pause comme bouton de « requête d’invocation de commande vocale », i.e. ladite requête d’invocation de commande vocale peut être l’appui sur le bouton lecture/pause des moyens 20. Cette utilisation peut être simplement prévu de manière logicielle dans l’application dédiée installée sur le terminal 2 : si cette application est lancée la fonction normale du bouton peut être désactivée et remplacée par le déclenchement de la suite du procédé.

En cas de détection du mot-clé (et de façon générale d’une requête d’invocation de commande vocale), un signal de confirmation peut être émis en retour à destination des moyens 20 (par exemple un son de confirmation, ou une couleur verte d’une LEDs) et/ou du terminal 2 (un flash à l’écran) de sorte à informer le praticien ayant prononcé la requête d’invocation qu’elle a bien été reçue et qu’il peut prononcer la commande vocale.

A ce titre, l’étape (a) comprend avantageusement l’enregistrement dudit signal sonore à partir de la détection de ladite requête d’invocation de commande vocale.

Ensuite, dans une étape (b), ledit signal sonore est traité de sorte à identifier un fragment dudit signal sonore représentatif d’une commande vocale, ledit traitement étant comme expliqué mis en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale.

En supposant que ledit fragment commence à ladite détection de ladite requête d’invocation de commande vocale, l’étape (b) consiste à en identifier la fin.

De manière préférée, l’étape (b) comprend la détection d’un silence, ledit fragment dudit signal sonore représentatif d’une commande vocale s’étendant jusqu’au silence, i.e. le son est enregistré tant que le praticien parle. Ainsi, l’étape (b) peut être extrêmement simple pour le terminal 2 : enregistrer tout morceau de signal sonore s’étendant d’un mot-clé à un silence, ce qui ne nécessite pas de puissance de traitement élevé, peut être fait à la volée et ne requiert absolument pas l’utilisation de l’assistant vocal intelligent. Le fragment obtenu peut être vu comme « candidat » à contenir une commande vocale.

A noter que la fin du fragment peut être détectée de manière alternative, par exemple via la détection de l’appui sur un bouton des moyens 20 ou du terminal 2, ou bien une à l’issue d’une durée prédéterminée maximum par exemple trente secondes.

Dans un mode de réalisation sans requête d’invocation de commande vocale (non préféré), l’étape (b) peut nécessiter la reconnaissance de mots susceptibles de faire partie d’une commande vocale, de sorte à extraire le bon fragment du signal sonore enregistré en continu.

L’étape (b) peut ensuite comprendre le prétraitement du fragment par les moyens de traitement de données 21 en fonction d’un contexte sonore de la salle 1. En effet, la prise de son n’est pas dans des conditions habituelles, dans la mesure où le personnel a généralement un masque qui déforme la parole, et de plus on a un bruit de fond résiduel dans la salle 1 (« bip » de certaines machines de surveillance corporelle, bruit des instruments métalliques, etc.).

Il est possible d'entraîner par exemple un réseau de neurones mis en œuvre par les moyens 21 pour tenir compte de ce contexte et « filtrer » le signal sonore/le fragment, pour faciliter la suite du procédé. On note qu’un casque à conduction osseuse est peu sensible au son ambiant de la salle 1 de sorte que le pré-traitement est bien plus léger.

Dans une étape (c), le procédé comprend la transmission dudit fragment au serveur distant 3 (en particulier via internet) pour analyse de sorte à comprendre la commande vocale et l’exécuter. Il s’agit de l’étape sémantique la plus complexe, d’où l’intérêt de la déporter sur un serveur de puissance non limitée. La compréhension de la commande vocale commence généralement elle-même par la transcription écrite dudit fragment, puis l’identification de la commande sur la base du résultat de la transcription.

L’exécution de la commande peut prendre des formes très variées, et comprend avantageusement la génération d’un message de réponse. Par exemple, si la commande vocale est une requête d’informations relatives à un patient traité dans la salle 1, ledit message de réponse contient typiquement lesdites informations relatives à un patient traité dans la salle 1 (l’exécution est alors concrètement l’obtention desdites informations).

A noter que le message peut être générique, et simplement confirmer la bonne exécution de la commande. Par exemple, si la commande vocale est la requête de rédaction du compte-rendu opératoire (le fragment est typiquement la dictée d’un morceau dudit compte-rendu), ledit message de réponse est juste une confirmation (l’exécution est alors concrètement la transcription écrite du texte de ladite dictée).

Il est encore possible que le fragment soit inexploitable, par exemple en cas de commande inconnue. Le message est alors un message d’erreur.

L’homme du métier saura mettre en œuvre la compréhension de toute commande vocale et son exécution.

Dans une étape (d), les moyens de traitement de données 21 reçoivent en retour (depuis le serveur 3) ledit message de réponse à ladite commande vocale. On comprend que ce message est sous forme textuelle et non vocale, par opposition avec le signal sonore précédemment reçu.

En effet, le message textuel est plus facile, moins lourd, et plus rapide à transmettre.

Dans une étape finale (e), les moyens de traitement de donnée 21 mettent en œuvre la synthèse vocale dudit message, cette fois en utilisant ledit assistant personnel intelligent de reconnaissance vocale.

L’idée de cette étape est d’utiliser le module de synthèse vocale existant de l’assistant personnel intelligent, en le leurrant. Plus précisément, au moyen d’un connecteur on peut fournir audit assistant personnel intelligent le message sous la même forme qu’une forme dans laquelle sont reçues les réponses à des commandes vocales traitées directement par ledit assistant personnel intelligent, i.e. sous la forme dans laquelle il reçoit des messages depuis le serveur propriétaire avec lequel il est associé (celui auquel il envoie les propres commandes vocales qu’il traite).

Pour reformuler encore, l’assistant personnel intelligent n’est pas capable de faire la différence entre les messages de réponse aux commandes vocales gérées dans le cadre du présent procédé (via l’application dédiée et le serveur 3) et les messages de réponse aux commandes vocales passées directement via ledit assistant personnel intelligent.

Il lui suffit pour cela d’utiliser les APIs évoquées précédemment.

Le résultat de la synthèse vocale est enfin transmis auxdits moyens d’acquisition et de restitution sonore 20 pour restitution : le praticien entend le message. Comme expliqué, il est tout fait possible que la restitution se fasse également sur d’autres moyens tels qu’un haut-parleur par exemple si le message n’a pas de caractère personnel vis-à-vis du patient.

En résumé on comprendra que le présent procédé est asymétrique puisque le serveur 3 reçoit une donnée audio (ledit fragment du signal sonore), mais répond avec une donnée textuelle (le message) : le serveur 3 réalise donc la transcription de la donnée audio d’entrée en donnée textuelle pour la traiter, mais pas la transcription de la donnée textuelle de sortie en donnée audio, puisqu’en pratique ce sera l’assistant personnel intelligent qui le fera.

Cette stratégie est optimale car elle tire le meilleur parti du serveur 3 et du terminal 2 pour un temps de latence minimal et des performances maximales.

Terminal et système

Selon un deuxième aspect, l’invention concerne le terminal 2 pour la mise en œuvre du procédé selon l’invention.

Ce terminal 2 de contrôle vocal dans une salle 1 d’un plateau médico-technique est typiquement une tablette tactile ou un smartphone. Il implémente un système d’exploitation intégrant un assistant personnel intelligent de reconnaissance vocale, et il comprend des moyens de traitement de données 21 et des moyens de stockage de données.

Les moyens de traitement de données 21 sont configurés pour mettre en œuvre des étapes de :

Réception depuis des moyens d’acquisition et de restitution sonore 20 connectés audit terminal 2, d’un signal sonore ;
Traitement dudit signal sonore de sorte à identifier un fragment dudit signal sonore représentatif d’une commande vocale, ledit traitement étant mis en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale ;
Transmission dudit fragment à un serveur distant 3 pour analyse de sorte à comprendre la commande vocale et l’exécuter ;
Réception en retour d’un message de réponse à ladite commande vocale ;
Synthèse vocale dudit message en utilisant ledit assistant personnel intelligent de reconnaissance vocale, et transmission auxdits moyens d’acquisition et de restitution sonore 20 pour restitution.

Selon un troisième aspect est proposé le système pour le contrôle vocal dans un plateau médico-technique comprenant au moins une salle 1, notamment une salle opératoire 1, représenté par la .

Il comprend donc, pour au moins une salle 1 (et préférentiellement pour chaque salle 1), un terminal 2, présentant des moyens de traitement de données 21 configurés tel que décrit précédemment, et le serveur 3, connectés.

Le système peut également comprendre pour chaque terminal 2 des moyens d’acquisition et de restitution sonore 20 (tel qu’un casque à conduction osseuse), appariés.

Produit programme d’ordinateur

Selon un quatrième et un cinquième aspects, l’invention concerne un produit programme d’ordinateur comprenant des instructions de code pour l’exécution (en particulier sur les moyens de traitement de données 21) d’un procédé selon le premier aspect de l’invention de contrôle vocal dans une salle 1 d’un plateau médico-technique, ainsi que des moyens de stockage lisibles par un équipement informatique (des moyens de stockage de données 22 du terminal 2 comprenant les moyens de traitement de données 21) sur lequel on trouve ce produit programme d’ordinateur.

Claims

Procédé de contrôle vocal dans une salle (1) d’un plateau médico-technique, le procédé étant caractérisé en ce qu’il comprend la mise en œuvre par des moyens de traitement de données (21) d’un terminal (2) disposé dans la salle (1) et implémentant un système d’exploitation intégrant un assistant personnel intelligent de reconnaissance vocale, d’étapes de :
Réception depuis des moyens d’acquisition et de restitution sonore (20) connectés audit terminal (2), d’un signal sonore ;

Traitement dudit signal sonore de sorte à identifier un fragment dudit signal sonore représentatif d’une commande vocale, ledit traitement étant mis en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale ;

Transmission dudit fragment à un serveur distant (3) pour analyse de sorte à comprendre la commande vocale et l’exécuter ;

Réception en retour d’un message de réponse à ladite commande vocale ;

Synthèse vocale dudit message en utilisant ledit assistant personnel intelligent de reconnaissance vocale, et transmission auxdits moyens d’acquisition et de restitution sonore (20) pour restitution.
Procédé selon la revendication 1, dans lequel l’étape (a) comprend la détection préalable d’une requête d’invocation de commande vocale.
Procédé selon la revendication 2, dans lequel l’étape (a) comprend l’enregistrement dudit signal sonore à partir de la détection de ladite requête d’invocation de commande vocale.
Procédé selon l’une des revendications 2 et 3, dans lequel ladite requête d’invocation de commande vocale est la prononciation d’un mot clé de réveil ou l’appui d’un bouton sur le terminal (2) ou les moyens d’acquisition et de restitution sonore (20).
Procédé selon l’une des revendications 1 à 4, dans lequel l’étape (b) comprend la détection d’un silence, ledit fragment dudit signal sonore représentatif d’une commande vocale s’étendant jusqu’au silence.
Procédé selon l’une des revendications 1 à 5, dans lequel lesdits moyens d’acquisition et de restitution sonore (20) sont un casque à conduction osseuse.
Procédé selon l’une des revendications 1 à 6, dans lequel ledit message de réponse est généré par le serveur distant (3) lors de l’exécution de la commande vocale.
Procédé selon l’une des revendications 1 à 7, dans lequel la commande vocale est une requête d’informations relatives à un patient traité dans la salle (1), et ledit message de réponse contient lesdites informations relatives à un patient traité dans la salle (1).
Procédé selon l’une des revendications 1 à 8, dans lequel l’étape (b) comprend le pré-traitement du fragment dudit signal sonore représentatif d’une commande vocale en fonction d’un contexte sonore de la salle (1).
Procédé selon l’une des revendications 1 à 9, dans lequel l’étape (e) comprend la fourniture audit assistant personnel intelligent de reconnaissance vocale du message sous la même forme qu’une forme dans laquelle sont reçues les réponses à des commandes vocales traitées directement par ledit assistant personnel intelligent.
Terminal (2) de contrôle vocal dans une salle (1) d’un plateau médico-technique, implémentant un système d’exploitation intégrant un assistant personnel intelligent de reconnaissance vocale, caractérisé en ce qu’il comprend des moyens de traitement de données (21) configurés pour mettre en œuvre des étapes de :
Réception depuis des moyens d’acquisition et de restitution sonore (20) connectés audit terminal (2), d’un signal sonore ;

Traitement dudit signal sonore de sorte à identifier un fragment dudit signal sonore représentatif d’une commande vocale, ledit traitement étant mis en œuvre indépendamment dudit assistant personnel intelligent de reconnaissance vocale ;

Transmission dudit fragment à un serveur distant (3) pour analyse de sorte à comprendre la commande vocale et l’exécuter ;

Réception en retour d’un message de réponse à ladite commande vocale ;

Synthèse vocale dudit message en utilisant ledit assistant personnel intelligent de reconnaissance vocale, et transmission auxdits moyens d’acquisition et de restitution sonore (20) pour restitution.
Système de contrôle vocal dans un plateau médico-technique comprenant au moins une salle (1), comprenant, pour au moins une salle (1) un terminal (2) selon la revendication 11 disposé dans la salle (1), et un serveur distant (3), connectés.
Produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 10 de contrôle vocal dans une salle (1) d’un plateau médico-technique, lorsque ledit programme est exécuté sur un ordinateur.
Moyen de stockage lisible par un équipement informatique sur lequel est enregistré un produit programme d’ordinateur comprenant des instructions de code pour l’exécution d’un procédé selon l’une des revendications 1 à 10 de contrôle vocal dans une salle (1) d’un plateau médico-technique.