FR3110736A1

FR3110736A1 - Dispositif et procédé pour fournir des informations d’assistance à un utilisateur malvoyant ou aveugle

Info

Publication number: FR3110736A1
Application number: FR2005405A
Authority: FR
Inventors: Olivier Huet
Original assignee: Perception
Current assignee: Perception
Priority date: 2020-05-21
Filing date: 2020-05-21
Publication date: 2021-11-26
Anticipated expiration: 2040-05-21
Also published as: FR3110736B1

Abstract

L’invention concerne un dispositif d’assistance configuré pour fournir des informations d’assistance à un utilisateur malvoyant ou aveugle, lequel dispositif comporte :- un appareil mobile utilisateur intégrant : une mémoire dans laquelle est implémentée une application informatique de reconnaissance d’objets basée sur un modèle d’intelligence artificielle ; et une unité de traitement,- une caméra numérique adaptée pour acquérir une image ou une vidéo d'une scène d’observation, laquelle caméra est connectée à l’appareil,- un haut-parleur connecté à l’appareil,et dans lequel l’unité de traitement est adaptée pour :- effectuer un traitement de l’image ou de la vidéo acquise par la caméra numérique de manière à identifier, dans la scène d’observation, un ou plusieurs objets, laquelle identification est réalisée en exécutant l’application informatique de reconnaissance d’objets,- générer un message contenant, pour tout ou partie des objets identifiés, une ou plusieurs métadonnées décrivant ledit objet,- émettre vocalement le message depuis le haut-parleur.

Description

Dispositif et procédé pour fournir des informations d’assistance à un utilisateur malvoyant ou aveugle

Domaine technique.

La présente invention concerne un dispositif et un procédé permettant de fournir des informations d’assistance à un utilisateur malvoyant ou aveugle.

Elle concerne le domaine technique des systèmes pour améliorer le quotidien des personnes ayant un sens de la vue limité ou absent, notamment les systèmes pour aider ces personnes à se déplacer dans des environnements familiers ou nouveaux et inconnus.

État de la technique.

Plusieurs solutions existent pour aider les personnes ayant un sens de la vue limité ou absent, à se déplacer dans leur environnement physique. Les solutions les plus courantes sont les cannes, les chiens-guides et les guides humains. Les cannes donnent très peu d’informations sur les objets détectés. Outre l’attention et les soins particuliers qu’ils nécessitent, les chiens-guides ne peuvent pas donner une description précise de l’environnement. Et les guides humains sont rarement disponibles.

Des assistants électroniques, basés sur des systèmes de positionnement de type GPS standard ou GPS différentiel (en anglais Differential Global Positioning System ou DGPS) peuvent également être utilisés. Les limites de ces assistants électroniques sont qu’ils ne fonctionnent pas à l’intérieur d’une habitation ou d’un bâtiment et qu’ils ne sont pas adaptés pour donner une description précise de l’environnement.

On connaît encore des caméras d'assistance, telles que les caméras ORCAM MyEye 2.0®, permettant de détecter et lire un texte, reconnaitre des visages, identifier un petit nombre d’objets préenregistrés, identifier des billets de banque, etc. L’utilisation de ces caméras peut toutefois être mal aisée pour des personnes aveugles parce que la caméra ne fonctionne généralement que pour des objets proches (environ 1 m).

L’invention vise à résoudre tout ou partie des problèmes précités. Notamment, un objectif de l’invention est de proposer un procédé et un dispositif permettant de détecter automatiquement des objets, proches ou lointains de la personne, et de fournir à cette personne des informations précises sur les objets détectés. Un autre objectif de l’invention est de proposer un procédé et un dispositif d’assistance qui soient faciles d’utilisation.

Présentation de l’invention.

Pour atteindre l’objectif principal précité, la solution proposée par l’invention est un dispositif d’assistance configuré pour fournir des informations d’assistance à un utilisateur malvoyant ou aveugle, lequel dispositif comporte :
- un appareil mobile utilisateur intégrant : une mémoire dans laquelle est implémentée une application informatique de reconnaissance d’objets basée sur un modèle d’intelligence artificielle ; et une unité de traitement,
- une caméra numérique adaptée pour acquérir une image ou une vidéo d'une scène d’observation, laquelle caméra est connectée à l’appareil,
- un haut-parleur connecté à l’appareil,
et dans lequel l’unité de traitement est adaptée pour :
- effectuer un traitement de l’image ou de la vidéo acquise par la caméra numérique de manière à identifier, dans la scène d’observation, un ou plusieurs objets, laquelle identification est réalisée en exécutant l’application informatique de reconnaissance d’objets,
- générer un message contenant, pour tout ou partie des objets identifiés, une ou plusieurs métadonnées décrivant ledit objet,
- émettre vocalement le message depuis le haut-parleur.

En dirigeant la caméra vers une scène d’observation, le dispositif permet d’analyser en temps réel cette scène, pour fournir une description orale précise des objets qui s’y trouvent, à la manière d’un guide humain, que ces objets soient proches ou lointains. L’utilisateur malvoyant ou aveugle dispose ainsi d’une sorte d’un œil artificiel qui permet d’améliorer considérablement la perception de son environnement. En outre, l’appareil intégrant l’application informatique de reconnaissance d’objets, ledit appareil est parfaitement opérationnel de manière autonome, sans qu’aucune connexion à un réseau informatique ne soit requise.

D’autres caractéristiques avantageuses de l’invention sont listées ci-dessous. Chacune de ces caractéristiques peut être considérée seule ou en combinaison avec les caractéristiques remarquables définies ci-dessus. Chacune de ces caractéristiques contribue, le cas échéant, à la résolution de problèmes techniques spécifiques définis plus avant dans la description et auxquels ne participent pas nécessairement les caractéristiques remarquables définies ci-dessus. Aussi, ces autres caractéristiques peuvent faire l’objet, le cas échéant, d’une ou plusieurs demandes de brevet divisionnaires :
- Selon un mode de réalisation, l’unité de traitement est adaptée pour : - traiter l’image ou la vidéo acquise de manière à localiser, dans la scène d’observation, le ou les objets identifiés ; - inclure, dans le message vocal, une indication de localisation, dans la scène d’observation, du ou des objets identifiés.
- Selon un mode de réalisation, l’unité de traitement est adaptée pour : - évaluer la distance entre chaque objet identifié et la caméra ; - inclure, dans le message vocal, une indication de distance du ou des objets identifiés.
- Selon un mode de réalisation : - l’appareil mobile utilisateur est connecté à un moyen pour élaborer une requête d’interrogation dans laquelle est renseignée au moins une information décrivant au moins un objet recherché ; - l’unité de traitement est adaptée pour analyser la requête d’interrogation et traiter l’image ou la vidéo acquise par la caméra de manière à n’identifier, dans la scène d’observation, que l’objet recherché renseigné dans ladite requête.
- Selon un mode de réalisation, l’unité de traitement est adaptée pour : - traiter l’image ou la vidéo acquise par la caméra de manière à identifier un ou plusieurs objets situés dans une zone centrale de la scène d’observation ; - évaluer la distance entre chaque objet identifié et la caméra ; - générer le message vocal de sorte qu’il contient une ou plusieurs métadonnées décrivant uniquement l’objet identifié qui est le plus proche de la caméra.
- Selon un mode de réalisation, le dispositif comporte un capteur inertiel connecté à l’appareil mobile utilisateur et dont les données sont traitées par l’unité de traitement de manière à définir une direction de détection d’objet, lequel capteur inertiel est découplé de la caméra, et dans lequel l’unité de traitement est adaptée pour traiter l’image ou la vidéo acquise par la caméra de manière à n’identifier, dans la scène d’observation, que le ou les objets disposés selon la direction de détection.
- Selon un mode de réalisation : - l’appareil mobile utilisateur est connecté à un moyen pour définir une direction de détection d’objet ; - l’unité de traitement est adaptée pour traiter l’image ou la vidéo acquise par la caméra de manière à n’identifier, dans la scène d’observation, que le ou les objets disposés selon la direction de détection.
- Selon un mode de réalisation, l’unité de traitement est adaptée pour traiter l’image ou la vidéo acquise par la caméra selon plusieurs modes de détection d’objets, lesquels modes sont sélectionnables.
- Selon un mode de réalisation, l’unité de traitement est adaptée pour sélectionner automatiquement un mode de détection en fonction de l’environnement de la scène d’observation et/ou si la scène d’observation comprend un nombre d’objets qui dépasse un seuil prédéterminé et/ou paramétrable.

Un autre aspect de l’invention concerne un procédé pour fournir des informations d’assistance à un utilisateur malvoyant ou aveugle, lequel procédé comporte les étapes consistant à :
- acquérir une image ou une vidéo d'une scène d’observation, au moyen d’une caméra numérique,
- effectuer un traitement de l’image ou de la vidéo acquise par la caméra numérique de manière à identifier, dans la scène d’observation, un ou plusieurs objets, laquelle identification est réalisée en exécutant une application informatique de reconnaissance d’objets basée sur un modèle d’intelligence artificielle, laquelle application est implémentée dans un appareil mobile utilisateur,
- générer un message contenant, pour tout ou partie des objets identifiés, une ou plusieurs métadonnées décrivant ledit objet,
- émettre vocalement le message depuis un haut-parleur connecté à l’appareil mobile utilisateur.

Brève description des figures.

D’autres avantages et caractéristiques de l’invention apparaîtront mieux à la lecture de la description d’un mode de réalisation préféré qui va suivre, en référence aux dessins annexés, réalisés à titre d’exemples indicatifs et non limitatifs et sur lesquels :
schématise un exemple de dispositif d’assistance selon l’invention.
illustre un premier mode de détection d’un objet.
illustre un second mode de détection d’un objet.
illustre un troisième mode de détection d’un objet.
illustre un quatrième mode de détection d’objets.
illustre un cinquième mode de détection d’objets.
schématise une personne équipée d’un dispositif objet de l’invention.

Description des modes de réalisation.

Le procédé et le dispositif objets de l’invention sont susceptible d’engendrer des manipulations d’éléments physiques, notamment des signaux (électriques) et des données numériques, capables d'être stockés, transférés, combinés, comparés, …, et permettant d’aboutir à un résultat souhaité.

L’invention met en œuvre une ou plusieurs applications informatiques exécutées par des équipements informatiques. Par souci de clarté, il faut comprendre au sens de l’invention que « un équipement fait quelque chose » signifie « l'application informatique exécutée par une unité de traitement de l’équipement fait quelque chose ». Tout comme « l'application informatique fait quelque chose » signifie « l'application informatique exécutée par l’unité de traitement de l’équipement fait quelque chose ».

Encore par souci de clarté, la présente invention est susceptible de faire référence à un ou plusieurs « processus informatiques logiques ». Ces derniers correspondent aux actions ou résultats obtenus par l’exécution d’instructions de différentes applications informatiques. Aussi, il faut également comprendre au sens de l’invention que « un processus informatique logique est adapté pour faire quelque chose » signifie « les instructions d’une application informatique exécutées par une unité de traitement font quelque chose ».

Encore par souci de clarté, les précisions suivantes sont apportées à certains termes utilisés dans la description et les revendications :
- « Ressource informatique » peut être compris de façon non limitative comme : composant, matériel, logiciel, fichier, connexion à un réseau informatique, quantité de mémoire RAM, espace de disque dur, bande passante, vitesse de processeur, nombre de CPU, etc.
- « Serveur informatique » peut être compris de façon non limitative comme : dispositif informatique (matériel ou logiciel) comportant des ressources informatiques pour réaliser les fonctions d’un serveur et qui offre des services, ordinateur, pluralité d’ordinateurs, serveur virtuel sur internet, serveur virtuel sur Cloud, serveur virtuel sur une plate-forme, serveur virtuel sur une infrastructure locale, réseaux de serveurs, cluster, nœud, ferme de serveurs, ferme de nœuds, etc.
- « Unité de traitement » peut être compris de façon non limitative comme : processeur, microprocesseurs, CPU (pour Central Processing Unit).
- « Application informatique » peut être comprise comme : logiciel, produit programme d’ordinateur, programme informatique ou software, dont les instructions sont notamment exécutées par une unité de traitement.
- « Réseau de communication » peut être compris de façon non limitative comme : réseau internet, réseau cellulaire, réseau satellite, etc. C’est un ensemble d'équipements informatiques reliés entre eux pour échanger, de manière sécurisée ou non, des informations et/ou des données selon un protocole de communication (ISDN, Ethernet, ATM, IP, CLNP, TCP, HTTP, …) et/ou via des technologies de réseau telles que, mais sans s'y limiter, GSM, EDGE, 2G, 3G, 4G, 5G, etc.
- « Base de données » peut être comprise de façon non limitative comme un ensemble structuré et organisé de données enregistrées sur des supports accessibles par des équipements informatiques et notamment par de serveurs informatiques, et pouvant être interrogées, lues et mises à jour. Des données peuvent y être insérées, récupérées, modifiées et/ou détruites. La gestion et l'accès à la base de données peuvent être assurés par un ensemble d’applications informatiques qui constituent un système de gestion de base de données (SGBD).
- « Requête » désigne un ordre d'exécution pouvant suivre un protocole de communication et comprenant des paramètres en entrée (question, information …) et éventuellement des paramètres en retour (réponse, information …), pouvant se présenter dans un format lié au protocole employé.
- Tel qu’utilisé ici, sauf indication contraire, l’utilisation des adjectifs ordinaux «premier», «deuxième», etc., pour décrire un objet indique simplement que différentes occurrences d’objets similaires sont mentionnées et n’implique pas que les objets ainsi décrits doivent être dans une séquence donnée, que ce soit dans le temps, dans l'espace, dans un classement ou de toute autre manière.
- De même, l’utilisation des adjectifs « droite/gauche », « avant/arrière » etc., permet de décrire simplement la position d’un objet dans la configuration des figures annexées, mais n’implique pas nécessairement qu’en pratique, des objets similaires soient dans la même position.
- « X et/ou Y » signifie : X seul ou Y seul ou X+Y.
- D'une manière générale, on appréciera que les différents dessins ne sont pas dessinés à l'échelle d'une figure à l'autre ni à l'intérieur d'une figure donnée, et notamment que les objets sont arbitrairement dessinés pour faciliter la lecture des dessins.

La figure 1 illustre un dispositif d’assistance adapté pour la mise en œuvre du procédé selon l’invention. Ce dispositif comprend, entre autres ressources informatiques intégrées dans un appareil mobile utilisateur B : une unité de traitement 1, une ou plusieurs mémoires 2, un module de communication sans fil 3, un ou plusieurs ports d’entrée/sortie 4, une base de données 5. Ces différents éléments sont connectés au moins à l’unité de traitement 1 par un bus de communication.

Une ou plusieurs applications informatiques sont enregistrées dans la ou les mémoires 2 et dont les instructions, lorsqu’elles sont exécutées par l’unité de traitement 1, permettent de réaliser les fonctionnalités décrites plus avant dans la description.

En particulier, une application informatique de reconnaissance d’objets (objets dynamiques et objets statiques) est directement implémentée dans la zone mémoire 2 de l’appareil B. Cette application informatique de reconnaissance d’objets est basée sur un modèle d’intelligence artificielle. Ce modèle peut être basé sur des algorithmes d'apprentissage automatique, artificiel et/ou statistique, sur un modèle de réseau de neurones, sur un modèle d’analyse discriminante, sur une recherche d’isomorphisme de graphes ou sous-graphes, sur un modèle de Markov cachés et qui accepte l’image d’un objet en entrée, et qui génère des données de sortie caractérisant cet objet. L’apprentissage du modèle d’intelligence artificielle est effectué préalablement sur un serveur informatique distant. On peut par exemple utiliser un outil d’apprentissage automatique tel que TensorFlow®. L’application basée sur ce modèle est ensuite implémentée ultérieurement dans la zone mémoire 2, par exemple par téléchargement.

Sans être exhaustif, les objets susceptibles d’être reconnus sont : des personnes humaines, des animaux, des plantes ou des arbres, des paysages (mer, montages, collines, champs, …), des bâtiments et des habitations, des structures d’habitation (escaliers, murs, placards, …), des éléments de voirie (routes, carrefours, barrières, abris, poteaux, passages piétons, feux de croisement …), des produits de la vie courante (voitures, bus, vélos, clés, couverts, verres, bouteilles, produits alimentaires, produits ménagers, …), des ambiances (ensoleillé, nuageux, jour, nuit, …), des émotions à partir des expressions faciales et du son d'une personne (joie, tristesse, surprise, peur, dégoût, colère, …), et plus généralement tous les objets animés ou inanimés, que l’on retrouve habituellement dans un environnement intérieur ou extérieur.

Lors de son implémentation dans l’appareil B et/ou lors de la première utilisation de l’appareil B, l’application informatique de reconnaissance d’objets peut être développée pour reconnaitre entre 50 et 1000 objets que l’utilisateur est susceptible de rencontrer dans la vie courante. Cette liste d’objets peut ensuite être enrichie par l’utilisateur. Notamment, à partir d’images/vidéo capturées par la caméra 80, l’utilisateur peut rajouter des objets spécifiques qui lui sont propres. Par exemple : son porte-clés, le visage de son voisin Olivier, l’apparence de sa chienne nommée Lassie, sa voiture autonome, un bus ayant un numéro particulier, etc. Cette liste peut en outre être enrichie par des mises à jour et/ou des téléchargements depuis des bases de données déportées dans un serveur informatique distant.

Selon un mode de réalisation, les objets aptes à être reconnus peuvent être classés dans des tables ou des structures de données chaînées comportant chacune un ou plusieurs enregistrements d’objets. Une première structure peut comporter un ou plusieurs enregistrements respectivement dédiés ou associés à des représentations numériques de personnes humaines. Une deuxième structure de données peut comporter un ou plusieurs enregistrements respectivement dédiés ou associés à des représentations numériques d’animaux. Une troisième structure peut comporter un ou plusieurs enregistrements respectivement dédiés ou associés à des représentations numériques et/ou graphiques de produits de la vie courante. Il en est ainsi pour chaque type d’objets. Ces différentes structures peuvent, en variante, ne constituer qu'une seule entité.

Chaque objet apte à être reconnu est associé à une ou plusieurs métadonnées caractérisant ledit objet. De telles métadonnées peuvent, à titre d'exemples non limitatifs, consister en : le nom de l'objet (ex : personne, voiture, animal, fruit, paysage, …), son type/genre (homme, femme, enfant, modèle de voiture, race de chien, pomme, poire, mer, montagne, …), un nom/terme/expression spécifié par l’utilisateur (ex : mon voisin Olivier, ma chienne Lassie, ma voiture, ma maison, mes clés, …), etc. Ces métadonnées dépendent de la classification des objets induite par le modèle d’intelligence artificielle utilisée et peuvent consister en l’intitulé des différentes classes ou sous-classes. Par exemple une voiture peut être classée dans la catégorie « voiture » et/ou dans une sous-catégorie spécifiant sa marque (ex : Mercedes-Benz®) et/ou son modèle (Mercedes-Benz® modèle EQC). Les métadonnées associées à une voiture Mercedes-Benz® modèle EQC pourront alors être « voiture » et/ou « voiture Mercedes-Benz® » et/ou « voiture Mercedes-Benz® modèle EQC ».

L’unité de traitement 1 est adaptée pour traiter en temps réel des images/vidéos selon des processus informatiques logiques décrits plus avant dans la description, de manière à générer des messages vocaux décrivant un ou plusieurs objets situés dans une scène d’observation (en pratique le champ de vision de la caméra 80). Ces messages vocaux peuvent notamment être générés au moyen d’un synthétiseur vocal.

La ou les mémoires 2 doivent être considérées comme un dispositif de stockage également adapté pour stocker des données et/ou des fichiers de données. Il peut s’agir d’une mémoire native ou d’une mémoire rapportée telle qu’une carte Secure Digital (SD).

Le module de communication sans fil 3 est adapté pour recevoir et émettre des signaux radiofréquences pour communiquer sans fil avec d’autres équipements 81-88. Ces signaux radiofréquences sont préférentiellement des signaux utilisant un protocole Bluetooth®, d’autres protocoles tels que ISM, Wifi®, ANT, ZIGBEE® ou autre, pouvant toutefois être utilisés.

Le ou les ports d’entrée/sortie 4 permettent de transférer/recevoir des données vers/depuis des équipements 81-88 connectés à l’appareil B. Il peut s’agir de port USB®, HDMI®, RJ45, etc.

L’appareil B intègre également avantageusement une batterie d’alimentation électrique rechargeable 6, de manière à rendre le dispositif totalement autonome.

L’appareil B peut également comprendre une interface réseau 7 adaptée pour établir une communication entre l’appareil B et un serveur informatique distant et/ou un autre équipement électronique distant, via un réseau de communication informatique comme expliqué plus avant dans la description. Cette interface réseau 7 peut être directement intégrée dans l’appareil B où se présenter sous la forme d’un équipement connecté audit appareil comme expliqué plus avant dans la description, par exemple sous la forme d’un module GSM 87 (pour l’acronyme anglais Global System for Mobile Communication), permettant audit appareil de se connecter au réseau de communication de téléphonie mobile.

Divers équipements sont connectés à l’appareil B, de manière filaire via les ports d’entrée/sortie 4 et/ou sans fil via le module de communication 3. Sur la figure 1, les équipements connectés à l’appareil B sont : une ou plusieurs caméras numériques 80, un ou plusieurs haut-parleurs 81, un micro 82, un capteur inertiel 83, un ou plusieurs capteurs de distance 84, un ou plusieurs vibrateurs 85, un module de localisation par satellite 86, un module GSM 87, un écran/clavier braille 88.

La ou les caméras numériques 80 sont adaptées pour acquérir des images de la scène observée par l’utilisateur. Elles comportent notamment des capteurs sensibles de type CCD ou CMOS. On peut utiliser une caméra USB® ou Bluetooth®, et par exemple une mini-caméra commercialisée par la société GOPRO® sous la référence HERO8 Black® ou une mini-camera commercialisée par la société GECO®. En se rapportant à la figure 7, cette caméra 80 est portée par l’utilisateur U. Elle peut, selon la préférence de l’utilisateur, être intégrée ou fixée dans une branche de lunette L, être placée sur son épaule, être attachée à une ceinture, portée à la main, attachée à une canne C, etc. On utilise préférentiellement une caméra 80 ayant une résolution comprise entre 480p (720 x 480 pixels) et 4K (3840 x 2160 pixels). Le format vidéo peut être H264, H265, MJPEG ou similaire pour réduire la latence. L’angle de vue est préférentiellement de 140 degrés. Il est possible d’agencer plusieurs caméras 80 pour élargir cet angle de vue, par exemple jusqu’à 360°.

Le ou les haut-parleurs 81 sont utilisés pour émettre les messages vocaux comme expliqué plus avant dans la description. Le haut-parleur 81 est préférentiellement avec un son stéréo pour optimiser la localisation spatiale. Le haut-parleur 81 peut être intégré dans un casque audio ou, comme illustré sur la figure 7, dans une oreillette, par exemple de type oreillette USB® ou Bluetooth®. L’avantage de ce type d’oreillette est qu’elle est relativement discrète à porter et qu’elle intègre également le micro 82 pour transmettre des commandes vocales. Le micro 82 peut toutefois être un élément déporté du haut-parleur 81, par exemple un micro USB® ou Bluetooth®.

Le capteur inertiel 83 permet de déterminer de façon précise la dynamique inertielle de l’utilisateur (ou de l’objet sur lequel il est fixé) pour évaluer son orientation par rapport à la scène observée par la caméra 80 afin d’améliorer l’expérience de l’utilisateur. La capture inertielle repose sur l’utilisation d’accéléromètre, de gyromètre et éventuellement de magnétomètre. Le capteur inertiel 83 est synchronisé avec la caméra 80 de manière à ce qu’il y ait un calage entre les données dudit capteur et les images de ladite caméra. On peut ainsi mettre en correspondance la rotation associée à l’image. Cette mise en correspondance peut par exemple être basée sur une connaissance de l’alignement entre les deux dispositifs (la matrice de rotation permettant de déduire les rotations de la caméra 80 à partir des rotations du capteur inertiel 83). On utilise préférentiellement un capteur de technologie MEMS (pour l’acronyme anglais de Micro Electro Mechanical Sensors), par exemple de type USB® ou Bluetooth®.

Le capteur de distance 84 est adapté pour mesurer la distance d’un objet détecté dans la scène d’observation et la caméra 80 et pour éviter les collisions. Ce peut être un capteur de type USB® ou Bluetooth®. On utilise préférentiellement un capteur LiDAR (pour l’acronyme anglais de Light Detection And Ranging) qui permet d’obtenir une très bonne précision (il est notamment possible de connaître la distance d’un objet jusqu’à 40 m avec une résolution de 1 cm). D’autres types de capteurs de distance peuvent être utilisés, par exemple un capteur à ultrason ou un capteur laser. Le capteur de distance 84 peut être intégré dans la caméra 80 ou déportée de cette dernière, par exemple attaché sur des lunettes de l’utilisateur ou à sa ceinture.

La distance d’un objet peut également être évaluée automatiquement par l’unité de traitement 1, notamment en mesurant la taille apparente d’un objet dans l’image et en la comparant à une taille prévue de cet objet. Cette évaluation est plus approximative qu’avec un capteur de distance précité, mais peut suffire pour la plupart des cas. Par exemple, la taille prévue d’un humain est comprise entre 1, 5 m et 1,8 m. Si la taille apparente d’une personne humaine dans l’image est de 10x20 pixels, cette personne sera considérée comme éloignée. Si la taille apparente de cette personne dans l’image correspond sensiblement à la résolution de la caméra 80, alors elle sera considérée comme proche.

Un vibrateur 85 utilisé est avantageusement un vibrateur standard USB® ou Bluetooth®. Il peut être placé sur n’importe quelle partie de l’utilisateur et/ou sur sa canne C. Il est adapté pour générer des vibrations qui permettent par exemple d’indiquer une direction et/ou une distance en faisant varier l’intensité et/ou de la vitesse et/ou de la durée des vibrations.

Le module de localisation par satellite 86 est préférentiellement un module standard USB® ou Bluetooth®. Il peut toutefois être directement intégré dans l’appareil B. Il est adapté pour fournir une localisation précise de l’utilisateur. Il peut s’agir d’un module utilisant la technologie GPS, EGNOS, WAAS, GALILEO, etc.

Le module GSM 87 est adapté pour fournir une connexion au réseau de communication de téléphonie et permet notamment d’obtenir un accès Internet, d’envoyer/recevoir des minimessages type SMS, ou de traiter un appel téléphonique. On utilise préférentiellement un module standard USB® ou Bluetooth®.

L’écran/clavier Braille 88 est utilisé pour transmettre des instructions à l’unité de traitement 1. On peut par exemple utiliser un écran/clavier commercialisé par la société Eurobraille® sous la référence Esytime Evolution®.

Tout ou partie des équipements précités peuvent être intégrés dans un autre appareil, certains se trouvant notamment embarqués dans des téléphones intelligents (Smartphone) ou des tablettes tactiles (notamment la caméra 80, le haut-parleur 81, le micro 82, le capteur inertiel 83, le vibrateur 85, le module de localisation par satellite 86, le module GSM 87). Il en est de même avec certains casques ou lunettes de réalité augmentée qui intègre ces équipements. Ce type d’appareil peut alors être connecté de manière filaire (ex : USB®) ou sans fil (ex : Bluetooth®) à l’appareil utilisateur B.

Certains de ces équipements ne sont pas destinés à être utilisés ensemble. Par exemple, les enfants et les personnes nouvellement malvoyantes ou aveugles préféreront probablement utiliser le micro 82 pour générer des commandes vocales. D’autres utilisateurs plus expérimentés préféreront probablement utiliser l’écran/clavier Braille 88.

Selon un mode de réalisation, l’appareil mobile utilisateur B se présente sous la forme d’un boîtier. Il peut être réalisé dans tout matériau convenant à l’homme du métier, par exemple en métal ou dans un matériau plastique. Il est compact et léger de manière à pouvoir être attaché à la ceinture de l’utilisateur (figure 7) ou être transporté aisément dans un sac ou une sacoche. À titre d’exemple, sa longueur et sa largeur sont comprises entre 5 cm et 15 cm, et sa hauteur comprise entre 2 cm et 6 cm. Son poids est d’environ 200 g. Le boîtier peut également présenter plusieurs boutons (mise sous tension, réglage du volume, choix d’un mode de détection, …) signalés par des symboles gravés.

L’appareil mobile utilisateur B fonctionne aussi bien à l’intérieur d’une habitation ou d’un bâtiment qu’à l’extérieur. À l’intérieur de l’habitation de l’utilisateur, l’appareil B peut rester connecter à une prise de courant, de sorte qu’il puisse fonctionner sans aucune limite de temps. L’utilisateur peut circuler librement et en toute sécurité dans son habitation en se dotant des équipements adéquats connectés sans fil à l’appareil B (ex : caméra Bluetooth®, haut-parleur Bluetooth®, …). En extérieur, tout ou partie des équipements précités peuvent être connectés de manière filaire ou sans fil à l’appareil B, la batterie 6 assurant l’autonomie de fonctionnement.

Pour illustrer l'apport de l'invention, étudions le cas de la figure 2 selon lequel la caméra 80 acquière une image ou une vidéo d’une scène d’observation comportant plusieurs objets, par exemple une personne humaine O1 (ex : le voisin de l’utilisateur qui s’appelle Olivier), un bâtiment O2 (ex : la basilique Notre-Dame de la Garde à Marseille), un chien O3 (ex : la chienne de l’utilisateur prénommée Lassie), une voiture O4 (ex : la voiture autonome de l’utilisateur).

Les données acquises par la caméra 80 peuvent être mémorisées dans la mémoire 2, par exemple sous la forme d'un tableau de pixels dont chaque pixel encode une valeur de nuance de gris, de couleur et/ou d'intensité lumineuse, notamment pour être analysées.

L’unité de traitement 1 traite l’image ou la vidéo acquise par la caméra 80, de manière à identifier dans la scène, tout ou partie de ces objets O1, O2, O3, O4. L’identification des objets O1, O2, O3, O4 est réalisée en exécutant l’application informatique de reconnaissance d’objets précitée, basée sur un modèle d’intelligence artificielle. L’unité de traitement 1 peut également analyser la représentation numérique des objets O1, O2, O3, O4 par exemple, en effectuant un seuillage de ladite représentation numérique. L’unité de traitement 1 peut encore appliquer des filtres pour mettre en évidence des détails et/ou détecter les contours des représentations graphiques des objets O1, O2, O3, O4.

Pour davantage d’efficacité, il est avantageux d’identifier des objets dans n’importe quelles condition et position. La taille apparente du plus petit objet détecté est appelée sensibilité. Cette sensibilité peut être réglée par l’utilisateur ou automatiquement, en fonction de l’environnement et/ou du type d’objets à identifier.

Lorsque les objets O1, O2, O3, O4 sont identifiés, l’unité de traitement 1 extrait la ou les métadonnées associées à chaque objet identifié.

L’unité de traitement va alors générer un message vocal contenant la ou les métadonnées décrivant l’objet et émettre ce message depuis le haut-parleur 81. La métadonnée peut être émise telle qu’elle, par exemple : «bâtiment ; personne ; voiture ; chien». La métadonnée peut également être incluse dans un message plus élaboré, par exemple : «vous obse rvez : un bâtiment ; une personne ; une voiture ; un chien». Si d’autres métadonnées sont associées à chacun des objets O1, O2, O3 et O4, le message pourrait être du type : «vous observez : la basilique Notre - Dame de la Garde ; votre voisin Olivier ; votre voiture autonome ; votre chienne Lassie».

Selon un mode de réalisation, l’unité de traitement 1 traite l’image/vidéo acquise par la caméra 80 de manière à localiser, dans la scène d’observation, le ou les objets identifiés O1, O2, O3. Cette localisation peut être décrite sommairement, par exemple : «vous observez : la basilique Notre - Dame de la Garde au centre ; votre voisin Olivier à gauche ; votre voiture au centre ; votre chienne Lassie à droite». Cette localisation peut être beaucoup plus précise en prenant en compte les données de distance du capteur de distance 84 et/ou si l’unité de traitement 1 est adaptée pour évaluer automatiquement ces distances. La localisation des objets de la scène est alors beaucoup plus détaillée, par exemple : «vous observez : la basilique Notre - Dame de la Garde à l’arrière-plan au centre ; votre voisin Olivier est à 3 mètres à gauche ; votre voiture est à 1 mètre au centre ; votre chienne Lassie est à 2 mètre s à droite».

Plusieurs métadonnées peuvent être utilisées pour décrire pleinement un objet. C’est notamment le cas lorsqu’un objet principal (ex : le voisin Olivier) comprend un ou plusieurs objets secondaires (ex : les vêtements que porte Olivier, son émotion, etc). L’unité de traitement 1 peut alors récupérer les métadonnées de l’objet principal, mais également celles des objets secondaires (ex : «votre voisin Olivier est joyeux, il porte une chemise blanche et un pantalon bleu»). Le niveau de détail d’un objet peut être paramétré par l’utilisateur et/ou dépendre de divers paramètres, par exemple du type d’objet identifié ou du nombre d’objets identifiés dans la scène d’observation.

Ce mode de détection permet de décrire précisément l’environnement de l’utilisateur. D’autres modes de détection sont toutefois programmables et/ou sélectionnables. Certains de ces modes de détection sont décrits ci-après. L’utilisateur peut en effet programmer et/ou sélectionner un ou plusieurs modes de détection en transmettant des instructions vocales depuis le micro 82, ou des instructions écrites depuis l’écran/clavier braille 88, ou en sélectionnant des touches dédiées de l’appareil B. L’unité de traitement 1 peut également sélectionner automatiquement un ou plusieurs modes de détection en fonction de l’environnement, comme expliqué plus avant dans la description. Cette sélection automatique d’un mode de détection peut notamment être activée si la scène d’observation comprend un nombre d’objets qui dépasse un seuil prédéterminé et/ou paramétrable par exemple, si la scène d’observation comprend plus de 20 objets.
Détection d’objet(s) à la demande.

Selon les circonstances, l’utilisateur ne cherche pas nécessairement à connaître tous les objets O1, O2, O3, O4 inclus dans la scène d’observation. Il peut simplement rechercher un objet ou un type d’objets d’intérêt particulier.

L’utilisateur élabore dans ce cas une requête d’interrogation de la base de données 5 en renseignant l’objet recherché et/ou au moins un élément d’une métadonnée. Cette requête peut être élaborée depuis une commande vocale transmise à l’unité de traitement 1 par le micro 82 ou depuis l’écran/clavier braille 88. Cette requête peut être effective pendant un temps prédéterminé et/ou programmable (par exemple tant que l’objet n’est pas identifié par l’unité de traitement 1).

Prenons le cas où l’utilisateur souhaite savoir où se trouve son voisin Olivier. Il élabore la requête d’interrogation en renseignant « personne » et/ou « voisin Olivier ». L’étape d’identification va alors être limitée aux objets de la classe « personnes humaines » et/ou qui est(sont) associé(s) à l’élément de métadonnée – ou à la sous-classe - « voisin Olivier ». L’unité de traitement 1 va ainsi générer un message vocal contenant simplement la réponse à la requête, par exemple : «Votre voisin Olivier est à 3 mètres à gauche». Les autres objets O2, O3 et O4 ne sont pas traités par l’unité de traitement 1. Bien évidemment, l’utilisateur peut renseigner plusieurs objets et/ou plusieurs éléments de métadonnées dans la requête d’interrogation.

Dans ce mode de détection, les indications de localisation et/ou de distance ne sont pas nécessairement incluses dans le message vocal, bien qu’elles améliorent l’expérience de l’utilisateur.

Selon un autre mode de réalisation, les indications de localisation et/ou de distance sont données par le vibrateur 85. Par exemple, un objet proche est signalé par des vibrations de forte intensité et/ou de courte durée, tandis qu’un objet éloigné est signalé par des vibrations de faible intensité et/ou de longue durée. Plusieurs vibrateurs 85 peuvent être combinés et agencés spatialement pour indiquer la direction de l’objet. Par exemple, un premier vibrateur installé sur la main droite ou dans la chaussure droite de l’utilisateur indique que l’objet est à droite, un deuxième vibrateur installé sur la main gauche ou dans la chaussure gauche de l’utilisateur indique que l’objet est à gauche, et un troisième vibrateur installé par exemple sur la ceinture de l’utilisateur indique que l’objet est au centre. On peut également prévoir qu’une activation simultanée du premier vibrateur et du deuxième vibrateur indique que l’objet est au centre. D’autres combinaisons sont possibles, notamment pour indiquer une position en hauteur d’un objet (haut, bas, milieu). D’autres techniques peuvent être envisagées pour indiquer la localisation d’un objet. En particulier, si l’utilisateur dispose d’un haut-parleur 81 stéréo, le message vocal peut être émis de manière à localiser l’objet. Par exemple, le message est émis dans un écouteur droit si l’objet est situé à droite, dans un écouteur gauche si l’objet est situé à gauche, ou simultanément dans les écouteurs droit et gauche si l’objet est situé au centre.

Ce mode de détection d’objet(s) à la demande est particulièrement intéressant lorsque l’utilisateur recherche un objet domestique spécifique comme des lunettes, des clés, une porte, un siège vide, etc.

L’utilisateur peut également élaborer une requête pour que ne lui soient signalés en temps réel que des objets significatifs importants pour comprendre l’environnement, tels que des voitures, un bus en particulier, des limites routières, des escaliers, etc.

L’utilisateur peut également requérir que tous les objets d’un type ou classe ou sous-classe spécifié lui soient signalés durant son déplacement (ou pendant un temps prédéterminé et/ou programmable), par exemple des voitures. L’unité de traitement 1 peut alors détecter le nombre de voitures dans la scène d’observation, évaluer leur distance et leur direction et élaborer le message vocal sur la base de ces informations. Sur l’exemple de la figure 3, la scène d’observation comprend trois voitures O4, O5, O6. Après analyse et traitement de l’image/vidéo, l’unité de traitement 1 va pouvoir générer un message vocal indiquant le nombre, la direction et la distance des voitures O4, O5, O6, par exemple : «il y a trois voitures ; votre voiture est à 1 mètre au centre ; une deuxième voiture rouge est à 3,5 mètre s à droite ; une troisième voiture bleue est à 2,5 mètre s à gauche». Les autres objets O1, O2 et O3 ne sont pas traités par l’unité de traitement 1 (et représentés en pointillés sur la figure 3).

Dans ce mode de détection, les indications de localisation et/ou de distance ne sont pas nécessairement incluses dans le message vocal, bien qu’elles améliorent l’expérience de l’utilisateur. En tout état de cause, les indications de localisation et/ou de distance peuvent être données selon les différentes manières décrites précédemment.
Détection continue d’objet(s).

Dans certains cas, lorsque l’utilisateur se déplace, il lui importe principalement de connaître les objets se trouvant devant lui, notamment pour éviter les collisions. De même, on peut prévoir d’activer automatiquement ce mode de détection si la scène d’observation comprend un nombre d’objets qui dépasse un seuil prédéterminé et/ou paramétrable. Par exemple, si la scène d’observation comprend plus de 20 objets.

Dans ce mode de détection, et en se rapportant à la figure 4, l’unité de traitement 1 traite l’image/vidéo de manière à identifier uniquement des objets situés dans une zone centrale Z la scène d’observation. Cette zone centrale Z peut par exemple être définie par rapport à l’axe X de la caméra 80 et/ou par une matrice de pixels centrée sur ledit axe. Seuls les objets O2 et O4 sont situés dans la zone d’analyse Z et sont traités par l’unité de traitement 1. Les autres objets O1 et O3 ne sont pas traités.

L’unité de traitement 1 évalue alors la distance entre chaque objet O2, O4 et la caméra 80. Comme décrit précédemment, cette évaluation de distance est réalisée au moyen du capteur de distance 84 et/ou automatiquement par l’unité de traitement 1. L’unité de traitement 1 n’exécute l’étape de génération et d’émission du message vocal que pour l’objet identifié qui est le plus proche de la caméra 80. Sur la figure 4, l’objet O4 étant le plus proche, le message vocal sera limité à cet objet. L’objet O2 n’est pas traité. L’unité de traitement 1 va pouvoir générer un message vocal indiquant la métadonnée associée à l’objet O4, éventuellement avec une indication de distance, par exemple : «il y a votre voiture à 1 mètre devant vous».

Ce mode de détection est particulièrement intéressant lorsqu’il est combiné avec l’emploi d’une canne. L’utilisateur peut non seulement toucher physiquement les objets devant lui avec sa canne, mais en avoir également une description précise, ce qui contribue à améliorer son expérience de déplacement.

Dans ce mode de détection, les indications de localisation et/ou de distance ne sont pas nécessairement incluses dans le message vocal, bien qu’elles améliorent l’expérience de l’utilisateur. En tout état de cause, les indications de localisation et/ou de distance peuvent être données selon les différentes manières décrites précédemment.
Direction de détection

Dans le mode de détection précité, la direction de détection est principalement donnée par la caméra 80, notamment par son axe X. Ce mode peut être utile par exemple si la direction de la caméra 80 se déplace avec la tête de l’utilisateur. C’est par exemple le cas lorsque la caméra 80 est fixée sur les lunettes de l’utilisateur.

La direction de détection peut être davantage problématique lorsque la caméra 80 ne se déplace pas avec la tête de l’utilisateur, par exemple lorsqu’elle est fixée sur une ceinture ou sur un vêtement. Un utilisateur ayant l’habitude de se déplacer avec sa canne peut également souhaiter que la direction de détection soit définie par cette canne. Un enfant peut encore souhaiter que la direction de détection soit définie par sa main ou son doigt.

En se rapportant à la figure 5, dans ce mode de détection, la direction de détection X’ est donnée par le capteur inertiel 83 qui est découplé de la caméra 80. Par « découplé », on entend que le capteur inertiel 83 n’est pas fixé sur la caméra 80 et/ou qu’il peut suivre un autre mouvement que celui de ladite caméra. En d’autres termes, la direction de détection X’ peut être différent de la direction définie par l’axe X de la caméra 80 et/ou peut varier de cette direction. Le capteur inertiel 83 peut par exemple être fixé sur la canne C (figure 7), sur une main de l’utilisateur (par exemple dans un gant), ou sur les lunettes de l’utilisateur (si la caméra 80 n’est pas déjà fixée sur lesdites lunettes).

L’unité de traitement 1 traite l’image/vidéo de manière à identifier, dans la scène d’observation, un ou plusieurs objets disposés selon la direction de détection X’. L’unité de traitement 1 n’exécute l’étape d’identification que pour le ou les objets disposés selon la direction de détection X’.

Sur la figure 5, seul l’objet O1 est disposé selon la direction de détection X’ et est traité par l’unité de traitement 1. Les autres objets O2, O3 et O4 ne sont pas traités. L’unité de traitement 1 peut également évaluer la distance entre l’objet O1 et la caméra 80, au moyen du capteur de distance 84 et/ou automatiquement. L’unité de traitement 1 va ainsi pouvoir générer un message vocal indiquant la métadonnée associée à l’objet O1, éventuellement avec une indication de distance, par exemple : « Votre voisin Olivier est à 3 mètres». L’indication de localisation de l’objet O1 («à gauche») n’est pas nécessaire, car l’utilisateur connaît déjà la direction de détection. Cette information de localisation pourrait toutefois être incluse dans le message vocal si cela est utile.

Ici encore, l’indication de distance n’est pas nécessairement incluse dans le message vocal, bien qu’elle améliore l’expérience de l’utilisateur. En tout état de cause, les indications de distance peuvent être données selon les différentes manières décrites précédemment.

Selon un autre mode de réalisation, la direction de détection X’ est définie par des instructions données vocalement depuis le micro 82 ou renseignées depuis l’écran/clavier braille 88.
Suivi d’objet(s)

L’unité de traitement 1 peut détecter et reconnaitre un objet à un instant T dans la scène d’observation. Mais cet objet peut disparaître de la scène d’observation à un instant T+1 soit parce que ledit objet est en mouvement, soit parce que la caméra 80 a été déplacée par l’utilisateur. Cette situation peut être problématique, notamment si cet objet est un objet d’intérêt particulier (mode de détection : Détection d’objet(s) à la demande).

Dans ce mode de détection, l’unité de traitement 1 est adaptée pour enregistrer la dernière direction dans laquelle un objet a été reconnu et évaluer sa position actuelle la plus probable. La figure 6 illustre le cas où l’objet O3 était spécifiquement recherché et identifié à un instant T, cet objet n’étant plus dans le champ de vision de la caméra 80 à l’instant T+1. Le capteur inertiel 83 permet de déterminer de façon précise la dynamique inertielle de l’utilisateur (et/ou de la caméra 80) de sorte que l’unité de traitement 1 peut évaluer la position de l’objet O3 à l’instant T+1 par rapport à la scène observée à l’instant T par la caméra 80. Dans la configuration de la figure 6, à l’instant T+1, l’unité de traitement 1 est donc capable d’indiquer à l’utilisateur que l’objet O3 devrait se trouver sur sa gauche, avec également une précision sur l’angle par rapport à l’axe de la caméra 80 (ex : « 30° à gauche »). Le capteur inertiel 83 peut être attaché, par exemple, à la canne C (figure 7), à la tête de l’utilisateur, aux lunettes L, etc.

Selon un mode de réalisation, l’unité de traitement 1 est adaptée pour sélectionner automatiquement un ou plusieurs modes de détection en fonction de l’environnement de la scène d’observation. Par exemple, lorsqu’un environnement extérieur est détecté par l’unité de traitement 1, celle-ci peut combiner le mode de détection « Détection d’objet(s) à la demande » avec le mode « Détection continue d’objet(s) » ou « Direction de détection ». Par exemple, cette combinaison de modes permet de signaler à l’utilisateur uniquement des éléments de voirie (routes, carrefours, barrières, abris, poteaux, passages piétons, feux de croisement, …) se trouvant devant l’utilisateur (Détection continue d’objets) ou dans une direction de détection spécifique (Direction de détection). Selon un autre exemple, si l’unité de traitement 1 détecte ensuite que l’utilisateur est à l’intérieur d’un restaurant, elle peut déclencher un mode « Détection d’objet(s) à la demande » spécifiquement dédié à l’analyse des plats (la requête d’interrogation pouvant être préenregistrée dans ce cas).

Les différents exemples et modes de détection qui viennent d’être décrits visent à démontrer que l’invention améliore considérablement la zone de perception de l’utilisateur. En permettant de donner une description réelle de l’environnement, l’avantage de l’invention n’est pas seulement d’assurer plus d’autonomie et de sécurité à l’utilisateur, mais aussi d’améliorer son bien-être. En effet, perdre la vision est psychologiquement traumatisant. Et l’invention permet également d’aider les jeunes enfants malvoyants ou aveugles à construire une vision spatiale de leur environnement et à limiter les effets de leur handicap sur leur développement psychomoteur.

Le dispositif objet de l’invention peut ainsi comporter d’autres fonctionnalités améliorant l’expérience utilisateur. Par exemple, l’unité de traitement 1 peut intégrer une fonctionnalité OCR (pour l’acronyme anglais de Optical Character Recognition) permettant de lire vocalement un texte dactylographié, imprimé ou manuscrit ou permettant de reconnaitre le montant d’un billet ou d’une pièce de monnaie.

Le module de localisation par satellite 86 est également particulièrement utile pour aider l’utilisateur à se déplacer en extérieur. Ce module 86 peut être utilisé par une application de navigation classique (ex : Google Map®) adaptée pour guider l’utilisateur dans un mode piéton. Les données de localisation par satellite peuvent, dans certains cas, ne pas être assez précises. Par exemple pour indiquer la fin d’un trottoir. L’unité de traitement 1 va pouvoir fournir d’autres précisions complémentaires. Par exemple, si l’application de navigation indique à l’utilisateur qu’il faut tourner à gauche dans 50 mètres, à l’approche du changement de direction, l’unité de traitement 1 va pouvoir indiquer à l’utilisateur que l’angle de la rue est à 1 mètre. De même, si l’application de navigation indique à l’utilisateur de traverser une route, l’unité de traitement 1 va pouvoir lui indiquer où se trouve le passage pour piétons le plus proche. Également, si l’application de navigation indique à l’utilisateur de prendre un transport en commun (par exemple le bus n°83), l’unité de traitement 1 va non seulement pouvoir lui indiquer où se trouve l’arrêt de bus, mais également lui indiquer que le bus qui arrive est le bus n°21 et non pas le bus n°83. La combinaison des données issues du module de localisation par satellite 86 et du capteur inertiel 83, peut également permettre d’identifier si l’utilisateur s’est déplacé dans la bonne direction.

Le module GSM 87 et l’interface réseau 7 peuvent être activés dans le cadre d’une assistance à distance. L’utilisateur peut notamment avoir accès à un opérateur humain qui a la possibilité de configurer le dispositif à distance ou d’accéder à la vidéo pour guider l’utilisateur dans une situation particulière.

L’interface réseau 7 peut également être activée pour un mode de détection avancé. Par exemple, si l’unité de traitement 1 ne peut pas donner une description précise d’une scène d’observation ou de l’environnement dans un cas particulier, elle peut mettre en œuvre des algorithmes de reconnaissance d’objets plus puissants qui s’exécutent par exemple dans un serveur informatique distant.

L’agencement des différents éléments et/ou moyens et/ou étapes de l’invention, dans les modes de réalisation décrits ci-dessus, ne doit pas être compris comme exigeant un tel agencement dans toutes les implémentations. Diverses variantes peuvent être prévues. En outre, une ou plusieurs caractéristiques exposées seulement dans un mode de réalisation peuvent être combinées avec une ou plusieurs autres caractéristiques exposées seulement dans un autre mode de réalisation. De même, une ou plusieurs caractéristiques exposées seulement dans un mode de réalisation peuvent être généralisées aux autres modes de réalisation.

Claims

Dispositif d’assistance configuré pour fournir des informations d’assistance à un utilisateur (U) malvoyant ou aveugle, lequel dispositif comporte :
- un appareil mobile utilisateur (B) intégrant : une mémoire (2) dans laquelle est implémentée une application informatique de reconnaissance d’objets basée sur un modèle d’intelligence artificielle ; et une unité de traitement (1),
- une caméra numérique (80) adaptée pour acquérir une image ou une vidéo d'une scène d’observation, laquelle caméra est connectée à l’appareil (B),
- un haut-parleur (81) connecté à l’appareil (B),
et dans lequel l’unité de traitement (1) est adaptée pour :
- effectuer un traitement de l’image ou de la vidéo acquise par la caméra numérique (80) de manière à identifier, dans la scène d’observation, un ou plusieurs objets (O1, O2, O3, O4), laquelle identification est réalisée en exécutant l’application informatique de reconnaissance d’objets,
- générer un message contenant, pour tout ou partie des objets identifiés, une ou plusieurs métadonnées décrivant ledit objet,
- émettre vocalement le message depuis le haut-parleur (81).
Dispositif selon la revendication 1, dans lequel l’unité de traitement (1) est adaptée pour :
- traiter l’image ou la vidéo acquise de manière à localiser, dans la scène d’observation, le ou les objets identifiés (O1, O2, O3, O4),
- inclure, dans le message vocal, une indication de localisation, dans la scène d’observation, du ou des objets identifiés.
Dispositif selon la revendication 2, dans lequel l’unité de traitement (1) est adaptée pour :
- évaluer la distance entre chaque objet identifié (O2, O4) et la caméra (80),
- inclure, dans le message vocal, une indication de distance du ou des objets identifiés.
Dispositif selon l’une des revendications précédentes, dans lequel :
- l’appareil mobile utilisateur (B) est connecté à un moyen (82, 88) pour élaborer une requête d’interrogation dans laquelle est renseignée au moins une information décrivant au moins un objet recherché,
- l’unité de traitement (1) est adaptée pour analyser la requête d’interrogation et traiter l’image ou la vidéo acquise par la caméra (80) de manière à n’identifier, dans la scène d’observation, que l’objet recherché renseigné dans ladite requête.
Dispositif selon l’une des revendications précédentes, dans lequel l’unité de traitement (1) est adaptée pour :
- traiter l’image ou la vidéo acquise par la caméra (80) de manière à identifier un ou plusieurs objets (O2, O4) situés dans une zone centrale (Z) de la scène d’observation,
- évaluer la distance entre chaque objet identifié (O2, O4) et la caméra (80),
- générer le message vocal de sorte qu’il contient une ou plusieurs métadonnées décrivant uniquement l’objet identifié (O4) qui est le plus proche de la caméra (80).
Dispositif selon l’une des revendications précédentes, comportant un capteur inertiel (83) connecté à l’appareil mobile utilisateur (B) et dont les données sont traitées par l’unité de traitement (1) de manière à définir une direction de détection (X’) d’objet, lequel capteur inertiel est découplé de la caméra (80),
et dans lequel l’unité de traitement (1) est adaptée pour traiter l’image ou la vidéo acquise par la caméra (80) de manière à n’identifier, dans la scène d’observation, que le ou les objets (O1) disposés selon la direction de détection (X’).
Dispositif selon l’une des revendications 1 à 5, dans lequel :
- l’appareil mobile utilisateur (B) est connecté à un moyen (82, 88) pour définir une direction de détection (X’) d’objet,
- l’unité de traitement (1) est adaptée pour traiter l’image ou la vidéo acquise par la caméra (80) de manière à n’identifier, dans la scène d’observation, que le ou les objets (O1) disposés selon la direction de détection (X’).
Dispositif selon l’une des revendications précédentes, dans lequel l’unité de traitement (1) est adaptée pour traiter l’image ou la vidéo acquise par la caméra (80) selon plusieurs modes de détection d’objets, lesquels modes sont sélectionnables.
Dispositif selon la revendication 8, dans lequel l’unité de traitement (1) est adaptée pour sélectionner automatiquement un mode de détection en fonction de l’environnement de la scène d’observation et/ou si la scène d’observation comprend un nombre d’objets qui dépasse un seuil prédéterminé et/ou paramétrable.
Procédé pour fournir des informations d’assistance à un utilisateur (U) malvoyant ou aveugle, lequel procédé comporte les étapes consistant à :
- acquérir une image ou une vidéo d'une scène d’observation, au moyen d’une caméra numérique (80),
- effectuer un traitement de l’image ou de la vidéo acquise par la caméra numérique (80) de manière à identifier, dans la scène d’observation, un ou plusieurs objets (O1, O2, O3, O4), laquelle identification est réalisée en exécutant une application informatique de reconnaissance d’objets basée sur un modèle d’intelligence artificielle, laquelle application est implémentée dans un appareil mobile utilisateur (B),
- générer un message contenant, pour tout ou partie des objets identifiés, une ou plusieurs métadonnées décrivant ledit objet,
- émettre vocalement le message depuis un haut-parleur (81) connecté à l’appareil mobile utilisateur (B).