DISPOSITIF DE REHABILITATION VISUELLE
UTILISANT LE CANAL AUDITIF
Objet de l'invention
La présente invention concerne un dispositif artificiel de réhabilitation sensorielle de la vision, généralement appelé prothèse visuelle qui est pa.ticulièrement utile pour aider les personnes non voyantes en leur offrant un moyen qui, utilisant le canal auditif, permet la restitution de performances visuelles, et ce aussi bien pour la localisation spatiale que pour la reconnaissance
de formes.
Arrière-plan technologique
Les dispositifs appelés généralement 'prothèses visuelles* peuvent se présenter essentiellement sous deux formes, à savoir des systèmes de réhabilitation visuelle invasifs et des systèmes non invasifs.-
Les systèmes invasifs, bien que théroriquement possibles, rencontrent encore actuellement trop d'inconvénients lors de leur implantation sur le canal visuel, et entraînent entre autres, des difficultés de compatibilité biologique. De plus, leurs performances restent encore très insuffisantes
Les systèmes de réhabilitation visuelle non invasifs, quant à eux, stimulent un organe perceptif intact, tel que l'organe du toucher ou de l'audition.
Parmi les systèmes non invasifs, on peut distinguer ceux qui ont pour objectif de palier la déficience d'une seule fonction spécifique du système visuel lésé ou ceux qui permettent de palier simultanément-la déficience de plusieurs fonctions spécifiques de la vision. La reconnaissance de formes et la localisation spatiale sont en fait les principales fonctions intervenant dans la perception visuelle.
On connaît de nombreux dispositifs d'aide aux non voyants qui ont uniquement pour objectif d'éviter des obstacles en les localisant spatialement. L'élément le plus répandu est constitué par une simple canne, mais des systèmes de très grande complexité sont depuis quelque temps élaborés. Parmi ceux-ci, la canne laser émet un rayon laser qui est lui-même réfléchi lorsqu'il rencontre un obstacle et la canne transmet alors un signal sonore ou vibratoire prévenant ainsi l'aveugle.
Un autre dispositif permettant la localisation spatiale plus précise d'objets est constitué par une prothèse ultrasonique telle que décrite dans le document USA-3 366 922) qui consiste en une paire de lunettes équipée d'un dispositif d'écholocation et d'une paire de petits écouteurs. La distance des obstacles est codée proportionnellement à la hauteur du son et la direction des obstacles est codée par la balance d'intensité binaurale. Le dispositif a l'avantage de localiser plus précisément l'obstacle mais ne donne aucune information utilisable quant à sa forme et sa dimension.
<EMI ID=1.1>
naissance de formes, on peut citer le dispositif commercialisé sous le nom d'OPTACON décrit dans le document US-A-
3 229 387. Ce dispositif se compose d'une caméra miniaturisée, d'une partie électronique et d'un petit tableau d'aiguilles où apparaît en relief le dessin ou l'idéogramme lu par la caméra. Ce dispositif permet à l'aveugle de lire par le toucher du doigt qu'il applique sur le tableau d'aiguilles.
D'autres dispositifs comme le Delta fonctionnent en principe selon le même procédé mais traduisent directement en écriture Braille le signe (lettre ou chiffre)
lu par la caméra.
Ces dispositifs ne permettent bien entendu pas la localisation spatiale.
Un seul dispositif permet d'allier dans une certaine mesure les deux processus de reconnaissance visuelle que constituent la localisation d'objets et la reconnaissance de formes, condition indispensable à un reconnaissance ou appréhension plus réaliste en trois dimensions de l'environnement de l'aveugle.
Ce dispositif qui présente une certaine analogie avec le dispositif OPTACON précédemment décrit est connu sous le nom Smith-Kettlewel Portable Electrical Simulation System (TVSS) et est décrit dans l'ouvrage Brain
<EMI ID=2.1>
mic Press, New York and London, 1972, pp. 2 à 10.
Dans ce système, les images captées par une caméra sont échantillonnées et digitalisées en une matrice de 20 x 20 pixels et transformées en un signal qui imprime l'image captée par la caméra et pixellisée sur la peau du dos ou du ventre de l'aveugle.
Ce système non invasif traite l'information en temps réel, de façon à permettre l'interaction avec l'environnement et d'appréhender ainsi l'environnement en trois dimensions.
Néanmoins, ce dispositif présente des inconvénients évidents d'inconfort. Il reste lourd et fort encombrant même sous sa forme portable.
Tous les dispositifs qui viennent d'être décrits, nécessitent une période d'apprentissage longue, fastidieuse et souvent décourageante pour le non voyant. Cet inconvénient nous semble dû à une conception insuffisamment efficace de ces dispositifs. Dans le même système concerné ici, dont la conception s'inspire davantage des processus naturels de traitement de l'information, l'apprentissage sera optimisé.
<EMI ID=3.1>
La présente invention vise à réaliser une prothèse visuelle impliquant la reconnaissance de formes aussi bien que la localisation spatiale. Elle vise bien entendu à éviter les inconvénients des techniques de l'art antérieur en fournissant un moyen simple et peu encombrant qui permet à l'aveugle de se former mentalement une image de son environnement et/ou de reconnaître des formes telles que des lettres ou des chiffres.
<EMI ID=4.1>
raîtront à la lecture de la description qui suit se référant à une forme d'exécution particulière et préférée de l'invention.
Description des éléments caractéristiques de l'invention
Le dispositif de réhabilitation sensorielle de la vision de l'invention est caractérisé en ce qu'il comporte une caméra vidéo, un dispositif électronique de traitement d'images qui traite ou transforme celles-ci en signaux sonores codés et une paire d'écouteurs pour transmettre lesdits signaux.
Cette prothèse'de réhabilitation sensorielle stimule donc un canal sensoriel intact à savoir l'audition et travaille en temps réel ce qui permet une appréhension fort complète du monde entourant l'aveugle. Selon une forme d'exécution préférée de l'invention, le dispositif est réalisé suivant la méthode exposée ci-dessous de manière à optimaliser la durée d'apprentissage.
Description des dessins
Dans les figures annexées:
- la figure 1 représente la grille d'échantillonnage d'une image;
- la figure 2 représente un mode particulier de mise en forme de la grille de codage;
- la figure 3 représente un schéma bloc des différents éléments composant la prothèse de réhabilitation visuelle.
Le système de réhabilitation sensorielle constituant la prothèse visuelle de l'invention comporte essentiellement une caméra vidéo, une partie électronique et une paire d'écouteurs.
L'image captée en noir et blanc par la caméra, de préférence miniaturisée et portée par exemple sur des lunettes, sera d'abord transformée par échantillonnage et digitalisation, de préférence sous forme d'une matrice de 8 x 8 pixels dont les 4 pixels du centre sont à nouveau divisés en une matrice de 8 x 8 pixels, ce qui offre avantageusement une discrimination plus précise au centre de l'image. La figure 1 représente ces 124 pixels qui se composent donc de 64 pixels dans la partie centrale que l'on appelle les pixels de la fovéa par analogie avec l'anatomie de la rétine et de 60 pixels appelés de périphérie.
A ce stade, il est possible d'introduire éventuellement un traitement de l'image échantillonnée et digitalisée tel que la recherche de contour. Des moyens-connus peuvent être utilisés à cet effet, notamment des algorithmes de traitement d'images.
L'information visuelle échantillonnée et digitalisée en 124 pixels est ensuite traduite suivant un codage auditif et est transmise au moyen des écouteurs à l'aveugle. Le codage auditif de l'information visuelle consiste à associer à chaque pixel une onde sinusoïdale sonore d'une fréquence bien déterminée variant de 54 à 13.500 Hz environ soit comprise dans la plage de fréquences audibles par l'homme.
D'autre part, l'amplitude de l'onde sonore dépend du niveau de gris du pixel concerné. Le niveau 0 représente le noir complet et le blanc est représenté par le niveau maximum bien que la convention inverse soit également envisageable.
Ainsi, chaque pixel de l'image échantillonnée en temps réel détermine deux informations instantanées, la fréquence et l'amplitude de l'onde sonore.
On effectue régulièrement la somme pondérée par l'amplitude définie ci-dessus, de toutes les ondes sinusoïdales correspondant aux 124 pixels et on obtient la signature auditive instantanée de l'image que l'on peut alors transmettre par l'intermédiaire des écouteurs à l'aveugle.
Remarquons que l'intensité du son ne varie pas de la même manière en fonction du niveau de gris pour tous les pixels. En effet, on sait que les seuils audibles varient en fonction des fréquences et que ce seuil <EMI ID=5.1>
quences comprise entre 300 et 3000 Hz environ. Il convient donc de corriger le niveau sonore pour une perception optimale du signal en fonction d'une courbe définissant' pour l'homme le seuil d'audibilité en relation avec la fréquence.
D'autre part, afin de faciliter la localisation spatiale, une balance d'intensité binaurale dans les écouteurs est prévue de manière à faciliter la localisation soit à gauche soit à droite de chacun des pixels d'une image vue par la caméra par rapport à la direction .droit devant, pour la personne équipée du dispositif. -
L'image captée par la caméra est transformée'en une image échantillonnée et digitalisée toutes les 20 ms et elle est avantageusement traduite après un codage auditif en un son composé, de préférence 10 fois par seconde au minimum, de manière à permettre à l'aveugle d'appréhender "limage* auditive de façon coordonnée par rapport à ses mouvements de la tête ou du corps.
D'un point de vue pratique, on peut donc considérer dans ces conditions que l'on travaille en temps réel.
Un mode particulier de mise en forme de la grille de codage est représenté dans la figure 2 annexée.
<EMI ID=6.1>
prévue afin de réduire avantageusement l'apprentissage de l'utilisation de la prothèse auditive.
La grille représentée à la figure 2 est composée d'une matrice de 16 x 16 éléments dont seuls les éléments compris dans les zones entourées d'un trait gras sont repris dans la grille d'échantillonnage de la figure 1. Au centre de la figure 2 on distingue les 8 x 8 pixels de la fovéa et dans chacun des quatre coins les 15 pixels de périphérie correspondant à ceux de la grille d'échantillonnage de la figure 1.
A chacun des éléments de la matrice 16 x 16 de la figure 2, correspond une onde sinusoïdale dont la fréquence est déterminée suivant une progression géométrique entre 54 et 13.500 Hz environ.
On représente cette progression géométrique par:
a + aq + aq2 + ... + aqN-1
Dans la forme d'exécution préférée de l'invention, on choisit pour le dispositif concerné, les valeurs du paramètre a, de la raison q et de la constante N, comme suit:
<EMI ID=7.1>
toute autre valeur qu'on jugera préférable
De cette manière, on attribue au pixel numéro n
(voir figure 2), la fréquence:
<EMI ID=8.1>
Par conséquent, le rapport des fréquences de 2 pixels superposés (comme 101 et 117 dans la figure 2 vau-
<EMI ID=9.1>
séparés d'une ligne et situés sur une même verticale
(comme 101 et 133 dans la figure 2) vaudra 2.
Ainsi, le fait que les fréquences doublent toutes les deux lignes permet de détecter aisément une verticale comme une double somme d'harmoniques (analogue au timbre d'un instrument) tandis qu'un trait horizontal à condition de couvrir plusieurs pixels est perçu comme un son subissant un phénomène de battement.
On s'est aperçu que cette façon de réaliser la grille de codage permet un apprentissage relativement rapide en offrant la possibilité de mieux reconnaître la différence entre les pixels de la fovéa et les pixels de périphérie. En effet, le système associe les ondes sonores les nieux perçues c'est-à-dire plus audibles aux pixels de la fovéa (fréquences comprises entre 236 et 3100 Hz environ)
<EMI ID=10.1>
inférieurs, ou plus aigus pour les éléments supérieurs, représentent les pixels de périphérie.
Enfin, grâce à une balance d'intensité binaurale, les images perçues dans la partie gauche de la grille sont essentiellement perçues dans l'écouteur gauche et les images perdues à droite de la grille sont perçues essentiellement dans l'écouteur droit. Il est bien évident qu'il faut une oreille particulièrement entraînée pour faire la différence par exemple entre la fréquence'correspondant au pixel 48 (à droite) et celle correspondant au pixel 49 (à gauche), qui lui est immédiatement supérieure. La binauralité permet cependant sans difficulté de distinguer ces deux signaux (voir figure 2).
La figure 3 annexée illustre un exemple pratique <EMI ID=11.1>
est disposée par exemple sur la tête du sujet, de manière à lui permettre une exploration de son environnement visuel 1.
L'image captée par cette caméra 2 est transformée en un signal vidéo après échantillonnage en 3 selon une grille (représentée à la figure 1) et les différents niveaux de gris correspondant à l'image échantillonnée sont mis en mémoire en 4.
Ce signal peut subir un traitement d'image 5 qui consiste à limiter par exemple les effets de transitions brutales dans les variations de gris lors de la discrétisation, et qui est ensuite codé en 6 en un son complexe par sommation pondérée des fréquences sinusoïdales .correspondant à chaque pixel. Une table 7 établit.cette correspondance entre un pixel et le son qui lui est associé. Enfin ' les informations numériques correspondant au son complexe sont synthétisées en 8 en signaux analogiques binauraux qui sont transmis à la paire d'écouteurs 9.
<EMI ID=12.1>
1. Dispositif de réhabilitation visuelle utilisant le canal auditif caractérisé en ce qu'il comporte essentiellement une caméra vidéo, un dispositif électronique de traitement d'image qui transforme l'image captée par la caméra en un signal sonore, qui est lui-même transmis dans de3 écouteurs.
VISUAL REHABILITATION DEVICE
USING THE HEARING CHANNEL
Subject of the invention
The present invention relates to an artificial device for sensory rehabilitation of vision, generally called a visual prosthesis, which is particularly useful for helping blind people by providing them with a means which, using the auditory canal, allows the restoration of visual performance, and both for spatial localization and for reconnaissance
of shapes.
Technological background
The devices generally called 'visual prostheses * can come essentially in two forms, namely invasive visual rehabilitation systems and non-invasive systems.
Invasive systems, although theoretically possible, still currently encounter too many disadvantages during their implantation on the visual channel, and cause, among other things, difficulties in biological compatibility. In addition, their performance is still very poor
Non-invasive visual rehabilitation systems, on the other hand, stimulate an intact perceptual organ, such as the organ of touch or hearing.
Among the non-invasive systems, one can distinguish those which aim to compensate for the deficiency of a single specific function of the injured visual system or those which make it possible to compensate simultaneously for the deficiency of several specific functions of vision. Pattern recognition and spatial localization are in fact the main functions involved in visual perception.
Numerous devices are known to assist the blind who have the sole objective of avoiding obstacles by locating them spatially. The most common element is a simple rod, but very complex systems have been developed for some time. Among these, the laser rod emits a laser beam which is itself reflected when it encounters an obstacle and the rod then transmits an audible or vibratory signal thus preventing the blind.
Another device allowing the more precise spatial localization of objects is constituted by an ultrasonic prosthesis as described in the document USA-3 366 922) which consists of a pair of glasses equipped with an echolocation device and a pair little headphones. The distance of the obstacles is coded in proportion to the pitch and the direction of the obstacles is coded by the binaural intensity balance. The device has the advantage of locating the obstacle more precisely but does not provide any usable information as to its shape and size.
<EMI ID = 1.1>
birth of forms, mention may be made of the device sold under the name of OPTACON described in the document US-A-
3,229,387. This device consists of a miniature camera, an electronic part and a small table of needles in which the drawing or the ideogram read by the camera appears in relief. This device allows the blind to read by the touch of the finger that he applies to the table of needles.
Other devices like the Delta operate in principle according to the same process but translate the sign (letter or number) directly into Braille writing.
read by the camera.
These devices do not of course allow spatial localization.
A single device makes it possible to combine to a certain extent the two visual recognition processes that constitute the localization of objects and the recognition of shapes, an essential condition for a more realistic three-dimensional recognition or apprehension of the environment of the blind. .
This device which has a certain analogy with the OPTACON device described above is known as the Smith-Kettlewel Portable Electrical Simulation System (TVSS) and is described in the book Brain
<EMI ID = 2.1>
mic Press, New York and London, 1972, pp. 2 to 10.
In this system, the images captured by a camera are sampled and digitized in a matrix of 20 x 20 pixels and transformed into a signal which prints the image captured by the camera and pixelated on the skin of the blind man's back or belly. .
This non-invasive system processes information in real time, so as to allow interaction with the environment and thus understand the environment in three dimensions.
However, this device has obvious drawbacks of discomfort. It remains heavy and very bulky even in its portable form.
All the devices which have just been described require a long, tedious and often discouraging learning period for the blind. This drawback seems to us to be due to an insufficiently efficient design of these devices. In the same system concerned here, whose design is more inspired by natural information processing processes, learning will be optimized.
<EMI ID = 3.1>
The present invention aims to produce a visual prosthesis involving the recognition of shapes as well as spatial localization. It naturally aims to avoid the drawbacks of the techniques of the prior art by providing a simple and space-saving means which allows the blind to mentally form an image of their environment and / or to recognize shapes such as letters or numbers.
<EMI ID = 4.1>
on reading the description which follows, referring to a particular and preferred embodiment of the invention.
Description of the characteristic elements of the invention
The sensory vision rehabilitation device of the invention is characterized in that it comprises a video camera, an electronic image processing device which processes or transforms these into coded sound signals and a pair of headphones for transmit said signals.
This sensory rehabilitation prosthesis therefore stimulates an intact sensory channel, namely hearing, and works in real time, which allows a very complete understanding of the world surrounding the blind. According to a preferred embodiment of the invention, the device is produced according to the method described below so as to optimize the learning time.
Description of the drawings
In the attached figures:
- Figure 1 shows the sampling grid of an image;
- Figure 2 shows a particular mode of shaping the coding grid;
- Figure 3 shows a block diagram of the different elements making up the visual rehabilitation prosthesis.
The sensory rehabilitation system constituting the visual prosthesis of the invention essentially comprises a video camera, an electronic part and a pair of headphones.
The image captured in black and white by the camera, preferably miniaturized and worn for example on glasses, will first be transformed by sampling and digitalization, preferably in the form of a matrix of 8 x 8 pixels including the 4 pixels. from the center are again divided into an 8 x 8 pixel matrix, which advantageously offers more precise discrimination at the center of the image. FIG. 1 represents these 124 pixels which therefore consist of 64 pixels in the central part which are called the pixels of the fovea by analogy with the anatomy of the retina and of 60 pixels called of the periphery.
At this stage, it is possible to possibly introduce processing of the sampled and digitized image such as the contour search. Known means can be used for this purpose, in particular image processing algorithms.
The visual information sampled and digitized in 124 pixels is then translated according to an auditory coding and is transmitted by means of blind earphones. The auditory coding of visual information consists in associating with each pixel a sound sine wave of a well-determined frequency varying from 54 to 13,500 Hz approximately, being included in the range of frequencies audible by humans.
On the other hand, the amplitude of the sound wave depends on the gray level of the pixel concerned. Level 0 represents complete black and white is represented by the maximum level although the opposite convention is also possible.
Thus, each pixel of the image sampled in real time determines two instantaneous information, the frequency and the amplitude of the sound wave.
The sum weighted by the amplitude defined above, of all the sine waves corresponding to the 124 pixels is regularly carried out and the instantaneous auditory signature of the image is obtained, which can then be transmitted through the headphones to the 'blinded.
Note that the intensity of the sound does not vary in the same way depending on the gray level for all the pixels. Indeed, we know that the audible thresholds vary according to the frequencies and that this threshold <EMI ID = 5.1>
frequencies between 300 and 3000 Hz approximately. It is therefore necessary to correct the sound level for optimal perception of the signal as a function of a curve defining 'for humans the audibility threshold in relation to the frequency.
On the other hand, in order to facilitate spatial localization, a binaural intensity balance in the headphones is provided so as to facilitate the localization either to the left or to the right of each of the pixels of an image seen by the camera relative to the direction .right in front, for the person equipped with the device. -
The image captured by the camera is transformed into a sampled and digitized image every 20 ms and it is advantageously translated after an auditory coding into a composed sound, preferably 10 times per second at least, so as to allow the blind to apprehend "auditory image * in a coordinated manner with respect to his head or body movements.
From a practical point of view, we can therefore consider under these conditions that we are working in real time.
A particular mode of formatting the coding grid is shown in Figure 2 attached.
<EMI ID = 6.1>
planned in order to advantageously reduce learning to use the hearing aid.
The grid represented in figure 2 is made up of a matrix of 16 x 16 elements of which only the elements included in the zones surrounded by a bold line are included in the sampling grid of figure 1. In the center of the figure 2 a distinction is made between the 8 x 8 pixels of the fovea and in each of the four corners the 15 peripheral pixels corresponding to those of the sampling grid in FIG. 1.
Each of the elements of the 16 x 16 matrix in FIG. 2 corresponds to a sine wave, the frequency of which is determined according to a geometric progression between approximately 54 and 13,500 Hz.
We represent this geometric progression by:
a + aq + aq2 + ... + aqN-1
In the preferred embodiment of the invention, the values of the parameter a, of the reason q and of the constant N are chosen for the device concerned, as follows:
<EMI ID = 7.1>
any other value that we consider preferable
In this way, we assign to pixel number n
(see Figure 2), the frequency:
<EMI ID = 8.1>
Therefore, the frequency ratio of 2 superimposed pixels (like 101 and 117 in Figure 2 is worth
<EMI ID = 9.1>
separated by a line and located on the same vertical
(like 101 and 133 in figure 2) will be worth 2.
Thus, the fact that the frequencies double every two lines makes it easy to detect a vertical as a double sum of harmonics (analogous to the timbre of an instrument) while a horizontal line provided that several pixels are covered is perceived as a its undergoing a beat phenomenon.
We realized that this way of implementing the coding grid allows relatively quick learning by offering the possibility of better recognizing the difference between the pixels of the fovea and the pixels of the periphery. Indeed, the system associates the sound waves with the nieux perceived that is to say, more audible with the pixels of the fovea (frequencies between 236 and 3100 Hz approximately)
<EMI ID = 10.1>
lower, or higher for higher elements, represent the periphery pixels.
Finally, thanks to a binaural intensity balance, the images perceived in the left part of the grid are essentially perceived in the left listener and the lost images on the right of the grid are perceived mainly in the right listener. It is quite obvious that a particularly trained ear is needed to differentiate for example between the frequency corresponding to pixel 48 (on the right) and that corresponding to pixel 49 (on the left), which is immediately higher. Binaurality however makes it easy to distinguish these two signals (see Figure 2).
Figure 3 attached illustrates a practical example <EMI ID = 11.1>
is placed for example on the subject's head, so as to allow him to explore his visual environment 1.
The image captured by this camera 2 is transformed into a video signal after sampling in 3 according to a grid (shown in FIG. 1) and the different gray levels corresponding to the sampled image are stored in memory in 4.
This signal can undergo image processing 5 which consists in limiting for example the effects of sudden transitions in the gray variations during discretization, and which is then coded at 6 in a complex sound by weighted summation of the sinusoidal frequencies. at each pixel. A table 7 establishes this correspondence between a pixel and the sound associated with it. Finally, the digital information corresponding to the complex sound is synthesized at 8 into binaural analog signals which are transmitted to the pair of headphones 9.
<EMI ID = 12.1>
1. Visual rehabilitation device using the ear canal, characterized in that it essentially comprises a video camera, an electronic image processing device which transforms the image captured by the camera into a sound signal, which is itself transmitted in 3 headphones.