L'invention concerne un dispositif et un procédé d'affichage d'informations dans un champ de vision. On connaît sous le nom de "réalité augmentée" l'idée de venir superposer sur un environnement réel, correspondant en général au champ de vision d'un utilisateur, des informations complémentaires (par exemple des images, des symboles ou des caractères), généralement qualifiées de virtuelles du fait qu'elles sont produites par un système informatique, justement dans le but de venir enrichir ce que voit l'utilisateur. La demande de brevet FR 2 876 820 décrit par exemple un tel système dans lequel on recherche une corrélation entre des images capturées dans l'environnement réel et des images d'une base de données dans le but de fournir un élément d'information virtuelle à propos des images capturées. Dans ce contexte, l'invention propose un système d'affichage d'informations dans un champ de vision, caractérisé en ce qu'il comprend des moyens d'acquisition d'une séquence sonore, des moyens de détermination d'une information en fonction de la séquence sonore acquise et des moyens de superposition d'une représentation de l'information déterminée sur une image correspondant au champ de vision. Le champ de vision est ainsi enrichi au moyen d'informations déterminées sur la base de l'environnement sonore de l'utilisateur. L'information est par exemple relative à une personne et les moyens de détermination peuvent comprendre des moyens de reconnaissance vocale aptes à associer ladite personne à la séquence sonore acquise. Cette application du système proposé ci-dessus est particulièrement intéressante et peut tendre à l'émergence d'une communauté comme expliqué plus loin. L'information est par exemple dans ce cas l'identité de ladite personne. Selon un autre mode de réalisation envisageable, les moyens de détermination peuvent comprendre des moyens de reconnaissance vocale aptes à identifier au moins un mot de la séquence sonore acquise. Les moyens de détermination peuvent alors déterminer l'information par lecture dans une base de données sur la base du mot identifié. On obtient ainsi l'affichage d'informations contextuelles relatives au discours de l'interlocuteur, ce qui permet notamment d'enrichir la compréhension de l'utilisateur.
Les moyens de superposition peuvent par exemple en pratique superposer ladite représentation sur un dispositif d'affichage de ladite image. Ladite image est par exemple générée au moyen d'un dispositif d'acquisition d'images dirigé vers le champ de vision. En variante, les moyens de superposition comprennent un dispositif de vision tête haute apte à afficher la représentation dans le champ de vision.
Ces différents dispositifs sont adaptés à mettre en pratique l'invention. L'invention propose également un dispositif d'affichage d'informations dans un champ de vision, caractérisé en ce qu'il comprend des moyens d'acquisition d'une séquence sonore, des moyens de détermination d'une information en fonction de la séquence sonore acquise et des moyens de superposition d'une représentation de l'information déterminée sur une image correspondant au champ de vision. Dans un tel dispositif comme celui décrit plus loin, les moyens de détermination comprennent par exemple des moyens d'émission de données relatives à la séquence sonore acquise à destination d'un serveur distant et des moyens de réception de l'information en provenance du serveur distant. On propose ainsi un procédé d'affichage d'informations dans un champ de vision, caractérisé en ce qu'il comprend les étapes suivantes : - acquisition d'une séquence sonore ; - détermination d'une information en fonction de la séquence sonore acquise ; - superposition d'une représentation de l'information déterminée sur une image correspondant au champ de vision. Enfin, on envisage un programme d'ordinateur comportant des instructions pour la mise en oeuvre de ce procédé lorsque ce programme est exécuté par un processeur. Ce dispositif, ce procédé et ce programme peuvent en outre inclure les caractéristiques optionnelles présentées ci-dessus en termes de système, avec les avantages associés. D'autres caractéristiques et avantages de l'invention apparaîtront mieux à la lumière de la description qui suit, faite en référence aux dessins annexés dans lesquels : - la figure 1 représente un exemple de système réalisé conformément aux enseignements de l'invention ; - la figure 2 représente un procédé conforme aux enseignements de l'invention. Le système représenté à la figure 1 comprend un module d'acquisition d'une séquence sonore qui inclut notamment un micro MIC. Le micro MIC est par exemple (mais non nécessairement) porté sur des lunettes VIS aptes à superposer, au champ de vision de l'utilisateur qui porte ces lunettes, des éléments graphiques (tels que des symboles ou des caractères), sur la commande d'un processeur PROC, typiquement à base de microprocesseur. Les étapes du procédé décrit plus loin qui sont mises en oeuvre par le processeur PROC résultent ainsi par exemple de l'exécution d'un programme d'ordinateur dont les instructions sont mémorisées dans le processeur PROC et qui sont exécutées par le microprocesseur. Le processeur PROC est par ailleurs en communication avec un serveur distant SERV, par exemple au moyen d'une liaison sans fil d'un réseau cellulaire lui-même connecté au serveur via le réseau Internet. D'autres types de connexion (filaires ou sans fil) entre le processeur et le serveur sont naturellement envisageables.
Comme expliqué plus en détail ci-dessous en référence à la figure 2, les séquences sonores acquises par le micro MIC sont transmises au serveur distant SERV (en général après un prétraitement qui inclut notamment la numérisation de la séquence sonore). Sur la base des données reçues du processeur PROC (que ce soient les séquences sonores numérisées ou des données issues du traitement des séquences sonores comme expliqué plus loin), le serveur distant SERV procède à une analyse et détermine au moyen de cette analyse des informations associées aux données reçues. Comme cela sera décrit en référence à la figure 2, ces informations sont par exemple l'identité d'une personne dont la voix correspond à la séquence sonore, ou des informations associées (dans une base de données mémorisées par exemple sur le serveur distant SERV) à des mots identifiés dans la séquence sonore. Le serveur distant SERV peut ainsi transmettre au processeur PROC ces informations associées à la séquence sonore précédemment acquise et le processeur PROC peut ainsi commander l'affichage d'éléments graphiques représentant ces informations dans les lunettes VIS en superposition dans le champ visuel de l'utilisateur. On remarque que, comme représenté en figure 1, le système peut éventuellement comporter en outre une caméra CAM, par exemple dans le but d'identifier des images dans le champ de vision de l'utilisateur afin par exemple de localiser l'interlocuteur de l'utilisateur et par conséquent d'afficher les éléments graphiques relatifs à cet interlocuteur en superposition au niveau de celui-ci dans le champ de vision de l'utilisateur. On remarque que l'exemple décrit ici prévoit l'utilisation de lunettes de vision tête haute pour la superposition d'éléments graphiques dans le champ de vision de l'utilisateur. On pourrait en variante prévoir que la caméra CAM réalise l'acquisition du champ de vision de l'utilisateur et que la superposition soit réalisée sur un dispositif d'affichage (par exemple un écran) qui affiche en même temps l'image capturée par la caméra et les éléments graphiques en superposition. On décrit à présente en référence à la figure 2 un exemple de procédé mis en oeuvre dans le système qui vient d'être décrit. Le procédé débute par l'acquisition d'une séquence vocale au moyen du module d'acquisition comprenant le micro MIC. L'environnement sonore du micro est ainsi converti notamment par une numérisation en données représentant la séquence sonore capturée. Lorsqu'un interlocuteur s'adresse à l'utilisateur qui porte les lunettes VIS, on procède ainsi à l'étape E2 à l'acquisition d'une séquence vocale (c'est-à-dire d'une séquence sonore qui comporte la voix de l'interlocuteur).
La séquence vocale acquise (c'est-à-dire les données représentatives de la voix capturée) est alors transmise au serveur distant SERV à l'étape E4. Le serveur distant SERV procède alors à l'étape E6 à l'analyse de la séquence vocale reçue, ici dans le but de reconnaître l'identité de l'interlocuteur (c'est-à-dire du locuteur dont la voix est présente dans la séquence vocale reçue).
Cette analyse comprend par exemple la détermination d'une empreinte de la séquence vocale reçue et la comparaison de cette empreinte déterminée à des empreintes vocales mémorisées au sein d'une base de données d'empreintes vocales hébergée par le serveur distant SERV : on cherche ainsi à déterminer si l'empreinte vocale d'une personne mémorisée dans la base de données correspond à l'empreinte vocale déterminée sur la base de la séquence vocale reçue. On remarque que, comme déjà indiqué, on pourrait prévoir en variante d'effectuer un prétraitement de la séquence vocale au niveau du processeur PROC, par exemple de déterminer au sein du processeur PROC l'empreinte vocale correspondant à la séquence vocale acquise à l'étape E2 et de ne transmettre par conséquent du processeur PROC au serveur distant SERV que cette empreinte. Le serveur distant SERV peut alors procéder à la recherche de l'empreinte vocale mémorisée correspondant à l'empreinte vocale reçue. Quoi qu'il en soit, si l'analyse mise en oeuvre à l'étape E6 permet de reconnaître (étape E8) la personne dont l'empreinte vocale correspond à celle de la séquence vocale acquise à l'étape E2, le serveur distant SERV transmet au processeur PROC l'identité du locuteur ainsi identifié (étape E10). Si en revanche le locuteur n'est pas reconnu à l'étape E8, on procède à l'étape E20 décrite plus loin. Suite à l'étape E10, le processeur PROC reçoit l'identité du locuteur telle que déterminée et transmise par le serveur distant SERV. Le processeur PROC commande alors à l'étape E12 l'affichage dans les lunettes VIS d'informations relatives au locuteur identifié en superposition dans le champ de vision de l'utilisateur qui porte les lunettes VIS. Les informations affichées sont typiquement le nom de l'interlocuteur ainsi qu'éventuellement d'autres informations qui lui sont associées. On affiche à proprement parler dans les lunettes VIS des éléments graphiques tels que des caractères qui, réunis, représentent le nom de l'interlocuteur. Dans le mode de réalisation décrit ici, le procédé se poursuit à l'étape E14 par l'analyse par le serveur distant SERV de la séquence vocale précédemment reçue selon un algorithme de reconnaissance sémantique qui permet d'identifier au sein de la séquence vocale les mots prononcés par l'interlocuteur, par exemple pendant une durée prédéfinie. Après filtrage éventuel de certains mots afin de ne conserver que les mots d'intérêt (par exemple, après suppression des articles), le serveur distant SERV recherche dans une base de données des informations contextuelles, relatives aux mots identifiés à l'étape E14. La recherche, qui peut être réalisée sur un contenu dédié ou au contraire sur des sites Internet publics, éventuellement prédéfinis, peut être orientée en fonction de paramètres définis par l'utilisateur, notamment en fonction du contexte (professionnel, loisir, etc.) ou d'autres données, telles que par exemple issues de l'analyse des images capturées par la caméra CAM.
Le serveur distant SERV transmet alors à l'étape E16 ces informations au processeur PROC. Le processeur PROC commande à l'étape E18 l'affichage d'éléments graphiques (typiquement des caractères) représentant les informations reçues à l'étape E16 en superposition dans le champ de vision de l'utilisateur.
Le champ de vision de l'utilisateur est ainsi enrichi par des informations relatives au discours prononcé par l'interlocuteur et qui viennent donc compléter sa compréhension de celui-ci. On décrit à présent le processus mis en oeuvre si le locuteur n'est pas reconnu à l'étape E8.
Dans ce cas, un message signalant l'échec de la reconnaissance est transmis du serveur distant SERV au processeur PROC de telle sorte que le processeur PROC demande à l'utilisateur porteur des lunettes VIS d'associer (étape E20) l'empreinte déterminée sur la base de la séquence vocale acquise à l'étape E2 à une personne (c'est-à-dire à l'interlocuteur) en donnant (par exemple sur une interface utilisateur, non représenté, prévue à cet effet) l'identité de l'interlocuteur. L'identité ainsi saisie par l'utilisateur peut éventuellement alors être transmise au serveur distant SERV afin d'y être mémorisé à l'étape E22. L'association empreinte-locuteur ainsi mémorisée pourra naturellement être utilisée lors d'une future mise en oeuvre du procédé illustré à la figure 2 (auquel cas le locuteur sera naturellement reconnu à l'étape E8). On peut d'ailleurs prévoir que les informations concernant un interlocuteur donné seront classées au sein de la base de données hébergée par le serveur distant SERV et envisager que l'utilisateur puisse partager ces informations avec d'autres personnes qui pourront ainsi reconnaître l'interlocuteur au moyen d'un procédé du type de celui décrit à la figure 2. On pourrait prévoir ainsi de faire émerger une communauté ou réseau social de partage d'informations applicables à la réalité virtuelle ou à la réalité augmentée. Les modes de réalisation qui viennent d'être présentés ne sont que des exemples possibles de l'invention, qui ne s'y limite pas.30