FR3012640A1 - METHOD OF SEMANTICALLY ANALYZING A VIDEO STREAM DURING ACQUISITION, TERMINAL, COMPUTER PROGRAM PRODUCT AND CORRESPONDING MEDIUM - Google Patents
METHOD OF SEMANTICALLY ANALYZING A VIDEO STREAM DURING ACQUISITION, TERMINAL, COMPUTER PROGRAM PRODUCT AND CORRESPONDING MEDIUM Download PDFInfo
- Publication number
- FR3012640A1 FR3012640A1 FR1360738A FR1360738A FR3012640A1 FR 3012640 A1 FR3012640 A1 FR 3012640A1 FR 1360738 A FR1360738 A FR 1360738A FR 1360738 A FR1360738 A FR 1360738A FR 3012640 A1 FR3012640 A1 FR 3012640A1
- Authority
- FR
- France
- Prior art keywords
- probability
- semantic analysis
- action
- action phase
- predetermined type
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004590 computer program Methods 0.000 title claims description 11
- 230000009471 action Effects 0.000 claims abstract description 158
- 238000004458 analytical method Methods 0.000 claims abstract description 94
- 230000006870 function Effects 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 2
- 230000001052 transient effect Effects 0.000 claims 1
- 238000001356 surgical procedure Methods 0.000 description 15
- 239000000543 intermediate Substances 0.000 description 12
- 208000002177 Cataract Diseases 0.000 description 10
- 238000012549 training Methods 0.000 description 7
- 230000007704 transition Effects 0.000 description 7
- 230000008901 benefit Effects 0.000 description 6
- 239000011159 matrix material Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 5
- 230000035945 sensitivity Effects 0.000 description 5
- 239000003795 chemical substances by application Substances 0.000 description 4
- 230000015654 memory Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 239000003086 colorant Substances 0.000 description 3
- 238000002790 cross-validation Methods 0.000 description 3
- 230000002421 anti-septic effect Effects 0.000 description 2
- 239000000645 desinfectant Substances 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000036541 health Effects 0.000 description 2
- 239000007943 implant Substances 0.000 description 2
- 238000002347 injection Methods 0.000 description 2
- 239000007924 injection Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 239000000243 solution Substances 0.000 description 2
- 238000004659 sterilization and disinfection Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 206010002091 Anaesthesia Diseases 0.000 description 1
- 101100519161 Arabidopsis thaliana PCR5 gene Proteins 0.000 description 1
- 206010011878 Deafness Diseases 0.000 description 1
- 206010065042 Immune reconstitution inflammatory syndrome Diseases 0.000 description 1
- 206010061218 Inflammation Diseases 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000037005 anaesthesia Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 231100000895 deafness Toxicity 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 206010012601 diabetes mellitus Diseases 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000001839 endoscopy Methods 0.000 description 1
- 230000003370 grooming effect Effects 0.000 description 1
- 208000016354 hearing loss disease Diseases 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000004054 inflammatory process Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 210000001747 pupil Anatomy 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
Abstract
Il est proposé un procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition. Selon l'invention, un tel procédé comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau , à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.There is provided a method of semantic analysis of a video stream being acquired. According to the invention, such a method comprises a learning step, said learning step delivering at least one video characteristic, called low-level characteristic, from at least one parameter representative of a semantic action phase of predetermined type, called high-level action phase.
Description
Procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition, terminal, produit programme d'ordinateur et medium correspondant 1. DOMAINE DE L'INVENTION Le domaine de l'invention est celui de l'analyse sémantique de flux vidéo, notamment de flux vidéo en cours d'acquisition, par exemple des flux vidéos acquis pendant une intervention chirurgicale (notamment une opération de la cataracte ou un examen par endoscopie) ou relatifs à la surveillance d'un dispositif (notamment un distributeur de billets de banque ou une machine outil) ou d'un lieu particulier (par exemple une banque ou un magasin). 2. ARRIÈRE-PLAN TECHNOLOGIQUE On s'attache plus particulièrement dans la suite de ce document à décrire la problématique existant dans le domaine des interventions chirurgicales, et tout spécialement des opérations de la cataracte, qui ont servi de base d'étude aux inventeurs de la présente demande de brevet. L'invention ne se limite bien sûr pas à ce domaine particulier d'application, mais présente un intérêt pour toute technique d'analyse sémantique de flux vidéo en temps réel devant faire face à une problématique proche ou similaire. Avec l'essor des techniques de traitement numérique et de stockage de données médicales, des archives médicales considérables ont été constituées. Ainsi, on estime à 70 petabytes le volume des données digitales stockées en 2012 aux Etats Unis. En particulier, en ophtalmologie, de larges volumes de données, et notamment des vidéos, concernent les opérations de la cataracte, du fait de la fréquence de ce type d'intervention chirurgicale. Un consensus se dégage des professionnels de la santé sur la nécessité de tirer profit de cette énorme quantité de données pour l'amélioration des soins de santé.Semantic analysis method of a video stream being acquired, terminal, computer program product and corresponding medium 1. FIELD OF THE INVENTION The field of the invention is that of the semantic analysis of video streams, in particular video streams being acquired, for example video streams acquired during a surgical procedure (in particular a cataract operation or an endoscopy examination) or relating to the monitoring of a device (notably a banknote dispenser). or a machine tool) or a particular place (for example a bank or a shop). 2. TECHNOLOGICAL BACKGROUND In the remainder of this document, we will focus on the problem existing in the field of surgical procedures, and especially cataract surgery, which served as a basis for the study of the inventors of this patent application. The invention is of course not limited to this particular field of application, but is of interest for any semantic analysis technique of real-time video streams having to face a close problem or similar. With the development of digital processing techniques and medical data storage, considerable medical records have been created. Thus, it is estimated that 70 petabytes the volume of digital data stored in 2012 in the United States. In particular, in ophthalmology, large volumes of data, and especially videos, relate to cataract operations, because of the frequency of this type of surgery. Consensus is emerging among health professionals on the need to leverage this huge amount of data for improved health care.
Pour cela, il est nécessaire de structurer sémantiquement les vidéos médicales disponibles. On connaît, dans l'état de la technique, différents types de méthodes d'analyse sémantiques de vidéo permettant de structurer, en temps différé, des vidéos enregistrées préalablement. Ce type de méthode permet ainsi la génération automatique, ou semi-automatique, de comptes-rendus chirurgicaux ou encore la navigation dans des archives vidéo chirurgicales. En particulier, certaines de ces techniques de l'art antérieur permettent également le découpage automatique en étapes chirurgicales d'une vidéo acquise préalablement.For this, it is necessary to semantically structure the medical videos available. In the state of the art, various types of semantic video analysis methods are known for structuring, in deferred time, previously recorded videos. This type of method thus allows the automatic or semi-automatic generation of surgical reports or the navigation in surgical video archives. In particular, some of these techniques of the prior art also allow the automatic cutting into surgical steps of a previously acquired video.
Cependant, ces techniques reposent sur des méthodes d'analyse très consommatrices en temps de calcul, ce qui ne permet pas une utilisation de ces techniques pour analyser un flux au fil de son acquisition. De plus, ces méthodes nécessitent généralement la connaissance de la vidéo dans son intégralité avant de pouvoir analyser, en temps différé, la vidéo. Ceci est notamment le cas des méthodes basées sur l'algorithme "Dynamic Time Warping". De plus, ces techniques reposent sur une phase de définition manuelle préalable des caractéristiques vidéo à utiliser pour la structuration d'un flux vidéo à analyser. De ce fait, elles demandent, pour être mises en oeuvre, des compétences dans le domaine des techniques vidéo et une analyse pointue du domaine d'application par des spécialistes de la vidéo. Enfin, le paramétrage manuel, qui oblige à sélectionner un ensemble relativement simple de caractéristiques vidéo, limite également les possibilités de découpage en étapes d'une vidéo. 3. OBJECTIFS DE L'INVENTION L'invention, dans au moins un mode de réalisation, a notamment pour objectif de pallier certains de ces inconvénients de l'état de la technique. Plus précisément, dans au moins un mode de réalisation de l'invention, un objectif est de fournir une technique qui permette une analyse en temps réel de flux vidéo.However, these techniques are based on analysis methods that consume a lot of computation time, which does not allow the use of these techniques to analyze a stream as it is being acquired. In addition, these methods generally require knowledge of the video in its entirety before being able to analyze the video in deferred time. This is particularly the case of methods based on the "Dynamic Time Warping" algorithm. In addition, these techniques rely on a manual preliminary definition phase of the video characteristics to be used for the structuring of a video stream to be analyzed. As a result, they require, in order to be implemented, skills in the field of video techniques and a sharp analysis of the field of application by video specialists. Finally, the manual setting, which makes it necessary to select a relatively simple set of video characteristics, also limits the possibilities of splitting into steps of a video. 3. OBJECTIVES OF THE INVENTION The invention, in at least one embodiment, is intended in particular to overcome some of these drawbacks of the state of the art. More precisely, in at least one embodiment of the invention, one objective is to provide a technique that allows real-time analysis of video streams.
Au moins un mode de réalisation de l'invention a également pour objectif de fournir une technique qui soit simple à mettre en oeuvre et adaptée à une utilisation par une personne non spécialiste du domaine de la vidéo. Un autre objectif d'au moins un mode de réalisation de l'invention est de fournir une telle technique qui permette à un utilisateur de bénéficier de nouveaux services. 4. EXPOSÉ DE L'INVENTION L'invention concerne un procédé d'analyse sémantique d'un flux vidéo en cours d'acquisition. Selon l'invention, le procédé d'analyse sémantique comprend une étape d'apprentissage, ladite étape d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau.At least one embodiment of the invention also aims to provide a technique that is simple to implement and adapted for use by a non-specialist in the field of video. Another objective of at least one embodiment of the invention is to provide such a technique that allows a user to benefit from new services. SUMMARY OF THE INVENTION The invention relates to a semantic analysis method of a video stream being acquired. According to the invention, the semantic analysis method comprises a learning step, said learning step delivering at least one video characteristic, called a low-level characteristic, from at least one parameter representative of a phase of learning. semantic action of predetermined type, called high-level action phase.
Ainsi, le procédé d'analyse sémantique permet d'obtenir une analyse de niveau applicatif d'un flux vidéo, par la mise en oeuvre d'une étape d'apprentissage, au cours de laquelle sont mémorisées des caractéristiques bas-niveau du domaine de la vidéo (par exemple des caractéristiques liées à des mouvements, des formes, des couleurs ou des textures) en association avec des types prédéterminés d'actions de haut niveau du domaine d'application du procédé (par exemple des actions ou étapes clés d'une chirurgie) grâce à la fourniture de paramètres représentatifs de ces types prédéterminés d'actions (par exemple des mots clés (« anesthésie », « incision », « suture », « intermède ».... )). Selon l'invention, cette association est réalisée automatiquement, par exemple à partir des annotations d'un expert du domaine d'application du procédé, lors du visionnage de flux vidéo dédiés à cet apprentissage, par exemple un ensemble d'enregistrements représentatifs de ce domaine d'application constituant une base d'apprentissage. Ainsi l'invention offre l'avantage, pour un utilisateur non spécialiste du domaine de la vidéo, de pouvoir catégoriser des moments clés d'un flux vidéo à un niveau applicatif, c'est-à-dire à un niveau sémantique, sans avoir à déterminer de lui-même des caractéristiques vidéo bas niveau susceptibles de permettre la reconnaissance de ces moments clés. Selon une caractéristique particulière de l'invention, ladite étape d'apprentissage détermine en outre une probabilité d'ordonnancement d'au moins deux types prédéterminés de phases d'action haut niveau. Ainsi, l'étape d'apprentissage peut comprendre l'enregistrement de certains ordonnancements d'actions. Il peut s'agir de conditions d'ordonnancement obligatoires. Par exemple, un chirurgien peut indiquer qu'une phase d'application d'un produit désinfectant ou antiseptique précède toujours une incision. Il peut également s'agir d'une probabilité d'ordonnancement calculée à partir des flux de référence représentatifs du domaine d'applicatif du procédé d'analyse sémantique. Selon une caractéristique particulière de l'invention, le procédé d'analyse sémantique comprend également une étape d'analyse sémantique dudit flux vidéo en cours d'acquisition, comprenant les sous-étapes suivantes : - échantillonnage du flux vidéo en éléments ; - pour un élément courant : o extraction d'au moins une caractéristique bas-niveau dudit élément courant ; o détermination d'une probabilité d'appartenance dudit élément courant à un intermède, ledit intermède suivant et/ou précédant au moins une phase d'action haut-niveau dans ledit flux vidéo, ladite sous-étape de détermination d'une probabilité d'appartenance tenant compte de ladite au moins une caractéristique bas-niveau extraite. Le procédé d'analyse sémantique met en oeuvre une étape d'analyse sémantique d'un flux vidéo en temps réel, au cours de laquelle le flux en cours d'acquisition est découpé en séquences particulières d'éléments échantillonnés successifs, auxquelles une signification sémantique est associée, à partir des caractéristiques bas-niveau extraites des éléments échantillonnés. Une séquence peut ainsi représenter une phase d'action, c'est-à-dire un moment clé particulier du flux, sémantiquement parlant, pendant lequel se déroule une action, ou un intermède, c'est-à dire un moment sémantiquement « sans action » pour le domaine d'application considéré, précédant ou suivant au moins une phase d'action. Un tel moment sans action sémantique peut par exemple consister, dans le cas d'un dispositif de surveillance vidéo d'un distributeur automatique de billets de banque, en une séquence d'éléments sans aucun individu à proximité du distributeur, quelque que soit la scène qui se déroule en arrière-plan (présence ou non de passants par exemple). Dans certaines mises en oeuvre du procédé d'analyse sémantique, plusieurs phases d'action peuvent se dérouler entre deux intermèdes consécutifs. Par exemple, il peut s'agir de deux actions se déroulant conjointement. Ainsi, par exemple, au cours d'une chirurgie, un chirurgien peut terminer une étape chirurgicale de la main gauche tout en démarrant une nouvelle étape de la main droite. Selon une caractéristique particulière de l'invention, ladite étape d'analyse sémantique comprend en outre une sous-étape de décision d'appartenance dudit élément courant audit intermède, tenant compte d'un seuil prédéfini de ladite probabilité d'appartenance.Thus, the semantic analysis method makes it possible to obtain an application-level analysis of a video stream, by implementing a learning step, during which low-level characteristics of the domain of the video (eg features related to movements, shapes, colors, or textures) in association with predetermined types of high-level actions in the application domain of the method (eg, key actions or steps of a surgery) through the provision of parameters representative of these predetermined types of actions (eg key words ("anesthesia", "incision", "suture", "interlude" ....)). According to the invention, this association is performed automatically, for example from the annotations of an expert in the field of application of the method, during the viewing of video streams dedicated to this learning, for example a set of records representative of this field of application constituting a learning base. Thus the invention offers the advantage, for a non-specialist user of the video field, of being able to categorize key moments of a video stream at an application level, that is to say at a semantic level, without having to determine, on its own, low-level video characteristics capable of allowing the recognition of these key moments. According to a particular characteristic of the invention, said learning step further determines a scheduling probability of at least two predetermined types of high-level action phases. Thus, the learning step may include recording certain orders of actions. These may be mandatory scheduling conditions. For example, a surgeon may indicate that a phase of application of a disinfectant or antiseptic product always precedes an incision. It can also be a scheduling probability calculated from reference flows representative of the application domain of the semantic analysis method. According to a particular characteristic of the invention, the semantic analysis method also comprises a step of semantic analysis of said video stream being acquired, comprising the following sub-steps: sampling of the video stream into elements; for a current element: extraction of at least one low-level characteristic from said current element; o determining a probability of membership of said current element to an interlude, said intermediate following and / or preceding at least one high-level action phase in said video stream, said substep of determining a probability of membership taking into account said at least one low-level feature extracted. The semantic analysis method implements a step of semantic analysis of a video stream in real time, during which the stream being acquired is divided into particular sequences of successive sampled elements, to which a semantic meaning is associated, from the low-level characteristics extracted from the sampled elements. A sequence can thus represent a phase of action, that is to say a particular key moment of the flow, semantically speaking, during which an action or an interlude takes place, that is to say a moment semantically "without action 'for the considered field of application, preceding or following at least one action phase. Such a moment without semantic action may for example consist, in the case of a video surveillance device of a cash dispenser, in a sequence of elements without any individual in the vicinity of the distributor, whatever the scene which takes place in the background (presence or not of passers-by for example). In some implementations of the semantic analysis method, several action phases can take place between two consecutive interludes. For example, there may be two actions taking place jointly. Thus, for example, during surgery, a surgeon can complete a surgical step with the left hand while starting a new step of the right hand. According to a particular characteristic of the invention, said semantic analysis step further comprises a substep of decision of belonging of said current element to said interlude, taking into account a predefined threshold of said probability of belonging.
Ainsi, la décision d'assimiler un élément courant à une partie d'un intermède peut selon l'invention, tenir compte d'un seuil de probabilité différent selon les domaines d'application de l'invention. Ce seuil peut en particulier être déterminé, lors ou juste après la phase d'apprentissage, par des tests sur des flux de référence, de façon à maximiser empiriquement le taux de succès du procédé. Selon une caractéristique particulière de l'invention, lorsque ladite probabilité d'appartenance dudit élément courant à un intermède est inférieure audit seuil prédéfini, ladite étape d'analyse sémantique comprend en outre une sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action. En d'autres termes, lorsque l'élément courant appartient a priori à une phase d'action, le procédé d'analyse sémantique comprend une caractérisation de la phase d'action en cours. Il s'agit d'associer à cette phase d'action en cours un type prédéterminé 10 adéquat. Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité d'appartenance tient compte en outre de l'appartenance à un intermède ou une phase d'action d'au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo. 15 Ainsi, l'invention propose de tenir compte, dans certains modes de réalisation, des éléments déjà analysés du flux en cours d'acquisition pour l'analyse de l'élément courant. De cette façon, l'invention permet d'affiner l'analyse du flux vidéo au fil de son acquisition. Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité d'appartenance tient compte d'un critère de voisinage d'au 20 moins une caractéristique bas niveau dudit élément courant avec au moins un élément d'un flux de référence, acquis pendant ladite phase d'apprentissage. Ainsi, la probabilité pour un élément courant d'appartenir à un intermède tient compte de l'existence, dans au moins un flux de référence, utilisé par exemple lors de l'étape d'apprentissage, d'éléments considérés par un expert comme appartenant à un 25 intermède ou à une phase d'action et ayant des caractéristiques bas niveau similaires ou proches (c'est-à-dire des éléments voisins d'un point de vue vidéo). Dans certains modes de réalisation particuliers, la probabilité pour un élément courant d'appartenir à un intermède ou à une phase d'action peut par exemple être définie à partir du pourcentage de ses voisins, dans un ensemble de flux de référence, considérés comme appartenant à un 30 intermède ou à une phase d'action. De même, la sous-étape de détermination d'une probabilité de déroulement d'une phase d'action d'un type prédéterminé peut aussi tenir compte de la présence, dans le flux de référence, d'éléments associés par un expert, notamment lors de l'étape d'apprentissage, à une phase d'action d'un type particulier, et ayant des caractéristiques bas niveau similaires ou proches de celles de l'élément courant. Selon une caractéristique particulière de l'invention, ledit critère de voisinage est une distance euclidienne pondérée d'au moins une des caractéristique bas-niveau dudit au moins un élément dudit flux de référence et dudit élément courant. La pondération à utiliser peut notamment être déterminée par apprentissage. Selon une caractéristique particulière de l'invention, ladite sous-étape de décision tient compte en outre de l'appartenance à un intermède d'un nombre minimum d'éléments successifs précédant ledit élément courant dans ledit flux vidéo. De tels modes de réalisation permettent ainsi de filtrer le flux en cours d'acquisition, par exemple en présence de bruitage, de façon à ignorer les intermèdes de durée inférieure à un seuil minimum, c'est à dire comprenant un nombre d'éléments échantillonnés inférieurs à un certain seuil. Cela peut par exemple permettre d'ignorer des interruptions d'une seule phase d'action, comme lorsqu'un chirurgien change de compresse, lors d'une phase de pansage d'une incision. Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de l'appartenance à un intermède ou à une phase d'action d'un élément précédant immédiatement ledit élément courant dans ledit flux vidéo. Ainsi, lorsque l'élément courant a une probabilité faible d'être un intermède, c'est-à-dire lorsqu'il fait partie a priori d'une phase d'action, il peut soit constituer le premier élément d'une séquence représentative d'une nouvelle phase d'action, dont il marque donc le début, soit appartenir à une séquence d'éléments en cours d'acquisition, c'est-à-dire être une continuation d'une phase d'action déjà engagée. L'appartenance de l'élément précédant immédiatement l'élément courant dans le flux à un intermède, indiquera avec une probabilité forte le démarrage d'une nouvelle phase d'action. Au contraire, si cet élément précédent appartient lui aussi à une phase d'action, cela peut augmenter la probabilité pour l'élément courant d'appartenir à la même phase d'action que l'élément précédent. Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action déjà déterminée pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo. Ainsi, comme souligné plus haut, l'appartenance de l'élément précédent le plus récemment acquis à une phase d'action d'un type prédéterminé peut augmenter la probabilité pour l'élément courant d'appartenir à cette même phase d'action. De plus, dans certains modes de réalisation qui comprennent, par exemple dans une étape d'apprentissage, la détermination d'une probabilité d'ordonnancement de certains types prédéterminés d'action, l'identification d'une phase d'action d'un premier type prédéterminé particulier peut augmenter la probabilité d'occurrence d'une phase d'action d'un second type prédéterminé. Par exemple, une phase d'application d'un produit désinfectant ou antiseptique peut augmenter la probabilité d'occurrence ultérieure d'une incision ou d'une suture. Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action est mise en oeuvre selon une théorie mathématique dite « des fonctions de croyance ». Selon un mode de réalisation particulier de l'invention, le procédé d'analyse sémantique comprend en outre une étape de prédiction d'un type prédéterminé d'action à venir, ladite prédiction tenant compte : d'au moins une probabilité de déroulement d'au moins un type prédéterminé de phase d'action pour au moins un élément précédant temporellement ledit élément courant dans ledit flux vidéo ; d'au moins une probabilité d'ordonnancement du type prédéterminé de phase d'action dudit élément précédent et dudit type prédéterminé d'action à venir. En particulier, cette prédiction peut, dans certains modes de réalisation, comprendre la génération d'une préconisation sur une interface utilisateur (par exemple la génération d'une proposition d'action par serveur vocal ou par incrustation sur une zone d'un écran de visualisation).Thus, the decision to assimilate a current element to a part of an interlude may according to the invention, take into account a different probability threshold according to the fields of application of the invention. This threshold can in particular be determined, during or just after the learning phase, by tests on reference flows, so as to empirically maximize the success rate of the process. According to a particular characteristic of the invention, when said probability of membership of said current element to an interlude is less than said predefined threshold, said semantic analysis step further comprises a substep of determining a probability of unwinding of a predetermined type of action phase. In other words, when the current element a priori belongs to an action phase, the semantic analysis method comprises a characterization of the current action phase. This involves associating with this current action phase a suitable predetermined type. According to a particular characteristic of the invention, said substep of determining a membership probability also takes into account membership in an interlude or an action phase of at least one element temporally preceding said current element. in said video stream. Thus, the invention proposes to take into account, in some embodiments, already analyzed elements of the flow being acquired for the analysis of the current element. In this way, the invention makes it possible to refine the analysis of the video stream as it is acquired. According to a particular characteristic of the invention, said substep of determining a membership probability takes into account a neighborhood criterion of at least one low level characteristic of said current element with at least one element of a reference flow acquired during said learning phase. Thus, the probability for a current element of belonging to an interlude takes into account the existence, in at least one reference flow, used for example during the learning step, of elements considered by an expert as belonging to at an interlude or at an action phase and having similar or near-level characteristics (i.e., video-like elements). In certain particular embodiments, the probability for a current element of belonging to an interlude or an action phase can for example be defined from the percentage of its neighbors, in a set of reference flows, considered as belonging to at an intermediate or an action phase. Similarly, the sub-step of determining a probability of unfolding an action phase of a predetermined type may also take into account the presence, in the reference flow, of elements associated by an expert, in particular during the learning step, to an action phase of a particular type, and having low level characteristics similar or similar to those of the current element. According to a particular characteristic of the invention, said neighborhood criterion is a weighted Euclidean distance of at least one of the low-level characteristic of said at least one element of said reference flow and of said current element. The weighting to be used can in particular be determined by learning. According to a particular characteristic of the invention, said decision sub-step also takes into account the membership of an intermediate of a minimum number of successive elements preceding said current element in said video stream. Such embodiments thus make it possible to filter the flow during acquisition, for example in the presence of sound effects, so as to ignore the intermediates of duration less than a minimum threshold, that is to say comprising a number of sampled elements. below a certain threshold. This can for example make it possible to ignore interruptions of a single action phase, such as when a surgeon changes compresses, during a grooming phase of an incision. According to a particular characteristic of the invention, said substep of determining a running probability of a predetermined type of action phase takes into account membership in an interlude or an action phase of a element immediately preceding said current element in said video stream. Thus, when the current element has a low probability of being an interlude, that is to say when it is a priori part of an action phase, it can be the first element of a sequence representative of a new action phase, which it therefore marks the beginning, to belong to a sequence of elements in the course of acquisition, ie to be a continuation of a phase of action already committed . The membership of the element immediately preceding the current element in the stream at an interlude will indicate with a strong probability the start of a new action phase. On the contrary, if this previous element also belongs to an action phase, it can increase the probability for the current element to belong to the same action phase as the previous element. According to a particular characteristic of the invention, said substep of determining a running probability of a predetermined type of action phase also takes account of at least one unwinding probability of at least one predetermined type. phase of action already determined for at least one element temporally preceding said current element in said video stream. Thus, as pointed out above, the membership of the most recently acquired previous element to an action phase of a predetermined type can increase the probability for the current element to belong to this same action phase. Moreover, in certain embodiments which include, for example in a learning step, determining a scheduling probability of certain predetermined types of action, identifying an action phase of a first particular predetermined type can increase the probability of occurrence of an action phase of a second predetermined type. For example, a phase of application of a disinfectant or antiseptic product may increase the likelihood of subsequent occurrence of an incision or suture. According to a particular characteristic of the invention, said substep of determining a running probability of a predetermined type of action phase is implemented according to a mathematical theory called "belief functions". According to a particular embodiment of the invention, the semantic analysis method further comprises a step of predicting a predetermined type of future action, said prediction taking into account: at least one probability of unfolding at least one predetermined type of action phase for at least one element temporally preceding said current element in said video stream; at least one scheduling probability of the predetermined type of action phase of said previous element and said predetermined type of future action. In particular, this prediction may, in some embodiments, include the generation of a recommendation on a user interface (for example, the generation of a voice server action proposal or overlay on an area of a display screen. visualization).
Ainsi, le procédé d'analyse sémantique permet d'aider une personne en charge de la réalisation des actions (par exemple un chirurgien dans le cadre de l'acquisition d'un flux vidéo relatif à un acte de chirurgie) à une prise de décision (par exemple dans le cadre d'une chirurgie dont le déroulement est inhabituel). Il peut aussi avoir une utilisation didactique, par exemple pour la formation d'acteurs du domaine (par exemple de jeunes chirurgiens ou des opérateurs d'un centre de télésurveillance, ... ). Selon une caractéristique particulière de l'invention, ladite sous-étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte en outre de la durée d'au moins un intermède précédant ladite phase d'action et/ou du nombre d'intermèdes précédant ladite phase d'action. Plus simplement, l'étape de calcul d'une probabilité de déroulement d'un type prédéterminé de phase d'action tient compte de la durée et/ou du nombre d'intermèdes déjà survenus. En effet, certains types prédéterminés de phase d'action peuvent avoir une plus grande probabilité d'occurrence lorsque l'intermède précédant immédiatement cette phase d'action a eu au moins une certaine durée. Il peut s'agir notamment dans le cas de la chirurgie de phases d'action qui nécessitent une préparation plus importante de l'équipe médicale ou des vérifications préalables (par exemple la vérification du dossier médical du patient avant la première incision). Selon une caractéristique particulière de l'invention, le procédé d'analyse sémantique comprend en outre une étape de génération d'une alerte lorsque ladite étape de détermination d'une probabilité de déroulement d'un type prédéterminé de phase d'action aboutit à un type prédéterminé de phase d'action différent du type prédéterminé de phase d'action prédit lors de ladite étape de prédiction. Ainsi, le procédé d'analyse sémantique permet d'alerter une personne en charge de la réalisation des actions ou un tiers habilité de l'occurrence d'une succession d'actions inhabituelle.Thus, the semantic analysis method makes it possible to assist a person in charge of carrying out the actions (for example a surgeon in the context of the acquisition of a video stream relating to a surgical act) to a decision-making process. (for example in the context of a surgery whose course is unusual). It can also have a didactic use, for example for the training of actors of the field (for example young surgeons or operators of a remote monitoring center, ...). According to a particular characteristic of the invention, said substep of determining a probability of unwinding a predetermined type of action phase also takes into account the duration of at least one interlude preceding said action phase. and / or the number of interludes preceding said action phase. More simply, the step of calculating a probability of unwinding a predetermined type of action phase takes into account the duration and / or the number of interludes that have already occurred. Indeed, certain predetermined types of action phase may have a greater probability of occurrence when the interlude immediately preceding this action phase has had at least a certain duration. This may be particularly the case of surgery of action phases that require more extensive preparation of the medical team or due diligence (for example the verification of the patient's medical file before the first incision). According to a particular characteristic of the invention, the semantic analysis method further comprises a step of generating an alert when said step of determining a probability of unwinding a predetermined type of action phase results in a a predetermined type of action phase different from the predetermined type of action phase predicted during said prediction step. Thus, the semantic analysis method makes it possible to alert a person in charge of carrying out the actions or an authorized third party to the occurrence of an unusual succession of actions.
L'invention concerne également un terminal de communication comprenant : des moyens d'apprentissage délivrant au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau. Enfin, l'invention concerne également un produit programme d'ordinateur qui comprend des instructions de code de programme pour la mise en oeuvre du procédé précité (dans l'un quelconque de ses différents modes de réalisation), lorsque ledit programme est exécuté sur un ordinateur.The invention also relates to a communication terminal comprising: learning means delivering at least one video characteristic, called a low-level characteristic, from at least one parameter representative of a predetermined type of semantic action phase, called high-level action phase. Finally, the invention also relates to a computer program product which comprises program code instructions for the implementation of the aforesaid method (in any one of its various embodiments), when said program is executed on a computer program product. computer.
Dans un autre mode de réalisation de l'invention, il est proposé un médium de stockage lisible par ordinateur et non transitoire, stockant un programme d'ordinateur comprenant un jeu d'instructions exécutables par un ordinateur ou un processeur pour mettre en oeuvre le procédé précité (dans l'un quelconque de ses différents modes de réalisation). 5. LISTE DES FIGURES D'autres caractéristiques et avantages de l'invention apparaîtront à la lecture de la description suivante, donnée à titre d'exemple indicatif et non limitatif, et des dessins annexés, dans lesquels : la figure 1 présente le principe général du procédé d'analyse sémantique; la figure 2 présente le déroulement de l'étape d'apprentissage du procédé d'analyse sémantique dans un mode de réalisation particulier ; la figure 3 présente le déroulement de l'étape d'analyse sémantique du procédé d'analyse sémantique dans un mode de réalisation particulier ; la figure 4 illustre la structure d'un terminal selon l'invention. Sur toutes les figures du présent document, les éléments et étapes identiques sont désignés par une même référence numérique. 6. DESCRIPTION DÉTAILLÉE 6.1 Principe général Le principe général de l'invention consiste à proposer une analyse sémantique d'un flux vidéo en cours d'acquisition basée sur des annotations sémantiques préalables de flux de référence par des experts du domaine applicatif et non, comme les solutions de l'art antérieur, basée sur la définition de caractéristiques vidéo particulières par des experts du domaine de la vidéo.In another embodiment of the invention, there is provided a computer-readable and non-transitory storage medium, storing a computer program comprising a set of instructions executable by a computer or a processor for carrying out the method. mentioned above (in any of its various embodiments). 5. LIST OF FIGURES Other features and advantages of the invention will appear on reading the following description, given by way of indicative and nonlimiting example, and the appended drawings, in which: FIG. 1 presents the general principle the semantic analysis process; FIG. 2 shows the progress of the learning step of the semantic analysis method in a particular embodiment; FIG. 3 shows the progress of the semantic analysis step of the semantic analysis method in a particular embodiment; FIG. 4 illustrates the structure of a terminal according to the invention. In all the figures of this document, the elements and identical steps are designated by the same numerical reference. 6. DETAILED DESCRIPTION 6.1 General Principle The general principle of the invention is to propose a semantic analysis of a video stream being acquired based on semantic annotations prior to reference flows by experts of the application domain and not, as the solutions of the prior art, based on the definition of particular video characteristics by experts in the field of video.
De ce fait, le procédé d'analyse sémantique peut être utilisé, quel que soit le domaine applicatif, sans étude technique préalable des caractéristiques vidéo d'enregistrements. L'invention est décrite de façon détaillée dans le cas particulier d'une application à des flux vidéo relatifs à des opérations de la cataracte. Il est clair que de nombreux autres modes de réalisation de l'invention peuvent être envisagés, sans sortir du cadre de l'invention.As a result, the semantic analysis method can be used, regardless of the application domain, without prior technical study of the video recording characteristics. The invention is described in detail in the particular case of an application to video streams relating to cataract operations. It is clear that many other embodiments of the invention can be envisaged, without departing from the scope of the invention.
On peut notamment prévoir une utilisation du procédé d'analyse sémantique pour analyser sémantiquement des flux vidéo relatifs à d'autres types d'opérations chirurgicales ou d'examens médicaux (notamment des examens par endoscopie ou des examens radiologiques), à de la vidéosurveillance (magasins, lieux ou dispositifs sensibles, postes de machines-outils, etc.). Dans la présente demande de brevet, on appelle « intermède » une phase sans action de haut niveau, c'est-à-dire dans le cas particulier du mode de réalisation présenté, un moment de la chirurgie où aucun événement, pertinent sur le plan clinique, ne se déroule.In particular, it is possible to use a semantic analysis method to semantically analyze video streams relating to other types of surgical operations or medical examinations (in particular endoscopic examinations or radiological examinations), to video surveillance ( shops, places or sensitive devices, machine tool stations, etc.). In the present patent application, the term "interlude" refers to a phase without high-level action, that is to say in the particular case of the embodiment presented, a time of the surgery when no event, relevant on the plane. clinical, does not take place.
Une « phase d'action de haut niveau » représente, dans le cas particulier du mode de réalisation présenté, une tâche chirurgicale de haut-niveau. Dans certains modes de réalisation particuliers, elle peut aussi représenter une partie d'une tâche chirurgicale de haut niveau, ou deux tâches chirurgicales consécutives s'enchaînant sans interruption ou se déroulant au moins partiellement simultanément et donc considérées, pour l'analyse, comme une seule tâche. Le procédé d'analyse sémantique comprend, selon un premier aspect, une étape d'apprentissage au cours de laquelle sont définis des paramètres représentatifs de phases d'action haut niveau, en association avec des portions de flux vidéo de référence, précédemment acquis. Ceci permet de structurer temporellement et sémantiquement ces flux vidéo de référence. Ces paramètres peuvent comprendre par exemple des mots clés du domaine d'application pour la désignation de phases d'action haut niveau. Par exemple, dans le cadre d'opérations de la cataracte, il peut s'agir de mots clés comme : « désinfection », «incision », « suture », « rhexis », « hydrodissection », « phacoemulsification », « epinucleus removal », « viscous agent injection », « implant setting-ip », « viscous agent removal », « stitching up ». Le contenu de chaque portion est analysé automatiquement, par exemple par une méthode basée sur une technique d'analyse de contenus de vidéo, notamment une technique de type « Content-Based Video Retrieval (CBVR), selon la terminologie anglaise. Il peut s'agir par exemple de la méthode décrite par les inventeurs dans leur publication « Real Time Retrieval of Similar Videos with Application to Computer-Aided Surgery». Cette étape permet de décrire chaque portion de flux par un ensemble de caractéristiques vidéo, par exemple des caractéristiques de mouvement, de forme, de couleurs, de texture, ...A "high-level action phase" represents, in the particular case of the embodiment presented, a high-level surgical task. In certain particular embodiments, it may also represent a portion of a high-level surgical task, or two consecutive surgical tasks continuously sequentially occurring or at least partially concurrent and therefore considered for analysis as a only task. The semantic analysis method comprises, according to a first aspect, a learning step during which parameters representative of high-level action phases are defined, in association with portions of previously acquired reference video stream. This makes it possible to temporally and semantically structure these reference video streams. These parameters may comprise, for example, keywords of the application domain for the designation of high-level action phases. For example, in the context of cataract surgery, these may include key words such as "disinfection", "incision", "suture", "rhexis", "hydrodissection", "phacoemulsification", "epinucleus removal" "," Viscous agent injection "," implant setting-ip "," viscous agent removal "," stitching up ". The content of each portion is analyzed automatically, for example by a method based on a video content analysis technique, including a Content-Based Video Retrieval (CBVR) type technique, according to English terminology. This may be, for example, the method described by the inventors in their publication "Real Time Retrieval of Similar Videos with Application to Computer-Aided Surgery". This step makes it possible to describe each stream portion by a set of video characteristics, for example characteristics of movement, shape, colors, texture, etc.
Ainsi, le procédé d'analyse sémantique permet d'associer des caractéristiques bas-niveau particulières, du domaine de la vidéo (une quantité de mouvement, une information de texture, de forme, de couleurs,...), à chaque paramètre représentatif d'une phase d'action haut niveau du domaine médical (désinfection, incision, ...), désignée par un expert du domaine médical. Selon un deuxième aspect, le procédé d'analyse sémantique permet d'analyser sémantiquement un flux vidéo pendant son acquisition, pour le découper en phase d'actions haut niveau du domaine d'application du procédé, à partir de ses caractéristiques vidéo de bas-niveau.Thus, the semantic analysis method makes it possible to associate particular low-level characteristics, the field of video (a quantity of movement, information of texture, shape, colors, etc.) with each representative parameter. a high-level action phase in the medical field (disinfection, incision, ...), appointed by an expert in the medical field. According to a second aspect, the semantic analysis method makes it possible to semantically analyze a video stream during its acquisition, in order to split it into the high-level action phase of the application domain of the method, based on its video characteristics of basement. level.
Cette méthode présente l'avantage d'être rapide et de ce fait d'être adaptée à une analyse au fil de l'eau d'un flux vidéo au cours de son acquisition, à l'inverse des solutions de l'art antérieur. De ce fait, le procédé d'analyse sémantique offre des possibilités nouvelles à un utilisateur. En particulier, certains modes de réalisation permettent de prédire les actions qui devraient logiquement survenir, après l'élément courant du flux en cours d'acquisition. Plus précisément, le procédé d'analyse sémantique permet ainsi d'offrir une assistance à l'utilisateur (par exemple d'assister un chirurgien, au cours de l'une de ses opérations) : - d'une part, en lui suggérant des actions à accomplir ; d'autre part, en avertissant l'utilisateur, ou un tiers, lorsque l'action en cours n'est pas celle qui devrait logiquement survenir. Il peut en particulier être utilisé comme un outil d'aide à la décision, ou à but pédagogique, et également comme un outil d'alerte. Dans certains modes particuliers de réalisation, le procédé peut également comprendre une étape de construction, au fil de l'acquisition ou après l'étape d'analyse sémantique, d'un compte rendu sémantique de l'événement que représente le flux. La figure 1 illustre un mode de réalisation particulier dans lequel le procédé comprend tout d'abord une étape d'apprentissage 100 à partir de flux de référence, puis une étape 120 d'analyse sémantique d'un flux lors de son acquisition. Il est clair que l'étape d'apprentissage peut, dans d'autres modes de réalisation, être mise en oeuvre indépendamment de toute étape d'analyse, par exemple par un pool d'experts d'un domaine médical, qui souhaiteraient par exemple valoriser leur expertise. De même, l'étape d'analyse peut être mise en oeuvre, sans étape d'apprentissage, par exemple par l'importation d'un fichier logiciel contenant des données représentatives d'un ensemble de flux de référence annotés sémantiquement, et semblables à celles résultant d'une étape d'apprentissage. 6.2 Exemple de mise en oeuvre d'une étape d'apprentissage On détaille ci après, en lien avec la figure 2, un exemple de mise en oeuvre de l'étape d'apprentissage 100 du procédé d'analyse sémantique, pour une application au domaine des opérations de la cataracte. Dans le mode de réalisation particulier présenté, l'étape d'apprentissage 100 comprend tout d'abord une sous-étape 210 d'acquisition d'un ensemble de flux de référence (« training dataset » S1) destinés à l'apprentissage. Ces flux de références peuvent par exemple être constitués par un ensemble d'enregistrements vidéo de chirurgies de la cataracte, réalisées par plusieurs chirurgiens dans différentes salles d'opérations, précédemment collectés. Ils peuvent également comprendre des flux vidéo transmis en temps réel lors d'une opération, dont la prise en compte définitive comme élément de référence peut être soumise à une validation ultérieure d'un expert du domaine. 6.2.1 Collecte des flux de référence Les flux de référence peuvent notamment consister en des enregistrements collectés via des moyens d'acquisition et de stockage vidéo différents et disponibles sous des formats différents. Par exemple, il peut s'agir, pour l'un, d'un ensemble de une à plusieurs centaines de vidéos (par exemple 200) réalisées par une à plusieurs dizaines de chirurgiens (par exemple 10) dans plusieurs salles opératoires (par exemple 2) munies chacune de moyens d'acquisition et de stockage vidéo différents (par exemple une caméra vidéo CCD-IRIS SONY ® et un enregistreur sur cassette vidéo DSR-20MDP SONY c)), les données étant stockées sous un format MPEG2, avec la meilleure définition disponible sur ces appareils et, pour l'autre, d'un enregistreur vidéo utilisant un standard d'imagerie dédié au domaine médical, par exemple DICOM, comme le produit MediCap USB200 de MediCapture®, les données étant stockées sous un format DVD. Des données démographiques (par exemple l'âge, le sexe, ...) ou contextuelles (par exemple des données médicales comme une pathologie, par exemple un diabète ou une surdité, ou une caractéristique physiologique, comme une inflammation ou une taille de pupille,...) peuvent également être associées à un enregistrement. 6.2.2 Paramétrage du procédé Le procédé d'analyse sémantique présente l'avantage d'être adaptable à différents domaines d'application (notamment la chirurgie, la télésurveillance de lieux ou de dispositifs). Dans le mode de réalisation présenté, le paramétrage du procédé pendant la phase d'apprentissage permet l'optimisation de son efficacité au domaine d'application considéré. La phase d'apprentissage permet en effet de définir de façon judicieuse des paramètres en fonction de résultats obtenus sur l'ensemble des flux de référence. Il s'agit notamment de paramétrer: - les paramètres nécessaires à la technique d'analyse du contenu vidéo d'éléments ou séquences de flux vidéo mise en oeuvre; -ii- un seuil (1- ) de probabilité d'appartenance à un intermède et un seuil (ts) minimum de nombre d'éléments successifs appartenant à un intermède ; -iii- un nombre (L) de preuves (selon la théorie des fonctions de croyance) à utiliser lors de l'étape d'analyse sémantique des phases d'actions ; -iv- un nombre (M) de catégories de matrices non-stationnaires de probabilité ; -v- un nombre (n) de voisins à prendre en compte pour un raisonnement par analogie (mis en oeuvre lors de l'étape d'analyse sémantique 120) ; -vi- les probabilités conditionnelles P,(7-,1 n') du raisonnement par analogie ; -vii- les matrices (Yi), 7") de probabilité de transition entre actions. Dans le mode de réalisation présenté, la technique d'analyse vidéo de sous- séquences est une technique d'analyse de contenus vidéo (ou « Content-Based Video Retrieval » (CBVR)), par exemple la technique décrite par les inventeurs. Les probabilités conditionnelles du raisonnement par analogie et les matrices de probabilité de transition sont estimées grâce aux fréquences relatives observées dans l'ensemble de référence. 6.2.3 Apprentissage à la détection automatique d'intermèdes Dans le mode de réalisation présenté en figure 2, l'étape d'apprentissage 100 comprend également une sous-étape de sélection aléatoire 220 d'un sous-ensemble d'entraînement SO, parmi l'ensemble S1 des flux vidéo de référence, acquis lors d'une sous- étape d'acquisition 210. Les flux du sous-ensemble SO seront ensuite utilisés pour définir, manuellement, le paramétrage de la détection d'intermède. Lorsque le paramétrage est effectué manuellement, comme dans le mode de réalisation illustré, une limitation de l'apprentissage à un nombre réduit de flux permet un gain de temps important en termes de temps d'apprentissage, par rapport à un apprentissage sur l'ensemble des flux de la base d'apprentissage.This method has the advantage of being fast and therefore of being adapted to a streaming analysis of a video stream during its acquisition, unlike the solutions of the prior art. As a result, the semantic analysis method offers new possibilities to a user. In particular, certain embodiments make it possible to predict the actions that should logically occur after the current element of the stream being acquired. More precisely, the semantic analysis method thus makes it possible to offer assistance to the user (for example to assist a surgeon, during one of his operations): on the one hand, by suggesting to him actions to be accomplished; on the other hand, by warning the user, or a third party, when the current action is not the one that should logically occur. In particular, it can be used as a decision support tool, or for educational purposes, and also as an alert tool. In certain particular embodiments, the method may also comprise a step of constructing, during the acquisition or after the semantic analysis step, a semantic report of the event represented by the stream. FIG. 1 illustrates a particular embodiment in which the method firstly comprises a learning step 100 from reference flows and then a step 120 of semantic analysis of a stream during its acquisition. It is clear that the learning step may, in other embodiments, be implemented independently of any analysis step, for example by a pool of experts from a medical field, who would like, for example value their expertise. Similarly, the analysis step can be implemented without a learning step, for example by importing a software file containing data representative of a set of semantically annotated reference streams, and similar to those resulting from a learning step. 6.2 Example of implementation of a learning step In the following, with reference to FIG. 2, an exemplary implementation of the learning step 100 of the semantic analysis method is described for an application to FIG. field of cataract surgery. In the particular embodiment presented, the learning step 100 firstly comprises a sub-step 210 for acquiring a set of reference flows ("training dataset" S1) intended for learning. These reference flows can for example be constituted by a set of video recordings of cataract surgeries, performed by several surgeons in different operating rooms, previously collected. They may also include video streams transmitted in real time during an operation, the final consideration of which can be subject to subsequent validation by a domain expert. 6.2.1 Collection of reference flows Reference flows may consist in particular of recordings collected via different acquisition and video storage means and available in different formats. For example, it may be, for one, a set of one to several hundred videos (for example 200) made by one to several tens of surgeons (for example 10) in several operating rooms (for example 2) each equipped with different video acquisition and storage means (for example a SONY ® CCD-IRIS video camera and a SONY DSR-20MDP video cassette recorder c)), the data being stored in MPEG2 format, with the better definition available on these devices and, for the other, a video recorder using an imaging standard dedicated to the medical field, for example DICOM, such as MediCapture® MediCap USB200, the data being stored in a DVD format . Demographic data (eg age, sex, ...) or contextual data (for example medical data such as a pathology, for example diabetes or deafness, or a physiological characteristic, such as inflammation or pupil size , ...) can also be associated with a recording. 6.2.2 Parameterization of the process The semantic analysis method has the advantage of being adaptable to different fields of application (notably surgery, remote monitoring of places or devices). In the embodiment shown, the parameterization of the method during the learning phase makes it possible to optimize its efficiency in the field of application under consideration. The learning phase makes it possible to judiciously define parameters based on results obtained on all the reference flows. In particular, it involves parameterizing: the parameters necessary for the technique of analyzing the video content of elements or sequences of video streams implemented; a threshold (1) of probability of belonging to an interlude and a minimum threshold (ts) of a number of successive elements belonging to an interlude; a number (L) of proofs (according to the theory of belief functions) to be used during the step of semantic analysis of the action phases; -iv- a number (M) of categories of non-stationary probability matrices; a number (n) of neighbors to be taken into account for reasoning by analogy (implemented during the semantic analysis step 120); -vi- the conditional probabilities P, (7-, 1 n ') of reasoning by analogy; -vii the matrices (Yi), 7 ") of transition probability between actions In the embodiment presented, the technique of video analysis of subsequences is a video content analysis technique (or" Content- Based Video Retrieval "(CBVR)), for example the technique described by the inventors The conditional probabilities of analogical reasoning and transition probability matrices are estimated using the relative frequencies observed in the reference set. In the embodiment shown in FIG. 2, the learning step 100 also comprises a random selection sub-step 220 of a training subset SO, from the set S1. reference video streams acquired during an acquisition substep 210. The subset streams SO will then be used to manually define the parameterization of the interleave detection. that the setting is done manually, as in the illustrated embodiment, a limitation of learning to a reduced number of flows allows significant time savings in terms of learning time, compared to a learning on the whole streams of the learning base.
Dans le mode de réalisation illustré, le sous-ensemble d'entraînement comprend par exemple une dizaine de flux vidéo. L'étape d'apprentissage 100 comprend ensuite une sous-étape de segmentation 230 de chaque flux du sous-ensemble SO d'entraînement par des experts du domaine, de façon à définir, grâce aux experts, tous les débuts et fins d'intermèdes des flux du sous- ensemble d'entraînement SO. En outre, l'étape d'apprentissage comprend une sous-étape d'entraînement 240 de détection automatique des débuts et fins d'intermèdes des flux du sous-ensemble d'entraînement SO. Cet entraînement peut par exemple prendre la forme d'une validation croisée, notamment par une méthode de validation croisée de type « N-fold cross validation », sur le sous-ensemble d'entraînement SO. Ainsi, dans le mode de réalisation présenté, le sous-ensemble d'entraînement SO est à son tour découpé en plusieurs lots. Une itération, sur les lots découpés, de sous-étapes de détection automatique 250 des débuts et des fins d'intermèdes, suivie de sous-étapes d'analyse 260 du résultat de cette détection, par corrélation avec le résultat de la segmentation réalisée par des experts (étape 230), permet de valider, lors d'une sous-étape de validation 270, le paramétrage utilisé pour la détection des intermèdes. Plus précisément, la sous-étape d'entraînement 240 permet de définir le seuil (rp ) de probabilité d'appartenance à un intermède, et le seuil (ts) minimum de nombre d'éléments successifs appartenant à un intermède à utiliser lors de l'étape d'analyse sémantique 120 pour décider si un élément appartient ou non à un intermède. Le procédé comprend une évaluation en terme de sensibilité, c'est-à-dire une évaluation du pourcentage de vrais intermèdes détectés par le procédé d'analyse sémantique, et en terme de taux de fausse détection (ou « False positive Rate » (FPR), c'est-à-dire le taux de faux intermèdes détectés pour une vidéo par le procédé d'analyse sémantique). La mesure de la sensibilité et du FPR pour différentes valeurs du seuil de probabilité d'appartenance à un intermède (rp ) et du seuil minimum de nombre d'éléments successifs appartenant à un intermède (ts) permet d'établir une courbe d'analyse dite « Free Response Receiver Operating Characteristic » (« FROC Curve »), ayant en abscisse le FPR et en ordonnée la sensibilité, et de déterminer ainsi un couple de valeurs optimal de FPR et de sensibilité et donc, par déduction, des valeurs optimales des deux seuils T et t. .In the illustrated embodiment, the drive subassembly comprises for example a dozen video streams. The learning step 100 then comprises a segmentation sub-step 230 of each flow of the training subset SO by domain experts, so as to define, thanks to the experts, all the beginnings and ends of interludes. flow of the drive subassembly SO. In addition, the learning step includes a drive sub-step 240 for automatically detecting the start and end of the feeds of the drive subassemblies S0. This training can for example take the form of a cross validation, in particular by a cross-validation method of the "N-fold cross validation" type, on the training subset SO. Thus, in the embodiment shown, the drive subassembly SO is in turn cut into several batches. An iteration, on the chopped batches, of automatic detection sub-steps 250 of the beginnings and ends of interludes, followed by substeps of analysis 260 of the result of this detection, by correlation with the result of the segmentation carried out by experts (step 230) makes it possible to validate, during a validation sub-step 270, the parameterization used for the detection of the intermediates. More precisely, the training sub-step 240 makes it possible to define the threshold (rp) of the probability of belonging to an interlude, and the minimum threshold (ts) of the number of successive elements belonging to an interlude to be used during the semantic analysis step 120 for deciding whether or not an element belongs to an interlude. The method comprises an evaluation in terms of sensitivity, that is to say, an evaluation of the percentage of true intermediates detected by the semantic analysis method, and in terms of false detection rate (or "false positive rate" (RPF) ), that is, the rate of false intermediates detected for a video by the semantic analysis method). The measurement of the sensitivity and the RPF for different values of the threshold of probability of belonging to an interlude (rp) and the minimum threshold of number of successive elements belonging to an interlude (ts) makes it possible to establish an analysis curve called "Free Response Receiver Operating Characteristic" ("FROC Curve"), having on the abscissa the RPF and on the ordinate the sensitivity, and thus to determine an optimal pair of values of RPF and sensitivity and therefore, by deduction, the optimal values of the two thresholds T and t. .
Dans le mode de réalisation particulier présenté en figure 2, les valeurs suivantes sont ainsi choisies : Tp = 0, 7; Ts =0,8. 6.2.4 Définition de types prédéterminés de phases d'action L'étape d'apprentissage 100 permet de paramétrer un nombre (L) de preuves utilisées lors de l'étape d'analyse sémantique 120 des phases d'actions, un nombre (M) de catégories de matrices non-stationnaires de probabilité et un nombre (n) de voisins à prendre en compte pour le raisonnement par analogie (utilisé pour le critère de voisinage des phases d'actions lors de l'étape d'analyse sémantique 120). Ceux-ci sont optimisés grâce à une grille de recherche dans le sous-ensemble de flux de référence et par l'utilisation de méthodes graphiques (par exemple des méthodes utilisant des courbes de type « Receiver Operating Characteristic (ROC) Curve », comme présenté plus loin). Dans le mode de réalisation présenté, chaque flux vidéo de l'ensemble de référence S1 est segmenté temporellement par des experts de la cataracte, en sous-séquences représentant chacune au moins une phase d'action identifiée par un mot clé du domaine d'application. Par exemple, dans le cadre d'opérations de la cataracte, il peut s'agir des mots clés suivants : «incision », « rhexis », « hydrodissection », « phacoemulsification », « epinucleus removal », « viscous agent injection », « implant setting-ip », « viscous agent removal », « stitching up ». Une catégorie particulière (« miscellaneous ») peut éventuellement également être définie, pour regrouper des phases optionnelles (par exemple, dans le cadre d'opérations de la cataracte, « iris retractor setting-up », « iris retractor removal, « angle measurement », « landmark tracing » etc. Dans le mode de réalisation particulier présenté, la méthode graphique se base sur des courbes «Receiver Operating Characteristic (ROC) Curve » établies pour chaque type prédéterminé de phase d'action défini par un expert. Elles comportent en abscisse le FPR et en ordonnée la sensibilité. Les performances associées aux types définis par l'expert sont évaluées par l'aire sous la courbe. Ceci permet notamment d'optimiser le choix du nombre (L) de preuves, du nombre (M) de catégories de matrices non-stationnaires de probabilité et du nombre (n) de voisins pour le raisonnement par analogie. Par exemple, dans le mode particulier de réalisation présenté, les valeurs permettant de maximaliser l'aire sont les valeurs : L = 10 ; M = 4 ; n E [20,30,50,100] 6.3 Déroulement de l'étape d'analyse sémantique d'un flux en cours d'acquisition On présente, en lien avec la figure 3 notamment, le déroulement de l'étape d'analyse sémantique 120 du procédé d'analyse sémantique dans un mode de réalisation particulier. Dans le mode de réalisation présenté en figure 3, le procédé d'analyse sémantique comprend, une fois l'étape d'apprentissage 100 déroulée, une étape d'analyse sémantique 120 d'un flux vidéo en cours d'acquisition. Cette étape permet de segmenter automatiquement le flux en une suite de séquences représentant des intermèdes ou des phases d'action haut niveau. Pour cela, le flux en cours d'acquisition est échantillonné (lors d'une étape d'échantillonnage 310), au fil de son acquisition, en éléments vidéo, ou sous-séquences vidéo, composés de quelques trames vidéo. Le procédé comprend également une sous- étape 320 d'extraction, pour chaque élément échantillonné, de caractéristiques bas niveau du domaine de la vidéo. Ces caractéristiques sont utilisées ensuite lors d'une étape 330 de détermination d'une probabilité d'appartenance d'un élément courant à un intermède, pour comparer le contenu vidéo de l'élément courant avec le contenu vidéo des éléments de l'ensemble S1 de flux de référence et déterminer (par exemple grâce à la méthode déjà développée par les inventeurs) les voisins les plus proches, en terme de distance euclidienne, de l'élément courant. La probabilité d'appartenance à un intermède de l'élément courant est définie, dans le mode de réalisation présenté en figure 3, comme le pourcentage, parmi ces voisins, d'éléments de référence considérés comme appartenant à un intermède.In the particular embodiment presented in FIG. 2, the following values are thus chosen: Tp = 0.7; Ts = 0.8. 6.2.4 Definition of predetermined types of action phases The learning step 100 makes it possible to parameterize a number (L) of proofs used during the semantic analysis step 120 of the action phases, a number (M ) categories of non-stationary probability matrices and a number (n) of neighbors to be considered for analogy reasoning (used for the neighborhood criterion of action phases in semantic analysis step 120) . These are optimized thanks to a search grid in the subset of reference flows and by the use of graphical methods (for example methods using curves of the type "Receiver Operating Characteristic (ROC) Curve", as presented further). In the embodiment presented, each video stream of the reference set S1 is segmented temporally by cataract experts, in sub-sequences each representing at least one action phase identified by a keyword of the application domain. . For example, in the context of cataract surgery, the following keywords may be used: "incision", "rhexis", "hydrodissection", "phacoemulsification", "epinucleus removal", "viscous agent injection", "Implant setting-ip", "viscous agent removal", "stitching up". A specific category ("miscellaneous") may also be defined, to group optional phases (for example, in the context of cataract operations, "iris retractor setting-up", "iris retractor removal", "angle measurement" , "Landmark tracing" etc. In the particular embodiment presented, the graphical method is based on "Receiver Operating Characteristic (ROC) Curve" curves established for each predetermined type of action phase defined by an expert. The sensitivity associated with the types defined by the expert is evaluated by the area under the curve, which makes it possible to optimize the choice of the number (L) of proofs, the number (M). categories of non-stationary matrices of probability and the number (n) of neighbors for reasoning by analogy, For example, in the particular embodiment presented, the values to maximize the area are the values: L = 10; M = 4; n E [20,30,50,100] 6.3 Progress of the step of semantic analysis of a stream being acquired In connection with FIG. 3, the course of the semantic analysis step is presented. semantic analysis method in a particular embodiment. In the embodiment shown in FIG. 3, the semantic analysis method comprises, once the learning step 100 has been unrolled, a semantic analysis step 120 of a video stream that is being acquired. This step is used to automatically segment the stream into a sequence of sequences representing intermediate or high-level action phases. For this, the stream being acquired is sampled (during a sampling step 310), as it is acquired, in video elements, or video sub-sequences, composed of a few video frames. The method also includes a sub-step 320 for extracting, for each sampled element, low-level features of the video domain. These characteristics are then used in a step 330 of determining a membership probability of a current element at an interlude, for comparing the video content of the current element with the video content of the elements of the set S1 reference flows and determine (for example by means of the method already developed by the inventors) the nearest neighbors, in terms of Euclidean distance, of the current element. The probability of belonging to an interlude of the current element is defined, in the embodiment presented in FIG. 3, as the percentage, among these neighbors, of reference elements considered as belonging to an interlude.
Dans certains modes de réalisation, l'étape d'analyse sémantique 120 comprend de plus une sous-étape 340 de décision sur l'appartenance de l'élément courant à un intermède ou à une phase d'action, selon que la probabilité d'appartenance soit supérieure ou inférieure au seuil (1- ) de probabilité d'appartenance à un intermède paramétré lors de l'étape d'apprentissage. La sous-étape de décision 340 sur l'appartenance de l'élément courant à un intermède ou à une phase d'action peut également tenir compte des décisions déjà prises concernant des éléments déjà acquis du flux, c'est-à-dire concernant des éléments ayant précédé temporellement l'élément courant, et notamment du nombre d'éléments successifs précédant immédiatement l'élément courant et appartenant à un intermède. En particulier, la sous-étape de décision peut tenir compte d'un seuil (t,) minimum de nombre d'éléments successifs appartenant à un intermède défini lors de l'étape de paramétrage. Lorsque la probabilité d'appartenance à un intermède en fonction du temps est une fonction bruitée, cette fonction peut être lissée par un filtre médian d'ordre n. Ainsi, le procédé d'analyse sémantique permet un découpage temporel du flux vidéo en cours d'acquisition, avec une identification d'intervalles de temps représentant des intermèdes.In some embodiments, the semantic analysis step 120 further comprises a substep 340 of deciding whether the current element belongs to an interlude or an action phase, depending on whether the probability of belonging is greater than or less than the threshold (1) of the probability of belonging to an interleaved parameter during the learning step. The decision sub-step 340 on whether the current element belongs to an interlude or a phase of action may also take into account decisions already taken concerning elements already acquired from the flow, that is to say concerning elements that have preceded the current element temporally, and in particular the number of successive elements immediately preceding the current element and belonging to an interlude. In particular, the decision sub-step can take into account a threshold (t,) minimum number of successive elements belonging to an intermediate defined during the parameterization step. When the probability of belonging to an interlude as a function of time is a noisy function, this function can be smoothed by a median filter of order n. Thus, the semantic analysis method allows a temporal division of the video stream being acquired, with an identification of time intervals representing interludes.
Les phases d'action contenues dans le flux vidéo sont définies par dualité avec les intermèdes détectés. Ainsi, une phase d'action est définie, selon le procédé d'analyse sémantique, comme l'action associée à l'intervalle de temps délimité par deux intermèdes consécutifs, ou par le début de l'acquisition du flux et le début du premier intermède, ou par la fin du dernier intermède et la fin de l'acquisition du flux. 6.3.1 Probabilité de déroulement d'une phase d'action d'un type prédéterminé L'étape d'analyse sémantique 120 du procédé d'analyse sémantique vise notamment à permettre d'associer, à chaque phase d'action, un type prédéterminé, sélectionné parmi les types prédéterminés définis par un expert du domaine, notamment, comme dans le mode de réalisation présenté, lors d'une étape d'apprentissage 100 (par exemple "incision", " rhexis", "hydrodissection", etc...). La probabilité Ki que le type prédéterminé 7-, soit associé à une action Ak est obtenue, en utilisant la théorie mathématique des fonctions de croyance, par combinaison de plusieurs preuves, comme décrit ci-après. Ainsi, dans le mode de réalisation présenté, l'étape d'analyse 120 comprend une 30 sous-étape de détermination 350 d'une probabilité de déroulement d'un type prédéterminé de phase d'action. Celle-ci tient compte, dans le mode de réalisation présenté, de la première preuve que représente le pourcentage, dans l'ensemble S1 de flux de référence, des plus proches voisins de l'élément courant qui appartiennent à un type prédéterminé d'action. Dans certains modes de réalisation, le procédé comprend un raisonnement par analogie, basé sur des probabilités conditionnelles calculées sur l'ensemble S1 de flux de référence. Par exemple, le procédé peut comprendre une estimation, effectuée lors de l'étape d'apprentissage, de la probabilité conditionnelle Pn(T,1 n') calculée sur l'ensemble S1 de flux de référence, qu'un élément de l'ensemble S1 de flux de référence appartienne à une phase d'action de type T' lorsque n' voisins parmi ses n voisins les plus proches dans l'ensemble de référence sont de type T,. Lors de l'étape d'analyse sémantique 120 du flux en cours d'acquisition, lorsque n' voisins parmi les n plus proches voisins de l'élément courant, dans l'ensemble de flux de référence, sont de type T, (c'est-à-dire lorsqu'il s'agit des mêmes conditions de probabilité que celles calculées sur l'ensemble S1 de flux de référence), la probabilité p(n)k,, de déroulement d'une phase d'action de type T, est considérée comme étant la même que la probabilité Pn(T,1 n'), calculée sur l'ensemble S1 de flux de référence. La théorie mathématique des fonctions de croyance peut être appliquée à la détermination des types prédéterminés à associer aux phases d'action.The action phases contained in the video stream are defined by duality with the detected intermediates. Thus, an action phase is defined, according to the semantic analysis method, as the action associated with the time interval delimited by two consecutive intermediates, or by the beginning of the acquisition of the flow and the beginning of the first interlude, or by the end of the last interlude and the end of the acquisition of the flow. 6.3.1 Probability of the course of an action phase of a predetermined type The semantic analysis step 120 of the semantic analysis method aims in particular to make it possible to associate, at each action phase, a predetermined type selected from the predetermined types defined by an expert in the field, particularly, as in the embodiment shown, during a learning step 100 (for example "incision", "rhexis", "hydrodissection", etc.). .). The probability Ki that the predetermined type 7- is associated with an action Ak is obtained, using the mathematical theory of the belief functions, by combining several proofs, as described below. Thus, in the embodiment shown, the analysis step 120 includes a sub-step 350 for determining a probability of unwinding a predetermined type of action phase. It takes into account, in the embodiment presented, the first proof that represents the percentage, in the set S1 of reference flows, of the nearest neighbors of the current element that belong to a predetermined type of action. . In some embodiments, the method includes analogy reasoning, based on conditional probabilities calculated on the set S1 of reference flows. For example, the method may comprise an estimate, made during the learning step, of the conditional probability Pn (T, 1 n ') calculated on the set S1 of reference flows, that an element of the reference flow set S1 belongs to an action phase of type T 'when n' neighbors of its n nearest neighbors in the reference set are of type T ,. During the semantic analysis step 120 of the stream being acquired, when n 'neighbors among the n nearest neighbors of the current element, in the set of reference flows, are of type T, (c that is to say, when the same probability conditions as those calculated on the set S1 of reference flows) are used, the probability p (n) k ,, of unfolding an action phase of type T, is considered to be the same as the probability Pn (T, 1 n '), calculated on the set S1 of reference flow. The mathematical theory of belief functions can be applied to the determination of the predetermined types to associate with the action phases.
Ainsi, l'estimation de la probabilité p(n)k, de déroulement d'une phase d'action de type T, lorsque n' voisins parmi les n plus proches voisins de l'élément courant, dans l'ensemble de référence, sont de type peut être optimisée en choisissant une valeur optimale du nombre n de voisins les plus proches à sélectionner. L'incertitude associée peut par exemple être modélisée par le biais de la théorie mathématique dite des fonctions de croyance (ou théorie Dempster-Shafer), bien connue de l'homme du métier. Deux hypothèses sont envisagées : soit l'action Ak en cours est de type 7-, (hypothèse P), soit elle ne l'est pas (Hypothèse P). L'univers binaire pris en considération est D. = [P, Pl. Selon la théorie des fonctions de croyance, une masse de croyance (ou « belief mass» selon la terminologie anglaise) rIlko () est affectée à chaque élément x de l'ensemble des possibles 212 = (0, P , 17), P u . Ainsi : nik,i,o (0) =0 mk,,o(x)E [0,1], e x E ze2 Mk,40 (Z ) La masse de croyance frikAo (z) exprime la proportion de toutes les preuves disponibles qui rendent vraie l'assertion selon laquelle l'état actuel appartient à x mais pas à un sous-ensemble de x. De ce fait, un des points clés pour la définition de rIlko est l'estimation d'une borne inférieure et d'une borne supérieure de la probabilité de réalisation de l'hypothèse P. La borne inférieure, notée bel ko, est appelée la croyance (ou « belief » selon la terminologie anglaise) de l'hypothèse P. La borne supérieure, notée Plk,40, est appelée la plausibilité (ou « plausibility » selon la terminologie anglaise) de P. Les bornes de la probabilité de réalisation de l'hypothèse P sont les bornes de la probabilité p(n)k,de déroulement d'une phase d'action de type Ti. Ainsi : bel ko (P = mina p(n)k, pl k,1,0 P = MaXn P(n)k,1 La fonction de masse de croyance mkosuit les définitions suivantes : bel k11 (P ) = m k,1,1 ( P pl k,o(P )=mk,o(P)+mk,,,,(PU P). Ceci, combiné avec l'équation frik,0 (0) = 0, amène à : f nk,1,0 (0) = ° fri k,1,0 P ) = bel k,,,o (P) mkio(PUP)=Plk,i3O(P)-belk,i,o(P) mk,1,o(P)=1-plk,i,o(P). Selon le procédé d'analyse sémantique, le contenu de la phase d'action courante peut être utilisé comme une première preuve. Selon les modes de réalisation de l'invention, d'autres preuves peuvent également être utilisées. Ainsi, lorsque l'étape d'apprentissage 100 comprend une sous-étape de détermination d'une probabilité d'ordonnancement de certaines phases d'action, le contenu d'une phase d'action précédant temporellement l'élément courant peut également constituer une preuve pertinente pour la détermination du type prédéterminé de phase d'action à laquelle appartient l'élément courant. Par exemple, on sait qu'une phase d'action de type « incision » est habituellement suivie par une phase d'action de "rhexis" puis par une phase d'action de type "hydrodissection". Aussi, si la phase d'action précédant immédiatement l'élément courant est considérée comme étant de type «rhexis», elle même précédée d'une phase d'action de type « incision », la phase d'action en cours a une grande probabilité d'être de type "hydrodissection". De ce fait, les types prédéterminés de certaines actions déjà survenues, par exemple les (L-1) dernières phases d'action précédemment terminées, peuvent être également utilisés comme preuve pour la détermination du type prédéterminé de phase d'action à laquelle appartient l'élément courant. Dans le mode de réalisation présenté, l'étape d'apprentissage permet de déterminer un ordonnancement d'au moins certaines phases d'action de l'ensemble S1 de flux de référence. Cet ordonnancement peut par exemple être codé sous forme de matrices de probabilité de transition. En effet, si on note Te) la matrice NxN encodant les probabilités de transition entre des phases d'action séparées par / intermèdes, Te),d est la probabilité, estimée sur l'ensemble de référence, que le chirurgien effectue une phase d'action de type Ti lorsqu'il a déjà effectué des phases d'actions de type T. Pour chaque preuve, une fonction de masse de croyance m ko, où 1= 1../ - 1 est 20 définie. Les bornes inférieure et supérieure de la probabilité de l'hypothèse P (respectivement belko(P) et plko(P)) sont fournies par la matrice de probabilité de transition T) et les estimations p(n)k-t,/ = mina [7.(1) P(n)k-i] Plk,o(P) = MaXn [T(1) P1n1k-di 25 où P(n)kest le vecteur de dimension N dont le iierne élément ekl. Les fonctions de masse de croyance niko sont déterminées de façon similaire à la détermination de rIlko exposée ci-dessus. En particulier, les équations déjà énoncées : bel k,i,o (P) = mina p(n)k,i et pl ( (P)= MaXn P(n)k,1 sont des cas particuliers des équations précédentes avec 1=0 (matrice d'identité). 30 Selon les modes de réalisation du procédé d'analyse sémantique, les preuves peuvent éventuellement être combinées.Thus, the estimation of the probability p (n) k, of a T-type action phase, when n 'among the n nearest neighbors of the current element, in the reference set, are of type can be optimized by choosing an optimal value of the number n of nearest neighbors to select. The associated uncertainty can for example be modeled by means of the mathematical theory known as belief functions (or Dempster-Shafer theory), well known to those skilled in the art. Two hypotheses are considered: either the current Ak action is of type 7-, (hypothesis P), or it is not it (Hypothesis P). The binary universe taken into consideration is D. = [P, Pl. According to the theory of belief functions, a belief mass (or "belief mass" in the English terminology) rIlko () is assigned to each element x of the set of possibilities 212 = (0, P, 17), P u. Thus: nik, i, o (0) = 0 mk ,, o (x) E [0,1], ex E ze2 Mk, 40 (Z) The mass of belief frikAo (z) expresses the proportion of all the proofs available that make true the assertion that the current state belongs to x but not to a subset of x. Therefore, one of the key points for the definition of rIlko is the estimation of a lower bound and an upper bound of the probability of realization of the hypothesis P. The lower bound, denoted bel ko, is called the The upper bound, denoted by Plk, 40, is called the plausibility (or "plausibility" according to the English terminology) of P. The bounds of the probability of realization are the beliefs (or "beliefs" in English terminology) of the hypothesis P. from the hypothesis P are the bounds of the probability p (n) k, of course of a phase of action of type Ti. For example: bel ko (P = mina p (n) k, plk, 1.0 P = MaXn P (n) k, 1 The belief mass function mkosuits the following definitions: bel k11 (P) = mk, 1 , 1 (P pl k, o (P) = mk, o (P) + mk ,,,, (PU P) This, combined with the equation frik, 0 (0) = 0, leads to: f nk , 1.0 (0) = f fri k, 1.0)) = k ,,,, ((P) mkio (PUP) = Plk, 3O (P) -belk, i, ((P) mk, 1 , o (P) = 1-plk, i, o (P) According to the semantic analysis method, the contents of the current action phase can be used as a first proof. other proofs can also be used, so that when the learning step 100 comprises a sub-step of determining a scheduling probability of certain action phases, the content of a phase of action that temporally precedes the current element can also constitute relevant proof for the determination of the predetermined type of action phase to which the current element belongs, for example, it is known that an "incision" type action phase is usually followed by a "rhexis" action phase and then by a "hydrodissection" type of action phase. Also, if the action phase immediately preceding the current element is considered to be of the "rhexis" type, even preceded by an action phase of "incision" type, the action phase in progress has a great deal of probability of being of the "hydrodissection" type. As a result, the predetermined types of certain actions already occurring, for example the (L-1) last action phases previously completed, can also be used as proof for the determination of the predetermined type of action phase to which the action belongs. current element. In the embodiment presented, the learning step makes it possible to determine a scheduling of at least certain action phases of the set S1 of reference flows. This scheduling can for example be encoded as transition probability matrices. Indeed, if we denote by Te) the matrix NxN encoding the transition probabilities between action phases separated by / intermedials, Te), d is the probability, estimated on the set of reference, that the surgeon performs a phase of type action Ti when it has already carried out T-type action phases. For each proof, a belief mass function m ko, where 1 = 1 ../ - 1 is defined. The lower and upper bounds of the probability of the hypothesis P (respectively belko (P) and plko (P)) are provided by the transition probability matrix T) and the estimates p (n) kt, / = mina [7]. (1) P (n) ki] Plk, o (P) = MaXn [T (1) P1n1k-di where P (n) k is the vector of dimension N whose the third element ek1. The niko belief mass functions are determined in a manner similar to the RiKo determination discussed above. In particular, the equations already stated: bel k, i, o (P) = mina p (n) k, i and pl ((P) = MaXn P (n) k, 1 are special cases of the preceding equations with 1 = 0 (identity matrix) According to the embodiments of the semantic analysis method, the proofs can optionally be combined.
En effet, selon le procédé d'analyse sémantique, une fonction de masse est définie pour chaque preuve /. Une règle de combinaison est utilisée pour convertir cette pluralité de fonctions de masse en une seule fonction de masse nik,. Cette conversion tire partie des propriétés des règles de combinaison de pouvoir combiner toute pluralité de fonctions de croyance basiques. Cette propriété est importante pour la catégorisation de phases d'action, puisque le nombre de preuves peut varier, selon les modes de réalisation et selon la longueur du flux déjà acquis. D'une part, lorsqu'un nombre L de preuves est défini lors de l'étape d'apprentissage, le nombre d'actions précédentes dont il est possible de tenir compte lors de l'étape d'analyse sémantique, en début d'acquisition du flux (pour les L premières actions qui surviennent) sera forcément inférieur à ce nombre L. D'autre part, différentes règles de combinaison peuvent être mises en oeuvre selon les modes de réalisation de l'invention. En particulier, dans le mode de réalisation illustré, la 5''' version de la règle de redistribution proportionnelle du conflit (ou PCR5 pour « fifth version of Proportional Conflict Redistribution Rule ») est utilisée. Une fois que toutes les preuves ont été combinées, la probabilité qu'une action soit de type Ti est estimée par la probabilité pignistique de P. Cette probabilité constitue un compromis entre la croyance et la plausabilité de P : Pk,I= mk,l(P)4- u P)/2 Dans certains modes de réalisation, le type prédéterminé associé à une phase d'action est déterminé automatiquement à partir de son propre contenu (par comparaison aux phases d'action définies sur l'ensemble S1 de flux de référence) (première preuve). D'autres preuves, comme le type prédéterminé d'au moins certaines des phases d'action déjà survenues, peuvent être prises en compte. Dans certains modes de réalisation, il peut ne pas être tenu compte du contenu des intermèdes déjà survenus pour la détermination du type prédéterminé associé à la phase d'action à laquelle appartient un élément courant. Dans d'autres modes de réalisation, au contraire, il peut être tenu compte du contenu des intermèdes précédant un élément courant, considéré comme appartenant à une phase d'action, pour la détermination du type prédéterminé associé à cette phase d'action.Indeed, according to the semantic analysis method, a mass function is defined for each proof. A combination rule is used to convert this plurality of mass functions to a single nik, mass function. This conversion takes advantage of the properties of power combination rules to combine any plurality of basic belief functions. This property is important for the categorization of action phases, since the number of proofs can vary, according to the embodiments and according to the length of the flow already acquired. On the one hand, when a number L of proofs is defined during the learning step, the number of previous actions that can be taken into account during the semantic analysis step, at the beginning of acquisition of the stream (for the first L actions that occur) will necessarily be less than this number L. On the other hand, different combination rules can be implemented according to the embodiments of the invention. In particular, in the illustrated embodiment, the 5 '' version of the proportional redistribution conflict rule (or PCR5 for "fifth version of the Proportional Conflict Redistribution Rule") is used. Once all the evidence has been combined, the probability of an action being of type Ti is estimated by the pignistic probability of P. This probability is a compromise between the belief and the plausibility of P: Pk, I = mk, l (P) 4- u P) / 2 In some embodiments, the predetermined type associated with an action phase is automatically determined from its own content (compared to the action phases defined on the set S1 of reference flow) (first proof). Other evidence, such as the predetermined type of at least some of the action phases already occurring, can be taken into account. In certain embodiments, the contents of the interludes that have already occurred for the determination of the predetermined type associated with the action phase to which a current element belongs may not be taken into account. In other embodiments, on the contrary, it may be taken into account the contents of the intermediates preceding a current element, considered to belong to an action phase, for determining the predetermined type associated with this action phase.
En effet, même si, par définition, un intermède ne contient pas d'événement significatif au niveau du domaine d'application, donc pas de « contenu utile » au niveau applicatif, sa durée dk peut donner une indication sur l'ordonnancement de deux phases d'action et en particulier sur le type prédéterminé de la phase d'action qui le suit probablement. Par exemple, si la durée d'un intermède est très courte, un chirurgien n'aura pas eu le temps par exemple de changer d'outil de chirurgie. De ce fait, les actions précédant et suivant l'intermède auront une probabilité plus forte d'appartenir au même type prédéterminé de phase d'action. Si l'intermède dure très longtemps, cela peut logiquement indiquer que quelque chose d'anormal s'est produit et que le chirurgien va recommencer une des actions précédemment survenues. Dans un tel mode de réalisation, la probabilité de transition entre deux actions A k_i,k et A k peut dépendre en particulier de la durée cumulée t k_4k des intermèdes séparant les deux phases d'action (rk-i,k=Ell=k-1+1 T)). Pour chaque preuve /, 1= 1.. L-1, tous les couples d'action (A A k) de l'ensemble S1 de flux de référence sont groupés en M catégories (notées di, ém), selon la valeur de k-I,k. Une matrice de probabilité de transition Tm est ensuite construite par estimation en fonction de l'ensemble S1 de flux de référence en utilisant tous les couples (A id, A k) de la catégorie CI,. La définition de la fonction de masse de croyance est similaire à celle présentée en liaison avec les modes de réalisation présentés plus haut, la matrice de probabilité Te') étant remplacée par une matrice de probabilité Te''). 6.4 Structure d'un terminal de communication selon l'invention On présente, en relation avec la figure 4, la structure simplifiée d'un terminal de communication selon l'invention. Un tel terminal comprend une mémoire 400 comprenant une mémoire tampon, une unité de traitement 410, équipée par exemple d'un microprocesseur et pilotée par un programme d'ordinateur 420, dont l'exécution met en oeuvre un procédé d'analyse sémantique, selon l'un des modes de réalisation particuliers de l'invention. A l'initialisation, les instructions de code du programme d'ordinateur 420 sont par exemple chargées dans une mémoire RAM avant d'être exécutées par le processeur de l'unité de traitement 410.Indeed, even if, by definition, an interlude does not contain a significant event at the level of the application domain, and therefore no "useful content" at the application level, its duration dk can give an indication on the scheduling of two phases of action and in particular on the predetermined type of action phase that probably follows it. For example, if the duration of an interlude is very short, a surgeon will not have time for example to change the surgical tool. As a result, the actions preceding and following the interlude will have a higher probability of belonging to the same predetermined type of action phase. If the interlude lasts a very long time, it may logically indicate that something abnormal has occurred and that the surgeon will repeat one of the previous actions. In such an embodiment, the transition probability between two actions A k_i, k and A k may depend in particular on the cumulative duration t k_4k of the interleaves separating the two action phases (rk-i, k = Ell = k -1 + 1 T)). For each proof /, 1 = 1 .. L-1, all the action pairs (AA k) of the set S1 of reference flows are grouped into M categories (denoted di, em), according to the value of kI k. A transition probability matrix Tm is then constructed by estimation as a function of the set S1 of reference flows using all the pairs (A id, A k) of the category CI,. The definition of the belief mass function is similar to that presented in connection with the embodiments presented above, the probability matrix Te ') being replaced by a probability matrix Te' '). 6.4 Structure of a Communication Terminal According to the Invention With reference to FIG. 4, the simplified structure of a communication terminal according to the invention is presented. Such a terminal comprises a memory 400 comprising a buffer memory, a processing unit 410, equipped for example with a microprocessor and driven by a computer program 420, the execution of which implements a semantic analysis method, according to one of the particular embodiments of the invention. At initialization, the code instructions of the computer program 420 are for example loaded into a RAM before being executed by the processor of the processing unit 410.
L'unité de traitement 410 reçoit en entrée un flux vidéo.The processing unit 410 receives as input a video stream.
Le microprocesseur de l'unité de traitement 410 met en oeuvre les étapes du procédé d'analyse sémantique décrit précédemment, selon les instructions du programme d'ordinateur 420. A cette fin, le terminal de communication comprend, outre la mémoire tampon 400 et un module de réception ou d'acquisition d'un flux vidéo, un module d'apprentissage apte à délivrer au moins une caractéristique vidéo, appelée caractéristique bas-niveau, à partir d'au moins un paramètre représentatif d'une phase d'action sémantique de type prédéterminé, appelée phase d'action haut-niveau. Ces modules sont pilotés par le microprocesseur de l'unité de traitement 410.The microprocessor of the processing unit 410 implements the steps of the semantic analysis method described above, according to the instructions of the computer program 420. For this purpose, the communication terminal comprises, in addition to the buffer memory 400 and a module for receiving or acquiring a video stream, a learning module capable of delivering at least one video characteristic, called a low-level characteristic, from at least one parameter representative of a semantic action phase of predetermined type, called high-level action phase. These modules are driven by the microprocessor of the processing unit 410.
Selon un mode de réalisation, l'invention est mise en oeuvre au moyen de composants logiciels et/ou matériels. Dans cette optique, le terme "module" peut correspondre dans ce document aussi bien à un composant logiciel, qu'à un composant matériel ou à un ensemble de composants matériels et logiciels. Un composant logiciel correspond à un ou plusieurs programmes d'ordinateur, un ou plusieurs sous-programmes d'un programme, ou de manière plus générale à tout élément d'un programme ou d'un logiciel apte à mettre en oeuvre une fonction ou un ensemble de fonctions, selon ce qui est décrit ci-dessus pour le module concerné. Un tel composant logiciel est exécuté par un processeur de données d'une entité physique (terminal, serveur, passerelle, set-top-box, routeur, ... ) et est susceptible d'accéder aux ressources matérielles de cette entité physique (mémoires, supports d'enregistrement, bus de communication, cartes électroniques d'entrées/sorties, interfaces utilisateur, ...). De la même manière, un composant matériel correspond à tout élément d'un ensemble matériel (ou hardware) apte à mettre en oeuvre une fonction ou un ensemble de fonctions, selon ce qui est décrit ci-dessus pour le module concerné. Il peut s'agir d'un composant matériel programmable ou avec processeur intégré pour l'exécution de logiciel, par exemple un circuit intégré, une carte à puce, une carte à mémoire, une carte électronique pour l'exécution d'un micrologiciel (firmware), etc.According to one embodiment, the invention is implemented by means of software and / or hardware components. In this context, the term "module" may correspond in this document as well to a software component, a hardware component or a set of hardware and software components. A software component corresponds to one or more computer programs, one or more subroutines of a program, or more generally to any element of a program or software capable of implementing a function or a program. set of functions, as described above for the module concerned. Such a software component is executed by a data processor of a physical entity (terminal, server, gateway, set-top-box, router, etc.) and is capable of accessing the hardware resources of this physical entity (memories , recording media, communication buses, electronic input / output cards, user interfaces, etc.). In the same way, a hardware component corresponds to any element of a hardware set (or hardware) capable of implementing a function or a set of functions, as described above for the module concerned. It may be a hardware component that is programmable or has an integrated processor for executing software, for example an integrated circuit, a smart card, a memory card, an electronic card for executing a firmware ( firmware), etc.
Claims (5)
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1360738A FR3012640B1 (en) | 2013-10-31 | 2013-10-31 | METHOD OF SEMANTICALLY ANALYZING A VIDEO STREAM DURING ACQUISITION, TERMINAL, COMPUTER PROGRAM PRODUCT AND CORRESPONDING MEDIUM |
PCT/EP2014/072890 WO2015062991A1 (en) | 2013-10-31 | 2014-10-24 | Method of semantic analysis of a video stream during acquision, terminal, computer program product and medium corresponding thereto |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FR1360738 | 2013-10-31 | ||
FR1360738A FR3012640B1 (en) | 2013-10-31 | 2013-10-31 | METHOD OF SEMANTICALLY ANALYZING A VIDEO STREAM DURING ACQUISITION, TERMINAL, COMPUTER PROGRAM PRODUCT AND CORRESPONDING MEDIUM |
Publications (2)
Publication Number | Publication Date |
---|---|
FR3012640A1 true FR3012640A1 (en) | 2015-05-01 |
FR3012640B1 FR3012640B1 (en) | 2018-07-20 |
Family
ID=50489164
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
FR1360738A Active FR3012640B1 (en) | 2013-10-31 | 2013-10-31 | METHOD OF SEMANTICALLY ANALYZING A VIDEO STREAM DURING ACQUISITION, TERMINAL, COMPUTER PROGRAM PRODUCT AND CORRESPONDING MEDIUM |
Country Status (2)
Country | Link |
---|---|
FR (1) | FR3012640B1 (en) |
WO (1) | WO2015062991A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3111463A1 (en) * | 2020-06-12 | 2021-12-17 | Université De Strasbourg | Processing of video streams relating to surgical operations |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105049790A (en) * | 2015-06-18 | 2015-11-11 | 中国人民公安大学 | Video monitoring system image acquisition method and apparatus |
CN111160447B (en) * | 2019-12-25 | 2023-11-14 | 中国汽车技术研究中心有限公司 | Multi-sensor perception fusion method of autonomous parking positioning system based on DSmT theory |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120219271A1 (en) * | 2008-11-17 | 2012-08-30 | On Demand Real Time Llc | Method and system for segmenting and transmitting on-demand live-action video in real-time |
-
2013
- 2013-10-31 FR FR1360738A patent/FR3012640B1/en active Active
-
2014
- 2014-10-24 WO PCT/EP2014/072890 patent/WO2015062991A1/en active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20120219271A1 (en) * | 2008-11-17 | 2012-08-30 | On Demand Real Time Llc | Method and system for segmenting and transmitting on-demand live-action video in real-time |
Non-Patent Citations (4)
Title |
---|
AMIT K ROY-CHOWDHURY ET AL: "Recognition of Humans and Their Activities Using Video", SYNTHESIS LECTURES ON IMAGE, VIDEO, AND MULTIMEDIA PROCESSING, MORGAN & CLAYPOOL PUBLISHERS, UNITED STATES, vol. 1, no. 1, 1 January 2005 (2005-01-01), pages 1 - 173, XP008094556, ISSN: 1559-8136, DOI: 10.2200/S00002ED1V01Y200508IVM001 * |
EMMANUEL RAMASSO ET AL: "Making use of partial knowledge about hidden states in HMMs: an approach based on belief functions", 1 July 2013 (2013-07-01), XP055133633, Retrieved from the Internet <URL:http://hal.archives-ouvertes.fr/docs/00/83/41/77/PDF/PS_HMM_final-1.pdf> [retrieved on 20140806] * |
EWA KIJAK ET AL: "Temporal structure analysis of broadcast tennis video using hidden Markov models", PROCEEDINGS OF SPIE, vol. 5021, 20 January 2003 (2003-01-20), pages 289 - 299, XP055132960, ISSN: 0277-786X, DOI: 10.1117/12.476258 * |
GWENOLE QUELLEC ET AL: "Real-time retrieval of similar videos with application to computer-aided retinal surgery", ENGINEERING IN MEDICINE AND BIOLOGY SOCIETY,EMBC, 2011 ANNUAL INTERNATIONAL CONFERENCE OF THE IEEE, IEEE, 30 August 2011 (2011-08-30), pages 4465 - 4468, XP032026109, ISBN: 978-1-4244-4121-1, DOI: 10.1109/IEMBS.2011.6091107 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3111463A1 (en) * | 2020-06-12 | 2021-12-17 | Université De Strasbourg | Processing of video streams relating to surgical operations |
Also Published As
Publication number | Publication date |
---|---|
WO2015062991A1 (en) | 2015-05-07 |
FR3012640B1 (en) | 2018-07-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7181437B2 (en) | A technique for identifying skin tones in images under uncontrolled lighting conditions | |
KR102033050B1 (en) | Unsupervised Learning Technique for Time Difference Model | |
EP3678532B1 (en) | Decoding the visual attention of an individual from electroencephalographic signals | |
WO2010070142A2 (en) | Method and system for merging data or information | |
US10628676B2 (en) | Content delivery system and method for automated video overlay insertion | |
EP3639190B1 (en) | Descriptor learning method for the detection and location of objects in a video | |
CN113298015B (en) | Video figure social relation graph generation method based on graph convolution network | |
CN109063611A (en) | A kind of face recognition result treating method and apparatus based on video semanteme | |
EP3267333A1 (en) | Local processing of biometric data for a content selection system | |
EP2962301A2 (en) | Generation of a signature of a musical audio signal | |
FR3012640A1 (en) | METHOD OF SEMANTICALLY ANALYZING A VIDEO STREAM DURING ACQUISITION, TERMINAL, COMPUTER PROGRAM PRODUCT AND CORRESPONDING MEDIUM | |
CA2940380A1 (en) | Determining the severity of a geomagnetic disturbance on an electrical network using measures of similarity | |
EP3588301B1 (en) | Automatic and auto-optimised determination of parameters for executing a software application on an information processing platform | |
WO2020011988A1 (en) | System and method for generating a list of probabilities associated with a list of diseases, computer program product | |
EP3773161A1 (en) | Computing device for detecting heart rhythm disorders | |
FR3026526A1 (en) | METHOD AND SYSTEM FOR DETECTING EVENTS OF KNOWN NATURE | |
US11216667B2 (en) | Information processing apparatus, method for information processing, and storage medium | |
BE1031382A1 (en) | METHOD OF CLASSIFICATION OF INTERVENTIONAL EEG SIGNALS | |
US20230101275A1 (en) | Audited training data for an item recognition machine learning model system | |
WO2020249719A1 (en) | Method and system for merging information | |
WO2022090883A1 (en) | Method for annotating training data | |
FR2955408A1 (en) | IMAGE SEGMENTATION METHOD, COMPUTER PROGRAM, AND CORRESPONDING COMPUTER SYSTEM | |
EP3234830A1 (en) | Method and device for monitoring a data generating process, by contrasting with predictive and modifiable temporal rules | |
CN111612492A (en) | User online accurate marketing method and device based on multi-feature fusion | |
Datta Gupta et al. | A Novel CNN Framework for Early-Stage Detection of Blindness in Diabetic Patients |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PLFP | Fee payment |
Year of fee payment: 3 |
|
PLFP | Fee payment |
Year of fee payment: 4 |
|
PLFP | Fee payment |
Year of fee payment: 5 |
|
PLFP | Fee payment |
Year of fee payment: 6 |
|
PLFP | Fee payment |
Year of fee payment: 7 |
|
PLFP | Fee payment |
Year of fee payment: 8 |
|
PLFP | Fee payment |
Year of fee payment: 9 |
|
PLFP | Fee payment |
Year of fee payment: 10 |
|
PLFP | Fee payment |
Year of fee payment: 11 |