EP4165519A1 - Method and system for merging information - Google Patents

Method and system for merging information

Info

Publication number
EP4165519A1
EP4165519A1 EP20731485.7A EP20731485A EP4165519A1 EP 4165519 A1 EP4165519 A1 EP 4165519A1 EP 20731485 A EP20731485 A EP 20731485A EP 4165519 A1 EP4165519 A1 EP 4165519A1
Authority
EP
European Patent Office
Prior art keywords
information
individuals
instances
property
evolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
EP20731485.7A
Other languages
German (de)
French (fr)
Inventor
Kilian VASNIER
Sylvain GATEPAILLE
Valérian JUSTINE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Airbus Defence and Space SAS
Original Assignee
Airbus Defence and Space SAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Airbus Defence and Space SAS filed Critical Airbus Defence and Space SAS
Publication of EP4165519A1 publication Critical patent/EP4165519A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/14Merging, i.e. combining at least two sets of record carriers each arranged in the same ordered sequence to produce a single set having the same ordered sequence

Definitions

  • TITLE PROCESS AND SYSTEM FOR MERGING INFORMATION
  • the technical field of the present invention relates to information fusion methods and systems.
  • the technical field of the present invention is also that of situational awareness methods and systems which are used to detect abnormal behavior of individuals (vehicle, person, etc.) and which are based on such fusion methods and systems. information.
  • the information to be processed to establish such an operational table can come from various sources. Two categories of information provided can be distinguished: so-called “hard” information and “flexible” information ("soft" in English).
  • the hard information provides a quantitative evaluation of elements and comes from physical sensors (camera, microphone, radar ).
  • the flexible information comes from an extraction of linguistic content (observer report, text, phone call %) allowing a qualitative assessment of elements and possible relationships between them.
  • hard information is precise information that can most often be reduced to a numerical value
  • flexible information is information that is often difficult to reduce to a numerical value, requiring knowledge of the context in which the information was acquired. to understand it and which is difficult to use when isolated from the environment in which said information was collected.
  • Information fusion involves several steps, the two main ones being (1) a calculation of similarity distance between the different information available, although these information is of a varied nature, and (2) G association of this information, or not, depending on the result of the similarity calculation.
  • the objective here is to detect whether various information received concerns the same individual or not.
  • the term “individual” is understood in the broad sense in the field of information fusion, namely a separate unit (entity) in a domain of interpretation (person, vehicle, object, group, etc.
  • the information fusion solutions in the literature make a strict comparison between the properties of individuals detected in the information received at a given point in time, regardless of the time difference between the points in time when the information in question was generated. For example, when a maritime surveillance system attempts to compare information relating to a vessel observed three days ago with information relating to a vessel observed more recently in order to determine whether it is the same individual or not, the identity of the captain is at that time more reliable information than the respective positions of these vessels.
  • the approach used is therefore a brake on the automation of information fusion processes, which then need, from an operational point of view, human intervention to ensure that a similarity detected between information is effectively a matter of concern. a correlation and not a simple coincidence without reality on the ground.
  • An object of the present invention is to provide a method of processing information which originates from various sources and from which instances of individuals are generated by ontology alignment, the method of processing information comprising a fusion of information aimed at merging the instances of individuals which correspond to the same individual, the method being implemented by a data processing system, characterized in that the method comprises the following steps: generating the instances of individuals using an ontology which defines, for each property of each instance of individual, an evolution model to be applied to said property, the evolution model represents the evolution of the reliability of said property over time in relation to the variability over time of said property; merge information by comparing in pairs the instances of individuals generated with instances of individuals stored in the knowledge base, by performing for each joint property a similarity distance calculation in application at least of the model of evolution defined for said property, so as to define a confidence coefficient for each property to decide whether or not to merge said instances of individuals; and updating the knowledge base with the instances of individuals resulting from the information fusion.
  • the fusion of information is efficient, because it limits the taking into account of properties according to
  • each evolution model is of one type among the following three possible types: constant, for the properties which do not change over time; predictive, for properties which can be estimated over a certain limited period of time or with a certain uncertainty which evolves over time; and circumstantial, for properties whose evolution over time depends on the occurrence of an event.
  • the properties are associated with evolution models adapted to different types of property variability.
  • the circumstantial model of evolution is exponentially decreasing.
  • the circumstantial model of evolution is exponentially decreasing.
  • each instance of an individual which results from the merger of two other instances of an individual retains only one value for each property among those available in said other instances of an individual and the value retained depends on the model evolution with which said property is associated.
  • the information fusion is refined.
  • the value kept is that having the best precision
  • the retained value is the most recent
  • the conserved value is that showing the highest confidence coefficient according to the following system of equations:
  • index 72 ⁇ 2 where the index "1" represents the oldest information and the index "2" represents the most recent information, where l is the coefficient representative of a reliability of the source having carried out the capture of the information considered, t is an exponential decay accentuation time factor, and t represents the instant of capture of the information considered.
  • the method further comprises the following step: exploiting the results obtained by merging information in a situation management system, and detecting abnormal behavior of individuals using a set of predefined rules , or to a situation ontology model, and to instances of individuals resulting from the fusion of information.
  • a human operator in deciding whether the information presented to him is duplicate or whether said information does indeed relate to distinct individuals is limited.
  • the similarity distance calculation by applying at least the evolution model is aggregated with at least one other similarity calculation.
  • the information fusion is refined.
  • the similarity calculations are weighted.
  • the merging of information can be easily personalized for a specific use case (maritime surveillance, etc.).
  • a said further calculation of similarity distance is a calculation of taxonomic similarity distance and said further calculation of domain similarity distance is a range domain similarity distance calculation.
  • the calculation of the similarity distance in application at least of the evolution model applies a reliability coefficient of the sources having captured the information considered. Thus, more credit can easily be given to information from reliable sources.
  • the information to be processed is flexible information and / or hard information.
  • information fusion is effective regardless of the nature, hard or flexible, of the information collected.
  • the invention also relates to a computer program, which can be stored on a medium and / or downloaded from a communication network, in order to be read by a processor.
  • This computer program includes instructions for implementing the above-mentioned method in any of their embodiments, when said program is executed by the processor.
  • the invention also relates to an information storage medium storing such a computer program.
  • the invention also relates to an information processing system which originates from various sources and from which instances of individuals are generated by ontology alignment, the information processing system comprising electronic circuitry implementing a fusion of individuals.
  • the electronic circuitry implements: means for generating the instances of individuals using an ontology which defines, for each property of each instance of individual, an evolution model to be applied to said property, the evolution model represents the evolution of the reliability of said property over time in relation to the variability over time of said property; means for performing the merging of information by comparing two by two instances of individuals generated with instances of individuals stored in the knowledge base, by performing for each common property a similarity distance calculation in application of at least the evolution model defined for said property, so as to define a confidence coefficient for each property to decide whether or not to merge said instances of individuals; and means for updating the knowledge base with instances of individuals resulting from the information fusion.
  • FIG. 1 schematically illustrates an information processing method implementing the present invention
  • FIG. 2 schematically illustrates an example of a hardware arrangement of an information processing system in which the present invention can be implemented
  • FIG. 3 schematically illustrates an example of the hardware arrangement of a control unit used in the information processing system
  • FIG. 4A schematically illustrates a first example of a model of the evolution over time of a coefficient of confidence of a property of an instance of an individual
  • FIG. 4B schematically illustrates a second example of a model of the evolution over time of a coefficient of confidence of a property of an individual instance
  • FIG. 5 schematically illustrates a mechanism for calculating the distance of similarity between two instances of individuals, in a particular embodiment.
  • Fig. 1 schematically illustrates an information processing method implementing the present invention. The method is implemented by an information processing system, an example of a hardware arrangement of which is detailed below in relation to FIG. 2.
  • a step S 101 the information processing system collects information.
  • Data is collected from multiple sources and the information collected comes from sources of various types and capacities.
  • Each information collected is either of the hard information type or of the flexible information type.
  • Multi-source collection involves collecting information from sources relevant to the targeted use case of information fusion.
  • the hard information is obtained from sources such as physical sensors. This information is then structured, by the nature of the sensors which produce this information, in a raw data format. Soft information is linked to a human activity (social media, websites, official reports from a community or organization, etc.), are usually very large and unstructured. The extraction of flexible information is then based on a linguistic and semantic analysis of the content. Soft information is therefore considered as subjective, while hard information is considered objective.
  • Open source intelligence platforms can also provide information resulting from one or more processing (translation, transcription, extraction, etc.) applied to pre-collected information, which makes it possible to derive so-called information from it.
  • processing transformation, transcription, extraction, etc.
  • 'individuals of interest eg, person, place, organization, event, equipment.
  • the information collected can thus come from intelligence of human origin (designated under the term HUMINT, for “Human Intelligence” in English), from intelligence of open source origin (designated under the term OSINT, for “Open Source Intelligence” in English ) a maritime website, RSS (“Really Simple Syndication”) type flow syndication, an automatic identification system AIS (“Automatic Identification System”) for ships, databases maritime, radar information (designated under the term RADINT, for "Radar Intelligence” in English) with potentially different types of radar, information of electromagnetic origin (designated under the term SIGINT, for "Signal Intelligence” in English) such as radar activity detections of vessels or analysis of telephony signals mobile, and image source information (designated under the term IMINT, for “Image Intelligence”) such as images captured by satellites or drones.
  • HUMINT Human Intelligence
  • OSINT Open Source Intelligence
  • RSS Resource Simple Syndication
  • AIS Automatic Identification System
  • Collection therefore makes it possible to obtain a set of hard and / or flexible information that concerns individuals.
  • Information about these individuals is extracted from data available from various sources.
  • the extraction can be done at the level of the source itself, so that the information processing system obtains in step S 101 information already “digested” (eg, recognition of a shape of a vessel in a video image sequence).
  • the extraction can, as a variant, be done at the level of the information processing system, which then receives raw data from the source in question to be digested.
  • a step S 102 the information processing system performs an ontology matching ("onthology matching" in English).
  • Ontology is a representation of the information of a system that defines the types of individuals of this system with their categories, properties and relationships between these individuals for a specific operational use case (maritime surveillance, for example).
  • the ontology thus makes it possible to have the same representation of information which is compatible with both hard and soft sources.
  • Any individual identified and extracted at the end of the information collection is instantiated, to then feed relevant information into a situation monitoring system.
  • any property linked to this individual and extracted from the corresponding collected information is instantiated.
  • a property is either a literal (also called an "attribute"), such as for example the length of a ship, or a relation of an individual with another individual, such as for example the relation between a ship and its captain.
  • a literal also called an "attribute”
  • the property in question is not instantiated.
  • an individual extracted from collected information can be totally or partially instantiated.
  • an ontology can define an individual of type "ship", with several properties (eg, name of the ship, owner, date of observation, size, position, speed, IMO number (" International Maritime Organization number ”in English) ).
  • a first source eg, AIS automatic identification system
  • an instance (also referred to as an object) of an individual representing this vessel can be created with a literal instance for IMO number, observation date, position and speed, but not for the name of the vessel, the owner and the size, which are not part of the information contained in the messages of the automatic identification systems AIS.
  • an individual instance representing that vessel with a literal instance for IMO number, vessel name and the shipowner can be created from information from this other source of information, but without an instance of a literal for speed, position and date of observation.
  • an individual instance does not include an instance of one or more particular literals can already be information in itself. .
  • Ontology alignment therefore consists of a total or partial instantiation of all individuals, with their properties and relationships, detected in the information collected, by inheriting the definitions provided by the ontology considered.
  • the information collected can already be assigned, at the time of collection, to an ontology or not.
  • the information processing system can also use an existing ontology with the information collected, or use its own ontology adapted to the use case (e.g., maritime surveillance).
  • a transcription of the ontology provided by said information source into an ontology adapted to the use case e.g., maritime surveillance
  • the instantiation of detected individuals relies directly on the ontology appropriate to the use case.
  • the ontology adapted to the use case comprises parameters necessary for the establishment of evolution models in association with the instantiated properties.
  • an appropriate ontology To apply the appropriate evolution model to each instantiated property, an appropriate ontology must be used. This comes from an expertise making it possible to determine which model describes the evolution over time of each defined property and its variability, and in in particular, to correctly parameterize the evolution model accordingly (eg, time factor t as presented below). The more a property is subject to variations over time, the less reliable this property is considered in information fusion.
  • Each property is then associated with: a value; to an evolution model accompanied by one or more configuration parameters of said evolution model; preferably, a piece of information on the reliability of the information source that allowed the instantiation of the property in question; and information representative of an observation instant (ie, the moment when the value of the property was obtained by the information source).
  • a classical ontology describes a property only by its value and its observation time, as well as possibly by the reliability of the information source. But here, each property is completed by an evolution model which represents the evolution of the reliability of said property over time in relation to the variability over time of said property.
  • the term “reliability” is understood to mean the degree of confidence that the information processing system may have in a property value to decide whether or not to merge instances of individuals, in view of its variability over the period between the instants of. captures information from which said instances of individuals are extracted.
  • a step S103 the information processing system performs an update of a knowledge base KB 205.
  • knowledge bases are distinguished from simple databases. An explanation is given in the document “Knowledge Base Support for Decision Making Using Fusion Techniques in a C2 Environment”, Amanda Vizedom et al, Proceedings of the 4th International Conference on Information Fusion, International Society of Information Fusion, 2001, where he is indicated that the distinction between knowledge bases and databases is based on the distinction between general knowledge and specific data.
  • a knowledge base is optimized for storing general, potentially complex knowledge of the type that can be instantiated.
  • a database usually does not have the means to represent general principles, but is optimized to store very specific data, such as lists of elements and attributes.
  • step S102 The instances of individuals during the ontology alignment in step S102 are therefore stored in the knowledge base KB 205 structured according to the ontology used to describe the individuals instantiated from the various information collected in step S 101 (with the necessary parameters for setting up evolution models).
  • a step S 104 the information processing system performs an information merging operation.
  • Information fusion is based on calculations of similarity distance between instances of individuals, and more precisely of similarity distances between properties of these instances of individuals.
  • the similarity distance between two instances of individuals is a metric defining to what extent the instantiated individuals are similar or different, and even defining to what extent it is possible to decide whether these individuals are similar or different.
  • the information fusion operation performed here takes into account evolution models, associated with each possible property of individuals according to the ontology applied in step S102. These evolution models make it possible to take into account the temporal dimension of the properties of individuals and their respective variabilities in the information fusion operation.
  • step S104 mainly comprises two sub-steps: a sub-step S 1041 where similarity distance calculations are performed by applying the evolution models, for each property of each instance of an individual to be considered; and a data association sub-step S 1042, where the instances of individuals corresponding to the same individuals are associated, or according to the terminology applicable in the field, merged.
  • This weighting corresponds to the uncertainty inherent in said property with respect to its collection method and to an evolution model corresponding to the estimated evolution over time of the variability of said property.
  • the resulting weighting should express the fact that the more uncertain a property, the less impact it should have on similarity distance calculations, since information merging cannot rely on this property to decide whether two instances of individuals considered correspond or not to the same individual. For example, in the field of maritime surveillance, if we compare the position of a ship observed ten minutes ago to another position of a ship observed 4 days ago, it is not possible to know whether these two ships are one and the same or not, because in 4 days, the possibilities of changing the position of a ship are too vast for this to be a reliable criterion for comparison. Conversely, as the length of a vessel does not change, comparing a vessel length observation from a year ago with an observation from a day ago is reliable in trying to determine if it is the same ship or not.
  • each property of an individual does not necessarily evolve in the same way as another property of that individual.
  • the length of a ship is not likely to change, while its position is.
  • Separate evolution models therefore represent these differences in the evolution of properties over time and therefore of the confidence to be given to these properties for the fusion of information as a function of the times of observation of the property in question.
  • g r represents a confidence coefficient defined as follows: where l r is an optional coefficient representative of the reliability of the information source that made it possible to obtain the instance of the property p considered and m r is the evolution model applicable to the property p considered.
  • l r is preferably equal to 1 - e s , where e s is the error rate of the information source.
  • l r is preferably equal to the F-measure, also called F-score.
  • a weight (or score) equal to "1" is considered a very reliable property to perform a similarity distance calculation and, conversely, a confidence coefficient (or weight or score) of zero means the property is too uncertain to be taken. taken into account in the calculation of similarity distance.
  • the models of evolution are preferably of three possible types: constant; predictive; and circumstantial.
  • the constant evolution model is associated with p properties which do not change over time, such as the length of a ship.
  • a representation of a particular embodiment is provided in FIG. 4A, where it appears that the confidence coefficient g r is equal to the coefficient l r (m r being here equal to “1”).
  • the predictive evolution model evolves over time and is therefore associated with p properties which evolve over time.
  • properties p which correspond to the predictive evolution model are, for example, the speed of a ship, its position and its direction of navigation.
  • the values of these properties p can be estimated (ie, predicted) over a certain period of time (over a limited period of time, beyond which the variability of the property p considered is such that its reliability is zero) or with a certain uncertainty that evolves over time. For example, knowing the position of a ship and the direction of its movement, it is easy to predict the area the ship will be in in the near future (eg, a few minutes later).
  • the evolution is predictable, in particular thanks to mathematical tools.
  • Kalman filters or particulate filters are preferred examples.
  • predictive evolution models incorporate a notion of a confidence coefficient, often in the form of a covariance matrix.
  • it is the comparison of the properties according to the predictive evolution model which directly integrates not only a predicted value but also the possible error on the prediction. This is the case, for example, with the Mahalanobis distance.
  • circumstantial evolution model is associated with p properties, the evolution of which over time depends on the occurrence of an event.
  • p properties the evolution of which over time depends on the occurrence of an event.
  • the p properties associated with the circumstantial evolution model are therefore subject to modification following a specific unforeseeable event.
  • circumstantial properties are the identity of the master or the flag of a vessel, which may change when the vessel in question changes owners.
  • Another example is the location of the vessel, which can change a lot over time. Localization is here to be distinguished from position. Position is a set of geographic coordinates, while a vessel's location is the name of the place (e.g., Mediterranean Sea) where the vessel is located.
  • the difficulty in circumstantial evolution models is to define the probability of such an event occurring and to find an adequate way to represent it. While other models could be used, exponential decay models appear to be a suitable approach.
  • the similarity distance DS ⁇ l j , / fc ) between two instances of individuals I j and I k is then an average sum of the weighted similarity distances of each property p common to the two instances of individuals I j and I k and can then be calculated in the sub-step S 1041 as follows:
  • a similarity distance calculation of a textual property can be obtained using the Levenshtein distance (also called "edit distance"), which is a metric for measuring the difference between two sequences of text.
  • Levenshtein distance represents the minimum number of character change operations to be carried out in order to transform a first word, or a first sequence of words, to correspond to a second word, or respectively a second sequence of words .
  • the Hamming distance (which is an upper bound of the Levenshtein distance) is used. The Hamming distance makes it possible to quantify the differences between two sequences of symbols or characters of the same length.
  • Other digital calculations of similarity distances can be used to compare, for example, two speeds or two values of any other physical property.
  • Normalization aims to ensure that the results of similarity distance calculations can then be used and compared together despite their heterogeneity and despite being based on different distance calculations.
  • the purpose of normalization is to allow the result to be bounded by a distance, usually between 0 and 1. Typically, the results of distance calculations are close to 0 when there is no difference. For example, to normalize the Levenshtein or Hamming distance, it suffices to divide the result of the similarity distance calculation by the sum of the character length of the first sequence and the length of the second sequence
  • the normalization can be transposed between -1 and 1.
  • the normalization is then made between 0 and 1, then the result of this normalization is subtracted from 1.
  • 1 represents the similarity
  • -1 represents the dissimilarity.
  • This similarity distance calculation by property p common to the instances of individuals considered can be aggregated with other similarity distance calculations, as detailed below in relation to FIG. 5, in order to obtain an aggregated similarity distance which is then used to decide whether or not to merge the instances of individuals I j and I k .
  • substep S 1042 the information processing system performs a data association operation from the similarity distances calculated in substep S 1041.
  • Data association is a heuristic for deciding whether two instances of individuals must be merged or not, given the similarity distance value (score) between these two instances of individuals.
  • the instances of individuals following the collection of information and at least a subset of those already present in the KB 205 knowledge base are analyzed in pairs to determine if they correspond to the same individual and if they must therefore be merged.
  • step S 104 therefore consists, as far as possible, of merging instances of individuals who represent the same individual.
  • the individual instance which results from the merger of two original individual instances retains only one value for each property among those available in said original individual instances. The retained value depends on the evolution model with which the considered property is associated.
  • the conserved value is that described by the source (eg, sensor) of the information from which is extracted the individual instance considered which has the best precision (which is known to the fact that the ontology has the information on the accuracy of the source which observed the property).
  • index 72 ⁇ 2 where the index "1" represents the oldest information and the index "2" represents the most recent information, where l is the optional coefficient representative of the reliability of the source that performed the capture (or observation) of the information considered, t is the time factor of the predictive evolution model as defined above, and / represents the instant of capture (or observation) of the information considered.
  • a step S105 the information processing system performs a new update of the knowledge base KB 205.
  • each new individual instance resulting from the information merging is stored in the KB 205 knowledge base. Since the similarity distance was sufficiently small to allow the association of data between at least one pair of instances of individuals, the instances of individuals (and therefore their properties ) can be merged to generate an "augmented" instance for this individual. This new instance can then in turn be associated with one or more other instances during a new iteration of the information fusion operation.
  • the instances of individuals which have allowed the fusion of information and the instance of individuals generated by the fusion of information are therefore all kept in the knowledge base KB 205 and are linked to each other therein. As a variant, the instances of individuals that were used to create a merged individual instance are not kept in KB 205 knowledge base.
  • a situational awareness system uses the results obtained during the information merging operations carried out in step S 105 and represents these results in the form of synthetic views, in order to facilitate the detection of abnormal behavior.
  • Such situational awareness systems are well known in the field of maritime surveillance and / or civil security, and are generally operated by regional, national or international organizations responsible for monitoring a given geographical area.
  • the situation monitoring system is integrated, or connected, to the information processing system.
  • Such situational awareness systems implement sets of predefined rules exploiting the results obtained in step S 105 to detect individuals (ship, etc.) with abnormal behavior compared to a behavior defined as standard in view of the type. of the individual considered, and to generate an alert if necessary, which is for example displayed to the operator.
  • Such rule-based mechanisms are well known in the literature through expert systems.
  • situational ontology models are used to characterize types of behavior.
  • situation ontology is described in the document "Improving Maritime Situational Awareness by Fusing Sensor Information and Intelligence", van den Broek et al., International Conference on Information Fusion, 2011 ..
  • Such situational awareness systems generally include one or more common operational views (or "Common Operational Picture, COP" in English) made up of synthetic graphical or / and tabular views presenting the results of the information fusion with those obtained by d other biases.
  • the situational awareness system comprises, in a graphical interface, a geographical view of the monitored area with a background map or an aerial image or both superimposed. Vessels in the monitored area are superimposed in the geographic view by an icon and a label giving the vessel's identification information. A displacement vector, or a trajectory, can also be presented for each vessel on the geographic view.
  • the situation monitoring system can also include a tabular or graphical view presenting the alerts generated following the exploitation of the results of the information fusion. These alerts can be presented to a human operator according to a color code according to the severity and / or the urgency of the situation, potentially accompanied by a visual and / or audible warning signal.
  • One of the advantages obtained by using the results of the fusion of information resulting from the method of the invention in a situational awareness system is therefore to offer a correlation space between information much larger than that which a human operator is able to apprehend manually, that is to say by his only cognitive capacities with or without the help of the methods of fusion of information of the state of the art, this in order to eliminate the duplicates before display and offer improved and more automated situational awareness.
  • This allows the human operator to focus on situational interpretation and situational decision making, rather than residual and manual correlation operations.
  • the graphical interface also presents means of representing the history of information mergers carried out automatically at the during the implementation of the method and saved as and when in the knowledge base KB 205.
  • step S106 uses the results of the fusion of information as described in step S106 to the examples of situation management and to the examples of modes of representation mentioned above.
  • Fig. 2 schematically illustrates an example of a hardware arrangement of an information processing system in which the present invention can be implemented.
  • the information processing system is for example a maritime surveillance system MSS (“Maritime Surveillance System” in English) 250.
  • MSS Maritime Surveillance System
  • the information collected concerns any vessel present at sea in an area. predefined geographic area (eg, all seas and oceans around the world). Sources have recovered partial or redundant information on ships. This information must be correlated so that it can be completed and merged in order to better understand the behavior of all these ships.
  • the result of the information fusion is a descriptive list of vessels containing more complete and non-redundant information, which allows efficient work on the information retrieved, which is impossible without precise correlation of the information collected.
  • Evolution models provide this precision by taking into account the temporal evolution of the properties of the instances of individuals following the collection of information and more particularly the variability of these properties over time.
  • the units (or modules) shown in the example arrangement of Fig. 2 achieve this result.
  • the information processing system comprises a DC (“Data Collector”) collection unit 201, in charge of recovering information from a set 200 of various information sources SI, S2, S3, S4, independently. whether the sources in question provide hard or soft information.
  • the collection unit DC 201 has the behavior already described in relation to step S 101.
  • the DC collection unit 201 can also include direct access to existing databases containing hard and / or flexible information which comes from various sources and which has been previously collected by another means.
  • the information processing system is capable of interconnecting with a distributed database system originating from distinct actors and authorities.
  • the information processing system further comprises an OM (“Ontology Matching”) ontology alignment unit 202, which has the behavior already described in relation to step S 102.
  • the information processing system further comprises an input-output unit KIO (“Knowledge Input / Output” in English) in charge of ensuring the access, in input and output, of the knowledge base KB 205.
  • KIO Knowledge Input / Output
  • the input-output unit KIO 203 provides access to the knowledge base KB 205.
  • the information processing system further comprises an information fusion unit IF ("Information Fusion" in English) 204, which has the behavior already described in relation to step S 104.
  • information fusion unit IF Information Fusion
  • the information processing system preferably further comprises a situation monitoring system.
  • the situation monitoring system then comprises a trigger unit TRIGG (“Trigger” in English) 207 and a graphical user interface GUI (“Graphical User Interface” in English) 208.
  • the trigger unit TRIGG 207 is in charge of lifting alerts on abnormal behavior detected as a result of data fusion.
  • the GUI 208 graphical interface is configured to graphically represent alerts on abnormal behavior detected as a result of information merging, as well as individuals related to these alerts.
  • the information processing system further comprises a CTRL control unit 206 in charge of coordinating, for example by means of a data bus 310, the various units of the information processing system, so as to implement the behavior already described. in relation to FIG. 1.
  • each of the DC 201 collection units, OM 202 ontology alignment, KIO input / output 203 and IF information fusion units 204 can be implemented in hardware form, for example using an electronic component (“ chip ”) or a set of electronic components (“ chipset ”in English); or else be produced in software form and implemented by a processor executing the corresponding computer program instructions.
  • chip electronic component
  • chipset set of electronic components
  • Fig. 3 schematically illustrates an example of a hardware arrangement of the control unit CTRL 206 of the information processing system.
  • the example of the hardware architecture presented comprises, connected by a communication bus 310: a processor CPU 301; a random access memory RAM (“Random Access Memory” in English) 302; a ROM (“Read Only Memory”) 303 or a Flash memory; a storage unit or a storage medium drive, such as an SD ("Secure Digital”) card reader or an HDD (“Hard Disk Drive”) 304; and at least one 305 I / O interface.
  • a communication bus 310 a processor CPU 301; a random access memory RAM (“Random Access Memory” in English) 302; a ROM (“Read Only Memory”) 303 or a Flash memory; a storage unit or a storage medium drive, such as an SD (“Secure Digital”) card reader or an HDD (“Hard Disk Drive”) 304; and at least one 305 I / O interface.
  • CPU 301 is capable of executing instructions loaded into RAM 302 from ROM 303, external memory (such as an SD card), storage media (such as disk hard HDD), or a communication network. Upon power-up, the CPU 301 is able to read instructions from RAM 302 and execute them. These instructions form a computer program causing the CPU 301 to implement some or all of the algorithms and steps described here.
  • all or part of the algorithms and steps described here can be implemented in software form by executing a set of instructions by a programmable machine, such as a DSP (“Digital Signal Processor”) or a microcontroller or a processor. All or part of the algorithms and steps described here can also be implemented in hardware form by a machine or a dedicated component, such as an FPGA (“Field-Programmable Gâte Array”) or an AS IC (“Application-Specific Integrated Circuit ”in English).
  • the information processing system comprises electronic circuitry adapted and configured to implement the algorithms and steps described here.
  • Fig. 5 schematically illustrates a mechanism for calculating the distance of similarity between two instances of individuals, in a particular embodiment in which a calculation of distance of similarity based on the evolution models is aggregated with at least one other calculation of distance of similarity.
  • the instances of individuals are compared in pairs, eg, instances of individuals 01 and 02 are injected as input (I) of the similarity distance calculation.
  • a first similarity distance is calculated using a taxonomic similarity distance calculation module TS (“Taxonomy Similarity”) 501.
  • the instances of individuals 01 and 02 are instances of class in the ontology considered.
  • the taxonomic similarity distance calculation compares the positions of the classes of instances of individuals 01 and 02.
  • the classes and properties are hierarchical and this hierarchy can be represented by a graph.
  • a class (node) "Submarine” and a class (node) "Boat” both inherit from a class (node) "Boat” which itself inherits from a class (node) "Vehicle” , and from the “Vehicle” class (node) also inherit from the “Aircraft” and “Land Vehicles” classes (nodes), and so on.
  • a distance between two graph nodes can be calculated by counting the number of edges of the shortest path between the nodes considered in the graph.
  • the taxonomic similarity measure also takes into account another criterion to represent depth in the ontological hierarchy.
  • the taxonomic similarity distance TS (01; 02) is here defined from the distance which separates the two classes Cl and C2 of the instances of individuals 01 and 02 from the root R of the hierarchy and from the distance which separates their lowest common sub-denominator CO with respect to the root R of the hierarchy, according to the following formula: where d (R; CO) is the distance which separates the class CO from the root R of the hierarchy, d (R; CO; Cl) is the distance which separates the class Cl from the root R passing through the class CO and d (R; CO; C 2) is the distance separating class C2 from the root R passing through class CO.
  • d (R; CO; C 2 is the distance separating class C2 from the root R passing through class CO.
  • a second similarity distance is calculated using a domain and range similarity distance calculation module DRS ("Domain and Range Similarity" in English) 502.
  • DRS Domain and Range Similarity
  • the calculation of the domain similarity distance and DRS range compares the number of fields (properties) shared by the two classes C1 and C2 to which the two instances of individuals C1 and 02 belong respectively, normalized by their total number of fields.
  • Ontology is in fact preferentially not limited to the hierarchical structure of concepts in the form of classes, but also includes domain and range definitions within the properties, as shown by the following system of equations.
  • the calculation of distance of similarity between classes involves the comparison of properties which appear in common in the considered instances of these classes.
  • OPR (C) represents the set of relation-type properties that have class C in the range definition of a second subject, and ⁇ OPR (C) ⁇ represents the cardinality of that set
  • DPD ⁇ C) represents the set of literal type properties that have class C in their range definition, and
  • a third similarity distance is calculated using a similarity distance calculation module based on the evolution models MoES (“Model of Evolution-based Similarity”) 503.
  • the similarity distance based on models of evolution MoES between instances of individuals 01 and 02 is an average sum of the weighted similarity distances of each property p common to the two instances of individuals 01 and 02, as follows:
  • the first, second and third similarity distances are then combined by an aggregator module AGG 504, in order to produce at the output (O) of the calculation of the similarity distance a similarity distance SD ("Similarity Distance" in English) between instances of individuals 01 and 02.
  • the aggregator module AGG 504 applies respective weights to the first, second and third similarity distances, in order to give more or less importance to each of them and to standardize the result.
  • the weights respectively assigned to the first, second and third similarity distances are defined as a function of the application framework considered. Ontology can thus, for example, give greater weight to the taxonomic similarity distance TS compared to the similarity distance based on the MoES evolution models and to the domain and range similarity distance DRS.
  • the mechanism for calculating the distance of similarity between two instances of individuals has been presented in Fig. 5 in modular form.
  • the modules in question can be hardware modules or software modules.
  • the similarity distance calculation mechanism shown in FIG. 5 is also representative of a method including steps of calculating the first, second and third similarity distances, and the corresponding aggregation, as described above.

Abstract

According to the invention, instances of individuals are generated by ontology alignment using information from a variety of sources. In order to perform a merging of information aimed at merging the instances of individuals that correspond to a single individual, a data-processing system performs the following steps: generating the instances of individuals using an ontology which defines, for each property of each instance of an individual, an evolution model to be applied to said property, the evolution model representing the evolution of the reliability of said property over time in relation to the variability of said property over time; performing the merging of information by comparing, two-by-two, the generated instances of individuals with instances of individuals stored in a knowledge base, performing, for each shared property, a calculation of similarity distance by applying at least the evolution model defined for said property, so as to define a coefficient of confidence for each property in order to decide whether or not to merge said instances of individuals; and updating the knowledge base with the instances of individuals resulting from the merging of information. The effectiveness of the merging of information is thus improved.

Description

DESCRIPTION DESCRIPTION
TITRE : PROCEDE ET SYSTEME DE FUSION D’INFORMATIONS TITLE: PROCESS AND SYSTEM FOR MERGING INFORMATION
DOMAINE TECHNIQUE TECHNICAL AREA
Le domaine technique de la présente invention concerne les procédés et systèmes de fusion d’informations. Le domaine technique de la présente invention est aussi celui des procédés et systèmes de tenue de situation qui sont utilisés pour détecter des comportements anormaux d’individus (véhicule, personne...) et qui s’appuient sur de tels procédés et systèmes de fusion d’informations. The technical field of the present invention relates to information fusion methods and systems. The technical field of the present invention is also that of situational awareness methods and systems which are used to detect abnormal behavior of individuals (vehicle, person, etc.) and which are based on such fusion methods and systems. information.
ETAT DE LA TECHNIQUE ANTERIEURE STATE OF THE PRIOR ART
De nombreux domaines et activités s’intéressent à la fusion d’informations : médical, environnement, surveillance de trafic aérien et maritime, sécurité militaire... Leur point commun réside dans le fait de devoir gérer des systèmes dynamiques en temps réel avec une multitude de données qui doivent être synthétisées en un seul tableau opérationnel afin de permettre une meilleure compréhension des situations, ce que l’on appelle « situation awareness » en anglais. Many fields and activities are interested in the fusion of information: medical, environment, air and maritime traffic surveillance, military security ... Their common point lies in the fact of having to manage dynamic systems in real time with a multitude of data which must be summarized in a single operational table in order to allow a better understanding of the situations, what is called “situation awareness” in English.
Les informations à traiter pour établir un tel tableau opérationnel peuvent provenir de sources variées. Deux catégories d’informations fournies peuvent être distinguées : les informations dites « dures » (« hard » en anglais) et les informations dites « souples » (« soft » en anglais). Les informations dures fournissent une évaluation quantitative d’éléments et proviennent de capteurs physiques (caméra, microphone, radar...). Les informations souples proviennent d’une extraction de contenu linguistique (rapport d'observateur, texte, appel téléphonique...) permettant une évaluation qualitative d’éléments et des éventuelles relations entre eux. Autrement dit, une information dure est une information précise pouvant être le plus souvent réduite en une valeur numérique, et une information souple est une information souvent difficile à réduire en une valeur numérique, nécessitant la connaissance du contexte dans laquelle l’information a été acquise pour la comprendre et qui est difficilement exploitable lorsqu’isolée de l’environnement dans laquelle ladite information a été collectée. The information to be processed to establish such an operational table can come from various sources. Two categories of information provided can be distinguished: so-called "hard" information and "flexible" information ("soft" in English). The hard information provides a quantitative evaluation of elements and comes from physical sensors (camera, microphone, radar ...). The flexible information comes from an extraction of linguistic content (observer report, text, phone call ...) allowing a qualitative assessment of elements and possible relationships between them. In other words, hard information is precise information that can most often be reduced to a numerical value, and flexible information is information that is often difficult to reduce to a numerical value, requiring knowledge of the context in which the information was acquired. to understand it and which is difficult to use when isolated from the environment in which said information was collected.
La fusion d’informations comporte plusieurs étapes, dont les deux principales sont (1) un calcul de distance de similarité entre les différentes informations à disposition, bien que ces informations soient de nature variée, et (2) G association de ces informations, ou pas, en fonction du résultat du calcul de similarité. L’objectif est ici de déceler si diverses informations reçues concernent un même individu ou pas. On entend le terme « individu » au sens large dans le domaine de la fusion d’informations, à savoir une unité à part entière (entité) dans un domaine d’interprétation (personne, véhicule, objet, groupe.. Information fusion involves several steps, the two main ones being (1) a calculation of similarity distance between the different information available, although these information is of a varied nature, and (2) G association of this information, or not, depending on the result of the similarity calculation. The objective here is to detect whether various information received concerns the same individual or not. The term “individual” is understood in the broad sense in the field of information fusion, namely a separate unit (entity) in a domain of interpretation (person, vehicle, object, group, etc.
Les solutions de fusion d’informations dans la littérature effectuent une comparaison stricte entre propriétés d’individus décelés dans les informations reçues à un moment donné, indépendamment de l’écart de temps entre les instants où les informations en question ont été générées. Par exemple, lorsqu’un système de surveillance maritime tente de comparer une information portant sur un navire observé il y a trois jours à une information portant sur un navire observé plus récemment afin de déterminer s’il s'agit du même individu ou pas, l’identité du capitaine est à ce moment-là une information plus fiable que les positions respectives de ces navires. L’approche utilisée est par conséquent un frein à une automatisation des processus de fusion d’informations, qui ont alors besoin, d’un point de vue opérationnel, d’interventions humaines pour assurer qu’une similitude détectée entre informations relève effectivement d’une corrélation et non d’une simple coïncidence sans réalité de terrain. The information fusion solutions in the literature make a strict comparison between the properties of individuals detected in the information received at a given point in time, regardless of the time difference between the points in time when the information in question was generated. For example, when a maritime surveillance system attempts to compare information relating to a vessel observed three days ago with information relating to a vessel observed more recently in order to determine whether it is the same individual or not, the identity of the captain is at that time more reliable information than the respective positions of these vessels. The approach used is therefore a brake on the automation of information fusion processes, which then need, from an operational point of view, human intervention to ensure that a similarity detected between information is effectively a matter of concern. a correlation and not a simple coincidence without reality on the ground.
Il est alors souhaitable de pallier ces inconvénients de l’état de la technique. Il est notamment souhaitable de fournir une solution qui, dans le cadre d’une fusion d’informations, réduit le nombre de faux positifs et augmente le nombre de vrais négatifs. Il est plus généralement souhaitable de fournir une solution de fusion d’informations qui soit plus efficace. Il est notamment souhaitable de fournir une solution qui, dans le cadre d’une tenue de situation s’appuyant sur la fusion d’informations, limite l’intervention d’un opérateur humain pour décider si les informations qui lui sont présentées sont des doublons ou si lesdites informations concernent effectivement des individus distincts. It is therefore desirable to overcome these drawbacks of the prior art. In particular, it is desirable to provide a solution which, in an information merger, reduces the number of false positives and increases the number of true negatives. More generally, it is desirable to provide a more efficient information fusion solution. It is in particular desirable to provide a solution which, in the context of situation management based on the fusion of information, limits the intervention of a human operator to decide whether the information presented to him is duplicate. or whether the said information does indeed relate to separate individuals.
EXPOSE DE L'INVENTION DISCLOSURE OF THE INVENTION
Un objet de la présente invention est de proposer un procédé de traitement d’informations qui proviennent de sources variées et à partir desquelles sont générées des instances d’individus par alignement d’ontologie, le procédé de traitement d’informations comportant une fusion d’informations visant à fusionner les instances d’individus qui correspondent à un même individu, le procédé étant implémenté par un système de traitement de données, caractérisé en que le procédé comporte les étapes suivantes : générer les instances d’individus en utilisant une ontologie qui définit, pour chaque propriété de chaque instance d’individu, un modèle d’évolution à appliquer à ladite propriété, le modèle d’évolution représente l’évolution de la fiabilité de ladite propriété au fil du temps en lien avec la variabilité au fil du temps de ladite propriété ; effectuer la fusion d’informations par comparaison deux à deux des instances d’individus générées avec des instances d’individus stockées en base de connaissance, en effectuant pour chaque propriété en commun un calcul de distance de similarité en application au moins du modèle d’évolution défini pour ladite propriété, de sorte à définir un coefficient de confiance de chaque propriété pour décider de fusionner ou pas lesdites instances d’individus ; et mettre à jour la base de connaissance avec les instances d’individus résultant de la fusion d’informations. Ainsi, la fusion d’informations est efficace, car elle limite la prise en compte de propriétés en fonction de leur variabilité au fil du temps qui sépare deux observations (instants auxquels les informations concernées ont été capturées). An object of the present invention is to provide a method of processing information which originates from various sources and from which instances of individuals are generated by ontology alignment, the method of processing information comprising a fusion of information aimed at merging the instances of individuals which correspond to the same individual, the method being implemented by a data processing system, characterized in that the method comprises the following steps: generating the instances of individuals using an ontology which defines, for each property of each instance of individual, an evolution model to be applied to said property, the evolution model represents the evolution of the reliability of said property over time in relation to the variability over time of said property; merge information by comparing in pairs the instances of individuals generated with instances of individuals stored in the knowledge base, by performing for each joint property a similarity distance calculation in application at least of the model of evolution defined for said property, so as to define a confidence coefficient for each property to decide whether or not to merge said instances of individuals; and updating the knowledge base with the instances of individuals resulting from the information fusion. Thus, the fusion of information is efficient, because it limits the taking into account of properties according to their variability over the time which separates two observations (instants at which the information concerned was captured).
Selon un mode de réalisation particulier, chaque modèle d’évolution est d’un type parmi les trois types possibles suivants : constant, pour les propriétés qui ne changent pas au cours du temps ; prédictif, pour les propriétés qui peuvent être estimées sur une certaine période temporelle limitée ou avec une certaine incertitude qui évolue au cours du temps ; et circonstanciel, pour les propriétés dont l’évolution au fil du temps dépend de la survenue d’un événement. Ainsi, les propriétés sont associées à des modèles d’évolution adapté à différents types de variabilité de propriété. According to a particular embodiment, each evolution model is of one type among the following three possible types: constant, for the properties which do not change over time; predictive, for properties which can be estimated over a certain limited period of time or with a certain uncertainty which evolves over time; and circumstantial, for properties whose evolution over time depends on the occurrence of an event. Thus, the properties are associated with evolution models adapted to different types of property variability.
Selon un mode de réalisation particulier, le modèle d’évolution circonstanciel est à décroissance exponentielle. Ainsi, même avec un facteur temporel d’accentuation de la décroissance exponentielle grossièrement défini, les propriétés sujettes à événements sporadiques influant sur la variabilité desdites propriétés sont aisément prises en compte. According to a particular embodiment, the circumstantial model of evolution is exponentially decreasing. Thus, even with a roughly defined exponential decay accentuation time factor, properties subject to sporadic events influencing the variability of said properties are easily taken into account.
Selon un mode de réalisation particulier, chaque instance d’individu qui résulte de la fusion de deux autres instances d’individu ne conserve qu’une valeur pour chaque propriété parmi celles disponibles dans lesdites autres instances d’individu et la valeur conservée dépend du modèle d’évolution auquel est associée ladite propriété. Ainsi, la fusion d’informations est affinée. Selon un mode de réalisation particulier : dans le cas des modèles d’évolution constants, la valeur conservée est celle possédant la meilleure précision ; dans le cas des modèles d’évolution prédictifs, la valeur conservée est la plus récente ; et dans le cas des modèles d’évolution circonstanciels la valeur conservée est celle montrant le coefficient de confiance le plus élevé d’après le système d’équations suivant : According to a particular embodiment, each instance of an individual which results from the merger of two other instances of an individual retains only one value for each property among those available in said other instances of an individual and the value retained depends on the model evolution with which said property is associated. Thus, the information fusion is refined. According to a particular embodiment: in the case of constant evolution models, the value kept is that having the best precision; in the case of predictive evolution models, the retained value is the most recent; and in the case of circumstantial evolution models, the conserved value is that showing the highest confidence coefficient according to the following system of equations:
72 = ^2 où l’index « 1 » représente l’information la plus ancienne et l’index « 2 » représente l’information la plus récente, où l est le coefficient représentatif d’une fiabilité de la source ayant effectué la capture de l’information considérée, t est un facteur temporel d’accentuation de décroissance exponentielle, et t représente l’instant de capture de l’information considérée. 72 = ^ 2 where the index "1" represents the oldest information and the index "2" represents the most recent information, where l is the coefficient representative of a reliability of the source having carried out the capture of the information considered, t is an exponential decay accentuation time factor, and t represents the instant of capture of the information considered.
Selon un mode de réalisation particulier, le procédé comporte en outre l’étape suivante : exploiter les résultats obtenus par la fusion d’informations dans un système de tenue de situation, et détecter des comportements anormaux d’individus grâce à un ensemble de règles prédéfinies, ou à un modèle d’ontologie de situation, et aux instances d’individus résultant de la fusion d’informations. Ainsi, l’intervention d’un opérateur humain pour décider si les informations qui lui sont présentées sont des doublons ou si lesdites informations concernent effectivement des individus distincts est limitée. According to a particular embodiment, the method further comprises the following step: exploiting the results obtained by merging information in a situation management system, and detecting abnormal behavior of individuals using a set of predefined rules , or to a situation ontology model, and to instances of individuals resulting from the fusion of information. Thus, the intervention of a human operator in deciding whether the information presented to him is duplicate or whether said information does indeed relate to distinct individuals is limited.
Selon un mode de réalisation particulier, le calcul de distance de similarité en application au moins du modèle d’évolution est agrégé avec au moins un autre calcul de similarité. Ainsi, la fusion d’information est affinée. According to a particular embodiment, the similarity distance calculation by applying at least the evolution model is aggregated with at least one other similarity calculation. Thus, the information fusion is refined.
Selon un mode de réalisation particulier, les calculs de similarité sont pondérés. Ainsi, la fusion d’informations peut être aisément personnalisée pour un cas d’usage spécifique (surveillance maritime...). According to a particular embodiment, the similarity calculations are weighted. Thus, the merging of information can be easily personalized for a specific use case (maritime surveillance, etc.).
Selon un mode de réalisation particulier, un dit autre calcul de distance de similarité est un calcul de distance de similarité taxonomique et un dit autre calcul de distance de similarité de domaine est un calcul de distance de similarité de domaine de plage. Selon un mode de réalisation particulier, le calcul de distance de similarité en application au moins du modèle d’évolution applique un coefficient de fiabilité des sources ayant capturé les informations considérées. Ainsi, plus de crédit peut être aisément donné à des informations de sources fiables. According to a particular embodiment, a said further calculation of similarity distance is a calculation of taxonomic similarity distance and said further calculation of domain similarity distance is a range domain similarity distance calculation. According to a particular embodiment, the calculation of the similarity distance in application at least of the evolution model applies a reliability coefficient of the sources having captured the information considered. Thus, more credit can easily be given to information from reliable sources.
Selon un mode de réalisation particulier, les informations à traiter sont des informations souples et/ou des informations dures. Ainsi, la fusion d’informations est efficace quelle que soit la nature, dure ou souple, des informations collectées. According to a particular embodiment, the information to be processed is flexible information and / or hard information. Thus, information fusion is effective regardless of the nature, hard or flexible, of the information collected.
L’invention concerne également un programme d’ordinateur, qui peut être stocké sur un support et/ou téléchargé d’un réseau de communication, afin d’être lu par un processeur. Ce programme d’ordinateur comprend des instructions pour implémenter le procédé mentionné ci-dessus dans l’un quelconque de leurs modes de réalisation, lorsque ledit programme est exécuté par le processeur. L’invention concerne également un support de stockage d’informations stockant un tel programme d’ordinateur. The invention also relates to a computer program, which can be stored on a medium and / or downloaded from a communication network, in order to be read by a processor. This computer program includes instructions for implementing the above-mentioned method in any of their embodiments, when said program is executed by the processor. The invention also relates to an information storage medium storing such a computer program.
L’invention concerne également un système de traitement d’informations qui proviennent de sources variées et à partir desquelles sont générées des instances d’individus par alignement d’ontologie, le système de traitement d’informations comportant de la circuiterie électronique implémentant une fusion d’informations visant à fusionner les instances d’individus qui correspondent à un même individu, caractérisé en que la circuiterie électronique met en œuvre : des moyens pour générer les instances d’individus en utilisant une ontologie qui définit, pour chaque propriété de chaque instance d’individu, un modèle d’évolution à appliquer à ladite propriété, le modèle d’évolution représente l’évolution de la fiabilité de ladite propriété au fil du temps en lien avec la variabilité au fil du temps de ladite propriété ; des moyens pour effectuer la fusion d’informations par comparaison deux à deux des instances d’individus générées avec des instances d’individus stockées en base de connaissance, en effectuant pour chaque propriété en commun un calcul de distance de similarité en application au moins du modèle d’évolution défini pour ladite propriété, de sorte à définir un coefficient de confiance de chaque propriété pour décider de fusionner ou pas lesdites instances d’individus ; et des moyens pour mettre à jour la base de connaissance avec les instances d’individus résultant de la fusion d’informations. The invention also relates to an information processing system which originates from various sources and from which instances of individuals are generated by ontology alignment, the information processing system comprising electronic circuitry implementing a fusion of individuals. 'information aiming to merge the instances of individuals which correspond to the same individual, characterized in that the electronic circuitry implements: means for generating the instances of individuals using an ontology which defines, for each property of each instance of individual, an evolution model to be applied to said property, the evolution model represents the evolution of the reliability of said property over time in relation to the variability over time of said property; means for performing the merging of information by comparing two by two instances of individuals generated with instances of individuals stored in the knowledge base, by performing for each common property a similarity distance calculation in application of at least the evolution model defined for said property, so as to define a confidence coefficient for each property to decide whether or not to merge said instances of individuals; and means for updating the knowledge base with instances of individuals resulting from the information fusion.
BREVE DESCRIPTION DES DESSINS Les caractéristiques de l'invention mentionnées ci-dessus, ainsi que d'autres, apparaîtront plus clairement à la lecture de la description suivante d'au moins un exemple de réalisation, ladite description étant faite en relation avec les dessins joints, parmi lesquels : BRIEF DESCRIPTION OF THE DRAWINGS The characteristics of the invention mentioned above, as well as others, will emerge more clearly on reading the following description of at least one exemplary embodiment, said description being given in relation to the accompanying drawings, among which:
[Fig. 1] illustre schématiquement un procédé de traitement d’informations implémentant la présente invention ; [Fig. 1] schematically illustrates an information processing method implementing the present invention;
[Fig. 2] illustre schématiquement un exemple d’agencement matériel d’un système de traitement d’informations dans lequel la présente invention peut être implémentée ; [Fig. 2] schematically illustrates an example of a hardware arrangement of an information processing system in which the present invention can be implemented;
[Fig. 3] illustre schématiquement un exemple d’agencement matériel d’une unité de contrôle utilisée dans le système de traitement d’informations ; [Fig. 3] schematically illustrates an example of the hardware arrangement of a control unit used in the information processing system;
[Fig. 4A] illustre schématiquement un premier exemple de modèle d’évolution au fil du temps d’un coefficient de confiance d’une propriété d’une instance d’individu ; [Fig. 4A] schematically illustrates a first example of a model of the evolution over time of a coefficient of confidence of a property of an instance of an individual;
[Fig. 4B] illustre schématiquement un second exemple de modèle d’évolution au fil du temps d’un coefficient de confiance d’une propriété d’une instance d’individu ; et [Fig. 4B] schematically illustrates a second example of a model of the evolution over time of a coefficient of confidence of a property of an individual instance; and
[Fig. 5] illustre schématiquement un mécanisme de calcul de distance de similarité entre deux instances d’individus, dans un mode de réalisation particulier. [Fig. 5] schematically illustrates a mechanism for calculating the distance of similarity between two instances of individuals, in a particular embodiment.
EXPOSE DETAILLE DE MODES DE REALISATION DETAILED EXPOSURE OF EMBODIMENTS
La Fig. 1 illustre schématiquement un procédé de traitement d’informations implémentant la présente invention. Le procédé est implémenté par un système de traitement d’informations, dont un exemple d’agencement matériel est détaillé ci-après en relation avec la Fig. 2. Fig. 1 schematically illustrates an information processing method implementing the present invention. The method is implemented by an information processing system, an example of a hardware arrangement of which is detailed below in relation to FIG. 2.
Dans une étape S 101, le système de traitement d’informations effectue une collecte d’informations. La collecte est multi-sources et les informations collectées sont issues de sources de natures et capacités variées. Chaque information collectée est soit de type information dure, soit de type information souple. La collecte multi-sources consiste à collecter des informations auprès de sources pertinentes pour le cas d’usage ciblé de la fusion d’informations. On peut, à ce titre, notamment se référer au document « Characterization of hard and soft sources of information: A practical illustration » de Anne-Laure Jousselme et al., 17th International Conférence on Information Fusion, 2014. In a step S 101, the information processing system collects information. Data is collected from multiple sources and the information collected comes from sources of various types and capacities. Each information collected is either of the hard information type or of the flexible information type. Multi-source collection involves collecting information from sources relevant to the targeted use case of information fusion. In this regard, we can refer in particular to the document “Characterization of hard and soft sources of information: A practical illustration” by Anne-Laure Jousselme et al., 17th International Conference on Information Fusion, 2014.
Les informations dures sont obtenues à partir de sources telles que des capteurs physiques. Ces informations sont alors structurées, de par la nature des capteurs qui produisent ces informations, dans un format de données brutes. Les informations souples sont liées à une activité humaine (médias sociaux, sites Internet, rapports officiels d’une communauté ou d’une organisation, etc.), sont généralement très volumineuses et non structurées. L’extraction d’informations souples repose alors sur une analyse linguistique et sémantique de contenu. Les informations souples sont donc considérées comme subjectives, alors que les informations dures sont considérées comme objectives. The hard information is obtained from sources such as physical sensors. This information is then structured, by the nature of the sensors which produce this information, in a raw data format. Soft information is linked to a human activity (social media, websites, official reports from a community or organization, etc.), are usually very large and unstructured. The extraction of flexible information is then based on a linguistic and semantic analysis of the content. Soft information is therefore considered as subjective, while hard information is considered objective.
Dans le cas d’informations dures, la collecte s’effectue directement auprès de capteurs physiques, ou auprès de bases de données collectant des informations issues de ces capteurs physiques, parfois en y appliquant un traitement. Dans le domaine de la surveillance maritime, on peut se référer notamment aux bases de données accessibles sur le site internet GISIS (« Global Integrated Shipping Information System » en anglais, https://gisis.imo.org) de l’Organisation Maritime Mondiale, ou sur le site internet de l’organisme Paris MoU (« Paris Mémorandum of Understanding on port State control », https://www.parismou.org/) en charge du contrôle des activités maritimes et portuaires en Europe de l’Ouest ou encore aux bases de données d’ InterPol . In the case of hard information, collection is carried out directly from physical sensors, or from databases collecting information from these physical sensors, sometimes by applying processing. In the field of maritime surveillance, reference may be made in particular to the databases accessible on the GISIS website ("Global Integrated Shipping Information System" in English, https://gisis.imo.org) of the World Maritime Organization. , or on the website of the Paris MoU organization (“Paris Memorandum of Understanding on port State control”, https://www.parismou.org/) in charge of monitoring maritime and port activities in Western Europe or even to InterPol databases.
Dans le cas de sources souples, la collecte s’effectue généralement auprès de sites Internet ou médias sociaux, tels que Facebook (marque déposée) ou Twitter (marque déposée). Des plateformes de renseignements d’origine source ouverte peuvent aussi fournir des informations issues d’un ou plusieurs traitements (traduction, transcription, extraction...) appliqués à des informations pré-collectées, ce qui permet d’en dériver des informations dites d’individus d’intérêt (e.g., personne, lieu, organisation, événement, équipement). In the case of flexible sources, collection is usually done from websites or social media, such as Facebook (registered trademark) or Twitter (registered trademark). Open source intelligence platforms can also provide information resulting from one or more processing (translation, transcription, extraction, etc.) applied to pre-collected information, which makes it possible to derive so-called information from it. 'individuals of interest (eg, person, place, organization, event, equipment).
Les informations collectées peuvent ainsi provenir de renseignements d’origine humaine (désignés sous le terme HUMINT, pour « Human Intelligence » en anglais), de renseignements d’origine source ouverte (désignés sous le terme OSINT, pour « Open Source Intelligence » en anglais) d’un site web maritime, de syndication de flux de type RSS (« Really Simple Syndication » en anglais), d’un système d’identification automatique AIS (« Automatic Identification System » en anglais) de navires, de bases de données maritimes, de renseignements radar (désignés sous le terme RADINT, pour « Radar Intelligence » en anglais) avec potentiellement différents types de radar, de renseignements d’origine électromagnétique (désignés sous le terme SIGINT, pour « Signal Intelligence » en anglais) tels que des détections d’activités radar de navires ou des analyses de signaux de téléphonie mobile, et des renseignements d’origine image (désignés sous le terme IMINT, pour « Image Intelligence » en anglais) tels que des images capturées par des satellites ou des drones. The information collected can thus come from intelligence of human origin (designated under the term HUMINT, for “Human Intelligence” in English), from intelligence of open source origin (designated under the term OSINT, for “Open Source Intelligence” in English ) a maritime website, RSS (“Really Simple Syndication”) type flow syndication, an automatic identification system AIS (“Automatic Identification System”) for ships, databases maritime, radar information (designated under the term RADINT, for "Radar Intelligence" in English) with potentially different types of radar, information of electromagnetic origin (designated under the term SIGINT, for "Signal Intelligence" in English) such as radar activity detections of vessels or analysis of telephony signals mobile, and image source information (designated under the term IMINT, for “Image Intelligence”) such as images captured by satellites or drones.
La collecte permet donc d’obtenir un ensemble d’informations dures et/ou souples qui concernent des individus. Les informations concernant ces individus sont extraites des données à disposition auprès des diverses sources. L’extraction peut être faite au niveau de la source elle-même, de sorte que le système de traitement d’informations obtient à l’étape S 101 une information déjà « digérée » (e.g., reconnaissance d’une forme de navire dans une séquence d’images vidéo). L’extraction peut, en variante, être faite au niveau du système de traitement d’informations, qui reçoit alors de la source en question des données brutes à digérer. Collection therefore makes it possible to obtain a set of hard and / or flexible information that concerns individuals. Information about these individuals is extracted from data available from various sources. The extraction can be done at the level of the source itself, so that the information processing system obtains in step S 101 information already “digested” (eg, recognition of a shape of a vessel in a video image sequence). The extraction can, as a variant, be done at the level of the information processing system, which then receives raw data from the source in question to be digested.
Dans une étape S 102, le système de traitement d’informations effectue un alignement d’ontologie (« onthology matching » en anglais). In a step S 102, the information processing system performs an ontology matching ("onthology matching" in English).
L’ontologie est une représentation des informations d’un système qui définit les types d’individus de ce système avec leurs catégories, propriétés et relations entre ces individus pour un cas d’usage opérationnel spécifique (surveillance maritime, par exemple). L’ontologie permet ainsi de disposer d’une même représentation d'informations qui est compatible autant avec les sources dures qu’avec les sources souples. Ontology is a representation of the information of a system that defines the types of individuals of this system with their categories, properties and relationships between these individuals for a specific operational use case (maritime surveillance, for example). The ontology thus makes it possible to have the same representation of information which is compatible with both hard and soft sources.
Tout individu identifié et extrait à l’issue de la collecte d’informations est instancié, pour permettre d’alimenter ensuite en informations pertinentes un système de tenue de situation. De la même manière, toute propriété liée à cet individu et extraite de l’information collectée correspondante est instanciée. A noter qu’une propriété est soit un littéral (aussi appelé « attribut »), comme par exemple la longueur d’un navire, soit une relation d’un individu avec un autre individu, comme par exemple la relation entre un navire et son capitaine. Cependant, lorsque la propriété n’est pas présente dans l’information collectée en question, la propriété en question n’est pas instanciée. Ainsi, un individu extrait à partir d’une information collectée peut être totalement ou partiellement instancié. Any individual identified and extracted at the end of the information collection is instantiated, to then feed relevant information into a situation monitoring system. Likewise, any property linked to this individual and extracted from the corresponding collected information is instantiated. Note that a property is either a literal (also called an "attribute"), such as for example the length of a ship, or a relation of an individual with another individual, such as for example the relation between a ship and its captain. However, when the property is not present in the collected information in question, the property in question is not instantiated. Thus, an individual extracted from collected information can be totally or partially instantiated.
Par exemple, dans le cas de la surveillance maritime, une ontologie peut définir un individu de type « navire », avec plusieurs propriétés (e.g., nom du navire, armateur, date d’observation, taille, position, vitesse, numéro IMO (« International Maritime Organization number » en anglais)... ). A partir d’une information provenant d’une première source (e.g., système d’identification automatique AIS), une instance (on parle aussi d’objet) d’individu représentant ce navire peut être créée avec une instance de littéral pour le numéro IMO, la date d’observation, la position et la vitesse, mais pas pour le nom du navire, l’armateur et la taille, qui ne font pas partie des informations contenues dans les messages des systèmes d’identification automatique AIS. A partir d’une autre source d’informations, telle qu’une liste de surveillance de navires pour les zones sensibles du monde, une instance d’individu représentant ce navire avec une instance de littéral pour le numéro IMO, le nom du navire et l’armateur peut être créée à partir d’une information issue cette autre source d’informations, mais sans instance de littéral pour la vitesse, la position et la date d’observation. A noter par ailleurs que, dans le domaine de la fusion d’informations, le fait pour une instance d’individu de ne pas comporter d’instance d’un ou plusieurs littéraux en particulier peut d’ores et déjà être une information en soi. Le fait de ne pas instancier une propriété dans une instance d’individu, plutôt que d’utiliser une valeur par défaut pour cette propriété, évite de déceler par erreur une corrélation entre deux instances d’individus à cause de cette propriété qui aurait été définie par défaut pour l’une et/ou l’autre de ces instances d’individus. For example, in the case of maritime surveillance, an ontology can define an individual of type "ship", with several properties (eg, name of the ship, owner, date of observation, size, position, speed, IMO number (" International Maritime Organization number ”in English) ...). From information coming from a first source (eg, AIS automatic identification system), an instance (also referred to as an object) of an individual representing this vessel can be created with a literal instance for IMO number, observation date, position and speed, but not for the name of the vessel, the owner and the size, which are not part of the information contained in the messages of the automatic identification systems AIS. From another source of information, such as a vessel watch list for sensitive areas of the world, an individual instance representing that vessel with a literal instance for IMO number, vessel name and the shipowner can be created from information from this other source of information, but without an instance of a literal for speed, position and date of observation. It should also be noted that, in the field of information fusion, the fact that an individual instance does not include an instance of one or more particular literals can already be information in itself. . The fact of not instantiating a property in an instance of individual, rather than using a default value for this property, avoids detecting by mistake a correlation between two instances of individuals because of this property which would have been defined. by default for one and / or the other of these instances of individuals.
L’alignement d’ontologie consiste donc en une instanciation totale ou partielle de tous les individus, avec leurs propriétés et relations, détectées dans les informations collectées, en héritant des définitions fournies par l’ontologie considérée. Ontology alignment therefore consists of a total or partial instantiation of all individuals, with their properties and relationships, detected in the information collected, by inheriting the definitions provided by the ontology considered.
Les informations collectées peuvent être déjà affectées, au moment de la collecte, à une ontologie ou non. Le système de traitement d’informations peut aussi utiliser une ontologie existante avec l’information collectée, ou utiliser une ontologie propre adaptée au cas d’usage (e.g., surveillance maritime). Lorsque la source d’informations fournit déjà une ontologie, une transcription de l’ontologie fournie par ladite source d’informations en une ontologie adaptée au cas d’usage (e.g., surveillance maritime) peut être effectuée. Lorsqu’aucune ontologie n'est fournie par la source d’informations, l’instanciation des individus détectés s’appuie directement sur l’ontologie adaptée au cas d’usage. Aux fins de l’invention, l’ontologie adaptée au cas d’usage comporte des paramètres nécessaires à la mise en place de modèles d’évolution en association avec les propriétés instanciées. The information collected can already be assigned, at the time of collection, to an ontology or not. The information processing system can also use an existing ontology with the information collected, or use its own ontology adapted to the use case (e.g., maritime surveillance). When the information source already provides an ontology, a transcription of the ontology provided by said information source into an ontology adapted to the use case (e.g., maritime surveillance) can be performed. When no ontology is provided by the information source, the instantiation of detected individuals relies directly on the ontology appropriate to the use case. For the purposes of the invention, the ontology adapted to the use case comprises parameters necessary for the establishment of evolution models in association with the instantiated properties.
Pour appliquer le modèle d’évolution adéquat à chaque propriété instanciée, il faut utiliser une ontologie adaptée. Cela provient d’une expertise permettant de déterminer quel modèle décrit l’évolution dans le temps de chaque propriété définie et de sa variabilité, et en particulier de paramétrer correctement le modèle d’évolution en conséquence (e.g., facteur temporel t tel que présenté ci-après). Plus une propriété est sujette à variations au fil du temps, et moins cette propriété est considérée comme fiable dans la fusion d’informations. Chaque propriété est alors associée à : une valeur ; à un modèle d’évolution accompagné d’un ou plusieurs paramètres de configuration dudit modèle d’évolution ; préférentiellement, une information de fiabilité de la source d’informations ayant permis l’instanciation de la propriété en question ; et une information représentative d’un instant d’observation (i.e., moment où la valeur de la propriété a été obtenue par la source d’informations). Une ontologie classique ne décrit une propriété que par sa valeur et son instant d’observation, ainsi qu’ éventuellement par la fiabilité de la source d’informations. Mais ici, chaque propriété est complétée par un modèle d’évolution qui représente l’évolution de la fiabilité de ladite propriété au fil du temps en lien avec la variabilité au fil du temps de ladite propriété. On entend par « fiabilité » le degré de confiance que le système de traitement d’informations peut avoir dans une valeur de propriété pour décider de fusionner ou pas des instances d’individus, au vu de sa variabilité sur la période qui sépare les instants de capture des informations dont sont extraites lesdites instances d’individus. To apply the appropriate evolution model to each instantiated property, an appropriate ontology must be used. This comes from an expertise making it possible to determine which model describes the evolution over time of each defined property and its variability, and in in particular, to correctly parameterize the evolution model accordingly (eg, time factor t as presented below). The more a property is subject to variations over time, the less reliable this property is considered in information fusion. Each property is then associated with: a value; to an evolution model accompanied by one or more configuration parameters of said evolution model; preferably, a piece of information on the reliability of the information source that allowed the instantiation of the property in question; and information representative of an observation instant (ie, the moment when the value of the property was obtained by the information source). A classical ontology describes a property only by its value and its observation time, as well as possibly by the reliability of the information source. But here, each property is completed by an evolution model which represents the evolution of the reliability of said property over time in relation to the variability over time of said property. The term “reliability” is understood to mean the degree of confidence that the information processing system may have in a property value to decide whether or not to merge instances of individuals, in view of its variability over the period between the instants of. captures information from which said instances of individuals are extracted.
Dans une étape S103, le système de traitement d’informations effectue une mise à jour d’une base de connaissance KB (« knowledge base » en anglais) 205. A noter que les bases de connaissance se distinguent des simples bases de données. Une explication en est donnée dans le document « Knowledge Base Support for Decision Making Using Fusion Techniques in a C2 Environment », Amanda Vizedom et al, Proceedings of the 4th International Conférence on Information Fusion, International Society of Information Fusion, 2001, où il est indiqué que la distinction entre bases de connaissance et bases de données repose sur la distinction entre connaissances générales et données spécifiques. Une base de connaissances est optimisée pour le stockage de connaissances générales, potentiellement complexes, du type pouvant être instancié. Une base de données, en revanche, n’a généralement pas les moyens de représenter des principes généraux, mais est optimisée pour stocker des données très spécifiques, telles que des listes d’éléments et d’attributs. La valeur ajoutée des bases de connaissance réside dans le fait qu’elles constituent le fondement d’un raisonnement dans lequel de nouvelles informations sont déduites de ce qui est déjà connu. Cela va au-delà de la recherche de données. Raisonner avec une base de connaissance implique d’appliquer et de combiner des connaissances générales pour tirer des conclusions implicites, mais non explicitement contenues dans les informations d’origine. Ce raisonnement basé sur la connaissance permet le diagnostic, la surveillance et la réponse générale à des requêtes à une profondeur impossible avec une simple base de données. In a step S103, the information processing system performs an update of a knowledge base KB 205. It should be noted that knowledge bases are distinguished from simple databases. An explanation is given in the document “Knowledge Base Support for Decision Making Using Fusion Techniques in a C2 Environment”, Amanda Vizedom et al, Proceedings of the 4th International Conference on Information Fusion, International Society of Information Fusion, 2001, where he is indicated that the distinction between knowledge bases and databases is based on the distinction between general knowledge and specific data. A knowledge base is optimized for storing general, potentially complex knowledge of the type that can be instantiated. A database, on the other hand, usually does not have the means to represent general principles, but is optimized to store very specific data, such as lists of elements and attributes. The added value of knowledge bases lies in the fact that they constitute the basis of a reasoning in which new information is deduced from what is already known. It goes beyond finding data. Reasoning with a knowledge base involves applying and combining general knowledge to draw implicit conclusions, but not explicitly contained in the original information. This knowledge-based reasoning enables diagnosis, monitoring, and general response to queries to a depth not possible with a simple database.
Les instances d’individus lors de l’alignement d’ontologie à l’étape S102 sont donc stockées dans la base de connaissance KB 205 structurée selon l’ontologie utilisée pour décrire les individus instanciés à partir des différentes informations collectées à l’étape S 101 (avec les paramètres nécessaires à la mise en place de modèles d’évolution). The instances of individuals during the ontology alignment in step S102 are therefore stored in the knowledge base KB 205 structured according to the ontology used to describe the individuals instantiated from the various information collected in step S 101 (with the necessary parameters for setting up evolution models).
Dans une étape S 104, le système de traitement d’informations effectue une opération de fusion d’informations. La fusion d’informations repose sur des calculs de distance de similarité entre instances d’individus, et plus précisément de distances de similarité entre propriétés de ces instances d’individus. La distance de similarité entre deux instances d’individus est une métrique définissant dans quelle mesure les individus instanciés sont similaires ou différents, voire même définissant dans quelle mesure il est possible de décider si ces individus sont similaires ou différents. In a step S 104, the information processing system performs an information merging operation. Information fusion is based on calculations of similarity distance between instances of individuals, and more precisely of similarity distances between properties of these instances of individuals. The similarity distance between two instances of individuals is a metric defining to what extent the instantiated individuals are similar or different, and even defining to what extent it is possible to decide whether these individuals are similar or different.
L’opération de fusion d’informations réalisée ici tient compte de modèles d’évolution, associés à chaque propriété possible des individus d’après l’ontologie appliquée à l’étape S102. Ces modèles d’évolution permettent de tenir compte de la dimension temporelle des propriétés des individus et de leurs variabilités respectives dans l’opération de fusion d’informations. The information fusion operation performed here takes into account evolution models, associated with each possible property of individuals according to the ontology applied in step S102. These evolution models make it possible to take into account the temporal dimension of the properties of individuals and their respective variabilities in the information fusion operation.
Ainsi, l’étape S104 comporte principalement deux sous-étapes : une sous-étape S 1041 où des calculs de distances de similarité sont effectués en application des modèles d’évolution, pour chaque propriété de chaque instance d’individu à considérer ; et une sous-étape d’association de données (« data association » en anglais) S 1042, où les instances d’individus correspondant à de mêmes individus sont associées, ou selon la terminologie applicable dans le domaine, fusionnées. Thus, step S104 mainly comprises two sub-steps: a sub-step S 1041 where similarity distance calculations are performed by applying the evolution models, for each property of each instance of an individual to be considered; and a data association sub-step S 1042, where the instances of individuals corresponding to the same individuals are associated, or according to the terminology applicable in the field, merged.
Une certaine incertitude quant à la fiabilité des informations collectées existe, à cause de la période de temps séparant la collecte des informations en lien avec la variabilité des propriétés observées et potentiellement à cause de la fiabilité de la source d’informations elle-même (e.g., précision d’un capteur utilisé pour récupérer ces informations). Etant donné que dans des instances d’individus dans la base de connaissance KB 205 les propriétés des instances d’individus peuvent avoir été obtenues à partir de sources d’informations différentes (à cause de la fusion d’informations), il est nécessaire de considérer la dimension temporelle de cette incertitude au niveau des propriétés des instances d’individus et non au niveau des individus eux-mêmes. De plus, chaque propriété évolue dans le temps de manière différente. Il est alors proposé, dans les calculs de distances de similarité, d’associer une pondération par propriété d’instance d’individu. Cette pondération correspond à l’incertitude inhérente à ladite propriété par rapport à sa modalité de collecte et à un modèle d’évolution correspondant à l’évolution estimée dans le temps de la variabilité de ladite propriété. La pondération résultante doit exprimer le fait que plus une propriété est incertaine, moins elle devrait avoir d’impact sur les calculs de distances de similarité, car la fusion d’informations ne peut d’autant pas compter sur cette propriété pour décider si deux instances d’individus considérées correspondent ou pas à un même individu. Par exemple, dans le domaine de la surveillance maritime, si on compare la position d’un navire observé il y a dix minutes à une autre position d’un navire observé il y a 4 jours, il n’est pas possible de savoir si ces deux navires sont un seul et même navire ou non, car en 4 jours, les possibilités d’évolution de la position d’un navire sont trop vastes pour que ce soit un critère fiable de comparaison. A contrario, la longueur d’un navire ne changeant pas, comparer une observation de longueur de navire d’il y a un an avec une observation d’il y a un jour est fiable pour tenter de déterminer s’il s’agit du même navire ou pas. Some uncertainty as to the reliability of the information collected exists, because of the time period between the collection of information related to the variability of the properties observed and potentially because of the reliability of the information source itself (eg , accuracy of a sensor used to retrieve this information). Given that in instances of individuals in the KB 205 knowledge base the properties of instances of individuals may have been obtained from different information sources (due to information merging), it is necessary to consider the temporal dimension of this uncertainty at the level of the properties of instances of individuals and not at level of the individuals themselves. In addition, each property evolves over time in a different way. It is then proposed, in the calculations of similarity distances, to associate a weighting per individual instance property. This weighting corresponds to the uncertainty inherent in said property with respect to its collection method and to an evolution model corresponding to the estimated evolution over time of the variability of said property. The resulting weighting should express the fact that the more uncertain a property, the less impact it should have on similarity distance calculations, since information merging cannot rely on this property to decide whether two instances of individuals considered correspond or not to the same individual. For example, in the field of maritime surveillance, if we compare the position of a ship observed ten minutes ago to another position of a ship observed 4 days ago, it is not possible to know whether these two ships are one and the same or not, because in 4 days, the possibilities of changing the position of a ship are too vast for this to be a reliable criterion for comparison. Conversely, as the length of a vessel does not change, comparing a vessel length observation from a year ago with an observation from a day ago is reliable in trying to determine if it is the same ship or not.
Il est donc tenu compte ici que chaque propriété d’un individu n’évolue pas forcément de la même manière qu’une autre propriété de cet individu. Par exemple, la longueur d'un navire n'est pas susceptible de changer, contrairement à sa position. Des modèles d’évolution distincts représentent donc ces différences d’évolution des propriétés avec le temps et donc de la confiance à accorder à ces propriétés pour la fusion d’informations en fonction des instants d’observations de la propriété en question. It is therefore taken into account here that each property of an individual does not necessarily evolve in the same way as another property of that individual. For example, the length of a ship is not likely to change, while its position is. Separate evolution models therefore represent these differences in the evolution of properties over time and therefore of the confidence to be given to these properties for the fusion of information as a function of the times of observation of the property in question.
Considérons une instance d’individu O comportant un ensemble de propriétés P. Pour chaque propriété p E P, gr représente un coefficient de confiance défini comme suit : où l r est un coefficient optionnel représentatif de la fiabilité de la source d’informations ayant permis d’obtenir l’instance de la propriété p considérée et mr est le modèle d’évolution applicable à la propriété p considérée. Consider an instance of individual O comprising a set of properties P. For each property p EP, g r represents a confidence coefficient defined as follows: where l r is an optional coefficient representative of the reliability of the information source that made it possible to obtain the instance of the property p considered and m r is the evolution model applicable to the property p considered.
Dans le cas de sources d’informations dures, lr est préférentiellement égal à 1— es, où es est le taux d’erreur de la source d’informations. Dans le cas de sources d’informations souples, lr est préférentiellement égal à la F-mesure (« F-measure » en anglais), aussi appelée F-score. Le domaine de gr est D = [0,1] G M, comme pour lr et pp. Un poids (ou score) égal à « 1 » est considéré comme une propriété très fiable pour effectuer un calcul de distance de similarité et, inversement, un coefficient de confiance (ou poids ou score) nul signifie la propriété est trop incertaine pour être prise en compte dans le calcul de distance de similarité. A noter qu’une transposition dans le domaine D = [-1,1] est possible, où un coefficient de confiance (ou poids ou score) égal à « 1 » désigne une propriété très fiable pour effectuer un calcul de distance de similarité, un coefficient de confiance (ou poids ou score) égal à « -1 » est considéré comme une propriété trop incertaine pour être prise en compte dans le calcul de distance de similarité, et un coefficient de confiance (ou poids ou score) égal à « 0 » révèle une incapacité de décision quant à la fiabilité de la propriété en question. In the case of hard information sources, l r is preferably equal to 1 - e s , where e s is the error rate of the information source. In the case of flexible information sources, l r is preferably equal to the F-measure, also called F-score. The domain of g r is D = [0.1] GM, as for l r and p p . A weight (or score) equal to "1" is considered a very reliable property to perform a similarity distance calculation and, conversely, a confidence coefficient (or weight or score) of zero means the property is too uncertain to be taken. taken into account in the calculation of similarity distance. Note that a transposition in the domain D = [-1,1] is possible, where a confidence coefficient (or weight or score) equal to "1" designates a very reliable property for performing a similarity distance calculation, a confidence coefficient (or weight or score) equal to "-1" is considered to be too uncertain a property to be taken into account in the calculation of similarity distance, and a confidence coefficient (or weight or score) equal to " 0 ”reveals an inability to decide on the reliability of the property in question.
Les modèles d’évolution sont préférentiellement de trois types possibles : constant ; prédictif ; et circonstanciel. The models of evolution are preferably of three possible types: constant; predictive; and circumstantial.
Le modèle d’évolution constant est associé aux propriétés p qui ne changent pas au cours du temps, comme par exemple la longueur d’un navire. Une représentation d’un mode de réalisation particulier est fournie sur la Fig. 4A, où il apparaît que le coefficient de confiance gr est égal au coefficient lr (mr étant ici égal à « 1 »). The constant evolution model is associated with p properties which do not change over time, such as the length of a ship. A representation of a particular embodiment is provided in FIG. 4A, where it appears that the confidence coefficient g r is equal to the coefficient l r (m r being here equal to “1”).
Contrairement au modèle d’évolution constant, le modèle d’évolution prédictif évolue dans le temps et est donc associé aux propriétés p qui évoluent dans le temps. Dans le cas de la surveillance maritime, des propriétés p qui correspondent au modèle d’évolution prédictif sont, par exemple, la vitesse d’un navire, sa position et sa direction de navigation. Les valeurs de ces propriétés p peuvent être estimées (i.e., prédites) sur une certaine période temporelle (sur une période de temps limitée, au-delà de laquelle la variabilité de la propriété p considérée est telle que sa fiabilité est nulle) ou avec une certaine incertitude qui évolue au cours du temps. Par exemple, connaissant la position d'un navire et la direction de son mouvement, il est facile de prédire la zone dans laquelle le navire se trouvera dans un avenir proche (e.g., quelques minutes plus tard). Dans le cas des modèles d’évolution prédictif, l’évolution est prévisible, notamment grâce à des outils mathématiques. De tels outils sont couramment utilisés, notamment pour estimer un changement de position ou de vitesse d’un objet physique. Les filtres de Kalman ou les filtres particulaires (aussi connus sous le nom de méthodes de Monte-Carlo séquentielles) en sont des exemples préférentiels. De par leur nature, les modèles d’évolution prédictifs intègrent une notion de coefficient de confiance, souvent sous forme de matrice de covariance. Ainsi, dans ces cas-là, c’est la comparaison des propriétés selon le modèle d’évolution prédictif qui intègre, directement, non seulement une valeur prédite mais aussi l’erreur possible sur la prédiction. C’est le cas par exemple de la distance de Mahalanobis. Unlike the constant evolution model, the predictive evolution model evolves over time and is therefore associated with p properties which evolve over time. In the case of maritime surveillance, properties p which correspond to the predictive evolution model are, for example, the speed of a ship, its position and its direction of navigation. The values of these properties p can be estimated (ie, predicted) over a certain period of time (over a limited period of time, beyond which the variability of the property p considered is such that its reliability is zero) or with a certain uncertainty that evolves over time. For example, knowing the position of a ship and the direction of its movement, it is easy to predict the area the ship will be in in the near future (eg, a few minutes later). In the case of predictive evolution models, the evolution is predictable, in particular thanks to mathematical tools. Such tools are commonly used, in particular to estimate a change in the position or speed of a physical object. Kalman filters or particulate filters (also known as sequential Monte Carlo methods) are preferred examples. By their very nature, predictive evolution models incorporate a notion of a confidence coefficient, often in the form of a covariance matrix. Thus, in these cases, it is the comparison of the properties according to the predictive evolution model which directly integrates not only a predicted value but also the possible error on the prediction. This is the case, for example, with the Mahalanobis distance.
Le modèle d’évolution circonstanciel est associé aux propriétés p dont l’évolution au fil du temps dépend de la survenue d’un événement. Dans la littérature, un tel concept est défini comme un événement rare stochastique dans la mesure où ce type d’événements a une probabilité plus ou moins faible de se produire. Les propriétés p associées au modèle d’évolution circonstanciel sont donc sujettes à modification suite à un événement spécifique imprévisible. Par exemple, dans le cas de la surveillance maritime, des propriétés à caractère circonstanciel sont l’identité du capitaine ou le pavillon d’un navire, qui peuvent changer lorsque le navire en question change d’armateur. Un autre exemple est la localisation (« location » en anglais) du navire, qui peut changer beaucoup au fil du temps. La localisation est ici à distinguer de la position. La position est un ensemble de coordonnées géographiques, alors que la localisation d’un navire est le nom de l’endroit (e.g., mer Méditerranée) où se trouve le navire. The circumstantial evolution model is associated with p properties, the evolution of which over time depends on the occurrence of an event. In the literature, such a concept is defined as a rare stochastic event insofar as this type of event has a more or less low probability of occurring. The p properties associated with the circumstantial evolution model are therefore subject to modification following a specific unforeseeable event. For example, in the case of maritime surveillance, circumstantial properties are the identity of the master or the flag of a vessel, which may change when the vessel in question changes owners. Another example is the location of the vessel, which can change a lot over time. Localization is here to be distinguished from position. Position is a set of geographic coordinates, while a vessel's location is the name of the place (e.g., Mediterranean Sea) where the vessel is located.
La difficulté dans les modèles d’évolution circonstanciels est de définir la probabilité qu’un tel événement se produise et de trouver un moyen adéquat de le représenter. Alors que d’autres modèles pourraient être utilisés, les modèles à décroissance exponentielle apparaissent être une approche adaptée. Une représentation d’un mode de réalisation est fournie sur la Fig. 4B, où il apparaît que le coefficient de confiance gr est défini comme suit : où t est un facteur temporel permettant d’accentuer ou non la courbe de la fonction de décroissance exponentielle. A mesure que le temps passe, le coefficient de confiance gr diminue progressivement. A noter que la valeur maximale du coefficient de confiance gr est ici égale au coefficient lr, lorsque t = 0. Le facteur temporel t peut être déterminé de manière empirique et/ou statistique, par connaissance métier. Typiquement, à 3t, il est considéré que la propriété a changé, et le coefficient de confiance doit alors être pratiquement nul. Si Ton sait, par expérience, que le capitaine d’un navire militaire est remplacé tous les 4 ans, alors : t = (4 ans)/3 = 16 mois. Ce type d’approche, même en définissant grossièrement le facteur temporel t, améliorent significativement les processus de fusion d’informations. The difficulty in circumstantial evolution models is to define the probability of such an event occurring and to find an adequate way to represent it. While other models could be used, exponential decay models appear to be a suitable approach. A representation of one embodiment is provided in FIG. 4B, where it appears that the confidence coefficient g r is defined as follows: where t is a time factor allowing to accentuate or not the curve of the function of exponential decay. As time passes, the confidence coefficient g r gradually decreases. Note that the maximum value of the confidence coefficient g r is here equal to the coefficient l r , when t = 0. The time factor t can be determined empirically and / or statistically, by business knowledge. Typically, at 3t, the property is considered to have changed, and the confidence coefficient should then be practically zero. If you know from experience that the captain of a military ship is replaced every 4 years, then: t = (4 years) / 3 = 16 months. This type of approach, even by roughly defining the time factor t, significantly improves information fusion processes.
La distance de similarité DS{lj, /fc) entre deux instances d’individus Ij et Ik est alors une somme moyennée des distances pondérées de similarité de chaque propriété p commune aux deux instances d’individus Ij et Ik et peut alors être calculée dans la sous-étape S 1041 de la façon suivante : The similarity distance DS {l j , / fc ) between two instances of individuals I j and I k is then an average sum of the weighted similarity distances of each property p common to the two instances of individuals I j and I k and can then be calculated in the sub-step S 1041 as follows:
propriété p commune aux deux instances d’individus Ij et Ik. property p common to the two instances of individuals I j and I k .
Il existe une grande diversité de calculs de distances de similarité possibles en fonction du type de la propriété à comparer. Par exemple, un calcul de distance de similarité d’une propriété textuelle peut être obtenu grâce à la distance de Levenshtein (aussi appelée « distance d’édition »), qui est une métrique de mesure de différence entre deux séquences de texte. En l’occurrence, la distance de Levenshtein représente le nombre minimum d’opérations de changements de caractères à réaliser afin de transformer un premier mot, ou une première séquence de mots, pour correspondre à un deuxième mot, ou respectivement une deuxième séquence de mots. Selon un autre exemple de calcul de distance de similarité textuelle, la distance de Hamming (qui est un majorant de la distance de Levenshtein) est utilisée. La distance de Hamming permet de quantifier les différences entre deux séquences de symboles ou caractères de même longueur. D’autres calculs numériques de distances de similarité peuvent être utilisés pour comparer par exemple deux vitesses ou deux valeurs de n’importe qu’elle autre propriété physique. There is a wide variety of possible similarity distance calculations depending on the type of property to be compared. For example, a similarity distance calculation of a textual property can be obtained using the Levenshtein distance (also called "edit distance"), which is a metric for measuring the difference between two sequences of text. In this case, the Levenshtein distance represents the minimum number of character change operations to be carried out in order to transform a first word, or a first sequence of words, to correspond to a second word, or respectively a second sequence of words . According to another example of calculating the distance of textual similarity, the Hamming distance (which is an upper bound of the Levenshtein distance) is used. The Hamming distance makes it possible to quantify the differences between two sequences of symbols or characters of the same length. Other digital calculations of similarity distances can be used to compare, for example, two speeds or two values of any other physical property.
La normalisation vise à ce que les résultats de calcul de distance de similarité puissent ensuite être utilisés et comparer ensemble malgré leur hétérogénéité et bien qu’ils reposent sur des calculs de distance différents. Le but de la normalisation est de permettre de borner le résultat d’une distance, en général entre 0 et 1. Typiquement, les résultats des calculs de distance sont proches de 0 quand il n’y a pas de différence. Par exemple, pour normaliser la distance de Levenshtein ou de Hamming, il suffit de diviser le résultat du calcul de distance de similarité par la somme de la longueur de caractères de la première séquence et de la longueur de la deuxième séquence Normalization aims to ensure that the results of similarity distance calculations can then be used and compared together despite their heterogeneity and despite being based on different distance calculations. The purpose of normalization is to allow the result to be bounded by a distance, usually between 0 and 1. Typically, the results of distance calculations are close to 0 when there is no difference. For example, to normalize the Levenshtein or Hamming distance, it suffices to divide the result of the similarity distance calculation by the sum of the character length of the first sequence and the length of the second sequence
Pour un résultat global plus précis, la normalisation peut être transposée entre -1 et 1. La normalisation est alors faite entre 0 et 1, puis le résultat de cette normalisation est soustrait à 1. Ainsi, 1 représente la similarité et -1 représente la dissimilarité. For a more precise overall result, the normalization can be transposed between -1 and 1. The normalization is then made between 0 and 1, then the result of this normalization is subtracted from 1. Thus, 1 represents the similarity and -1 represents the dissimilarity.
Ce calcul de distance de similarité par propriété commune p aux instances d’individus considérées peut être agrégé avec d’autres calculs de distance de similarité, comme détaillé ci-après en relation avec la Fig. 5, afin d’obtenir une distance de similarité agrégée qui est alors utilisée pour décider de fusionner, ou pas, les instances d’individus Ij et Ik. This similarity distance calculation by property p common to the instances of individuals considered can be aggregated with other similarity distance calculations, as detailed below in relation to FIG. 5, in order to obtain an aggregated similarity distance which is then used to decide whether or not to merge the instances of individuals I j and I k .
Dans la sous-étape S 1042, le système de traitement d’informations effectue une opération d’association de données à partir des distances de similarités calculées dans la sous-étape S 1041. L’association de données est une heuristique permettant de décider si deux instances d’individus doivent être fusionnées ou non, au vu de la valeur (score) de distance de similarité entre ces deux instances d’individus. Les instances d’individus suite à la collecte des informations et au moins un sous-ensemble de celles déjà présentes dans la base de connaissance KB 205 sont analysées deux à deux pour déterminer si elles correspondent à un même individu et si elles doivent en conséquence être fusionnées. On peut à ce titre se référer au document : « Systemic Test and Evaluation of a Hard+Soft Information Fusion Framework Challenges and Current Approaches », Geoff Gross et al, 17th International Conférence on Information Fusion, 2014. In substep S 1042, the information processing system performs a data association operation from the similarity distances calculated in substep S 1041. Data association is a heuristic for deciding whether two instances of individuals must be merged or not, given the similarity distance value (score) between these two instances of individuals. The instances of individuals following the collection of information and at least a subset of those already present in the KB 205 knowledge base are analyzed in pairs to determine if they correspond to the same individual and if they must therefore be merged. In this regard, we can refer to the document: “Systemic Test and Evaluation of a Hard + Soft Information Fusion Framework Challenges and Current Approaches”, Geoff Gross et al, 17th International Conference on Information Fusion, 2014.
L’opération de fusion d’informations de l’étape S 104 consiste donc à, autant que possible, fusionner des instances d’individus qui représentent un même individu. Préférentiellement, l’instance d’individu qui résulte de la fusion de deux instances d’individu d’origine ne conserve qu’une valeur pour chaque propriété parmi celles disponibles dans lesdites instances d’individu d’origine. La valeur conservée dépend du modèle d’évolution auquel est associée la propriété considérée. The information merging operation of step S 104 therefore consists, as far as possible, of merging instances of individuals who represent the same individual. Preferably, the individual instance which results from the merger of two original individual instances retains only one value for each property among those available in said original individual instances. The retained value depends on the evolution model with which the considered property is associated.
Dans le cas des modèles d’évolution constants, la valeur conservée est celle décrite par la source (e.g., capteur) de l’information dont est extraite l’instance d’individu considérée qui dispose de la meilleure précision (ce qui est connu du fait que l’ontologie possède l’information sur la précision de la source qui a observé la propriété). In the case of constant evolution models, the conserved value is that described by the source (eg, sensor) of the information from which is extracted the individual instance considered which has the best precision (which is known to the fact that the ontology has the information on the accuracy of the source which observed the property).
Dans le cas des modèles d’évolution prédictifs, la valeur conservée est la plus récente. In the case of predictive evolution models, the conserved value is the most recent.
Dans le cas des modèles d’évolution circonstanciels, la valeur conservée est celle montrant le coefficient de confiance le plus élevé d’après le système d’équations suivant : In the case of circumstantial evolution models, the conserved value is that showing the highest confidence coefficient according to the following system of equations:
72 = ^2 où l’index « 1 » représente l’information la plus ancienne et l’index « 2 » représente l’information la plus récente, où l est le coefficient optionnel représentatif de la fiabilité de la source ayant effectué la capture (ou observation) de l’information considérée, t est le facteur temporel du modèle d’évolution prédictif tel que précédemment défini, et / représente l’instant de capture (ou observation) de l’information considérée. 72 = ^ 2 where the index "1" represents the oldest information and the index "2" represents the most recent information, where l is the optional coefficient representative of the reliability of the source that performed the capture (or observation) of the information considered, t is the time factor of the predictive evolution model as defined above, and / represents the instant of capture (or observation) of the information considered.
Dans une étape S105, le système de traitement d’informations effectue une nouvelle mise à jour de la base de connaissance KB 205. Après que la fusion d’information a été effectuée, chaque nouvelle instance d’individu résultant de la fusion d’informations est stockée dans la base de connaissance KB 205. Étant donné que la distance de similarité a été suffisamment faible pour permettre l’association de données entre au moins une paire d’instances d’individus, les instances d’individus (et donc leurs propriétés) peuvent être fusionnées pour générer une instance "augmentée" concernant cet individu. Cette nouvelle instance peut alors à son tour être associée à une ou plusieurs autres instances lors d’une nouvelle itération de l’opération de fusion d’informations. Les instances d’individus qui ont permis la fusion d’informations et l’instance d’individu générée par la fusion d’informations sont donc toutes conservées dans la base de connaissance KB 205 et y sont liées entre elles. En variante, les instances d’individus qui ont été utilisées pour créer une instance d’individu fusionnée ne sont pas conservées dans la base de connaissance KB 205. In a step S105, the information processing system performs a new update of the knowledge base KB 205. After the information merging has been performed, each new individual instance resulting from the information merging is stored in the KB 205 knowledge base. Since the similarity distance was sufficiently small to allow the association of data between at least one pair of instances of individuals, the instances of individuals (and therefore their properties ) can be merged to generate an "augmented" instance for this individual. This new instance can then in turn be associated with one or more other instances during a new iteration of the information fusion operation. The instances of individuals which have allowed the fusion of information and the instance of individuals generated by the fusion of information are therefore all kept in the knowledge base KB 205 and are linked to each other therein. As a variant, the instances of individuals that were used to create a merged individual instance are not kept in KB 205 knowledge base.
Dans une étape S 106, un système de tenue de situation (« situational awareness » en anglais) exploite les résultats obtenus lors des opérations de fusion d’informations réalisées dans l’étape S 105 et représente ces résultats sous la forme de vues synthétiques, afin de faciliter la détection de comportements anormaux. De tels systèmes de tenue de situation sont bien connus dans le domaine de la surveillance maritime et/ou de la sécurité civile, et sont généralement opérés par des organismes régionaux, nationaux ou internationaux chargés de la surveillance d’une zone géographique donnée. Le système de tenue de situation est intégré, ou connecté, au système de traitement d’informations. In a step S 106, a situational awareness system uses the results obtained during the information merging operations carried out in step S 105 and represents these results in the form of synthetic views, in order to facilitate the detection of abnormal behavior. Such situational awareness systems are well known in the field of maritime surveillance and / or civil security, and are generally operated by regional, national or international organizations responsible for monitoring a given geographical area. The situation monitoring system is integrated, or connected, to the information processing system.
De tels systèmes de tenue de situation mettent en œuvre des ensembles de règles prédéfinies exploitant les résultats obtenus dans l’étape S 105 pour détecter des individus (navire... ) aux comportements anormaux par rapport à un comportement défini comme standard au vu du type de l’individu considéré, et pour générer le cas échéant une alerte, qui est par exemple affichée à l’opérateur. De tels mécanismes à base de règles sont bien connus dans la littérature au travers des systèmes experts. Dans un autre exemple de moyens mis en œuvre par un système de tenue de situation pour détecter des comportements anormaux et évaluer des menaces, des modèles d’ontologie de situation sont utilisés pour caractériser des types de comportements. Un tel exemple d’utilisation d’ontologie de situation est décrit dans le document « Improving Maritime Situational Awareness by Fusing Sensor Information and Intelligence », van den Broek et al., International Conférence on Information Fusion, 2011.. Such situational awareness systems implement sets of predefined rules exploiting the results obtained in step S 105 to detect individuals (ship, etc.) with abnormal behavior compared to a behavior defined as standard in view of the type. of the individual considered, and to generate an alert if necessary, which is for example displayed to the operator. Such rule-based mechanisms are well known in the literature through expert systems. In another example of the means implemented by a situational awareness system to detect abnormal behavior and assess threats, situational ontology models are used to characterize types of behavior. One such example of the use of situation ontology is described in the document "Improving Maritime Situational Awareness by Fusing Sensor Information and Intelligence", van den Broek et al., International Conference on Information Fusion, 2011 ..
De tels systèmes de tenue de situation comprennent généralement une ou plusieurs vues opérationnelles communes (ou « Common Operational Picture, COP » en anglais) composées de vues synthétiques graphiques ou/et tabulaires présentant les résultats de la fusion d’information avec ceux obtenus par d’autres biais. Par exemple, le système de tenue de situation comprend dans une interface graphique une vue géographique de la zone surveillée avec un fond cartographique ou une image aérienne ou les deux en superposition. Les navires sur la zone surveillée sont représentés en superposition dans la vue géographique par une icône et une étiquette donnant les informations d’identification du navire. Un vecteur de déplacement, ou une trajectoire, peut aussi être présenté pour chaque navire sur la vue géographique. Dans cette même interface graphique, le système de tenue de situation peut également comporter une vue tabulaire ou graphique présentant les alertes générées suite à l’exploitation des résultats de la fusion d’informations. Ces alertes peuvent être présentées à un opérateur humain selon un code couleur en fonction de la sévérité et/ou de l’urgence de la situation, accompagnées potentiellement d’un signal d’alerte visuel et/ou sonore. Such situational awareness systems generally include one or more common operational views (or "Common Operational Picture, COP" in English) made up of synthetic graphical or / and tabular views presenting the results of the information fusion with those obtained by d other biases. For example, the situational awareness system comprises, in a graphical interface, a geographical view of the monitored area with a background map or an aerial image or both superimposed. Vessels in the monitored area are superimposed in the geographic view by an icon and a label giving the vessel's identification information. A displacement vector, or a trajectory, can also be presented for each vessel on the geographic view. In this same graphic interface, the situation monitoring system can also include a tabular or graphical view presenting the alerts generated following the exploitation of the results of the information fusion. These alerts can be presented to a human operator according to a color code according to the severity and / or the urgency of the situation, potentially accompanied by a visual and / or audible warning signal.
Il est notamment admis dans la littérature qu’un être humain est capable de corréler jusqu’à 7 niveaux d’informations distincts de manière à obtenir une information opérationnellement exploitable. Par ailleurs, les approches de fusion d’informations de l’état de l’art tendent à augmenter les espaces de corrélation, mais restent limitées à des propriétés d’individus dont la dimension temporelle n’entre pas en compte dans le calcul de distance de similarité. En appliquant les techniques de fusion d’informations de l’état de l’art sur plusieurs centaines d’instances d’individus provenant de sources d’informations dures et/ou souples variées et représentatives de seulement 5 individus réels, il est possible que le système de traitement d’informations ne puisse réduire qu’à une vingtaine le nombre d’instances d’individus après fusion d’informations, notamment en raison de l’absence de prise en compte de la dimension temporelle des propriétés. Il reste donc une vingtaine d’instances d’individus remontés dans la tenue de situation et pour lesquels l’opérateur humain doit lui-même distinguer s’il s’agit de doublons ou d’individus distincts. Or, plus le nombre de propriétés d’un individu est important, plus il est difficile pour un opérateur humain de ramener la tenue de situation à l’observation des 5 individus réels et de prendre une décision sûre et rapide le cas échéant. In particular, it is recognized in the literature that a human being is capable of correlating up to 7 distinct levels of information in order to obtain operationally exploitable information. Furthermore, the information fusion approaches of the state of the art tend to increase the correlation spaces, but remain limited to the properties of individuals whose time dimension does not enter into the distance calculation. similarity. By applying the information fusion techniques of the state of the art on several hundred instances of individuals coming from various hard and / or flexible information sources and representative of only 5 real individuals, it is possible that the information processing system can only reduce the number of instances of individuals after merging of information to about twenty, in particular because of the failure to take into account the time dimension of the properties. There are therefore around twenty instances of individuals reassembled in the situation and for which the human operator must himself distinguish whether they are duplicates or distinct individuals. However, the greater the number of properties of an individual, the more difficult it is for a human operator to reduce situational awareness to observation of 5 real individuals and to make a safe and rapid decision if necessary.
L’un des avantages obtenus par l’utilisation des résultats de la fusion d’informations issus du procédé de l’invention dans un système de tenue de situation est donc d’offrir un espace de corrélation entre informations bien plus large que celui qu’un opérateur humain est capable d’appréhender manuellement, c’est-à-dire par ses seules capacités cognitives avec ou sans l’aide des méthodes de fusion d’informations de l’état de l’art, ceci afin de supprimer les doublons avant affichage et d’offrir une tenue de situation améliorée et plus automatisée. Cela permet à l’opérateur humain de se concentrer sur l’interprétation de la situation et sur la prise de décision de situation, plutôt que sur des opérations de corrélation résiduelle et manuelle. One of the advantages obtained by using the results of the fusion of information resulting from the method of the invention in a situational awareness system is therefore to offer a correlation space between information much larger than that which a human operator is able to apprehend manually, that is to say by his only cognitive capacities with or without the help of the methods of fusion of information of the state of the art, this in order to eliminate the duplicates before display and offer improved and more automated situational awareness. This allows the human operator to focus on situational interpretation and situational decision making, rather than residual and manual correlation operations.
Dans un mode de réalisation particulier, l’interface graphique présente également des moyens de représenter l’historique des fusions d’informations réalisées automatiquement au cours de la mise en œuvre du procédé et sauvegardées au fur et à mesure dans la base de connaissance KB 205. In a particular embodiment, the graphical interface also presents means of representing the history of information mergers carried out automatically at the during the implementation of the method and saved as and when in the knowledge base KB 205.
Il est à noter que l’exploitation des résultats de la fusion d’informations telle que décrite dans l’étape S106 n’est toutefois pas limitée aux exemples de tenue de situation et aux exemples de modes de représentation précédemment cités. It should be noted that the use of the results of the fusion of information as described in step S106 is not however limited to the examples of situation management and to the examples of modes of representation mentioned above.
La Fig. 2 illustre schématiquement un exemple d’agencement matériel d’un système de traitement d’informations dans lequel la présente invention peut être implémentée. Le système de traitement d’informations est par exemple un système de surveillance maritime MSS (« Maritime Surveillance System » en anglais) 250. Dans le cas d’usage de la surveillance maritime, les informations collectées concernent tout navire présent en mer dans une zone géographique prédéfinie (e.g., toutes les mers et océans du monde entier). Des sources ont récupéré des informations partielles ou redondantes sur des navires. Ces informations doivent être corrélées pour pouvoir être complétées et fusionnées afin de mieux comprendre le comportement de tous ces navires. Le résultat de la fusion d’informations est une liste descriptive de navires contenant des informations plus complètes et non redondantes, ce qui permet de travailler efficacement sur les informations récupérées, ce qui est impossible sans corrélation précise des informations collectées. Les modèles d’évolution apportent cette précision en prenant en compte l’évolution temporelle des propriétés des instances d’individus suite à la collecte des informations et plus particulièrement la variabilité de ces propriétés au fil du temps. Les unités (ou modules) présentés dans l’exemple d’agencement de la Fig. 2 permettent d’atteindre ce résultat. Fig. 2 schematically illustrates an example of a hardware arrangement of an information processing system in which the present invention can be implemented. The information processing system is for example a maritime surveillance system MSS (“Maritime Surveillance System” in English) 250. In the case of use of maritime surveillance, the information collected concerns any vessel present at sea in an area. predefined geographic area (eg, all seas and oceans around the world). Sources have recovered partial or redundant information on ships. This information must be correlated so that it can be completed and merged in order to better understand the behavior of all these ships. The result of the information fusion is a descriptive list of vessels containing more complete and non-redundant information, which allows efficient work on the information retrieved, which is impossible without precise correlation of the information collected. Evolution models provide this precision by taking into account the temporal evolution of the properties of the instances of individuals following the collection of information and more particularly the variability of these properties over time. The units (or modules) shown in the example arrangement of Fig. 2 achieve this result.
Le système de traitement d’informations comporte une unité de collecte DC (« Data Collector » en anglais) 201, en charge de récupérer des informations auprès d’un ensemble 200 de diverses sources d’informations SI, S2, S3, S4, indépendamment que les sources en question fournissent des informations dures ou souples. L’unité de collecte DC 201 a le comportement déjà décrit en relation avec l’étape S 101. The information processing system comprises a DC (“Data Collector”) collection unit 201, in charge of recovering information from a set 200 of various information sources SI, S2, S3, S4, independently. whether the sources in question provide hard or soft information. The collection unit DC 201 has the behavior already described in relation to step S 101.
L’unité de collecte DC 201 peut également comprendre un accès direct à des bases de données existantes contenant des informations dures et/ou souples qui proviennent de sources diverses et qui ont été précédemment collectées par un autre biais. Ainsi, le système de traitement d’informations est capable de s’interconnecter avec un système de base de données distribuées provenant d’acteurs et autorités distincts. Le système de traitement d’informations comporte en outre une unité d’alignement d’ontologie OM (« Ontology Matching » en anglais) 202, qui a le comportement déjà décrit en relation avec l’étape S 102. The DC collection unit 201 can also include direct access to existing databases containing hard and / or flexible information which comes from various sources and which has been previously collected by another means. Thus, the information processing system is capable of interconnecting with a distributed database system originating from distinct actors and authorities. The information processing system further comprises an OM (“Ontology Matching”) ontology alignment unit 202, which has the behavior already described in relation to step S 102.
Le système de traitement d’informations comporte en outre une unité d’entrée- sortie KIO (« Knowledge Input/Output » en anglais) en charge d’assurer les accès, en entrée et en sortie, de la base de connaissance KB 205. En d’autres termes, l’unité d’entrée-sortie KIO 203 permet d’accéder à la base de connaissance KB 205. The information processing system further comprises an input-output unit KIO (“Knowledge Input / Output” in English) in charge of ensuring the access, in input and output, of the knowledge base KB 205. In other words, the input-output unit KIO 203 provides access to the knowledge base KB 205.
Le système de traitement d’informations comporte en outre une unité de fusion d’informations IF (« Information Fusion » en anglais) 204, qui a le comportement déjà décrit en relation avec l’étape S 104. The information processing system further comprises an information fusion unit IF ("Information Fusion" in English) 204, which has the behavior already described in relation to step S 104.
Comme déjà évoqué en relation avec l’étape S 106, le système de traitement d’informations comporte préférentiellement en outre un système de tenue de situation. Le système de tenue de situation comporte alors une unité de déclenchement TRIGG (« Trigger » en anglais) 207 et une interface graphique GUI (« Graphical User Interface » en anglais) 208. L’unité de déclenchement TRIGG 207 est en charge de lever des alertes sur des comportements anormaux détectés suite à la fusion de données. L’interface graphique GUI 208 est configurée pour représenter graphiquement des alertes sur des comportements anormaux détectés suite à la fusion d’informations, ainsi que des individus en relation avec ces alertes. As already mentioned in relation to step S 106, the information processing system preferably further comprises a situation monitoring system. The situation monitoring system then comprises a trigger unit TRIGG (“Trigger” in English) 207 and a graphical user interface GUI (“Graphical User Interface” in English) 208. The trigger unit TRIGG 207 is in charge of lifting alerts on abnormal behavior detected as a result of data fusion. The GUI 208 graphical interface is configured to graphically represent alerts on abnormal behavior detected as a result of information merging, as well as individuals related to these alerts.
Le système de traitement d’informations comporte en outre une unité de contrôle CTRL 206 en charge de coordonner, par exemple grâce à un bus de données 310, les différentes unités du système de traitement d’informations, de sorte à implémenter le comportement déjà décrit en relation avec la Fig. 1. The information processing system further comprises a CTRL control unit 206 in charge of coordinating, for example by means of a data bus 310, the various units of the information processing system, so as to implement the behavior already described. in relation to FIG. 1.
Comme décrit ci-après en relation avec la Fig. 3, chacune des unités de collecte DC 201, d’alignement d’ontologie OM 202, d’entrée sortie KIO 203 et de fusion d’informations IF 204, peut être réalisée sous forme matérielle, par exemple grâce à un composant électronique (« chip » en anglais) ou un ensemble de composants électroniques (« chipset » en anglais) ; ou bien être réalisée sous forme logicielle et implémentée par un processeur exécutant les instructions de programme d’ordinateur correspondantes. Il en va de même pour l’unité de déclenchement TRIGG 207 et l’interface graphique GUI 208. La Fig. 3 illustre schématiquement un exemple d’agencement matériel de l’unité de contrôle CTRL 206 du système de traitement d’informations. As described below in relation to FIG. 3, each of the DC 201 collection units, OM 202 ontology alignment, KIO input / output 203 and IF information fusion units 204, can be implemented in hardware form, for example using an electronic component (" chip ”) or a set of electronic components (“ chipset ”in English); or else be produced in software form and implemented by a processor executing the corresponding computer program instructions. The same goes for the TRIGG 207 trigger unit and the GUI 208 GUI. Fig. 3 schematically illustrates an example of a hardware arrangement of the control unit CTRL 206 of the information processing system.
L’exemple d’architecture matérielle présenté comporte, reliés par un bus de communication 310 : un processeur CPU 301 ; une mémoire vive RAM (« Random Access Memory » en anglais) 302 ; une mémoire morte ROM (« Read Only Memory » en anglais) 303 ou une mémoire Flash ; une unité de stockage ou un lecteur de support de stockage, tel qu’un lecteur de cartes SD (« Secure Digital » en anglais) ou un disque dur HDD (« Hard Disk Drive » en anglais) 304 ; et au moins une interface d’entrée-sortie 305. The example of the hardware architecture presented comprises, connected by a communication bus 310: a processor CPU 301; a random access memory RAM (“Random Access Memory” in English) 302; a ROM (“Read Only Memory”) 303 or a Flash memory; a storage unit or a storage medium drive, such as an SD ("Secure Digital") card reader or an HDD ("Hard Disk Drive") 304; and at least one 305 I / O interface.
Le processeur CPU 301 est capable d’exécuter des instructions chargées dans la mémoire RAM 302 à partir de la mémoire ROM 303, d’une mémoire externe (telle qu’une carte SD), d’un support de stockage (tel que le disque dur HDD), ou d’un réseau de communication. Lors de la mise sous tension, le processeur CPU 301 est capable de lire de la mémoire RAM 302 des instructions et de les exécuter. Ces instructions forment un programme d’ordinateur causant la mise en œuvre, par le processeur CPU 301, de tout ou partie des algorithmes et étapes décrits ici. CPU 301 is capable of executing instructions loaded into RAM 302 from ROM 303, external memory (such as an SD card), storage media (such as disk hard HDD), or a communication network. Upon power-up, the CPU 301 is able to read instructions from RAM 302 and execute them. These instructions form a computer program causing the CPU 301 to implement some or all of the algorithms and steps described here.
Ainsi, tout ou partie des algorithmes et étapes décrits ici peut être implémenté sous forme logicielle par exécution d’un ensemble d’instructions par une machine programmable, telle qu’un DSP (« Digital Signal Processor » en anglais) ou un microcontrôleur ou un processeur. Tout ou partie des algorithmes et étapes décrits ici peut aussi être implémenté sous forme matérielle par une machine ou un composant dédié, tel qu’un FPGA (« Field-Programmable Gâte Array » en anglais) ou un AS IC (« Application-Specific Integrated Circuit » en anglais). Ainsi, le système de traitement d’informations comporte de la circuiterie électronique adaptée et configurée pour implémenter les algorithmes et étapes décrits ici. Thus, all or part of the algorithms and steps described here can be implemented in software form by executing a set of instructions by a programmable machine, such as a DSP (“Digital Signal Processor”) or a microcontroller or a processor. All or part of the algorithms and steps described here can also be implemented in hardware form by a machine or a dedicated component, such as an FPGA (“Field-Programmable Gâte Array”) or an AS IC (“Application-Specific Integrated Circuit ”in English). Thus, the information processing system comprises electronic circuitry adapted and configured to implement the algorithms and steps described here.
La Fig. 5 illustre schématiquement un mécanisme de calcul de distance de similarité entre deux instances d’individus, dans un mode de réalisation particulier dans lequel un calcul de distance de similarité basé sur les modèles d’évolution est agrégé avec au moins un autre calcul de distance de similarité. Dans les calculs de distance de similarité, les instances d’individus sont comparées deux à deux, e.g., des instances d’individus 01 et 02 sont injectées en entrée (I) du calcul de distance de similarité. Une première distance de similarité est calculée grâce à un module de calcul de distance de similarité taxonomique TS (« Taxonomy Similarity » en anglais) 501. Les instances d’individus 01 et 02 sont des instances de classe dans l’ontologie considérée. Le calcul de distance de similarité taxonomique compare les positions des classes des instances d’individus 01 et 02. Dans l’ontologie considérée, les classes et propriétés sont hiérarchisées et cette hiérarchie peut être représentée par un graphe. Par exemple, une classe (nœud) « Sous-marin » et une classe (nœud) « Bateau » héritent toutes deux d’une classe (nœud) « Embarcation » qui elle-même hérite d’une classe (nœud) « Véhicule », et de la classe (nœud) « Véhicule » héritent aussi des classes (nœuds) « Aéronef » et « Véhicules Terrestres », etc. Une distance entre deux nœuds de graphe peut être calculée en comptant le nombre d'arêtes du chemin le plus court entre les nœuds considérés dans le graphe. La mesure de similarité taxonomique prend en outre en compte un autre critère pour représenter la profondeur dans la hiérarchie ontologique. Ce critère de profondeur est souvent représenté par le sous-dénominateur commun le plus petit (le plus spécifique) des deux instances d’individus 01 et 02. Pour ce faire, la méthode de calcul de distance de similarité de Wu et Palmer peut être utilisé pour répondre à ces critères. La distance de similarité taxonomique TS(01; 02) est ici définie à partir de la distance qui sépare les deux classes Cl et C2 des instances d’individus 01 et 02 par rapport à la racine R de la hiérarchie et d’après la distance qui sépare leur sous-dénominateur commun le plus petit CO par rapport à la racine R de la hiérarchie, selon la formule suivante : où d(R; CO) est la distance qui sépare la classe CO de la racine R de la hiérarchie, d(R; CO; Cl) est la distance qui sépare la classe Cl de la racine R en passant par la classe CO et d(R; CO; C 2) est la distance qui sépare la classe C2 de la racine R en passant par la classe CO. On pourra se référer au document « Verb Semantics and Lexical Sélection », Z. Wu et M. Palmer, Proceedings of the 32nd Annual Meetings of the Associations for Computational Linguistics, 1994. Fig. 5 schematically illustrates a mechanism for calculating the distance of similarity between two instances of individuals, in a particular embodiment in which a calculation of distance of similarity based on the evolution models is aggregated with at least one other calculation of distance of similarity. In the similarity distance calculations, the instances of individuals are compared in pairs, eg, instances of individuals 01 and 02 are injected as input (I) of the similarity distance calculation. A first similarity distance is calculated using a taxonomic similarity distance calculation module TS (“Taxonomy Similarity”) 501. The instances of individuals 01 and 02 are instances of class in the ontology considered. The taxonomic similarity distance calculation compares the positions of the classes of instances of individuals 01 and 02. In the considered ontology, the classes and properties are hierarchical and this hierarchy can be represented by a graph. For example, a class (node) "Submarine" and a class (node) "Boat" both inherit from a class (node) "Boat" which itself inherits from a class (node) "Vehicle" , and from the “Vehicle” class (node) also inherit from the “Aircraft” and “Land Vehicles” classes (nodes), and so on. A distance between two graph nodes can be calculated by counting the number of edges of the shortest path between the nodes considered in the graph. The taxonomic similarity measure also takes into account another criterion to represent depth in the ontological hierarchy. This depth criterion is often represented by the smallest (most specific) common sub-denominator of the two instances of individuals 01 and 02. To do this, the Wu and Palmer similarity distance calculation method can be used. to meet these criteria. The taxonomic similarity distance TS (01; 02) is here defined from the distance which separates the two classes Cl and C2 of the instances of individuals 01 and 02 from the root R of the hierarchy and from the distance which separates their lowest common sub-denominator CO with respect to the root R of the hierarchy, according to the following formula: where d (R; CO) is the distance which separates the class CO from the root R of the hierarchy, d (R; CO; Cl) is the distance which separates the class Cl from the root R passing through the class CO and d (R; CO; C 2) is the distance separating class C2 from the root R passing through class CO. Reference may be made to the document “Verb Semantics and Lexical Sélection”, Z. Wu and M. Palmer, Proceedings of the 32nd Annual Meetings of the Associations for Computational Linguistics, 1994.
Le même principe s’applique pour déterminer la distance entre propriétés dans la hiérarchie définie par l’ontologie considérée. Une seconde distance de similarité est calculée grâce à un module de calcul de distance de similarité de domaine et de plage DRS (« Domain and Range Similarity » en anglais) 502. Le calcul de distance de similarité de domaine et de plage DRS compare le nombre de champs (propriétés) partagés par les deux classes Cl et C2 auxquelles appartiennent respectivement les deux instances d’individus Cl et 02, normalisés par leur nombre total de champs. L’ontologie ne se limite en effet préférentiellement pas à la structure hiérarchique de concepts sous forme de classes, mais inclut également des définitions de domaine et de plage au sein des propriétés, comme montré par le système d’équations suivant. Ainsi, le calcul de distance de similarité entre classes implique la comparaison de propriétés qui apparaissent en commun dans les instances considérées de ces classes. The same principle applies to determine the distance between properties in the hierarchy defined by the ontology considered. A second similarity distance is calculated using a domain and range similarity distance calculation module DRS ("Domain and Range Similarity" in English) 502. The calculation of the domain similarity distance and DRS range compares the number of fields (properties) shared by the two classes C1 and C2 to which the two instances of individuals C1 and 02 belong respectively, normalized by their total number of fields. Ontology is in fact preferentially not limited to the hierarchical structure of concepts in the form of classes, but also includes domain and range definitions within the properties, as shown by the following system of equations. Thus, the calculation of distance of similarity between classes involves the comparison of properties which appear in common in the considered instances of these classes.
où OPD(C ) (C = C 1 ou C 2) représente l’ensemble des propriétés de type relation qui ont la classe C dans la définition de domaine d’un premier sujet, et \OPD(C) \ représente la cardinalité de cet ensemble ; OPR(C) représente l’ensemble des propriétés de type relation qui ont la classe C dans la définition de plage d’un second sujet, et \OPR(C) \ représente la cardinalité de cet ensemble ; DPD ÇC ) représente l’ensemble des propriétés de type littéral qui ont la classe C dans leur définition de plage, et | DPDÇC) | la cardinalité de cet ensemble. where OPD (C) (C = C 1 or C 2) represents the set of relation-type properties which have class C in the domain definition of a first subject, and \ OPD (C) \ represents the cardinality of this set ; OPR (C) represents the set of relation-type properties that have class C in the range definition of a second subject, and \ OPR (C) \ represents the cardinality of that set; DPD ÇC) represents the set of literal type properties that have class C in their range definition, and | DPDÇC) | the cardinality of this set.
Le calcul de distance de similarité de domaine et de plage DRS est alors obtenu de la manière suivante : The computation of domain similarity distance and DRS range is then obtained as follows:
Le calcul de distance de similarité taxonomique TS et le calcul de distance de similarité de domaine et de plage DRS sont notamment adressés dans le document « Semantic Decision Support for Information Fusion Applications », A Bellenger, PhD Thesis, Institut National des Sciences Appliquées de Rouen, 2013, plus particulièrement dans la section 7.2.1.1 « Semantic Similarity regarding the Terminology of the Ontology ». Une troisième distance de similarité est calculée grâce à un module de calcul de distance de similarité basée sur les modèles d’évolution MoES (« Model of Evolution-based Similarity » en anglais) 503. Comme déjà indiqué, la distance de similarité basée sur les modèles d’évolution MoES entre les instances d’individus 01 et 02 est une somme moyennée des distances pondérées de similarité de chaque propriété p commune aux deux instances d’individus 01 et 02, comme suit : The calculation of taxonomic similarity distance TS and the calculation of the distance of similarity of domain and DRS range are addressed in particular in the document “Semantic Decision Support for Information Fusion Applications”, A Bellenger, PhD Thesis, Institut National des Sciences Appliqués de Rouen , 2013, more particularly in section 7.2.1.1 “Semantic Similarity regarding the Terminology of the Ontology”. A third similarity distance is calculated using a similarity distance calculation module based on the evolution models MoES (“Model of Evolution-based Similarity”) 503. As already indicated, the similarity distance based on models of evolution MoES between instances of individuals 01 and 02 is an average sum of the weighted similarity distances of each property p common to the two instances of individuals 01 and 02, as follows:
Les première, seconde et troisième distances de similarité sont ensuite combinées par un module agrégateur AGG 504, afin de produire en sortie (O) du calcul de distance de similarité une distance de similarité SD (« Similarity Distance » en anglais) entre instances d’individus 01 et 02. Préférentiellement, le module agrégateur AGG 504 applique des poids respectifs aux première, seconde et troisième distances de similarité, afin de donner plus ou moins d’importance à chacune d’elles et normaliser le résultat. Les poids respectivement attribués aux première, seconde et troisième distances de similarité sont définis en fonction du cadre applicatif considéré. L’ontologie peut ainsi par exemple donner un poids plus important à la distance de similarité taxonomique TS par rapport à la distance de similarité basée sur les modèles d’évolution MoES et à la distance de similarité de domaine et de plage DRS. The first, second and third similarity distances are then combined by an aggregator module AGG 504, in order to produce at the output (O) of the calculation of the similarity distance a similarity distance SD ("Similarity Distance" in English) between instances of individuals 01 and 02. Preferably, the aggregator module AGG 504 applies respective weights to the first, second and third similarity distances, in order to give more or less importance to each of them and to standardize the result. The weights respectively assigned to the first, second and third similarity distances are defined as a function of the application framework considered. Ontology can thus, for example, give greater weight to the taxonomic similarity distance TS compared to the similarity distance based on the MoES evolution models and to the domain and range similarity distance DRS.
Le mécanisme de calcul de distance de similarité entre deux instances d’individus a été présenté sur la Fig. 5 sous forme modulaire. Les modules en question peuvent être des modules matériels ou des modules logiciels. En outre, le mécanisme de calcul de distance de similarité présenté sur la Fig. 5 est aussi représentatif d’un procédé incluant des étapes de calcul des première, seconde et troisième distances de similarité, et de l’agrégation correspondante, comme décrit ci-dessus. The mechanism for calculating the distance of similarity between two instances of individuals has been presented in Fig. 5 in modular form. The modules in question can be hardware modules or software modules. Further, the similarity distance calculation mechanism shown in FIG. 5 is also representative of a method including steps of calculating the first, second and third similarity distances, and the corresponding aggregation, as described above.

Claims

REVENDICATIONS
1. Procédé de traitement d’informations qui proviennent de sources variées et à partir desquelles sont générées des instances d’individus par alignement d’ontologie, le procédé de traitement d’informations comportant une fusion d’informations visant à fusionner les instances d’individus qui correspondent à un même individu, le procédé étant implémenté par un système de traitement de données, caractérisé en que le procédé comporte les étapes suivantes : 1. A method of processing information which comes from various sources and from which instances of individuals are generated by ontology alignment, the method of processing information comprising a fusion of information aiming to merge the instances of individuals which correspond to the same individual, the method being implemented by a data processing system, characterized in that the method comprises the following steps:
- générer les instances d’individus en utilisant une ontologie qui définit, pour chaque propriété de chaque instance d’individu, un modèle d’évolution à appliquer à ladite propriété, le modèle d’évolution représente l’évolution de la fiabilité de ladite propriété au fil du temps en lien avec la variabilité au fil du temps de ladite propriété ; - generate the instances of individuals using an ontology which defines, for each property of each instance of individual, an evolution model to be applied to said property, the evolution model represents the evolution of the reliability of said property over time in relation to the variability over time of said property;
- effectuer la fusion d’informations par comparaison deux à deux des instances d’individus générées avec des instances d’individus stockées en base de connaissance, en effectuant pour chaque propriété en commun un calcul de distance de similarité en application au moins du modèle d’évolution défini pour ladite propriété, de sorte à définir un coefficient de confiance de chaque propriété pour décider de fusionner ou pas lesdites instances d’individus ; et - perform the fusion of information by comparing in pairs the instances of individuals generated with instances of individuals stored in the knowledge base, by performing for each common property a similarity distance calculation in application at least of the model d 'evolution defined for said property, so as to define a confidence coefficient for each property to decide whether or not to merge said instances of individuals; and
- mettre à jour la base de connaissance avec les instances d’individus résultant de la fusion d’informations. - update the knowledge base with instances of individuals resulting from the merging of information.
2. Procédé selon la revendication 1, dans lequel chaque modèle d’évolution est d’un type parmi les trois types possibles suivants : 2. The method of claim 1, wherein each evolution model is of one type among the following three possible types:
- constant, pour les propriétés qui ne changent pas au cours du temps ; - constant, for properties that do not change over time;
- prédictif, pour les propriétés qui peuvent être estimées sur une certaine période temporelle limitée ou avec une certaine incertitude qui évolue au cours du temps ; et - predictive, for properties which can be estimated over a certain limited period of time or with a certain uncertainty which changes over time; and
- circonstanciel, pour les propriétés dont l’évolution au fil du temps dépend de la survenue d’un événement. - circumstantial, for properties whose evolution over time depends on the occurrence of an event.
3. Procédé selon la revendication 2, dans lequel le modèle d’évolution circonstanciel est à décroissance exponentielle. 3. Method according to claim 2, wherein the circumstantial evolution model is exponentially decreasing.
4. Procédé selon l’une quelconque des revendications 1 à 3, dans lequel chaque instance d’individu qui résulte de la fusion de deux autres instances d’individu ne conserve qu’une valeur pour chaque propriété parmi celles disponibles dans lesdites autres instances d’individu et la valeur conservée dépend du modèle d’évolution auquel est associée ladite propriété. 4. Method according to any one of claims 1 to 3, wherein each individual instance which results from the merger of two other individual instances retains only one value for each property among those available in said other instances. of individual and the conserved value depends on the evolution model with which said property is associated.
5. Procédé selon la revendication 4, dans lequel : 5. The method of claim 4, wherein:
- dans le cas des modèles d’évolution constants, la valeur conservée est celle possédant la meilleure précision ; - in the case of constant evolution models, the value kept is the one with the best precision;
- dans le cas des modèles d’évolution prédictifs, la valeur conservée est la plus récente ; et - in the case of predictive evolution models, the retained value is the most recent; and
- dans le cas des modèles d’évolution circonstanciels la valeur conservée est celle montrant le coefficient de confiance le plus élevé d’après le système d’équations suivant :- in the case of circumstantial evolution models, the conserved value is that showing the highest confidence coefficient according to the following system of equations:
g2 = l2 où l’index « 1 » représente l’information la plus ancienne et l’index « 2 » représente l’information la plus récente, où l est le coefficient représentatif d’une fiabilité de la source ayant effectué la capture de l’information considérée, t est un facteur temporel d’accentuation de décroissance exponentielle, et t représente l’instant de capture de l’information considérée. g 2 = l 2 where the index "1" represents the oldest information and the index "2" represents the most recent information, where l is the coefficient representative of a reliability of the source having performed the capture of the information considered, t is an exponential decay accentuation time factor, and t represents the capture instant of the information considered.
6. Procédé selon l’une quelconque des revendications 1 à 5, comportant en outre l’étape suivante : 6. Method according to any one of claims 1 to 5, further comprising the following step:
- exploiter les résultats obtenus par la fusion d’informations dans un système de tenue de situation, et détecter des comportements anormaux d’individus grâce à un ensemble de règles prédéfinies, ou à un modèle d’ontologie de situation, et aux instances d’individus résultant de la fusion d’informations. - exploit the results obtained by the fusion of information in a situation management system, and detect abnormal behavior of individuals thanks to a set of predefined rules, or to a situation ontology model, and to the instances of individuals resulting from the fusion of information.
7. Procédé selon l’une quelconque des revendications 1 à 6, dans lequel le calcul de distance de similarité en application au moins du modèle d’évolution est agrégé avec au moins un autre calcul de similarité. 7. A method according to any one of claims 1 to 6, wherein the similarity distance calculation by applying at least the evolution model is aggregated with at least one other similarity calculation.
8. Procédé selon la revendication 7, dans lequel les calculs de similarité sont pondérés. 8. The method of claim 7, wherein the similarity calculations are weighted.
9. Procédé selon la revendication 7 ou 8, dans lequel un dit autre calcul de distance de similarité est un calcul de distance de similarité taxonomique et un dit autre calcul de distance de similarité de domaine est un calcul de distance de similarité de domaine de plage. The method of claim 7 or 8, wherein said further similarity distance calculation is a taxonomic similarity distance calculation and said further domain similarity distance calculation is a range domain similarity distance calculation. .
10. Procédé selon l’une quelconque des revendications 1 à 9, dans lequel le calcul de distance de similarité en application au moins du modèle d’évolution applique un coefficient de fiabilité des sources ayant capturé les informations considérées. 10. Method according to any one of claims 1 to 9, wherein the calculation of the similarity distance by applying at least the evolution model applies a reliability coefficient of the sources having captured the information considered.
11. Procédé selon l’une quelconque des revendications 1 à 10, dans lequel les informations à traiter sont des informations souples et/ou des informations dures. 11. Method according to any one of claims 1 to 10, wherein the information to be processed is soft information and / or hard information.
12. Produit programme d’ordinateur comportant des instructions pour implémenter, par un processeur, le procédé selon l’une quelconque des revendications 1 à 11, lorsque ledit programme est exécuté par ledit processeur. 12. A computer program product comprising instructions for implementing, by a processor, the method according to any one of claims 1 to 11, when said program is executed by said processor.
13. Support de stockage d’informations stockant un programme d’ordinateur comprenant des instructions pour implémenter, par un processeur, le procédé selon l’une quelconque des revendications 1 à 11, lorsque ledit programme est lu et exécuté par ledit processeur. 13. Information storage medium storing a computer program comprising instructions for implementing, by a processor, the method according to any one of claims 1 to 11, when said program is read and executed by said processor.
14. Système de traitement d’informations qui proviennent de sources variées et à partir desquelles sont générées des instances d’individus par alignement d’ontologie, le système de traitement d’informations comportant de la circuiterie électronique implémentant une fusion d’informations visant à fusionner les instances d’individus qui correspondent à un même individu, caractérisé en que la circuiterie électronique met en œuvre : 14. Information processing system which comes from various sources and from which instances of individuals are generated by ontology alignment, the information processing system comprising electronic circuitry implementing an information fusion aiming at merge the instances of individuals which correspond to the same individual, characterized in that the electronic circuitry implements:
- des moyens pour générer les instances d’individus en utilisant une ontologie qui définit, pour chaque propriété de chaque instance d’individu, un modèle d’évolution à appliquer à ladite propriété, le modèle d’évolution représente l’évolution de la fiabilité de ladite propriété au fil du temps en lien avec la variabilité au fil du temps de ladite propriété ;- means for generating the instances of individuals using an ontology which defines, for each property of each instance of an individual, an evolution model to be applied to said property, the evolution model represents the evolution of reliability of said property over time in relation to the variability over time of said property;
- des moyens pour effectuer la fusion d’informations par comparaison deux à deux des instances d’individus générées avec des instances d’individus stockées en base de connaissance, en effectuant pour chaque propriété en commun un calcul de distance de similarité en application au moins du modèle d’évolution défini pour ladite propriété, de sorte à définir un coefficient de confiance de chaque propriété pour décider de fusionner ou pas lesdites instances d’individus ; et - des moyens pour mettre à jour la base de connaissance avec les instances d’individus résultant de la fusion d’informations. means for performing the fusion of information by comparing in pairs the instances of individuals generated with instances of individuals stored in the knowledge base, by performing for each property in common a similarity distance calculation in application at least the evolution model defined for said property, so as to define a confidence coefficient for each property to decide whether or not to merge said instances of individuals; and - means for updating the knowledge base with the instances of individuals resulting from the fusion of information.
EP20731485.7A 2019-06-14 2020-06-12 Method and system for merging information Pending EP4165519A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1906376A FR3097346B1 (en) 2019-06-14 2019-06-14 Information fusion process and system
PCT/EP2020/066282 WO2020249719A1 (en) 2019-06-14 2020-06-12 Method and system for merging information

Publications (1)

Publication Number Publication Date
EP4165519A1 true EP4165519A1 (en) 2023-04-19

Family

ID=68581875

Family Applications (1)

Application Number Title Priority Date Filing Date
EP20731485.7A Pending EP4165519A1 (en) 2019-06-14 2020-06-12 Method and system for merging information

Country Status (4)

Country Link
US (1) US20220374464A1 (en)
EP (1) EP4165519A1 (en)
FR (1) FR3097346B1 (en)
WO (1) WO2020249719A1 (en)

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7783586B2 (en) * 2007-02-26 2010-08-24 International Business Machines Corporation System and method for deriving a hierarchical event based database optimized for analysis of biological systems
US7958155B2 (en) * 2007-04-17 2011-06-07 Semandex Networks, Inc. Systems and methods for the management of information to enable the rapid dissemination of actionable information
US8244769B2 (en) * 2007-05-31 2012-08-14 Nec Corporation System and method for judging properties of an ontology and updating same
US20120078595A1 (en) * 2010-09-24 2012-03-29 Nokia Corporation Method and apparatus for ontology matching
US8856156B1 (en) * 2011-10-07 2014-10-07 Cerner Innovation, Inc. Ontology mapper
US10019516B2 (en) * 2014-04-04 2018-07-10 University Of Southern California System and method for fuzzy ontology matching and search across ontologies
EA201692294A1 (en) * 2014-05-12 2017-05-31 Симэнтик Текнолоджис Пти Лтд. METHOD AND DEVICE FOR DEVELOPING THE PROPOSED ONTOLOGY
US10509814B2 (en) * 2014-12-19 2019-12-17 Universidad Nacional De Educacion A Distancia (Uned) System and method for the indexing and retrieval of semantically annotated data using an ontology-based information retrieval model
US10824662B2 (en) * 2015-10-13 2020-11-03 Nuance Communications, Inc. Methods and system for iteratively aligning data sources
US10302769B2 (en) * 2017-01-17 2019-05-28 Harris Corporation System for monitoring marine vessels using fractal processing of aerial imagery and related methods

Also Published As

Publication number Publication date
US20220374464A1 (en) 2022-11-24
FR3097346B1 (en) 2021-06-25
FR3097346A1 (en) 2020-12-18
WO2020249719A1 (en) 2020-12-17

Similar Documents

Publication Publication Date Title
US11494648B2 (en) Method and system for detecting fake news based on multi-task learning model
Ahmad et al. Social media and satellites: Disaster event detection, linking and summarization
EP2696344B1 (en) Method and system for detecting acoustic events in a given environment
Nguyen et al. On early-stage debunking rumors on twitter: Leveraging the wisdom of weak learners
EP2370938A2 (en) Method and system for merging data or information
EP3238137B1 (en) Semantic representation of the content of an image
CN111160959A (en) User click conversion estimation method and device
Geradts Digital, big data and computational forensics
Hakak et al. Propagation of fake news on social media: challenges and opportunities
EP3373166A1 (en) Method and system for mapping attributes of entities
CN115828242A (en) Android malicious software detection method based on large-scale heterogeneous graph representation learning
Bhattacharya et al. Application of machine learning techniques in detecting fake profiles on social media
Wang et al. Hierarchical semi-supervised contrastive learning for contamination-resistant anomaly detection
WO2018138423A1 (en) Automatic detection of frauds in a stream of payment transactions by neural networks integrating contextual information
Chatterjee et al. An object detection-based few-shot learning approach for multimedia quality assessment
Deeb-Swihart et al. Ethical tensions in applications of ai for addressing human trafficking: A human rights perspective
Boldt et al. Predicting burglars’ risk exposure and level of pre-crime preparation using crime scene data
Gerrits Soul of a new machine: Self-learning algorithms in public administration
Meng et al. Enhancing multimedia semantic concept mining and retrieval by incorporating negative correlations
FR2929426A1 (en) SCORE ALLOCATION METHOD AND SYSTEM
WO2020249719A1 (en) Method and system for merging information
US11295177B2 (en) Ensemble weak support vector machines
CN114579876A (en) False information detection method, device, equipment and medium
CN110309312B (en) Associated event acquisition method and device
EP3622445A1 (en) Method, implemented by computer, for searching for rules of association in a database

Legal Events

Date Code Title Description
STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: UNKNOWN

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE INTERNATIONAL PUBLICATION HAS BEEN MADE

PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: REQUEST FOR EXAMINATION WAS MADE

17P Request for examination filed

Effective date: 20211210

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

DAV Request for validation of the european patent (deleted)
DAX Request for extension of the european patent (deleted)