FR3082966A1 - SCALING, MODELING AND REASONING ON COMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS - Google Patents

SCALING, MODELING AND REASONING ON COMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS Download PDF

Info

Publication number
FR3082966A1
FR3082966A1 FR1855489A FR1855489A FR3082966A1 FR 3082966 A1 FR3082966 A1 FR 3082966A1 FR 1855489 A FR1855489 A FR 1855489A FR 1855489 A FR1855489 A FR 1855489A FR 3082966 A1 FR3082966 A1 FR 3082966A1
Authority
FR
France
Prior art keywords
data
produce
new
table database
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1855489A
Other languages
French (fr)
Other versions
FR3082966B1 (en
Inventor
Eric Little
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Leapanalysis Inc
Original Assignee
Leapanalysis Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Leapanalysis Inc filed Critical Leapanalysis Inc
Priority to FR1855489A priority Critical patent/FR3082966B1/en
Publication of FR3082966A1 publication Critical patent/FR3082966A1/en
Application granted granted Critical
Publication of FR3082966B1 publication Critical patent/FR3082966B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/254Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

La fusion évolutive de haut niveau de données structurées et non structurées comprend l'ingestion et le traitement de données non structurées pour produire un modèle statistique stocké en tant qu'entités extraites puis mappé à une collection de triplets de structure de description de ressources (RDF) et l'application d'une analyse sémantique à un ensemble de données structurées pour produire un modèle logique stocké comme une collection de triplets. Des raisonneurs sont appliqués aux deux modèles générant un graphique de connaissances étendu de connaissances de base et inférées qui est décomposé en une base de données large, chaque rangée stockant un triple correspondant, et un raisonneur convertissant les triplets RDF en triplets associés en ajoutant une nouvelle colonne à la base de données en réponse à la détection d'un nouvel attribut pour un sujet déjà présent dans l'une des lignes de la base de données afin que le nouvel attribut soit stocké dans la nouvelle colonne dans une nouvelle ligne créée pour le sujet déjà présent.High-level scalable fusion of structured and unstructured data involves the ingestion and processing of unstructured data to produce a statistical model stored as extracted entities and then mapped to a collection of Resource Description Structure (RDF) triples ) and applying semantic analysis to a set of structured data to produce a logical model stored as a collection of triples. Reasoners are applied to the two models generating an extended knowledge graph of basic and inferred knowledge which is broken down into a large database, each row storing a corresponding triple, and a reasoner converting RDF triples to associated triplets by adding a new column to the database in response to the detection of a new attribute for a subject already present in one of the rows of the database so that the new attribute is stored in the new column in a new row created for the subject already present.

Description

CAPTURE, MODÉLISATION ET RAISONNEMENT ÉVOLUTIFS SURSCALABLE CAPTURE, MODELING AND REASONING ON

DES TYPES COMPLEXES DE DONNÉES POUR DES APPLICATIONS D’ANALYSE DE HAUT NIVEAUCOMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS

CONTEXTE DE L’INVENTIONBACKGROUND OF THE INVENTION

KWO1] Domaine de l’invention (06021 La présente invention concerne des analyses de données, et pins particulièrement une analyse de données sémantiques et IWisation d’un graphique de coîniaissances dans des Big Data sémantiques.KWO1] Field of the Invention (06021 The present invention relates to data analysis, and more particularly to an analysis of semantic data and IWisation of a graph of co-births in semantic Big Data.

|0003J Description de P Art Antérieur| 0003J Description of Prior Art

10004] La science des données basée sur les sémantiques fait référence à la representation de données dans leurs formes logiques et statistiques combinées. Une annotation et » classification logiques sont combinées «c des statistiques pour décrire. plus complètement des entités, des relations et des modèles d’intérêt U technique antérieure peut être utilisée pour dés données non straeturéeq, «e des données basées, sur du texte, atari qw pour des données relationnelles dans un. ou plusieurs formats basé sur des graphiques, afin qu’une mise en correspondant graphique ou un raisonnement à base de graphiques puisse cire applique^) aux données pour inférer des relations entre les données et en tirer des conclusions.10004] Data science based on semantics refers to the representation of data in their combined logical and statistical forms. An annotation and "logical classification are combined" with statistics to describe. more fully entities, relations and models of interest U prior art can be used for non-straeturéeq data, "e data based, on text, atari qw for relational data in one. or several graph-based formats, so that a graphical matching or graph-based reasoning can be applied ^) to the data to infer relationships and draw conclusions from the data.

1000s] Le format basé sur des graphiques d'un modèle sémantique expose les fondements logiques de données dans te graphique afin de permettra Implication de contraintes axiomauqucs et un raisonnement déductif etmdaetif pour te des conclusions concernant les données du graphique. À cette fin, des technologies sémantiques se sont avérées utiles pour capturer, modéliser et raisonner sur des Ws complexes de données pertinentes pour une fusion de haut niveau des données. En fin de compte, 1« forion dè types complexes de données permet la croissance de l’ensemble de données sous-jacent lui-même grâce à Fmférence de nouvelles données à partir des données brutes du graphique de données. De nouvelles données peutet done être déduites à la te de schémas logiques et mathématiques,1000s] The graph-based format of a semantic model exposes the logical foundations of data in the graph in order to allow implication of axiomauqucs constraints and deductive and modal reasoning for you conclusions regarding the graph data. To this end, semantic technologies have proven to be useful for capturing, modeling and reasoning on complex Ws of data relevant for high-level data fusion. Ultimately, 1 ″ forion of complex data types enables the growth of the underlying dataset itself through the reference of new data from the raw data of the data graph. New data can therefore be deduced from the logic and mathematical diagrams,

Ιββββ] Les Années structurées 5onl SOUve„t lrailfes par obOTaon Λκιε dans “ «D* de données, ou dos eondusions sent tiroes „ h tee statistique des données dans le magasin ® données. Le résultat d’une modélisation statistique de données est généralement un armta nombre de modèles «stiques différents à parti,· fcquSs des prédictions peuvent Sire réalisées concernant des données de n.vcati d'instance obsemtes par la Sllitc. Des modèles statistiques permettent une évolutivité, bien que les modèles statistiques soient confrontés à des défis significatifs en termes de description, d'étiquetage a d'annotation des données ou tonnes contes su, l'immain,« des C0Beept, de base. Les algorithmes contiennent normalement des caractéristiques qui sont calculées, mais ces caractéristiques ne sont pas bien décrites, en regard de la. limitation de leur capacité de communication et * leur réutilisa®» générale au fil du temps.Ιββββ] Structured Years 5onl SOU ve „t lrailfes par obOTaon Λκιε in “ “D * data, or back eondusions sent tiroes„ h tee statistical data in the store ® data. The result of a statistical modeling of data is generally an armta number of models “different stics to party, · fcquSs of the predictions can Sire carried out concerning data of n.vcati of instance obsessed by Sll i tc . Statistical models allow scalability, although the statistical models are faced with significant challenges in terms of description, labeling has annotation data or tons knew tales, the immain, "the C0Beept, basic. The algorithms normally contain characteristics which are calculated, but these characteristics are not well described, opposite the. limitation of their communication capacity and * their general reusa® ”over time.

10007} De même, les modèles sémantiques, bien qtfessmtiefe à la eruissancc des commissures issues d'un ensemble de données brutes, numquern d’ëvolufivite dans- te cas où des requêtes complexes sont appliquées en regard de nombreux grands modèles, ou en eus de surabondance de données de niveau d’instenee, qui WWt çumRser ensemble teiplets de>forme le égard- les mo<feles sémantiques fournissent un cadre de olassifcatiou qui stmchire formellement des données à im niveau emmeptuci plus élevé conecmum des structures de métadonnées, permettent d’obtenir action de sutures de Wft a Mfefiou pouvant remonter dans de nombreuses bases de données disparates où résident les doe»® d'instance. Des requêtes basées sur des graphiques peuvent interroger des données de manière complexe en évaluant <fa connexions ente divers nœuds de données disparate, l es pmfomanoes ces types d'applications ont été tMomment épouvantables, œ qui a entraîné des délais d'attente de requête de plusfews heures à plnsiews jours avant achèvement, voire sa„s achivemaiL Des avancées récentes ttans des bases de données de graphiques et les magasins de triplets i grande échelle ont permis d'atewer certains de eœ problèmes « οβΜ des epet* * stockage « Simereogakm de graphiques composés de railfarfs de triplets. Cependant, l'évolutivité est toujours un défi, même à ce niveau.10007} Likewise, the semantic models, although qtfessmtiefe to the eruissancc of commissures resulting from a set of raw data, numquern of evolufivite in case where complex queries are applied with regard to many large models, or had level data glut instenee which WWT çumRser teiplets all of> the form égard- mo <es fait semantic provide a framework from which olassifcatiou stmchire formally data im emmeptuci highest level conecmum metadata structures, allow 'obtain action of sutures from Wft to Mfefiou which can be traced in numerous disparate databases where the instance doe® reside. Graph-based queries can query data in complex ways by evaluating <fa connections between various disparate data nodes, so many types of applications were appalling, which resulted in request request timeouts. plusfews hours plnsiews days before completion, or has s "s advanced achivemaiL recent ttans databases and graphics stores i scale triplets have helped some of Ea atewer problems" οβΜ of EPET * * storage "Simereogakm of graphics composed of railfarfs of triplets. However, scalability is always a challenge, even at this level.

BREF RÉ MJ MC DE L’INWNTÏON iÔOÔS] Va aspect de I invention concerne les mconvénfants de Fêtât de faBRIEF RÉ MJ MC DE L'INWNTÏON iÔOÔS] This aspect of the invention relates to the children of the family

Kehnique décrit ici « m prorf(K> Kehnique describes here " m prorf (K>

FW» informatique nouveaux et non évidente pour l'intégration évolutive de haut niveau de données stactarées et non structurées. ün prooédi de Itaventn» comprend l'ingestion de données non stmeforées el Ie *“ «gérées pour produira un modèle .rémantiqno stodié SM !a &me <1 «ne collection de triplets de structura de description de rassonrœs tRI>F) Λη5 un système informatique de traitement de données. Le procédé' comprend egalement l'applfahou d'm» analyse statistique par un pnœsseuc du système rnfcmtatitfuc de traitement de données aux données non stractafa dans une tae de données ou un système basé SUr des flchiœ fc ***’’ du contenu avœ dœ d®siflrattnB 1OgiqeBS FW ”new and unobvious IT for scalable high-level integration of unstructured and structured data. ün prooédi de Itaventn "includes the ingestion of unstemmed data el Ie *""managed to produce a model. stémié stodié SM! a & me <1" a collection of triplets of structura of description of reassemblies t RI > F) Λη5 un computer data processing system. The method 'also includes the application of statistical analysis by a penetration of the system rnfcmtatitfuc of data processing to non stractafa data in a data tae or a system based SU r of flchiœ fc ***''of the content avœ dœ d ® siflrattnB 1O giq eBS

Mtraspondance avec te graphique RDF. Les données stacturaes peuvent êl„ WW «n correspondance via lents schémas de base de données sous-jacents par rapport au modèle RDF et captantes soœ |a femK ,,,. Ensujfc> en uhlisant les edifications logiques, tœ traitement statistique ultérieur peut -ara- teristiques sémantiques dans des algorithmes statistiques corraspondsnts. Les résultats sont stockés sous la ftnite d'une collection dé triplets puis mis « correspondance dans une table i iaises cotomes OptiGnnèitettfant fas résultats =j0iit 3ivki5st π «ivi&cb en upfets s'ils sont stockés eu faut que pa.r® entité-valetn, comme c'cst le cas dans une grande table.Mpondpondance with the RDF graph. Stacturaes data can be „WW“ n correspondence via slow underlying database schemas compared to the RDF model and capturing soœ | to femK ,,,. As a result, by using logical edifications, subsequent statistical processing can be semantic statistics in correct statistical algorithms. The results are stored under the ftnite of a collection of triplets then put “correspondence in a table i iaise cotomes OptiGnnèitettfant fas results = j0iit 3ivki5st π “ ivi & cb in upfets if they are stored had pa.r® entity-valetn, as is the case in a large table.

[0909] Le procédé comprend en outre l'application d'un ou plusera rai,onOT au modèle sémantique et au modète sWstiqUe données à table large ou grande constituée d'une multiplicité Jc. et de wlonnœ, chaque rangée stockant un triplet ou un uplet ctirrespondant De WA. notable, « moi® des raisennOTi fa modèle sémantique en une nouvelle colonne associée à la base de douta à table large «réponse Ota détecta ΛnMvd attribut pour un sujet déjà présent dans nne des raiigées de la base de données â x s *·, .«e ucnn^s 4 table-.laige, de sorte que fe nouvel attribut “ ' **“· h ”'Vene « ««ve«e mgie créée pour b sujet The method further comprises the application of one or more ra i, onOT to the semantic model and to the modet sWsti q Ue data with a large or large table consisting of a multiplicity J c . and wlonnœ, each row storing a triplet or a corresponding tuple De WA. notable, "moi® des raisennOTi fa semantic model in a new column associated with the base of douta with large table" response Ota detected ΛnMvd attribute for a subject already present in nne of the raiigées of the database â xs * ·, . “E ucnn ^ s 4 table-.laige, so that the new attribute“ '** “· h ”' Vene ““ “ve“ e mgie created for b subject

Jeja present Enfin, lefc Jeja present Finally, lefc

ΓΤ d“ T** inf0“*W Λ taifaneMfie doeiest . h base; de données àtable- lare© telles m·» r»r<n»c ή·«·- -« e' ,evl!e^ dans une interface utilisateur vers la base de données à table large.ΓΤ d “T ** inf0 “ * W Λ taifaneMfie doeiest . h base; data to table- lare © such m · »r» r <n »c ή ·« · - - “ e ' , e v l! e ^ in a user interface to the large table database.

(MIOJ Un systène fie ΙΊην^βοη œmprend me œu|tifiIfcW; dWÎM,eure ( „« mémofc * „ „fas w ρκβ> an syst,M gK — base de données stockant we base de données à fa™ , . . . ooniices. a -table large eonstitiièe d’une nnnuphcacde rangées et colonnes . ....(MIOJ Un systie fie ΙΊην ^ βοη œmprend me œu | tifiIfcW; dWÎM , eure („“ memofc * „„ fas w ρκβ> an syst , M gK - database storing we database at fa ™,.. Ooniices a large table, consisting of a number of rows and columns.

x , naqut inngLfc. stockant un triplet ou un uplet ^penttat, et w ntofiute tfiatégration *x, was born inngLfc. storing a triplet or uplet ^ penttat, and w ntofiute tfiattegration *

7* intan^ue « fa occurs. L« «tk™ Iors * structurées et traitent les données ih<wtr*SA~ ^λ>- » · m mgtrees pour produire un modèle sànamiw stovU sous la formé d’une collection de trînl^ ,·τ^< s - , . .. W^fes dans la mémoire. Les mstruetioas appIiquent enoutre imeanalvse staiisrioH-·^»·, w Λ , v «waij se siausnque a un ensemble de données MM. pour pnxtate ttn raodaà stafctiqTO . Μ115 Ja femc coltaro» fie «pM. ou ls e! apsliqurat e ou plB5jeure jWKMirs au modèle scmanhque et au modèle statistique afin de générer des ,,β””“’h h8Se *** ‘ *«* * H «®®i de noter qu'nu moins » *. ralsomeCOEWti, lcs du modê)e sémoti^ «<èe en ajouw UI1Mora,.iie coteK âfc denfcj , réponse à la détection d'un nouvel attribut >..,.!··, * m^vei^mbut pour un sujet dga présemd rangées de la base de données â tarife -s œmtes a table large, de sorte que le nouvel attribut soit ’ “ ta fl0ïçlte ·*·*· ta “«fc «®e poor le j««â present. Enfin, les wrstrueüons traitent des requêtes en regard de la base de donner a toMe toge telles q„,elte ta base de données à table large, i«HU Des «pac. Wlén,enlaires Λ lfevrartton &οη( rapœ.s eo partfe a < ο«φ!qu> a OT parfc à ifc ,a <» peuvent être app* faI Ia œise œ prajqiK fc * λ™** «rom «Ms* « eteinB ffl βάβ1β et œmKnïi<ans toutes «ta exemplaires « explicatives et ne sont restriajw i'invenhon, telfe que reyesdiquée.7 * intan ^ ue " fa occurs. L "tk ™ Iors * structured and process the data ih <wtr * SA ~ ^ λ>-" · m mgtrees to produce a model sànami w stovU in the form of a collection of trînl ^, · τ ^ < s - ,. .. W ^ fes in memory. The mstruetioas apply in addition to imeanalvse staiisrioH- · ^ "·, w Λ , v" waij siausnque has a dataset MM. for pnxtate ttn raodaà stafctiqTO . Μ115 Ja femc coltaro »fie« pM. or ls e! apsliqurat e ou plB5jeure jWKMirs the scmanhque model and the statistical model in order to generate ,, β ”” “' h h8Se ***' *“ * * H “®®i to note that nu minus ” *. ralsomeCOEWti , lcs du modê) e semoti ^“ <èe en ajouw UI1Mora , .ii e coteK âfc denfcj , response to the detection of a new attribute> ..,.! ··, * m ^ vei ^ mbut for a subject dga presemd rows of the database at tariff -s émtes a large table, so that the new attribute is' “ ta fl0ïçlte · * · * · ta ““ fc “®e poor le j ""now. Finally, the wrstrueüons deal with requests against the database to give toMe toga such as ", elte ta large table database, i" HU Des "pac. Wlén , enlaires Λ lfevrartton & οη (repœ . S eo partfe a <ο " φ!Qu> a OT parfc à ifc , a <"can be app * faI Ia œise œ prajqiK fc * λ ™ **" rom "Ms * " EteinB ffl βάβ1β and œmKnïi <years all" ta exemplary "explanatory and are restriajw i'invenhon, telfe that reyesdicated.

BRÈVE DESCRIPTION DFS Pï twpoç xzfT^oBRIEF DESCRIPTION DFS Pï twpoç xzfT ^ o

ΓΜ WW i LLMfcLRS VUES DES DESSINS [00.I2J Les dessins annexée tîî«s *··; , . . M “ ’-'“Tores dans el fool * fccnphon, illustrent des mottes de rMi»fe„ a >. “ .v .......... rumsatmn de i'mvention èt .avec laΓΜ WW i LLMfcLRS VIEWS OF DRAWINGS [00.I2J The attached drawings tîî s * ·· ; ,. . M “'-'“ Tores in el fool * fccnphon, illustrate clumps of rMi ”fe„ a>. “.V .......... rumsatmn de i'mvention et. Avec la

Lte»cnptu)îij servent à expliquer les i » réanima illu W modes de illusues mi sont actuellement prête étant entendLte »cnptu) îij serve to explain the i» réanima illu W modes of illusues mi are currently ready being heard

Γ™,Λ1ι;„„ . CUinï entendu cependant que teixienimn nest pas limirée a«v 4»·«·« . ( t , 1 e agencements et aux instrumerés précis fcptescntés, dans lesqpglg .*Γ ™, Λ1 ι; „„. CUinï understood however that teixienimn is not limited to "v 4" · "·". (T, 1 e fittings and instrumerés specific fcptescntés in lesqpglg. *

X **“ * “κ ““ “ lν olutive du haut niveau de données n <X ** “*“ κ ““ “lν olutive of the high level of data n <

« «e «ouates structurées et non structurées ;““ E “structured and unstructured wadding;

[W4j La figure 2 est Une illustration schématique d'un système -te n u données , ’ ,· 4 systems de traitement de aonnees tonfigure pour l'intégration éyrémW j. * ~es«noaslracteées;eJ * *““ ”‘V* A3 “ *“ * « pour Hu^.[W4j Figure 2 is a schematic illustration of a bare data system, ', · 4 data processing systems tonfigure for integration yrémW j. * ~ es "noaslracteées; e J * *“ “” ' V * A3 “ * “*“ for Hu ^.

” ata de tatmvea iWaortœet Ban SWclw.&s descmption détaillée de mnventon [0M6] Des modes de réaiîsation de l'invention ♦ ι· >”Ata de tatmvea iWaortœet Ban SWclw . & s detailed description of mnventon [0M6] Methods of carrying out the invention ♦ ι ·>

. , permettent intégration évolutive du haut niveau de données sinichiréee m· ucimces structurées et non structurées, Conformé™^ â mode ri.- ^omorwment a un e reabution de hnvention, des données non ςίτη^η·^· ?. , allow evolutionary integration of the high level of structured and unstructured sinichiree m · ucimces data, Conformé ™ ^ à mode ri.- ^ omorwment a e reabution de hnvention, non ςίτη ^ η · ^ · data?

-1, ,, - . < : wwturees dans un ou plusieurs magasins de don nÂpa -4 ' s »«» ye uonnees sont traitées statistionemen» » · .>·.-< stNu^uu.nt pour prodiure on ou ptownra modelés statistiques sur j, d , . „ «xnnsqu~s d extraction d’entités à part» de données textuelles' Thn« u ™a··· * , uuu.ut Dans te meme temps, les données structurées sont œgerees pour une extraction de termes et traite -ï · ‘“’'««««••«ntate rood4tes scæantjques représentant le seh<Wï βΛ*.* · « i-1, ,, -. <: wwturees in one or more don npa stores -4 's »« »ye uonnees are treated statistionemen» »·.> ·. < st Nu ^ uu.nt for prodiure on or ptownra statistical models on j, d , . "" Xnn s ~ nd that entity extraction apart "textual data 'Thn" u ™ has ··· * uuu.ut In the same time you, the structured data are œgerees for term extraction and processing -i · '“''“ ““ “••“ ntate rood4tes scæantjques representing the seh <Wï βΛ *. * · “I

-1 te soi™ so«ojacrat de h 1)M.. dis donn et fes fermes extraite sont ensuite rnis en correspondance par rapport à une collection de triplets RbF. Par ia. suite, une multiplicité de raisonneurs différents sont appliqués à la fois aux modèles sémantiques et aux modèles statistiques afin de remphï· un graphique de connaissances contenant à la fois des informations de base et dea»^ est «Λ converti Os la base de dmm&s â table large représentant les in formations contenues d» Μ rtriptete du graphique de connaissances. En particulier, les triplets RDF présents dans les modelés romantiques sont divisés en parties constitutives afin d’être mis en correspondance avec précision par rapport à la base de données à table large, en créant ainsi un nouvel index des données sous-jacentes, s< la base des relations d’entités définies explicitement à partir de l'intérieur du graphique. Une augmentation du nombre de colonnes de la base de données à table large est necessaire pour accepter de nouveaux attribute présents pour un sujet d’un triplet RDF. Unjout de nouveaux attributs à la table à larges colonnes via le. système présente une nouvelle façon d'indexer de manière dynamique les données dans la table. Enfin, des requêtes sont reçues dans w interface utilisateur vers & base de données à table large afin de renvoyer des ensembles de résultats pour des requêtes complexes (par exemple, â base de graphique ml&saut) qui WOOnt des motifs complexes d’in&rmatms typiqumm rndispombles pour rechercher des mécanismes sur des magasins à colonnes larges.-1 te soi ™ so “oj acrat de h 1) M .. dis donn and fes farms extracted are then linked to a collection of RbF triplets. By ia. thereafter, a multiplicity of different reasoners are applied to both semantic and statistical models in order to complete · a knowledge graph containing both basic information and dea ”^ is“ Λ converted to the basis of dmm & s â large table representing the information contained in the rriptriptete of the knowledge graph. In particular, the RDF triples found in romantic models are divided into constituent parts in order to be precisely matched against the large table database, thereby creating a new index of the underlying data, s < the basis of entity relationships explicitly defined from inside the graph. An increase in the number of columns in the wide table database is necessary to accept new attributes present for a subject of an RDF triplet. Adding new attributes to the large column table via the. system introduces a new way to dynamically index the data in the table. Finally, queries are received in the user interface to & wide table database in order to return result sets for complex queries (for example, graph-based ml & jump) which WOOn complex patterns of in & rmatms typiqumm rndispombles for look for mechanisms on wide column stores.

[0017] Dans une Rotation supplémentaire, la. figure I représente de manière picturale un procédé pour Integration évolutive de haut niveau de données non £>ι·ϊ«* îi'K -p’ s * S Lüimne représente sur figure I ÿ un graphique de connaissances RDF 130 est produit par l'ingestion ou la mise en correspondante de données structurées avec Fextwtfon de termes à partir de données non structurées, par exempte au moyen du traitement statistique des données. Un on plusieurs raisonneurs sont ensuite appliqués afin de pmduire un ensemble de triplets RDF 110 contenant chacun un sujet I20À. un attribut 120B et un objet 120C. Uun des raisonneurs comprend une logique d’intégration HO adaptec pour convertir chacun des triplets RDF 110 en une table de base de données large et extensibfe 140.In an additional rotation, the. figure I represents in a pictorial way a process for evolutionary Integration of high level of non £ £ ι · ϊ "* îi'K -p 's * S Lüimne represents on figure I ÿ a RDF 130 knowledge graph is produced by ingestion or matching of structured data with the extext of terms from unstructured data, for example by means of statistical data processing. One or more reasoners are then applied in order to pmduce a set of triplets RDF 110 each containing a subject I20A. a 120B attribute and a 120C object. One of the reasoners includes HO adaptec integration logic to convert each of the RDF 110 triples into a large and extensible 140 database table.

10018] A œt égard, la logique d'intégration i m pour chaque triplet e Iît) localise dans la teMe de base de données large « extensible HO une rangée correspondante utilisant le sujet Ι20Λ du tripla RDF 110 en tant que dé. I.„ <fe la locahsalion d'une ligne conespondante utilisant le sujet 120A du triplet W 110 en tant que dé, il est déterminé qu'une colonne correspondante do ta table de base de données toge et extensible 140 comporte „ MB m eiMite * colonne correspondant à l’attribut 120B du triplet R DF 110. Si U réponse est oui, U r âleur de 1 entree de colonne pour la rangée est aise à jour pour inclure l'ob,a 120C du tripla RUF 110. Des requêtes de rangées peuvent ainsi relier parieurs attributs et objets à un sujet donné.10018] In this connexion, the im integration logic for each triplet e IIT) locates in the database broader tem "extensible HO a corresponding row using the subject Ι20Λ tripled the RDF 110 as a die. I. „<fe the locahsalion of a corresponding line using the subject 120A of the triplet W 110 as a die, it is determined that a corresponding column of your toga and extensible database table 140 comprises„ MB m eiMite * column corresponding to attribute 120B of the triplet R DF 110. If U answer is yes, U r 1 column entry for the row is updated to include the ob, at 120C of the triplet RUF 110. Requests for rows can thus link betters attributes and objects to a given subject.

10019] Mais si un en-tête de colonne correspondant ne peut pas être localisé au niveau de la rangée pour l’attribut 120B du triplet WHO, la logique d'mtêgret™ 17« élargit la tablé de tese de données toge et extensible MO »v® une nouvelle colonne ayant un en-tête de colonne correspondant à rattnbnt 120B, et ta logique d’intégratton 170 insère ensuite une nouvelle rangée dans la table de base de données toge et extensible 140 pour prendre en compte le sujet 120A. Enfin une valeur ?-·.* ·:< · - .· r ô 1 ^wvu-e a la. rangée mseree au niveau de la nouvelle colonne pour tenir compte de l'objet lîOC. Par la snte, un utilisateur final 160 peut dcs requêtes « w raBport , |a & données large et extensible 140, [MOI U procédé décrit un relation avec la figure i itre rais m iguvre dans un système de traitement de données. Dans une illustration supplémentaire ta 5i»J « une illustration schématique d’on système do traitement dé «es configuré pour l'intégration évolutive de haut niveau de données stntattrées « non structurées. Le système de traitement de données comprend un sy„ème mformatiqne hôte 20» qui comprend «ne mémoire 210. an moila „„ processeur 220 et un afficheur 230. Le système de traitement de données comprend eu outre UIK tase de données extensible 240. De manière importante un module d'intégration 300 est d.sposé dans le système informatique hôte 20» el comprend un code de programme qui s'exécute da® la mémoire 2J0 du système bfbnnaiique hôte 200,10019] But if a corresponding column header cannot be located at the level of the row for attribute 120B of the WHO triplet, the logic of mtêgret ™ 17 "widens the table of toga and expandable data MO" v® a new column having a column header corresponding to rattnbnt 120B, and your integration logic 170 then inserts a new row in the toga and extensible database table 140 to take account of subject 120A. Finally a value? - ·. * ·: <· -. · R ô 1 ^ wvu-e a la. row mseree at the level of the new column to take account of the lîOC object. By SNTE, an end user 160 may request dcs "w raBport, | a & specifications large expandable 140 [ME U describes a method with reference to FIG ra te r i i sm iguvre in a data processing system. In a further illustration ta 5i "J" a schematic illustration of a processing system configured for high level evolutionary integration of structured unstructured data. The data processing system includes a sy 'em e mformatiqne host 20 "which includes" only memory 210. an moila „„ processor 220 and a display 230. The data processing system also comprises, in addition to UIK an extensible data base 240. Importantly an integration module 300 is provided in the host computer system 20 ”and includes a program code which runs in the memory 2J0 of the host bfbnnai system 200,

I«H1] Spécifiquement, le code de programme du module d'intégration 300 est aeavé pendant l'cxéœfioi. pour iBg*er graphique de connaissances de base 260. De mime, le code dé programme d,, mod* d'intégration 3» e activé j.es&ut™ non stroetméoa 250A dam un modèle statistique 270. À cet égarf, les données non stntetutées 2.50A sont ingérées dans un moteur d'extraction de texte qui peut fournir une «connaissance d'enlité oompiée (REN) ou un traitement rie langage naturel (TLN), « les de», pour marquer, éaqueter et exWre des ternes importants. Bn outre, un ou plusieurs schémas de base de données pour les données sWs«es 250B peuvent itKJ mis Œ eotrcspondimce par rapport au graphique de connaissances de base 260 en utilisant toute solution peii une mi.se e» correspondance manuelle, la ρ6ΜϊΜ D2RQ- ou d’autres techniques permettant la conversion .semi-auloimrique d'un schéma dans un graphique confiant® à RIJF.I “H1] Specifically, the program code of the integration module 300 is aired during the test. B i g e r * Graph 260. knowledgebase In mime, dice code program ,, * mod integration 3 "e j activated. es & ut ™ non stroetméoa 250A in a statistical model 270. In this case, the 2.50A non stntetututée data are ingested in a text extraction engine which can provide an "oompied elite knowledge (REN) or a language processing natural (TLN), "les de", to mark, brand and exWre significant dullness. Bn addition, one or more database schemas for data s Ws "e s 250B may itKJ put Œ eotrcspondimce with respect to knowledge base graph 260 using any solution pei mi.se i a e" manual correspondence, ρ6ΜϊΜ D2RQ- or other techniques allowing the .semi-auloimric conversion of a diagram in a confident® graph to RIJF.

’*”1 le ee* *= «tomme transferee des triplets textuels provenant du modèle statistique 270 en différents enregistrements dans la Base de données large 240. Dé même, |e çodc de programme transferme des triplets du graphique de connaissances de base 2® en enregistrements dans la base * données large 240. Facultativement, le graphique * connaissance de base 160 « iransfbnné de manière temporaire en u» graphique * connaissances tnfero (non représenté) par un 00 plusieurs raisonneurs inféra» des nœuds additionnels à partir du nœuds existants * graphique * connaissances de base 260. Hu, particulièrement, b graphique de connaissances * base 260 peut être augmenté jusqu’à un graphique de connaissances inféré avec *s mtbrmatioœ conceptuelles humaines an moyen * l'utffisaùm mumetles pour l'mscrtion de ®ts da» b graphique * connaissances m&é, e aussi de l'ufflietu» d'étapes automatisées au moyen de rutilisaiion d'autres modèles: dkrntologie,'* ” 1 le ee * * =“ tomme transferred text triplets from the statistical model 270 into different records in the Large Database 240. Same, | e çodc of program transfers triplets of the basic knowledge graph 2® to records in the database * large data 240. Optionally, the graph * basic knowledge 160 "temporarily transposed into u" graph * knowledge tnfero (not shown) by a 00 several reasoners infera 'additional nodes from the existing nodes * graph * basic knowledge 260. Hu, in particular, b knowledge graph * base 260 can be increased up to an inferred knowledge graph with * s conceptual mtbrmatioœ average human * the mumetles utffisaùm for the mscrtion of ®ts da » b graphic * knowledge m & é, e also of the ufflietu» of automated steps by means of reuse of other models: dkrntology,

ÎW23J Par exemple, » pïastes smmiq» peuventÎW23J For example, “ smmiq p asts” can

WMfe au graphique de connaissances de base 260 pour exécuter des régies d-mfcrcnce en. regard du graphique de connaissances de base260. Les WMfe to the basic knowledge graph 260 to execute d-mfcrcnce management. look at the basic knowledge chart 260. T he

Oonnem Aporie laquelle; dte Wquo de dcscrite O logique commune, d'une logique d’objet, d’une logique d’attribut de premier ordre, et smrifette, au graphique de connaissances^. base 260 afin de générer de «a triplets, êtes aw de attrite M objet, m augmentant ainsi l’expressivité et la valeur d’utilisation de calcul du graphique de connfesaneesde fee 260 da® le graphique de connais» inféré. Ensuite, le graphique de comtaissances de base 260 et le graphique de Mfesances inféré restent séparés luu de I autre, du fait de la nature plus permanente du graphique de coonaissanees de base 260 qui représente des faite observé^ alors que le graphique de connaissances inféré représente des .faits inférés selon les règles et premisses logiques énoncées dans les raisonneurs sémantiques.Oonnem Aporia which; dte Wquo of described O common logic, object logic, first-order attribute logic, and smrifette, to the knowledge graph ^. base 260 in order to generate "a triplets, are aw of attrite M object, m thus increasing the expressiveness and the value of use of calculation of the graph of connfesaneesde fee 260 da® the graph of connais" inferred. Then, the basic skills graph 260 and the inferred skills graph remain separate from the other, due to the more permanent nature of the basic knowledge graph 260 which represents observed facts, while the inferred knowledge graph represents inferred facts according to the logical rules and premises stated in the semantic reasoners.

WM De mafere notable, un moteur de recherche balaie alors le graphique de omnaissanœs inféré afin de récupérer des triplets du graphique de connaissances mfôré pour les placer dans une large table de & base de données 240 sous la «W de noutefe cotes. En parttefe le code de programme du module d’intégration 300 transforme chacun des triplets dans les differents cmvgtstraments de la table large de la base de données 240 en utilisant im sujet du tnplet en tant que clé pour localiser un enregistrement .existant dans la table W dtt là base de donnfe 240. Dans ' h mes» fe aucun estent nWtste pour la dé, un nouvel enregtement est créé avec le sujet en tant que cié. Le code de programme détermine «ite si un fetfe de cote da® là table large de la base de données 240 existe ou non pour l’attribut du triplet. Si la réponse est oui, une valeur est écrite pour cette colonne et un nouvel tetement eorrespote à te ^ triplet. Sine® 1® de prégramme ajoute une nouvelle colonne à la table large de la base de données 240 et etiquette la ..nouvelle cote® avec Γattribut du triplet et écrit une valeur pour cette nouvelle colonne et ne nouvel enregisircme® correspondant à l'objet du [002S] te la mesure où mitialemetit une rangée existante est localisée pour fe wjet du triplet dans la table large de la base de données 240, le code de programme détenni® «rite si fe ente de cote dans la table te de laWM Notably, a search engine then scans the inferred omnaissanœs graph in order to retrieve triplets from the mfo knowledge graph to place them in a large 240 database table under the "W of noutefe ratings." In part the program code of the integration module 300 transforms each of the triples in the different cmvgtstraments of the wide table of the database 240 using the subject of the tnplet as a key to locate a record existing in the table W dtt là base de datfe 240. In 'h mes »fe no estent nWtste for the die, a new record is created with the subject as cie. The program code determines "ite whether a rating fetfe from the wide table of the 240 database exists or not for the attribute of the triplet. If the answer is yes, a value is written for this column and a new header eorrespote to te ^ triplet. Sine® 1® of pregram adds a new column to the wide table of the 240 database and labels the ..new dimension® with pl triplet attribute and writes a value for this new column and does not create a new record corresponding to the object of the [002S] te the extent that mitialemetit an existing row is located for the wjet of the triplet in the wide table of the database 240, the program code detenni® “rite if fe ente of dimension in the table te of the

IQ hase de données 340 existe ou non pour Fadribui du triplet St h réponse est oui, W valeur est écrite pour cette entonne et l'enregisttement localisé correspondant a l’objet du triplet. sinon, le code de programme ajoute une nouvelle coWue à la table large de la base de données 240 et étiquette la nouvelle colonne avec l’attribut du triplet et écrit une valeur pour celte nouvelle colonne et un enregistraient localisé correspondant à l’objet du triplet [0026] Dans encore une illustration supplémentaire du fpnctionnçment du module dmtegratiou300s la figure 3 est un organigramme illustrant un procédé pour hntégratfon évolutive de liant niveau de données structurées et non structurées. En commençant au bloc 310, des données stmciurées et non structurées sont ingérées pour la génération dans te bloc 320 d'un graphique de connaissances RDF, Pour des données non structurées, les fermes extraits sont mis en correspondance, du texte au graphique de connaissances. Des données structurées provenant de sources de base de données existantes, comme des noms de. tables, des en-têtes de colonne, des dés principales, des dés. étrangères, et sirmlaires, sont ingérées et mises en eorrespondance par .report au graphique de connaissances. Dans le bloc 330, differents triplets RDF sont ensuite inférés en utdisant différents raisonneurs afin de produire un graphique de coimaissances mferé. Ensuite, dans le bloc 340, chacun des triplets RDF CSf transposé dans un enregistrement correspondant d’une table dans la base de données large. Dans te bloc de decision 350, il est déterminé que des mises à jour ont eu lieu ou non dans le graphique de connaissances inféré ou dais le graphique de base. Si la réponse est oui, dans le bloc 360, des triplets RDF correspondant aux mises à jour des graphiques de connaissances inférés ou de base sont sélectionnés et transposés dans le bloc 340 dans la table de la base de données large.IQ data hase 340 exists or not for the attribute of the triplet St h answer is yes, W value is written for this inton and the localized record corresponding to the object of the triplet. otherwise, the program code adds a new coWue to the wide table of the 240 database and labels the new column with the attribute of the triplet and writes a value for this new column and a localized record corresponding to the object of the triplet In yet another illustration of the functionality of the dmtegratiou300 s module, Figure 3 is a flowchart illustrating a process for scalable integration of structured and unstructured data. Starting at block 310, structured and unstructured data is ingested for generation in block 320 of an RDF knowledge graph. For unstructured data, the extracted farms are mapped, from text to knowledge graph. Structured data from existing database sources, such as names of. tables, column headers, main dice, dice. foreign, and sirmlaires, are ingested and matched by .report to the knowledge graph. In block 330, different RDF triples are then inferred using different reasoners to produce a mferé co-birth graph. Then, in block 340, each of the RDF triples CS f transposed into a corresponding record of a table in the large database. In decision block 350, it is determined whether or not updates have taken place in the inferred knowledge graph or in the basic graph. If the answer is yes, in block 360, RDF triples corresponding to the updates of the inferred or basic knowledge graphs are selected and transposed in block 340 in the table of the large database.

[002 /] La présente mventton peut être mise en œuvre dans un système, un procède un produit de programme informatique ou toute combinaison de ceux-ci. te produit de programme infônnatique peut comprendre un ou d es supports de stockage Hsible(s) par ordinateur ayant des instructions dé programme lisibles par ordinateur sur ceux-ci pour amener an processeur à mette en œuvre des aspects de la présente invention. Le support de stockage lisible par tteinateur peut être unThe present mventton can be implemented in a system, a product of a computer program or any combination thereof. The computer program product may include one or more computer-accessible storage media having computer-readable program instructions thereon to cause the processor to implement aspects of the present invention. The readable storage medium can be

Aspesitif tangible qui pcU1 conserttet e( !tocksr dcs ÎBStnictioM â Tangible aspesitif qui pc U1 conserttet e (! Tocksr dcs ÎBStnictioM â

Asposiiif «fetation taaroettas. U SBppon de stakage liable par ordinateur Γ* être, pal- temple, mois m y &Μ „„ & électronique, un dispositif & «outage M dispositif dfs stoct.a°e opftque, un dispositif de stockage éfatroinagnétiqtte, un dispositif de slockage â stmi-eonducteur, ou foute combinaison appropriée de ceux-ci., ieO2SI Les instructions de programme lisibles par ordinateur décrites ici peut en> dire téléchargé® ®r ta dispositifs inf0mtatiques.de traitement respectifs à partir dim support de stockage lisible ™r ordinal „«··«.<.. i» W5>io,t· oKHmteur ou sur un ordiuafeur wicrneAsposiiif "faro taaroettas. U SBackage of computer-linkable storage être * be, pal- temple, month my & Μ „„ & electronic, a device & “tool M device dfs stoct . a ° e opftque, a storage device efatroinagnétiqtte, a device of slockage with stmi-eonducteur, or foute suitable combination of these., ieO2SI The instructions of program readable by computer described here can> say downloaded® ®r your devices respective information from a readable storage medium ordinal „“ ·· “. <.. i” W5> io, t · oKHmteur or on a wicrne computer

«. un dispositif de stockage externe via „ réæau. Us «trwttas de programme lisibles par ordinateur peuvent s'exécuter entièrement sur l'ordinateur A- l'ulitata. en partie sur l’ordinsteur de J-utilisateur, en tant que progiefe] autonome, „ partie „ l'ordinateur de l'utilistaur « en partie sur un ordinateur ΛΛ, ou entitement SUr Ifadtate® « le serve® distant. Des aspects dé ta présente invention sont décrits teî Μ référence 4 des tltastrattas d’organigramme et/ou à des fOMjomeIs fc. pro^ d’appareils (systèmes) « de produits de programme tafonnatique selon dcs’ mod® * réalisation de l'iuventios. On comprendra que cfKi<i<K W(K deS illustrations d’organigramme «A» schémas fOMiome|s, et des combinaisons de bta dans les iterations et*B de schémas fonctionnels, peuvent être exécutes par des Ù,sections de programme lisitta par onïnata ’ [00291 Ces instructions de programme lisibles par ordinateur peuvent être fata® à uu processeur ta ordinateur UmvefSe|, d'w ordinateur spécial « ta autre appareil de traitement dé données programmable pour ρκΛ,ή·8 machme, de telle sorte que i® instactions qui s'exécutent via 1e processeur de Mm· «i d’iffl autre appareil de traitement de données programmable, créent des moyens pouf etater fa tteiontalions spécifié® tas le ou 1® Mo® datagramme cita de schéma fonctionnel, c® ta5toaioBs * programme lisibles par ordinate® peuvent également être stockées dans un support de stockage lisible par ordinateur pouvant commander un ordinateur, tnt appareil de traitement tfe données programmaMe et/ou dtautres dispositifs pour". an external storage device via „network. A computer readable program can run entirely on the computer A- ulitata. partly on the J-user computer, as a standalone progiefe, "partly" the computer of the user "partly on a computer ou, or entity SU r Ifadtate®" the remote serve®. Dice aspects of your invention are described Μ reference Tei 4 of tltastrattas flowchart and / or f OMjomeIs fc. pro ^ devices (systems) “of tafonnatic program products according to d cs ' mod® * realization of the iuventios. It will be understood that cfKi <i <KW (K d e S illustrations of flowchart "A" diagrams f OMiome | s , and combinations of bta in the iterations and * B of functional diagrams, can be executed by Ù, sections of program readable by onïnata 'These computer-readable program instructions can be fata® to a processor on your computer U m vefS e |, from a special computer "your other programmable data processing device for ρ κΛ , ή · 8 Machme, so that i® instactions that run via the first processor Mm · "i iffl other programmable data processing apparatus, create means pouf e tater fa tteiontalions spécifié® the heap or 1® Mo® datagram cita of block diagram, c® ta5toaioB s * programs readable by ordinate® can also be stored in a storage medium readable by computer which can control a computer, tnt processing device tfe data programmaMe and / or other dis positive for

Joikim» ft. »tre pamcultare. & SOîte qœ |e ΜρροΛ Soctage hsible par «dinatar ayant <fa tastn^o® stwkfewn sdn c(!apieM m artide de ftbncalion comprenait M instactipns qui ffletiCTt eB œusn. 4e, aap«te «feta Sp&ifift.te de schéma fonctionnel.Joikim »ft. » Re pamcultare. & Soit qœ | e ΜρροΛ Sosage hsible by “dinatar having <fa tastn ^ o® stwkfewn sdn c (! ApieM m artide de ftbncalion included M instactipns which ffletiCTt eB œusn . 4th , aap “te“ feta S p & ifi ft . Te . block diagram.

RQ3ÔI Les instructions déprogrammé lisibles par dateur peuvent également être chargées sur un ordinateur, rm autre apptel de traitement de données programmable ou un autre dispositif ;ameaer w opératelles à te: exécutées sur Wnateur, un autre appareil programmébfe ou un autre dispositif pour produire un procédé mis en œuvre par ordinateur, de telle sorte que tes Instructions qui s’exécutent sur I«natm l’auiw appareil programmable ou l’autre dispositif mettent en œuvre les fontess/actions spécifiées dWs le ouïes blocs d'organigramme ete de schéma tectiœml.RQ3ÔI Deprogrammed instructions readable by date can also be loaded on a computer, rm another programmable data processing device or another device ; operational ameaer w te: executed on Wnateur, another programmed device or another device to produce a process implemented by computer, so that your instructions that run on I "m n t the auiw programmable apparatus or other device implement fontess / specified actions dWs the flowchart blocks of gills been tectiœml diagram.

Ï0Q31I L’organigramme et fes schémas fonctionnels S!ir hs figuras illustrent ferchrtéçture, la fonctionnalité et le fonctionnement d’implémentations possibles de systèmes, de procédés et de produits de programme informatique selon divers modes de réalisation de te présente invention. À cet égard, chaque bloc dans 1 organigramme ou les schémas fonctionnels peut représenter un module, mi segment ou une partie d’înstroctions, qui comprend une ou plusieurs instructions emtables pour: implémenter la (tes) fonctimO^ Mque(s) spéeiSéO Dans certame» implementations eii variante, les fonctions notées dans te bloc peuvent ne pas survenir selon l'ordre indiqué sur les figures. Par exemple, deux blocs Üiustrés à la suite peuvent eu tait être exécutés sensiblement simultanément, ou les bfocs peuvent parfois ête exécutés dans ï’ote inverse, en fonction de te fonctionnalité impliquée. 0n notera également que chaque bloc de ^illustration des schénw fouctioimeetfou de blocs de l’illustration des schémas fonctionnels et/ou de l’organigramme, peuvent fete, en œuvra par des systees à base de matériels spéciaux^ qui exécutent les fonctions ou actions spécifiées ou effectuent des combinaisons d’instructions de matériels et informatiques â but spécifique.Ï0Q31I The flowchart and block diagrams fe s S! Ir hs figuras ferchrtéçture illustrate the functionality and operation of possible implementations of systems, methods and computer program products according to various embodiments of you present invention. In this respect, each block in 1 flowchart or the functional diagrams can represent a module, mid segment or part of instructions, which includes one or more instructions that can be edited to: implement the function (s) spéiSéO In certain »Implementations eii variant, the functions noted in the block may not occur in the order indicated in the figures. For example, two blocks shown in succession may have been executed substantially simultaneously, or the bfocs may sometimes be executed in reverse, depending on the functionality involved. It should also be noted that each block of illustration of the schematic diagrams and / or blocks of illustration of the functional diagrams and / or the organization chart, can be celebrated, by working with systems based on special materials which execute the specified functions or actions. or perform combinations of specific purpose hardware and computer instructions.

10033] Les strucmras, matériaux, actions et équivalents correspondants de tous les moyens ou éléments dtetape et de fonction dans tes revendications ci-dessous sont destines a comprendre tout(e) stmclure, matériau ou action pour remplir la tonctum en combinaison avec d’autres éléments revendiqués, comme revendiqué spécifiquement La description de la présente invention a été présenté© à des fins diHustation et de description mais rfèst.pas destinée à êtreexhaustsve ou limitée à 1 invention sous la forme décrite. De nombreuses modifications et variations apparaîtront â l'homme du métier sans sortir de la portée et de l'esprit de 1 invention. Le mode de .realisation a été choisi et décrit afin de .mieux expliquer les prmmpes de l'invention .et l'application pratique, et de permettre à d’autres que fhomme du métier de comprendre l'invention concernant divers modes de réalisation avec diverses modifications adaptées à l’utilisation particnliête envisagée.10033] The corresponding strucmras, materials, actions and equivalents of all the means or elements of step and function in your claims below are intended to include everything including, material or action to fill the tonctum in combination with others claimed elements, as specifically claimed The description of the present invention has been presented © for diHustation and description purposes but rfèst.pas not intended to be exhaustsve or limited to 1 invention in the form described. Many modifications and variations will be apparent to those skilled in the art without departing from the scope and spirit of the invention. The embodiment was chosen and described in order to better explain the prmmpes of the invention and the practical application, and to allow others than those skilled in the art to understand the invention concerning various embodiments with various modifications adapted to the particular use envisaged.

Claims (13)

REVENDICATIONS L Procédé d'intégration évolutive de haut niveau de données structurées et non structurées comprenant :L High-level scalable integration process for structured and unstructured data including: Fingestion de données non structurées et le traitement des données ingérées par un processeur (220) d’un système informatique (200) de traitement de données pour produire un modèle statistique (270) pour une extraction de ternies qui est ensuite mise en correspondance par- rapport à uns collection de triplets de structure de description de ressources (RDF) (110) dans une mémoire (210) du système informatique de traitement de données ;Fingering unstructured data and processing the data ingested by a processor (220) of a data processing computer system (200) to produce a statistical model (270) for a tarnish extraction which is then matched by- relating to a collection of Resource Description Structure (RDF) triples (110) in a memory (210) of the data processing computer system; l’application d’une analyse statistique par le processeur dn système informatique de traitement de données â un ensemble d© données structurées dans une base de données pour produire un modèle sémantique du schéma de base de données, stocké' sous la formé d’une collection de triplets dans la mémoire du système informatique ;the application of statistical analysis by the processor of a data processing computer system to a set of structured data in a database to produce a semantic model of the database schema, stored in the form of a collection of triplets in the memory of the computer system; 1 appheation par le processeur du système informatique de traitement de données d’un ou plusieurs raisonneurs au modèle sémantique et au modèle statistique afin de générer une base de données à table large (140) constituée d’une multiplicité de rangées et. de colonnes, chaque rangée stockant un triplet ou uptet d’informations correspondaré dans un format tabulaire, au moins l’un des raisonneurs convertissant les triplets RDF du modèle sémantique en triplets inférés associés én ajoutant une nouvelle colonne à la base de données à table large en réponse à la détection d’un nouvel attribut pour un sujet déjà présent dans l’une des rangées dé la base de données à table large de sorte que le nouvel attribut soif stocké dans la nouvelle colonne dans une nouvelle ligne créée pour le sqjerdéjà présent ; et, le traitement de requêtes par le processeur du système informatique de traitement de données eu regard de la base de données â table large telles que reçues dans une interface utilisateur vers la base de données à table large.1 appheation by the processor of the data processing computer system of one or more reasoners to the semantic model and to the statistical model in order to generate a large table database (140) consisting of a multiplicity of rows and. columns, each row storing a corresponding triplet or uptet of information in a tabular format, at least one of the reasoners converting RDF triplets from the semantic model to associated inferred triplets by adding a new column to the wide table database in response to the detection of a new attribute for a subject already present in one of the rows of the wide table database so that the new thirst attribute stored in the new column in a new row created for the sqjerdjeux ; and, the processing of requests by the processor of the data processing computer system having regard to the wide table database as received in a user interface to the wide table database. 2. Procédé scion la revendication 1, dans lequel te base de données à table large ( 140$ est stockée à distance du système informatique (200) de traitement de données a partir d'un réseau de communications informatique.2. The method of claim 1, wherein the wide table database ($ 140 is stored remotely from the computer system (200) for processing data from a computer communications network. 3. Procédé selon la revendication 1, dans lequel les données ingérées sont traitées, par le processeur (220) du système informatique (200) de traitement de données pour produire un modèle statistique (270) grâce à 1 utilisation d une extraction de traitement en langage naturel.3. The method of claim 1, wherein the ingested data is processed by the processor (220) of the data processing computer system (200) to produce a statistical model (270) through the use of a processing extraction in natural language. 4. Procédé selon la revendication I, dans lequel les données ingérées sont traitées par te processeur· (220) du système informatique (200» de traitement de données pour produire un modèle statistique (270) en utilisant F étiquetage d'entités.4. The method of claim I, wherein the ingested data is processed by the processor (220) of the computer system (200 ”of data processing to produce a statistical model (270) using F entity labeling. 5. Procédé selon la foyindication 1, dans lequel tes données inguées sont traitées parlé processeur (220) du système informatique (200) de traitement de données pour produire un modèle statistique (270) grâce à i'utilisatioH de l'apprentissage automatique.5. Method according to foyindication 1, in which the inguated data is processed by the processor (220) of the data processing computer system (200) to produce a statistical model (270) by means of the use of machine learning. 6, Système informatique (200) de traitement de données adapté pour une intégration évolutive de haut niveau tic données structurées et non structurées, le système comprenant. :6, Data processing computer system (200) adapted for scalable integration of high level tic structured and unstructured data, the system comprising. : une multiplicité d’ordinateurs, chacun ayant une mémoire (210) et au moins un processeur (220) ;a multiplicity of computers, each having a memory (210) and at least one processor (220); un système de gestion de base de données stockant use base de données à table large (140) constituée d’une multiplicité de rangées et de colonnes, chaque rangée stockant un uplet correspondant et, un module d’intégration (300) comprenant des instructions de programme informatique et s’exécutant dans, la mémoire d'un ou plusieurs dès ordinateurs, les instructions, lors de l'exécution l'ingestion de données non structurées et le traitement des données ingérées pour produire un modèle statistique (270) qm a été aligné avec une collection de triplets de structure de description de ressources (RDF) (110) dans la mémoire ;a database management system storing a wide table database (140) consisting of a multiplicity of rows and columns, each row storing a corresponding tuplet, and an integration module (300) comprising instructions for computer program and executing in the memory of one or more computers, the instructions, when executing the ingestion of unstructured data and the processing of the ingested data to produce a statistical model (270) qm has been aligned with a collection of Resource Description Structure (RDF) triples (110) in memory; rappllcàtion dtone analyse sémantique à un ensemble de données structurées pour produire un modèle à base de logique stocké sous la forme d’une collection de triplets dans la mémoire ;connection of semantic analysis to a set of structured data to produce a logic-based model stored as a collection of triples in memory; l’application d’un ou de plusieurs raisonneurs au modèle sémantique et au modèle statistique pour générer des données dans la base de donnée* à table large, an moins l’un des raisonneurs convertissant tes triplets RDF du modèle sémantique en triplets associés eu ajoutant une nouvelle colonne à la base de données à table large en réponse à la détection d’un nouvel attribut pour un sujet déjà present dans Γηηε des rangées de la base de données à table large afin que te nouvel attribut soit stocké dans la nouvelle colonne dans une nouvelle rangée créée pour le sujet déjà présent ; et, le tinitemeni des requêtes par rapport à la basé de données à table large telles que reçues dans une interface utilisateur vers la base de données de la table large.the application of one or more reasoners to the semantic model and to the statistical model to generate data in the large table database *, at least one of the reasoners converting your RDF triplets from the semantic model to associated triplets by adding a new column to the wide table database in response to the detection of a new attribute for a subject already present in Γηηε of the rows of the wide table database so that the new attribute is stored in the new column in a new row created for the subject already present; and, the termination of requests against the wide table database as received in a user interface to the wide table database. 7. Système selon la revendication 6, dans lequel la base de données à table large (140) est stockée à distance du système informatique (200) de traitemem de données dans un reseau informatique de communications.7. The system of claim 6, wherein the wide table database (140) is stored remotely from the data processing computer system (200) in a computer communications network. 8. Système selon la revendication 6, dans lequel lés données ingérées sont traitées pour produire un modèle statistique (270) grâce à i utdisatipn d une extraction de traitement eti langage naturel.8. The system of claim 6, wherein the ingested data is processed to produce a statistical model (270) using i utdisatipn of processing extraction and natural language. 9. Système selon la revendication 6, daris lequel les données ingérées som traitées pour produire un modèle statistique (270) en utilisant l’étiquetage d’entités.9. The system of claim 6, wherein the ingested data is processed to produce a statistical model (270) using the labeling of entities. 10. Système selon la revendication 6, dans lequel le* dorcets ingérées sont traitées pour produire un modèle statistique (270) grâce à l’utilisation de l’apprentissage automatique.10. The system of claim 6, wherein the * ingested pigs are processed to produce a statistical model (270) through the use of machine learning. 1.1. Produit ue programme informatique pour une intégration évolutive de haul niveau de données structurées cl non structurées, le produit de programme informatique comprenant un support de stockage lisible par ordwteur comportant des insfeictfon® de programme, les instructions de programme pouvant être exécutées par ua dispositif pour amener le dispositif à exécuter un procédé comprenant :1.1. A computer program product for scalable integration of high level structured and unstructured data, the computer program product comprising computer readable storage medium comprising program insfeictfon®, the program instructions being able to be executed by a device to bring the device to execute a method comprising: 1 ingestion dé données non structurées et le iraîtement des données ingerces pour produire un modèle statistique (270) stocké sous la feme de termes extraits qm sont ensuite mis en comspondance avec des triplets de structure de description de ressources (RDF) (l 10) dans la mémoire < ? 10) dW système imormatique (200) de traitement de données ;1 ingestion of unstructured data and processing of the ingested data to produce a statistical model (270) stored under the feme of extracted terms qm are then put into comspondance with triples of structure of description of resources (RDF) (l 10) in memory <? 10) dW imormatic data processing system (200); l’app-icanon d’une analyse sémxwttque par un processeur (220) du système informatique de traitement de données â un ensemble de données structurées dans une base de données pour produire un modèle logique stocké sous h forme d'une collection de triplets dans la mémoire du système informatique de traitement de données ;Applying a semantic analysis by a processor (220) of the data processing computer system to a set of structured data in a database to produce a logic model stored as a collection of triples in the memory of the data processing computer system; l’application par le processeur du système informatique de traitement de données d’un ou de plusieurs raisoimcurs au modèle sémantique et au modèle statistique afin de générer une base de données â tablé large (140) constituée dtene multiplicité de rangées et de entonnes, chaque rangée stockant un triplet correspondant, au moins un des raisonneurs convertissant les triplets RDF du modèle sémantique en uptets associés en ajoutant une nouvelle colonne a h base de données à table large en réponse à la détection d’un nouvel attribut pour un sujet déjà présent dans une des rangées de la base de données à table large, de seule que le nouvel attribut est stocké dans la nouvelle colonne dans une nouvelle rangée créée pour le sujet déjà présent ; et, le traitement de requêtes par te processeur du système informatique de traitement de données en regard de la base de données à table large tel les que reçues dans une interface utilisateur vers la base de données à table large.the application by the processor of the data processing computer system of one or more reasons to the semantic model and to the statistical model in order to generate a wide-table database (140) consisting of multiplicity of rows and entonnes, each row storing a corresponding triplet, at least one of the reasoners converting the RDF triplets of the semantic model into associated uptets by adding a new wide table database ah column in response to the detection of a new attribute for a subject already present in a rows of the wide table database, only that the new attribute is stored in the new column in a new row created for the subject already present; and, processing requests by the processor of the data processing computer system facing the wide table database as received in a user interface to the wide table database. 1 i. Produit de programme informatique selon la revendication 11, dans lequel la base de données à table large (140) est stockée à distance du système de traitement (200) de données d’ordinateur sur un réseau informatique de communications,1 i. Computer program product according to claim 11, in which the wide table database (140) is stored remotely from the computer data processing system (200) on a computer communications network, 13:. Produit de programme informatique selon la revendication 1 î 5 dans lequel les données ingérées sont imitées pour produire te modèle statistique (270) par l'utilisation d'une extraction de teitemern en langage naturel.13 :. The computer program product of claim 1 to 5 wherein the ingested data is imitated to produce the statistical model (270) by the use of natural language teitemern extraction. 14. Produit de programme informatique scion ta revendication 11. ans lequel les données ingérées sont traitées pour produire un modèle statistique 1.270) eu utilisant l’étiquetage d'entités.14. A computer program product as claimed in claim 11. In which the ingested data is processed to produce a statistical model 1,270) using entity labeling. 15, Produit de programme informatique séton la revendication 11, d ans lequel les données ingérées sont traitées peur produire un modèle statistique C/./0) grace à i'telisatfon de l’apprentissage automatique.15. A computer program product as claimed in claim 11, in which the ingested data is processed in order to produce a statistical model C /./ 0) thanks to the learning of machine learning.
FR1855489A 2018-06-21 2018-06-21 SCALING, MODELING AND REASONING ON COMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS Active FR3082966B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
FR1855489A FR3082966B1 (en) 2018-06-21 2018-06-21 SCALING, MODELING AND REASONING ON COMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1855489 2018-06-21
FR1855489A FR3082966B1 (en) 2018-06-21 2018-06-21 SCALING, MODELING AND REASONING ON COMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS

Publications (2)

Publication Number Publication Date
FR3082966A1 true FR3082966A1 (en) 2019-12-27
FR3082966B1 FR3082966B1 (en) 2020-06-19

Family

ID=65031274

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1855489A Active FR3082966B1 (en) 2018-06-21 2018-06-21 SCALING, MODELING AND REASONING ON COMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS

Country Status (1)

Country Link
FR (1) FR3082966B1 (en)

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
DAVID C?LESTIN FAYE ET AL: "A survey of RDF storage approaches", REVUE AFRICAINE DE LA RECHERCHE EN INFORMATIQUE ET MATH?MATIQUES APPLIQU?ES, 1 January 2012 (2012-01-01), pages 11 - 35, XP055104869, Retrieved from the Internet <URL:http://hal-univ-mlv.archives-ouvertes.fr/hal-00665982> *
HEIKO PAULHEIM: "Knowledge graph refinement: A survey of approaches and evaluation methods", SEMANTIC WEB, vol. 8, no. 3, 6 December 2016 (2016-12-06), pages 489 - 508, XP055546832, ISSN: 1570-0844, DOI: 10.3233/SW-160218 *
KATE BYRNE: "Populating the Semantic Web?Combining Text and Relational Databases as RDF Graphs", THESIS UNIVERSITY OF EDINB,, 1 January 2009 (2009-01-01), pages i - xi, XP007918884 *
YAN JIA ET AL: "A Practical Approach to Constructing a Knowledge Graph for Cybersecurity", ENGINEERING, vol. 4, no. 1, 1 February 2018 (2018-02-01), pages 53 - 60, XP055575578, ISSN: 2095-8099, DOI: 10.1016/j.eng.2018.01.004 *

Also Published As

Publication number Publication date
FR3082966B1 (en) 2020-06-19

Similar Documents

Publication Publication Date Title
US10963513B2 (en) Data system and method
US20220261413A1 (en) Using specified performance attributes to configure machine learning pipepline stages for an etl job
Evans et al. A holistic view of the knowledge life cycle: the knowledge management cycle (KMC) model
US20190251284A1 (en) Efficient data query and utilization through a semantic storage model
JP2024095708A (en) Clustering and dynamic re-clustering of similar textual documents
FR2824160A1 (en) DYNAMICALLY CONFIGURABLE GENERIC CONTAINER
WO2018096126A1 (en) Method of extracting data from a database watermarked according to a reversible watermarking mechanism
JP6735089B2 (en) Computer-implemented system and method for providing contextual media tagging for selective media publishing
US20160179901A1 (en) Computer-Implemented System And Method For Providing Selective Contextual Exposure Within Social Network Situations
US9607012B2 (en) Interactive graphical document insight element
Wrembel Data integration, cleaning, and deduplication: Research versus industrial projects
FR3026871A1 (en) TRANSFER BASED ON WELL SITE DATA IMAGES BETWEEN DEVICES IN A PETROLEUM FIELD
FR3082966A1 (en) SCALING, MODELING AND REASONING ON COMPLEX TYPES OF DATA FOR HIGH-LEVEL ANALYSIS APPLICATIONS
Lapp et al. Organizing our knowledge of biodiversity
EP1895410A1 (en) Method and system for extraction of a data table from a database and corresponding computer program product
EP1727060A1 (en) Procedure and device for construction and use of a table of reduced paragon profiles, corresponding computer program product
FR2923307A1 (en) METHOD FOR ORGANIZING MULTIMEDIA DATA
EP3506566A1 (en) Method and device for remote monitoring of multiple connected objects
FR3048101A1 (en) METHOD AND DEVICE FOR EVALUATING THE ROBUSTNESS OF AN ANONYMOUSING OF A SET OF DATA
CN106874407B (en) Agricultural residue data fusion processing method and system based on concept hierarchical tree
EP2074531A1 (en) Information processing method
CN111339301B (en) Label determining method, label determining device, electronic equipment and computer readable storage medium
EP3114597B1 (en) Method for analysing a plurality of messages, and associated computer programme product and device
EP3343410A1 (en) System for large scale handling of data streams
US20160162572A1 (en) Alerting system based on newly disambiguated features

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 2

PLSC Publication of the preliminary search report

Effective date: 20191227

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6