BE1027433A9

BE1027433A9 - Werkwijze voor het extraheren van informatie uit semi-gestructureerde documenten, een bijbehorend systeem en een verwerkingsinrichting

Info

Publication number: BE1027433A9
Application number: BE20195470A
Authority: BE
Inventors: Jež Pavel; Feu Georges De
Original assignee: Lynxcare Clinical Informatics
Priority date: 2019-07-18
Filing date: 2019-07-18
Publication date: 2021-02-25
Also published as: BE1027433B9; BE1027433B1; WO2021009375A1; BE1027433A1

Abstract

De uitvinding heeft betrekking op werkwijze voor clusteren van elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op basis van meta-informatie van genoemde semi-gestructureerde documenten in een cluster van veelheid van clusters, het detecteren van segmenten in het semi-gestructureerde document voor elke cluster van genoemde veelheid van clusters door middel van classificatiemethoden en het detecteren van segmentkenmerken van elk segment, door het analyseren van een tekstuele inhoud van elk segment, waarbij genoemde segmentkenmerken een veelheid van mogelijke sets van benoemde entiteiten met bijbehorend betrouwbaarheidsniveau omvatten; en het matchen van segmenten van elk van de documenten in elke cluster op basis van genoemde segmentkenmerken van elk bepaald segment en een waarschijnlijkheidsverdeling van genoemde benoemde entiteiten wordt uitgevoerd door het bepalen van de betekenis van elke genoemde segmentgroep omvattende vergelijkbare segmenten op basis van NLP van genoemde inhoud van elk van genoemde segmenten; en toewijzen van een segmentidentificatie aan elk segment.

Description

Werkwijze voor het extraheren van informatie uit semi- gestructureerde documenten, een bijbehorend systeem en een verwerkingsinrichting Technisch gebied De onderhavige uitvinding heeft betrekking op een werkwijze voor het extraheren van informatie uit semi-gestructureerde documenten.

Achtergrondtechniek Momenteel, wordt veel informatie uitgewisseld in een vorm van semi-gestructureerde tekst.

Dit is met name het geval in het medische domein waar veel systemen berichten uitvoeren in HL7- of XML-formaten met verschillende definities.

Er zijn echter veel definities voor elk van die formaten.

Bovendien, voegen veel instellingen hun eigen definities toe bovenop het standaardformaat om aan hun behoeften te voldoen.

Dit maakt gegevensuitwisseling complex en beperkt de interoperabiliteit tussen verschillende, bijvoorbeeld medische, instellingen.

Om deze moeilijkheden te overwinnen, kunnen aangepaste interfaces worden ontwikkeld om berichten van een bepaalde producent te consumeren.

Een dergelijke benadering is echter niet schaalbaar, omdat het toevoegen van een nieuwe berichtenbron leidt tot een update van de configuratie aan de ontvangerzijde, wat vaak enige ontwikkeling en/of handmatige interventie vereist.

De systemen en werkwijzen voor het extraheren van informatie uit semi-gestructureerde documenten die momenteel bekend zijn, hebben echter het nadeel dat dergelijke systemen nog altijd complexe gegevens verwerken en beperkte interoperabiliteit ervaren tussen verschillende, bijvoorbeeld medische, instellingen.

Openbaring van de uitvinding

Het is een doel van de onderhavige uitvinding om een werkwijze te verschaffen voor het extraheren van informatie uit semi-gestructureerde documenten, een bijbehorend systeem en bijbehorende verwerkingsinrichting die deze genoemde problemen verhelpen of verminderen.

Dienovereenkomstig, hebben uitvoeringsvormen van de onderhavige uitvinding betrekking op een werkwijze voor het extraheren van informatie uit semi-gestructureerde documenten, waarbij genoemde werkwijze de stappen omvat van: -het ophalen van een veelheid van semi-gestructureerde documenten uit ten minste één semi-gestructureerde documentbron, gekenmerkt doordat, genoemde werkwijze verder de stappen omvat van: - het clusteren, door een niet-gesuperviseerd leeralgoritme of semi- gesuperviseerd leeralgoriime, van elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten is gebaseerd op ten minste één van meta-informatie, inhoud en lay-out van elk genoemd semi- gestructureerd document in een cluster van een veelheid van clusters; en - het detecteren van segmenten in semi-gestructureerd document voor elke cluster van genoemde veelheid van clusters door middel van een niet- gesuperviseerde classificatiemethode of semi-gesuperviseerde classificatiemethode en -het detecteren van segmentkenmerken van elk segment, met behulp van Natural Language Processing (NLP), door het analyseren van een tekstuele inhoud van elk genoemd segment, waarbij genoemde segmentkenmerken een veelheid van mogelijke sets van entiteitstypen omvatten, waarbij elke set een bepaald betrouwbaarheidsniveau heeft; en - het matchen van segmenten van elk van de documenten in elke cluster op basis van genoemde segmentkenmerken van elk bepaald segment en een waarschijnlijkheidsverdeling van genoemde benoemde entiteiten; en - het bepalen van de betekenis van elke genoemde segmentgroep omvattende soortgelijke segmenten op basis van een Natural language

Processing van genoemde inhoud van elk segment in genoemde segmentgroep; en -het toewijzen van een segmentidentificatie aan elk segment op basis van de bepaalde conceptverdeling van elk segment.

Een andere relevante uitvoeringsvorm heeft betrekking op de werkwijze voor het extraheren van informatie uit semi-gestructureerde documenten volgens conclusie 1, gekenmerkt doordat, genoemde werkwijze verder de stap omvat van het bepalen van relaties tussen segmenten van documenten in genoemde cluster door het toepassen van Natural Language Processing.

Een andere relevante uitvoeringsvorm heeft betrekking op een werkwijze voor het extraheren van informatie uit semi-gestructureerd document volgens conclusie 1, gekenmerkt doordat, genoemde stap van het clusteren verder kan zijn gebaseerd op de grafische lay-out van een dergelijk document.

Een volgende uitvoeringsvorm van de onderhavige uitvinding heeft betrekking op een werkwijze voor het extraheren van informatie uit semi- gestructureerd document volgens conclusie 1, waarbij in genoemde stap van het detecteren van kenmerken de context wordt toegepast als invoerparameter, voor de Natural Language Processing.

Een andere relevante uitvoeringsvorm heeft betrekking op een werkwijze voor het extraheren van informatie uit semi-gestructureerd document volgens conclusie 1, gekenmerkt doordat, de stap van genoemd analyseren van een tekstuele inhoud van elk genoemd segment is gebaseerd op een geheel van algoritmen die zijn georganiseerd in verschillende lagen.

Een ander relevant object heeft betrekking op een verwerkingsinrichting, voor het extraheren van informatie uit semi-gestructureerde documenten die zijn opgehaald uit ten minste één semi-gestructureerde documentbron, welke verwerkingsinrichting een verwerkingsmiddel (3) omvat dat is geconfigureerd voor: - het clusteren, door een niet-gesuperviseerd leeralgoritme of semi- gesuperviseerd leeralgoriime, van elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op basis van ten minste één van meta-informatie, inhoud en lay-out van elk genoemd semi- gestructureerd document in een cluster van een veelheid van clusters; en - het detecteren van segmenten in semi-gestructureerd document voor elke cluster van genoemde veelheid van clusters door middel van niet- gesuperviseerde classificatiemethoden of semi-gesuperviseerde classificatiemethoden; en -het detecteren van segmentkenmerken van elk segment, met behulp van Natural Language Processing, door het analyseren van een tekstuele innoud van elk genoemd segment, waarbij genoemde segmentkenmerken een veelheid van mogelijke sets van benoemde entiteiten omvatten, waarbij elke set een bepaald betrouwbaarheidsniveau heeft; en - het matchen van segmenten van elk van de documenten in elke cluster op basis van genoemde segmentkenmerken van elk bepaald segment en een waarschijnlijkheidsverdeling van genoemde benoemde entiteiten; en - het bepalen van de betekenis van elke genoemde segmentgroep omvattende soortgelijke segmenten op basis van Natural Language Processing van genoemde inhoud van elk van genoemde segmenten in genoemde segmentgroep; en - het toewijzen van een segmentidentificatie aan elk segment op basis van de bepaalde conceptverdeling van elk segment.

Een verdere relevante uitvoeringsvorm heeft betrekking op de verwerkingsinrichting voor het extraheren van informatie uit semi-gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor: - het bepalen van relaties tussen segmenten van documenten in genoemde cluster door het toepassen van Natural language Processing.

Nog een verdere relevante uitvoeringsvorm heeft betrekking op de verwerkingsinrichting voor het extraheren van informatie uit semi-gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor:

- het baseren van genoemde cluster van elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op de grafische lay-out van een dergelijk document.

Een andere relevante uitvoeringsvorm betrekking heeft op een 5 verwerkingsinrichting voor het extraheren van informatie uit semi-gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor: -het detecteren van segmentkenmerken door bovendien een context toe te passen als een invoerparameter voor de Natural Language Processing.

Nog een andere relevante uitvoeringsvorm heeft betrekking op een verwerkingsinrichting voor het extraheren van informatie uit semi-gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor: -het analyseren van een tekstuele inhoud van elk genoemd segment op basis van het geheel van algoritmen die in verschillende lagen zijn georganiseerd.

Een andere relevante uitvoeringsvorm heeft betrekking op een systeem voor het extraheren van informatie uit semi-gestructureerde documenten, waarbij genoemd systeem middelen omvat die zijn geconfigureerd voor: het ophalen van een veelheid van semi-gestructureerde documenten uit ten minste één semi-gestructureerde documentbron, gekenmerkt doordat, genoemd systeem verder een verwerkingsinrichting volgens conclusie 6 omvat. Dit doel wordt immers bereikt door, bij het ophalen van een veelheid van semi-gestructureerde documenten uit ten minste één semi-gestructureerde documentbron, het clusteren van elk semi-gestructureerd document van de veelheid van semi-gestructureerde documenten door middel van een niet- gesuperviseerd of semi-gesuperviseerd leeralgoritme en vervolgens het opnemen van elk opgehaald semi-gestructureerd document van een veelheid van semi- gestructureerde documenten in een cluster (groep documenten) op basis van ten minste één van meta-informatie, inhoud en lay-out van elk semi-gestructureerd document en vervolgens het detecteren van segmenten in elk semi- gestructureerd document in elke cluster van de veelheid van clusters door middel van niet-gesuperviseerde clustermethoden zoals k-gemiddelden clustering of hiërarchische clustering.

Het is ook mogelijk om semi-gesuperviseerde clustermethoden te gebruiken waarbij verschillende voorbeelddocumenten, waarbij domeinexperts het type hebben aangegeven, worden gebruikt om een model te trainen dat documenten in clusters indeelt.

Elk gesuperviseerd classificatiealgoritme (random forest, support vector machines, neuraal netwerk om er maar een paar te noemen) kan worden gebruikt als een uitgangsbasis voor een continu, semi-gesuperviseerd leerproces.

De steekproef van de resultaten wordt vervolgens gecontroleerd en indien nodig gecorrigeerd door domeinexperts om de modelprestatie te verbeteren.

De kenmerken die door het clusteralgoritme zullen worden gebruikt, omvatten niet alleen de documenttekst, maar ook de lay-out.

De positie van een tekst in een document kan een bepaald type document aanduiden (bijv. laboratoriumresultaten met veel tabellen verschillen visueel van klinische brieven met een doorlopende tekst). Ten slotte, is het mogelijk om het type document te detecteren op basis van een frequentie van bepaalde sleutelwoorden.

Er kan bijvoorbeeld een term frequency-inverse document frequency (Rajaraman & Ullman, 2011) worden gebruikt om de relevantie (overeenkomst) van het document met een bepaalde documentcluster te controleren, die kan worden gedefinieerd door één of meer trefwoorden.

Vervolgens, worden segmentkenmerken gedetecteerd voor elk gedetecteerd segment van alle documenten in een cluster, door het analyseren van een tekstuele inhoud van elk genoemd gedetecteerd segment, waarbij de segmentkenmerken een veelheid van mogelijke sets van benoemde entiteiten omvatten en waarbij elke set een bepaald betrouwbaarheidsniveau heeft.

Deze stap van het detecteren van segmentkenmerken wordt gevolgd door de stap van het matchen van segmenten van elk van de documenten in elke cluster op basis van de segmentkenmerken van elk segment die worden bepaald en een waarschijnlijkheidsverdeling van genoemde benoemde entiteiten; Dit matchen is bedoeld om segmenten van hetzelfde type over verschillende documenten te groeperen.

De segmenten met een beschrijving van de operatie in de operatierapporten kunnen bijvoorbeeld worden gegroepeerd op basis van overeenkomst tussen concepten die ze bevatten. Deze overeenkomst kan worden gemeten door het vergelijken van zogenaamde segmentvectoren die worden berekend als een superpositie van de termvectoren die zijn verkregen door middel van een algoritme voor het bepalen van medische tekstovereenkomst, zoals het UMLS2vec-algoritme.

Verder, wordt een betekenis bepaald voor elke segmentgroep die vergelijkbare segmenten omvat, waarbij deze betekenis wordt geëxtraheerd door middel van een natuurlijke taalverwerking (Natural language Processing) van de inhoud van elk van de segmenten in de bepaalde segmentgroep. De betekenis van elk segment wordt gecondenseerd in de segmentvector (superpositie van alle conceptvectoren) die numerieke weergave (verschaft door UMLS2Vec-algoritme) bevat van alle concepten die zijn gedetecteerd door het NLP-algoritme. Door het vergelijken van deze vector met de vector die is toegewezen aan de segmenten die zijn geïdentificeerd door domeinexperts, is het bijgevolg mogelijk om er een identificatielabel aan toe te wijzen (bijvoorbeeld het adres van de instelling of de medische geschiedenis van de patiënt). Door vervolgens een segmentidentificatie, zoals een label, aan elk segment toe te wijzen op basis van de bepaalde conceptverdeling van elk segment, worden alle segmenten van de documenten in een bepaalde cluster geïdentificeerd en gelabeld en krijgen ze bijgevolg een structuur toegewezen die kenbaar en herkenbaar is.

Opgemerkt moet worden dat een semi-gestructureerd document operatierapporten, klinische brieven, laboratoriumresultaten of elk ander document in het elektronische gezondheidsdossier van de patiënt kan bevatten, maar ook berichten zoals een communicatie tussen het ziekenhuis en een patiënt in de vorm van tweets, opmerkingen of bijdragen op sociale media, sms of transcripties van telefoongesprekken die worden bijgehouden door middel van privéopslagcapaciteiten, zoals een SQL-, nSQL- of Hadoop-databank die kunnen worden gehost op locatie of in een extern rekencentrum voor elk van de respectieve ziekenhuizen.

Opgemerkt moet worden dat een dergelijke clustering van de semi- gestructureerde documenten van genoemde veelheid van semi-gestructureerde documenten gebaseerd kan zijn op ten minste één van meta-informatie, inhoud en lay-out van elk genoemd semi-gestructureerd document waar dergelijke meta- informatie kan bevatten een documentbestandstype, een documentnaam, documentdatum en verdere metagegevens zoals (grootte, opsteller, en locatie, enz.), de titel van het document, het aantal paragrafen of secties en/of de woordfrequentie.

Dergelijk nietgesuperviseerd leeralgoritme kan worden geïmplementeerd door middel van de niet-gesuperviseerde methoden zoals k- gemiddelden clustering of hiërarchische clustering. Het is ook mogelijk om semi- gesuperviseerde methoden te gebruiken waarbij verschillende voorbeelddocumenten waarbij domeinexperts het type hebben aangegeven, worden gebruikt om een model te trainen dat documenten in clusters indeelt. Elk gesuperviseerd classificatiealgoritme (random forest, support vector machines, neuraal netwerk om er maar een paar te noemen) kan worden gebruikt als een uitgangsbasis voor een continu, semi-gesuperviseerd leerproces. De steekproef van de resultaten wordt vervolgens gecontroleerd en indien nodig gecorrigeerd door domeinexperts om de modelprestatie te verbeteren.

Een segment van een dergelijk document kan bijvoorbeeld een paragraaf, een tabel, een documentregel in HL7 zijn, of een element in XML of JSON of een rij in een formulier, een tweet uit vele met dezelfde gebruiker of hashtag of een opmerking op een sociaal netwerk, of een sectie in een artikel of een andere logisch gescheiden teksteenheid van welke oorsprong dan ook.

De segmentkenmerkdetectie is de stap van het detecteren van segmentkenmerken in elk genoemd segment door het analyseren van een tekstuele inhoud van elk genoemd segment waarbij de stap resulteert in het extraheren van benoemde entiteiten. Dergelijke benoemde entiteiten zijn de interessante entiteiten in de tekst die relevante items/onderwerpen in een segment van een document aangeven. Andere segmentkenmerken kunnen bijvoorbeeld de titel, een XML- of HL7-tag, vorige en volgende segmenten en/of de lengte en positie van het segment zijn.

Het analyseren van de tekstuele inhoud van elk genoemd segment wordt uitgevoerd met behulp van een NLP-algoritme zoals sequentietagging die interessante concepten in zinnen en/of segmenten detecteert en hieraan een label toewijst dat het type aangeeft. De algoritmen voor sequentietagging omvatten, maar zijn niet beperkt tot, voorwaardelijke willekeurige velden, lange- /kortetermijngeheugen of een ander recurrent neuraal netwerk, verschillende Markov-modellen of multinomiale logistieke classificaties of een combinatie daarvan.

Een verdere relevante uitvoeringsvorm heeft betrekking op de werkwijze voor het extraheren van informatie uit semi-gestructureerde documenten volgens conclusie 1, waarbij de werkwijze verder de stap omvat van het bepalen van relaties tussen segmenten van documenten in genoemde cluster door toepassing van NLP. Met andere woorden, de werkwijze van de onderhavige uitvoeringsvorm bepaalt relaties tussen segmenten die relaties zijn tussen niet- vergelijkbare segmenten, welke bepaling van relaties wordt uitgevoerd door het uitvoeren van een verdere natuurlijke taalverwerking (Natural language Processing). Door middel van de bepaling tussen segmenten die niet- vergelijkbare segmenten zijn, is het mogelijk om de identificatie van segmenten te verbeteren. Niet-vergelijkbare segmenten kunnen gerelateerd zijn door bijvoorbeeld aanwezig te zijn in hetzelfde document of door gerelateerd te zijn aan dezelfde patiënt. Bepaalde categorieën documenten (bijv. operatierapport) bevatten bepaalde segmenten, bijv. diagnose voorafgaand aan de operatie, operatiebeschrijving, enz. Als een bepaald segment niet uniek kan worden geïdentificeerd, is het mogelijk om de mogelijkheden te beperken door het uitsluiten van dergelijke segmentlabels die al in een bepaald document aanwezig waren.

Een andere relevante uitvoeringsvorm heeft betrekking op een werkwijze voor het extraheren van informatie uit semi-gestructureerde berichten/document volgens conclusie 1, waarbij genoemde stap van het clusteren verder kan zijn gebaseerd op de grafische lay-out van een dergelijk document.

De bepaling van de cluster van een ontvangen semi-gestructureerd document kan worden geoptimaliseerd door, naast het gebruik van de inhoud van het document, het toepassen van de resultaten van een analyse van de grafische lay-out van een document met als resultaat aanvullende informatie voor het besluiten tot welke cluster een document behoort.

Een volgende uitvoeringsvorm van de onderhavige uitvinding heeft betrekking op een werkwijze voor het extraheren van informatie uit semi- gestructureerde documenten volgens conclusie 1, met de stap van het detecteren van kenmerken waarbij de context wordt toegepast als invoerparameter, voor het NLP-algoritme.

Immers, als de context van een document al bekend is, kan deze context worden toegepast in de stap van het detecteren van segmentkenmerken met behulp van deze context als invoerparameter voor de NLP- algoritmeparameter, zodat de besluitvorming kan worden verbeterd en bijgevolg de betrouwbaarheidsniveaus toenemen.

Een verdere relevante uitvoeringsvorm heeft betrekking op een werkwijze voor het extraheren van informatie uit semi-gestructureerd document volgens conclusie 1, gekenmerkt doordat, de stap van genoemd analyseren van een tekstuele inhoud van elk genoemd segment is gebaseerd op een geheel van algoritmen die zijn georganiseerd in verschillende lagen. Dit betekent dat de bovenste lagen de kennis en uitvoer van de algoritmen van de onderste lagen gebruiken. De onderste laag kan een algemeen, maar toch taalspecifiek NER- algoritme (Named Entity Algorithm) zijn dat items zoals personen, getallen, datums, adressen, geografische locatie, enz. kan herkennen. De volgende laag kan algemene medische kennis bevatten, zodat het entiteiten kan extraheren zoals arts, patiënt, medicatie, enz. Transfer learning van de onderste laag maakt training van deze laag gemakkelijker - als de laag bijvoorbeeld een arts wil extraheren, hoeft deze niet te leren om een persoon te extraheren, omdat dit al wordt gedaan door de onderliggende laag. De laag is daarentegen gespecialiseerd in het onderscheiden of deze persoon een arts of patiënt is.

Boven de generieke medische laag kan een laag liggen die specifiek is voor een bepaalde afdeling/bepaald medisch veld, bijvoorbeeld orthopedie, neonatologie, enz. Deze laag is getraind om termen specifiek voor de betreffende afdeling te extraheren. Een knieprothese wordt bijvoorbeeld gelabeld als ‘door de mens gemaakt object door de algemene laag, ‘medisch hulpmiddel’ door de generieke medische laag en als een ‘knieprothese’ door de orthopedische laag. Andere lagen zijn optioneel en gebruikersspecifiek. Hun taak is om iets te detecteren dat specifiek is voor een bepaalde afdeling en niet in het algemeen wordt gebruikt. Doorgaans kan het een klinische studie zijn wanneer een klant toegang wil tot een effect van een nieuw geneesmiddel dat/nieuwe behandeling die nog geen deel uitmaakt van de algemene methodologie van het veld.

Korte beschrijving van de tekeningen De uitvinding zal nader worden toegelicht aan de hand van de volgende beschrijving en de bijgevoegde figuren.

Figuur 1 geeft een systeem weer voor het extraheren van informatie uit semi-gestructureerde documenten.

Figuur2 geeft een meer gedetailleerd systeem weer voor het extraheren van informatie uit semi-gestructureerde documenten.

Wijzen voor het uitvoeren van de uitvinding De onderhavige uitvinding zal worden beschreven met betrekking tot specifieke uitvoeringsvormen en met verwijzing naar bepaalde tekeningen. De uitvinding is evenwel niet daartoe beperkt, en wordt alleen beperkt door de conclusies. De beschreven tekeningen zijn slechts schematisch en niet beperkend. Op de tekeningen kan voor illustratieve doeleinden de grootte van sommige elementen overdreven zijn en niet op schaal zijn getekend. De afmetingen en de relatieve afmetingen komen niet noodzakelijkerwijs overeen met werkelijke verminderingen om de uitvinding in praktijk te brengen.

Verder worden de termen eerste, tweede, derde en dergelijke in de beschrijving en in de conclusies gebruikt om onderscheid te maken tussen vergelijkbare elementen en niet noodzakelijkerwijs voor het beschrijven van een opeenvolgende of chronologische volgorde. De termen zijn uitwisselbaar onder geschikte omstandigheden en de uitvoeringsvormen van de uitvinding kunnen in andere sequenties werken dan hierin beschreven of geïllustreerd.

Bovendien worden de termen bovenaan, onderaan, boven, onder en dergelijke in de beschrijving en in de conclusies gebruikt voor beschrijvende doeleinden en niet noodzakelijkerwijs voor het beschrijven van relatieve posities. De aldus gebruikte termen zijn uitwisselbaar onder geschikte omstandigheden en de hierin beschreven uitvoeringsvormen van de uitvinding kunnen in andere oriëntaties werken dan hierin beschreven of geïllustreerd.

De term ‘omvattende’, die wordt gebruikt in de conclusies, mag niet worden geïnterpreteerd als zijnde beperkt tot de hierna vermelde middelen; het sluit andere elementen of stappen niet uit. Deze moet worden geïnterpreteerd als een specificatie van de aanwezigheid van de vermelde kenmerken, gehele getallen, stappen of componenten waarnaar wordt verwezen, maar sluit de aanwezigheid of toevoeging van één of meer andere kenmerken, gehele getallen, stappen of componenten of groepen daarvan niet uit. Het toepassingsgebied van de uitdrukking ‘een inrichting omvattende middelen A en B’ moet dus niet worden beperkt tot inrichtingen die alleen uit componenten A en B bestaan. Het betekent dat met betrekking tot de onderhavige uitvinding de enige relevante componenten van de inrichting A en B zijn.

In de volgende paragrafen wordt, onder verwijzing naar de tekening op FIG. 1, een implementatie van het systeem voor het analyseren/extraheren van informatie uit semi-gestructureerde documenten volgens een uitvoeringsvorm van de onderhavige uitvinding beschreven. In een volgende paragraaf worden alle verbindingen tussen genoemde elementen gedefinieerd. Vervolgens worden alle relevante functionele middelen van het systeem voor het extraheren van informatie uit semi-gestructureerde documenten zoals gepresenteerd op FIG. 1 beschreven, gevolgd door een beschrijving van alle onderlinge verbindingen.

In de volgende paragraaf wordt de feitelijke uitvoering van het extraheren van informatie uit semi-gestructureerde documenten volgens een uitvoeringsvorm van de onderhavige uitvinding onder gebruikmaking van het systeem beschreven.

Een eerste essentieel element van het systeem1 is een documentontvangstmiddel 2 dat is geconfigureerd voor het ophalen van een veelheid van semi-gestructureerde documenten uit ten minste één semi- gestructureerd bericht of documentbron, waarbij elke dergelijke bron 8,9,10 een respectieve databank van een eerste, tweede en derde instelling zoals een ziekenhuis kan zijn.

Een tweede essentieel element is het verwerkingsmiddel 3 dat eerst is geconfigureerd voor het clusteren, door het uitvoeren van een niet- gesuperviseerd leeralgoritme of semi-gesuperviseerd leeralgoritme, van elk semi- gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op basis van ten minste één van meta- informatie, inhoud en lay-out van elk genoemd semi-gestructureerd document in een cluster van een veelheid van clusters; en - geconfigureerd voor het detecteren van segmenten in (elk) semi- gestructureerd document in/van elke cluster van genoemde veelheid van clusters door middel van niet-gesuperviseerde classificatiealgoritmen, zoals hiërarchische of k-gemiddelden clustering, of semi-gesuperviseerde classificatiealgoritmen waarmee menselijke feedback de prestaties van gesuperviseerde classificaties kan verbeteren; en - geconfigureerd voor het detecteren van segmentkenmerken van elk segment, gebruikmakend van NLP, door het analyseren van een tekstuele inhoud van elk genoemd segment, waarbij genoemde segmentkenmerken een veelheid van mogelijke sets van benoemde entiteiten omvatten, waarbij elke set een bepaald betrouwbaarheidsniveau heeft; en

- geconfigureerd voor het matchen van segmenten van elk van de documenten in elke cluster op basis van genoemde segmentkenmerken van elk bepaald segment en een waarschijnlijkheidsverdeling van genoemde benoemde entiteiten. Het matchen is het groeperen van segmenten van hetzelfde type over verschillende documenten.

Het verwerkingsmiddel 3 is verder geconfigureerd voor het bepalen van de betekenis van elke genoemde segmentgroep omvattende vergelijkbare segmenten op basis van een Natural language Processing van genoemde inhoud van elk genoemd segment in genoemde segmentgroep en bovendien voor het toewijzen van een segmentidentificatie aan elk segment op basis van de bepaalde conceptverdeling in genoemd segment. De betekenis van het segment wordt gecondenseerd in de segmentvector die numerieke weergave bevat van alle concepten die door het NLP-algoritme zijn gedetecteerd. Door het vergelijken van deze vector met de vector die is toegewezen aan de segmenten die zijn geïdentificeerd door domeinexperts, is het bijgevolg mogelijk om er een identificatielabel aan toe te wijzen (bijvoorbeeld het adres van de instelling of de medische geschiedenis van de patiënt).

Een verder essentieel middel is een opslagmiddel dat kan bestaan uit een enkele databank of een veelheid van lokale of gedistribueerde databanken 4, 5,6 en 7 zoals getoond op FIG.1, waar alle documentclusters worden opgeslagen, in combinatie met of gescheiden van alle resultaten van de verwerkingsstappen van het verwerkingsmiddel 3.

Er wordt aangenomen dat het aantal instellingen, bijv. eerste ziekenhuis 8, tweede ziekenhuis 9 en derde ziekenhuis 10 een veelheid van semi- gestructureerde documenten doorstuurt, zoals patiëntrapporten, klinische brieven, laboratoriumresultaten, maar mogelijk ook een communicatie tussen het ziekenhuis en een patiënt in de vorm van tweets, reacties op sociale media of bijdragen, sms of transcripties van telefoongesprekken die worden bijgehouden door middel van privéopslagcapaciteiten, zoals een SQL-, nSQL- of Hadoop- databank die kan worden gehost op locatie of in een extern rekencentrum voor elk van de respectieve ziekenhuizen.

De veelheid van semi-gestructureerde documenten wordt ontvangen door het ontvangstmiddel en ingevoerd in het verwerkingsmiddel 3 dat op zijn beurt de clustering van elk ontvangen semi-gestructureerd document initieert, door een ontvangen semi-gestructureerd document eerst te onderwerpen aan de uitvoering van een niet-gesuperviseerd leeralgoritme zoals k-gemiddelden of hiërarchische clustering. In een andere uitvoeringsvorm is het mogelijk om elke gesuperviseerde classificatie met een expertfeedback te gebruiken als een semi- gesuperviseerd leeralgoritme.

Elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op basis van ten minste één van meta- informatie, inhoud en lay-out van elk genoemd semi-gestructureerd document in een cluster van een veelheid van clusters wordt toegewezen aan een bepaalde cluster en wordt als zodanig opgeslagen in een respectieve databank. We gaan ervan uit dat cluster 1 is toegewezen, het document is opgeslagen in de eerste databank 5.

Deze clustering gebeurt automatisch, met behulp van één of meer algoritmen voor zogenaamd niet-gesuperviseerd leren. De documentkenmerken, dat wil zeggen de meta-informatie, die kan worden gebruikt om te bepalen tot welke cluster een document behoort kunnen bevatten het documentbestandstype, de documentnaam, de documentdatum en andere metagegevens van het computerbestand (grootte, opsteller, locatie …), maar ook de inhoudgerelateerde kenmerken zoals de titel van het document, het aantal paragrafen of secties of de woordfrequentie.

Aanvullende informatie voor de documentclassificatie, dat wil zeggen de clustering, kan de lay-out van het semi-gestructureerde document zijn, omdat een brief bijvoorbeeld een andere lay-out heeft dan het operatierapport of de laboratoriumresultaten. Een dergelijk document kan worden omgezet in een zwart-witafbeelding die zwart is in de gebieden waar er tekst is en wit in het andere geval. Daarom kan een extra niet-gesuperviseerd leeralgoritme worden gebruikt om de documentset in verschillende clusters in te delen. Dit kan worden gedaan door de afbeeldingen direct te vectoriseren (door 1 of 0 toe te wijzen aan elke pixel afhankelijk van of deze zwart of wit is) of door een autoencoder neural net of een ander algoritme voor machinaal leren dat de relevante latente kenmerken extraheert uit de afbeelding die overeenkomt met het document en een vector met een andere lengte dan het aantal pixels in de afbeelding aan het document toewijst. De resulterende kenmerkvectoren kunnen worden gegroepeerd met behulp van hiërarchische of k-gemiddelden clustering of andere niet-gesuperviseerde clustermethoden.

De uitvoer van de clustering op basis van de inhoud en op basis van grafische lay-out wordt vervolgens gecombineerd om een betrouwbaarder en robuuster resultaat te verschaffen.

In sommige gevallen is het type document bekend -in dit geval wordt de categorie van het document gebruikt om de gesuperviseerde classificaties te trainen om een onderscheid te kunnen maken tussen verschillende soorten documenten op basis van hun inhoud en lay-out.

De scheidingsregels tussen verschillende documenttypen die door dit clusteralgoritme zijn geleerd, worden opgeslagen en opnieuw gebruikt wanneer een nieuwe batch documenten uit dezelfde context toekomt.

Wanneer een batch nieuwe documenten uit een nieuwe context toekomt (bijv. tot nu toe heeft het algoritme alleen cardiologiedocumenten gezien en nu ontvangt het oncologierapporten), gebruikt het reeds aangeleerde regels als een uitgangspositie en controleert het of de document-set consistent kan worden gescheiden in clusters. Het is duidelijk dat de verwerking voor het bepalen van de clustering zichzelf een beetje moet aanpassen, maar deze fase van niet- gesuperviseerde aanpassing is veel eenvoudiger dan voorheen toen er geen context bekend was, omdat het algoritme nu alleen het verschil tussen de twee medische contexten moet leren en niet helemaal opnieuw hoeft te beginnen. In de praktijk clustert het algoritme het document op basis van de regels die het heeft geleerd van het vorige concept. Pas daarna begint de volgende fase van niet- gesuperviseerd leren. Het voordeel is dat het leren hier al begint met redelijk goed bepaalde clusters, terwijl voor de eerste context (contexten) het algoritme begon met willekeurige clustertoewijzing en vervolgens iteratief de beste verdeling probeerde te vinden voor documentclusters zodat documenten met vergelijkbare kenmerken in dezelfde cluster zitten.

Na de stap van het clusteren van de ontvangen semi- gestructureerde documenten verwerkt het verwerkingsmiddel elk semi- gestructureerde document voor elke cluster voor het detecteren van segmenten.

Deze verwerking omvat detectie van segmenten in elke cluster.

Een segment kan in dit geval bijvoorbeeld een paragraaf, een tabel, een berichtenregel in HL7 of een element in de XML of JSON zijn.

In deze fase kunnen we ook profiteren van het gebruik van de grafische lay-outanalyse zoals die al in clustering werd gebruikt, omdat de stukken tekst die een enkele cluster vormen, vaak ook visueel met elkaar zijn verbonden in het document.

Dit gebruik van grafische lay-out leidt tot een betrouwbaarder en robuuster resultaat bij het detecteren van segmenten.

De segmentdetectie is analoog aan de clusterdetectie - in het laatste geval werd de set van alle documenten ingedeeld in verschillende groepen die iets gemeen hebben.

In het geval van segmentdetectie wordt de set van alle lexicale tokens (tekenreeksen met een toegewezen en dus geïdentificeerde betekenis) binnen een document ingedeeld in verschillende groepen die iets gemeen hebben - een sectie, regel in het formulier, enz.

De segmenten worden gedetecteerd met behulp van niet- gesuperviseerde methoden, zoals k-gemiddelden clustering of hiërarchische clustering.

Het is ook mogelijk om semi-gesuperviseerde methoden te gebruiken waarbij verschillende _voorbeelddocumenten, waarbij domeinexperts segmentgrenzen aangeven, worden gebruikt om een model te trainen dat segmenten in verdere documenten detecteert.

De kenmerken die worden gebruikt door het segmentdetectiealgoritme omvatten niet alleen de documenttekst maar ook de lay-out.

De positie van een tekst in een document kan aangeven dat deze tot een bepaald segment behoort. Ten slotte is het mogelijk om de segmentgrenzen (en dus segmenten) te detecteren door middel van verschillende reguliere expressies die zoeken naar typische middelen om de segmenten in te delen (verschillende nieuwe regels, genummerde titels, pagina-einden, enz.) Na of parallel met de stap van het detecteren van segmenten, verwerkt het verwerkingsmiddel (elk) semi-gestructureerd document voor elke cluster voor het detecteren van segmentkenmerken van elk segment door gebruik van NLP voor het analyseren van een tekstuele inhoud van elk genoemd segment. De segmentkenmerken omvatten een veelheid van mogelijke sets van benoemde entiteiten, waarbij elke set een bepaald betrouwbaarheidsniveau heeft. De NLP-algoritmen kunnen in lagen worden georganiseerd, wat betekent dat de algoritmen uit de bovenste lagen de kennis en uitvoer van de algoritmen in de onderste lagen gebruiken. De onderste laag kan een algemeen, maar taalspecifiek, NER-algoritme zijn dat items zoals personen, getallen, datums, adressen, geografische locatie, enz. kan herkennen. De volgende laag kan algemene medische kennis bevatten, dus het kan entiteiten zoals arts, patiënt, medicatie, enz. extraheren. Transfer learning van de onderste laag maakt training van deze laag gemakkelijker - als de laag bijvoorbeeld een arts wil extraheren, hoeft deze niet te leren om een persoon te extraheren, omdat dit al wordt gedaan door de onderliggende laag. De laag is daarentegen gespecialiseerd in het onderscheiden of deze persoon een arts of patiënt is.

Boven de generieke medische laag kan een laag liggen die specifiek is voor een bepaalde afdeling/bepaald medisch veld, bijvoorbeeld orthopedie, neonatologie, enz. Deze laag is getraind om termen specifiek voor de betreffende afdeling te extraheren. Een knieprothese wordt bijvoorbeeld gelabeld als ‘door de mens gemaakt object’ door de algemene laag, ‘medisch hulpmiddel’ door de generieke medische laag en als een ‘knieprothese’ door de orthopedische laag. Andere lagen zijn optioneel en gebruikersspecifiek. Hun taak is om iets te detecteren dat specifiek is voor een bepaalde afdeling en niet in het algemeen wordt gebruikt. Doorgaans kan het een klinische studie zijn wanneer een klant toegang wil tot een effect van een nieuw geneesmiddel dat/nieuwe behandeling die nog geen deel uitmaakt van de algemene methodologie van het veld.

In deze stap worden algemene kenmerken van segmenten gedetecteerd. Voorbeelden van dergelijke segmentkenmerken zijn het type segment (paragraaf, tabel en elementnaam in het geval van XML of JSON, berichttype voor HL7), de lengte, positie in document enz.

De tekstuele inhoud van een segment wordt ook geanalyseerd en benoemde entiteiten worden geëxtraheerd met behulp van het eerder beschreven NLP-algoritme. Het geeft de lijst terug van alle mogelijke benoemde entiteiten samen met het betrouwbaarheidsniveau van de algoritmebeslissing. Het resultaat van deze verwerkingsfase is bijvoorbeeld dat de bepaalde sectie 10 problemen bevat met een hoog vertrouwen, enkele procedures met middelmatig vertrouwen en enkele lexicale tokens die zowel apparatuur als een medicijn kunnen zijn, afhankelijk van de context. Met andere woorden, de resultaten zijn verschillende sets van entiteitstypen met verschillende betrouwbaarheidsniveaus.

Indien de context bekend is, kan deze context worden verschaft als een invoerparameter voor het NLP-algorime om zijn besluitvorming en betrouwbaarheidsniveaus te verbeteren. Aan de andere kant, als de context onbekend is, geeft het algoritme verschillende meest waarschijnlijke interpretaties terug binnen de contexten die bekend zijn bij het verwerkingssysteem. Om de overeenkomst met enkele bekende contexten te controleren, wordt een algoritme voor medische tekstovereenkomst, zoals het UMLS2Vec-algoritme, toegepast om de afstand te berekenen van de CUl's die in de segmenten worden gedetecteerd ten opzichte van die CUl’s die normaal worden verwacht voor een bepaalde context: Met het UMLS2Vec-algoritme kan een vector toegewezen worden aan elk gedetecteerd concept in een bepaald segment. Superpositie van die vectoren geeft een segmentvector terug. Als er meer mogelijke interpretaties van een segment binnen bekende contexten zijn, wordt voor elke contexthypothese een vector geconstrueerd. Deze vector kan worden vergeleken met een verdeling van de segmentvectoren voor een bepaald segment in de veronderstelde context.

Als de gedetecteerde segmentvector statistisch compatibel is met die verdeling, kunnen we aannemen dat het segment uit de veronderstelde context komt.

Als geen bekende context compatibel is met enige interpretatie van het segment, worden alle mogelijke interpretaties van alle concepten opgeslagen en wordt het ondubbelzinnig maken gedaan aan het einde van de verwerking van het document.

Ondubbelzinnig maken betekent dan het vinden van de meest waarschijnlijke interpretatie van alle combinaties van conceptinterpretaties. De meest waarschijnlijke interpretatie is, bij via het UMLS2Vec-algoritme toegewezen vectoren, die met de kleinste variantie. Dit betekent dat het termen bevat die gerelateerd zijn. Hogere variantie betekent dat het verband tussen concepten kleiner is of niet bestaat.

Na of parallel met de voorgaande stappen, matcht het verwerkingsmiddel 3 segmenten van elk van de documenten, d.w.z. Bepaalt het soortgelijke segmenten en groepering, in elke cluster op basis van genoemde segmentkenmerken van elk bepaald segment en een waarschijnlijkheidsverdeling van genoemde benoemde naamentiteiten De segmenten met een beschrijving van de operatie in de operatierapporten kunnen bijvoorbeeld worden gegroepeerd op basis van overeenkomst tussen concepten die ze bevatten. Deze overeenkomst kan worden gemeten door zogenaamde segmentvectoren te vergelijken die worden berekend als een superpositie van de termvectoren die worden verkregen door een algoritme voor medische tekstovereenkomst zoals het UMLS2Vec-algoritme.

Na of parallel met de voorgaande stappen bepaalt het verwerkingsmiddel 3 de betekenis van elke genoemde segmentgroep waar een dergelijke segmentgroep een groep segmenten is die vergelijkbare segmenten omvat. De interpretatie van een dergelijke segmentgroep wordt bepaald door toepassing van Natural language Processing van genoemde inhoud van elk van genoemde segmenten in genoemde segmentgroep.

Door vervolgens een segmentidentificatie, zoals een label, aan elk segment toe te wijzen op basis van de bepaalde conceptverdeling van elk segment, worden alle segmenten van de documenten in een bepaalde cluster geïdentificeerd en/of gelabeld en krijgen deze bijgevolg een structuur toegewezen die kenbaar en herkenbaar is.

De betekenis van het segment wordt gecondenseerd in de segmentvector die numerieke weergave bevat van alle concepten die door het NLP-algoritme zijn gedetecteerd. Door het selecteren onder de segmentidentificaties die zijn toegewezen aan de segmenten die door domeinexperts zijn geïdentificeerd van de segmentidentificatie met de kleinste hoek tussen de vector die is toegewezen aan het bestudeerde segment en de vector die overeenkomt met een door een expert gelabeld segment, kunnen we het segmenttype en dus het label afleiden.

De concepten in het medische domein kunnen worden beschreven met behulp van UMLS die een unieke code (CUI - concept unique identifier) aan elk concept toewijst. Daarnaast bevat UMLS ook verschillende soorten relaties tussen de concepten (bijvoorbeeld ouder-kind, bredere relatie, nauwe relatie, enz.). We kunnen deze relaties gebruiken als een beperking die ons in staat zou stellen om een N-dimensionale waarde te definiëren waarin elke CUI zou overeenkomen met N-dimensionale vector en bijgevolg zou het mogelijk zijn om toegang te krijgen tot hoe dicht verschillende concepten die niet direct zijn verwant zich bij elkaar bevinden.

Als concept A bijvoorbeeld een ouder is van concept B en concept B een ouder is van concept C, bestaat er ook een relatie tussen A en C, ook al zijn ze niet direct gerelateerd. Dat is vanzelfsprekend, hun afstand is immers groter dan die tussen A en B respectievelijk of B en C, waardoor 2 stappen moeten worden uitgevoerd.

Formeel zou het vinden van vectoren die overeenkomen met alle concepten equivalent zijn aan het oplossen van een systeem (of meerdere systemen) van lineaire vergelijkingen.

Om de manier te beschrijven waarop het concept wordt gevectoriseerd, gaan we eerst enkele definities introduceren:

* 2 UMLS-concepten A en B zijn direct gerelateerd als er een dergelijke bilaterale relatie is gedefinieerd van elk type die beide concepten A en B omvat. Bijvoorbeeld, A is ouder van B; A wordt veroorzaakt door B 2 UMLS-concepten A en B zijn gerelateerd als er een geordende, eindige lijst van verschillende concepten A1, A», As, …, An bestaat, zodat elk opeenvolgend paar (A en A4, A; en Az, …, An en B) direct zijn gerelateerd. De relaties in elke directe relatie kunnen van elk type zijn. Bijvoorbeeld A geneest A4, A; is ouder van A» enz. en B is ten slotte een uiting van AN. Vanwege deze definitie zijn alle direct gerelateerde CUl's ook gerelateerd. Het omgekeerde is echter niet waar.

De UMLS garandeert niet dat alle concepten gerelateerd zijn, noch dat er voor elk concept minstens één bilaterale relatie is gedefinieerd. Daarom is de eerste stap in de vectorisatie de identificatie van de grootste verbonden sets die op de volgende manier worden geconstrueerd: 1) Een CUI wordt willekeurig gekozen. Deze CUI is het eerste lid van de set. Vervolgens worden, met behulp van UMLS, alle direct gerelateerde CUI'S gevonden en aan de set toegevoegd 2) Voor elke CUI die in de vorige stap is gevonden, worden alle direct gerelateerde CUIS gevonden en aan de set toegevoegd, tenzij ze er al zijn 3) Stap 2 wordt herhaald totdat er geen nieuwe CUIS kunnen worden toegevoegd Vervolgens worden de resterende CUI’S gebruikt om de volgende set samen te stellen met behulp van de bovenstaande stappen 1-3. Na M stappen verkrijgen we M sets met één of meer CUI’S. In elke set die meer dan één CUI heeft, is elke CUI gerelateerd aan ten minste één andere CUI in dezelfde set. Tegelijkertijd is deze niet gerelateerd aan een CUI uit een andere set.

De tweede stap is om aan elk paar gerelateerde CUl's een reëel getal toe te wijzen dat overeenkomt met de sterkte van de relatie. Een groot getal geeft een zeer sterke relatie aan, terwijl nul wordt gebruikt voor alle CUI- paren die niet zijn gerelateerd in de UMLS.

De relatiesterkte kan worden bepaald aan de hand van het kortste pad (kleinste aantal tussenpersonen) tussen de gerelateerde CUl's. Laten we aannemen dat er K-relatietypen zijn gedefinieerd in de UMLS. Vervolgens kunnen we voor elk relatietype 2 parameters a, en B definiëren met waarden uit het interval (-1,1).

De relatiesterkte kan vervolgens worden berekend met behulp van de formule: r = > A, + BE k Waarbij k over alle relatietypen loopt die zijn gedefinieerd langs het kortste pad en N een afstand is van de verste tussenpersoon die is verbonden via een relatie van type k. Met deze constructie verkrijgen we een reéel getal voor elk paar CUl's die gerelateerd zijn. Dit kan worden weergegeven in een matrix R met afmetingen N‚, x Nc, waarbij N,, het aantal CUl's is in een eerder geconstrueerde verbonden set i. We kunnen nu matrixfactorisatie gebruiken om matrix Y te verkrijgen zodanig dat R=Y"xY Voor een succesvolle matrixvermenigvuldiging moet de matrix Y Ne, kolommen en een willekeurig aantal rijen f hebben, zodat we kunnen zien dat elke kolom van matrix Y een f-dimensionale vector is die overeenkomt met een bepaalde CUI. Er zijn veel bewezen technieken om een matrixfactorisatie in de praktijk te brengen, bijvoorbeeld de Alternating least squares methode.

Deze factorisatie gebeurt voor elke set gerelateerde CUl's / De getallen f, a, en Bx zijn vrije parameters en hun waarde is afgestemd voor de optimale prestatie van het factorisatieproces.

De uitkomst van dit proces is dat we een f-dimensionale vector aan elke CUI kunnen toewijzen en zo de gelijkenis van elk paar CUl's uit de set gerelateerde CUl's kunnen bepalen, zelfs voor die welke niet zijn gerelateerd in de UMLS. We kunnen ook een massamiddelpunt berekenen voor elke groep CUl's uit één set gerelateerde CUl's en dus een groep CUl's met elkaar vergelijken.

Claims

Conclusies

1. Werkwijze voor het extraheren van informatie uit semi- gestructureerde documenten, waarbij genoemde werkwijze de stappen omvat van: -het ophalen van een veelheid van semi-gestructureerde documenten uit ten minste één semi-gestructureerde documentbron, gekenmerkt doordat, genoemde werkwijze verder de stappen omvat van: - het clusteren, door een niet-gesuperviseerd leeralgoritme of semi- gesuperviseerd leeralgoritme, van elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op basis van ten minste één van meta-informatie, inhoud en lay-out van elk genoemd semi- gestructureerd document in een cluster van een veelheid van clusters; en - het detecteren van segmenten in semi-gestructureerd document voor elke cluster van genoemde veelheid van clusters door middel van niet- gesuperviseerde classificatiemethoden of semi-gesuperviseerde classificatiemethoden; en -het detecteren van segmentkenmerken van elk segment, met behulp van Natural Language Processing, door het analyseren van een tekstuele inhoud van elk genoemd segment, waarbij genoemde segmentkenmerken een veelheid van mogelijke sets van benoemde entiteiten omvatten, waarbij elke set een bepaald betrouwbaarheidsniveau heeft; en - het matchen van segmenten van elk van de documenten in elke cluster op basis van genoemde segmentkenmerken van elk bepaald segment en een waarschijnlijkheidsverdeling van genoemde benoemde entiteiten; en - het bepalen van de betekenis van elke genoemde segmentgroep omvattende soortgelijke segmenten op basis van een Natural language Processing van genoemde inhoud van elk genoemd segment in genoemde segmentgroep; en - het toewijzen van een segmentidentificatie aan elk segment op basis van de bepaalde conceptverdeling van elk segment.

2. Werkwijze voor het extraheren van informatie uit semi- gestructureerde documenten volgens conclusie 1, gekenmerkt doordat, genoemde werkwijze verder de stap omvat van: - het bepalen van relaties tussen segmenten van documenten in genoemde cluster door het toepassen van Natural Language Processing.

3. Werkwijze voor het extraheren van informatie uit semi- gestructureerd document volgens conclusie 1, gekenmerkt doordat, genoemde stap van het clusteren verder kan zijn gebaseerd op de grafische lay-out van een dergelijk document.

4. Werkwijze voor het extraheren van informatie uit semi- gestructureerd document volgens conclusie 1, gekenmerkt doordat, in genoemde stap van het detecteren van kenmerken de context wordt toegepast als invoerparameter voor de Natural Language Processing.

5. Werkwijze voor het extraheren van informatie uit semi- gestructureerd document volgens conclusie 1, gekenmerkt doordat, de stap van genoemd analyseren van een tekstuele inhoud van elk genoemd segment is gebaseerd op een geheel van algoritmen die zijn georganiseerd in verschillende lagen.

6. Verwerkingsinrichting, voor het extraheren van informatie uit semi-gestructureerde documenten die zijn opgehaald uit ten minste één semi- gestructureerde documentbron, waarbij genoemde verwerkingsinrichting een verwerkingsmiddel (3) omvat dat is geconfigureerd voor: - het clusteren, door een niet-gesuperviseerd leeralgoritme of semi- gesuperviseerd leeralgoriime, van elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op basis van ten minste één van meta-informatie, inhoud en lay-out van elk genoemd semi- gestructureerd document in een cluster van een veelheid van clusters; en - het detecteren van segmenten in semi-gestructureerd document voor elke cluster van genoemde veelheid van clusters door middel van niet- gesuperviseerde classificatiemethoden of semi-gesuperviseerde classificatiemethoden; en

-het detecteren van segmentkenmerken van elk segment, met behulp van Natural Language Processing, door het analyseren van een tekstuele inhoud van elk genoemd segment, waarbij genoemde segmentkenmerken een veelheid van mogelijke sets van benoemde entiteiten omvatten, waarbij elke set een bepaald betrouwbaarheidsniveau heeft; en - het matchen van segmenten van elk van de documenten in elke cluster op basis van genoemde segmentkenmerken van elk bepaald segment en een waarschijnlijkheidsverdeling van genoemde benoemde entiteiten; en - het bepalen van de betekenis van elke genoemde segmentgroep omvattende soortgelijke segmenten op basis van een Natural language Processing van genoemde inhoud van elk van genoemde segmenten in genoemde segmentgroep; en het toewijzen van een segmentidentificatie aan elk segment op basis van de bepaalde conceptverdeling van elk segment.

7. Verwerkingsinrichting voor het extraheren van informatie uit semi- gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor: - het bepalen van relaties tussen segmenten van documenten in genoemde cluster door het toepassen van Natural language Processing.

8. Verwerkingsinrichting voor het extraheren van informatie uit semi- gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor: -het baseren van genoemde cluster van elk semi-gestructureerd document van genoemde veelheid van semi-gestructureerde documenten op de grafische lay-out van een dergelijk document.

9. Verwerkingsinrichting voor het extraheren van informatie uit semi- gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor: -het detecteren van segmentkenmerken door bovendien een context toe te passen als een invoerparameter voor de Natural Language Processing.

10. Verwerkingsinrichting voor het extraheren van informatie uit semi-gestructureerde documenten volgens conclusie 6, gekenmerkt doordat, genoemde verwerkingsinrichting verder is geconfigureerd voor: het analyseren van een tekstuele inhoud van elk genoemd segment is gebaseerd op een geheel van algoritmen die in verschillende lagen zijn georganiseerd.

11. Systeem voor het extraheren van informatie uit semi- gestructureerde documenten, waarbij genoemd systeem middelen omvat die zijn geconfigureerd voor: het ophalen van een veelheid van semi-gestructureerde documenten uit ten minste één semi-gestructureerde documentbron, gekenmerkt doordat, genoemd systeem verder een verwerkingsinrichting volgens conclusie 6 omvat.