BE1021412B1

BE1021412B1 - Computer-geïmplementeerde werkwijze, systeem en computerprogrammaproduct voor het structureren van een ongestructureerd pdf-document

Info

Publication number: BE1021412B1
Application number: BE2014/0456A
Authority: BE
Inventors: Bruno Lowagie
Original assignee: Itext Group Nv
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2015-11-18

Abstract

In een eerste aspect heeft de onderhavige uitvinding betrekking op een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd pdf- document. In een tweede aspect betreft dit een systeem voor het structureren van een ongestructureerd pdf-document. In een derde aspect betreft de onderhavige uitvinding een computerprogramma-product voor het structureren van een ongestructureerd pdf-document.

Description

COMPUTER-GEIMPLEMENTEERDE WERKWIJZE, SYSTEEM EN

COMPUTERPROGRAMMAPRODUCT VOOR HET STRUCTUREREN VAN EEN ONGESTRUCTUREERD PDF-DOCUMENT

TECHNISCH DOMEIN

In een eerste aspect heeft de onderhavige uitvinding betrekking op een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd pdf-document. In een tweede aspect betreft dit een systeem voor het structureren van een ongestructureerd pdf-document. In een derde aspect betreft de onderhavige uitvinding een computerprogramma-product voor het structureren van een ongestructureerd pdf-document.

ACHTERGROND

Naast de bekende inhoud van PDF-documenten, zoals tekst, figuren, bookmarks, links enz., kunnen PDF-documenten tevens structuur bevatten. De term structuur slaat op een verzameling instructies die een logica definiëren welke de inhoud verbindt, bijvoorbeeld, een correcte leesrichting of de betekenis van significante elementen zoals figuren, lijsten, paragrafen, kolommen, tabellen, enz.

De inhoud van een PDF document zoals die gepresenteerd wordt in een PDF-lezer kan gemakkelijk door mensenogen geïnterpreteerd worden. Een mens herkent de titels, paragrafen, tabellen en andere structuren in de tekst. Het computer-geïmplementeerd herkennen van deze structuren hangt af van de aard van het PDF document. Sommige documenten bevatten informatie over de structuur, uitgedrukt met behulp van 'tags' (cfr. 'tagged PDF'), andere documenten zijn opgebouwd uit een reeks losse stukjes tekst, lijnen en vormen.

Het voordeel van Tagged PDF-documenten is dat dit het herschikken van het document mogelijk maakt voor verschillende pagina- of scherm breedtes en een goed resultaat biedt bij bijvoorbeeld draagbare apparaten. Ook bij schermlezers die zijn aangepast voor blinden of aan andere beperkingen van gebruikers zijn Tagged PDF-documenten onontbeerlijk.

Tags kunnen automatisch gegenereerd worden bij de creatie van een PDF document. Het overgrote deel van de PDF-documenten die wereldwijd te vinden zijn, is echter niet getagd. Met behulp van sommige softwareprogramma's zoals bv. Acrobat Professional, kunnen tags toegevoegd worden, maar indien een document niet vrij eenvoudig is opgebouwd, zal dit automatisch taggen (zonder menselijke tussenkomst) weinig bevredigende resultaten opleveren. Foutief geïnterpreteerde structuur leidt tot wanorderlijke en zelfs onleesbare informatie in het PDF document.

Er is een nood aan een betere methode voor het automatisch omvormen van een ongestructureerd PDF-document tot een zo foutloos en gestructureerd mogelijk PDF-document.

De onderhavige uitvinding heeft een verbeterde werkwijze als voorwerp dat een oplossing biedt voor minstens één van voornoemde nadelen bij het creëren van een gestructureerd PDF-document, zoals omschreven door conclusie 1. Tevens heeft onderhavige uitvinding een verbeterd systeem en een verbeterd computerprogrammaproduct als voorwerp, zoals omschreven door respectievelijk conclusies 28 en 29.

SAMENVATTING VAN DE UITVINDING

De uitvinding betreft in het bijzonder een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd PDF-document, welke computer-geïmplementeerde werkwijze volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende iayout-structuur vastgelegd wordt.

Het determineren van layout-structuren, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt als voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige layout-structuur kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindeiijk gestructureerd PDF-document.

In een voorkeursvorm van onderhavige uitvinding wordt het genoemde determineren van tekstlijnen uitgevoerd op basis van één of meerdere scores, welke per gedetermineerde tekstlijn worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige tekstlijn.

Het determineren van tekstlijnen, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt ais voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige tekstlijn kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindeiijk gestructureerd PDF-document.

In een tweede aspect betreft de uitvinding een systeem voor het structureren van een ongestructureerd PDF-document, zoals omschreven door conclusie 28.

In een derde aspect betreft de uitvinding een computerprogramma-product voor het structureren van een ongestructureerd PDF-document, zoals omschreven door conclusie 29. Verdere voorkeursvormen worden uitgewerkt in de deelconclusies.

BESCHRIJVING VAN DE FIGUREN

Figuur 1 toont een schematisch blokdiagram, welke een voorkeursvorm illustreert voor een werkwijze volgens de onderhavige uitvinding.

GEDETAILLEERDE BESCHRIJVING

In wat volgt, wordt de uitvinding beschreven a.d.h.v. niet-limiterende voorbeelden die de uitvinding illustreren, en die niet bedoeld zijn of geïnterpreteerd mogen worden om de omvang van de uitvinding te limiteren.

In een eerste aspect, betreft de onderhavige uitvinding een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd PDF-document, welke computer-geïmplementeerde werkwijze volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten ; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.

Het determineren van layout-structuren, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt als voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige layout-structuur kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindelijk gestructureerd PDF-document.

Deze werkwijze laat verder toe verschillende determinatie-strategieën te volgen en uit te voeren teneinde de genoemde tekst- en grafische objecten te rangschikken en te organiseren in verschillende verzamelingen. Dit laat toe een zo goed mogelijke keuze van ordening te bepalen, dit op basis van scores, toegekend per gedetermineerde layout-structuur.

Deze computer-geïmplementeerde werkwijze betreft een werkwijze voor het structureren van een ongestructureerd PDF-document.

De computer-geïmplementeerde werkwijze omvat als eerste stap het openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat (zie blok 11). De computer-geïmplementeerde werkwijze omvat als tweede stap het extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document (zie blok 12). Bij voorkeur betreft het genoemde extraheren een analyseren van de syntax van de genoemde datastroom.

De computer-geïmplementeerde werkwijze omvat als derde stap het herordenen van de genoemde objecten volgens een leesrichting (zie blok 13).

Dit herordenen gebeurt mede door het determineren van tekstlijnen en/of tekstfragmenten. Hierbij omvat een tekstlijn of tekstfragment een geordende verzameling tekstobjecten. Tekstcomponenten in PDF-documenten stemmen meestal niet overeen met volledige lijnen en zelfs niet met volledige woorden. De derde stap laat toe correcties toe te passen, teneinde de verzameling tekstobjecten te verdelen over verschillende deelverzamelingen die elk één lijn voorstellen.

De computer-geïmplementeerde werkwijze omvat als vierde stap het herordenen van de genoemde tekstlijnen en/of tekstfragmenten (zie blok 14). Dit herordenen gebeurt mede door het determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten.

Dit determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.

De computer-geïmplementeerde werkwijze omvat als vijfde stap het herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat (zie blok 15).

Met de term "PDF-document" wordt in onderhavige uitvinding een elektronisch document bedoeld met een 'Portable Document Format' of PDF-bestandsindeling. Onder deze term wordt tevens een bestand in PDF/X, PDF/A, PDF/E, PDF/UA of PDF/VT formaat verstaan.

Met de term "ongestructureerd PDF-document" wordt in onderhavige uitvinding een PDF-document bedoeld, welke een reeks losse stukjes tekst, lijnen en vórmen omvat, welke geen of onvoldoende structuur omvat zoals bijvoorbeeld bij een Tagged PDF-document.

Met de term "object" wordt in onderhavige uitvinding een functioneel en operationeel concept in een welbepaalde programmeertaal verstaan, welk concept een verzameling data en een verzameling operaties omvat. De genoemde data omvatten variabelen. De genoemde operaties omvatten methoden, procedures of functies. Bij voorkeur is deze programmeertaal in onderhavige uitvinding een object-georiënteerde programmeertaal, zoals bv. Java.

Met de term "tekstobject" wordt in onderhavige uitvinding een object bedoeld, welke een tekstfragment omvat. Een tekstfragment betreft één of meerdere karakters, informatie over het gebruikte lettertype, lettergrootte, letterkleur en positionele informatie. Bij voorkeur omvat positionele informatie een coördinaat welke het begin aanduidt van de basislijn van het tekstfragment, de tekstbreedte, coördinaten overeenkomstig het startpunt van de ascentlijn (i.e. de maximale hoogte boven de basislijn), coördinaten overeenkomstig het startpunt van de descentlijn (i.e. de maximale hoogte onder de basislijn), enz. Deze informatie wordt uitgedrukt in coördinaten en vectoren.

Met de term "grafisch object" wordt in onderhavige uitvinding een object bedoeld, welke een grafisch element omvat. Lijnen en vormen worden in PDF syntax typisch uitgedrukt met behulp van operatoren zoals "moveTo" (cfr. het verplaatsen naar een punt), "lineTo" (cfr. een rechte lijn naar een punt tekenen), "curveTo" (cfr. een curve naar een punt tekenen) en "rectangle" (cfr. een rechthoek construeren). Een ander type van "grafisch object" wordt voorgesteld door een sequentie van gekleurde pixels, gevat in een rechthoekig raster.

Met de term "datastroom" wordt in onderhavige uitvinding data of inhoud bedoeld van een PDF-document.

Met de term "leesrichting" wordt in onderhavige uitvinding een richting of volgorde bedoeld in de welke de lezer de informatie in een overeenkomstig PDF-document leest. Voor Westerse talen betreft de leesrichting bijvoorbeeld van links naar rechts en van boven naar onder.

Met de term "score" wordt in onderhavige uitvinding een aanpasbare puntenhoeveelheid bedoeld, welke een waarde uitdrukt in evenredigheid met een eigenschap. Deze waarde is gelegen binnen een al dan niet begrensd bereik, bv. een reëel getal gelegen tussen 0 en 1.

In een voorkeursvorm wordt het genoemde determineren van tekstlijnen uitgevoerd op basis van één of meerdere scores, welke per gedetermineerde tekstlijn worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige tekstlijn.

Het determineren van tekstlijnen, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt als voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige tekstlijn kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindelijk gestructureerd PDF-document.

In een geprefereerde voorkeursvorm omvat een tekstobject en een grafisch object minstens een overeenkomstige x-coördinaat en een y-coördinaat.

In een meer geprefereerde voorkeursvorm wordt de volgorde van objecten in een tekstlijn mede gedetermineerd door de genoemde x-coördinaat voor het overeenkomstige object.

Bijvoorbeeld, bij gelijke waarden van y, komt een tekstobject A met een kleinere x-coördinaat voor een tekstobject B met een grotere x waarde.

In een meer geprefereerde voorkeursvorm wordt de volgorde van objecten in een tekstlijn mede gedetermineerd door de genoemde y-coördinaat voor het overeenkomstige object.

Bijvoorbeeld, als het startpunt van de basislijn van een tekstobject A een y-coördinaat heeft die groter is dan de y-coördinaat van een tekstobject B, dit tekstobject A gerangschikt wordt voor het tekstobject B.

In een meer geprefereerde voorkeursvorm worden objecten in een tekstlijn mede gedetermineerd door een score evenredig met een spreiding rond een y-coördlnaat voor de tekstobjecten van de genoemde tekstlijn.

Met de term "spreiding" wordt in onderhavige uitvinding de mate bedoeld waarin waarden onderling verschillen ten opzichte van een centrale waarde.

Verschillende tekstcomponenten die voor het menselijk oog één lijn vormen, kunnen een licht afwijkende y-coördinaat hebben. Een goed voorbeeld hiervan is een exponent. Het kwadraat teken 2 zal een aparte tekstobject zijn (wegens de kleinere lettergrootte). De basislijn zal een y-coördinaat omvatten die groter is dan de y-coördinaat van de rest van de lijn. Door de y-coördinaten van niet enkel de basislijn, maar ook de ascentlijn en descentlijn van de verschillende tekstobjecten met elkaar te vergelijken, kunnen we deelverzamelingen maken van tekstobjecten die tot een zelfde tekstlijn behoren en kunnen die objecten herschikt worden op basis van de x-coördinaat van het startpunt van de basislijn. Bijvoorbeeld kan een score tussen 0 en 1 aan elke lijn worden toegekend. Deze score komt overeen met het percentage van tekstobjecten die veranderd moesten worden van plaats ten opzichte van het totaal aantal tekstobjecten die tot de zelfde tekstlijn behoren.

In een geprefereerde voorkeursvorm worden objecten in een tekstlijn mede gedetermineerd door een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.

Met de term "tussenruimte" wordt in onderhavige uitvinding een mate bedoeld van karakters welke een lege ruimte aanduiden overeenkomstig een tekstlijn. Bij voorkeur betreffen dergelijke 'lege ruimte'-karakters spaties, tabulatie, enz.

Verschillende tekstcomponenten die voor het menselijk oog één geheel vormen, kunnen opgesplitst zijn in twee of meer verschillende componenten. Het woord "hallo" kan bestaan uit een tekstcomponent "hal" en een tekstcomponent Ίο", bij voorbeeld om typografische redenen, waarbij de twee letters "I" dichter bij elkaar geplaatst worden. Op basis van de positionele informatie die opgeslagen is in de tekstelementen kan de afstand tussen de twee tekstobjecten berekend worden en vergeleken worden met de breedte van een spatie in het overeenkomstige lettertype. Zo kunnen verschillende tekstobjecten als aansluitend gemarkeerd worden en andere als apart (i.e. bijvoorbeeld gescheiden door een spatie). Indien afstanden gedetecteerd worden die veel groter zijn dan een spatie, kan bijvoorbeeld een score gelegen tussen 0 en 1 toegekend worden aan de tekstlijn welke een percentage aangeeft die overeenstemt met de waarschijnlijkheid dat de tekstlijn één geheel vormt. Een waarde kleiner dan 1 wijst op tabulatie. Een waarde van 0.5 is dan bijvoorbeeld typisch voor een lijn in een inhoudstafel waarbij het eerste tekstelement links een titel is en het tweede tekstelement links een paginanummer. Een waarde van 0.25 is dan bijvoorbeeld typisch voor een rij uit een tabel met 4 kolommen.

In een geprefereerde voorkeursvorm omvat stap cl verder: - opsplitsen van tekstobjecten teneinde de gesplitste tekstobjecten te verdelen over meerdere tekstlijnen.

In een geprefereerde voorkeursvorm omvat stap c verder: c2) determineren van een koptekst en/of een voettekst, welke koptekst en voettekst een verzameling van één of meerdere tekstlijnen betreft respectievelijk bovenaan en onderaan verschillende pagina's.

In een meer geprefereerde voorkeursvorm worden tekstlijnen in een koptekst en/of voettekst mede gedetermineerd door een score, welke evenredig is met de mate van tekstherhaling in overeenkomstige tekstlijnen over verschillende pagina's heen en welke evenredig is met het voorkomen van een oplopen van nummers in tekstobjecten van overeenkomstige tekstlijnen over verschillende pagina's heen.

Hierbij worden bij voorkeur telkens de eerste en laatste lijnen per pagina tussen de pagina's onderling vergeleken. Hierbij kan een patroon te voorschijn komen, zoals een lijn tekst die om de andere pagina herhaald wordt. Dit kan een titel zijn van een hoofdstuk, de titel van een boek. Oplopende nummers duiden op paginanummers. Er wordt bijvoorbeeld een score berekend gelegen tussen 0 en 1 die een percentage aangeeft wat de kans is dat een lijn hetzij deel uitmaakt van een header, hetzij van voettekst. Bij een score hoger dan 0.5 wordt een lijn ais een artifact gemarkeerd en kunnen de coördinaten bepaald worden van dat gedeelte van de bladspiegel welke 'echte' inhoud omvat.

Met de term "artifact" wordt in onderhavige uitvinding een esthetisch element bedoeld dat dient ter versiering of als hulpmiddel en welke geen effectief deel uitmaakt van de inhoud van een PDF-document. Zo is bijvoorbeeld een paginanummer geen effectief deel van de inhoud, maar een hulpmiddel om door de inhoud te kunnen navigeren.

In een voorkeursvorm wordt het genoemde determineren van layout-structuren uitgevoerd op basis van een analyse van de genoemde grafische objecten en/of tekstobjecten.

In een voorkeursvorm betreft een layout-structuur één of een genestelde combinatie van volgende structuren: - stromingsstructuur; - kolomstructuur; - tabelstructuur; - zwevende structuur.

Met de term "stromingsstructuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld, welke doorlopende tekst omvat volgens een leesrichting. Voor Westerse talen betreft dit bijvoorbeeld lijnen van links naar rechts en van boven naar onder.

Met de term "kolomstructuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld opgedeeld in kolommen, welke tekstlijnfragmenten omvatten.

Met de term "tabelstructuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld opgedeeld in rijen en kolommen.

Met de term "zwevende structuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld welke verschillende "vlottende" stukjes tekst omvat.

In een geprefereerde voorkeursvorm wordt een kolomstructuur of tabelstructuur mede gedetermineerd door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met het aantal verticale lijnen kruisend met de corresponderende gedetermineerde tekstlijn.

Wanneer een verticale streep gedetecteerd wordt, wordt bij voorkeur een grafisch object toegevoegd aan tekstlijnen met dewelke deze streep kruist.

Voor elke tekstlijn wordt bijvoorbeeld een score gelegen tussen 0 en 1 toegekend.

Wanneer een horizontale streep gedetecteerd wordt, wordt bij voorkeur dit grafisch object op basis van de y-coördinaat van deze lijn toegevoegd aan de overeenkomstige tekstlijn. Een horizontale lijn kan wijzen op de aanwezigheid van rijen in een tabel, de aanwezigheid van een (onderlijnde) titel of een scheiding tussen paragrafen.

In een geprefereerde voorkeursvorm wordt een kolomstructuur of tabelstructuur mede gedetermineerd door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.

In een geprefereerde voorkeursvorm wordt een kolomstructuur of tabelstructuur mede gedetermineerd door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met een correlatie tussen score evenredig is met het aantal verticale lijnen kruisend met de corresponderende gedetermineerde tekstlijn en een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.

In een geprefereerde voorkeursvorm wordt een tabelstructuur mede gedetermineerd door een aanwezigheid van één of meerdere rechthoeken op een overeenkomstige pagina.

Wanneer een rechthoek gedetecteerd wordt, wordt deze bij voorkeur opgesplitst in horizontale en vertikale strepen. De aanwezigheid van een rechthoek verhoogt de waarschijnlijkheid van de aanwezigheid van een tabel.

In een voorkeursvorm wordt het genoemde determineren van layout-structuren uitgevoerd per pagina.

In een voorkeursvorm omvat stap d verder: d2) determineren van één of meerdere rasterbeeiden.

Met de term "rasterbeeid" wordt in onderhavige uitvinding een een sequentie van gekleurde pixels gevat in een rechthoekig raster bedoeld, dus afbeelding of "image".

In een geprefereerde voorkeursvorm omvat stap d2 verder het op basis van coördinatenanalyse combineren van meerdere rasterbeeiden tot één rasterbeeid.

In een geprefereerde voorkeursvorm omvat stap d2 verder het determineren of een rasterbeeid al dan niet een artifact is op basis van een score evenredig met tekstoverlap met het rasterbeeid en van een score evenredig met een buiten de gedetermineerde bladspiegel liggen van het genoemde rasterbeeid.

Door de coördinaten te bestuderen, kan achterhaald worden of een beeld een artifact is of effectief deel uitmaakt van de inhoud. Bijvoorbeeld wordt een score bepaald tussen 0 en 1, welke score overeenkomt met het percentage van het beeld dat overlapt wordt door tekst. Een andere waarde tussen 0 en 1 kan worden toegekend, welke overeenkomt met het percentage dat buiten de eerder bepaalde bladspiegel van eigenlijke tekst valt. Hogere scores duiden op een artifact.

In een voorkeursvorm omvat stap d verder: d3) determineren van één of meerdere bijschriften bij een overeenkomstige tabel, figuur of rasterbeeid.

Met de term "bijschrift" wordt in onderhavige uitvinding een bovenschrift of onderschrift bedoeld welke duiding verschaft overeenkomstig een grafische entiteit, zoals bijvoorbeeld een tabel, figuur of rasterbeeid.

Een pagina kan ook bestaan uit een combinatie van verschillende layouts. Door bijvoorbeeld het reorganiseren van tekstobjecten en grafische objecten zodat kolommen in de juiste volgorde gelezen kunnen worden, idem wat betreft de cellen van een tabel. In het geval van een tabel, kan bijvoorbeeld de tekstlijn voorafgaand aan en volgend op de tabel worden geanalyseerd, Indien één van deze lijnen wat lettertype, -groote of -kleur afwijkt van de rest van de lijnen, en/of indien een bepaald patroon herkend wordt (bij voorbeeld "tabel x.y" waarbij x en y getallen zijn), dan hoort deze lijn waarschijnlijk bij de tabel. De overeenkomstige lijn wordt als bijschrift bij de tabel gedetermineerd. Een werkwijze voor het determineren van bijschriften bij een figuur of rasterbeeid is analoog.

In een geprefereerde voorkeursvorm wordt een bijschrift mede gedetermineerd door patroonherkenning bij een voorafgaande of opvolgende tekstlijn overeenkomstig de tabel, figuur of rasterbeeid.

In een voorkeursvorm omvat stap d verder: d4) determineren van een inhoudstafel.

Het determineren van een inhoudstafel kan op verschillende manieren:

Bijvoorbeeld als er een gestructureerde boomstructuur of 'outline tree' aanwezig is in het PDF-documents (cfr, bookmarks), dan komt deze meestal overeen met een hiërarchisch georganiseerde inhoudstafel. Elk onderdeel van deze boomstructuur verwijst naar een bepaalde coördinaat. Op basis hiervan kan een overeenkomstige tekstlijn gemarkeerd worden als een titel.

Alternatief, bij het ontbreken van een gestructureerde boomstructuur, kan er gezocht worden naar een inhoudstafel in de inhoud. Vaak bevindt deze zich hetzij vooraan in het document, hetzij achteraan. Bijvoorbeeld wordt gezocht op vooraf gedefinieerde tekst ("Inhoudstafel", "Table of Contents"). Preferentieel wordt geanalyseerd of deze tekst gevolgd wordt door tekstlijnen met een tabulatiepercentage van bijvoorbeeld 0.5. Als voorgedefinieerde tekst ontbreekt, kan bij tabulatiepercentages van 0.5 geanalyseerd worden of één van de tekstdelen een (pagina)nummer is, en zo een corresponderende titel te vinden in de tekst. Indien koptekst of voettekst gevonden werd, kan deze een indicatie geven van hoofdstukken. Bij voorkeur wordt in de buurt van een gewijzigde koptekst gezocht naar tekst die voor een groot percentage overeenstemt met de tekst in de koptekst. Dat markeert de start van een hoofdstuk.

Bijvoorbeeld wordt voor elke verzameling tekstobjecten de lettertypes, lettergroottes en letterkleuren van alle tekstcomponenten geanalyseerd, waarbij elke combinatie een score tussen 0 en 1 wordt toegekend, welke overeenkomt met het percentage tekst waarvoor een specifieke combinatie gebruikt wordt ten opzichte van de lengte van de volledige lijn. Bijvoorbeeld een waarde 1 laat toe de lijn te kwalificeren als een uniforme lijn. Bij waarden verschillend van 1 wordt rekening gehouden met de mate waarin de verschillende tekstcomponenten verschillen: uniforme kleur, lettergrootte, lettertype, enz. Bij voorkeur wordt op basis van een score gedetermineerd of een lijn met verschillende combinaties toch als uniform beschouwd mag worden. Meer bij voorkeur wordt een dominante combinatie van lettertype, -grootte en -kleur tussen de verschillende tekstlijnen onderling vergeleken. Hierdoor kunnen titels worden onderscheiden, alsook een hiërarchie in de titels.

Deze reeks structuurelementen laat toe nieuwe deelverzamelingen te creëren, die de reeds bestaande deelverzamelingen organiseren in hoofdstukken, secties, subsecties enz. Hierbij worden bepaalde tekstlijnen gemarkeerd ook als titels van deze entiteiten. Dit laat toe een gestructureerde boomstructuur te creëren (indien die ontbrak) en pagina's toe te voegen met een inhoudstafel (indien nodig).

In een geprefereerde voorkeursvorm wordt een inhoudstafel mede gedetermineerd door een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van één of meerdere tekstlijnen.

In een voorkeursvorm omvat stap d verder: d5) determineren van één of meerdere paragrafen.

Met de term "paragraaf" wordt in onderhavige uitvinding een doorlopend stuk tekst bedoeld.

Door het bestuderen van tekstlijnen kunnen paragrafen worden onderscheiden. Bijvoorbeeld door de onderlinge afstanden tussen de verschillende lijnen te analyseren om "spacing before / spacing after" te detecteren, of te analyseren welke lijnen niet doorlopen tot aan de rechtermarge, wat vaak het geval is bij de laatste lijn in een paragraaf. Ook het voorkomen van indentatie kan mee paragrafen determineren. Een insprong bij een eerste lijn, kan wijzen op de start van een paragraaf.

In een voorkeursvorm omvat stap d verder: d6) determineren van één of meerdere lijsten.

Met de term "lijst" wordt in onderhavige uitvinding een opeenvolging van lijnen bedoeld al dan niet voorzien van een indentatie of speciaal herhalend karakter, bv. bullet.

Indentatie en het voorkomen van een speciaal karakter, zoals een bullet, of een oplopende rij getallen of alfabetische karakters gevolgd door een punt, wijst bijvoorbeeld op de aanwezigheid van een lijst.

In een voorkeursvorm omvat stap d verder: d7) corrigeren van gedetermineerde layout-structuren en/of tekstlijnen op basis van manuele invoer.

Dit laat toe mogelijks fout geïnterpreteerde layout-structuren of tekstlijnen aan te passen alvorens het PDF-document wordt herschreven.

In een voorkeursvorm omvat genoemde herschreven datastroom de genoemde hergeordende objecten en informatie betreffende gedetermineerde layout-structuren.

Bijvoorbeeld zal een verzameling die een hoofdstuk omvat, een deelverzameling omvatten welke één tekstlijn omvat met de titel, een deelverzameling die een reeks tekstlijnen omvat die samen een paragraaf vormen, een deelverzameling die een tabel vormt, welke op zijn beurt deelverzamelingen omvat voor elke rij die opgedeeld is in deelverzamelingen per kolom. Deze structuur wordt bij voorkeur geschreven als een gestructureerde boom die wordt toegevoegd aan het PDF-document. De originele datastroom wordt herschreven in een volgorde die overeenkomt met de logische leesvolgorde, waarbij de structurele informatie wordt toegevoegd, conform de beschrijvingen in de PDF-standaard. Op deze manier wordt een Tagged PDF-document bekomen.

In een voorkeursvorm omvat werkwijze verder: f) toevoegen van aanklikbare annotaties voor interne en externe links aan de genoemde datastroom.

Met de term "aanklikbare annotaties" wordt in onderhavige uitvinding een interne of externe link bedoeld welke toegevoegd is aan een tekstobject of grafisch object, dewelke een gebruiker kan aanklikken. PDF-pagina's bevatten vaak interne en externe verwijzingen in de vorm van aanklikbare annotaties (links). Deze annotaties zijn aparte objecten die los staan van de datastroom. Een voorbeeld van een externe verwijzing is het adres van een website, bij voorbeeld http://itextpdf.com. Zo'n link heeft een vaste structuur welke gemakkelijk met een reguliere expressie te herkennen is. Bij voorkeur wordt tekst geanalyseerd op het voorkomen van dergelijke patronen en indien geen link annotatie voorzien is, wordt die op de correcte positie toegevoegd aan het document. Zo kan gezocht worden naar minder triviale patronen, zoals "zie tabel x.y" of "zie figuur x.y" waarbij x en y getallen zijn. Op basis van de eerder verzamelde structurele informatie, kan een goede inschatting gemaakt worden van de tabellen of figuren waar mogelijks naar verwezen wordt. Deze verwijzingen betreffen bij voorkeur aanklikbare links.

In een tweede aspect betreft de onderhavige uitvinding een systeem voor het structureren van een ongestructureerd PDF-document, welk systeem een centrale verwerkingseenheid omvat, welke geconfigureerd is voor het uitvoeren van de computer-geïmplementeerde werkwijze welke volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of te kstl i j n f ra g m ente n ; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.

In een derde aspect betreft de onderhavige uitvinding een computerprogramma-product voor het structureren van een ongestructureerd PDF-document, welk computerprogramma-product tenminste één computer-leesbaar medium omvat waarop computer-leesbare programmacode-porties zijn opgeslagen, welke programmacode-porties instructies omvatten voor het uitvoeren van de computer-geïmplementeerde werkwijze welke volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten ; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.

Het is verondersteld dat de huidige uitvinding niet beperkt is tot de uitvoeringsvormen die hierboven beschreven zijn en dat enkele aanpassingen of veranderingen aan de beschreven voorbeelden kunnen toegevoegd worden zonder de toegevoegde conclusies te herwaarderen.

Claims

CONCLUSIES

1. Computer-géimplementeerde werkwijze voor het structureren van een ongestructureerd PDF-document, welke computer-géimplementeerde werkwijze volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten ; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; met het kenmerk, dat het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.
2. Werkwijze volgens voorgaande conclusie 1, met het kenmerk, dat het genoemde determineren van tekstlijnen wordt uitgevoerd op basis van één of meerdere scores, welke per gedetermineerde tekstlijn worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige tekstlijn.
3. Werkwijze volgens voorgaande conclusie 2, met het kenmerk, dat een tekstobject en een grafisch object minstens een overeenkomstige x-coördinaat en een y-coördinaat omvat.
4. Werkwijze volgens één der voorgaande conclusies 2-3, met het kenmerk, dat objecten in een tekstlijn mede gedetermineerd worden door een score evenredig met een spreiding rond een y-coördinaat voor de tekstobjecten van de genoemde tekstlijn.
5. Werkwijze volgens één der voorgaande conclusies 3-4, met het kenmerk, dat de volgorde van objecten in een tekstlijn mede gedetermineerd wordt door de genoemde x-coördinaat voor het overeenkomstige object.
6. Werkwijze volgens één der voorgaande conclusies 2-5, met het kenmerk, dat objecten in een tekstlijn mede gedetermineerd worden door een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.
7. Werkwijze volgens één der voorgaande conclusies 2-6, met het kenmerk, dat stap cl verder omvat: - opsplitsen van tekstobjecten teneinde de gesplitste tekstobjecten te verdelen over meerdere tekstlijnen.
8. Werkwijze volgens één der voorgaande conclusies 2-7, met het kenmerk, dat stap c verder omvat: c2) determineren van een koptekst en/of een voettekst, welke koptekst en voettekst een verzameling van één of meerdere tekstlijnen betreft respectievelijk bovenaan en onderaan verschillende pagina's.
9. Werkwijze volgens voorgaande conclusie 8, met het kenmerk, dat tekstlijnen in een koptekst en/of voettekst mede gedetermineerd worden door een score, welke evenredig is met de mate van tekstherhaling in overeenkomstige tekstlijnen over verschillende pagina's heen en welke evenredig is met het voorkomen van een oplopen van nummers in tekstobjecten van overeenkomstige tekstlijnen over verschillende pagina's heen. 10. volgens één der voorgaande conclusies 1-9, met het kenmerk, dat het genoemde determineren van iayout-structuren wordt uitgevoerd op basis van een analyse van de genoemde grafische objecten en/of tekstobjecten.
11. Werkwijze volgens één der voorgaande conclusies 1-10, met het kenmerk, dat een Iayout-structuur één of een genestelde combinatie van volgende structuren betreft: - stromingstructuur; - kolomstructuur; - tabelstructuur; - zwevende structuur.
12. Werkwijze volgens voorgaande conclusie 11, met het kenmerk, dat een kolomstructuur of tabelstructuur mede gedetermineerd wordt door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met het aantal verticale lijnen kruisend met de corresponderende gedetermineerde tekstlijn.
13. Werkwijze volgens één der voorgaande conclusies 11-12, met het kenmerk, dat een kolomstructuur of tabelstructuur mede gedetermineerd wordt door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.
14. Werkwijze volgens één der voorgaande conclusies 11-13, met het kenmerk, dat een kolomstructuur of tabelstructuur mede gedetermineerd wordt door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met een correlatie tussen score evenredig is met het aantal verticale lijnen kruisend met de corresponderende gedetermineerde tekstlijn en een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.
15. Werkwijze volgens één der voorgaande conclusies 11-14, met het kenmerk, dat een tabelstructuur mede gedetermineerd wordt door een aanwezigheid van één of meerdere rechthoeken op een overeenkomstige pagina.
16. Werkwijze volgens één der voorgaande conclusies 1-15, met het kenmerk, dat het genoemde determineren van layout-structuren wordt uitgevoerd per pagina.
17. Werkwijze volgens één der voorgaande conclusies 1-16, met het kenmerk, dat stap d verder omvat: d2) determineren van één of meerdere rasterbeeiden.
18. Werkwijze volgens voorgaande conclusie 17, met het kenmerk, dat stap d2 verder omvat het op basis van coördinatenanalyse combineren van meerdere rasterbeeiden tot één rasterbeeid.
19. Werkwijze volgens één der voorgaande conclusies 17-18, met het kenmerk, dat stap d2 verder omvat het determineren of een rasterbeeid al dan niet een artifact is op basis van een score evenredig met tekstoverlap met het rasterbeeid en van een score evenredig met een buiten de gedetermineerde bladspiegel liggen van het genoemde rasterbeeid.
20. Werkwijze volgens één der voorgaande conclusies 1-19, met het kenmerk, dat stap d verder omvat: d3) determineren van één of meerdere bijschriften bij een overeenkomstige tabel, figuur of rasterbeeid.
21. Werkwijze volgens voorgaande conclusie 20, met het kenmerk, dat een bijschrift mede gedetermineerd wordt door patroonherkenning bij een voorafgaande of opvolgende tekstlijn overeenkomstig de tabel, figuur of rasterbeeid.
22. Werkwijze volgens één der voorgaande conclusies 1-21, met het kenmerk, dat stap d verder omvat: d4) determineren van een inhoudstafel.
23. Werkwijze volgens voorgaande conclusie 22, met het kenmerk, dat een inhoudstafel mede gedetermineerd wordt door een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van één of meerdere tekstlijnen.
24. Werkwijze volgens één der voorgaande conclusies 1-23, met het kenmerk, dat stap d verder omvat: d5) determineren van één of meerdere paragrafen.
25. Werkwijze volgens één der voorgaande conclusies 1-24, met het kenmerk, dat stap d verder omvat: d6) determineren van één of meerdere lijsten.
26. Werkwijze volgens één der voorgaande conclusies 1-25, met het kenmerk, dat de genoemde herschreven datastroom de genoemde hergeordende objecten en informatie betreffende gedetermineerde layout-structuren omvat.
27. Werkwijze volgens één der voorgaande conclusies 1-26, met het kenmerk, dat de werkwijze verder omvat: f) toevoegen van aanklikbare annotaties voor interne en externe links aan de genoemde datastroom.
28. Systeem voor het structureren van een ongestructureerd PDF-document, welk systeem een centrale verwerkingseenheid omvat, welke geconfigureerd is voor het uitvoeren van de computer-geïmplementeerde werkwijze zoals omschreven door conclusies 1-27.
29. Computerprogramma-product voor het structureren van een ongestructureerd PDF-document, welk computerprogramma-product tenminste één computer-leesbaar medium omvat waarop computer-leesbare programmacode-porties zijn opgeslagen, welke programmacode-porties instructies omvatten voor het uitvoeren van de computer-geïmplementeerde werkwijze zoals omschreven door conclusies 1-27.