BE1021412B1

BE1021412B1 - COMPUTER IMPLEMENTED METHOD, SYSTEM AND COMPUTER PROGRAM PRODUCT FOR STRUCTURING AN UNSTRUCTURED PDF DOCUMENT

Info

Publication number: BE1021412B1
Application number: BE2014/0456A
Authority: BE
Inventors: Bruno Lowagie
Original assignee: Itext Group Nv
Priority date: 2014-06-16
Filing date: 2014-06-16
Publication date: 2015-11-18

Abstract

In een eerste aspect heeft de onderhavige uitvinding betrekking op een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd pdf- document. In een tweede aspect betreft dit een systeem voor het structureren van een ongestructureerd pdf-document. In een derde aspect betreft de onderhavige uitvinding een computerprogramma-product voor het structureren van een ongestructureerd pdf-document.In a first aspect, the present invention relates to a computer-implemented method for structuring an unstructured PDF document. In a second aspect, this concerns a system for structuring an unstructured PDF document. In a third aspect, the present invention relates to a computer program product for structuring an unstructured PDF document.

Description

COMPUTER-GEIMPLEMENTEERDE WERKWIJZE, SYSTEEM ENCOMPUTER IMPLEMENTED METHOD, SYSTEM AND

COMPUTERPROGRAMMAPRODUCT VOOR HET STRUCTUREREN VAN EEN ONGESTRUCTUREERD PDF-DOCUMENTCOMPUTER PROGRAM PRODUCT FOR STRUCTURING AN UNSTRUCTURED PDF DOCUMENT

TECHNISCH DOMEINTECHNICAL DOMAIN

In een eerste aspect heeft de onderhavige uitvinding betrekking op een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd pdf-document. In een tweede aspect betreft dit een systeem voor het structureren van een ongestructureerd pdf-document. In een derde aspect betreft de onderhavige uitvinding een computerprogramma-product voor het structureren van een ongestructureerd pdf-document.In a first aspect, the present invention relates to a computer-implemented method for structuring an unstructured PDF document. In a second aspect, this is a system for structuring an unstructured PDF document. In a third aspect, the present invention relates to a computer program product for structuring an unstructured PDF document.

ACHTERGRONDBACKGROUND

Naast de bekende inhoud van PDF-documenten, zoals tekst, figuren, bookmarks, links enz., kunnen PDF-documenten tevens structuur bevatten. De term structuur slaat op een verzameling instructies die een logica definiëren welke de inhoud verbindt, bijvoorbeeld, een correcte leesrichting of de betekenis van significante elementen zoals figuren, lijsten, paragrafen, kolommen, tabellen, enz.In addition to the known content of PDF documents, such as text, figures, bookmarks, links, etc., PDF documents can also contain structure. The term structure refers to a set of instructions that define a logic that connects the content, for example, a correct reading direction or the meaning of significant elements such as figures, lists, paragraphs, columns, tables, etc.

De inhoud van een PDF document zoals die gepresenteerd wordt in een PDF-lezer kan gemakkelijk door mensenogen geïnterpreteerd worden. Een mens herkent de titels, paragrafen, tabellen en andere structuren in de tekst. Het computer-geïmplementeerd herkennen van deze structuren hangt af van de aard van het PDF document. Sommige documenten bevatten informatie over de structuur, uitgedrukt met behulp van 'tags' (cfr. 'tagged PDF'), andere documenten zijn opgebouwd uit een reeks losse stukjes tekst, lijnen en vormen.The contents of a PDF document as presented in a PDF reader can easily be interpreted by human eyes. A person recognizes the titles, paragraphs, tables and other structures in the text. The computer-implemented recognition of these structures depends on the nature of the PDF document. Some documents contain information about the structure, expressed by means of 'tags' (cf. 'tagged PDF'), other documents are made up of a series of separate pieces of text, lines and shapes.

Het voordeel van Tagged PDF-documenten is dat dit het herschikken van het document mogelijk maakt voor verschillende pagina- of scherm breedtes en een goed resultaat biedt bij bijvoorbeeld draagbare apparaten. Ook bij schermlezers die zijn aangepast voor blinden of aan andere beperkingen van gebruikers zijn Tagged PDF-documenten onontbeerlijk.The advantage of Tagged PDF documents is that this makes it possible to rearrange the document for different page or screen widths and offers a good result with, for example, portable devices. Tagged PDF documents are also indispensable for screen readers adapted for the blind or for other user restrictions.

Tags kunnen automatisch gegenereerd worden bij de creatie van een PDF document. Het overgrote deel van de PDF-documenten die wereldwijd te vinden zijn, is echter niet getagd. Met behulp van sommige softwareprogramma's zoals bv. Acrobat Professional, kunnen tags toegevoegd worden, maar indien een document niet vrij eenvoudig is opgebouwd, zal dit automatisch taggen (zonder menselijke tussenkomst) weinig bevredigende resultaten opleveren. Foutief geïnterpreteerde structuur leidt tot wanorderlijke en zelfs onleesbare informatie in het PDF document.Tags can be generated automatically when creating a PDF document. The vast majority of PDF documents that can be found worldwide, however, have not been tagged. With the help of some software programs such as, for example, Acrobat Professional, tags can be added, but if a document is not built up quite simply, this automatic tagging (without human intervention) will yield unsatisfactory results. Misinterpreted structure leads to disorderly and even illegible information in the PDF document.

Er is een nood aan een betere methode voor het automatisch omvormen van een ongestructureerd PDF-document tot een zo foutloos en gestructureerd mogelijk PDF-document.There is a need for a better method for automatically converting an unstructured PDF document into an error-free and structured PDF document.

De onderhavige uitvinding heeft een verbeterde werkwijze als voorwerp dat een oplossing biedt voor minstens één van voornoemde nadelen bij het creëren van een gestructureerd PDF-document, zoals omschreven door conclusie 1. Tevens heeft onderhavige uitvinding een verbeterd systeem en een verbeterd computerprogrammaproduct als voorwerp, zoals omschreven door respectievelijk conclusies 28 en 29.The present invention has an improved method as object that provides a solution for at least one of the aforementioned disadvantages in creating a structured PDF document, as defined by claim 1. The present invention also has as an object an improved system and an improved computer program product, such as defined by claims 28 and 29 respectively.

SAMENVATTING VAN DE UITVINDINGSUMMARY OF THE INVENTION

De uitvinding betreft in het bijzonder een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd PDF-document, welke computer-geïmplementeerde werkwijze volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende iayout-structuur vastgelegd wordt.The invention particularly relates to a computer-implemented method for structuring an unstructured PDF document, which computer-implemented method comprises the following consecutive steps: a) opening an unstructured PDF document, which comprises one or more pages; b) extracting text objects and graphic objects from the data stream of said PDF document; c) reordering said objects according to a reading direction by: cl) determining text lines and / or text fragments, wherein a text line comprises an ordered collection of text objects; d) reordering said text lines and / or text fragments by: dl) determining and recording layout structures, wherein a layout structure is an ordered collection of text lines and / or text line fragments; e) rewriting the data stream of the PDF document, which rewritten data stream comprises said reordered objects; wherein said determination of layout structures is performed on the basis of one or more scores, which are assigned per possible layout structure, wherein a score is proportional to a particular property of the corresponding set of text lines and / or text line fragments and wherein the best-scoring iayout structure is recorded.

Het determineren van layout-structuren, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt als voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige layout-structuur kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindeiijk gestructureerd PDF-document.Determining layout structures, in which text and graphic objects are rearranged on the basis of the aforementioned one or more scores, offers the advantage that different properties and thus interpretations can be investigated and maintained with a corresponding layout structure in order to ensure a semantically error-free and determine structurally correct possible organization for a ultimately structured PDF document.

In een voorkeursvorm van onderhavige uitvinding wordt het genoemde determineren van tekstlijnen uitgevoerd op basis van één of meerdere scores, welke per gedetermineerde tekstlijn worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige tekstlijn.In a preferred form of the present invention, said determination of text lines is performed on the basis of one or more scores, which are assigned per determined text line, wherein a score is proportional to a particular property of the corresponding text line.

Het determineren van tekstlijnen, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt ais voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige tekstlijn kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindeiijk gestructureerd PDF-document.Determining text lines, in which text and graphic objects are rearranged on the basis of the aforementioned one or more scores, offers the advantage that different properties and thus interpretations can be investigated and maintained with a corresponding text line in order to ensure that a semantically correct and structurally correct order is possible. to determine for a final structured PDF document.

In een tweede aspect betreft de uitvinding een systeem voor het structureren van een ongestructureerd PDF-document, zoals omschreven door conclusie 28.In a second aspect, the invention relates to a system for structuring an unstructured PDF document, as defined by claim 28.

In een derde aspect betreft de uitvinding een computerprogramma-product voor het structureren van een ongestructureerd PDF-document, zoals omschreven door conclusie 29. Verdere voorkeursvormen worden uitgewerkt in de deelconclusies.In a third aspect, the invention relates to a computer program product for structuring an unstructured PDF document, as defined by claim 29. Further preferred forms are elaborated in the sub-claims.

BESCHRIJVING VAN DE FIGURENDESCRIPTION OF THE FIGURES

Figuur 1 toont een schematisch blokdiagram, welke een voorkeursvorm illustreert voor een werkwijze volgens de onderhavige uitvinding.Figure 1 shows a schematic block diagram illustrating a preferred form for a method according to the present invention.

GEDETAILLEERDE BESCHRIJVINGDETAILED DESCRIPTION

In wat volgt, wordt de uitvinding beschreven a.d.h.v. niet-limiterende voorbeelden die de uitvinding illustreren, en die niet bedoeld zijn of geïnterpreteerd mogen worden om de omvang van de uitvinding te limiteren.In the following, the invention is described a.d.h.v. non-limiting examples illustrating the invention, and which are not intended or may be interpreted to limit the scope of the invention.

In een eerste aspect, betreft de onderhavige uitvinding een computer-geïmplementeerde werkwijze voor het structureren van een ongestructureerd PDF-document, welke computer-geïmplementeerde werkwijze volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten ; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.In a first aspect, the present invention relates to a computer-implemented method for structuring an unstructured PDF document, which computer-implemented method comprises the following consecutive steps: a) opening an unstructured PDF document, which comprises one or more pages ; b) extracting text objects and graphic objects from the data stream of said PDF document; c) reordering said objects according to a reading direction by: cl) determining text lines and / or text fragments, wherein a text line comprises an ordered collection of text objects; d) reordering said text lines and / or text fragments by: dl) determining and recording layout structures, wherein a layout structure is an ordered collection of text lines and / or text line fragments; e) rewriting the data stream of the PDF document, which rewritten data stream comprises said reordered objects; wherein said determination of layout structures is performed on the basis of one or more scores, which are assigned per possible layout structure, wherein a score is proportional to a particular property of the corresponding set of text lines and / or text line fragments and wherein the best-scoring layout structure.

Het determineren van layout-structuren, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt als voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige layout-structuur kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindelijk gestructureerd PDF-document.Determining layout structures, in which text and graphic objects are rearranged on the basis of the aforementioned one or more scores, offers the advantage that different properties and thus interpretations can be investigated and maintained with a corresponding layout structure in order to ensure a semantically error-free and determine structurally correct possible organization for a ultimately structured PDF document.

Deze werkwijze laat verder toe verschillende determinatie-strategieën te volgen en uit te voeren teneinde de genoemde tekst- en grafische objecten te rangschikken en te organiseren in verschillende verzamelingen. Dit laat toe een zo goed mogelijke keuze van ordening te bepalen, dit op basis van scores, toegekend per gedetermineerde layout-structuur.This method further allows to follow and implement different determination strategies in order to arrange said text and graphic objects and organize them into different collections. This makes it possible to determine the best possible choice of ordering, based on scores assigned per determined layout structure.

Deze computer-geïmplementeerde werkwijze betreft een werkwijze voor het structureren van een ongestructureerd PDF-document.This computer-implemented method relates to a method for structuring an unstructured PDF document.

De computer-geïmplementeerde werkwijze omvat als eerste stap het openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat (zie blok 11). De computer-geïmplementeerde werkwijze omvat als tweede stap het extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document (zie blok 12). Bij voorkeur betreft het genoemde extraheren een analyseren van de syntax van de genoemde datastroom.The computer-implemented method comprises as a first step the opening of an unstructured PDF document, which comprises one or more pages (see block 11). The computer-implemented method comprises, as a second step, extracting text objects and graphic objects from the data stream of the said PDF document (see block 12). Preferably, said extraction involves analyzing the syntax of said data stream.

De computer-geïmplementeerde werkwijze omvat als derde stap het herordenen van de genoemde objecten volgens een leesrichting (zie blok 13).The computer-implemented method comprises, as a third step, reordering the said objects according to a reading direction (see block 13).

Dit herordenen gebeurt mede door het determineren van tekstlijnen en/of tekstfragmenten. Hierbij omvat een tekstlijn of tekstfragment een geordende verzameling tekstobjecten. Tekstcomponenten in PDF-documenten stemmen meestal niet overeen met volledige lijnen en zelfs niet met volledige woorden. De derde stap laat toe correcties toe te passen, teneinde de verzameling tekstobjecten te verdelen over verschillende deelverzamelingen die elk één lijn voorstellen.This reordering is partly due to the determination of text lines and / or text fragments. A text line or text fragment comprises an ordered collection of text objects. Text components in PDF documents usually do not match complete lines and not even complete words. The third step allows corrections to be made in order to divide the collection of text objects into different subsets that each represent one line.

De computer-geïmplementeerde werkwijze omvat als vierde stap het herordenen van de genoemde tekstlijnen en/of tekstfragmenten (zie blok 14). Dit herordenen gebeurt mede door het determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten.The computer-implemented method comprises the fourth step of reordering the said text lines and / or text fragments (see block 14). This reordering is partly done by determining and recording layout structures, where a layout structure is an ordered collection of text lines and / or text line fragments.

Dit determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.This determination of layout structures is carried out on the basis of one or more scores, which are assigned per possible layout structure, where a score is proportional to a certain property of the corresponding collection of text lines and / or text line fragments and where the best-scoring layout text structure is established.

De computer-geïmplementeerde werkwijze omvat als vijfde stap het herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat (zie blok 15).The computer-implemented method comprises the fifth step of rewriting the data stream of the PDF document, which rewritten data stream comprises the said reordering objects (see block 15).

Met de term "PDF-document" wordt in onderhavige uitvinding een elektronisch document bedoeld met een 'Portable Document Format' of PDF-bestandsindeling. Onder deze term wordt tevens een bestand in PDF/X, PDF/A, PDF/E, PDF/UA of PDF/VT formaat verstaan.In the present invention, the term "PDF document" means an electronic document with a "Portable Document Format" or PDF file format. This term also means a file in PDF / X, PDF / A, PDF / E, PDF / UA or PDF / VT format.

Met de term "ongestructureerd PDF-document" wordt in onderhavige uitvinding een PDF-document bedoeld, welke een reeks losse stukjes tekst, lijnen en vórmen omvat, welke geen of onvoldoende structuur omvat zoals bijvoorbeeld bij een Tagged PDF-document.By the term "unstructured PDF document" is meant in the present invention a PDF document which comprises a series of separate pieces of text, lines and shapes, which does not comprise or suffers from a structure such as, for example, in a Tagged PDF document.

Met de term "object" wordt in onderhavige uitvinding een functioneel en operationeel concept in een welbepaalde programmeertaal verstaan, welk concept een verzameling data en een verzameling operaties omvat. De genoemde data omvatten variabelen. De genoemde operaties omvatten methoden, procedures of functies. Bij voorkeur is deze programmeertaal in onderhavige uitvinding een object-georiënteerde programmeertaal, zoals bv. Java.The term "object" in the present invention is understood to mean a functional and operational concept in a specific programming language, which concept comprises a collection of data and a collection of operations. The said data includes variables. The operations mentioned include methods, procedures or functions. Preferably, this programming language in the present invention is an object-oriented programming language, such as, for example, Java.

Met de term "tekstobject" wordt in onderhavige uitvinding een object bedoeld, welke een tekstfragment omvat. Een tekstfragment betreft één of meerdere karakters, informatie over het gebruikte lettertype, lettergrootte, letterkleur en positionele informatie. Bij voorkeur omvat positionele informatie een coördinaat welke het begin aanduidt van de basislijn van het tekstfragment, de tekstbreedte, coördinaten overeenkomstig het startpunt van de ascentlijn (i.e. de maximale hoogte boven de basislijn), coördinaten overeenkomstig het startpunt van de descentlijn (i.e. de maximale hoogte onder de basislijn), enz. Deze informatie wordt uitgedrukt in coördinaten en vectoren.By the term "text object" is meant in the present invention an object which comprises a text fragment. A text fragment concerns one or more characters, information about the font used, font size, font color and positional information. Preferably, positional information comprises a coordinate indicating the beginning of the baseline of the text fragment, the text width, coordinates corresponding to the starting point of the ascent line (ie the maximum height above the baseline), coordinates corresponding to the starting point of the descent line (ie the maximum height below the baseline), etc. This information is expressed in coordinates and vectors.

Met de term "grafisch object" wordt in onderhavige uitvinding een object bedoeld, welke een grafisch element omvat. Lijnen en vormen worden in PDF syntax typisch uitgedrukt met behulp van operatoren zoals "moveTo" (cfr. het verplaatsen naar een punt), "lineTo" (cfr. een rechte lijn naar een punt tekenen), "curveTo" (cfr. een curve naar een punt tekenen) en "rectangle" (cfr. een rechthoek construeren). Een ander type van "grafisch object" wordt voorgesteld door een sequentie van gekleurde pixels, gevat in een rechthoekig raster.By the term "graphic object" is meant in the present invention an object which comprises a graphic element. Lines and shapes are typically expressed in PDF syntax using operators such as "moveTo" (cf. moving to a point), "lineTo" (cf. drawing a straight line to a point), "curveTo" (cf. a curve draw to a point) and "rectangle" (see constructing a rectangle). Another type of "graphic object" is represented by a sequence of colored pixels, arranged in a rectangular grid.

Met de term "datastroom" wordt in onderhavige uitvinding data of inhoud bedoeld van een PDF-document.The term "data stream" in the present invention means data or content of a PDF document.

Met de term "leesrichting" wordt in onderhavige uitvinding een richting of volgorde bedoeld in de welke de lezer de informatie in een overeenkomstig PDF-document leest. Voor Westerse talen betreft de leesrichting bijvoorbeeld van links naar rechts en van boven naar onder.The term "reading direction" in the present invention means a direction or sequence in which the reader reads the information in a corresponding PDF document. For Western languages, the reading direction concerns, for example, from left to right and from top to bottom.

Met de term "score" wordt in onderhavige uitvinding een aanpasbare puntenhoeveelheid bedoeld, welke een waarde uitdrukt in evenredigheid met een eigenschap. Deze waarde is gelegen binnen een al dan niet begrensd bereik, bv. een reëel getal gelegen tussen 0 en 1.By the term "score" is meant in the present invention an adaptable amount of points, which expresses a value in proportion to a property. This value is within a limited or non-limited range, for example a real number between 0 and 1.

In een voorkeursvorm wordt het genoemde determineren van tekstlijnen uitgevoerd op basis van één of meerdere scores, welke per gedetermineerde tekstlijn worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige tekstlijn.In a preferred form, said determination of text lines is carried out on the basis of one or more scores, which are assigned per determined text line, wherein a score is proportional to a specific property of the corresponding text line.

Het determineren van tekstlijnen, waarbij tekst- en grafische objecten hergeordend worden op basis van de genoemde één of meerdere scores biedt als voordeel dat verschillende eigenschappen en dus interpretaties bij een overeenkomstige tekstlijn kunnen worden onderzocht en bijgehouden teneinde een semantisch zo foutloos en structureel correct mogelijke ordening te bepalen voor een uiteindelijk gestructureerd PDF-document.Determining text lines, in which text and graphic objects are rearranged on the basis of the aforementioned one or more scores, offers the advantage that different properties and thus interpretations can be examined and maintained with a corresponding text line in order to ensure that a semantically correct and structurally correct possible arrangement is possible. to determine for a ultimately structured PDF document.

In een geprefereerde voorkeursvorm omvat een tekstobject en een grafisch object minstens een overeenkomstige x-coördinaat en een y-coördinaat.In a preferred preferred form, a text object and a graphic object comprise at least a corresponding x coordinate and a y coordinate.

In een meer geprefereerde voorkeursvorm wordt de volgorde van objecten in een tekstlijn mede gedetermineerd door de genoemde x-coördinaat voor het overeenkomstige object.In a more preferred preferred form, the order of objects in a text line is also determined by the said x coordinate for the corresponding object.

Bijvoorbeeld, bij gelijke waarden van y, komt een tekstobject A met een kleinere x-coördinaat voor een tekstobject B met een grotere x waarde.For example, with equal values of y, a text object A with a smaller x coordinate comes before a text object B with a larger x value.

In een meer geprefereerde voorkeursvorm wordt de volgorde van objecten in een tekstlijn mede gedetermineerd door de genoemde y-coördinaat voor het overeenkomstige object.In a more preferred preferred form, the order of objects in a text line is also determined by the said y coordinate for the corresponding object.

Bijvoorbeeld, als het startpunt van de basislijn van een tekstobject A een y-coördinaat heeft die groter is dan de y-coördinaat van een tekstobject B, dit tekstobject A gerangschikt wordt voor het tekstobject B.For example, if the starting point of the baseline of a text object A has a y coordinate that is greater than the y coordinate of a text object B, this text object A is arranged for the text object B.

In een meer geprefereerde voorkeursvorm worden objecten in een tekstlijn mede gedetermineerd door een score evenredig met een spreiding rond een y-coördlnaat voor de tekstobjecten van de genoemde tekstlijn.In a more preferred preferred form, objects in a text line are also determined by a score proportional to a spread around a y-coordinate for the text objects of said text line.

Met de term "spreiding" wordt in onderhavige uitvinding de mate bedoeld waarin waarden onderling verschillen ten opzichte van een centrale waarde.The term "spread" in the present invention means the extent to which values differ from each other with respect to a central value.

Verschillende tekstcomponenten die voor het menselijk oog één lijn vormen, kunnen een licht afwijkende y-coördinaat hebben. Een goed voorbeeld hiervan is een exponent. Het kwadraat teken 2 zal een aparte tekstobject zijn (wegens de kleinere lettergrootte). De basislijn zal een y-coördinaat omvatten die groter is dan de y-coördinaat van de rest van de lijn. Door de y-coördinaten van niet enkel de basislijn, maar ook de ascentlijn en descentlijn van de verschillende tekstobjecten met elkaar te vergelijken, kunnen we deelverzamelingen maken van tekstobjecten die tot een zelfde tekstlijn behoren en kunnen die objecten herschikt worden op basis van de x-coördinaat van het startpunt van de basislijn. Bijvoorbeeld kan een score tussen 0 en 1 aan elke lijn worden toegekend. Deze score komt overeen met het percentage van tekstobjecten die veranderd moesten worden van plaats ten opzichte van het totaal aantal tekstobjecten die tot de zelfde tekstlijn behoren.Different text components that form a single line for the human eye can have a slightly different y-coordinate. A good example of this is an exponent. The square sign 2 will be a separate text object (due to the smaller font size). The baseline will include a y coordinate that is greater than the y coordinate of the rest of the line. By comparing the y coordinates of not only the baseline, but also the ascent line and descent line of the different text objects, we can make subsets of text objects that belong to the same text line and those objects can be rearranged based on the x- coordinate of the baseline starting point. For example, a score between 0 and 1 can be assigned to each line. This score corresponds to the percentage of text objects that had to be changed in relation to the total number of text objects that belong to the same text line.

In een geprefereerde voorkeursvorm worden objecten in een tekstlijn mede gedetermineerd door een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.In a preferred preferred form, objects in a text line are also determined by a score proportional to the space (s) in and between the text objects of said text line.

Met de term "tussenruimte" wordt in onderhavige uitvinding een mate bedoeld van karakters welke een lege ruimte aanduiden overeenkomstig een tekstlijn. Bij voorkeur betreffen dergelijke 'lege ruimte'-karakters spaties, tabulatie, enz.The term "spacing" in the present invention means a degree of characters indicating an empty space according to a text line. Preferably, such "empty space" characters relate to spaces, tabulation, etc.

Verschillende tekstcomponenten die voor het menselijk oog één geheel vormen, kunnen opgesplitst zijn in twee of meer verschillende componenten. Het woord "hallo" kan bestaan uit een tekstcomponent "hal" en een tekstcomponent Ίο", bij voorbeeld om typografische redenen, waarbij de twee letters "I" dichter bij elkaar geplaatst worden. Op basis van de positionele informatie die opgeslagen is in de tekstelementen kan de afstand tussen de twee tekstobjecten berekend worden en vergeleken worden met de breedte van een spatie in het overeenkomstige lettertype. Zo kunnen verschillende tekstobjecten als aansluitend gemarkeerd worden en andere als apart (i.e. bijvoorbeeld gescheiden door een spatie). Indien afstanden gedetecteerd worden die veel groter zijn dan een spatie, kan bijvoorbeeld een score gelegen tussen 0 en 1 toegekend worden aan de tekstlijn welke een percentage aangeeft die overeenstemt met de waarschijnlijkheid dat de tekstlijn één geheel vormt. Een waarde kleiner dan 1 wijst op tabulatie. Een waarde van 0.5 is dan bijvoorbeeld typisch voor een lijn in een inhoudstafel waarbij het eerste tekstelement links een titel is en het tweede tekstelement links een paginanummer. Een waarde van 0.25 is dan bijvoorbeeld typisch voor een rij uit een tabel met 4 kolommen.Different text components that form a whole for the human eye can be split into two or more different components. The word "hello" may consist of a text component "hal" and a text component Ίο ", for example for typographical reasons, where the two letters" I "are placed closer to each other. Based on the positional information stored in the text elements the distance between the two text objects can be calculated and compared with the width of a space in the corresponding font, for example, different text objects can be marked as contiguous and others as separate (ie separated by a space). larger than a space, for example, a score between 0 and 1 can be assigned to the text line which indicates a percentage that corresponds to the probability that the text line forms a whole. A value less than 1 indicates tabulation. A value of 0.5 is then, for example, typically for a line in a table of contents where the first text element on the left is a title and the second text element on the left a page number. For example, a value of 0.25 is typical of a row from a table with 4 columns.

In een geprefereerde voorkeursvorm omvat stap cl verder: - opsplitsen van tekstobjecten teneinde de gesplitste tekstobjecten te verdelen over meerdere tekstlijnen.In a preferred preferred form, step c1 further comprises: - splitting text objects in order to divide the split text objects over several text lines.

In een geprefereerde voorkeursvorm omvat stap c verder: c2) determineren van een koptekst en/of een voettekst, welke koptekst en voettekst een verzameling van één of meerdere tekstlijnen betreft respectievelijk bovenaan en onderaan verschillende pagina's.In a preferred preferred form, step c further comprises: c2) determining a header and / or a footer, which header and footer is a collection of one or more text lines at the top and bottom of different pages, respectively.

In een meer geprefereerde voorkeursvorm worden tekstlijnen in een koptekst en/of voettekst mede gedetermineerd door een score, welke evenredig is met de mate van tekstherhaling in overeenkomstige tekstlijnen over verschillende pagina's heen en welke evenredig is met het voorkomen van een oplopen van nummers in tekstobjecten van overeenkomstige tekstlijnen over verschillende pagina's heen.In a more preferred preferred form, text lines in a header and / or footer are also determined by a score which is proportional to the degree of repetition of text in corresponding text lines across different pages and which is proportional to the occurrence of numbers increasing in text objects of corresponding lines of text across different pages.

Hierbij worden bij voorkeur telkens de eerste en laatste lijnen per pagina tussen de pagina's onderling vergeleken. Hierbij kan een patroon te voorschijn komen, zoals een lijn tekst die om de andere pagina herhaald wordt. Dit kan een titel zijn van een hoofdstuk, de titel van een boek. Oplopende nummers duiden op paginanummers. Er wordt bijvoorbeeld een score berekend gelegen tussen 0 en 1 die een percentage aangeeft wat de kans is dat een lijn hetzij deel uitmaakt van een header, hetzij van voettekst. Bij een score hoger dan 0.5 wordt een lijn ais een artifact gemarkeerd en kunnen de coördinaten bepaald worden van dat gedeelte van de bladspiegel welke 'echte' inhoud omvat.Here, the first and last lines per page between the pages are preferably compared. A pattern can appear here, such as a line of text that is repeated every other page. This can be a title of a chapter, the title of a book. Ascending numbers indicate page numbers. For example, a score between 0 and 1 is calculated that indicates a percentage of the probability that a line is either part of a header or footer. With a score higher than 0.5, a line is marked as an artifact and the coordinates of that part of the page mirror which contains 'real' content can be determined.

Met de term "artifact" wordt in onderhavige uitvinding een esthetisch element bedoeld dat dient ter versiering of als hulpmiddel en welke geen effectief deel uitmaakt van de inhoud van een PDF-document. Zo is bijvoorbeeld een paginanummer geen effectief deel van de inhoud, maar een hulpmiddel om door de inhoud te kunnen navigeren.By the term "artifact" is meant in the present invention an aesthetic element that serves as decoration or as an aid and which does not form an effective part of the content of a PDF document. For example, a page number is not an effective part of the content, but a tool for navigating through the content.

In een voorkeursvorm wordt het genoemde determineren van layout-structuren uitgevoerd op basis van een analyse van de genoemde grafische objecten en/of tekstobjecten.In a preferred form, the said determination of layout structures is performed on the basis of an analysis of the said graphic objects and / or text objects.

In een voorkeursvorm betreft een layout-structuur één of een genestelde combinatie van volgende structuren: - stromingsstructuur; - kolomstructuur; - tabelstructuur; - zwevende structuur.In a preferred form, a layout structure relates to one or a nested combination of the following structures: - flow structure; - column structure; - table structure; - floating structure.

Met de term "stromingsstructuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld, welke doorlopende tekst omvat volgens een leesrichting. Voor Westerse talen betreft dit bijvoorbeeld lijnen van links naar rechts en van boven naar onder.By the term "flow structure" is meant in the present invention a structure on a page mirror, which comprises continuous text according to a reading direction. For Western languages this concerns lines from left to right and from top to bottom, for example.

Met de term "kolomstructuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld opgedeeld in kolommen, welke tekstlijnfragmenten omvatten.By the term "column structure", in the present invention, a structure on a leaf mirror is meant to be divided into columns, which include text line fragments.

Met de term "tabelstructuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld opgedeeld in rijen en kolommen.By the term "table structure" is meant in the present invention a structure on a leaf mirror divided into rows and columns.

Met de term "zwevende structuur" wordt in onderhavige uitvinding een structuur op een bladspiegel bedoeld welke verschillende "vlottende" stukjes tekst omvat.By the term "floating structure" is meant in the present invention a structure on a page mirror which comprises several "floating" pieces of text.

In een geprefereerde voorkeursvorm wordt een kolomstructuur of tabelstructuur mede gedetermineerd door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met het aantal verticale lijnen kruisend met de corresponderende gedetermineerde tekstlijn.In a preferred preferred form, a column structure or table structure is also determined by a score assigned to determined text lines, which score is proportional to the number of vertical lines intersecting with the corresponding determined text line.

Wanneer een verticale streep gedetecteerd wordt, wordt bij voorkeur een grafisch object toegevoegd aan tekstlijnen met dewelke deze streep kruist.When a vertical line is detected, a graphic object is preferably added to text lines with which this line intersects.

Voor elke tekstlijn wordt bijvoorbeeld een score gelegen tussen 0 en 1 toegekend.For example, a score between 0 and 1 is assigned for each text line.

Wanneer een horizontale streep gedetecteerd wordt, wordt bij voorkeur dit grafisch object op basis van de y-coördinaat van deze lijn toegevoegd aan de overeenkomstige tekstlijn. Een horizontale lijn kan wijzen op de aanwezigheid van rijen in een tabel, de aanwezigheid van een (onderlijnde) titel of een scheiding tussen paragrafen.When a horizontal line is detected, this graphic object is preferably added to the corresponding text line based on the y coordinate of this line. A horizontal line can indicate the presence of rows in a table, the presence of a (underlined) title or a separation between paragraphs.

In een geprefereerde voorkeursvorm wordt een kolomstructuur of tabelstructuur mede gedetermineerd door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.In a preferred preferred form, a column structure or table structure is also determined by a score assigned to determined text lines, which score is proportional to the space (s) in and between the text objects of said text line.

In een geprefereerde voorkeursvorm wordt een kolomstructuur of tabelstructuur mede gedetermineerd door een score toegekend aan gedetermineerde tekstlijnen, welke score evenredig is met een correlatie tussen score evenredig is met het aantal verticale lijnen kruisend met de corresponderende gedetermineerde tekstlijn en een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van de genoemde tekstlijn.In a preferred preferred form, a column structure or table structure is also determined by a score assigned to determined text lines, which score is proportional to a correlation between score proportional to the number of vertical lines intersecting with the corresponding identified text line and a score proportional to the spacing (s ) in and between the text objects of the said text line.

In een geprefereerde voorkeursvorm wordt een tabelstructuur mede gedetermineerd door een aanwezigheid van één of meerdere rechthoeken op een overeenkomstige pagina.In a preferred preferred form, a table structure is also determined by the presence of one or more rectangles on a corresponding page.

Wanneer een rechthoek gedetecteerd wordt, wordt deze bij voorkeur opgesplitst in horizontale en vertikale strepen. De aanwezigheid van een rechthoek verhoogt de waarschijnlijkheid van de aanwezigheid van een tabel.When a rectangle is detected, it is preferably split into horizontal and vertical stripes. The presence of a rectangle increases the probability of the presence of a table.

In een voorkeursvorm wordt het genoemde determineren van layout-structuren uitgevoerd per pagina.In a preferred form, said determination of layout structures is performed per page.

In een voorkeursvorm omvat stap d verder: d2) determineren van één of meerdere rasterbeeiden.In a preferred form, step d further comprises: d2) determining one or more field images.

Met de term "rasterbeeid" wordt in onderhavige uitvinding een een sequentie van gekleurde pixels gevat in een rechthoekig raster bedoeld, dus afbeelding of "image".By the term "raster image" is meant in the present invention a sequence of colored pixels contained in a rectangular raster, i.e. image or "image".

In een geprefereerde voorkeursvorm omvat stap d2 verder het op basis van coördinatenanalyse combineren van meerdere rasterbeeiden tot één rasterbeeid.In a preferred preferred form, step d2 further comprises combining multiple raster images on the basis of coordinate analysis into one raster image.

In een geprefereerde voorkeursvorm omvat stap d2 verder het determineren of een rasterbeeid al dan niet een artifact is op basis van een score evenredig met tekstoverlap met het rasterbeeid en van een score evenredig met een buiten de gedetermineerde bladspiegel liggen van het genoemde rasterbeeid.In a preferred preferred form, step d2 further comprises determining whether or not a raster image is an artifact based on a score proportional to text overlap with the raster image and a score proportional to a raster image of said raster image.

Door de coördinaten te bestuderen, kan achterhaald worden of een beeld een artifact is of effectief deel uitmaakt van de inhoud. Bijvoorbeeld wordt een score bepaald tussen 0 en 1, welke score overeenkomt met het percentage van het beeld dat overlapt wordt door tekst. Een andere waarde tussen 0 en 1 kan worden toegekend, welke overeenkomt met het percentage dat buiten de eerder bepaalde bladspiegel van eigenlijke tekst valt. Hogere scores duiden op een artifact.By studying the coordinates, it can be traced whether an image is an artifact or is effectively part of the content. For example, a score is determined between 0 and 1, which score corresponds to the percentage of the image that is overlapped by text. Another value between 0 and 1 can be assigned, which corresponds to the percentage that falls outside the previously determined page level of actual text. Higher scores indicate an artifact.

In een voorkeursvorm omvat stap d verder: d3) determineren van één of meerdere bijschriften bij een overeenkomstige tabel, figuur of rasterbeeid.In a preferred form, step d further comprises: d3) determining one or more captions for a corresponding table, figure or screen image.

Met de term "bijschrift" wordt in onderhavige uitvinding een bovenschrift of onderschrift bedoeld welke duiding verschaft overeenkomstig een grafische entiteit, zoals bijvoorbeeld een tabel, figuur of rasterbeeid.By the term "caption" is meant in the present invention an upper or lower caption which provides interpretation according to a graphic entity, such as, for example, a table, figure, or raster image.

Een pagina kan ook bestaan uit een combinatie van verschillende layouts. Door bijvoorbeeld het reorganiseren van tekstobjecten en grafische objecten zodat kolommen in de juiste volgorde gelezen kunnen worden, idem wat betreft de cellen van een tabel. In het geval van een tabel, kan bijvoorbeeld de tekstlijn voorafgaand aan en volgend op de tabel worden geanalyseerd, Indien één van deze lijnen wat lettertype, -groote of -kleur afwijkt van de rest van de lijnen, en/of indien een bepaald patroon herkend wordt (bij voorbeeld "tabel x.y" waarbij x en y getallen zijn), dan hoort deze lijn waarschijnlijk bij de tabel. De overeenkomstige lijn wordt als bijschrift bij de tabel gedetermineerd. Een werkwijze voor het determineren van bijschriften bij een figuur of rasterbeeid is analoog.A page can also consist of a combination of different layouts. For example, by reorganizing text objects and graphic objects so that columns can be read in the correct order, the same with regard to the cells of a table. In the case of a table, for example, the text line can be analyzed before and after the table, If one of these lines differs somewhat from the rest of the lines, font size or color, and / or if a certain pattern is recognized (for example, "table becomes xy" where x and y are numbers), then this line probably belongs to the table. The corresponding line is determined as a caption to the table. A method for determining captions to a figure or raster image is analogous.

In een geprefereerde voorkeursvorm wordt een bijschrift mede gedetermineerd door patroonherkenning bij een voorafgaande of opvolgende tekstlijn overeenkomstig de tabel, figuur of rasterbeeid.In a preferred preferred form, a caption is also determined by pattern recognition at a preceding or subsequent text line according to the table, figure, or raster image.

In een voorkeursvorm omvat stap d verder: d4) determineren van een inhoudstafel.In a preferred form, step d further comprises: d4) determining a table of contents.

Het determineren van een inhoudstafel kan op verschillende manieren:Determining a table of contents can be done in different ways:

Bijvoorbeeld als er een gestructureerde boomstructuur of 'outline tree' aanwezig is in het PDF-documents (cfr, bookmarks), dan komt deze meestal overeen met een hiërarchisch georganiseerde inhoudstafel. Elk onderdeel van deze boomstructuur verwijst naar een bepaalde coördinaat. Op basis hiervan kan een overeenkomstige tekstlijn gemarkeerd worden als een titel.For example, if there is a structured tree structure or 'outline tree' present in the PDF documents (cfr, bookmarks), then this usually corresponds to a hierarchically organized table of contents. Each part of this tree structure refers to a specific coordinate. Based on this, a corresponding text line can be marked as a title.

Alternatief, bij het ontbreken van een gestructureerde boomstructuur, kan er gezocht worden naar een inhoudstafel in de inhoud. Vaak bevindt deze zich hetzij vooraan in het document, hetzij achteraan. Bijvoorbeeld wordt gezocht op vooraf gedefinieerde tekst ("Inhoudstafel", "Table of Contents"). Preferentieel wordt geanalyseerd of deze tekst gevolgd wordt door tekstlijnen met een tabulatiepercentage van bijvoorbeeld 0.5. Als voorgedefinieerde tekst ontbreekt, kan bij tabulatiepercentages van 0.5 geanalyseerd worden of één van de tekstdelen een (pagina)nummer is, en zo een corresponderende titel te vinden in de tekst. Indien koptekst of voettekst gevonden werd, kan deze een indicatie geven van hoofdstukken. Bij voorkeur wordt in de buurt van een gewijzigde koptekst gezocht naar tekst die voor een groot percentage overeenstemt met de tekst in de koptekst. Dat markeert de start van een hoofdstuk.Alternatively, in the absence of a structured tree structure, a table of contents in the content can be searched for. Often it is either at the front of the document or at the back. For example, predefined text is searched ("Table of Contents", "Table of Contents"). It is preferentially analyzed whether this text is followed by text lines with a tabulation percentage of, for example, 0.5. If predefined text is missing, tabulation percentages of 0.5 can be used to analyze whether one of the text parts is a (page) number, and thus find a corresponding title in the text. If header or footer is found, it can give an indication of chapters. It is preferable to search for text that matches a large percentage of the text in the header in the vicinity of a modified header. That marks the start of a chapter.

Bijvoorbeeld wordt voor elke verzameling tekstobjecten de lettertypes, lettergroottes en letterkleuren van alle tekstcomponenten geanalyseerd, waarbij elke combinatie een score tussen 0 en 1 wordt toegekend, welke overeenkomt met het percentage tekst waarvoor een specifieke combinatie gebruikt wordt ten opzichte van de lengte van de volledige lijn. Bijvoorbeeld een waarde 1 laat toe de lijn te kwalificeren als een uniforme lijn. Bij waarden verschillend van 1 wordt rekening gehouden met de mate waarin de verschillende tekstcomponenten verschillen: uniforme kleur, lettergrootte, lettertype, enz. Bij voorkeur wordt op basis van een score gedetermineerd of een lijn met verschillende combinaties toch als uniform beschouwd mag worden. Meer bij voorkeur wordt een dominante combinatie van lettertype, -grootte en -kleur tussen de verschillende tekstlijnen onderling vergeleken. Hierdoor kunnen titels worden onderscheiden, alsook een hiërarchie in de titels.For example, for each collection of text objects, the fonts, font sizes, and font colors of all text components are analyzed, whereby each combination is assigned a score between 0 and 1, which corresponds to the percentage of text for which a specific combination is used relative to the length of the entire line . For example, a value of 1 allows the line to be qualified as a uniform line. For values different from 1, account is taken of the extent to which the different text components differ: uniform color, font size, font, etc. It is preferably determined on the basis of a score whether a line with different combinations can nevertheless be regarded as uniform. More preferably, a dominant combination of font, size and color between the different text lines is compared with each other. This allows titles to be distinguished, as well as a hierarchy in the titles.

Deze reeks structuurelementen laat toe nieuwe deelverzamelingen te creëren, die de reeds bestaande deelverzamelingen organiseren in hoofdstukken, secties, subsecties enz. Hierbij worden bepaalde tekstlijnen gemarkeerd ook als titels van deze entiteiten. Dit laat toe een gestructureerde boomstructuur te creëren (indien die ontbrak) en pagina's toe te voegen met een inhoudstafel (indien nodig).This set of structural elements makes it possible to create new subsets that organize the existing subsets into chapters, sections, subsections, etc. Certain text lines are also marked as titles of these entities. This makes it possible to create a structured tree structure (if it was missing) and to add pages with a table of contents (if necessary).

In een geprefereerde voorkeursvorm wordt een inhoudstafel mede gedetermineerd door een score evenredig met de tussenruimte(s) in en tussen de tekstobjecten van één of meerdere tekstlijnen.In a preferred preferred form, a table of contents is also determined by a score proportional to the space (s) in and between the text objects of one or more text lines.

In een voorkeursvorm omvat stap d verder: d5) determineren van één of meerdere paragrafen.In a preferred form, step d further comprises: d5) determining one or more paragraphs.

Met de term "paragraaf" wordt in onderhavige uitvinding een doorlopend stuk tekst bedoeld.The term "paragraph" in the present invention means a continuous piece of text.

Door het bestuderen van tekstlijnen kunnen paragrafen worden onderscheiden. Bijvoorbeeld door de onderlinge afstanden tussen de verschillende lijnen te analyseren om "spacing before / spacing after" te detecteren, of te analyseren welke lijnen niet doorlopen tot aan de rechtermarge, wat vaak het geval is bij de laatste lijn in een paragraaf. Ook het voorkomen van indentatie kan mee paragrafen determineren. Een insprong bij een eerste lijn, kan wijzen op de start van een paragraaf.Paragraphs can be distinguished by studying text lines. For example, by analyzing the distances between the different lines to detect "spacing before / spacing after", or by analyzing which lines do not extend to the right margin, which is often the case with the last line in a paragraph. The occurrence of indentation can also help determine paragraphs. An indentation at a first line may indicate the start of a paragraph.

In een voorkeursvorm omvat stap d verder: d6) determineren van één of meerdere lijsten.In a preferred form, step d further comprises: d6) determining one or more lists.

Met de term "lijst" wordt in onderhavige uitvinding een opeenvolging van lijnen bedoeld al dan niet voorzien van een indentatie of speciaal herhalend karakter, bv. bullet.By the term "list" is meant in the present invention a sequence of lines whether or not provided with an identification or special repeating character, e.g. bullet.

Indentatie en het voorkomen van een speciaal karakter, zoals een bullet, of een oplopende rij getallen of alfabetische karakters gevolgd door een punt, wijst bijvoorbeeld op de aanwezigheid van een lijst.For example, identification and the occurrence of a special character, such as a bullet, or an ascending row of numbers or alphabetical characters followed by a dot, indicates the presence of a list.

In een voorkeursvorm omvat stap d verder: d7) corrigeren van gedetermineerde layout-structuren en/of tekstlijnen op basis van manuele invoer.In a preferred form, step d further comprises: d7) correcting determined layout structures and / or text lines based on manual input.

Dit laat toe mogelijks fout geïnterpreteerde layout-structuren of tekstlijnen aan te passen alvorens het PDF-document wordt herschreven.This makes it possible to adjust misinterpreted layout structures or text lines before the PDF document is rewritten.

In een voorkeursvorm omvat genoemde herschreven datastroom de genoemde hergeordende objecten en informatie betreffende gedetermineerde layout-structuren.In a preferred form, said rewritten data stream comprises said reordered objects and information regarding determined layout structures.

Bijvoorbeeld zal een verzameling die een hoofdstuk omvat, een deelverzameling omvatten welke één tekstlijn omvat met de titel, een deelverzameling die een reeks tekstlijnen omvat die samen een paragraaf vormen, een deelverzameling die een tabel vormt, welke op zijn beurt deelverzamelingen omvat voor elke rij die opgedeeld is in deelverzamelingen per kolom. Deze structuur wordt bij voorkeur geschreven als een gestructureerde boom die wordt toegevoegd aan het PDF-document. De originele datastroom wordt herschreven in een volgorde die overeenkomt met de logische leesvolgorde, waarbij de structurele informatie wordt toegevoegd, conform de beschrijvingen in de PDF-standaard. Op deze manier wordt een Tagged PDF-document bekomen.For example, a collection that includes a chapter will include a subset that includes one text line with the title, a subset that includes a series of text lines that together form a paragraph, a subset that forms a table, which in turn includes subsets for each row that is subdivided into subsets per column. This structure is preferably written as a structured tree that is added to the PDF document. The original data stream is rewritten in a sequence corresponding to the logical reading sequence, with the structural information being added, in accordance with the descriptions in the PDF standard. In this way a Tagged PDF document is obtained.

In een voorkeursvorm omvat werkwijze verder: f) toevoegen van aanklikbare annotaties voor interne en externe links aan de genoemde datastroom.In a preferred form, the method further comprises: f) adding clickable annotations for internal and external links to said data stream.

Met de term "aanklikbare annotaties" wordt in onderhavige uitvinding een interne of externe link bedoeld welke toegevoegd is aan een tekstobject of grafisch object, dewelke een gebruiker kan aanklikken. PDF-pagina's bevatten vaak interne en externe verwijzingen in de vorm van aanklikbare annotaties (links). Deze annotaties zijn aparte objecten die los staan van de datastroom. Een voorbeeld van een externe verwijzing is het adres van een website, bij voorbeeld http://itextpdf.com. Zo'n link heeft een vaste structuur welke gemakkelijk met een reguliere expressie te herkennen is. Bij voorkeur wordt tekst geanalyseerd op het voorkomen van dergelijke patronen en indien geen link annotatie voorzien is, wordt die op de correcte positie toegevoegd aan het document. Zo kan gezocht worden naar minder triviale patronen, zoals "zie tabel x.y" of "zie figuur x.y" waarbij x en y getallen zijn. Op basis van de eerder verzamelde structurele informatie, kan een goede inschatting gemaakt worden van de tabellen of figuren waar mogelijks naar verwezen wordt. Deze verwijzingen betreffen bij voorkeur aanklikbare links.By the term "clickable annotations" is meant in the present invention an internal or external link which is added to a text object or graphic object, which a user can click. PDF pages often contain internal and external references in the form of clickable annotations (links). These annotations are separate objects that are separate from the data stream. An example of an external reference is the address of a website, for example http://itextpdf.com. Such a link has a fixed structure that can easily be recognized with a regular expression. Preferably, text is analyzed for the occurrence of such patterns and if no link annotation is provided, it is added to the document at the correct position. For example, less trivial patterns can be searched for, such as "see table x.y" or "see figure x.y" where x and y are numbers. Based on the previously collected structural information, a good estimate can be made of the tables or figures that may be referred to. These references preferably concern clickable links.

In een tweede aspect betreft de onderhavige uitvinding een systeem voor het structureren van een ongestructureerd PDF-document, welk systeem een centrale verwerkingseenheid omvat, welke geconfigureerd is voor het uitvoeren van de computer-geïmplementeerde werkwijze welke volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of te kstl i j n f ra g m ente n ; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.In a second aspect, the present invention relates to a system for structuring an unstructured PDF document, which system comprises a central processing unit, which is configured to perform the computer-implemented method which comprises the following consecutive steps: a) opening a unstructured PDF document, which includes one or more pages; b) extracting text objects and graphic objects from the data stream of said PDF document; c) reordering said objects according to a reading direction by: cl) determining text lines and / or text fragments, wherein a text line comprises an ordered collection of text objects; d) reordering said text lines and / or text fragments by: dl) determining and recording layout structures, wherein a layout structure is an ordered collection of text lines and / or can be scaled; e) rewriting the data stream of the PDF document, which rewritten data stream comprises said reordered objects; wherein said determination of layout structures is performed on the basis of one or more scores, which are assigned per possible layout structure, wherein a score is proportional to a particular property of the corresponding set of text lines and / or text line fragments and wherein the best-scoring layout structure.

In een derde aspect betreft de onderhavige uitvinding een computerprogramma-product voor het structureren van een ongestructureerd PDF-document, welk computerprogramma-product tenminste één computer-leesbaar medium omvat waarop computer-leesbare programmacode-porties zijn opgeslagen, welke programmacode-porties instructies omvatten voor het uitvoeren van de computer-geïmplementeerde werkwijze welke volgende opeenvolgende stappen omvat: a) openen van een ongestructureerd PDF-document, welke één of meerdere pagina's omvat; b) extraheren van tekstobjecten en grafische objecten uit de datastroom van het genoemde PDF-document; c) herordenen van de genoemde objecten volgens een leesrichting door: cl) determineren van tekstlijnen en/of tekstfragmenten, waarbij een tekstlijn een geordende verzameling tekstobjecten omvat; d) herordenen van de genoemde tekstlijnen en/of tekstfragmenten door: dl) determineren en vastleggen van layout-structuren, waarbij een layout-structuur een geordende verzameling is van tekstlijnen en/of tekstlijnfragmenten ; e) herschrijven van de datastroom van het PDF-document, welke herschreven datastroom de genoemde hergeordende objecten omvat; waarbij het genoemde determineren van layout-structuren wordt uitgevoerd op basis van één of meerdere scores, welke per mogelijke layout-structuur worden toegekend, waarbij een score evenredig is met een bepaalde eigenschap van de overeenkomstige verzameling tekstlijnen en/of tekstlijnfragmenten en waarbij de best scorende layout-structuur vastgelegd wordt.In a third aspect, the present invention relates to a computer program product for structuring an unstructured PDF document, which computer program product comprises at least one computer-readable medium on which computer-readable program code portions are stored, which program code portions include instructions for performing the computer-implemented method which comprises the following consecutive steps: a) opening an unstructured PDF document, which comprises one or more pages; b) extracting text objects and graphic objects from the data stream of said PDF document; c) reordering said objects according to a reading direction by: cl) determining text lines and / or text fragments, wherein a text line comprises an ordered collection of text objects; d) reordering said text lines and / or text fragments by: dl) determining and recording layout structures, wherein a layout structure is an ordered collection of text lines and / or text line fragments; e) rewriting the data stream of the PDF document, which rewritten data stream comprises said reordered objects; wherein said determination of layout structures is performed on the basis of one or more scores, which are assigned per possible layout structure, wherein a score is proportional to a particular property of the corresponding set of text lines and / or text line fragments and wherein the best-scoring layout structure.

Het is verondersteld dat de huidige uitvinding niet beperkt is tot de uitvoeringsvormen die hierboven beschreven zijn en dat enkele aanpassingen of veranderingen aan de beschreven voorbeelden kunnen toegevoegd worden zonder de toegevoegde conclusies te herwaarderen.It is believed that the present invention is not limited to the embodiments described above and that some modifications or changes can be added to the described examples without re-evaluating the appended claims.

Claims

CONCLUSIONS

A computer-implemented method for structuring an unstructured PDF document, the computer-implemented method comprising the following consecutive steps: a) opening an unstructured PDF document, which comprises one or more pages; b) extracting text objects and graphic objects from the data stream of said PDF document; c) reordering said objects according to a reading direction by: cl) determining text lines and / or text fragments, wherein a text line comprises an ordered collection of text objects; d) reordering said text lines and / or text fragments by: dl) determining and recording layout structures, wherein a layout structure is an ordered collection of text lines and / or text line fragments; e) rewriting the data stream of the PDF document, which rewritten data stream comprises said reordered objects; characterized in that said determination of layout structures is performed on the basis of one or more scores, which are assigned per possible layout structure, wherein a score is proportional to a particular property of the corresponding set of text lines and / or text line fragments and where the best-scoring layout structure is established.

Method according to the preceding claim 1, characterized in that said determination of text lines is performed on the basis of one or more scores, which are assigned per determined text line, wherein a score is proportional to a specific property of the corresponding text line.

Method according to the preceding claim 2, characterized in that a text object and a graphic object comprise at least one corresponding x coordinate and a y coordinate.

Method according to one of the preceding claims 2-3, characterized in that objects in a text line are also determined by a score proportional to a spread around a y coordinate for the text objects of said text line.

Method according to one of the preceding claims 3-4, characterized in that the order of objects in a text line is also determined by said x coordinate for the corresponding object.

A method according to any one of the preceding claims 2-5, characterized in that objects in a text line are also determined by a score proportional to the space (s) in and between the text objects of said text line.

A method according to any one of the preceding claims 2-6, characterized in that step c1 further comprises: - splitting text objects in order to divide the split text objects over several text lines.

A method according to any one of the preceding claims 2-7, characterized in that step c further comprises: c2) determining a header and / or a footer, which header and footer is a collection of one or more text lines respectively at the top and at the bottom different pages.

A method according to the preceding claim 8, characterized in that text lines in a header and / or footer are also determined by a score which is proportional to the degree of text repetition in corresponding text lines across different pages and which is proportional to the appearance of increasing numbers in text objects of corresponding text lines across different pages. 10. according to one of the preceding claims 1-9, characterized in that said determination of iayout structures is carried out on the basis of an analysis of the said graphic objects and / or text objects.

A method according to any one of the preceding claims 1-10, characterized in that a Iayout structure relates to one or a nested combination of the following structures: - flow structure; - column structure; - table structure; - floating structure.

Method according to the preceding claim 11, characterized in that a column structure or table structure is partly determined by a score assigned to determined text lines, which score is proportional to the number of vertical lines intersecting with the corresponding determined text line.

A method according to any one of the preceding claims 11-12, characterized in that a column structure or table structure is also determined by a score assigned to determined text lines, which score is proportional to the space (s) in and between the text objects of said text objects. text line.

A method according to any one of the preceding claims 11-13, characterized in that a column structure or table structure is co-determined by a score assigned to determined text lines, which score is proportional to a correlation between score proportional to the number of vertical lines intersecting with the corresponding determined text line and a score proportional to the space (s) in and between the text objects of said text line.

A method according to any one of the preceding claims 11-14, characterized in that a table structure is also determined by the presence of one or more rectangles on a corresponding page.

A method according to any one of the preceding claims 1-15, characterized in that said determining layout structures is performed per page.

A method according to any one of the preceding claims 1-16, characterized in that step d further comprises: d2) determining one or more field images.

Method according to the preceding claim 17, characterized in that step d2 further comprises combining a plurality of frame images into one frame image based on coordinate analysis.

A method according to any one of the preceding claims 17-18, characterized in that step d2 further comprises determining whether or not a raster image is an artifact based on a score proportional to text overlap with the raster image and a score proportional to a lie outside the determined leaf mirror of the aforementioned raster image.

A method according to any one of the preceding claims 1-19, characterized in that step d further comprises: d3) determining one or more captions for a corresponding table, figure or screen image.

A method according to the preceding claim 20, characterized in that a caption is also determined by pattern recognition at a preceding or subsequent text line according to the table, figure or raster image.

A method according to any one of the preceding claims 1-21, characterized in that step d further comprises: d4) determining a table of contents.

Method according to the preceding claim 22, characterized in that a table of contents is also determined by a score proportional to the space (s) in and between the text objects of one or more text lines.

A method according to any one of the preceding claims 1-23, characterized in that step d further comprises: d5) determining one or more paragraphs.

A method according to any one of the preceding claims 1-24, characterized in that step d further comprises: d6) determining one or more lists.

A method according to any one of the preceding claims 1-25, characterized in that said rewritten data stream comprises said reordered objects and information regarding determined layout structures.

A method according to any one of the preceding claims 1-26, characterized in that the method further comprises: f) adding clickable annotations for internal and external links to said data stream.

A system for structuring an unstructured PDF document, which system comprises a central processing unit, which is configured to perform the computer-implemented method as defined by claims 1-27.

A computer program product for structuring an unstructured PDF document, which computer program product comprises at least one computer-readable medium on which computer-readable program code portions are stored, which program code portions include instructions for executing the computer-implemented method as defined by claims 1-27.