NO329425B1

NO329425B1 - System and method to improve configuration and cost-effectiveness for computing tasks

Info

Publication number: NO329425B1
Application number: NO20091142A
Authority: NO
Inventors: Petter Moe; Kjetil Bergstrand; Clemens Marschner
Original assignee: Microsoft Internat Holdings B
Priority date: 2009-03-17
Filing date: 2009-03-17
Publication date: 2010-10-18
Also published as: NO20091142L

Abstract

Et system for å planlegge og koordinere utførelsen av databehandlingsoppgaver med innbyrdes avhengighet omfattende et adresserom (1) og en mengde (2) av operatorer (P) som kan forbindes med adresserommet ved hjelp av skrive- og lesekursorer (W;R). Adresserommet (1) omfatter en rekke lag, slik at et første lag (L1) av adresserommet (1) er innrettet til å lagre en inngitt innholdsstrøm (S1) og ytterligere lag (L2, L3,...) er anordnet for å lagre henholdsvis genererte og avhengige innholdsstrømmer (S2, S3, ...). Operatorene (P) som kan forbindes med adresserommet (1), benyttes til å prosessere data i en innholdsstrøm (S) og genererer avhengige, ytterligere innholdsstrømmer (SD) på grunnlag av dette. Hver operator (P) omfatter skrivekursorer (W) for å skrive data og lesekursorer (R) for å lese data. I en fremgangsmåte til bruk med systemet leses en inngitt innholdsstrøm og behandles for å generere en eller flere ytterligere avhengige innholdsstrømmer. Avhengige innholdsstrømmer lagres i respective virtuelle lagringslag anordnet i økende monoton orden i et adresserom. Leseoperasjoner utføres slik at avhengighetene mellom innholdsstrømmene danner en rettet asyklisk graf. Skriving av data til et lag finner sted slik at skrivingen alltid er forløpt kortere enn skrivingen av alle lag som det lag underskriving avhenger av.A system for planning and coordinating the execution of interdependent data processing tasks comprising an address space (1) and a set (2) of operators (P) that can be connected to the address space by means of write and read cursors (W; R). The address space (1) comprises a series of layers, so that a first layer (L1) of the address space (1) is arranged to store an input content stream (S1) and further layers (L2, L3, ...) are arranged for storing generated and dependent content streams (S2, S3, ...), respectively. The operators (P) that can be connected to the address space (1) are used to process data in a content stream (S) and generate dependent, additional content streams (SD) on this basis. Each operator (P) includes write cursors (W) for writing data and read cursors (R) for reading data. In a method of use with the system, an input content stream is read and processed to generate one or more additional dependent content streams. Dependent content streams are stored in respective virtual storage layers arranged in increasing monotonic order in an address space. Reading operations are performed so that the dependencies between the content streams form a directed acyclic graph. Writing data for a layer takes place so that the writing has always been shorter than the writing of all layers on which the layer signing depends.

Description

System og fremgangsmåte til å forbedre konfigurasjon og kostnadseffektivitet for databehandlingsoppgaver System and method for improving configuration and cost efficiency for computing tasks

OPPFINNELSENS OMRÅDE FIELD OF THE INVENTION

Den foreliggende oppfinnelsen angår et system for å planlegge og koordinere eksekvering av databehandlingsoppgaver med innbyrdes avhengigheter, hvor dataene inngis til systemet eller genereres i dette som innholdsstrømmer fra forskjellige kilder innbefattet tekst-, audio- eller videokilder så vel som blandinger derav, og en fremgangsmåte til bruk med systemet i henhold til krav 1, hvor en innholdsstrøm inngis og lagres i et første virtuelt lagringslag i et adresserom. The present invention relates to a system for planning and coordinating the execution of interdependent data processing tasks, where the data is entered into the system or generated therein as content streams from different sources including text, audio or video sources as well as mixtures thereof, and a method for use with the system according to claim 1, wherein a content stream is entered and stored in a first virtual storage layer in an address space.

Oppfinnelsen angår området databehandling, hvor inngangsdata så som databaseposter fra databaser, audio- eller videostrømmer eller dokumenter fra andre magasiner behandles med en mengde av algoritmer (analyseoperatorer) som kan være avhengige av hverandre og omformer inndataene til en utgangrepresentasjon som føres videre til andre systemer så som søkemotorer eller igjen databaser. Spesielt angår den foreliggende oppfinnelse annotering av innhold og lagring av annotert innhold. The invention relates to the area of data processing, where input data such as database records from databases, audio or video streams or documents from other magazines are processed with a number of algorithms (analysis operators) that can be dependent on each other and transform the input data into an output representation that is passed on to other systems such as search engines or again databases. In particular, the present invention relates to the annotation of content and the storage of annotated content.

INNLEDNING INTRODUCTION

Det er mange eksempler på behandlingssystemer hvor én eller flere inngitte representasjoner undergår en rekke omformings- eller analysetrinn. Ta f.eks. generering av undertekster, som for tiden forekommer i mange fjernsynsprogrammer. En måte å automatisk generere slike undertekster på er å utføre en rekke trinn: a) separere audioutgangen fra den kombinerte representasjon av programmet, b) kjøre en tale-til-tekstomforming over denne audioutgangen, c) mate utdata fra trinn b) gjennom et automatisk oversettelsessystem, og d) flette den skrevne tekst tilbake i den kombinerte representasjon av programmet. There are many examples of processing systems where one or more entered representations undergo a series of transformation or analysis steps. Take e.g. generation of subtitles, which currently occurs in many television programs. One way to automatically generate such subtitles is to perform a series of steps: a) separate the audio output from the combined representation of the program, b) run a speech-to-text conversion over this audio output, c) feed the output of step b) through an automatic translation system, and d) merge the written text back into the combined representation of the program.

En måte å planlegge denne omformingen ville være å ha det opprinnelige program lagret som en fil og kjøre hvert omformingstrinn uavhengig, slik at nye filer genereres med den nye informasjon. Selv om denne prosessen er enkel, har den en rekke ulemper. For det første antar den at programmet står til rådighet som en fullstendig fil, noe som gjør det vanskelig å kjøre hvis en direkte generering av resultatet er nødvendig. I tillegg vil flere gjennomkjøringer av data typisk ikke være effektivt i dagens behandlingssystemer. One way to plan this conversion would be to have the original program saved as a file and run each conversion step independently, so that new files are generated with the new information. Although this process is simple, it has a number of disadvantages. First, it assumes that the program is available as a complete file, which makes it difficult to run if a direct generation of the result is required. In addition, multiple runs of data will typically not be effective in today's processing systems.

En annen måte ville være å hardkode behandlingstrinnene i applikasjon som genererer dataene. Dette er kraftig, men ikke fleksibelt. Another way would be to hardcode the processing steps in the application that generates the data. This is powerful but not flexible.

KJENT TEKNIKK PRIOR ART

Det eksisterer i dag systemer som analyserer en lang rekke typer innhold. Disse systemene analyserer vanligvis innhold i en sekvens av diskrete trinn hvor hvert trinn må fullføre prosesseringen før et nytt trinn kan starte. Dette viser seg ineffektivt, spesielt hvis størrelsen av innholdet som analyseres, forhindrer innholdet fra å holdes i minnet. Systems exist today that analyze a wide range of types of content. These systems typically analyze content in a sequence of discrete steps where each step must complete processing before a new step can begin. This proves inefficient, especially if the size of the content being parsed prevents the content from being held in memory.

En tilnærming som er benyttet for å redusere behovet for ekstern lagring i innholdsanalytikk har vært å hakke innholdet opp i håndterbare deler som vil kunne legges i minnet. Dette løser det nærliggende problem med behov for ekstern lagring, men kompliserer implementeringen av applikasjonen. De analytiske komponenter må behandle innholdsdeler ("content chunks") forskjellig fra deler som ikke er hakket opp. Dette gjelder spesielt analytiske komponenter som analyserer store deler av dokumentet, dvs. deler som er større enn en enkelt opphakket del. Særlig forsiktighet må utvises for å forhindre informasjon fra å gå tapt i opphakkingsprosessen. An approach that has been used to reduce the need for external storage in content analytics has been to chop up the content into manageable parts that can be stored in memory. This solves the proximate problem of needing external storage, but complicates the implementation of the application. The analytical components must treat content chunks differently from unchopped chunks. This particularly applies to analytical components that analyze large parts of the document, i.e. parts that are larger than a single chopped part. Special care must be taken to prevent information from being lost in the hacking process.

Et annet eksempel er pipeline-baserte metoder som Unix skall-ledning ("shell pipeline"), hvor en enkelt strøm av innhold føres til et program, som frembringer en ny strøm som sendes over til den neste i ledningen. Øyensynlig behøver dette ikke å ta hensyn til det faktum at noen prosesseringstrinn kan kjøres i parallell, da informasjon lagt til av ett program bare behøver å leses av en liten undermengde av programmer. Hvert program må forbruke og reprodusere alle data, noe som blir ineffektivt i store behandlingsscenarier. Another example is pipeline-based methods such as the Unix shell pipeline ("shell pipeline"), where a single stream of content is fed to a program, which produces a new stream that is passed on to the next in the pipeline. Obviously, this does not take into account the fact that some processing steps can be run in parallel, as information added by one program only needs to be read by a small subset of programs. Each program must consume and reproduce all data, which becomes inefficient in large processing scenarios.

OPPFINNELSENS HENSIKTER OBJECTS OF THE INVENTION

I lys av de ovennevnte ulemper er det en hovedhensikt med den foreliggende oppfinnelse å skaffe et system som tillater beskrivelse og utvikling av databehandling med behandlingsstrømmer muligvis i nettverk, og å formalisere systemet på en måte som tillater reduksjon av databehandlingslatens. In light of the above-mentioned disadvantages, it is a main purpose of the present invention to provide a system that allows the description and development of data processing with processing streams possibly in networks, and to formalize the system in a way that allows the reduction of data processing latency.

En annen hensikt med oppfinnelsen er å forenkle spesifikasjonen av slike behandlingssystemer med komplekse, innbyrdes avhengigheter mellom prosesseringstrinnene. Another purpose of the invention is to simplify the specification of such treatment systems with complex interdependencies between the processing steps.

En tredje hensikt med oppfinnelsen er å fornekle prosessen med å utvikle programmer for individuell omforming eller analyseoperatorer i slike systemer. A third purpose of the invention is to negate the process of developing programs for individual transformation or analysis operators in such systems.

En fjerde hensikt med oppfinnelsen er å øke eksekveringseffektiviteten til slike systemer, å utnytte mer effektivt de behandlingskapasiteter som står til rådighet og å redusere belastningen på I/U-operasjoner. A fourth purpose of the invention is to increase the execution efficiency of such systems, to make more efficient use of the available processing capacities and to reduce the load on I/O operations.

En femte hensikt med oppfinnelsen er å tillate tidlig ombruk av allokerte ressurser og således redusere det totale ressursforbruk for et system under kjøring. Dette kalles gjenvinning av ressursene og refererer seg til de ressurser som ikke er i bruk for det opprinnelige formål, men som stilles til rådighet for andre anvendelser. A fifth purpose of the invention is to allow early reuse of allocated resources and thus reduce the total resource consumption for a system while running. This is called recycling the resources and refers to the resources that are not in use for their original purpose, but are made available for other uses.

SAMMENDRAG AV OPPFINNELSEN SUMMARY OF THE INVENTION

De ovennevnte hensikter så vel som ytterligere trekk og fordeler realiseres med systemet i henhold til den foreliggende oppfinnelse som er kjennetegnet ved at det omfatter minst et adresserom for å lagre innholdsstrømmer, hvor adresserommet omfatter en rekke lag slik at et første lag i adresserommet er innrettet til å lagre et inngitt innholdsstrøm og at ytterligere lag dannes og tilpasses for lagring av genererte og avhengige innholdsstrømmer, og én eller flere operatorer som kan forbindes med adresserommet for å behandle dataene i en innholdsstrøm og generere de avhengige ytterligere innholdsstrømmer på basis av en inngitt innholdsstrøm, idet én eller flere operatorer omfatter lesemarkører for å lese data fra en innholdsstrøm og skrivemarkører for å skrive data til en innholdsstrøm eller skrive en avhengig innholdsstrøm til respektive ytterligere lag i adresserommet; og en fremgangsmåte i henhold til den foreliggende oppfinnelser som er kjennetegnet ved å lese og prosessere en inngitt innholdsstrøm for å generere en eller flere innholdsstrømmer som er avhengige av den inngitte innholdsstrøm og som danner en representasjon av minst en del derav, å lagre en eller flere avhengige innholdsstrømmer i respektive virtuelle lagringslag anordnet i en økende monoton orden i adresserommet, å utføre leseoperasjoner på den inngitte innholdsstrøm og avhengige innholdsstrømmer slik at avhengigheten mellom innholdsstrømmene danner en rettet asyklisk graf, og å skrive data til et lag slik skrivingen av dette vil være kortere fremskredet enn skrivingen av alle lag som laget under skriving avhenger av, innbefattet transitive avhengigheter. The above purposes as well as further features and advantages are realized with the system according to the present invention which is characterized in that it comprises at least one address space for storing content streams, where the address space comprises a number of layers so that a first layer in the address space is arranged to storing an input content stream and that additional layers are formed and adapted for storing generated and dependent content streams, and one or more operators that can be associated with the address space to process the data in a content stream and generate the dependent additional content streams based on an input content stream, the one or more operators comprising read markers for reading data from a content stream and write markers for writing data to a content stream or writing a dependent content stream to respective further layers in the address space; and a method according to the present inventions which is characterized by reading and processing an entered content stream to generate one or more content streams which are dependent on the entered content stream and which form a representation of at least a part thereof, to store one or more dependent content streams in respective virtual storage layers arranged in an increasing monotonous order in the address space, performing read operations on the entered content stream and dependent content streams such that the dependency between the content streams forms a directed acyclic graph, and writing data to a layer such that the writing thereof will be shorter advanced than the writing of all layers that the layer during writing depends on, including transitive dependencies.

Ytterligere trekk og fordeler vil fremgå av de vedføyde, avhengige krav. Further features and benefits will appear from the attached, dependent requirements.

OPPFINNELSENS REALISASJON REALIZATION OF THE INVENTION

Oppfinnelsen skal forstås bedre fra den etterfølgende drøftelse av en rekke foretrukne utførelser og lest i samband med den vedføyde tegning, på hvilken fig. 1 viser hvordan et adresserom som benyttet ved den foreliggende oppfinnelse er organisert, og hvordan en analyseoperator aksesserer dette adresserom med bruk av lese- og skrivemarkører, The invention will be better understood from the subsequent discussion of a number of preferred embodiments and read in connection with the attached drawing, in which fig. 1 shows how an address space used in the present invention is organized, and how an analysis operator accesses this address space using read and write markers,

fig. 2 skjematisk et system i henhold til den foreliggende oppfinnelse, og fig. 3 hvordan en analyseoperator utfører avbildning mellom adresserommene i systemet på fig. 2. fig. 2 schematically shows a system according to the present invention, and fig. 3 how an analysis operator performs mapping between the address spaces in the system of fig. 2.

GENERELL BAKGRUNN FOR OPPFINNELSEN GENERAL BACKGROUND OF THE INVENTION

De i det følgende omtalte begreper og trekk er sentrale i realiseringen av systemet i henhold til oppfinnelsen. The concepts and features mentioned below are central to the realization of the system according to the invention.

Spesielt omfatter den foreliggende oppfinnelse de følgende tre elementer og deres vekselvirkninger som vil bli beskrevet i de påfølgende avsnitt. Disse er først data som består av innholdsstrømmer av informasjonsatomer organisert i et lag strukturert langs et adresserom, dernest prosessering organisert som analyseoperatorer lagt ut i en operatorstrøm og som vekselvirker med innholdsstrømmer med bruk av lese- og skrivemarkører, og endelig, som et resultat av å kombinere en rekke utledede egenskaper, dataopplegget og prosesseringen. Disse sentrale begreper og trekk skal nå forklares i noe detalj med henvisning til fig. 1 som viser organisasjonen et adresserom i systemet i henhold til den foreliggende oppfinnelse. Adresserommet 1 på fig. 1 kan betraktes som en skjematisk gjengivelse av et datalager eller en formalisert gjengivelse av arrangementet til et slikt. In particular, the present invention comprises the following three elements and their interactions which will be described in the following sections. These are first data consisting of content streams of information atoms organized in a layer structured along an address space, then processing organized as analysis operators laid out in an operator stream and interacting with content streams using read and write markers, and finally, as a result of combine a number of derived properties, the data set and the processing. These central terms and features will now be explained in some detail with reference to fig. 1 which shows the organization an address space in the system according to the present invention. The address space 1 in fig. 1 can be regarded as a schematic representation of a data warehouse or a formalized representation of the arrangement of such.

Data Data

Informasjonsatomene som føres gjennom systemet kan være, men er ikke begrenset til tegn, tekstlinjer eller avsnitt, dokumenter, råbyter eller metadata på andre informasjonsatomer, også kalt annotasjoner. The information atoms passed through the system can be, but are not limited to characters, text lines or paragraphs, documents, raw bytes or metadata on other information atoms, also called annotations.

En adresse angir posisjonen til et informasjonsatom. Eksempler kan være en tegnposisjon (angir posisjonen til et tegn innenfor en tekst), en postidentifikator, et linjetall (angir posisjonen til en linje) eller et tidsmerke (angir f.eks. et bestemt tidspunkt i en video). An address indicates the position of an information atom. Examples can be a character position (indicates the position of a character within a text), a record identifier, a line number (indicates the position of a line) or a time stamp (e.g. indicates a specific time in a video).

En adressedimensjon er en (potensielt uendelig) adressemengde organisert i en monotont økende orden. Eksempler på adressedimensjoner er intervallet fra begynnelsen til slutten av en bestemt tekst, dvs. lengden til teksten som gitt ved antallets tegn, eller tidsintervallet fra starten til slutten av en bestemt video. Adressedimensjoner kan være kontinuerlige (slik tilfellet er med tid i en video) eller diskrete (som i adressedimensjonen for posisjonen innenfor en tekstfil), eller de kan være begrenset (igjen som når det leses en fil) eller ubegrenset (i tilfellet av en kontinuerlig videostrøm). An address dimension is a (potentially infinite) set of addresses organized in a monotonically increasing order. Examples of address dimensions are the interval from the beginning to the end of a certain text, i.e. the length of the text as given by the number of characters, or the time interval from the start to the end of a certain video. Address dimensions can be continuous (as in the case of time in a video) or discrete (as in the address dimension of the position within a text file), or they can be bounded (again as when reading a file) or unbounded (in the case of a continuous video stream ).

En innholdsstrøm S er en hvilken som helst sekvens av data som er organisert langs et adresserom 1. Disse data kan bestå, men er ikke begrenset til, sekvenser av informasjonsatomer så som tegn, binære videodata, eller metadata (annotasjoner) som er forbundet med bestemte punkter eller intervaller i adresserommet. Ethvert informasjonsatom som utgjør en del av en innholdsstrøm S har en bestemt posisjon innenfor adresserommet 1. A content stream S is any sequence of data organized along an address space 1. This data may consist of, but is not limited to, sequences of information atoms such as characters, binary video data, or metadata (annotations) associated with specific points or intervals in the address space. Every information atom that forms part of a content stream S has a specific position within the address space 1.

I systemet i henhold til den foreliggende oppfinnelse kan en rekke innholdsstrømmer S\, S2, S$ ..., selv om de kan inneholde forskjellige typer av informasjonsatomer, dele et adresserom 1 som kan være strukturert i lag Li, L2, L3, .... Strømmene Sh S2, S3 ... allokeres til respektive lag Z-i, L2, £3, .... Dette betyr at strømmene S er organisert langs en annen dimensjon av adresserommet 1, kalt lagdimensjonen. Hvert (virtuelt) lag L inneholder eksakt en innholdsstrøm S og er tilordnet et ordinaltall langs lagdimensjonen. Et eksempel ville være en videostrøm inneholdt i laget L\ og en metadatastrøm som inneholder tidspunkter hvor sceneoverganger er holdt i laget L2. Disse lagene L er virtuelle fordi de ikke kan være fysisk representert i forskjellige for, f.eks. som filer innenfor et filsystem, innførsler i en database eller blokker i et minne. In the system according to the present invention, a number of content streams S\, S2, S$ ..., although they may contain different types of information atoms, may share an address space 1 which may be structured in layers Li, L2, L3, . ... The streams Sh S2, S3 ... are allocated to respective layers Z-i, L2, £3, .... This means that the streams S are organized along another dimension of the address space 1, called the layer dimension. Each (virtual) layer L contains exactly one content stream S and is assigned an ordinal number along the layer dimension. An example would be a video stream contained in layer L\ and a metadata stream containing times where scene transitions are held in layer L2. These layers L are virtual because they cannot be physically represented in different for, e.g. such as files within a file system, entries in a database or blocks in a memory.

Prosessering Processing

Med hensyn til dataprosesseringen er systemet i henhold til den foreliggende oppfinnelse sentrert omkring begrepet en analyseoperator P. Dette er en algoritme eller et dataprogram implementert på en databehandlingsinnretning som kan importere innholdsstrømmer S eller eksportere innholdsstrømmer S fra systemet i henhold til den foreliggende oppfinnelse eller definere en relasjon mellom innholdsstrømmer S, dvs. til data fra en eller flere strømmer. Analyseoperatoren P danner en eller flere nye strømmer ved å utføre en analyselignende beregning på inndataene. Et eksempel ville være ekstraheringen av teksten fra audio-inndata. With regard to the data processing, the system according to the present invention is centered around the concept of an analysis operator P. This is an algorithm or a computer program implemented on a data processing device that can import content streams S or export content streams S from the system according to the present invention or define a relation between content streams S, i.e. to data from one or more streams. The analysis operator P forms one or more new streams by performing an analysis-like calculation on the input data. An example would be the extraction of the text from the audio input.

Analyseoperatorer P vekselvirker med innholdsstrømmene med bruk av lese-og skrivemarkører Æ;W. Disse markørene angir posisjoner i adresserommet 1 hvor en lese- eller skriveoperasjon finner sted. En skrivemarkør W tilføyer informasjonsatomer til en strøm S ved å plassere dem på deres nåværende adresse og flytte markøren opp i adresserommet 1. Lesemarkører R returnerer informasjonsatomet ved den nåværende adresse til operatoren P og flytter deretter også den nåværende posisjon frem. Markører kan oppvise en begrenset mengde slumpmessig aksess i foroverretningen (tilbyr muligheten av å flyttes frem mer enn en posisjon i adresserommet), men ikke i bakoverretningen. Analysis operators P interact with the content streams using read and write markers Æ;W. These markers indicate positions in address space 1 where a read or write operation takes place. A write marker W adds information atoms to a stream S by placing them at their current address and moving the marker up into the space address 1. Read markers R return the information atom at the current address to the operator P and then also advance the current position. Markers can exhibit a limited amount of random access in the forward direction (offering the possibility of being moved forward more than one position in the address space), but not in the backward direction.

En gruppe av operatorer P\, P2, ..., kan være organisert i en operatorstrøm som er en representasjon av hvordan data flyter gjennom systemet, og som vist på flg. 2, noe det skal sies mer om nedenfor. Operatorstrømmen er en rettet graf, dvs. en graf med operatorene P som noder og rettede forbindelser (piler) 103 som sider. Sidene i grafen angir datastrømretningen. Grafen er asyklisk, hvilket betyr at for enhver vei 201 mellom en operator P uten innkommende forbindelser og en operator P uten utgående forbindelser, er hver operator P i veien inneholdt bare en gang. Med andre ord har ikke grafen sløyfer. A group of operators P\, P2, ..., can be organized in an operator flow which is a representation of how data flows through the system, and as shown in Fig. 2, something more will be said about below. The operator flow is a directed graph, i.e. a graph with the operators P as nodes and directed connections (arrows) 103 as sides. The sides of the graph indicate the data flow direction. The graph is acyclic, meaning that for any path 201 between an operator P with no incoming connections and an operator P with no outgoing connections, each operator P in the path is contained only once. In other words, graphene does not have loops.

Utledede begreper Derived terms

Basert på trekkene til systemet i henhold til den foreliggende oppfinnelse og som drøftet med henvisning til fig. 2, kan et antall begreper som er sentrale for oppførselen til systemet utledes. De utgjør et tredje element i systemet i henhold til oppfinnelsen og skal drøftes nedenfor. Based on the features of the system according to the present invention and as discussed with reference to FIG. 2, a number of concepts that are central to the behavior of the system can be derived. They constitute a third element in the system according to the invention and will be discussed below.

For det første kan mengden av operatorer oppstrøms for en spesifikk operator P i en operatorstrøm utledes fra grafopplegget. Oppstrømsoperatorene er operatorene som er forbundet til en spesifikk operator ved å følge forbindelsene bakover, anføre operatorene som nås, og fortsette rekursivt inntil operatorer uten inngående forbindelser nås. En analog definisjon gis for nedstrømsoperatorer ved å følge forbindelsen i pilretning. Dette ses lett for operatorstrømmen på fig. 2. Nedstrømsoperatorene til P\ er operatorene P2, Pi og P4. Operatoren P4 har ingen nedstrøms operatorer. Mengden av oppstrømsoperatorer for P4 omfatter P\, P2, og P3, mens den eneste oppstrømsoperator for P2 er P\. First, the amount of operators upstream of a specific operator P in an operator stream can be derived from the graph scheme. The upstream operators are the operators connected to a specific operator by following the connections backwards, listing the operators that are reached, and continuing recursively until operators with no incoming connections are reached. An analogous definition is given for downstream operators by following the connection in arrow direction. This is easily seen for the operator flow in fig. 2. The downstream operators of P\ are the operators P2, Pi and P4. The operator P4 has no downstream operators. The set of upstream operators for P4 includes P\, P2, and P3, while the only upstream operator for P2 is P\.

Utledet fra begrepet oppstrømsoperatorer er begrepet av en spesifikk operator P. Et avhengig lag LD for en operator P er et lag som frembringes (f.eks. ved skriving eller prosessering) av en oppstrømsoperator for P. En spesifikk operator kan bare leses fra dens mengde av avhengige lag. Igjen, slik det kan ses av fig. 2, er de avhengige lagene til P4 Lu L2, Z-3. Derived from the concept of upstream operators is the concept of a specific operator P. A dependent layer LD of an operator P is a layer produced (e.g. by writing or processing) by an upstream operator of P. A specific operator can only be read from its set of dependent layers. Again, as can be seen from fig. 2, the dependent layers of P4 are Lu L2, Z-3.

DETALJERT DRØFTELSE DETAILED DISCUSSION

Nå skal systemet og fremgangsmåten i henhold til den foreliggende oppfinnelse drøftes mer detaljert med henvisning til fig. 1 som viser organisasjonen av et adresserom, som ovenfor nevnt, og fig. 2, som skjematisk viser systemet i henhold til den foreliggende oppfinnelse som bestående av to deler, nemlig som en første del det todimensjonale adresserom 1 med en mengde av lag L, og som en annen del 2, en mengde av operatorer P og deres innbyrdes avhengigheter. Mer bestemt viser denne annen del av systemet i henhold til oppfinnelsen også valgte innbyrdes avhengigheter for valgte operatorer og prosesstrømmer som ovenfor allerede nevnt. Fremgangsmåten i henhold til oppfinnelsen vil lett forstås ved drøftelsen av funksjonaliteten til systemet i henhold til oppfinnelsen. Now the system and method according to the present invention will be discussed in more detail with reference to fig. 1 which shows the organization of an address space, as mentioned above, and fig. 2, which schematically shows the system according to the present invention as consisting of two parts, namely as a first part the two-dimensional address space 1 with a set of layers L, and as a second part 2, a set of operators P and their mutual dependencies . More specifically, this second part of the system according to the invention also shows selected interdependencies for selected operators and process flows as already mentioned above. The method according to the invention will be easily understood by discussing the functionality of the system according to the invention.

Fysisk kan mengden av innholdsstrømmer og deres adresserom 1 være lagret på forskjellige måter. Eksempler innbefatter, men er ikke begrenset til: • Posisjoner i en fil angir adressen til et informasjonsatom. Strømmer S kan rommes i forskjellige filer slik at informasjonen ved adresse x i en fil svarer til den samme adresse i den andre, separate fil. • Informasjonsatomene lagres i forbindelse med deres adresser. Et eksempel ville være en fil med par av postnumre og postinnhold, hvor postnummeret spiller rollen til adressen i adresserommet. Physically, the amount of content streams and their address space 1 can be stored in different ways. Examples include, but are not limited to: • Positions in a file indicate the address of an information atom. Streams S can be stored in different files so that the information at address x in one file corresponds to the same address in the other, separate file. • The information atoms are stored in connection with their addresses. An example would be a file with pairs of postal codes and postal contents, where the postal code plays the role of the address in the address space.

I det følgende angir P\ en operator i operatormengden P og Lj et lag i lagmengden L. Rjj og WtJ er lese- og skrivemarkører for operatorene P, på laget Lj, henholdsvis. In the following, P\ denotes an operator in the operator set P and Lj a layer in the layer set L. Rjj and WtJ are read and write markers for the operators P, on the layer Lj, respectively.

En rekke innholdsstrømmer S kan foreligge over den sammen inngang og kan dele det samme adresserom. Disse mengder av innholdsstrømmer kan enten være inngitt til systemet eller kan være generert. Av grunner som skal forklares nedenfor er strømmene S organisert i virtuelle lag L\, L2, £3, etc. Innenfor et adresserom 1 er lagene L organisert i en monoton orden, uttrykt ved lagdimensjon. A number of content streams S may exist over the same input and may share the same address space. These amounts of content streams can either be input to the system or can be generated. For reasons to be explained below, the streams S are organized into virtual layers L\, L2, £3, etc. Within an address space 1, the layers L are organized in a monotonic order, expressed by layer dimension.

En representasjon av en inngitt form er en strøm eller fil på gitt format. Når en strøm eller fil prosesseres, kan nye lag genereres i det samme eller forskjellige format. Eksempler på formater innbefatter tekst, audiofiler, videofiler og så videre. Som et eksempel, \ a. A være en audiofil, fra hvilken talt tekst B ekstraheres og en stavingskorrigert form representeres som C. Formatet til filen A er audio, filene B og C er tekst, og det er en opprinnelig representasjon A, en mellomliggende representasjon B, og en endelig representasjon C. A representation of a given form is a stream or file in the given format. When a stream or file is processed, new layers can be generated in the same or different formats. Examples of formats include text, audio files, video files and so on. As an example, \ a. A be an audio file, from which spoken text B is extracted and a spell-corrected form is represented as C. The format of file A is audio, files B and C are text, and there is an original representation A, an intermediate representation B, and a final representation C.

En operator innfører i<5>, en strøm Sj i et nytt lag L} eller definerer en relasjon mellom to eller flere slike strømmer: Den kan leses fra null eller flere strømmer ved bruk av lesemarkører R, j k, eller skrive til en eller flere andre strømmer med bruk av skrivemarkører W, j^ m. An operator introduces i<5>, a stream Sj into a new layer L} or defines a relation between two or more such streams: It can be read from zero or more streams using read markers R, j k, or write to one or more other streams using writing markers W, j^ m.

En operator P, danner et nytt lag Lj i adresserommet 1 som vist på fig. 1. Her har operatoren P\ dannet et lag L3 ved å lese fra lagene L\ og L2 med bruk av lesemarkørene R\ \ og R\ >2. En operator P\ danner dets informasjonsatomer basert på innholdet i dets avhengige lag. An operator P, forms a new layer Lj in the address space 1 as shown in fig. 1. Here the operator P\ has formed a layer L3 by reading from the layers L\ and L2 using the read markers R\ \ and R\ >2. An operator P\ forms its information atoms based on the contents of its dependent layers.

Som vist på fig. 2, kan en rekke operatorer P\, P2, ... være forbundet gjennom inn/utrelasjoner 201, noe som resulterer i en rettet graf, kalt en operatorstrøm som vist i delen 2. Inndataene til en operator P\ i denne modellen er definert som mengden av avhengige lag, som er de som ble frembrakt av mengden av oppstrømsoperatorer Pt.\, Pt. 2, ... As shown in fig. 2, a series of operators P\, P2, ... can be connected through input/output relations 201, resulting in a directed graph, called an operator flow as shown in section 2. The input of an operator P\ in this model is defined as the set of dependent layers, which are those produced by the set of upstream operators Pt.\, Pt. 2, ...

Fremgangsmåten i henhold til oppfinnelsen oppnår effektivitet ved å la operatorene P arbeide i parallell. Operatorstrømmen kan partisjoneres slik at undermengder eksekveres i forskjellige eksekveringstråder. I det ekstreme tilfellet kan hver operator P arbeide i sin egen tråd. Denne spesielle utførelse kan utvides for å utføre prosesseringen i separate prosesser og til og med i separat fysisk maskinvare. The method according to the invention achieves efficiency by allowing the operators P to work in parallel. The operator stream can be partitioned so that subsets are executed in different threads of execution. In the extreme case, each operator P can work in its own thread. This particular embodiment can be extended to perform the processing in separate processes and even in separate physical hardware.

Systemet i henhold til den foreliggende oppfinnelse må sikre at selv i dette tilfellet opprettholder hver operator P en betraktning av systemet som om foregående operatorer allerede hadde fullført prosesseringen av de lavere lag. For derfor å gjennomføre fremgangsmåten i henhold til oppfinnelsen har operatorene P bare aksess til sine avhengige lag, og lesemarkørene R må ikke lese forbi posisjonen til skrivemarkøren W. Skrivemarkøren Wjj i laget Lj definerer maksimumsposisjonen for lesemarkørene Ritj for dette bestemte lag. Dette er vist på fig. 2 hvor operatoren 2 leses i lagene L2, £3 dannet henholdsvis av operatorene P2 og operatorene P3. Dette betyr at lesemarkørene Æ4)3 og Æ4>2 ikke må lese forbi skrivemarkørene W3y3 og W2>2, henholdsvis. I tilfellet operatoren 7>4 forsøker å lese forbi posisjonen for noen av skrivemarkørene W, vil leseoperasjonen blokkeres inntil dataene er skrevet. The system according to the present invention must ensure that even in this case each operator P maintains a consideration of the system as if preceding operators had already completed the processing of the lower layers. In order therefore to carry out the method according to the invention, the operators P only have access to their dependent layers, and the read markers R must not read past the position of the write marker W. The write marker Wjj in the layer Lj defines the maximum position for the read markers Ritj for this particular layer. This is shown in fig. 2 where the operator 2 is read in the layers L2, £3 formed respectively by the operators P2 and the operators P3. This means that the read markers Æ4)3 and Æ4>2 must not read past the write markers W3y3 and W2>2, respectively. In the event that the operator 7>4 attempts to read past the position of any of the write markers W, the read operation will be blocked until the data is written.

Fra utførelsen av strømmen som gjengitt i del 2 på fig. 2, følger det at operatorene kan arbeide i parallell hvis hver av mengdene av avhengige lag ikke er en undermengde av hverandre. Som et eksempel er operator P3 på fig. 2 uavhengig av laget L2 skrevet av operatoren P2. Operatoren P3 kan derfor arbeide i parallell med operator P2, siden det ikke eksisterer en inn/ut-avhengighet mellom de to. From the execution of the flow as reproduced in part 2 of fig. 2, it follows that the operators can work in parallel if each of the sets of dependent layers is not a subset of each other. As an example, operator P3 in fig. 2 independently of the layer L2 written by the operator P2. Operator P3 can therefore work in parallel with operator P2, since there is no input/output dependency between the two.

Innhold som ikke lenger er i bruk kan fjernes fra systemet. Den del av innholdet som er aktivt i et bestemt lag L blir da definert som intervallet [ min( Rf), Wj\ hvor Rj er mengden av posisjoner for lesemarkørene på L} og Wj er posisjonen til den (eneste) skrivemarkør L}. min( R,) angir den minste (minimums) posisjon for alle lesemarkører Rj på Lr Igjen er dette vist på fig. 2, hvor min( R\) angir minimumsposisjonene på laget Lu og W\ er posisjonen til den (eneste) skrivemarkør W\^\ på det samme laget L\. Boksene rundt en strøm iSj innenfor et lag Lj illustrerer det aktive parti av innholdet innenfor dette lag. Det følger at et innhold som foreligger før min( Rj) i et lag Lj kan fjernes fra systemet, da det ikke lenger behøves. Content that is no longer in use can be removed from the system. The part of the content that is active in a certain layer L is then defined as the interval [ min( Rf), Wj\ where Rj is the amount of positions for the read markers on L} and Wj is the position of the (only) write marker L}. min(R,) denotes the smallest (minimum) position for all reading markers Rj on Lr Again this is shown in fig. 2, where min( R\) denotes the minimum positions on the layer Lu and W\ is the position of the (only) write marker W\^\ on the same layer L\. The boxes around a stream iSj within a layer Lj illustrate the active part of the content within this layer. It follows that a content that exists before min(Rj) in a layer Lj can be removed from the system, as it is no longer needed.

En operator P kan bare skrive til lag L hvis ordinaltall er høyere enn de for lagene til de leste strømmer. På fig. 2 kan operatoren P4 bare skrive til et lag med ordinaltall 4, dvs. Z,4 (eller høyere), da den leser fra L2 og L3. An operator P can only write to layer L whose ordinal numbers are higher than those of the layers of the read streams. In fig. 2, operator P4 can only write to a layer with ordinal number 4, i.e. Z,4 (or higher), as it reads from L2 and L3.

Lagene L er "virtuelle", fordi selv om de deler egenskaper så som adresserom, lagernummer eller strømmen de inneholder, kan de fysisk lagres på forskjellige måter. The layers L are "virtual", because although they share properties such as address spaces, storage numbers or the stream they contain, they can be physically stored in different ways.

På utgangssiden kan enhver undermengde av inngangsstrømmer eller strømmene dannet av operatorene P danne utdata fra systemet. On the output side, any subset of input streams or the streams formed by the operators P can form the output of the system.

I en foretrukket utførelse av fremgangsmåten i henhold til den foreliggende oppfinnelse kan operatorer P også innføre en avbildning mellom to adresserom 1, 2 som vist på fig. 3. For eksempel kan en tale-til-tekstoperator P ekstrahere en transkripsjon fra en videofil organisert langs en adressedimensjon "tid" i det første adresserom 1 og ytterligere tekstbehandlingsoperatorer kan deretter arbeide i adressedimensjonen "tegn" i det annet adresserom 2, fremfor i videodimensjonen. In a preferred embodiment of the method according to the present invention, operators P can also introduce a mapping between two address spaces 1, 2 as shown in fig. 3. For example, a speech-to-text operator P can extract a transcript from a video file organized along an address dimension "time" in the first address space 1 and further text processing operators can then work in the address dimension "characters" in the second address space 2, rather than in the video dimension .

Fremgangsmåten i henhold til den foreliggende oppfinnelse som vist i det ovenstående, vil muliggjøre strømming av et dokument (innhold) gjennom en graf av operatorer med tanke på å prosessere og annotere det. Et dokument i denne konteksten kan være et tekstdokument (Office, PDF, HTML, etc.) men det kan også være innhold i form av rike media så som video, lydfiler eller til og med innmating lastet ned fra Internett (World Wide Web). The method according to the present invention as shown in the above will enable the flow of a document (content) through a graph of operators with a view to processing and annotating it. A document in this context can be a text document (Office, PDF, HTML, etc.) but it can also be content in the form of rich media such as video, audio files or even input downloaded from the Internet (World Wide Web).

For å oppsummere skaffer den foreliggende oppfinnelse en rekke fordeler sammenlignet med kjent teknikk. Spesielt skal de foreliggende trekk fremheves: To summarize, the present invention provides a number of advantages compared to the prior art. In particular, the present features must be highlighted:

• Kildeinnhold må leses fra start til slutt bare en gang. • Source content must be read from start to finish only once.

• Bare en liten del av dokumentet må holdes i minnet hele tiden. Delen som holdes i minnet, er definert som den minste lesemarkøradresse og den største skrivemarkøradresse. Ved å innføre konfigurasjons-parametre, vil det være mulig å konfigurere den største innholdsdel som skal holdes i minnet eller et fysisk lager på ethvert tidspunkt. • Prosessering utføres ikke lenger som en sekvens av diskrete trinn som prosesserer hele dokumentet før det sendes videre. Tvert imot tillater fremgangsmåten i henhold til oppfinnelsen prosessering i strøm, noe som i sin tur gir mindre latens, mindre I/U og bedre utnyttelse av maskinvare. • Ved å modulere eksplisitt avhengighetene mellom operatorer som benytter begrepet operatorstrømmer, kan prosessering parallelliseres, noe som igjen fører til bedre utnyttelse av maskinvare. • Only a small part of the document needs to be kept in memory at all times. The portion held in memory is defined as the smallest read pointer address and the largest write pointer address. By introducing configuration parameters, it will be possible to configure the largest content portion to be held in memory or a physical storage at any time. • Processing is no longer performed as a sequence of discrete steps that process the entire document before forwarding it. On the contrary, the method according to the invention allows processing in current, which in turn provides less latency, less I/O and better utilization of hardware. • By explicitly modulating the dependencies between operators using the concept of operator streams, processing can be parallelised, which in turn leads to better utilization of hardware.

Slik det vil være innlysende for fagfolk, implementeres adresserommet i den foreliggende oppfinnelse fysisk på et datalager eller fysisk minne som tillater gjentatte skrive- og leseoperasjoner (selv om det som nevnt, er slik at en spesifikk strøm naturligvis bare leses en gang). Operatorene implementeres på en passende databehandlingsinnretning og eksekveres på basis av instruksjoner tilpasset oppgaven som skal utføres og skrevet i en hvilken som helst kode som kan benyttes. As will be apparent to those skilled in the art, the address space of the present invention is physically implemented on a data store or physical memory that allows repeated write and read operations (although, as mentioned, a specific stream is naturally only read once). The operators are implemented on a suitable data processing device and executed on the basis of instructions adapted to the task to be performed and written in any code that may be used.

Claims

1. System for planning and coordinating the execution of data processing tasks with interdependencies, where the data is entered into the system or generated therein as content streams (S) from different sources including text, audio or video sources as well as mixtures thereof, where the system includes at least an address space (1) for storing content streams (S), where the address space comprises a number of layers (L) such that a first layer (L}) in the address space is arranged to store an entered content stream (Sj) and that further layers (L2 , Z-3, ...) are formed and adapted to store generated and dependent content streams ( S2, £3, ...), and one or more operators ( P ) that can be associated with the address space (1) to process the data in a content stream (S) and generate the dependent further content streams (S2, <S3, ...) on the basis of an input content stream (Sj), one or more operators (P) comprising read markers (R) to read data from a content stream (Si) and writing marker rer ( W) to write data to a content stream ( Si) or write a dependent content stream ( Sd; £»,) to respective further layers ( LD; £»), in the address space (1).

2. Method for use by the system according to claim 1, where a content stream (Si) is entered and stored in a first virtual storage layer (L\) in an address space (1), characterized by to read and process an inputted content stream to generate one or more content streams which are dependent on the inputted content stream and which form a representation of at least a part thereof, storing one or more dependent content streams in respective virtual storage layers arranged in an increasing monotonous order in the address space, performing read operations on the input content stream and dependent content streams such that the dependency between the content streams forms a directed acyclic graph, and writing data to a layer such that the writing of this will be less advanced than the writing of all layers that the layer being written depends on, including transitive dependencies.

3. Procedure according to claim 2, characterized by setting a dimensionality for the address space respectively as position in the content streams and layers.

4. Procedure according to claim 2, characterized by forming the layers in the address space as a layer with a time reference.

5. Procedure according to claim 2, characterized by mapping one address space to form another address space on the basis of the first.

6. Procedure according to claim 2, characterized by referencing information in a dependent content stream to the entered content stream by respectively arranging a byte offset for the referenced information in the dependent content stream, or a time delay from either the beginning of the entered content stream or an arbitrary time.

7. Procedure according to claim 2, characterized by reclaiming a portion of a dependent content stream under the condition that the portion is less than the smallest read portion of all dependent content streams.