DE10333530A1

DE10333530A1 - Automatische Indexierung von digitalen Bildarchiven zur inhaltsbasierten, kontextsensitiven Suche

Info

Publication number: DE10333530A1
Application number: DE10333530A
Authority: DE
Inventors: Helmut Dr. König
Original assignee: Siemens AG
Current assignee: Siemens AG
Priority date: 2003-07-23
Filing date: 2003-07-23
Publication date: 2005-03-17
Also published as: US20050021512A1; US7689544B2

Abstract

Die vorliegende Erfindung bezieht sich auf ein Verfahren zur automatischen Indexierung multimedialer Datenarchive (304c) und Kategorisierung der darin vorgehaltenen Dateien (102a-7) sowie eine Client/Server-Architektur eines Bildretrievalsystems (300) zur inhaltsbasierten Suche nach relevanten Dateien (102i) eines bestimmten Formats und einer bestimmten Dateistruktur. DOLLAR A Erfindungsgemäß werden die in einem vom Dokumentenmanagementsystem (304) verwalteten Dateiarchiv (304c) gespeicherten und geparsten Dateien (102a-n) einem Merkmalsextraktionsalgorithmus (S0a) unterzogen. Die gewonnenen Merkmale werden dann zur Erzeugung eines binär kodierten, aus Elementen mindestens zweier Attribute bestehenden invertierten Indexes (116) verwendet, in dem in diesen Dateien (102a-n) enthaltene, für ein inhaltsbasiertes Bildretrieval benötigte Kontextinformationen vorgehalten werden. Werden neue Dateien (102o-z) oder Dateien (102a-n) mit erweitertem bzw. modifiziertem Inhalt in dem Datenarchiv (304) gespeichert, wird erfindungsgemäß bei jedem Speichervorgang ein Parsing-Algorithmus (S0b) sowie ein Algorithmus (S0c) zur automatischen Extraktion von Merkmalen dieser Dateien (102a-z) ereignisgesteuert ausgeführt, um den invertierten Index (116) um einzelne Attribute zu erweitern bzw. um bestimmte Elemente bereits bestehender Indexattribute zu aktualisieren.

Description

Die vorliegende Erfindung bezieht sich auf ein Verfahren zur Indexierung von Datenarchiven sowie ein für ein inhaltsbasiertes Bildretrieval geeignetes bspw. medizinisches Dokumentenmanagementsystem, welches eine kontextsensitive Suche nach relevanten Dateien eines bestimmten Formats sowie von diesen Dateien referenzierten Bild- und Datenobjekten ermöglicht.

Zum Verständnis der erfindungsgemäßen Lösung wird im Folgenden kurz auf herkömmliche Text- und Bildretrievalsysteme sowie auf die für ein inhaltsbasiertes Bildretrieval erforderlichen Merkmalsextraktions- und Mustererkennungsverfahren nach dem Stand der Technik eingegangen.

Bei der aus dem Bereich der Internet-Suchmaschinen bekannten Volltext-Indexierung wird der gesamte Text der auf verschiedenen Webservern vorgehaltenen Webseiten automatisch indexiert (wie z.B. bei AltaVista, HotBot oder Infoseek). Für die Bereitstellung der relevanten Informationen sorgen sogenannte „Robots" oder „Spider", d.h. Programme, die selbstständig arbeitend Ressourcen im Internet „aufspüren", indem sie Verweisen (Hyper-links) von bereits bekannten Dokumenten folgen. Jedes neu von einem solchen Robot gefundene Dokument wird automatisch in der Datenbank der jeweiligen Suchmaschine „verschlag-wortet". Wie dies geschieht, hängt von dem jeweiligen Robot ab: manche indexieren den HTML-Titel oder die ersten Absätze eines Dokuments, andere durchforsten das gesamte Dokument und indexieren buchstäblich jedes einzelne Wort. Die meisten Suchmaschinen speichern dabei die gesammelten Dokumente nicht als komplette Kopie, da dies einen gigantischen Rechen- und Speicheraufwand erfordert, den derzeit nur Alta-Vista betreibt. In der Regel wird zur Suche eine Indextabelle angelegt, welche die auf einer Webseite enthaltenen Wörter in einer Ja-Nein-Struktur wiedergibt.

Sucht man über einen auf Volltext-Indexierung basierenden Suchdienst nach einem beliebigen Begriff, verweist die Suchmaschine auf alle Dokumente, die sie durchsucht hat und die den gesuchten Begriff enthalten. Der Suchdienst gibt als Ergebnis gleich die URLs der gefundenen Dokumente als Hyperlinks aus, so dass das gefundene Dokument sofort aufgesucht und gesichtet werden kann. Je nach Suchbegriff kann es vorkommen, dass die Suchmaschine nicht nur einen Treffer, sondern mehrere Tausende von Treffern meldet. Um die Auswahl aus mehreren Treffern zu erleichtern, nehmen die meisten, auf Volltext basierenden Suchmaschinen eine automatische Gewichtung der Suchergebnisse vor, das sogenannte „Ranking". Dabei gewichtet die Suchmaschine die Ergebnisse auf der Basis eines mathematischen Verfahrens, das unter anderem die relative Häufigkeit eines Suchbegriffs oder Terms in den gefundenen Dokumenten auswertet. Im Suchergebnis erscheint die Liste der Treffer bei manchen Suchdiensten nach Prozentzahlen gewichtet, wobei die Dokumente mit den höchsten Trefferquoten am Anfang der Liste aufgeführt werden.

Ein Verfahren zur Erzeugung invertierter Indizes zur Indexierung von Volltext-Dokumen-ten ist in dem Artikel „A Survey of Information Retrieval and Filtering Methods" (Technical Report, Information Filtering Project, University of Maryland, College Park, MD, 1996) von C. Faloutsos und D. Oard beschrieben. Dabei wird zwischen der Indexierung durch einen menschlichen Anwender, semi- und vollautomatischen Verfahren unterschieden. In nicht oder nur schwach strukturierten Dokumenten besteht die Hauptschwierigkeit automatischer Indexierungsverfahren in der Erkennung der Schlüsselwörter und deren Kontext sowie dem Ausschluss nicht relevanter Suchbegriffe (z.B. Artikel, Pronomen, Präpositionen, Konjunktionen, Interjektionen etc.). Bei alternativen Verfahren, die z.B. auf einem Vektormodell zur Gruppierung ähnlicher Dokumente (engl.: „Clustering") basieren, gilt die gleiche Grundproblematik. In jedem Fall werden zur Ent-fernung nicht relevanter Suchbegriffe sogenannte Stoppwortlisten (engl.: „Negative Dictionaries") verwendet. Weitere Probleme bei der automatischen Erzeugung invertierter Indizes von Volltext-Dokumenten bestehen in der Erkennung von Synonymen und des Kontexts, in dem ein Suchbegriff oder Term, bestehend aus zwei oder mehreren Suchbegriffen, vorkommt, sowie der Rückführung deklinierter Substantive bzw. Adjektive und konjugierter Verben auf gemeinsame Wortstämme.

Herkömmliche textbasierte Bildretrievalverfahren, die zum Abruf binär kodierter Bilddateien verwendet werden, basieren üblicherweise auf einer einfachen Volltextsuche mit geeigneten Suchbegriffen. Zu diesem Zweck wird der Inhalt dieser Bilddateien durch eine in der Regel geringe Menge von Stichwörtern beschrieben, die in einer Annotationsdatei gespeichert werden. Der Hauptnachteil dieser Vorgehensweise besteht dabei in der Reduktion eines komplexen Bildinhalts auf wenige Begriffe, die den Inhalt des Bildes oft nur ungenügend wiedergeben können. So sind beispielsweise die sprachlichen Ausdrucksmöglichkeiten zur präzisen verbalen Beschreibung von Mustern, Topologien, Oberflächenstrukturen usw. äußerst begrenzt.

Aus diesem Grund sind inhaltsbasierte Bildretrievalmethoden notwendig, die wesentliche Merkmale eines Bildes auto-matisch extrahieren und diese als Beschreibungsgrundlage zur inhaltsbasierten Suche nach Bildern, die in einem digitalen Bildarchiv gespeichert sind, nutzen. Derartige Verfahren können auf zahlreichen Gebieten zum Einsatz kommen, z.B. in der medizinischen Diagnose beim Vergleich extrahierter Parameter aufgenommener Röntgenbilder eines Patienten mit gespeicherten Bildparametern von Bildern krankhafter Gewebestrukturen aus einer Bilddatenbank, im Bereich der Satellitenfernerkundung zur Beurteilung der Auswirkungen eines Schädlingsbefalls auf den Waldbestand einer Region oder in der Verbrechensbekämp fung zur Täteridentifizierung, z.B. durch Vergleich elektronisch gespeicherter Fingerabdrücke mit den an einem Tatort aufgenommenen Fingerabdrücken eines Tatverdächtigen oder durch Vergleich der Aufnahmen einer Überwachungskamera mit den in einem elektronischen Bildarchiv gespeicherten Gesichtern polizeilich erfasster Krimineller.

Diese Bilddatenbanken verwalten große Bildersammlungen und erlauben die Suche nach einer Anzahl von Bildern, die eine Ähnlichkeit mit einem Referenzbild aufweisen oder benutzerdefinierten Bedingungen genügen. Das Hauptziel ist dabei die Reduktion der Ergebnismenge auf eine geringe Anzahl geeigneter Bilder, die anschließend vom Benutzer visualisiert werden.

Ein Überblick über die heute existierenden Bildretrieval-systeme ist in dem Artikel „Study on Non-Text-based Information Retrieval – State of the Art" (EU, Studie ELPUB 106, 1996) von B. Lutes u.a. sowie in dem Artikel „A Review of Content-Based Image Retrieval Systems" (Technical Report jtap-054, University of Manchester, 2000) von C.C. Venters und M. Cooper enthalten. Einige bekannte Bildretrievalsysteme, die gegenwärtig noch im Forschungsstadium sind, sind die in den Artikeln „Automatic and Semi-Automatic Methods for Image Annotation and Retrieval in QBIC" (Proc. of Storage and Retrieval for Image and Video Databases III, pp. 24–35, 1995) von J. Ashley u.a., „Surfimage: A Flexible Content-Based Image Retrieval System" (Proc. of ACM Multimedia, 1998, pp. 339–344) von C. Nastar u.a. und „VisualSEEK: A Fully Automated Content-Based Image Query System" (Proc. of ACM Multimedia, 1996, pp. 87–98) von J.R. Smith und S.-F. Chang beschriebenen Systeme QBIC, Surfimage und VisualSEEK.

Herkömmliche Bildbeschreibungs- und -retrievalmethoden sind in der Regel mit einem großen Aufwand verbunden und oft ungenügend für eine ausreichende Inhaltsbeschreibung. Aus diesem Grund wird von Bilddatenbanken heute die Fähigkeit eines in haltsbasierten Bildretrievals erwartet. Der Standardansatz für das Retrieval basiert dabei auf der automatischen Extraktion und dem Vergleich von vorab definierten, unmittelbar aus den Rohdaten ableitbaren Merkmalen. Diese heben besondere Eigenschaften des Bildinhaltes, wie etwa dominante Farben und deren Verteilung, wichtige Formen und Texturen oder das globale Bildlayout, hervor. Sie können gewichtet und auf unterschiedliche Arten miteinander kombiniert werden, so dass eine intermediäre Repräsentation der Bilddaten auf einem höheren Abstraktionslevel erreicht werden kann. Die in der Forschung entwickelten Bildretrievalsysteme unterscheiden sich dabei in dem jeweils verfolgten methodischen Ansatz:

• Beim farbbasierten Ansatz werden die zu indexierenden Bilder in einzelne Suchräume unterteilt. Die Ähnlichkeit der in diesen Suchräumen erkannten Farben wird mit den in einer Suchanfrage definierten Farben verglichen. Hierunter fällt auch das inhaltsbezogene Retrieval segmentierter Bilder, bei dem in einzelne Segmente unterteilte Bilder nach ihren Farbverteilungen in den jeweiligen Segmenten untersucht werden. Dabei wird über ein Bild ein Raster gelegt, welches aus Quadraten wählbarer Größe besteht. Mittels eines Farbhisto-gramms wird dann für jedes Rasterelement die vorherrschende Farbe bestimmt und das betreffende Quadrat vollständig mit dieser Farbe ausgefüllt. Liegen mehrere Rasterelemente der gleichen Farbe nebeneinander, wird dieser Bereich zusammengefasst. Danach werden die Informationen in Bezug auf die Bildpositionen einzelner Farbbereiche, ihre Farbe und Größe in einer Annotationsdatei gespeichert.
• Bei der Texturanalyse wird eine Unterteilung in einzelne Bildobjekte vorgenommen. Hierbei wird außerdem die Homogenität und die Kontraststärke eines Bildes gemessen. Mit Hilfe der Rasteraufteilung werden neben den Farben auch die signifikanten Merkmale der Rasterelemente (z.B. Kontrast, Flächigkeit, Gerichtetheit etc.), welche ebenfalls zur Indexierung eines Bildes herangezogen werden, als Werte in einer Annotationsdatei gespeichert.
• Beim kantenbasierten Ansatz werden die Hell-Dunkel-Übergänge eines Bildes, die in der Regel immer dort auftreten, wo Objekte aneinander angrenzen, ausgewertet. Um diese Konturen abzubilden, müssen zunächst alle Kantenpunkte mittels eines Kantendetektors errechnet werden. Sind alle Kantenpunkte lokalisiert worden, werden sie zu geschlossenen Konturen zusammengefasst. Diese werden dann mit vorgebbaren geome-trischen Grundformen (z.B. Dreiecke, Rechtecke, Kreise, Ellipsen etc.) abgeglichen. Die so gewonnenen Informationen werden dann in der Annotationsdatei gespeichert.

Die Ähnlichkeit zwischen einem Anfragebild Bi und einer Anzahl J in einem digitalen Bildarchiv gespeicherter Referenzbilder B_j (für 1 ≤ j ≤ J) wird über einen Mustererkennungsalgorithmus ermittelt. Sie entspricht einem geeignet definierten Abstandsmaß d_ij für den Abstand zwischen den in Form eines N-dimensionalen Merkmalsvektors x_i vorliegenden, aus dem Anfragebild Bi extrahierten Bildparametern mit den in Form N-dimensionaler Referenzvektoren m_i vorliegenden Bildparametern, die aus den gespeicherten Referenzbildern B_j extrahiert wurden. Dieser Abstand wird in der Regel anhand einer sogenannten Ähnlichkeitsfunktion berechnet. Hierbei handelt es sich üblicherweise um eine Modifikation der bekannten Minkowski-Abstandsmetrik – einer Verallgemeinerung des quadratischen Euklid-Abstands ∥⁣Δx _ij∥⁣ 2 / 2 zwischen dem jeweiligen Merkmalsvektor xi und den einzelnen Referenzvektoren m_i in einem N-dimensionalen Merkmalsraum:

mit Δx ij=x i – ∊ IRN. (1b)

Ein Referenzvektor mj wird dabei häufig durch Mittelung der Mj gespeicherten Merkmalsvektoren xqj einer durch Clusterbildung gewonnenen Klasse j gewonnen, die im Merkmalsraum eng beieinander liegen:

Das Ergebnis des obigen Verfahrens ist eine sortierte Liste mit J quadratischen Euklid-Abständen. Der tiefgestellte Index j der ersten Elemente dieser Liste verweist dabei auf die zu dem jeweiligen Anfragebild Bi ähnlichsten Referenzbilder Bj aus dem Bildarchiv, die dann einem Anwender als Treffer präsentiert werden können.

Die Entscheidung der Klassenzugehörigkeit eines Merkmalsvektors xi wird dabei über einen Minimum-Abstands-Klassifikator getroffen, der den jeweiligen Merkmalsvektor xi einer bestimmten Klasse k zuordnet. Für J Klassen mit den Referenzvektoren m _i (1 ≤ j ≤ J) sind dabei J Abstandsmetriken d² _ij gemäß folgender Entscheidungsregel auszuwerten:

Da die Merkmale bereits bei der Speicherung der Bilder in der Datenbank extrahiert werden, können mit diesem Verfahren relativ kurze Antwortzeiten erzielt werden. Während der Laufzeit müssen also nur noch die Abstandsmetriken berechnet werden, so dass die für das Bildretrieval insgesamt benötigte Zeit wesentlich verkürzt wird. Außerdem kann das Verfahren auf einfache Weise in herkömmliche Datenbanksysteme integriert werden.

Ein Nachteil ist jedoch, dass die meisten der aus den einzelnen Bilddateien extrahierten Merkmale hochgradig abstrakt und somit für Anwender ohne Fachwissen unbrauchbar sind. Da herkömmliche statische Merkmalsextraktionsalgorithmen in der Regel eine große Menge irrelevanter Information liefern, die für einen automatischen Mustervergleich nicht benötigt wird, werden heute für die Objektsuche, also zur Realisierung von Suchanfragen der Form
„Finde alle Bilder B_j ∊ β mit dem markierten Objekt X aus der Menge β := {B_j ∣⁣ 1 ≤ j ≤ J} der in einer digitalen Bilddatenbank gespeicherten Bilder"
zunehmend auf einer dynamischen Merkmalsextraktion basierende Verfahren eingesetzt, z.B. die dynamische Objektsuche mittels Wavelet-Transformation. Der Benutzer wählt hierbei eine bestimmte Bildregion aus, die anschließend analysiert und durch verschiedene Merkmale beschrieben wird. Diese Repräsentation wird dann über alle in einem Bildarchiv gespeicherten Referenzbilder „geschoben" und mit den darunter liegenden Bildausschnitten verglichen. Die anderen Bildregionen und der Objekthintergrund werden ignoriert, so dass sich die Suche auf die jeweils ausgewählte Bildregion konzentrieren kann.

Da sich ein Ausführungsbeispiel der vorliegenden Erfindung auf ein Verfahren zur automatischen Indexierung multimedialer Datenarchive bezieht, das vorzugsweise im Bereich des medizinischen Text- und Bildretrievals verwendet werden soll, werden im Folgenden kurz zwei der heute vorwiegend eingesetzten Kommunikationsstandards zur Beschreibung, Speicherung, Übertragung und Interpretation medizinischer Bilddaten und damit verknüpfter Kontextinformation vorgestellt – DICOM SR („Digital Imaging and Communication in Medicine – Structured Reporting") und HL7 („Health Level Seven").

Der Kommunikationsstandard DICOM, dessen dritter Teil in dem Fachartikel „Digi-tal Imaging and Communications in Medicine (DICOM)" (PS 3.3-2003, Rosslyn, Virginia) eingehend beschrie ben wird, ist ein Standard zum Austausch und zur Verwaltung medizinischer Bilddaten und anderer damit verbundener Daten, der im Bereich der Radiologie entwickelt wurde und zukünftig auch in allen anderen medizinischen Fachbereichen als Standard unterstützt wird.

Ein DICOM-Dokument besteht aus zwei Teilbereichen: Header-Daten inklusive dem aus DICOM-Kode bestehenden „Report Title" und der sogenannten „Document Content Sequence", welche einen nach dem SNOMED-Standard (engl.: „Syste-mized Nomenclature for Medicine") kodierten medizinischen Datenteil beinhaltet. Bei SNOMED handelt es sich um eine Beschreibungssprache mit einem aus mehr als 50.000 Begriffen (Termen) bestehenden Thesaurus, welche zur Kodierung, Indexierung und Wiederauffindung von Daten in Patientenakten verwendet wird. Zu den hierbei verwendeten Kodierschemata gehören mnemonische, hierarchische, gruppensequenzielle, inkrementelle und Kombinationskodes. Neben SNOMED verwendet der DICOM-Standard zahlreiche weitere Kodierschemata (z.B. ICD bzw. LOINC).

Der Standard HL7 CDA, eingehend beschrieben in dem Fachartikel „HL7 Clinical Document Architecture Framework" (Release 1.0, 2000), ist ein internationaler Kommunikationsstandard zum Austausch, Management sowie zur Integration von Daten, die für die Patientenbehandlung erforderlich sind.

Gegenüber unstrukturierten Volltextdokumenten zeichnen sich HL7 CDA- und DICOM SR-Dokumente durch eine explizit kodierte Dokumentenstruktur aus, welche z.B. durch kodierte Kapitel- und Abschnittsbezeichnungen gekennzeichnet ist. Dabei können zu jedem Datenelement, für das ein Eintrag vorgesehen ist, aus einer Bibliotheksdatei die mit diesem Datenelement assoziierten Kontextinformationen ausgelesen werden. Diese Kontextinformationen bleiben bei herkömmlichen Verfahren zur Indexierung von Volltextdokumenten nicht erhalten, wodurch die Genauigkeit des Suchprozesses vermindert wird. Infolgedessen kann bei einer herkömmlichen Indexierung nicht sichergestellt werden, dass eine Suchanfrage alle für eine bestimmte Suchanfrage relevanten Dokumente liefert.

Strukturierte Objekte, die im DICOM SR- oder HL7 CDA-Format gespeichert sind, enthalten selbst keine Bildobjekte (bestehend aus Header-Daten und binär kodierten Bilddaten), sondern sogenannte Unique Identifiers (UIDs), über die Bilddaten und andere Objekte (wie z.B. Biosignaldaten) referenziert werden. DICOM SR verwendet beispielsweise UIDs, mit denen der Typ und die Instanz referenzierter Objekte bezeichnet werden. Innerhalb des Dokuments stehen diese UIDs im Kontext weiterer beschreibender Daten, z.B. Kodes, mit denen ein Untersuchungsverfahren näher bezeichnet wird. Über diese Metadaten lassen sich der „Inhalt" eines bestimmten referenzierten Objekts sowie diesbezügliche Beobachtungen beschreiben.

Für strukturierte SGML-Dokumente und objektorientierte Datenbanken sind Erweiterungen der Abfragesprache bekannt, wie in dem Artikel „From Structured Documents to Novel Query Facilities", (SIGMOD RECORD, 23(2): 313–324, June 1994) von V. Christophides, S. Abiteboul, S. Cluet und M. Scholl erläutert ist. Für XML-Dokumente existiert die in „XQuery 1.0: An XML Query Language" (W3C Working Draft 2002) beschriebene, für Information Retrieval-Anwendungen geeignete Anfragesprache XQuery, welche die in der Spezifikation „XML Path Language (XPath) Version 1.0" (W3C Recommendation 1999) beschriebene Sprache XPath zur Adressierung von Teilen eines XML-Dokuments verwendet. XPath ist in der Lage, Dokumentknoten unter Angabe verschiedener Kriterien zu selektieren und grundlegende Manipulationen an Zeichenketten, Booleschen Werten und Knotenmengen durchzuführen und enthält eine einfache Funktionsbibliothek, die durch benutzerdefinierte Funktionen erweitert werden kann. Ohne die Erzeugung eines geeigneten invertierten Indexes sind diese Anfragen allerdings auf einzelne strukturierte Dokumente begrenzt, und die Suche nach relevanten Dokumenten ist ineffizient.

PROBLEME HERKÖMMLICHER LÖSUNGEN NACH DEM STAND DER TECHNIK

Eine der Grundfragen konventioneller workflow-basierter Dokumentenmanagementsysteme, die für Zugriffs- und Ablaufsteuerungen verwendet werden, ist, wie relevante Informationen im Kontext eines aktuellen Prozessschrittes an einen Benutzer geliefert werden. Dabei ist im Allgemeinen die Abarbeitung von Prozessschritten von Interesse, die, wie in dem Fachartikel „Workflow Management Coalition: The Workflow Reference Model" (Hampshire 1995) beschrieben ist, z.B. in Form sogenannter „Prozessdefinitionen" zur Verfügung gestellt werden. Die Frage, wie das System den Entscheidungsprozess eines Anwenders zur Auswahl der für den jeweiligen Fall relevanten Informationen unter-stützen kann, wird hierdurch nicht beantwortet. Vielmehr ist der Anwender gezwungen, die für seine Zwecke relevanten In-for-mationen, welche z.B. in Form der von einer Suchmaschine gefundenen Textdateien und von diesen referenzierten Bildda-teien vorliegt, durch Sichtung dieser Dateien zu suchen.

Ausgehend von dem oben genannten Stand der Technik, ist die vorliegende Erfindung der Aufgabe gewidmet, ein Indexierungsverfahren für ein inhaltsbasiertes Bild- und Dokumentenretrieval bereitzustellen, das eine kontextsensitive Suche nach relevanten Dateien eines bestimmten Formats und einer bestimmten Dateistruktur sowie von diesen Dateien referenzierten Bilddateien ermöglicht. Eine weitere Aufgabe der Erfindung besteht in der Bereitstellung eines Informationsmanagementsystems, das auf Grundlage analysierter Dokumenteninhalte die Entscheidungsfindung des Anwenders bei der Auswahl der für ihn relevanten Informationen unterstützt.

Diese Aufgabe wird erfindungsgemäß durch die Merkmale der un-abhängigen Patentansprüche gelöst. Vorteilhafte Ausfüh rungs-beispiele, die den Gedanken der Erfindung weiterbilden, sind in den abhängigen Patentansprüchen definiert.

ZUSAMMENFASSENDE DARSTELLUNG DER VORLIEGENDEN ERFINDUNG

Die zugrunde liegende Erfindung offenbart, entsprechend der im vorangehenden Abschnitt definierten Aufgabe, ein Verfahren zur automatischen Indexierung von Datenarchiven und Kategorisierung der darin vorgehaltenen Dateien sowie ein Client/Server-System eines Bild- und Dokumentenretrievalsystems zur inhaltsbasierten Suche nach relevanten Dateien mindestens eines bestimmten Formats und mindestens einer bestimmten Dateistruktur sowie von diesen Dateien qgf. referenzierten, in einer digitalen Bilddatenbank gespeicherten Bilddateien. Der Server dieses Bildretrievalsystems hat dabei Zugriff auf ein Dokumentenmanagementsystem, welches eine kontextsensitive Suche nach relevanten Dokumenten (z.B. Dokumente, die relevante klinische und adminis-trative Patientendaten enthalten), sowie von diesen Dokumenten referenzierten Bild- und/oder Datenobjekten (z.B. MRT-, CT- oder EKG-Daten eines einzelnen Patienten oder einer Gruppe von Patienten) ermöglicht.

Grundlage des erfindungsgemäßen Verfahrens ist es dabei, die in strukturierten Dokumenten vorhandenen Informationen (z.B. Kodes für bestimmte indizierte Diagnosen, medizinische Fachbegriffe etc.) in einer Weise für die Erzeugung eines invertierten Indexes zu nutzen, die wesentliche Vorteile gegenüber der Indexierung von unstrukturierten Volltextdokumenten bietet. Auf dieser Basis wird als erster Schritt ein gezieltes Retrieval relevanter Dokumente durchgeführt. Anschließend werden die relevanten Dokumente geparst und beispielsweise indizierte Diagnosen, klinische Fragestellungen, Verdachtsdiagnosen und Untersuchungsergebnisse, die in entsprechenden Dokumentencontainern gespeichert sind, analysiert.

In der Regel ist aufgrund von bestimmten indizierten Diagnosen bzw. klinischen Fragestellungen eine bestimmte weitere Vorgehensweise im Diagnoseprozess sinnvoll. Durch die Bereitstellung relevanter Informationen und Anzeige der zur Lösung der jeweiligen Problemstellung geeigneten Maßnahmen (z.B. in Form einer Liste indizierter Untersuchungsmethoden für eine bestimmte Diagnose oder anderer geeigneter Prozessdefinitionen) wird eine gezielte Planung der in einer bestimmten Situation vom Anwender durchzuführenden Arbeitsschritte (z.B. die Auswahl einer geeigneten Untersuchungsmethode, eines geeigneten Therapieverfahren und/oder der zu verabreichenden Medikamente durch den behandelnden Facharzt eines Patienten bei Vorliegen einer bestimmten Verdachtsdiagnose) ermöglicht. Dem Anwender wird also eine geeignete Auswahl von Prozessbeschreibungen zur weiteren Vorgehensweise angeboten.

Die in einem vom Dokumentenmanagementsystem verwalteten Datenarchiv gespeicherten und gemäß den Regeln einer zugrunde liegenden kontextfreien Grammatik geparsten Dateien werden dabei einer automatischen Merkmalsextraktion unterzogen. Die gewonnenen Merkmale werden dann zur Erzeugung eines binär kodierten, aus Elementen mindestens zweier Attribute bestehenden invertierten Indexes verwendet, in dem in diesen Dateien enthaltene, für ein inhaltsbasiertes Bildretrieval benötigte Kontextinformationen vorgehalten werden. Werden neue Dateien oder Dateien mit erweitertem bzw. modifiziertem Inhalt in dem Datenarchiv gespeichert, wird erfindungsgemäß bei jedem Speichervorgang ein Parsing-Algorith-mus sowie ein Algorithmus zur automatischen Extraktion von Merkmalen dieser Dateien ereignisgesteuert ausgeführt, um den invertierten Index um einzelne Attribute zu erweitern bzw. um bestimmte Elemente bereits bestehender Indexattribute zu aktualisieren.

Durch die Erzeugung eines solchen binär kodierten, kontextsensitiven invertierten Indexes auf der Basis von Dateien eines spezifischen Formats (z.B. DICOM SR oder HL7 CDA) wird die gezielte Bereitstellung relevanter Informationen ermöglicht. Ein wesentlicher Vorteil dieses Indexes besteht darin, dass bei Durchführung der Merkmalsextraktion die in den Da teien vorhandenen Kontextinformationen erhalten bleiben und für Anfragen nach relevanten Dokumenten zur Verfügung stehen.

In diesem Zusammenhang ist insbesondere zwischen Strukturkontext und Beobachtungskontext zu unterscheiden. Der Strukturkontext bezieht sich auf die Dokumentenstruktur, z.B. die Abschnitte eines Dokuments, die in der Regel mit einem Kode (z.B. „Diagnosen" oder „Zur weiteren Abklärung") bezeichnet werden. So ist beispielsweise die Bedeutung des Begriffes „Pneumonie" abhängig vom Strukturkontext. Neben dem Strukturkontext ist der sogenannte termassoziierte, inhaltliche Kontext oder Beobachtungskontext von Bedeutung, z.B. die Art der zur Bestätigung einer Verdachtsdiagnose verwendeten Untersuchungsmethode, da verschiedene Diagnoseverfahren unterschiedliche Sensitivität und Spezifität aufweisen. Beispielsweise kann ein und dieselbe Diagnose (z.B. „Pneumonie") im Kontext mit anderen Krankheitsbildern, die nach Durchführung weiterer Untersuchungsverfahren diagnostiziert wurden, u.U. unterschiedliche Therapieverfahren und Medikationen implizieren.

Durch die Berücksichtigung der vorstehend genannten Kontextinformation wird die Präzision des verwendeten Bild- und Dokumentenretrievalverfahrens zur Suche relevanter Dokumente wesentlich verbessert und eine gezielte inhaltsbasierte Suche über den gesamten Dokumentenbestand ermöglicht. Da die Bilder in den DICOM SR- bzw. HL7 CDA-Dokumentendateien referenziert werden, steht hierbei die Präzision des Dokumentenretrievals im Vordergrund. Unter Verwendung eines „kontextsensitiven" Indexes kann nach Begriffen, die aus den Inhalten der im Datenarchiv gespeicherten Dateien und den von diesen referenzierten, in der Bilddatenbank gespeicherten Bilddateien über einen Merkmalsextraktionsalgorithmus gewonnen wurden, in beliebiger Präzision gesucht werden. Im Gegensatz zur Beschränkung auf die Abfrage von Dokumenttypen (z.B. DICOM Report Title und Templates) kann folglich über beliebige Inhalte (aus Text- und Bilddateien extrahierte Merkmale) gesucht werden. Der binär kodierte Index verwendet u.a. die in den strukturierten Dateien enthaltenen kodierten Terme, die durch bekannte Kodierungs- und Klassifikationsschemata (z.B. SNOMED, ICD, LOINC) definiert sind.

Vorteil ist die Bereitstellung einer einheitlichen Begriffsbasis über die in Kodierungs- bzw. Klassifikationsschemata festgelegten Definitionen von Konzepten. Durch die Analyse des Anfragekontextes und der über den Index gefundenen relevanten Dateien ist eine gezielte Planung der im Einzelfall durchzuführenden Maßnahmen (z.B. der Auswahl indizierter Untersuchungsmethoden, Therapieverfahren und/oder Medikationen für eine bestimmte Diagnose) möglich.

KURZBESCHREIBUNG DER ZEICHNUNGEN
Weitere Eigenschaften, Merkmale, Vorteile und Anwendungen der zugrunde liegenden Erfindung ergeben sich aus den untergeordneten abhängigen Patentansprüchen sowie aus der folgenden Beschreibung zweier Ausführungsbeispiele der Erfindung, welche in den folgenden Zeichnungen abgebildet sind. Hierbei zeigt
1 ein Ablaufdiagramm zur Veranschaulichung des erfindungsgemäßen Verfahrens zur Erzeugung eines binär kodierten, kontextsensitiven invertierten Indexes, welcher für ein inhaltsbasiertes Bildre-trieval in einer digitalen Bilddatenbank geeignet ist,
2 die Datenstruktur des strukturierten Dokumentenkontextes, bestehend aus den Patienten-Identifikationsnummern, Daten zu einzelnen Termen und deren inhaltlichem Kontext sowie den jeweiligen Dokumenten-Identifikationsnummern und strukturierten Dokumentenkontextdaten, zur Zuordnung eines binär kodierten, kontextsensitiven invertierten Indexes zu einer Patientengruppe,
2a Ausschnitte eines binär kodierten, nicht invertierten Indexes zur inhaltsbasierten Suche von Bilddateien in einer digitalen Bilddatenbank, welcher einer Patientengruppe zugeordnet ist und Angaben über den Zeitraum der Erfassung klinischer Patientendaten enthält,
2b Ausschnitte eines binär kodierten, invertierten Indexes zur inhaltsbasierten Suche von Bilddateien in einer digitalen Bilddatenbank, welcher aus dem nicht invertierten Index gebildet wurde,
3 ein Blockschaltbild der Client/Server-Architektur eines Bildretrievalsystems nach einem Ausführungsbeispiel der vorliegenden Erfindung zur inhaltsbasierten Suche nach Bilddaten in einer digitalen Bilddatenbank, in der Bilddaten mindestens eines spezifischen Formats und mindestens einer bestimmten Dateistruktur über einen binär kodierten, kontextsensitiven invertierten Index zugreifbar sind,
4 die von dem erfindungsgemäßen Vorgangssteuerungssystem verwendete Datenstruktur, die offenen klinischen Fragestellungen geeignete Maßnahmen – Prozessdefinitionen genannt – in Form einer Liste bei einer bestimmten Diagnose indizierter Untersuchungsmethoden zuordnet.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
Im Folgenden werden die Schritte des erfindungsgemäßen Verfahrens und die Funktionen der in einem Ausführungsbeispiel der zugrunde liegenden Erfindung enthaltenen Systemkomponenten, wie in 1 und 3 abgebildet, näher be-schrieben. Die Bedeutung der mit Bezugszeichen versehenen Symbole in 1 bis 4 kann der beigefügten Bezugszeichenliste ent-nommen werden.
Ein erstes Ausführungsbeispiel der vorliegenden Erfindung bezieht sich auf das in 1 und 3 veranschaulichte Verfahren zur automatischen Indexierung multimedialer Datenarchive 304c und Kategorisierung der darin gespeicherten Dateien 102a–n, welches eine inhaltsbasierte Suche nach relevanten Dateien 102i mindestens eines bestimmten Formats und mindestens einer bestimmten Dateistruktur sowie von diesen Dateien referenzierten, in einer digitalen Bilddatenbank 304a gespeicherten Bilddateien (B1, ..., BN) ermöglicht. Sendet ein Anwender eine Anfrage (S1) an das Dokumentenmanagementsystem 304 zur Suche nach relevanten Dokumenten 102i über den invertierten Index 116 durch Eingabe von Suchbe-griffen über einen auf seinem Client-Rechner 302 laufenden Browser, wird zunächst eine Nachricht vom Dokumentenmanagementsystem 304 zu einer Steuereinheit 306 übermittelt (S2). In dieser Nachricht werden von der Steuereinheit 306 erfindungsgemäß geeignete Prozessschritte zur Weiterbehandlung der Informationen, die in gefundenen, bezüglich der eingegebenen Suchbe-griffe relevanten Dateien 102i enthalten sind, angefordert und an das Dokumentenmanagementsystem 304 weitergeleitet (S3), welches die gefundenen Dateien 102i sowie die ermittelten Prozessschritte an den Client-Rech-ner 302 des Anwenders bereitstellt (S4). Nach Durchsicht (S5) der vom Dokumentenmanagementsystem 304 bereitgestellten Dateien 102i sowie der von diesen Dateien referenzierten Bilddateien (B1, ..., BN) und Selektion (S6) mindestens eines in Anbe-tracht der gesichteten Informationen geeigneten Prozessschrittes werden die vom Anwender ausgewählten und geplanten Prozessschritte abhängig vom Inhalt der bereitgestellten und vom Anwender gesichteten Dokumente 102i über den Client-Rechner 302 an ein Vorgangssteuerungssystem 306 (engl.: „Workflow Engine") übermittelt (S7). Um den invertierten Index 116 zu erweitern (S8), erfolgt dann erfindungsgemäß die Übermittlung der geplanten und/oder ausgewählten Prozessschritte vom Vorgangssteuerungssystem 306 zu der für die Speicherung des Indexes 116 vorgesehenen Speichereinheit 304b des Dokumentenmanagementsystems 304 und die Eintra gung dieser Prozessschritte in die Speicherzellen der Elemente dafür vorgesehener Indexattribute.
Ein nach dem vorstehend beschriebenen Verfahren erzeugter, erweiterter und/oder aktualisierter invertierter Index 116 kann vorteilhaft zur inhaltsbasierten Suche nach Dateien 102i mindestens eines bestimmten Formats und mindestens einer bestimmten Dateistruktur sowie von diesen Dateien referenzierten, in einer digitalen Bilddatenbank 304a gespeicherten Bilddateien (B1, ..., BN) verwendet werden. Weitere Vorteile des erfindungsgemäßen Verfahrens bestehen in der gezielten Unterstützung des Anwenders bei der Planung notwendiger Prozessschritte, in der Reduktion der Netzlast durch das gezielte Retrieval von Bilddaten und in der Verkürzung der für die Bereitstellung relevanter Informationen benötigten Zeitdauer.
Wie in dem in 1 abgebildeten Ablaufdiagramm 100 dargestellt, wird durch das Speichern eines der Dokumente 102a–n in der Datenbank 304c des Dokumentenmanagementsystems 304 automatisch eine syntaktische Analyse der zugehörigen Datei ausgelöst (engl.: „Parsing"). Ergebnis dieser Prozedur ist ein Parse-Baum 106, dessen Knoten und Blätter die syntaktische Struktur der Dateiinhalte wiedergeben. Die Verarbeitungseinheit 108 (genannt „Transformation Processing Engine") wandelt die geparste Datei in eine geeignete parametrisierte Darstellung („inter-mediäre Repräsentation") um, welche zur Eintragung in den invertierten Index 116 geeignet ist. Die Erzeugung bzw. Aktualisierung des invertierten Indexes 116 erfolgt durch ein Indexierungsmodul 112, welches auf Informationen zu Kodes und Kodierungsschemata zugreift, die in einem Datenspeicher 114 abgelegt sind bzw. über eine Anwendungsprogrammierschnittstelle (API) eingegeben werden können. Der invertierte Index 116 ist dabei entweder einem einzelnen Patienten oder einer Patientengruppe zugeordnet und enthält die während eines Untersuchungszeitraums erfassten Patientendaten.
Im ersten Fall, der nachfolgend betrachtet wird, erfolgt die Zuordnung des Indexes zu einem bestimmten Patienten über die Patienten-Iden-ti-fi-ka-tionsnummer (ID), die Teil des in 2 abgebildeten strukturierten Dokumentenkontextes ist. Dieser besteht aus einer Datenstruktur 200, die eine Identifika-tionsnummer (ID), Daten zu einzelnen Suchbegriffen oder mehreren Suchbegriffen einer Anfrage („Terme" genannt) und deren inhaltlichem Kontext sowie die Dokumenten-Identifikationsnum-mer (Document ID) und strukturelle Dokumentenkontextdaten be-inhaltet. Die in geschweiften Klammern enthaltenen Objekte können dabei entweder einmal oder beliebig oft enthalten sein, während mit eckigen Klammern Optionen bezeichnet werden, die entweder weggelassen oder genau einmal ent-hal-ten sein können.
2a zeigt Ausschnitte eines konkreten Beispiels für einen binär kodierten, nicht invertierten Index 200a zur inhaltsbasierten Suche nach Bilddateien Bk, die in dem digitalen Bildarchiv 304a gespeichert sind. Der Index ist einer Patientengruppe zugeordnet und enthält Angaben über den Zeitraum der Erfassung klinischer Patientendaten (z.B. vom Arzt ge-stellte Diagnosen, indizierte Medikationen etc.). Hierbei wird das Indexat-tribut „ID" (die Spalte, welche die Patienten-Identifikationsnummern enthält) als Primärschlüssel verwendet. Ausschnitte eines binär kodierten, invertierten Indexes 200b, der aus dem in 2a dargestellten nicht invertierten Index 200a gebildet wurde, sind in 2b abgebildet. Dabei wird das Indexat-tribut „Bild" (die Spalte, welche die während einzelner Untersuchungen aufgenommenen Bilddaten untersuchter Patienten enthält) als Primärschlüssel verwendet. In der Regel ist jedem Bild genau eine Untersuchungsmethode zugeordnet (z.B. Abdomen MRT, Schädel CT), mit der die Bildakquisition durchgeführt wird.
Ein zweites Ausführungsbeispiel der vorliegenden Erfindung bezieht sich auf ein Dokumentenmanagementsystem 304 eines Bildre-trievalsystems 300 zur automatischen Indexierung digitaler Datenarchive 304c und Kategorisierung der darin gespeicherten Dateien 102a–z, das zur Ermöglichung einer inhaltsbasierten Suche nach relevanten Dateien 102i mindestens eines bestimmten Formats und mindestens einer bestimmten Dateistruktur sowie von diesen Dateien referenzierten, in einer digitalen Bilddatenbank 304a in binär kodierter Form gespeicherten Bilddateien (B1, ..., BN) dient. Das Dokumentenmanagementsystem 304 verfügt außerdem über einen Parser 104 zur Durchführung einer Syntaxanalyse der Inhalte in dem digitalen Datenarchiv 304c gespeicherter Dateien 102a–z gemäß den Regeln einer zugrunde liegenden kontextfreien Grammatik und eine Verarbeitungseinheit 108 zur ereignisgesteuerten Umwandlung geparster Dokumente 106 in eine geeignete parametrisierte Darstellung 110 – „intermediäre Repräsentation" genannt. Diese enthält aus den geparsten Dateien 102a–z und von diesen referenzierten Bilddateien (B1, ..., BN) automatisch extrahierte Merkmale, die zur Erzeugung eines binär kodierten invertierten Indexes 116 benötigt werden, der zur Suche nach in diesen Dateien 102a–z enthaltenen Kontextinformationen und somit für ein inhaltsbasiertes Bildretrieval bei der Suche nach den in einer digitalen Bilddatenbank 304a gespeicherten Bilddateien (B1, ..., BN) geeignet ist. Das Dokumentenmanagementsystem 304 verfügt ferner über einen Datenspeicher 114 bzw. eine Anwendungsprogrammierschnittstelle zur Bereitstellung mit Kodes und Kodierungsschemata assoziierter Informationen, die zur binären Kodierung des zu erstellenden invertierten Indexes 116 benötigt werden, sowie ein Indexierungsmodul 112, das auf die im Datenspeicher 114 hinterlegten Informationen zu gespeicherten oder eingegebenen Kodes und Kodierungsschemata zugreift und eine automatische Indexierung der erhaltenen intermediären Re-präsentationen 110 für ein inhaltsbasiertes Bildretrieval vornimmt.
Ein drittes Ausführungsbeispiel der vorliegenden Erfindung bezieht sich auf eine Client/Server-Architektur eines Bildretrievalsystems 300 zur inhaltsbasierten Suche nach Bildda teien (B1, ..., BN), welche in einer digitalen Bilddatenbank 304a gespeichert sind. Diese Client/Server-Architektur umfasst erfindungsgemäß ein Dokumentenmanagementsystem 304, welches eine über einen Client-Rechner 302 eingegebene Suchanfrage eines Anwenders nach relevanter Information analysiert und einen in einer Speichereinheit 304b hinterlegten, binär kodierten invertierten Index 116 nach relevanten Dokumenten 102i durchsucht. Das Dokumentenmanagementsystem 304 verfügt dabei über eine Speicher-einheit 304b zur Speicherung eines binär kodierten, kontextsensitiven invertierten Indexes 116, über den Bilddateien (B1, ..., BN) mindestens eines bestimmten Formats und mindestens einer bestimmten Dateistruktur zugreifbar sind. Ein Vorgangssteuerungssystem 306 dient zur ereignisgesteuerten Überwachung heterogener Prozesse, die durch den Client-Rechner 302 und das Dokumentenmanagementsystem 304 initiiert werden, zur Festlegung der Abhängigkeiten und logischen Abläufe der Prozesse sowie zur Hinterlegung dieser Informationen im Dokumentenmanagementsystem 304. Bei diesem Vorgangssteuerungssystem 306 handelt es sich erfindungsgemäß um ein wissensbasiertes Expertensystem, bestehend aus einer Wissensdatenbank und einem Inferenzsys-tem, welches auf der Grundlage gesammelten medizinischen Fachwissens und gespeicherter analytischer Regeln, die von Experten auf dem jeweiligen medizinischen Fachgebiet festgelegt wurden, durch Anwendung von Methoden der künstlichen Intelligenz die von einem Arzt eingegebenen Informationen gegen diese Fakten und Regeln abwägt, um Inferenzen (Schlussfol-ge-rungen) abzuleiten und komplexe Probleme eines bestimmten Typs auf diesem Fachgebiet zu lösen.
Wie in 3 dargestellt, sendet ein Anwender (in der Regel der behandelnde Facharzt eines Patienten) über seinen Client-Rechner 302 eine Suchanfrage nach relevanter Information an das Dokumentenmanagementsystem 304, z.B. durch Übermittlung von Patientendaten, Untersuchungsprotokollen, Verdachtsdiagnosen und/oder offenen klinischen Fragestellungen (S1). Das Dokumentenmanagementsystem 304 analysiert die Anfrage und durchsucht den in einer Speichereinheit 304b vorgehaltenen kontextsensitiven invertierten Index 116 nach relevanten Dokumenten 102i. Auf der Basis der Anfrage in Verbindung mit den Patientendaten und den darin enthaltenen Informationen wird eine Nachricht an das Vorgangssteuerungssystem 306 gesendet (S2), welche die in der jeweiligen Situation geeigneten, vom Arzt durchzuführenden Maßnahmen (z.B. objektiv indizierte Untersuchungsmethoden, Therapieverfahren und/oder Medikationen für eine bestimmte Verdachtsdiagnose) an das Dokumentenmanagementsystem 304 anfordert. Das Vorgangssteuerungssystem 306 verwendet dazu die in 4 abgebildete Datenstruktur 400, in der offenen klinischen Fragestellungen geeignete medizinische Maßnahmen in Form einer Liste sogenannter „Pro-zessdefinitionen" zugeordnet werden. Nachdem das Dokumentenmanagementsystem 304 diese Daten erhalten hat (S3), übermittelt (S4) es die relevanten Prozessschritte an den Client-Rechner 302 des betreffenden Facharztes. Dieser sichtet (S5) die relevanten Dokumente 102i und die von ihnen referenzierten Bilddateien (B1, ..., BN) mit Hilfe eines auf seinem Client-Rechner 302 laufenden Browser-Programms. In einem weiteren Schritt (S6) wählt er/sie aus der Liste der angebotenen Prozessschritte diejenigen Maßnahmen aus, die für die weitere Vorgehensweise geeignet sind, so dass eine gezielte Planung der in einer bestimmten Situation objektiv indizierten Maßnahmen (z.B. die Auswahl einer geeigneten Untersuchungsmethode bei einer bestimmten Verdachtsdiagnose) ermöglicht wird.

Claims

Verfahren zur automatischen Indexierung von Datenarchiven (304c) und Kategorisierung der darin gespeicherten Dateien (102a–n) zwecks Ermöglichung einer inhaltsbasierten Suche nach Dateien (102i) sowie von diesen Dateien ggf. referenzierten, in einem Bildarchiv (304a) gespeicherten Bilddateien (B1, ..., BN), gekennzeichnet durch die folgenden Schritte: • Merkmalsextraktion (S0a) aus einer Anzahl der von einem Dokumentenmanagementsystem (304) eines Bildretrievalsystems (300) verwalteten Dateien (102a–n) zur Erzeugung eines aus Elementen mindestens zweier Attribute bestehenden invertierten Indexes (116), in dem in diesen Dateien (102a–n) enthaltene, für ein inhaltsbasiertes Bildretrieval benötigte Kontextinformationen vorgehalten werden, sowie • Durchführung eines Parsing-Algorith-mus (S0b) und eines Algorithmus (S0c) zur Extraktion von Merkmalen neuer (102o–z), inhaltlich erweiterter oder veränderter Dateien (102a–n) bei Speicherung dieser Dateien (102a–z) in einem vom Dokumentenmanagementsystem (304) verwalteten Datenarchiv (304c) zur Aktualisierung des invertierten Indexes (116).
Verfahren gemäß Anspruch 1, gekennzeichnet durch die folgenden Schritte: • Sendung (S1) einer Anfrage an das Dokumentenmanagementsystem (304) zur Suche nach Dokumenten (102i) über den invertierten Index (116) durch Eingabe von Suchbe-griffen über einen auf einem Client (302) laufenden Browser-Programms, • Übermittlung (S2) einer Nachricht vom Dokumentenmanagementsystem (304) zu einem Vorgangssteuerungssystem (306), in dem Prozessschritte zur Weiterbehandlung der Informationen, die in gefundenen, bezüglich der eingegebenen Suchbe-griffe relevanten Dateien (102i) enthalten sind, angefordert werden, • Weiterleitung (S3) der vom Vorgangssteuerungssystem (306) ermittelten Prozessschritte an das Dokumentenmanagementsystem (304) und Bereitstellung (S4) der gefundenen Dateien (102i) sowie der ermittelten Prozessschritte an den Client-Rech-ner (302), • Durchsicht (S5) der vom Dokumentenmanagementsystem (304) bereitgestellten Dateien (102i) sowie der von diesen referenzierten Bilddateien (B1, ..., BN) und Selektion (S6) mindestens eines in Anbe-tracht der gesichteten Informationen geeigneten Prozessschrittes und • Übermittlung (S7) ausgewählter und geplanter Prozessschritte abhängig vom Inhalt der bereitgestellten und vom Anwender gesichteten Dokumente (102i) vom Client-Rechner (302) an das Vorgangssteuerungssystem (306).
Verfahren gemäß Anspruch 2, gekennzeichnet durch den Schritt der Erweiterung (S8) des invertierten Indexes (116) durch Übermittlung geplanter und/oder ausgewählter Prozessschritte vom Vorgangssteuerungssystem (306) zu einer Speichereinheit (304b) des Dokumentenmanagementsystems (304) und Eintragung dieser Prozessschritte in die Speicherzellen der Elemente dafür vorgesehener Indexat-tribute.
Verwendung eines nach einem der Ansprüche 1 bis 3 erzeugten, erweiterten und/oder aktualisierten invertierten Indexes (116) zur inhaltsbasierten Suche nach Dateien (102i) sowie von diesen Dateien ggf. referenzierten, in einem digitalen Bildarchiv (304a) gespeicherten Bilddateien (B1, ..., BN).
Dokumentenmanagementsystem eines Bildre-trievalsystems (300) zur automatischen Indexierung von Datenarchiven (304c) und Kategorisierung der darin gespeicherten Dateien (102a–z) zwecks Ermöglichung einer inhaltsbasierten Suche nach rele vanten Dateien (102i) sowie von diesen Dateien ggf. referenzierten, in einem Bildarchiv (304a) vorliegender Bilddateien, gekennzeichnet durch • einen Parser (104) zur Durchführung einer Syntaxanalyse der Inhalte in dem Datenarchiv (304c) gespeicherter Dateien (102a–z) und • eine Verarbeitungseinheit (108) zur ereignisgesteuerten Umwandlung geparster Dokumente (106) in eine geeignete intermediäre Repräsentation (110), welche aus den geparsten Dateien (102a–z) und den von diesen referenzierten Bilddateien (B1, ..., BN) extrahierte Merkmale enthält, die zur Erzeugung eines invertierten Indexes (116) zur Suche nach in diesen Dateien (102a–z) enthaltenen Kontextinformationen und somit für ein inhaltsbasiertes Bildretrieval bei der Suche nach Bilddateien (B1, ..., BN) in dem Bildarchiv (304a) benötigt werden.
Dokumentenmanagementsystem gemäß Anspruch 5, gekennzeichnet durch • einen Datenspeicher (114) bzw. eine Anwendungsprogrammierschnittstelle zur Bereitstellung mit Kodes und Kodierungsschemata assoziierter Informationen, die zur Kodierung des zu erstellenden invertierten Indexes (116) benötigt werden, und • ein Indexierungsmodul (112), das auf die im Datenspeicher (114) hinterlegten Informationen zu gespeicherten oder eingegebenen Kodes und Kodierungsschemata zugreift und eine automatische Indexierung der erhaltenen intermediären Re-präsentationen (110) für ein inhaltsbasiertes Bildretrieval vornimmt.
Client/Server-System eines Bildretrievalsystems (300) zur inhaltsbasierten Suche nach Bilddateien (B1, ..., BN), welche in einem Bildarchiv (304a) gespeichert sind, aufweisend • einen Client-Rechner (302) zum Senden einer Suchanfrage nach relevanter Information und • ein Dokumentenmanagementsystem (304) zum Analysieren der Suchanfrage und Durchsuchen eines in einer Speichereinheit (304b) hinterlegten invertierten Indexes (116), über den Bilddateien (B1, ..., BN) zugreifbar sind, gekennzeichnet durch ein Vorgangssteuerungssystem (306) zur ereignisgesteuerten Überwachung heterogener Prozesse, die durch den Client-Rechner (302) und das Dokumentenmanagementsystem (304) initiiert werden, Festlegung der Abhängigkeiten und logischen Abläufe der Prozesse und Hinterlegung dieser Informationen im Dokumentenmanagementsystem (304).