DE10248837A1 - System und Verfahren zur Verarbeitung von elektronischen Dokumenten - Google Patents

System und Verfahren zur Verarbeitung von elektronischen Dokumenten Download PDF

Info

Publication number
DE10248837A1
DE10248837A1 DE10248837A DE10248837A DE10248837A1 DE 10248837 A1 DE10248837 A1 DE 10248837A1 DE 10248837 A DE10248837 A DE 10248837A DE 10248837 A DE10248837 A DE 10248837A DE 10248837 A1 DE10248837 A1 DE 10248837A1
Authority
DE
Germany
Prior art keywords
document
documents
type
link
input document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10248837A
Other languages
English (en)
Inventor
Georg Dr. Bauer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Philips Intellectual Property and Standards GmbH
Original Assignee
Philips Intellectual Property and Standards GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Philips Intellectual Property and Standards GmbH filed Critical Philips Intellectual Property and Standards GmbH
Priority to DE10248837A priority Critical patent/DE10248837A1/de
Priority to JP2004544568A priority patent/JP2006504162A/ja
Priority to AU2003264775A priority patent/AU2003264775A1/en
Priority to US10/531,602 priority patent/US20050289172A1/en
Priority to EP03808823A priority patent/EP1556800A2/de
Priority to PCT/IB2003/004405 priority patent/WO2004036459A2/en
Publication of DE10248837A1 publication Critical patent/DE10248837A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

Ein System und ein Verfahren zur Verarbeitung von elektronischen Dokumenten werden beschrieben, bei denen ein Eingabedokument D1 und Referenzdaten D2 daraufhin untersucht werden, ob ein inhaltlicher Zusammenhang zwischen dem Eingabedokument D1 und den Referenzdaten D2 besteht. Für den Fall eines inhaltlichen Zusammenhangs wird ein Verknüpfungstyp entsprechend der Art des inhaltlichen Zusammnenhangs aus einer Anzahl vorgegebener Verknüpfungstypen ausgewählt und eine entsprechende Verknüpfung zwischen den Dokumenten erstellt. Die Erfindung ermöglicht, dass automatisch die Art der Beziehung zwischen zwei Dokumenten erkannt wird. So lässt sich bspw. ein Strom von Dokumenten in geeigneter Weise segmentieren und klassifizieren sowie sinnvoll vernetzt ablegen.

Description

  • Die Erfindung betrifft ein System und ein Verfahren zur Verarbeitung von elektronischen Dokumenten sowie ein Programm zur Durchführung des Verfahrens.
  • Angesichts der Vielzahl von heute zur Verfügung stehenden Daten, die bspw. über Computernetzwerke wie das Internet abrufbar sind, wird verstärkt auf Systeme und Verfahren zurückgegriffen, die elektronische Dokumente entsprechend ihres Inhaltes automatisch verarbeiten. Bekannt sind hier bspw. Verfahren, die ein Dokument entsprechend seinem Inhalt klassifizieren.
  • In der US-A-5,983,246 sind ein Verfahren und eine Vorrichtung zur Verarbeitung von Dokumenten beschrieben. In einer Netzwerk-Umgebung werden ständig neue Dokumente bzw. neue Fassungen von Dokumenten aufgesucht und verarbeitet, indem sie nach ihrem Inhalt klassifiziert werden. Die Klassifizierung erfolgt automatisch, indem Ähnlichkeiten zwischen den aktuell bearbeiteten und bereits klassifizierten Dokumenten ausgenutzt werden. Konkret wird ein Unterscheidungswert in Form einer Worthäufigkeits-Tabelle betrachtet, um ein Maß für die Übereinstimmung der Dokumente zu ermitteln.
  • Es ist Aufgabe der Erfindung, ein System und ein Verfahren anzugeben, mit dem Dokumente verarbeitet werden können und hierbei zusätzliche Informationen über die Dokumente automatisch generiert werden.
  • Diese Aufgabe wird gelöst durch ein System nach Anspruch 1, ein Verfahren nach Anspruch 11 und ein Programm nach Anspruch 12 zur Durchführung des Verfahrens. Abhängige Ansprüche beziehen sich auf vorteilhafte Ausführungsformen der Erfindung.
  • Erfindungsgemäß wird mindestens ein Eingabedokument im Hinblick auf einen inhaltlichen Zusammenhang mit Referenzdaten analysiert. Bei den Referenzdaten kann es sich bspw. um ein zweites Dokument handeln. Ebenso kann es sich bei den Referenzdaten um eine Gruppe (Cluster) von Dokumenten handeln oder um eine Repräsentation hierfür. Auf der Basis der Analyse wird entschieden, ob ein inhaltlicher Zusammenhang vorliegt. Dann wird die Art dieses Zusammenhangs ermittelt und versucht, diese einem Typ zuzuordnen. Hierfür sind eine Anzahl von möglichen Verknüpfungstypen, d.h. Arten von inhaltlichen Beziehungen zwischen zwei Dokumenten vorgegeben. Bei Vorliegen eines entsprechenden inhaltlichen Zusammenhangs wird eine entsprechende Verknüpfung zwischen den Dokumenten erstellt.
  • Unter "Dokumenten" werden hierbei Daten verstanden, die in elektronischer Form vorliegen. Es kann sich bspw. um Textdokumente handeln. Ebenso kann es sich um Kombinationen aus Text- und Bildinformationen handeln. Es wird bevorzugt, dass die verarbeiteten Dokumente mindestens einen Text-Teil aufweisen. Auch bspw. Audio- oder Videodateien können verarbeitet werden, wobei der Text-Inhalt dann bevorzugt entweder in transkribierter Form vorliegt oder auch bei der Verarbeitung durch ein Spracherkennungssystem generiert wird. Beispiele für Datei-Formate zu verarbeitender Dokumente sind HTML- oder – allgemeiner – XML-Dokumente. Die Dokumente können verschiedenen inhaltlichen Typs sein. Es kann sich bspw. um einzelne Nachrichten-Meldungen handeln. Ebenso können die Dokumente Werke der Literatur sein, oder wissenschaftliche Aufsätze, Interviews usw. Bevorzugt umfassen die Dokumente auch mindestens einen Daten-Teil mit zusätzlichen Informationen (Meta-Daten), z. B. eine Angabe der Quelle, ein Erstellungsdatum etc..
  • Im Rahmen der Erfindung sind eine Anzahl von Verknüpfungstypen vorgegeben. Diese Verknüpfungstypen entsprechen inhaltlichen Beziehungen zwischen zwei Dokumenten oder zwischen einem Dokument und einer Gruppe (Cluster) von Dokumenten. Beispiele für Verknüpfungstypen zwischen zwei Dokumenten A und B wären bspw. "Dokument A ist ein Interview zu dem in Dokument B geschilderten Ereignis" oder "Dokument A ist eine Rezension des Buches Dokument B". Entscheidend ist, dass ein inhaltlicher Zusammenhang besteht, der durch den Verknüpfungstyp festgelegt wird. Bevorzugt hat eine solche Verknüpfung eine festgelegte Richtung. Ein Beispiel für einen Cluster C wäre bspw. gegeben durch eine Gruppe von Dokumenten, die sich alle mit einem bestimmten Ereignis beschäftigen. Ein möglicher Verknüpfungstyp zwischen einem Dokument A und dem Cluster C wäre dann bspw. "Dokument A ist eine Diskussion über das Ereignis, von dem Cluster C handelt".
  • Die Erfindung geht somit über das bloße Feststellen von Ähnlichkeitsbeziehungen zwischen zwei Dokumenten hinaus. Automatisch wird die Art der Beziehung zwischen zwei Dokumenten oder einem Dokument und einem Cluster erkannt. So lässt sich bspw. ein Strom von Dokumenten in geeigneter Weise segmentieren und klassifizieren bzw. mit automatisch erzeugten Meta-Daten anreichern und sinnvoll vernetzt ablegen.
  • Das erfindungsgemäße System verfügt über Eingabemittel, Analysemittel, Auswahlmittel und Ausgabemittel. Bevorzugt handelt es sich um eine Vorrichtung mit einem oder mehreren Computern, die Dokumente und Referenzdaten bspw. aus einem Speicher oder über eine Netzwerkschnittstelle einlesen können. Die Analyse des Zusammenhangs zwischen den Dokumenten und Referenzdaten sowie die Auswahl eines Verknüpfungstyps kann durch ein geeignetes Programm erfolgen. Die Ausgabe der erstellten Verknüpfung erfolgt bspw. durch Anzeigen auf einem Bildschirm, Ausgabe über eine Netzwerk-Schnittstelle oder Speicherung in einem geeigneten permanenten oder temporären Speicher.
  • Gemäß einer Weiterbildung der Erfindung werden bei der Analyse der Dokumente Schlüsselworte aufgesucht, die die Art des Zusammenhangs zwischen den Inhalten des Eingabedokuments und der Referenzdaten bezeichnen. Entsprechend der aufgefundenen Schlüsselworte wird die Verknüpfung erstellt, d.h. der Verknüpfungstyp ausgewählt.
  • Beispiele für derartige Schlüsselworte können im Fall der Verarbeitung von Nachrichten-Dokumenten bspw. einleitende Worte sein wie "nun ein Kommentar zu ...". Bevorzugt handelt es sich um Kombinationen aus mehreren zusammenhängenden Schlüsselworten, die hier als Schlüsselphrasen bezeichnet werden.
  • Bei der Verarbeitung eines Dokuments kann dieses klassifiziert, d.h. zu einem von einer Anzahl vorgegebener Dokumenttypen zugeordnet werden. Die Bestimmung der Art des inhaltlichen Zusammenhangs kann dann auf den ermittelten Dokumenttyp zurückgreifen.
  • Eine Weiterbildung der Erfindung sieht vor, dass das Eingabedokument einen Text-Teil und einen Daten-Teil umfasst. Der Text-Teil ist der bevorzugt verarbeitete Inhalt des Dokuments. Im Daten-Teil sind weitere Informationen (Meta-Daten) über das Dokument enthalten, bspw. Informationen über Art, Herkunft und/oder Datum des Dokuments. Selbstverständlich kann das Dokument noch weitere Teile umfassen, bspw. Grafiken, Video- oder Audioinhalte. Die im Daten-Teil enthaltenen Meta-Daten über das Dokument können automatisch bei der Erfassung des Dokuments erstellt werden. Werden bspw. Nachrichtenbeiträge eines Fernsehsenders als Dokumente erfasst, so können die Quelle (Name des Nachrichtensenders) und die Sendezeit automatisch verzeichnet werden. Bei im Internet abgerufenen Dokumenten kann der Inhalte-Anbieter verzeichnet werden und, soweit abrufbar, weitere Meta-Daten (bspw. Erstellungsdatum, Name des Autors etc.). Weiter können Meta-Daten durch zusätzliche Verarbeitungsschritte generiert werden. Werden bspw. Dokumente verarbeitet, die ursprünglich als Audio- oder Videodateien vorlagen, und deren Textinhalt bspw. durch eine Spracherkennung generiert wird, so können weitere Informationen aus der Spracherkennung als Meta-Daten verarbeitet werden. Hierfür kann bspw. eine Identifikation des jeweiligen Sprechers vorgenommen werden. Derartige Techniken sind dem Fachmann aus dem Bereich der Spracherkennung bekannt. Die Ergebnisse der Sprecheridentifikation und bspw. auch ein regelmäßiger Sprecherwechsel (der auf den Dokumenttyp "Interview" hindeuten würde) kann bspw. im Daten-Teil des Dokuments verzeichnet werden. Ebenso kann die Geräuschkulisse ausgewertet werden, um zwischen Studio-Beiträgen und bspw. Live-Reportagen (mit Hintergrundgeräuschen) zu unterscheiden und dies im Daten-Teil verzeichnet werden.
  • Gemäß einer anderen Weiterbildung der Erfindung wird bei der Analyse des inhaltlichen Zusammenhangs der Dokumente auf eine spezielle Datenbank zugegriffen. In dieser Datenbank sind Begriffe der jeweiligen Sprache zugehörigen Oberbegriffen zugeordnet. Diese Informationen, angewendet auf Begriffe die in einem der beiden Dokumente vorkommen, können bei der Analyse des inhaltlichen Zusammenhangs zwischen den Dokumenten eingesetzt werden.
  • Eine Weiterbildung der Erfindung betrifft die vernetzte Ablage von Dokumenten in einem elektronischen Speichersystem, in dem Dokumente semantisch vernetzt abgelegt sind. Zu abgespeicherten Dokumenten kann – wenn inhaltlich zugehörige Dokumente ebenfalls gespeichert sind – eine auf diese Dokumente gerichtete Verknüpfung des jeweiligen Verknüpfungstyps abgespeichert sein. Ein derartiges Speichersystem kann durch aufeinanderfolgende Verarbeitung von Dokumenten aufgebaut und um neue Dokumente erweitert werden. Beim Zugriff auf das Speichersystem kann zu einem Dokument auf einfache Weise, ohne zusätzliche Analyse-Schritte, auf inhaltlich zugehörige Dokumente zugegriffen werden. Über den Verknüpfungstyp kann der Zugriff gezielt auf bestimmte Arten von inhaltlichem Zusammenhang gerichtet werden. Das Speichersystem kann Teil des erfindungsgemäßen Computersystems sein und ein oder mehrere Speichermedien, bspw. elektronischen Speicher (RAM) und/oder optische bzw. magnetische Datenträger umfassen. Mehrere Speichermedien können zusammen in einem Gerät oder verteilt in mehreren, bspw. über ein Netzwerk miteinander verbundenen Geräten angeordnet sein.
  • Nachfolgend werden Ausführungsformen der Erfindung anhand von Zeichnungen näher beschrieben. In den Zeichnungen zeigen:
  • 1: In symbolischer Darstellung Verknüpfungen zwischen drei Dokumenten;
  • 2: in symbolischer Darstellung Elemente eines Informationsverarbeitungssystems.
  • In 1 sind in symbolischer Darstellung die drei Dokumente D1, D2 und D3 dargestellt.
  • Im vorliegenden Beispiel handelt es sich bei dem Dokument D2 um eine Video-Datei, die über ein aktuelles Ereignis berichtet. Die Videodatei ist Teil einer Nachrichtensendung und verfügt über einen Audio-Kommentar zum gezeigten Ereignis. Der Audio-Kommentar liegt in transkribierter Form zum Dokument D2 vor, bspw. erzeugt durch eine automatische Spracherkennung. Das Dokument D2 verfügt somit über einen Video-Teil und einen Text-Teil. Zusätzlich verfügt das Dokument D2 über einen Daten-Teil, in dem Informationen über das Dokument gespeichert sind, darunter die ursprüngliche Sende-Zeit des Beitrags sowie die Bezeichnung des Senders.
  • Das Dokument D1 ist im vorliegenden Fall ein Zeitungs-Kommentar zu dem aktuellen Ereignis, über das in D2 berichtet wird. Das Dokument D1 liegt in Form einer HTML-Seite mit dem entsprechenden Text vor. Zusätzlich zu dem Text-Teil verfügt auch D1 über einen Daten-Teil, in dem die Quelle (Name der Zeitung) sowie das Datum der Veröffentlichung verzeichnet sind.
  • Bei dem Dokument D handelt es sich um ein Interview zu demselben aktuellen Ereignis, von dem auch D2 handelt. Das Interview liegt als Audio-Datei vor. Mit Hilfe einer automatischen Spracherkennung wurde zudem der Wortlaut des Interviews in Textform umgewandelt, der so zur Verarbeitung zur Verfügung steht. Auch hier ist ein Daten-Teil mit Informationen über das Dokument vorhanden. Bei der Durchführung der automatischen Spracherkennung wurde eine Sprecheridentifikation durchgeführt. Das erkannte Muster des regelmäßigen Wechsels zwischen zwei Sprechern (Interview) wurde erkannt und im Daten-Teil gespeichert.
  • Ein System zum Verarbeiten der Dokumente D1, D2 und D3 und zum Erzeugen von Verknüpfungen ist gegeben durch eine Datenquelle, die die Dokumente bereitstellt und durch einen Computer, der ein Programm verarbeitet, mit dem eine inhaltliche Beziehung zwischen zwei Dokumenten erkannt und eine entsprechende Verknüpfung zwischen den Dokumenten erstellt werden kann. Das Programm liest hierfür die Dokumente ein und verarbeitet den Text-Inhalt der Dokumente sowie ggfs. den Daten-Teil. Hierbei wird zunächst festgestellt, ob inhaltliche Beziehungen zwischen den Dokumenten bestehen und welcher Art sie sind. Die Art der inhaltlichen Beziehung wird einer von einer vorgegebenen Liste von Verknüpfungsarten zugeordnet. Es wird eine Verknüpfung des ausgewählten Verknüpfungstyps zwischen den Dokumenten erzeugt.
  • 1 zeigt eine Verknüpfung Ln1 zwischen den Dokumenten D1 und D2. Die Verknüpfung Ln1 ist vom Typ "Kommentar-zu". Die Verknüpfung ist gerichtet und zeigt von Dokument D1 auf Dokument D2. Sie gibt somit als inhaltlichen Zusammenhang zwischen D1 und D2 an, dass der Inhalt von D1 ein Kommentar ist zu dem in D2 geschilderten Ereignis.
  • Ein anderes Beispiel ist eine Verknüpfung Ln2 zwischen den Dokumenten D3 und D2. Die Verknüpfung ist vom Typ "Interview-zu-Ereignis" und zeigt von Dokument D3 auf Dokument D2. Die Verknüpfung Ln2 wird von dem oben genannten Programm erzeugt nachdem erkannt wurde, dass der Inhalt von D3 ein Interview zu dem im Dokument D2 geschilderten Ereignis ist.
  • Die in 1 dargestellten Dokumente D1, D2 und D3 mit den Verknüpfungen Ln1, Ln2 bilden eine Gruppe von Dokumenten, die hier als Cluster C bezeichnet wird. Ein solcher Cluster kann eine große Anzahl an Dokumenten umfassen. Die Dokumente eines Clusters hängen inhaltlich in der Weise zusammen, dass sie sich mit demselben Thema befassen.
  • Die in 1 dargestellten Verknüpfungen Ln1 und Ln2 zwischen den Dokumenten D1, D2 und D3 sind jeweils Verknüpfungen zwischen einzelnen Dokumenten. Ebenso ist es auch möglich, Verknüpfungen zwischen einem neuen, zu analysierenden Dokument und einem bestehenden Cluster C aus mehreren Dokumenten zu definieren.
  • Die Verarbeitung von Dokumenten durch das Programm läuft wie folgt ab:
    • – Zunächst wird ein Eingabedokument eingelesen. Bei der Bearbeitung wird einerseits der Text-Inhalt und andererseits ein Daten-Teil mit zusätzlichen Informationen über das Dokument betrachtet.
    • – Das Eingabedokument wird mit Referenzdaten verglichen um festzustellen, ob ein inhaltlicher Zusammenhang besteht. Wie oben erläutert kann es sich bei den Referenzdaten um ein zweites Dokument handeln. Ebenso kann es sich bei den Referenzdaten auch um einen Cluster von Dokumenten, bzw. um einen Repräsentanten hiervon handeln.
    • – Wird keine inhaltliche Übereinstimmung zwischen dem Eingabedokument und den Referenzdaten festgestellt, so ist die Verarbeitung hinsichtlich dieses Vergleichspaares beendet. Das Eingabedokument kann dann bspw. mit weiteren Referenzdaten verglichen werden.
    • – Wird hingegen ein inhaltlicher Zusammenhang festgestellt, erfolgt eine weitere Verarbeitung mit dem Ziel, die Art des Zusammenhangs zu ermitteln und eine entsprechende Verknüpfung zu generieren. Hierfür werden vordefinierte Schlüsselphrasen im Eingabedokument identifiziert, die einen Verweis aufeinander anzeigen. Den jeweiligen Schlüsselphrasen sind in einer Tabelle Verknüpfungstypen zugeordnet.
    • – Zusätzlich werden die im Daten-Teil des Eingabedokuments enthaltenen Informationen ausgewertet. Die Ergebnisse der Schlüsselphrasen-Suche und die zusätzlichen Informationen aus dem Daten-Teil des Eingabedokuments werden bewertet, um einen Verknüpfungstyp auszuwählen.
    • – Eine Verknüpfung des ausgewählten Verknüpfungstyps wird zwischen dem Eingabedokument und den Referenzdaten erzeugt und in einer Datenbank abgespeichert.
  • Für die Feststellung, ob zwischen dem Eingabedokument und den Referenzdaten ein inhaltlicher Zusammenhang besteht, können dem Fachmann bekannte Techniken eingesetzt werden. Eine bekannte Technik umfasst eine Analyse des Text-Inhalts durch Betrachtung häufig vorkommender Worte innerhalb des Textes. Werden zwei Dokumente verglichen, wird für beide Dokumente bspw. ein Vektor der Worthäufigkeiten der n häufigsten Worte erstellt, wobei n geeignet gewählt wird. Es kann dann ein Vektor-Abstand ermittelt werden, der als Maß für inhaltliche Übereinstimmungen zwischen den Dokumenten angesehen werden kann. Derartige Techniken sind bspw. in der US-A-5 983 246 beschrieben. In den Artikeln "Text Categorization With Support Vector Machines: Learning with Many Relevant Features" 1998 by Thorsten Joachims, Proceedings of the ECML'98 (European Converence on Machine Learning) und "Improving text retrieval for the routing problem using latent semantic indexing" (1994) by David Hull, Proceedings of the SIGIR'94 (Special Interest Group on Information Retrieval) werden ebenfalls derartige Techniken diskutiert. Der Inhalt der zitierten Dokumente wird hier einbezogen.
  • Erfolgt eine Betrachtung des Zusammenhangs zwischen einem Dokument und einem Cluster von Dokumenten, so kann dies als Summe von Einzelvergleichen durchgeführt werden. Aus Performance-Gründen kann aber auch ein Vergleich des Dokuments mit einer oder mehreren Repräsentationen des Clusters erfolgen. Derartige Repräsentationen fassen Gemeinsamkeiten der Dokumente des Clusters zusammen. Wird bspw. mit der oben angegebenen Worthäufigkeit-Methode gearbeitet, so umfasst eine Repräsentation eines Clusters eine Liste von Begriffen, die in den Dokumenten des Clusters häufig vorkommen.
  • Der oben genannte Schritt der Auswahl eines geeigneten Verknüpfungstyps macht unter anderem Gebrauch von einer Tabelle mit Zuordnung von Schlüsselphrasen zu Verknüpfungstypen. Bei den Schlüsselphrasen kann es sich um einzelne Wörter handeln. In der Regel wird es sich jedoch um Kombinationen von Schlüsselworten und weiteren Elementen, wie Orts- oder Personennamen handeln. Nachfolgend ist beispielhaft eine Tabelle mit einer entsprechenden Zuordnung angegeben:
    Figure 00100001
  • Zusätzlich zu den oben angegebenen Schlüsselphrasen können Informationen mit Meta-Daten zum Eingabedokument verarbeitet werden. Derartige Meta-Daten können im Datenteil des Dokuments bereits enthalten sein, oder durch separater Verarbeitungsschritte generiert werden. So kann bspw. bei Erstellung des Text-Teils aus einer Audio- Datei zusätzlich zu bekannten Techniken der Spracherkennung auch die ebenfalls bekannten Techniken zur Sprecheridentifikation eingesetzt werden, um bspw. Regelmäßige Sprecherwechsel zu erkennen, die auf ein Interview hindeuten.
  • Die Gesamtheit der aus der Analyse der Schlüsselphrasen und der zusätzlichen Meta-Daten gewonnenen Informationen wird hinsichtlich der Übereinstimmung mit einem passenden Verknüpfungstyp bewertet. Der Verknüpfungstyp mit der höchsten Bewertung wird ausgewählt.
  • Zusätzlich kann bei der Analyse der Art der inhaltlichen Beziehung zwischen den Dokumenten auf eine spezielle Begriffs-Datenbank zugegriffen werden. Diese Datenbank enthält Begriffe der jeweils verwendeten Sprache und ordnet hierbei Begriffe einerseits ihren übergeordneten Oberbegriffen und andererseits von ihnen umfassten Spezialbegriffen zu. Das Wort "Werkzeug" wird so bspw. einerseits einem Oberbegriff "Gegenstand" zugeordnet und andererseits einem Spezialbegriff wie "Hammer". Derartige Datenbanken sind bekannt. Weiter verzeichnen bekannte Datenbanken dieser Art, die auch als "Thesaurus" bezeichnet werden, Synonyme und Antonyme von Begriffen ebenso wie Meronyme, Holonyme, Hyperonyme und Hyponyme von Begriffen.
  • Eine derartige Datenbank kann einerseits eingesetzt werden bei dem Schritt der Analyse, ob ein inhaltlicher Zusammenhang zwischen Eingabedokument und Referenzdaten besteht. Basiert diese Untersuchung auf einem Vergleich häufig auftretender Wörter, so können bspw. anstatt der Betrachtung von Einzelbegriffen Gruppen gleichbedeutender Begriffe (Synonyme) betrachtet werden, so dass unterschiedliche Formulierungen desselben Sachverhalts als inhaltlich zusammenhängend erkannt werden.
  • Andererseits können derartige Datenbanken auch bei der Feststellung der Art des inhaltlichen Zusammenhangs zwischen zwei Dokumenten bzw. zwischen einem Dokumentund einem Dokumenten-Cluster eingesetzt werden. Bspw. können in einer Datenbank mit Zuordnung von Spezial- und Oberbegriffen die in einem ersten Dokument auftretenden Begriffe hinsichtlich ihrer Stellung in der Datenbank (Oberbegriffe: allgemeiner; Spezialbegriffe: spezieller) betrachtet werden und so ein geeignetes, bspw. numerisches Maß für den Grad der Spezialisierung der verwendeten Begriffe gebildet werden. Wird bspw. bei zwei inhaltlich als zusammenhängend erkannten Dokumenten festgestellt, dass ein Dokument überwiegend allgemeine Oberbegriffe nennt, während das andere Dokument Spezialvokabular verwendet, so können hieraus Rückschlüsse auf die unterschiedlich stark detaillierte Behandlung desselben Themas gezogen werden.
  • Diese Erkenntnisse können zusammen mit den Meta-Daten über das Dokument und Erkenntnissen über aufgefundene Schlüsselphrasen verwendet werden, um einen geeigneten Verknüpfungstyp auszuwählen.
  • In 2 ist in symbolischer Form ein System 10 zur Verarbeitung von Dokumenten dargestellt. Das System 10 verfügt über einen Datenspeicher 12, in dem einerseits Dokumente D und andererseits Verknüpfungen L zwischen Dokumenten D abgelegt sind. Abgespeicherte, mit Verknüpfungen zusammenhängende Dokumente bilden Cluster C.
  • Das System 10 verfügt ferner über eine Analyse- und Entscheidungseinheit 14 und eine Auswahleinheit 16. Das System 10 verarbeitet ein Strom von Dokumenten D1 ... Dn, die in ständiger Folge angeliefert werden. Dieser Strom von Dokumenten kann bspw. aus einer Dokumenten-Datenbank ausgelesen werden. Ebenso kann der Dokumentenstrom D1 ... Dn das Ergebnis eines als "Web-Spider" arbeitenden Programms sein, das in ständiger Folge Dokumente aus dem Internet abruft. Der Datenstrom D1 ... Dn kann schließlich auch das Ergebnis einer ständigen Auswertung bspw. der Sendungen verschiedener Nachrichtensender sein.
  • Die Dokumente D1 ... Dn werden zunächst von der Analyse- und Entscheidungseinheit 14 auf einen inhaltlichen Zusammenhang zu jedem der bereits im Datenspeicher 12 abgespeicherten Einzeldokumente D und Dokument-Clustern C überprüft. Bei Vorliegen einer inhaltlichen Beziehung wird wie oben angegeben deren Art ermittelt und eine entsprechende Verknüpfung L erstellt. Das aktuell verarbeitete Dokument und sämtliche erzeugten Verknüpfungen L werden im Datenspeicher 12 abgelegt. So entsteht im Datenspeicher 12 ein semantisches Netzwerk, das Dokumente und gerichtete Relationen verschiedenen Typs zwischen diesen Dokumenten verzeichnet. Wird für ein Eingabe-Dokument kein Dokument D oder Cluster C mit inhaltlichem Zusammenhang aufgefunden, so wird das Eingabedokument separat abgespeichert und kann den Kern eines neuen Referenz-Clusters bilden.
  • In einer konkreten Realisierung kann der Datenspeicher 12 bspw. als XML-Datenbank realisiert werden. Sind die Dokumente D bspw. in einem Computer-Netzwerk wie dem Internet unter einer bekannten Adresse (URL) abrufbar, kann anstatt der Speicherung der Dokumente D im Datenspeicher 12 auch jeweils die entsprechende URL abgespeichert werden.

Claims (12)

  1. System zur Verarbeitung von elektronischen Dokumenten, mit – Eingabemitteln zur Eingabe mindestens eines Eingabedokuments (D1) und von Referenzdaten (D2) – Analysemitteln (16) zur Analyse des Inhalts des Eingabedokuments (D1) hinsichtlich eines inhaltlichen Zusammenhangs zwischen dem Eingabedokument (D1) und den Referenzdaten (D2), – Auswahlmitteln zur Auswahl eines Verknüpfungstyps aus einer Anzahl vorgegebener Verknüpfungstypen, wobei ein Verknüpfungstyp ausgewählt wird, entsprechend der Art des inhaltlichen Zusammenhangs zwischen dem Eingabedokument (D1) und den Referenzdaten (D2), – und Ausgabemitteln zur Ausgabe einer Verknüpfung (L) des ausgewählten Typs.
  2. System nach Anspruch 1, bei dem – die Verknüpfung (L) eine Verknüpfungsrichtung umfasst.
  3. System nach einem der vorangehenden Ansprüche, bei dem – die Referenzdaten ein zweites Dokument (D2) sind.
  4. System nach einem der Ansprüche 1 oder 2, bei dem – die Referenzdaten eine Repräsentation für eine Gruppe von inhaltlich zusammenhängenden Dokumenten sind.
  5. System nach einem der vorangehenden Ansprüche, bei dem – bei der Auswahl des Verknüpfungstyps Schlüsselworte aufgesucht werden, die die Art des Zusammenhangs zwischen den Inhalten des Eingabedokuments (D1) und der Referenzdaten (D2) bezeichnen, – und ein Verknüpfungstyp entsprechend der aufgefundenen Schlüsselworte ausgewählt wird.
  6. System nach einem der vorangehenden Ansprüche, bei dem – bei der Auswahl des Verknüpfungstyps die Zuordnung des Dokuments (D) zu einem von einer Anzahl vorgegebener Dokumenttypen vorgenommen wird, – und ein Verknüpfungstyp entsprechend des Dokumenttyps ausgewählt wird.
  7. System nach einem der vorangehenden Ansprüche, bei dem – das Eingabedokument (D1) mindestens einen Text-Teil und einen Daten-Teil umfasst, – wobei der Daten-Teil Informationen enthält über die Art und/oder Herkunft des Dokuments.
  8. System nach Anspruch 6 und 7, bei dem – der Daten-Teil des Eingabedokuments (D1) zur Auswahl des Dokumenttyps verwendet wird.
  9. System nach einem der vorangehenden Ansprüche, bei dem – die Analysemittel auf eine Datenbank zugreifen, in der Begriffe zu Oberbegriffen zugeordnet sind.
  10. System nach einem der vorangehenden Ansprüche, bei dem – das Eingabedokument (D1) und die erstellte Verknüpfung (L) in einem Speichersystem (12) abgelegt wird, – wobei das Speichersystem (12) so organisiert ist, dass zu darin gespeicherten Dokumenten jeweils Verknüpfungen zu anderen Dokumenten gespeichert sind.
  11. Verfahren zur Verarbeitung von Dokumenten, bei dem – mindestens ein Eingabedokuments (D1) und Referenzdaten (D2) verarbeitet werden, – wobei das Eingabedokuments (D1) hinsichtlich seines Inhalts analysiert und entschieden wird, ob ein inhaltlicher Zusammenhang zwischen dem Eingabedokument (D1) und den Referenzdaten (D2) besteht, – wobei für den Fall eines inhaltlichen Zusammenhangs ein Verknüpfungstyp aus einer Anzahl vorgegebener Verknüpfungstypen, entsprechend der Art des inhaltlichen Zusammenhangs zwischen dem Eingabedokument (D1) und den Referenzdaten (D2) ausgewählt wird, – und eine Verknüpfung des ausgewählten Typs erstellt wird.
  12. Programm zur Durchführung eines Verfahrens nach Anspruch 11.
DE10248837A 2002-10-19 2002-10-19 System und Verfahren zur Verarbeitung von elektronischen Dokumenten Withdrawn DE10248837A1 (de)

Priority Applications (6)

Application Number Priority Date Filing Date Title
DE10248837A DE10248837A1 (de) 2002-10-19 2002-10-19 System und Verfahren zur Verarbeitung von elektronischen Dokumenten
JP2004544568A JP2006504162A (ja) 2002-10-19 2003-10-07 電子文書を処理するシステム及び方法
AU2003264775A AU2003264775A1 (en) 2002-10-19 2003-10-07 System and method for processing electronic documents
US10/531,602 US20050289172A1 (en) 2002-10-19 2003-10-07 System and method for processing electronic documents
EP03808823A EP1556800A2 (de) 2002-10-19 2003-10-07 System und verfahren zur verarbeitung elektronischer dokumente
PCT/IB2003/004405 WO2004036459A2 (en) 2002-10-19 2003-10-07 System and method for processing electronic documents

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10248837A DE10248837A1 (de) 2002-10-19 2002-10-19 System und Verfahren zur Verarbeitung von elektronischen Dokumenten

Publications (1)

Publication Number Publication Date
DE10248837A1 true DE10248837A1 (de) 2004-04-29

Family

ID=32049465

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10248837A Withdrawn DE10248837A1 (de) 2002-10-19 2002-10-19 System und Verfahren zur Verarbeitung von elektronischen Dokumenten

Country Status (6)

Country Link
US (1) US20050289172A1 (de)
EP (1) EP1556800A2 (de)
JP (1) JP2006504162A (de)
AU (1) AU2003264775A1 (de)
DE (1) DE10248837A1 (de)
WO (1) WO2004036459A2 (de)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050060345A1 (en) * 2003-09-11 2005-03-17 Andrew Doddington Methods and systems for using XML schemas to identify and categorize documents
JP5173721B2 (ja) * 2008-10-01 2013-04-03 キヤノン株式会社 文書処理システム及びその制御方法、プログラム、記憶媒体
JP5415736B2 (ja) * 2008-10-01 2014-02-12 キヤノン株式会社 文書処理システム及びその制御方法、プログラム、記憶媒体

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794257A (en) * 1995-07-14 1998-08-11 Siemens Corporate Research, Inc. Automatic hyperlinking on multimedia by compiling link specifications
JPH10228486A (ja) * 1997-02-14 1998-08-25 Nec Corp 分散ドキュメント分類システム及びプログラムを記録した機械読み取り可能な記録媒体
US6256631B1 (en) * 1997-09-30 2001-07-03 International Business Machines Corporation Automatic creation of hyperlinks
US6184885B1 (en) * 1998-03-16 2001-02-06 International Business Machines Corporation Computer system and method for controlling the same utilizing logically-typed concept highlighting
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
AU2001268314A1 (en) * 2000-06-14 2001-12-24 Artesia Technologies, Inc. Method and system for link management
CA2496567A1 (en) * 2002-09-16 2004-03-25 The Trustees Of Columbia University In The City Of New York System and method for document collection, grouping and summarization

Also Published As

Publication number Publication date
US20050289172A1 (en) 2005-12-29
AU2003264775A1 (en) 2004-05-04
WO2004036459A3 (en) 2004-09-30
EP1556800A2 (de) 2005-07-27
JP2006504162A (ja) 2006-02-02
WO2004036459A2 (en) 2004-04-29

Similar Documents

Publication Publication Date Title
DE60226232T2 (de) Inhaltsverwaltungssystem
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE60304331T2 (de) Abrufen übereinstimmender dokumente durch abfragen in einer nationalen sprache
DE69930690T2 (de) Verfahren und Gerät um einen Index herzustellen, Benutzung von einem Index und ein Speichermedium
DE69814104T2 (de) Aufteilung von texten und identifizierung von themen
DE3901485C2 (de) Verfahren und Vorrichtung zur Durchführung des Verfahrens zur Wiedergewinnung von Dokumenten
DE69911842T2 (de) Verfahren und Vorrichtung zum Wiederauffinden von Information und entsprechendes Speichermedium
DE69934371T2 (de) Apparat und Verfahren zum Verarbeiten einer natürlichen Sprache
EP0968478A1 (de) Verfahren zur automatischen generierung einer zusammenfassung von einem text durch einen rechner
DE10317234A1 (de) Systeme und Verfahren für eine verbesserte Genauigkeit von einem extrahierten digitalen Inhalt
DE10124429B4 (de) System und Verfahren für eine verbesserte Rechtschreibprüfung
DE69728091T2 (de) Verfahren und System zum Ausschneiden von Nachrichten
DE102004003878A1 (de) System und Verfahren zum Identifizieren eines speziellen Wortgebrauchs in einem Dokument
US20110208769A1 (en) Systems and methods for validation of cited authority
DE60101668T2 (de) Verfahren und gerät zum erzeugen eines auf einer formatvorlage basierten index für ein strukturiertes dokument
DE112018005272T5 (de) Suchen von mehrsprachigen dokumenten auf grundlage einer extraktion der dokumentenstruktur
DE10131193A1 (de) Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche
EP1211099A2 (de) Verfahren zum digitalen Drucken von zusammengesetzten Dokumenten
DE102006027720A1 (de) Verfahren zur automatischen Aufbereitung von als Video vorliegenden sowie aus Bild- und/oder Scriptinhalten generierten Multimediapräsentationen für eine inhaltsbasierte Suche in diesen Videos
DE10248837A1 (de) System und Verfahren zur Verarbeitung von elektronischen Dokumenten
EP2273383A1 (de) Verfahren und Vorrichtung zur automatischen Suche nach Dokumenten in einem Datenspeicher
DE10057634C2 (de) Verfahren zur Verarbeitung von Text in einer Rechnereinheit und Rechnereinheit
DE10024733A1 (de) Verfahren und Vorrichtung zum Abblocken von aus einem Netzwerk anforderbaren Daten
EP0814457A2 (de) Verfahren zur automatischen Erkennung eines gesprochenen Textes
WO2005116867A1 (de) Verfahren und system zur automatisierten erzeugung von computergestützten steuerungs- und analysevorrichtungen

Legal Events

Date Code Title Description
8139 Disposal/non-payment of the annual fee