DE102013209868B4

DE102013209868B4 - Abfragen und Integrieren strukturierter und unstrukturierter Daten

Info

Publication number: DE102013209868B4
Application number: DE102013209868.5A
Authority: DE
Inventors: Mihaela Ancuta BORNEA; Songyun Duan; James Fan; Achille Fokoue-Nkoutche; Alfio Massimilliano Gliozzo; Aditya Kalyanpur; Anastasios Kementsietsidis; Kavitha Srinivas; Michael James Ward
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2012-06-11
Filing date: 2013-05-28
Publication date: 2018-06-21
Anticipated expiration: 2033-05-29
Also published as: DE102013209868A1; US9037615B2; CN103488671A; US20130332478A1; CN103488671B

Abstract

[0067] Ein mittels Computer realisiertes Verfahren, System und ein mittels Computer realisierter Herstellungsgegenstand zum Abfragen und Integrieren strukturierter und unstrukturierter Daten. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten aufweisen; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
HINTERGRUND DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein Verfahren und Systeme zur Informations- und Datenverwaltung. Insbesondere betrifft die vorliegende Erfindung Verfahren und Systeme zum Integrieren und Abfragen strukturierter und unstrukturierter Daten.
Bei vielen Anwendungen wird es immer kritischer, von Quellen, die strukturierte und unstrukturierte Daten wie zum Beispiel Text enthalten, nahtlos auf Informationen zuzugreifen. Bestehende Ansätze zum Zugreifen auf sowohl strukturierte als auch unstrukturierte Daten fallen im Allgemeinen unter eine von zwei Kategorien.
Zur ersten Kategorie gehört die Verwendung einer gemeinsamen Abfrageschnittstelle, z.B. einer Schlüsselwortabfrage oder strukturierten Abfrage. Jeder Quellentyp wird jedoch separat abgefragt, d.h., es werden bei einer Quelle mit strukturierten Daten und bei einer Quelle mit unstrukturierten Daten voneinander unabhängige Abfragen durchgeführt.
Während die meisten Methoden in dieser Kategorie eine Auswertung einer Schlüsselwortabfrage durchführen können, wird die vorherrschende Abfrageschnittstelle für unstrukturierten Text in Bezug auf strukturierte Daten, ein Verfahren zum Zugriff auf sowohl strukturierte als auch unstrukturierte Daten unter Verwendung einer strukturierten Abfrage (z.B. SPARQL) beispielsweise in Liu et al., „Answering Structured Queries on Unstructured Data", WebDB, 23. Juli 2007, beschrieben. Die Autoren legen dar, dass strukturierte Abfragen in Bezug auf strukturierte Quellen ohne jegliche Umformung ausgegeben werden. Nach Liu werden die strukturierten Abfragen, nachdem sie zunächst in Schlüsselwortabfragen umgesetzt wurden, auch mithilfe von Standardmethoden zum Abrufen von Informationen in Bezug auf unstrukturierte Daten ausgewertet.
Methoden der ersten Kategorie ermöglichen eine problemlose Integration auf der Ebene der Benutzerschnittstelle, d.h., es wird ein einziges Abfragemodell eingesetzt. Diese Methoden bieten jedoch nur eine flache Integration auf der Datenebene; das heißt, dass über strukturierte und unstrukturierte Quellen hinweg keine Verbindungen zwischen verwandten Objekten eingerichtet werden. Infolgedessen kann eine vollständige Antwort wahrscheinlich nicht abgerufen werden, wenn Daten zum Nachweis oder zur Untermauerung über strukturierte und unstrukturierte Quellen hinweg verteilt sind.
Zur zweiten Kategorie gehört die Verwendung von Methoden zur Extraktion von Informationen, um strukturierte Daten aus unstrukturierten Daten zu extrahieren. Somit wird das Problem des nahtlosen Zugreifens sowohl auf strukturierte als auch auf unstrukturierte Daten auf das Zugreifen auf lediglich strukturierte Daten reduziert.
Mit Methoden der zweiten Kategorie können die Unzulänglichkeiten der Methoden der ersten Kategorie behandelt werden, wenn die Phase der Extraktion von Informationen unter Berücksichtigung eines bekannten vorgegebenen Schemas durchgeführt wird. Anders ausgedrückt würde die Phase der Extraktion von Informationen eine Extraktion einer Menge vordefinierter Beziehungstypen aus Textdaten aufweisen. Obwohl Zuordnungen zwischen den vordefinierten Schemata und anderen strukturierten Schemata unter Berücksichtigung derartiger Methoden durchgeführt werden können, bleiben strukturierte Daten, die aus unstrukturierten Daten erzeugt werden, von anderen verfügbaren strukturierten Daten getrennt, wenn die Phase der Extraktion von Informationen keine Einschränkung auf eine festgelegte Menge von Beziehungstypen bereitstellt.
Die US 2011 / 0 246 535 A1 betrifft eine Datenbankabstraktionsschicht, die einen strukturierten Zugriff auf eine unstrukturierte Datenbank bewirkt. Die Datenbankabstraktionsschicht ordnet den ansonsten unstrukturierten Daten eine relationale Struktur an, so dass auf die Daten zugegriffen werden kann, als ob sie in einer relationalen Datenbank gespeichert wären.
Die US 2011 / 0 106 807 A1 betrifft ein System und ein Verfahren zum Vereindeutigen von Entitäten mittels des Erzeugens von Entity-Profilen und Extrahieren von Informationen aus mehreren Dokumenten, um einen Satz von Entity-Profilen zu erzeugen; des Bestimmens der Äquivalenz innerhalb des Satzes von Entity-Profilen unter Verwendung von Ähnlichkeitsabstimmungsalgorithmen; und des Integrierens der Informationen in den korrelierten Entity-Profilen. Die US 2011 / 0 106 807 A1 betriff ferner ein System und ein Verfahren zum Darstellen von Entitäten in einem Dokument in einem Ressourcenbeschreibungsframework und zum Nutzen der Merkmale zum Bestimmen der Ähnlichkeit zwischen einer Vielzahl von Entitäten. Eine Entität kann eine Person, einen Ort, einen Standort oder einen anderen Entitätstyp enthalten.
Die US 2010 / 0 049 766 A1 betrifft ein System, ein Verfahren und ein Computerprogramm zum Erzeugen einer Klassifizierungsstruktur für ein bestimmtes Informationsdomain.
Die US 7 472 137 B2 betrifft eine Abfrage von Datenquellen und eine Lokalisierung von Daten in Datenquellen.
Die US 2008 / 0 077 570 A1 betrifft ein Verfahren und ein System zum Suchen nach Informationen.
Die US 2008 / 0 071 731 A1 betrifft eine semantische Technologie, insbesondere eine ontologische Exaktifizierung basierend auf Kontexten von Anwendungsdaten.
Die US 2008 / 0 065 578 A1 betrifft ein System und ein Verfahren zur ontologischen Verarbeitung, insbesondere zur ontologischen Sicherheit.
Die US 2007 / 0 150 495 A1 betrifft ein System und ein Verfahren zur Erzeugen einer Korrelation zwischen Einheitsnamen und einer Vielzahl von Datenschemas.
Die WO 2011 / 110 809 A1 betrifft ein System und ein Verfahren zur Integration von Daten aus verschiedenen Datenquellen, insbesondere aus semantisch heterogenen Datenquellen.
KURZDARSTELLUNG DER ERFINDUNG
Gemäß einem Aspekt der vorliegenden Erfindung wird ein mittels Computer realisiertes Verfahren zum Abfragen und Integrieren strukturierter und unstrukturierter Daten bereitgestellt. Das Verfahren weist auf: Empfangen von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen ersten Objekten und zweiten Objekten der ersten Menge unstrukturierter Daten aufweisen, wobei die Informationen über Beziehungen eine Semantik von Verben verbindend die ersten Objekte und die zweiten Objekte umfasst; Erkennen eines Musters auf der Grundlage der Beziehungsinformationen mittels einer Identifikation eines wiederholten Auftretens eines ersten Objektes, eines zweiten Objektes und eines Verbes verbindend das erste Objekt und das zweite Objekt in der ersten Menge unstrukturierter Daten; und Erzeugen eines Schemas für die erste Menge unstrukturierter Daten auf der Grundlage des Musters, wobei das Schema das erste Objekt, das zweite Objekt und das Verb als Elemente umfasst; und Verknüpfen eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder mit (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt, wodurch eine Verknüpfung zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden Menge strukturierter Daten erzeugt wird.
Gemäß einem weiteren Aspekt der vorliegenden Erfindung wird ein mittels Computer realisiertes System zum Abfragen und Integrieren strukturierter und unstrukturierter Daten bereitgestellt. Das System weist auf: eine Empfangseinheit, die konfiguriert ist, um Objektinformationen zu empfangen, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden, wobei die Objektinformationen Informationen über Beziehungen zwischen ersten Objekten und zweiten Objekten der ersten Menge unstrukturierter Daten aufweisen, wobei die Informationen über Beziehungen eine Semantik von Verben verbindend die ersten Objekte und die zweiten Objekte umfasst; eine Mustererkennungseinheit, die konfiguriert ist, um auf der Grundlage der Beziehungsinformationen ein Muster mittels einer Identifikation eines wiederholten Auftretens eines ersten Objektes, eines zweiten Objektes und eines Verbes verbindend das erste Objekt und das zweite Objekt in der ersten Menge unstrukturierter Daten zu erkennen und auf der Grundlage des Musters ein Schema für die erste Menge unstrukturierter Daten zu erzeugen, wobei das Schema das erste Objekt, das zweite Objekt und das Verb als Elemente umfasst; und eine Elementverknüpfungseinheit, die konfiguriert ist, um ein Element des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten zu verknüpfen, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt, wodurch eine Verknüpfung zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden Menge strukturierter Daten erzeugt wird.
Gemäß einem noch weiteren Aspekt der vorliegenden Erfindung verkörpert ein Speichermedium mit einem als Programmcode gespeicherten Datenverarbeitungsprogramm, das bei Verwendung ein einem Rechner (1010) das Verfahren zum Abfragen und Integrieren strukturierter und unstrukturierter Daten ausführt.
Figurenliste
Die Ablaufpläne und Blockschaltbilder in den Figuren veranschaulichen die Architektur, Funktionalität und Wirkungsweise möglicher Realisierungsformen von Systemen, Verfahren und Computerprogrammprodukten gemäß den verschiedenen Ausführungsformen der vorliegenden Erfindung. Dementsprechend kann jeder einzelne Block im Ablaufplan bzw. in den Blockschaltbildern ein Modul, ein Segment oder einen Teil des Codes darstellen, der eine oder mehrere ausführbare Anweisungen zur Realisierung der angegebenen Logikfunktion bzw. Logikfunktionen aufweist. Außerdem sollte beachtet werden, dass bei einigen alternativen Realisierungsformen die im Block angegebenen Funktionen in einer anderen als der in den Figuren angegebenen Reihenfolge ausgeführt werden können. Beispielsweise können zwei hintereinander aufgeführte Blöcke tatsächlich im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können je nach der damit verbundenen Funktionalität manchmal in umgekehrter Reihenfolge ausgeführt werden. Darüber hinaus ist anzumerken, dass jeder Block der dargestellten Blockschaltbilder und/oder des dargestellten Ablaufplans sowie Kombinationen von Blöcken in den dargestellten Blockschaltbildern und/oder im dargestellten Ablaufplan mithilfe von speziellen Systemen auf der Grundlage von Hardware zur Ausführung der angegebenen Funktionen bzw. Aktionen oder mithilfe von Kombinationen aus spezieller Hardware und Computeranweisungen realisiert werden kann bzw. können. Die folgenden Figuren sind beigefügt:

1 ist ein Blockschaltbild, das ein mittels Computer realisiertes System zum Abfragen und Integrieren strukturierter und unstrukturierter Daten veranschaulicht, wobei das System eine Empfangseinheit, eine Mustererkennungseinheit und eine Elementverknüpfungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung aufweist.
2 ist ein Blockschaltbild, das Objektinformationen veranschaulicht, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden.
3A ist ein Blockschaltbild zur Veranschaulichung, wie die Mustererkennungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung auf der Grundlage eines erkannten Musters ein Schema erzeugt.
3B ist ein Blockschaltbild zur Veranschaulichung eines Beispiels, wie die Mustererkennungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung auf der Grundlage eines erkannten Musters ein Schema erzeugt.
4A ist ein Blockschaltbild zur Veranschaulichung, wie die Elementverknüpfungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung ein Element des erzeugten Schemas mit einem Objekt der zweiten Menge unstrukturierter Daten verknüpft, um eine Verknüpfung zwischen dem erzeugten Schemaelement und dem zweiten unstrukturierten Datenobjekt zu erzeugen.

4B ist ein Blockschaltbild zur Veranschaulichung eines Beispiels, wie die Elementverknüpfungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung ein Element des erzeugten Schemas mit einem Objekt der zweiten Menge unstrukturierter Daten verknüpft, um eine Verknüpfung zwischen dem erzeugten Schemaelement und dem zweiten unstrukturierten Datenobjekt zu erzeugen.
4C ist ein Blockschaltbild zur Veranschaulichung eines Beispiels von Verknüpfungen auf der Instanzebene gemäß einer Ausführungsform der vorliegenden Erfindung.
4D ist ein Blockschaltbild zur Veranschaulichung einer Abfrage, die gemäß einer Ausführungsform der vorliegenden Erfindung durch die Abfrageeinheit formuliert wird.
5 ist ein Blockschaltbild zur Veranschaulichung des Empfangens von Zuordnungsregeln durch die Empfangseinheit und durch eine Zuordnungseinheit gemäß einer Ausführungsform der vorliegenden Erfindung, die Bestandteil der Elementverknüpfungseinheit ist.
6 ist ein Blockschaltbild zur Veranschaulichung eines Schwellenwertes, der durch die Empfangseinheit empfangen wird, und bestimmter Ähnlichkeitswerte, die gemäß einer Ausführungsform der vorliegenden Erfindung durch die Zuordnungseinheit gemessen und analysiert werden, um eine Verknüpfung zwischen Objekten aus ähnlichen Elementen und einer zu überprüfenden Gruppe zu erzeugen.
7 ist ein Blockschaltbild zur Veranschaulichung einer Rückmeldung, die gemäß einer Ausführungsform der vorliegenden Erfindung durch die Empfangseinheit empfangen und durch die Zuordnungseinheit berücksichtigt wird, um eine verbesserte Menge von Zuordnungsregeln zu erzeugen.
8 ist ein Blockschaltbild zur Veranschaulichung eines mittels Computer realisierten Systems, das das System zum Abfragen und Integrieren strukturierter und unstrukturierter Daten gemäß einer Ausführungsform der vorliegenden Erfindung aufweist.
9 ist ein Ablaufplan zur Veranschaulichung eines mittels Computer realisierten Verfahrens des Abfragens und Integrierens strukturierter und unstrukturierter Daten gemäß einer Ausführungsform der vorliegenden Erfindung.
10 ist eine Darstellung eines Computerprogrammprodukts zum Ausführen der Schritte der Verfahren gemäß einer Ausführungsform der vorliegenden Erfindung.

DETAILLIERTE BESCHREIBUNG DER BEVORZUGTEN
AUSFÜHRUNGSFORMEN
Es versteht sich, dass die Ausführungsformen der vorliegenden Erfindung, die hierin allgemein beschrieben und in den Figuren veranschaulicht sind, zusätzlich zu den beschriebenen gegenwärtig bevorzugten Ausführungsformen in einer großen Vielfalt unterschiedlicher Konfigurationen angeordnet und ausgeführt sein können. Daher ist die folgende detaillierte Beschreibung der Ausführungsformen der vorliegenden Erfindung, die in den Figuren dargestellt sind, nicht als Einschränkung des beanspruchten Schutzbereichs der Erfindung, sondern lediglich als repräsentative Beispiele ausgewählter gegenwärtig bevorzugter Ausführungsformen der Erfindung gedacht. Die folgende Beschreibung ist lediglich als Beispiel gedacht und veranschaulicht einfach nur bestimmte ausgewählte, gegenwärtig bevorzugte und hierin beanspruchte Ausführungsformen der Erfindung.
Unter Bezugnahme auf 1 veranschaulicht ein Blockschaltbild ein mittels Computer realisiertes System 400 zum Abfragen und Integrieren strukturierter und unstrukturierter Daten gemäß einer Ausführungsform der vorliegenden Erfindung. Das System 400 weist auf: eine Empfangseinheit 405, eine Mustererkennungseinheit 410, eine Elementverknüpfungseinheit 415 und eine Abfrageeinheit 430.
Die Empfangseinheit 405 ist konfiguriert, um unter Verwendung eines domänenunabhängigen Systems 200 zur Extraktion von Informationen Objektinformationen 300 zu empfangen, die aus einer ersten Menge unstrukturierter Daten 100 extrahiert wurden. Die Objektinformationen 300 weisen Informationen 305 über Beziehungen zwischen einem ersten Objekt 105-a und einem zweiten Objekt 105-b der ersten Menge unstrukturierter Daten 100 auf.
Unter Bezugnahme auf 2 veranschaulicht ein Blockschaltbild Objektinformationen 300, die unter Verwendung eines domänenunabhängigen Systems 200 zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten 100 extrahiert wurden.
Bei unstrukturierten Daten handelt es sich um Daten, die kein vordefiniertes Modell aufweisen (z.B. Text in natürlicher Sprache). Das Extrahieren unstrukturierter Daten unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen ist eine in der Technik vorhandene Methode. Domänenunabhängige Systeme zur Extraktion von Informationen wie zum Beispiel TextRunner und Prismatic können Extraktionsergebnisse bereitstellen, ohne den Extraktionsprozess auf eine vordefinierte Menge von Beziehungstypen einzuschränken. Im Grunde genommen nutzen Ausführungsformen der vorliegenden Erfindung die Fähigkeit der domänenunabhängigen Systeme zur Extraktion von Informationen, um eine engere Datenintegration zwischen strukturierten und unstrukturierten Daten bereitzustellen.
Bei dem in 2 gezeigten Beispiel weist die erste Menge unstrukturierter Daten 100 Textinformationen über Albert Einstein 105-1, Richard Feynman 105-2, Wissenschaftler 105-3 und Nobelpreis in Physik 105-5 auf. Die erste Menge unstrukturierter Daten 100 wird in das domänenunabhängige System 200 zur Extraktion von Informationen eingegeben. Das domänenunabhängige System 200 zur Extraktion von Informationen analysiert und organisiert die Eingabe und gibt anschließend Objektinformationen 300 aus, die die Objekte und die Beziehungen zwischen den Objekten kennzeichnen. Da die Methoden von domänenunabhängigen Systemen zur Extraktion von Informationen in der Technik nicht neu sind, wird eine Beschreibung der Art und Weise, wie das System unstrukturierte Daten analysiert und organisiert, weggelassen. In 2 lautet eine beispielhafte Ausgabe von Objektinformationen: <Albert Einstein> <ist eine Instanz des Typs> <Wissenschaftler> (siehe Block 305-1). In diesem Beispiel sind <Albert Einstein> und <Wissenschaftler> Objekte, und <ist eine Instanz des Typs> ist eine Beziehung zwischen zwei gekennzeichneten Objekten.
Unter erneuter Bezugnahme auf 1 ist die Mustererkennungseinheit 410 konfiguriert, um auf der Grundlage der Beziehungsinformationen 305 ein Muster zu erkennen und auf der Grundlage des erkannten Musters ein Schema für die erste Menge unstrukturierter Daten 100 zu erzeugen.
Unter Bezugnahme auf 3A veranschaulicht ein Blockschaltbild, wie die Mustererkennungseinheit 410 gemäß einer Ausführungsform der vorliegenden Erfindung auf der Grundlage eines erkannten Musters 500 ein Schema 600 erzeugt. Die Mustererkennungseinheit 410 empfängt als Eingabe Objektinformationen 300, die Beziehungsinformationen 305 aufweisen, um ein Muster 500 zu erzeugen, das auf den Beziehungsinformationen 305 beruht. Die Mustererkennungseinheit 410 verwendet anschließend das Muster 500, um ein Schema 600 zu erzeugen, das ein oder mehrere Elemente 605 enthält.
Auf der Grundlage des in 2 gezeigten Beispiels und unter Bezugnahme auf 3B könnte es sich bei einem beispielhaften Muster 500 um „Ein Wissenschaftler erhält den Nobelpreis in Physik“ (Block 500-1) handeln. Das beispielhafte Schema 600 für dieses Muster könnte „<Wissenschaftler> <erhält> <Nobelpreis in Physik>“ (Block 605-1) lauten. Bei diesem Szenario gibt es zwei Situationen, die unter das Muster 500 fallen, im Einzelnen <Albert Einstein> <erhält> <Nobelpreis in Physik> (Block 305-2) und <Richard Feynman> <erhält> <Nobelpreis in Physik> (Block 305-4).
Das verknüpfte und integrierte globale Schema wird verwendet, um Benutzern die Formulierung von Abfragen zu erleichtern, die sich über mehrere Datenquellen erstrecken. Dies ist besonders wichtig, wenn Benutzer mit den Informationen nicht sehr vertraut sind, die in den verfügbaren strukturierten und unstrukturierten Datenquellen zur Verfügung stehen. Außerdem richten zwischen Schemata bestehende Verknüpfungen auf der Schemaebene Verbindungen zwischen verschiedenen Datenquellen ein und tragen dazu bei, potenzielle Verknüpfungskandidaten auf der Instanzebene zu erkennen. Das verknüpfte und integrierte globale Schema wird zur Abfragezeit verwendet, um die Suche nach Verknüpfungen auf Instanzebene zu konzentrieren, wodurch das Auffinden von Verknüpfungen zwischen Instanzdaten in unterschiedlichen Quellen besser skalierbar wird.
Unter Bezugnahme auf 4A ist die Elementverknüpfungseinheit 415 konfiguriert, um ein Element 605 des erzeugten Schemas mit (i) einem Objekt 705 einer zweiten Menge unstrukturierter Daten 700 oder (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten (nicht gezeigt) zu verknüpfen. In 4A ist als Beispiel lediglich die zweite Menge unstrukturierter Daten veranschaulicht. Als Ergebnis des Verknüpfungsvorgangs wird zwischen dem erzeugten Schema 600 und dem zweiten unstrukturierten Datenobjekt 800 eine Verknüpfung 800 erzeugt.
4B veranschaulicht ein Beispiel, wie eine Elementverknüpfungseinheit 415 gemäß einer Ausführungsform der vorliegenden Erfindung ein Element 605-1 des erzeugten Schemas 600 mit einem Objekt 705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7 der zweiten Menge unstrukturierter Daten 700 verknüpft, um die Verknüpfung 800 zwischen dem erzeugten Schemaelement 605-1 und dem zweiten unstrukturierten Datenobjekt 705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7 zu erzeugen.
Die Elementverknüpfungseinheit 415 führt den Verknüpfungsvorgang durch, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt. Bei einem erfolgreichen Verknüpfungsvorgang wird zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten eine Verknüpfung erzeugt. Die in 4B gezeigte beispielhafte Verknüpfung 800 veranschaulicht drei Elemente „Albert Einstein“, „Richard Feynman“ und „Marie Curie“. Diese Elemente werden als Instanzen des Typs „Forscher“ betrachtet, der als Instanz des Typs „Wissenschaftler“ betrachtet wird. Das Suchen auf Instanzebene kann zur Auswertungszeit der Abfrage und durch die Abfrageeinheit 430 durchgeführt werden.
Eine Suche nach allen „Forschern“ auf der Instanzebene würde „Albert Einstein“, „Richard Feynman“ und „Marie Curie“ zurückgeben, obwohl in den unstrukturierten Daten nur Marie Curie ausdrücklich als „Forscher“ bekannt ist (Einstein und Feynman sind ausdrücklich als „Wissenschaftler“ bekannt). Ein weiteres Beispiel einer Suche auf der Instanzebene würde darin bestehen, zu erkennen, dass „Maria Salomea Sktodowska“ und „Marie Sktodowska-Curie“ ebenfalls als Antworten zurückgegeben werden sollten, und anzugeben, dass „Maria Salomea Sktodowska“, „Marie Sktodowska-Curie“ und „Marie Curie“ tatsächlich dieselbe Person sind. Unter Bezugnahme auf 4C werden die folgenden beispielhaften Verknüpfungen auf der Instanzebene angezeigt: „Marie Sktodowska-Curie“ <-> „Maria Salomea Sktodowska“ <-> „Marie Curie“.
Die Methoden des Erkennens von Verbindungen und Ähnlichkeiten zwischen Typen (z.B. die Gleichwertigkeit zwischen „Forscher“ und „Wissenschaftler“) gemäß einer Ausführungsform der vorliegenden Erfindung grenzen die Kandidaten für Verknüpfungen auf der Instanzebene ein. Beispielsweise kann wegen der hohen Wort- und Typähnlichkeit auf der Instanzebene eine Verknüpfung zwischen „Maria Salomea Sktodowska“ und „Marie Curie“ eingerichtet werden. Es würde auf der Instanzebene jedoch keine Verknüpfung zwischen „Marie-Curie-Sekundarschule“ und „Marie Curie“ eingerichtet werden, da die Ähnlichkeit zwischen ihren bekannten Typen (d.h. „Sekundärschule“ und „Wssenschaftler“) relativ gering ist, obwohl eine gewisse lexikalische Ähnlichkeit zwischen den beiden Instanzen vorliegt.
Unter Bezugnahme auf 4D veranschaulicht ein Blockschaltbild eine Abfrage 432, die durch die Abfrageeinheit 430 formuliert wurde. Die Abfrage 432 kann an eine der folgenden Datenbanken gesendet werden: die erste Menge unstrukturierter Daten 100, die zweite Menge unstrukturierter Daten 700, eine dritte Menge unstrukturierter Daten 720, die bestehende Menge strukturierter Daten 730 („1. bestehende strukturierte Daten“ in der Figur) und eine weitere bestehende Menge strukturierter Daten 740 („2. bestehende strukturierte Daten“ in der Figur).
Bei den in 4C und 4D gezeigten Beispielen empfängt die Abfrageeinheit 430 als Eingabe das erzeugte Schema 600 und die erzeugte Verknüpfung 800.
Unter Bezugnahme auf 5 veranschaulicht ein Blockschaltbild das Empfangen von Zuordnungsregeln 900 durch die Empfangseinheit 405 und durch eine Zuordnungseinheit 420 gemäß einer Ausführungsform der vorliegenden Erfindung, die Bestandteil der Elementverknüpfungseinheit 415 ist. Die Zuordnungseinheit 420 ist konfiguriert, um auf der Grundlage der Menge von Zuordnungsregeln 900 das erzeugte Schemaelement 605 entweder dem zweiten unstrukturierten Datenobjekt 705 oder dem Schemaelement einer bestehenden Menge strukturierter Daten (nicht gezeigt) zuzuordnen. Als Ergebnis der Zuordnung wird die Verknüpfung 800 erzeugt. Bestehende Zuordnungsmethoden können verwendet werden, um das erzeugte Schemaelement 605 dem zweiten unstrukturierten Datenobjekt 705 oder dem Schema Element einer bestehenden Menge strukturierter Daten zuzuordnen.
Unter Bezugnahme auf 6 veranschaulicht ein Blockschaltbild einen Schwellenwert 910, der gemäß einer Ausführungsform der vorliegenden Erfindung auch durch die Empfangseinheit 405 empfangen wird. Bestimmte „Ähnlichkeitswerte“ 950, 955, 960, 965 werden durch die Zuordnungseinheit 420 gemessen und analysiert, um zwischen Objekten 972 aus ähnlichen Elementen und einer Gruppe 974 zu überprüfender Elemente eine Verknüpfung 800 zu erzeugen. Diese Ähnlichkeitswerte weisen eine lexikalische Ähnlichkeit 950, Dokumentationsähnlichkeit 955, semantische Ähnlichkeit 960 und strukturelle Ähnlichkeit 965 auf.
Die lexikalische Ähnlichkeit 950 ist ein Maß für die Ähnlichkeit zwischen Bezeichnungen zweier Schemaelemente, die miteinander verglichen werden sollen. Zu diesem Zweck können Maßstäbe für die Ähnlichkeit wie zum Beispiel die Editierdistanz oder die Jaccard-Ähnlichkeit bei N-Grammen verwendet werden.
Die Dokumentationsähnlichkeit 955 ist ein Maß für die Ähnlichkeit zwischen der Dokumentation zweier Schemaelemente, die miteinander verglichen werden sollen. Zu diesem Zweck wird das normalerweise zum Informationsabruf genutzte Cosinus-Maß bei tf-idf-Termvektoren verwendet.
Bei einer zur Verfügung stehenden hierarchischen Organisation von Begriffen (z.B. Wordnet) kann die semantische Ähnlichkeit 960 zwischen zwei Begriffen als Maß dafür berechnet werden, wie nahe beieinander sie sich in der Hierarchie befinden.
Die strukturelle Ähnlichkeit 965 ist ein Maß für die relative Ähnlichkeit zwischen der internen Struktur zweier Schemaelemente, die miteinander verglichen werden sollen.
Die Ähnlichkeitswerte 950, 955, 960, 965 werden mit dem Schwellenwert 910 verglichen, um zu ermitteln, ob eine ausreichende Gesamtähnlichkeit 970 vorliegt. Der Schwellenwert kann anfangs als Eingabewert des Zuordnungsmoduls festgelegt und im Laufe der Zeit automatisch angepasst werden, während das System anhand von Benutzerrückmeldungen lernt, welcher der optimale Schwellenwert in einem bestimmten Bereich ist.
Bei einer ausreichenden Gesamtähnlichkeit 970 werden das erzeugte Schemaelement 605 und entweder das zweite unstrukturierte Datenobjekt (705) oder das Schemaelement der bestehenden Menge strukturierter Daten (nicht gezeigt) zu einer Gruppe 972 ähnlicher Elemente oder in einer Element-Objekt-Kombination kombiniert. Bei einer nicht ausreichenden Gesamtähnlichkeit werden das erzeugte Schemaelement 605 und entweder das zweite unstrukturierte Datenobjekt (705) oder das Schemaelement der bestehenden Menge strukturierter Daten (nicht gezeigt) zu einer Gruppe gruppiert, die einer weiteren Überprüfung bedarf. Zur weiteren Überprüfung können Benutzerrückmeldungen gehören, um zu bewerten, warum die Gruppe von Elementen oder eine Element-Objekt-Kombination keine ausreichende Ähnlichkeit aufweist.
Unter Bezugnahme auf 7 veranschaulicht ein Blockschaltbild eine Rückmeldung 980, die gemäß einer Ausführungsform der vorliegenden Erfindung durch die Empfangseinheit 405 empfangen und durch die Zuordnungseinheit 420 berücksichtigt wird, um eine verbesserte Menge von Zuordnungsregeln 902 zu erzeugen. Zuordnungen können durch Berücksichtigen von Benutzerrückmeldungen verbessert werden, wobei ein Lernalgorithmus verwendet wird, z.B. die logistische Regression. Der Lernalgorithmus findet auf der Grundlage von Benutzerrückmeldungen die optimale Gewichtung der unterschiedlichen Ähnlichkeitsmaße heraus. Eine Benutzerrückmeldung wird empfangen, wenn der Benutzer eine durch das System erzeugte Zuordnung ausdrücklich zurückweist oder übernimmt.
Unter Bezugnahme auf 8 veranschaulicht ein Blockschaltbild ein mittels Computer realisiertes System 1000, dass ein System zum Abfragen und Integrieren strukturierter und unstrukturierter Daten 400 gemäß einer Ausführungsform der vorliegenden Erfindung aufweist.
Es sollte klar sein, dass das Verarbeitungssystem 1000 eine Datenverarbeitungseinheit aufweisen kann, einschließlich und ohne darauf beschränkt zu sein, eines Desktop-Computers, eines Notebook-Computers, eines Servers, eines transportablen Handheld-Computers oder einer beliebigen anderen elektronischen Einheit. Zur Erleichterung der Erörterung wird eine Ausführungsform der Erfindung im Kontext des Computers 1010 erläutert.
Der gezeigte Computer 1010 weist einen Prozessor 1020, einen mit einer Speichersteuereinheit 1060 verbundenen Speicher 1040, eine oder mehrere Eingabe- und/oder Ausgabeeinheiten (E/A-Einheiten), zu Datenaustauschzwecken über eine lokale Eingabe/Ausgabe-Steuereinheit 1120 verbundene Peripherieeinheiten 1080, 1100 und eine Anzeigesteuereinheit 1180 auf, die mit einer Anzeige 1160 verbunden ist. Bei einer beispielhaften Ausführungsform kann das System 1000 ferner eine Netzwerkschnittstelle 1140 zum Verbinden mit einem Netzwerk 1200 aufweisen. Das Netzwerk 1200 sendet und empfängt zwischen dem Computer 1010 und externen Systemen übertragene Daten. Bei einer beispielhaften Ausführungsform können eine herkömmliche Tastatur 1220 und Maus 1240 mit der Eingabe/Ausgabe-Steuereinheit 1200 verbunden sein.
Bei verschiedenen Ausführungsformen speichert der Speicher 1040 Anweisungen, die durch den Prozessor 1020 ausgeführt werden können. Zu den im Speicher 1040 gespeicherten Anweisungen können ein oder mehrere separate Programme gehören, von denen jedes eine sortierte Auflistung ausführbarer Anweisungen zum Realisieren von Logikfunktionen aufweist. Bei dem Beispiel aus 8 weisen die im Speicher 1040 gespeicherten Anweisungen mindestens ein geeignetes Betriebssystem (BS) 1260 und ein Abfrage- und Integrationssystem 400 auf. Das Betriebssystem 1260 steuert im Wesentlichen die Ausführung anderer Computerprogramme und stellt eine Ablaufplanung, Eingabe-Ausgabe-Steuerung, Datei- und Datenverwaltung, Speicherverwaltung und Steuerung des Datenaustauschs sowie zugehörige Dienste bereit.
Im Betriebszustand des Computers 1010 ist der Prozessor 1020 konfiguriert, um anhand der Anweisungen die im Speicher 1040 gespeicherten Anweisungen auszuführen, Daten mit dem Speicher 1040 auszutauschen und allgemein die Operationen des Computers 1010 zu steuern. Der Prozessor 1020 kann ein kundenspezifischer oder handelsüblicher Prozessor, eine zentrale Verarbeitungseinheit (CPU), ein Hilfsprozessor unter mehreren zum Computer 1010 gehörenden Prozessoren, ein auf Halbleitern beruhender Mikroprozessor (in Form eines Mikrochips oder Chipsatzes), ein Makroprozessor oder allgemein eine beliebige Einheit zum Ausführen von Anweisungen sein.
Der Prozessor 1020 führt gemäß den Ausführungsformen der vorliegenden Erfindung die Anweisungen des Abfrage- und Integrationssystems 400 aus. Bei verschiedenen Ausführungsformen ist das Abfrage- und Integrationssystem 400 der vorliegenden Erfindung im Speicher 1040 gespeichert (wie gezeigt) und wird von einer transportablen Speichereinheit (z.B. CD-ROM, Diskette, Flash-Laufwerk usw.) (nicht gezeigt) und/oder von einem entfernten Ort wie zum Beispiel von einem zentralen Server (nicht gezeigt) ausgeführt. Bei dem Abfrage- und Integrationssystem 400 kann es sich um eine Softwareanwendung handeln, die einen Prozess wie zum Beispiel den nachfolgend unter Bezug auf 9 beschriebenen Prozess ausführt. Bei einigen Ausführungsformen der vorliegenden Erfindung speichert der Speicher 1040 außerdem Daten wie zum Beispiel unstrukturierte und strukturierte Daten.
Unter Bezugnahme auf 9 veranschaulicht ein Ablaufplan ein mittels Computer realisiertes Verfahren 2000 zum Abfragen und Integrieren strukturierter und unstrukturierter Daten gemäß einer Ausführungsform der vorliegenden Erfindung.
Bei Schritt 2005 führt das Verfahren den Schritt des Empfangens von Objektinformationen durch, die unter Verwendung eines domänenunabhängigen Systems zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten extrahiert wurden. Wie oben in Bezug auf eine weitere Ausführungsform der vorliegenden Erfindung erläutert, weisen die Objektinformationen Informationen über die Beziehungen zwischen einem ersten Objekt und einem zweiten Objekt der ersten Menge unstrukturierter Daten auf.
Bei Schritt 2010 führt das Verfahren auf der Grundlage der Beziehungsinformationen den Schritt des Erkennens eines Musters durch und erzeugt auf der Grundlage des Musters ein Schema für die erste Menge unstrukturierter Daten.
Bei Schritt 2015 führt das Verfahren den Schritt des Verknüpfens eines Elements des erzeugten Schemas mit (i) einem Objekt einer zweiten Menge unstrukturierter Daten oder (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten durch, wenn eine ausreichende Gesamtähnlichkeit zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden strukturierten Daten vorliegt, wodurch eine Verknüpfung zwischen dem erzeugten Schemaelement und entweder dem zweiten unstrukturierten Datenobjekt oder dem Schemaelement der bestehenden Menge strukturierter Daten erzeugt wird.
Der Verknüpfungsschritt 2015 kann die Schritte des Empfangens einer Menge von Zuordnungsregeln (2020) und auf der Grundlage der Menge von Zuordnungsregeln des Zuordnens des erzeugten Schemaelements zum (i) zweiten unstrukturierten Datenobjekt oder zum (ii) Schemaelement der bestehenden Menge strukturierter Daten aufweisen, um die Verknüpfung zu erzeugen (2025).
Der Zuordnungsschritt 2025 kann den Schritt des Messens der lexikalischen Ähnlichkeit, Dokumentationsähnlichkeit, semantischen Ähnlichkeit und strukturellen Ähnlichkeit zwischen dem erzeugten Schemaelement und (i) dem zweiten unstrukturierten Datenobjekt oder (ii) dem Schemaelement der bestehenden Menge strukturierter Daten aufweisen, um auf der Grundlage eines vorgegebenen Schwellenwertes zu ermitteln (2040), ob eine ausreichende Gesamtähnlichkeit vorliegt.
Bei einer ausreichenden Gesamtähnlichkeit führt das Verfahren den Schritt des Kombinierens des erzeugten Schemaelements und entweder des zweiten unstrukturierten Datenobjekts oder des Schemaelements der bestehenden Menge strukturierter Daten zu einer Gruppe ähnlicher Elemente oder in einer Element-Objekt-Kombination durch und erzeugt auf diese Weise die Verknüpfung (2050).
Bei einer nicht ausreichenden Gesamtähnlichkeit führt das Verfahren den Schritt des Gruppierens des erzeugten Schemaelements und entweder des zweiten unstrukturierten Datenobjekts oder des Schemaelements der bestehenden Menge strukturierter Daten zu einer zu überprüfenden Gruppe durch (2055).
Die Schritte des Messens (2040), Kombinierens (2050) und Gruppierens (2055) beruhen auf den empfangenen Zuordnungsregeln.
Der Verknüpfungsschritt (2015) kann ferner die Schritte des Empfangens von Rückmeldungen über die Ergebnisse der Zuordnung (2030) und des auf der Rückmeldung beruhenden Verbesserns des Schritts der Zuordnungsregeln aufweisen, um einen verbesserten Schritt der Zuordnungsregeln (2035) zu erzeugen.
Das Verfahren 2000 kann ferner den Schritt des Formulierens einer Abfrage aufweisen, die an eine oder mehrere Datenbanken 2060 gesendet werden soll, die die erste Menge unstrukturierter Daten, die zweite Menge unstrukturierter Daten, eine dritte Menge unstrukturierter Daten, die bestehende Menge strukturierter Daten und/oder eine weitere bestehende Menge strukturierter Daten aufweisen kann.
Das Verfahren 2000 kann ferner den Schritt 2065 des Suchens einer Verknüpfung auf der Instanzebene zur Auswertungszeit der Abfrage aufweisen.
Fachleuten wird klar sein, dass Aspekte der vorliegenden Erfindung in Form eines Systems( wie oben beschrieben), Verfahrens oder Computerprogrammprodukts verkörpert sein können. Dementsprechend können Aspekte der vorliegenden Erfindung die Form einer vollständig in Hardware realisierten Ausführungsform, einer vollständig in Software realisierten Ausführungsform (einschließlich Firmware, residenter Software, Mikrocode usw.) oder einer Ausführungsform annehmen, die Software- und Hardwareaspekte kombiniert, die im vorliegenden Dokument allgemein als „Schaltung“, „Modul“ oder „System“ bezeichnet werden. Ferner können Aspekte der vorliegenden Erfindung die Form eines Computerprogrammprodukts annehmen, das in einem oder mehreren computerlesbaren Medien verkörpert ist, auf denen computerlesbarer Programmcode verkörpert ist.
10 zeigt ein Computerprogrammprodukt 3000 zum Ausführen der Schritte des Verfahrens 2000 gemäß einer Ausführungsform der vorliegenden Erfindung. Das Computerprogrammprodukt 3000 weist Computerprogrammanweisungen 3200 zum Ausführen der Schritte dieser Verfahren auf, wie oben erörtert. Wie gezeigt sind Computerprogrammanweisungen 3200 wie nachfolgend erläutert auf einem computerlesbaren Speichermedium 3100 gespeichert.
Es kann eine Kombination aus einem oder mehreren computerlesbaren Medien verwendet werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Zu computerlesbaren Speichermedien können beispielsweise, ohne darauf beschränkt zu sein, ein elektronisches, magnetisches, optisches oder elektromagnetisches System bzw. ein Infrarot- oder Halbleitersystem bzw. eine derartige Vorrichtung oder Einheit oder eine beliebige geeignete Kombination des Vorstehenden gehören. Zu den genaueren Beispielen (unvollständige Liste) computerlesbarer Speichermedien zählen unter anderem folgende: eine elektrische Verbindung mit einer oder mehreren Leitungen, eine tragbare Computerdiskette, eine Festplatte, ein Direktzugriffsspeicher (RAM), ein Nur-Lese-Speicher (ROM), ein löschbarer programmierbarer Nur-Lese-Speicher (EPROM oder Flash-Speicher), ein Lichtwellenleiter, ein tragbarer Nur-Lese-Speicher in Form einer Compact Disc (CD-ROM), eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination des Vorstehenden. Im Kontext des vorliegenden Dokuments kann ein computerlesbares Speichermedium jedes beliebige vergegenständlichte Medium sein, das ein Programm enthalten oder speichern kann, das von oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Befehlsausführung genutzt werden kann.
Ein computerlesbares Signalmedium kann unter anderem ein im Basisband oder als Teil einer Trägerwelle übertragenes Datensignal mit darin verkörpertem computerlesbarem Programmcode aufweisen. Ein derartiges übertragenes Signal kann eine beliebige Vielfalt von Formen annehmen, einschließlich, ohne darauf beschränkt zu sein, einer elektromagnetischen oder optischen Form oder einer beliebigen geeigneten Kombinationen davon. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, bei dem es sich nicht um ein computerlesbares Speichermedium handelt und das ein Programm übertragen, senden oder transportieren kann, das von oder in Verbindung mit einem System, einer Vorrichtung oder einer Einheit zur Befehlsausführung genutzt werden kann.
Auf einem computerlesbaren Medium verkörperter Programmcode kann unter Verwendung jedes beliebigen geeigneten Mediums, einschließlich, ohne darauf beschränkt zu sein, drahtloser, drahtgebundener Medien, Lichtwellenleitern, HF usw., oder unter Verwendung einer beliebigen geeigneten Kombination des Vorstehenden übertragen werden.
Computerprogrammcode zum Ausführen von Operationen bei Ausführungsformen der vorliegenden Erfindung kann in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen, darunter in einer objektorientierten Programmiersprache wie Java, Smalltalk, C++ oder dergleichen und in herkömmlichen prozeduralen Programmiersprachen wie „C“ oder ähnlichen Programmiersprachen geschrieben sein. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. Beim letztgenannten Szenario kann der entfernt angeordnete Computer mit dem Computer des Benutzers über eine beliebige Art von Netzwerk verbunden sein, unter anderem über ein lokales Netzwerk (LAN) oder über ein Weitverkehrsnetzwerk (WAN), oder die Verbindung kann zu einem externen Computer hergestellt werden (beispielsweise über das Internet unter Nutzung eines Internet-Dienstanbieters (Internet Service Provider)).
Es versteht sich, dass jeder Block der Ablaufpläne und/oder der Blockschaltbilder und Kombinationen von Blöcken in den Ablaufplänen und/oder Blockschaltbildern durch Computerprogrammanweisungen realisiert werden kann bzw. können. Diese Computerprogrammanweisungen können einem Prozessor eines Mehrzweckcomputers, eines Spezialcomputers oder anderen programmierbaren Datenverarbeitungsvorrichtungen bereitgestellt werden, um eine Maschine zu erzeugen, sodass die Anweisungen, die über den Prozessor des Computers oder anderer programmierbarer Datenverarbeitungsvorrichtungen ausgeführt werden, Mittel zum Realisieren der in einem Block bzw. in den Blöcken des Ablaufplans und/oder des Blockschaltbildes angegebenen Funktionen/Aktionen schaffen.
Diese Computerprogrammanweisungen können ebenfalls in einem computerlesbaren Medium gespeichert sein, das einen Computer, andere programmierbare Datenverarbeitungsvorrichtungen oder andere Einheiten anweisen kann, in einer bestimmten Weise zu funktionieren, sodass die im computerlesbaren Medium gespeicherten Anweisungen ein Erzeugnis schaffen, das die Anweisungen aufweist, die die in einem Block bzw. in den Blöcken des Ablaufplans und/oder des Blockschaltbildes angegebene Funktion/Aktion realisieren.
Die Computerprogrammanweisungen können auch in einen Computer, in andere programmierbare Datenverarbeitungsvorrichtungen oder in andere Einheiten geladen werden, um zu bewirken, dass auf dem Computer, auf anderen programmierbaren Vorrichtungen oder anderen Einheiten eine Reihe von Arbeitsschritten ausgeführt wird, um einen mittels Computer realisierten Prozess zu schaffen, sodass die Anweisungen, die auf dem Computer oder auf anderen programmierbaren Vorrichtungen ausgeführt werden, Prozesse zur Realisierung der in einem Block bzw. in den Blöcken des Ablaufplans und/oder des Blockschaltbildes angegebenen Funktionen/Aktionen bereitstellen.

Claims

Mittels Computer realisiertes Verfahren (2000) zum Abfragen und Integrieren strukturierter und unstrukturierter Daten, wobei das Verfahren aufweist: Empfangen (2005) von Objektinformationen, die unter Verwendung eines domänenunabhängigen Systems (200) zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten (100) extrahiert wurden, wobei die Objektinformationen (300) Informationen (305) über Beziehungen zwischen ersten Objekten (105-a) und zweiten Objekten (105-b) der ersten Menge unstrukturierter Daten (100) aufweisen, wobei die Informationen (305) über Beziehungen eine Semantik von Verben verbindend die ersten Objekte (105-a) und die zweiten Objekte (105-b) umfasst (2005); Erkennen (2010) eines Musters (500) auf der Grundlage der Beziehungsinformationen (605) mittels einer Identifikation eines wiederholten Auftretens eines ersten Objektes (105-2), eines zweiten Objektes (105-5) und eines Verbes (105-4) verbindend das erste Objekt (105-2) und das zweite Objekt (105-5) in der ersten Menge unstrukturierter Daten (100); Erzeugen (2010) eines Schemas (600) für die erste Menge unstrukturierter Daten (100) auf der Grundlage des Musters (500), wobei das Schema (600) das erste Objekt (105-2), das zweite Objekt (105-5) und das Verb (105-4) als Elemente umfasst; und Verknüpfen (2015) eines Elements (605; 605-1) des erzeugten Schemas (600) mit (i) einem Objekt (705) einer zweiten Menge unstrukturierter Daten (700) oder (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten, wenn eine ausreichende Gesamtähnlichkeit (970) zwischen dem erzeugten Schemaelement (605; 605-1) und entweder dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder dem Schemaelement der bestehenden strukturierten Daten vorliegt, wodurch eine Verknüpfung (800) zwischen dem erzeugten Schemaelement (605; 605-1) und entweder dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder dem Schemaelement der bestehenden Menge strukturierter Daten erzeugt wird.
Verfahren nach Anspruch 1, bei dem der Verknüpfungsschritt aufweist: Empfangen (2020) einer Menge von Zuordnungsregeln (900); und Zuordnen (2025) des erzeugten Schemaelements (605; 605-1) zum (i) zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder zum (ii) Schemaelement der bestehenden Menge strukturierter Daten auf der Grundlage der Menge von Zuordnungsregeln (900), um die Verknüpfung (800) zu erzeugen.
Verfahren nach Anspruch 2, bei dem der Zuordnungsschritt aufweist: Messen (2040) der lexikalischen Ähnlichkeit (950), Dokumentationsähnlichkeit (955), semantischen Ähnlichkeit (960) und strukturellen Ähnlichkeit (965) zwischen dem erzeugten Schemaelement (605) und (i) dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder (ii) dem Schemaelement der bestehenden Menge strukturierter Daten, um auf der Grundlage eines vorgegebenen Schwellenwertes (910) zu ermitteln, ob eine ausreichende Gesamtähnlichkeit (970) vorliegt; Kombinieren (2050) des erzeugten Schemaelements (605; 605-1) und entweder des zweiten unstrukturierten Datenobjekts (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder des Schemaelements der bestehenden Menge strukturierter Daten zu einer Gruppe (972) ähnlicher Elemente oder zu einer Element-Objekt-Kombination, wodurch die Verknüpfung (800) erzeugt wird, wenn die ausreichende Gesamtähnlichkeit (970) vorliegt (2045); und Gruppieren (2055) des erzeugten Schemaelements (605; 605-1) und entweder des zweiten unstrukturierten Datenobjekts (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder des Schemaelements der bestehenden Menge strukturierter Daten zu einer zu überprüfenden Gruppe, wenn keine ausreichende Gesamtähnlichkeit (970) vorliegt (2045), wobei die Schritte des Messens (2040), Kombinierens (2050) und Gruppierens (2055) auf den empfangenen Zuordnungsregeln (900) beruhen.
Verfahren nach Anspruch 2, bei dem der Verknüpfungsschritt (2015) ferner aufweist: Empfangen (2030) von Rückmeldungen (980) über Ergebnisse der Zuordnung; und Verbessern der Menge von Zuordnungsregeln (900) auf der Grundlage der Rückmeldungen (980), um eine verbesserte Menge von Zuordnungsregeln (902) zu erzeugen (2035).
Verfahren nach Anspruch 1, das ferner das Formulieren einer Abfrage (430) aufweist, die an eine Datenbank (206) gesendet werden soll, die aus der Gruppe ausgewählt wird, bestehend aus: der ersten Menge unstrukturierter Daten (100), der zweiten Menge unstrukturierter Daten (700), einer dritten Menge unstrukturierter Daten (720), der bestehenden Menge strukturierter Daten (730), und einer weiteren bestehenden Menge strukturierter Daten (740).
Verfahren nach Anspruch 1, ferner aufweisend das Suchen (2065) einer Verknüpfung auf Instanzebene zur Auswertungszeit der Abfrage.
Mittels Computer (1010) realisiertes System zum Abfragen und Integrieren strukturierter und unstrukturierter Daten, wobei das System aufweist: eine Empfangseinheit (405), die konfiguriert ist, um Objektinformationen zu empfangen (2005), die unter Verwendung eines domänenunabhängigen Systems (200) zur Extraktion von Informationen aus einer ersten Menge unstrukturierter Daten (100) extrahiert wurden, wobei die Objektinformationen (300) Informationen (305) über Beziehungen zwischen ersten Objekten (105-a) und zweiten Objekten (105-b) der ersten Menge unstrukturierter Daten (100) aufweisen, wobei die Informationen (305) über Beziehungen eine Semantik von Verben verbindend die ersten Objekte (105-a) und die zweiten Objekte (105-b) umfasst; eine Mustererkennungseinheit (410), die konfiguriert ist, um auf der Grundlage der Beziehungsinformationen ein Muster (500) mittels einer Identifikation eines wiederholten Auftretens eines ersten Objektes (105-2), eines zweiten Objektes (105-5) und eines Verbes (105-4) verbindend das erste Objekt (105-2) und das zweite Objekt (105-5) in der ersten Menge unstrukturierter Daten (100) zu erkennen (2010) und auf der Grundlage des Musters (500) ein Schema (600) für die erste Menge unstrukturierter Daten (100) zu erzeugen (2010), wobei das Schema (600) das erste Objekt (105-2), das zweite Objekt (105-5) und das Verb (105-4) als Elemente umfasst; und eine Elementverknüpfungseinheit (415), die konfiguriert ist, um ein Element (605; 605-1) des erzeugten Schemas (600) mit (i) einem Objekt (705) einer zweiten Menge unstrukturierter Daten (700) oder (ii) einem Schemaelement einer bestehenden Menge strukturierter Daten zu verknüpfen (2015), wenn eine ausreichende Gesamtähnlichkeit (970) zwischen dem erzeugten Schemaelement (605; 605-1) und entweder dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder dem Schemaelement der bestehenden strukturierten Daten vorliegt, wodurch eine Verknüpfung (800) zwischen dem erzeugten Schemaelement (605; 605-1) und entweder dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder dem Schemaelement der bestehenden Menge strukturierter Daten erzeugt wird.
Mittels Computer realisiertes System nach Anspruch 7, bei dem: die Empfangseinheit (405) ferner konfiguriert ist, um eine Menge von Zuordnungsregeln (900) zu empfangen (2020); und die Elementverknüpfungseinheit (415) eine Zuordnungseinheit (420) aufweist, die konfiguriert ist, um das erzeugte Schemaelement (605; 605-1) (i) dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder (ii) dem Schemaelement der bestehenden Menge strukturierter Daten auf der Grundlage der Menge von Zuordnungsregeln (900) zuzuordnen (2025), um die Verknüpfung (800) zu erzeugen.
Mittels Computer realisiertes System nach Anspruch 8, bei dem: die Empfangseinheit (405) ferner konfiguriert ist, um einen Schwellenwert (910) zu empfangen, um eine Gesamtähnlichkeit zwischen Schemaelementen zu ermitteln; und die Zuordnungseinheit (420) auf der Grundlage der Zuordnungsregeln (900) ferner konfiguriert ist, um: die lexikalische Ähnlichkeit (950), Dokumentationsähnlichkeit (955), semantische Ähnlichkeit (960) und strukturelle Ähnlichkeit (965) zwischen dem erzeugten Schemaelement (605; 605-1) und (i) dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder (ii) dem Schemaelement der bestehenden Menge strukturierter Daten zu messen (2040), um auf der Grundlage des Schwellenwertes (910) zu ermitteln, ob eine ausreichende Gesamtähnlichkeit (970) vorliegt (2045); das erzeugte Schemaelement (605; 605-1) und entweder das zweite unstrukturierte Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder das Schemaelement der bestehenden Menge strukturierter Daten zu einer Gruppe ähnlicher Elemente oder in einer Element-Objekt-Kombination zu kombinieren (2050), wodurch die Verknüpfung (800) erzeugt wird, wenn die ausreichende Gesamtähnlichkeit (970) vorliegt (2045); und das erzeugte Schemaelement (605; 605-1) und entweder das zweite unstrukturierte Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder das Schemaelement der bestehenden Menge strukturierter Daten zu einer zu überprüfenden Gruppe zu gruppieren, wenn keine ausreichende Gesamtähnlichkeit (970) vorliegt (2045).
Mittels Computer realisiertes System nach Anspruch 7, das ferner eine Abfrageeinheit (430) aufweist, die konfiguriert ist, um eine Abfrage (432) zu formulieren, die an eine Datenbank (206) gesendet werden soll, die aus der Gruppe ausgewählt wird, bestehend aus: der ersten Menge unstrukturierter Daten (100), der zweiten Menge unstrukturierter Daten (700), einer dritten Menge unstrukturierter Daten (720), der bestehenden Menge strukturierter Daten (730), und einer weiteren bestehenden Menge strukturierter Daten (740).
Mittels Computer realisiertes System nach Anspruch 10, bei dem die Abfrageeinheit (430) ferner konfiguriert ist, um zur Auswertungszeit der Abfrage (432) auf der Instanzebene Verknüpfungen zu suchen.
Mittels Computer realisiertes System nach Anspruch 9, bei dem die Zuordnungseinheit (420) eine Logikeinheit aufweist, die konfiguriert ist, um zu ermitteln, ob die ausreichende Gesamtähnlichkeit (970) oder die nicht ausreichende Gesamtähnlichkeit (970) zwischen dem erzeugten Schemaelement (605; 605-1) und entweder dem zweiten unstrukturierten Datenobjekt (705-1, 705-2, 705-3, 705-4, 705-5, 705-6, 705-7) oder dem Schemaelement der bestehenden Menge strukturierter Daten vorliegt (2045).
Mittels Computer realisiertes System nach Anspruch 8, bei dem: die Empfangseinheit (405) ferner konfiguriert ist, um Rückmeldungen (980) über die Ergebnisse der Zuordnung zu empfangen (2030); und die Zuordnungseinheit (420) ferner konfiguriert ist, um die Rückmeldungen (980) über die Zuordnung in die Menge von Zuordnungsregeln (900) einzubinden und eine verbesserte Menge von Zuordnungsregeln (902) zu erzeugen (2035).
Speichermedium (3100) mit einem als Programmcode gespeicherten Datenverarbeitungsprogramm (3200), das bei Verwendung ein einem Rechner (1010) das Verfahren nach einem der Ansprüche 1 bis 6 ausführt.