DE102014116454A1

DE102014116454A1 - Verfügbarkeit von Inhalt für Aufgaben zur Verarbeitung von natürlicher Sprache

Info

Publication number: DE102014116454A1
Application number: DE102014116454.7A
Authority: DE
Inventors: Jeffrey N. Eisen
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2013-12-13
Filing date: 2014-11-11
Publication date: 2015-06-18
Also published as: US9830316B2; CN104714942A; CN104714942B; US20150169545A1; US9792276B2; US20170286402A1

Abstract

Bereitgestellt wird ein Ansatz, um Inhalt für Aufgaben zur Verarbeitung von natürlicher Sprache (NLP-Aufgaben) verfügbar zu machen. Bei dem Ansatz wird einer Bildschirmleser-Anwendung eine Bildschirmansicht eines Dokumentabschnitts als Eingabe bereitgestellt. Die Bildschirmleser-Anwendung konvertiert Informationen, die auf dem Bildschirm angezeigt werden, in ein natürliches Sprachformat. Im Anschluss daran wird eine NLP-Operation für das natürliche Sprachformat durchgeführt.

Description

HINTERGRUND DER ERFINDUNG
Bei Datenverarbeitungsaufgaben, die eine unstrukturierte Texteingabe für Aufgaben zur Verarbeitung von natürlicher Sprache (Natural Language Processing, NLP) erfordern, lassen sich Dokumente aus einer Fülle von Formaten häufig nur unter Schwierigkeiten in „normale” Sätze konvertieren. So stellen z. B. Dokumente mit Diagrammen ein Frage/Antwort-System (FA-System), das große Mengen an unstrukturierten Sätzen analysieren muss, um während des Aufnahmevorgangs die Korpora zu bilden, vor erhebliche Schwierigkeiten. Selbst wenn das Diagramm in ein stärker textgebundenes Format (z. B. HTML usw.) konvertiert wird, kann es sich für das System als sehr schwierig erweisen, die semantischen Informationen korrekt zu interpretieren. Ein üblicher Ansatz besteht darin, Diagramme, Bilder und Text, die anders strukturiert sind als Sätze, schlicht zu ignorieren. Dies lässt sich in der Regel einfach umsetzen, bedeutet aber, dass bestimmte, möglicherweise sehr wichtige Inhalte verworfen werden. Ein weiterer Ansatz besteht darin, für jede der vielen Arten von Inhalt, z. B. für jede Diagrammart, ein neues Konvertierungsprogramm zu schreiben. Dies ist zwar effektiv, kann aber angesichts der Vervielfachung von Inhaltsarten und -strukturen mit großem Kosten- und Zeitaufwand verbunden sein.
ZUSAMMENFASSUNG
Bereitgestellt wird ein Ansatz, um verschiedene Arten von Inhalt für Aufgaben zur Verarbeitung von natürlicher Sprache (Natural Language Processing, NLP) bereitzustellen. Bei dem Ansatz wird einer Bildschirmleser-Anwendung eine Bildschirmansicht eines Dokumentabschnitts als Eingabe bereitgestellt. Die Bildschirmleser-Anwendung konvertiert Informationen, die auf dem Bildschirm angezeigt werden, in ein natürliches Sprachformat. Im Anschluss daran wird eine NLP-Operation für das natürliche Sprachformat durchgeführt. Bei einer Ausführungsform wird die NLP-Operation durch ein Frage- und Antwortsystem (FA-System) durchgeführt. Bei einer weiteren Ausführungsform wird vor der Eingabe des Dokumentabschnitts in die Bildschirmleser-Anwendung das den Dokumentabschnitt enthaltende Gesamtdokument empfangen und der Dokumentabschnitt wird als ein Abschnitt identifiziert, der mit einem oder mehreren ursprünglichen Konvertierungsprogrammen, die zum Konvertieren von Dokumentinhalten verwendet werden, nicht kompatibel ist.
Bei einer Ausführungsform wird das eine Anzahl von Dokumentabschnitten enthaltende Eingabedokument empfangen. Ein Satz von Dokumentabschnitten wird identifiziert, die mit ursprünglichen Konvertierungsprogrammen kompatibel sind, welche zum Konvertieren von Dokumentinhalten verwendet werden, und dieser Satz von Dokumentabschnitten wird unter Verwendung der ursprünglichen Konvertierungsprogramme konvertiert. Ein weiterer Satz von Dokumentabschnitten wird identifiziert, die nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel sind, und dieser Satz wird in das NLP-Format konvertiert, indem Bildschirmansichten in die Bildschirmleser-Anwendung eingegeben werden, die diesem Satz von Dokumentabschnitten entsprechen. Bei einer weiteren Ausführungsform beinhaltet die Identifizierung der nicht kompatiblen Dokumentabschnitte ein Erkennen einer Inhaltsart, die den nicht kompatiblen Dokumentabschnitten entspricht, wobei die Inhaltsart entweder ein Diagramm, eine Tabelle, ein Bild oder eine nicht textgebundene Dokumentart ist. Bei einer weiteren Ausführungsform empfängt der Prozess hörbare Sprache als eine Eingabe von der Bildschirmleser-Anwendung. Die hörbare Spracheingabe wird dann in eine Spracherkennungsanwendung eingegeben, welche die hörbare Sprache in ein textgebundenes NLP-Format konvertiert. Bei einer weiteren Ausführungsform führt der Prozess Dokumentabschnitte, die unter Verwendung der ursprünglichen Dokumentkonvertierungsprogramme konvertiert wurden, und Dokumentabschnitte, die unter Verwendung der Bildschirmleser-Anwendung konvertiert wurden, zusammen, wobei das resultierende zusammengeführte Dokument dieselbe Reihenfolge aufweist wie das ursprüngliche Eingabedokument.
Obenstehende Ausführungen bilden eine Zusammenfassung und beinhalten daher zwangsläufig Vereinfachungen, Verallgemeinerungen und Auslassungen von Einzelheiten; dem Fachmann dürfte daher klar sein, dass die Zusammenfassung lediglich zur Veranschaulichung dient und in keiner Weise als Einschränkung zu verstehen ist. Andere Aspekte, erfindungsgemäße Merkmale und Vorteile der vorliegenden Erfindung, wie sie allein durch die Ansprüche bestimmt sind, werden aus der nachfolgend dargelegten, ausführlichen und nicht einschränkenden Beschreibung deutlich.
KURZBESCHREIBUNG DER ZEICHNUNGEN
Die vorliegende Erfindung wird besser verständlich, und ihre zahlreichen Gegenstände, Merkmale und Vorteile werden für den Fachmann offensichtlich, wenn auf die beigefügten Zeichnungen Bezug genommen wird, worin:
1 eine Netzwerkumgebung zeigt, die eine Wissensverwaltungseinheit enthält, welche eine Wissensdatenbank verwendet;
2 ein Blockschaubild eines Prozessors sowie von Komponenten eines Datenverarbeitungssystems ist, wie sie z. B. in 1 gezeigt sind;
3 eine Komponentendarstellung ist, die verschiedene Komponenten zeigt, mit denen verschiedene Arten von Inhalt für NLP-Aufgaben verfügbar gemacht werden;
4 eine Abbildung eines Ablaufplans ist, der die Logik zeigt, mit der verschiedene Arten von Inhalt für NLP-Aufgaben verfügbar gemacht werden;
5 eine Abbildung eines Ablaufplans ist, der die Logik zeigt, die zum Verarbeiten des Inhalts verwendet wird; und
6 eine Abbildung eines Ablaufplans ist, der die von dem Prozess durchgeführte Logik zeigt, die einen Bildschirmleser verwendet, um einen Abschnitt eines Dokuments in eine konvertierte, für NLP-Aufgaben geeignete Form umzuwandeln.
AUSFÜHRLICHE BESCHREIBUNG
Der Fachmann weiß, dass Aspekte der vorliegenden Erfindung als ein System, Verfahren oder Computerprogrammprodukt ausgeführt werden können. Entsprechend können Aspekte der vorliegenden Erfindung in Gestalt einer vollständig in Hardware realisierten Ausführungsform, einer vollständig in Software realisierten Ausführungsform (z. B. Firmware, residente Software, Mikrocode usw.) oder in Gestalt einer Ausführungsform vorliegen, die Software- und Hardware-Aspekte vereint, welche zusammenfassend als „Schaltung”, „Modul” oder „System” bezeichnet werden können. Des Weiteren können Aspekte der vorliegenden Erfindung in Gestalt eines Computerprogrammprodukts vorliegen, das in einem oder mehreren computerlesbaren Medien ausgeführt ist, auf denen computerlesbarer Programmcode enthalten ist.
Dabei kann eine beliebige Kombination aus einem oder mehreren computerlesbaren Medien genutzt werden. Das computerlesbare Medium kann ein computerlesbares Signalmedium oder ein computerlesbares Speichermedium sein. Ein computerlesbares Speichermedium kann z. B. ein elektronisches, magnetisches, optisches, elektromagnetisches, Infrarot- oder Halbleitersystem bzw. eine entsprechende Vorrichtung oder Einheit oder aber eine beliebige geeignete Kombination der vorgenannten Elemente sein, ohne jedoch auf diese beschränkt zu sein. Konkretere Beispiele des computerlesbaren Speichermediums würden Folgendes beinhalten (wobei dies eine nicht vollständige Liste darstellt): eine elektrische Verbindung mit einem oder mehreren Leitern, eine tragbare Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Festwertspeicher (ROM), einen löschbaren, programmierbaren Nur-Lese-Speicher (EPROM- oder Flash-Speicher), einen Lichtwellenleiter, einen tragbaren CD-ROM, eine optische Speichereinheit, eine magnetische Speichereinheit oder eine beliebige geeignete Kombination der vorgenannten Elemente. In Verbindung mit diesem Dokument kann ein computerlesbares Speichermedium jedes physische Medium sein, das ein Programm enthalten oder speichern kann, welches von oder in Zusammenhang mit einem der Befehlsausführung dienenden System, einer Vorrichtung oder Einheit verwendet wird.
Ein computerlesbares Signalmedium kann ein weitergeleitetes Datensignal mit darin enthaltenem computerlesbarem Programmcode enthalten, z. B. als Basisband oder als Teil einer Trägerwelle. Ein derartiges weitergeleitetes Signal kann eine beliebige Vielfalt von unterschiedlichen Formen annehmen, einschließlich, ohne auf diese beschränkt zu sein, eine elektromagnetische Form, eine optische Form oder auch jede geeignete Kombination derselben. Ein computerlesbares Signalmedium kann ein beliebiges computerlesbares Medium sein, das kein computerlesbares Speichermedium ist und das ein Programm übermitteln, weiterleiten oder übertragen kann, welches für die Nutzung durch oder in Verbindung mit einem/einer der Befehlsausführung dienenden System, Vorrichtung oder Einheit vorgesehen ist.
Auf einem computerlesbaren Medium enthaltener Programmcode kann unter Verwendung eines beliebigen geeigneten Mediums übertragen werden, einschließlich, ohne auf diese beschränkt zu sein, drahtlose, drahtgebundene, Lichtwellenleiterkabel-, HF- und andere Medien oder eine beliebige Kombination derselben.
Computerprogrammcode für das Ausführen von Arbeitsschritten für Aspekte der vorliegenden Erfindung kann in einer beliebigen Kombination von einer oder mehreren Programmiersprachen geschrieben sein, unter anderem eine objektorientierte Programmiersprache wie Java, Smalltalk, C++ oder ähnliche sowie herkömmliche prozedurale Programmiersprachen wie die Programmiersprache „C” oder ähnliche Programmiersprachen. Der Programmcode kann vollständig auf dem Computer des Benutzers, teilweise auf dem Computer des Benutzers, als eigenständiges Softwarepaket, teilweise auf dem Computer des Benutzers und teilweise auf einem entfernt angeordneten Computer oder aber vollständig auf dem entfernt angeordneten Computer, Server oder der Gruppe von Servern ausgeführt werden. Im letztgenannten Szenario kann der entfernt angeordnete Computer über eine beliebige Art von Netzwerk, unter anderem ein lokales Netz (LAN) oder ein Weitverkehrsnetz (WAN), mit dem Computer des Benutzers verbunden sein, oder die Verbindung kann mit einem externen Computer (z. B. über das Internet unter Verwendung eines Internet-Dienstanbieters) hergestellt werden.
Im Folgenden werden Aspekte der vorliegenden Erfindung unter Bezugnahme auf Darstellungen von Ablaufplänen und/oder Blockschaubilder von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Dabei dürfte klar sein, dass jeder Block der Ablaufplan-Darstellungen und/oder Blockschaubilder sowie Kombinationen von Blöcken in den Ablaufplan-Darstellungen und/oder Blockschaubildern durch Computerprogrammbefehle realisiert werden kann/können. Diese Computerprogrammbefehle können einem Prozessor eines Universalcomputers, Spezialcomputers oder einer anderweitigen programmierbaren Datenverarbeitungsvorrichtung bereitgestellt werden, um eine Maschine zu erzeugen, so dass die Befehle, die über den Prozessor des Computers oder der anderweitigen programmierbaren Datenverarbeitungsvorrichtung ausgeführt werden, ein Mittel erzeugen, mit dem die Funktionen/Handlungen realisiert werden können, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben werden.
Diese Computerprogrammbefehle können auch auf einem computerlesbaren Medium gespeichert werden, das einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten anweisen kann, auf eine bestimmte Art und Weise zu funktionieren, so dass die auf dem computerlesbaren Medium gespeicherten Befehle einen Herstellungsgegenstand hervorbringen, der Befehle aufweist, mit denen die Funktion/Handlung, die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegeben ist, realisiert wird.
Die Computerprogrammbefehle können zudem in einen Computer, eine anderweitige programmierbare Datenverarbeitungsvorrichtung oder andere Einheiten geladen werden, um zu veranlassen, dass eine Reihe von Betriebsschritten auf dem Computer, der anderweitigen programmierbaren Datenvorrichtung oder den anderen Einheiten ausgeführt wird, so dass die Befehle, die auf dem Computer oder der anderweitigen Datenverarbeitungsvorrichtung ausgeführt werden, Prozesse bereitstellen, mit denen die in dem Block bzw. den Blöcken des Ablaufplans und/oder Blockschaubilds angegebenen Funktionen/Handlungen realisiert werden.
1 zeigt eine schematische Darstellung einer veranschaulichenden Ausführungsform eines FA-Systems 100 in einem Computernetzwerk 102. Die Wissensverwaltungseinheit 100 kann eine Datenverarbeitungseinheit 104 beinhalten (die einen oder mehrere Prozessoren und einen oder mehrere Arbeitsspeicher sowie unter Umständen beliebige andere, nach dem Stand der Technik allgemein bekannte Elemente einer Datenverarbeitungseinheit aufweist, z. B. Busse, Speichereinheiten, Datenübertragungsschnittstellen und dergleichen), die mit dem Computernetzwerk 102 verbunden ist. Das Netzwerk 102 kann mehrere Datenverarbeitungseinheiten 104 beinhalten, die über eine oder mehrere drahtgebundene und/oder drahtlose Datenübertragungsleitungen untereinander und mit anderen Einheiten oder Komponenten Daten austauschein, wobei jede Datenübertragungsleitung eine oder mehrere Leitungen, Router, Schalter, Übertragungseinheiten, Empfangseinheiten oder Ähnliches aufweisen kann. Die Wissensverwaltungseinheit 100 und das Netzwerk 102 können eine FA-Erzeugungsfunktionalität für einen oder mehrere Inhaltsnutzer ermöglichen. Dabei können auch andere Ausführungsformen einer Wissensverwaltungseinheit 100 mit Komponenten, Systemen, Teilsystemen und/oder Einheiten verwendet werden, die von den hier abgebildeten abweichen.
Die Wissensverwaltungseinheit 100 kann so konfiguriert sein, dass sie von verschiedenen Quellen Eingaben empfängt. So kann die Wissensverwaltungseinheit 100 z. B. eine Eingabe von dem Netzwerk 102, von einem Korpus elektronischer Dokumente 106 oder von anderen Daten, von einem Inhaltserzeuger 108, von Inhaltsnutzern sowie von sonstigen in Frage kommenden Eingabequellen empfangen. Bei einer Ausführungsform können die Eingaben in die Wissensverwaltungseinheit 100 ganz oder teilweise durch das Netzwerk 102 geleitet werden. Die verschiedenen Datenverarbeitungseinheiten 104 in dem Netzwerk 102 können Zugangspunkte für Inhaltserzeuger und Inhaltsnutzer beinhalten. Manche der Datenverarbeitungseinheiten 104 können Einheiten für eine Datenbank beinhalten, in denen der Datenkorpus gespeichert ist. Das Netzwerk 102 kann in verschiedenen Ausführungsformen lokale Netzwerkverbindungen und entfernte Verbindungen beinhalten, so dass die Wissensverwaltungseinheit 100 in Umgebungen jedweder Größe, darunter auch lokale und globale Umgebungen wie z. B. das Internet, betrieben werden kann. Darüber hinaus dient die Wissensverwaltungseinheit 100 als ein vorgelagertes System, das eine Vielfalt an Wissen verfügbar machen kann, das aus Dokumenten, aus über ein Netzwerk zugänglichen Quellen und/oder aus strukturierten Datenquellen gewonnen wird bzw. darin dargestellt ist. Auf diese Weise füllen einige Prozesse die Wissensverwaltungseinheit, wobei die Wissensverwaltungseinheit auch Eingabeschnittstellen beinhaltet, um Wissensanfragen zu empfangen und entsprechend zu antworten.
Bei einer Ausführungsform erzeugt der Wissenserzeuger in einem Dokument 106 Inhalt, der als Teil eines Datenkorpus mit der Wissensverwaltungseinheit 100 verwendet werden soll. Das Dokument 106 kann jede Datei, jeden Text, Artikel bzw. jede Datenquelle beinhalten, der/die zur Verwendung in der Wissensverwaltungseinheit 100 vorgesehen ist. Inhaltsnutzer können über eine Netzwerkverbindung oder eine Internet-Verbindung mit dem Netzwerk 102 auf die Wissensverwaltungseinheit 100 zugreifen und Fragen in die Wissensverwaltungseinheit 100 eingeben, die unter Umständen von dem Inhalt in dem Datenkorpus beantwortet werden können. Wenn ein Prozess einen gegebenen Abschnitt eines Dokuments auf semantischen Inhalt überprüft, kann der Prozess – wie weiter unten beschrieben – eine Vielfalt von festgelegten Vorgehensweisen verwenden, um die Wissensverarbeitungseinheit daraufhin abzufragen. Eine Vorgehensweise besteht darin, eine gut formulierte Frage zu senden. Semantischer Inhalt ist Inhalt, der auf der Beziehung zwischen Signifikanten wie z. B. Wörtern, Phrasen, Zeichen und Symbolen und dem beruht, wofür sie stehen, d. h. ihrer Denotation oder Konnotation. Anders ausgedrückt handelt es sich bei semantischem Inhalt um Inhalt, der einen Ausdruck z. B. anhand einer Verarbeitung von natürlicher Sprache interpretiert. Bei einer Ausführungsform sendet der Prozess gut formulierte Fragen (z. B. Fragen in natürlicher Sprache usw.) an die Wissensverwaltungseinheit. Die Wissensverwaltungseinheit 100 kann die Frage interpretieren und dem Inhaltnutzer eine Reaktion bereitstellen, die eine oder mehrere Antworten auf die Frage enthält. Bei manchen Ausführungsformen kann die Wissensverwaltungseinheit 100 Benutzern eine Reaktion in Form einer Rangliste von Kandidatenantworten bereitstellen.
Bei manchen veranschaulichenden Ausführungsformen kann die Wissensverwaltungseinheit 100 das IBM Watson^TM-FA-System sein, das von der International Business Machines Corporation mit Sitz in Armonk, New York, erhältlich ist und das um die nachfolgend beschriebenen Mechanismen der veranschaulichenden Ausführungsformen erweitert wird. Das IBM Watson^TM-Wissensverwaltungseinheit-System kann eine Eingabefrage empfangen, die es dann analysiert, um die wichtigsten Merkmale der Frage zu erhalten, anhand derer dann wiederum Abfragen formuliert werden, die auf das Datenkorpus angewendet werden. Auf der Grundlage der Anwendung der Abfragen auf das Datenkorpus wird ein Satz von Hypothesen oder Kandidatenantworten auf die Eingabefrage erzeugt, indem das Datenkorpus daraufhin überprüft wird, ob Teile des Datenkorpus möglicherweise eine wertvolle Antwort auf die Eingabefrage enthalten könnten.
Das IBM Watson^TM-FA-System führt anschließend eine Tiefenanalyse der Sprache der Eingabefrage sowie der Sprache durch, die in jedem der Teile des Datenkorpus verwendet wird, die bei der Anwendung der Abfragen gefunden wurden, wobei verschiedene Reasoning-Algorithmen (reasoning algorithms/Algorithmen für die Wissensverarbeitung) zum Einsatz kommen. Dabei können Hunderte oder auch Tausende von Reasoning-Algorithmen angewendet werden, von denen jeder eine andere Analyse wie z. B. Vergleiche durchführt und eine Wertung erzeugt. So können manche Reasoning-Algorithmen z. B. die Übereinstimmung von Begriffen und Synonymen innerhalb der Sprache der Eingabefrage und den gefundenen Teilen des Datenkorpus untersuchen. Andere Reasoning-Algorithmen können zeitliche oder räumliche Merkmale der Sprache untersuchen, während wieder andere die Quelle des Datenkorpusteils und ihre Glaubhaftigkeit bewerten.
Die mit den verschiedenen Reasoning-Algorithmen erhaltenen Wertungen geben das Ausmaß an, in dem die mögliche Antwort aus der Eingabefrage folgt, wobei der jeweilige Schwerpunkt dieses Reasoning-Algorithmus zugrundegelegt wird. Im Anschluss daran wird jede resultierende Wertung anhand eines statistischen Modells gewichtet. Das statistische Modell erfasst, wie gut es dem Reasoning-Algorithmus gelungen ist, beim Trainieren des IBM Watson^TM-FA-Systems die Inferenz zwischen ähnlichen Passagen einer bestimmten Domäne herzustellen. Anhand des statistischen Modells lässt sich dann ein Gesamtmaß an Vertrauen erhalten, welches das IBM Watson^TM-FA-System hinsichtlich des Beleges hat, dass die mögliche Antwort, d. h. die Kandidatenantwort, aus der Frage folgt. Dieser Vorgang kann für jede der Kandidatenantworten so lange wiederholt werden, bis das IBM Watson^TM-FA-System Kandidatenantworten identifiziert, die erheblich höhere Werte erzielen als andere, und auf diese Weise eine endgültige Antwort bzw. einen der Rangfolge nach geordneten Satz von Antworten auf die Eingabefrage erzeugt.
Arten von Datenverarbeitungssystemen, die das FA-System 100 nutzen, reichen von kleinen Handheld-Einheiten wie ein Handheld-Computer/Mobiltelefon 110 bis zu großen Mainframe-Systemen wie einem Mainframe-Computer 170. Beispiele für den Handheld-Computer 110 beinhalten persönliche digitale Assistenten (Personal Digital Assistant, PDA), persönliche Unterhaltungseinheiten wie z. B. MP3-Player, tragbare TV-Geräte und CD-Player. Andere Beispiele für Datenverarbeitungssysteme beinhalten einen Pen- oder Tablet-Computer 120, einen Laptop- oder Notebook-Computer 130, ein PC-System 150 und einen Server 160. Wie abgebildet, können die verschiedenen Datenverarbeitungssysteme unter Verwendung des Computernetzwerks 100 miteinander vernetzt sein. Arten des Computernetzwerks 102, die zum Verbinden der verschiedenen Datenverarbeitungssysteme verwendet werden können, beinhalten LANs, WLANs, das Internet, das öffentliche leitungsgebundene Telefonnetz, andere Funknetze und jedwede andere Netzwerktechnologie, die zum Verbinden der Datenverarbeitungssysteme verwendet werden kann. Viele der Datenverarbeitungssysteme beinhalten nicht flüchtige Datenspeicher wie z. B. Festplattenlaufwerke und/oder nicht flüchtigen Arbeitsspeicher. Einige der in 1 gezeigten Datenverarbeitungssysteme stellen nicht flüchtige Datenspeicher dar (der Server 160 nutzt einen nicht flüchtigen Datenspeicher 165, und der Mainframe-Computer 170 nutzt einen nicht flüchtigen Datenspeicher 175. Der nicht flüchtige Datenspeicher kann eine Komponente sein, die außerhalb der verschiedenen Datenverarbeitungssysteme angesiedelt ist, oder sie kann in einem der Datenverarbeitungssysteme enthalten sein. 2 zeigt ein veranschaulichendes Beispiel für ein Datenverarbeitungssystem, das einen als Beispiel dienenden Prozessor und verschiedene Komponenten zeigt, auf die im Allgemeinen durch den Prozessor zugegriffen wird.
2 stellt ein Datenverarbeitungssystem 200 und im Besonderen einen Prozessor und gemeinsame Komponenten dar, bei dem es sich um ein vereinfachtes Beispiel für ein Computersystem handelt, das in der Lage ist, die hier beschriebenen Datenverarbeitungsoperationen durchzuführen. Das Datenverarbeitungssystem 200 enthält einen oder mehrere Prozessoren 210, die mit einem Prozessorschnittstellenbus 212 verbunden sind. Der Prozessorschnittstellenbus 212 verbindet die Prozessoren 210 mit einer Northbridge 215, die auch als der Memory Controller Hub (MCH) bezeichnet wird. Die Northbridge 215 ist mit einem Systemarbeitsspeicher 220 verbunden und stellt dem/den Prozessor(en) 210 ein Mittel bereit, um auf den Systemarbeitsspeicher zuzugreifen. Ein Grafik-Controller 225 ist ebenfalls mit der Northbridge 215 verbunden. Bei einer Ausführungsform verbindet ein PCI-Express-Bus 218 die Northbridge 215 mit dem Grafik-Controller 225. Der Grafik-Controller 225 ist mit einer Anzeigeeinheit 230 wie z. B. einem Computerbildschirm verbunden.
Die Northbridge 215 und eine Southbridge 235 sind über einen Bus 219 miteinander verbunden. Bei einer Ausführungsform ist der Bus ein DMI-Bus (Direct Media Interface), der Daten mit hoher Geschwindigkeit in beide Richtungen zwischen der Northbridge 215 und der Southbridge 235 überträgt. Bei einer anderen Ausführungsform verbindet ein PCI-Bus (Peripheral Component Interconnect) die Northbridge und die Southbridge. Die Southbridge 235, auch als der I/O Controller Hub (ICH) bezeichnet, ist ein Chip, der im Allgemeinen Funktionen realisiert, die mit geringeren Geschwindigkeiten ablaufen als die von der Northbridge bereitgestellten Funktionen. Die Southbridge 235 stellt üblicherweise verschiedene Busse bereit, die zum Verbinden verschiedener Komponenten verwendet werden. Diese Busse beinhalten z. B. PCI- und PCI-Express-Busse, einen ISA-Bus, einen System Management Bus (SMBus bzw. SMB) und/oder einen LPC-Bus (Low Pin Count). Der LPC-Bus verbindet häufig Einheiten mit geringer Bandbreite wie z. B. einen Boot-ROM 296 und bestehende E/A-Einheiten (unter Verwendung eines „Super I/O”-Chips). Die „traditionellen” E/A-Einheiten 298 können z. B. serielle und parallele Anschlüsse, eine Tastatur, eine Maus und/oder einen Disketten-Controller beinhalten. Der LPC-Bus verbindet die Southbridge 235 darüber hinaus mit einem Trusted Platform Module (TPM) 295. Andere oft in der Southbridge 235 enthaltene Komponenten beinhalten einen DMA-Controller (Direct Memory Access), einen Programmable Interrupt Controller (PIC) und einen Speichereinheit-Controller, der die Southbridge 235 unter Verwendung eines Busses 284 mit einer nicht flüchtigen Speichereinheit 285 wie z. B. einem Festplattenlaufwerk verbindet.
Eine ExpressCard 255 ist ein Steckplatz, der Hot-Plug-fähige Einheiten mit dem Informationsverarbeitungssystem verbindet. Die ExpressCard 255 unterstützt sowohl eine PCI-Express- als auch eine USB-Konnektivität (Universal Serial Bus), da sie die Verbindung zur Southbridge 235 sowohl über das USB-System als auch über den PCI-Express-Bus herstellt. Die Southbridge 235 enthält einen USB-Controller 240, der eine USB-Konnektivität für Einheiten bereitstellt, die mit dem USB-System verbunden sind. Diese Einheiten beinhalten eine Webcam (Kamera) 250, einen Infrarotempfänger (IR-Empfänger) 248, eine Tastatur und ein Tastfeld 244 sowie eine Bluetooth-Einheit 246, die persönliche Funknetzwerke (Wireless Personal Area Network, WPAN) ermöglicht. Der USB-Controller 240 stellt auch verschiedenen anderen mittels USB verbundenen Einheiten 242 eine USB-Konnektivität bereit, wie z. B. einer Maus, einer nicht flüchtigen Wechselspeichereinheit 245, Modems, Netzwerkkarten, ISDN-Konnektoren, Faxgeräten, Druckern, USB-Hubs und vielen anderen Arten von Einheiten, die mittels USB verbunden sind. Obwohl die nicht flüchtige Wechselspeichereinheit 245 als eine mittels USB verbundene Einheit gezeigt ist, kann die nicht flüchtige Wechselspeichereinheit 245 auch unter Verwendung einer anderen Schnittstelle wie z. B. einer Firewire-Schnittstelle usw. verbunden sein.
Eine LAN-Einheit 275 ist über den PCI- oder PCI-Express-Bus 272 mit der Southbridge 235 verbunden. Die LAN-Einheit 275 realisiert üblicherweise einen der IEEE.802.11-Standards für Funkmodulationstechniken, die alle dasselbe Protokoll verwenden, um Daten drahtlos zwischen dem Datenübertragungssystem 200 und einem anderen Computersystem oder einer anderen Einheit zu übertragen. Eine optische Speichereinheit 290 ist über einen Serial-ATA-Bus (SATA) 288 mit der Southbridge 235 verbunden. Serial-ATA-Adapter und -Einheiten übertragen Daten über eine serielle Hochgeschwindigkeitsleitung. Der Serial-ATA-Bus verbindet die Southbridge 235 auch mit anderen Arten von Speichereinheiten wie z. B. mit Festplattenlaufwerken. Eine Audioschaltung 260 wie z. B. eine Soundkarte ist über einen Bus 258 mit der Southbridge 235 verbunden. Die Audioschaltung 260 stellt auch eine Funktionalität wie z. B. einen Audioeingangs- und optischen digitalen Audioeingangsanschluss 262, eine optische digitale Ausgangs- und Kopfhörerbuchse 264, interne Lautsprecher 266 und ein internes Mikrofon 268 bereit.
Ein Ethernet-Controller 270 ist über einen Bus wie den PCI- oder PCI-Express-Bus mit der Southbridge 235 verbunden. Der Ethernet-Controller 270 verbindet das Datenverarbeitungssystem 200 mit einem Computernetzwerk, z. B. einem LAN, dem Internet und anderen öffentlichen und privaten Computernetzwerken.
Obwohl 2 ein Datenverarbeitungssystem zeigt, kann ein Datenverarbeitungssystem vielerlei Formen annehmen, wovon einige in 1 gezeigt sind. So kann ein Datenverarbeitungssystem in Gestalt eines Desktops, Servers, einer tragbaren Einheit, eines Laptops, Notebooks oder eines Computers oder Datenverarbeitungssystems mit anderweitigen Abmessungen vorliegen. Darüber hinaus kann ein Datenverarbeitungssystem andere Abmessungen annehmen und z. B. als ein PDA, eine Spieleeinheit, ein Bankautomat, eine tragbare Telefoneinheit, eine Datenübertragungseinheit oder eine andere Einheit vorliegen, die einen Prozessor und einen Arbeitsspeicher enthält.
Die 3 bis 6 zeigen einen Ansatz, der in einem Datenverarbeitungssystem durchgeführt werden kann, um verschiedene Arten von Inhalt für NLP-Aufgaben verfügbar zu machen, die von einem FA-System wie dem in 1 gezeigten FA-System 100 verwendet werden. Bei dem Ansatz wird einer Bildschirmleser-Anwendung eine Bildschirmansicht eines Dokumentabschnitts als Eingabe bereitgestellt. Die Bildschirmleser-Anwendung konvertiert Informationen, die auf dem Bildschirm angezeigt werden, in ein natürliches Sprachformat. Im Anschluss daran wird eine NLP-Operation für das natürliche Sprachformat durchgeführt. Bei einer Ausführungsform wird die NLP-Operation durch ein FA-System durchgeführt. Bei einer weiteren Ausführungsform wird vor der Eingabe des Dokumentabschnitts in die Bildschirmleser-Anwendung das Gesamtdokument einschließlich des Dokumentabschnitts empfangen, und der Dokumentabschnitt wird als ein Abschnitt identifiziert, der mit einem oder mehreren ursprünglichen Konvertierungsprogrammen, die zum Konvertieren von Dokumentinhalten in das NLP-Format verwendet werden, nicht kompatibel ist. Bei einer Ausführungsform wird das eine Anzahl von Dokumentabschnitten enthaltende Eingabedokument empfangen. Ein Satz von Dokumentabschnitten wird identifiziert, die mit ursprünglichen Konvertierungsprogrammen kompatibel sind, welche zum Konvertieren von Dokumentinhalten verwendet werden, und dieser Satz von Dokumentabschnitten wird unter Verwendung der ursprünglichen Konvertierungsprogramme konvertiert. Ein weiterer Satz von Dokumentabschnitten wird identifiziert, die nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel sind, und dieser Satz wird in das NLP-Format konvertiert, indem Bildschirmansichten in die Bildschirmleser-Anwendung eingegeben werden, die diesem Satz von Dokumentabschnitten entsprechen. Bei einer weiteren Ausführungsform beinhaltet die Identifizierung der nicht kompatiblen Dokumentabschnitte ein Erkennen einer Inhaltsart, die den nicht kompatiblen Dokumentabschnitten entspricht, wobei die Inhaltsart entweder ein Diagramm, eine Tabelle, ein Bild oder eine nicht textgebundene Dokumentart ist. Bei einer weiteren Ausführungsform empfängt der Prozess hörbare Sprache als eine Eingabe von der Bildschirmleser-Anwendung. Die hörbare Spracheingabe wird dann in eine Spracherkennungsanwendung eingegeben, welche die hörbare Sprache in ein textgebundenes NLP-Format konvertiert. Bei einer weiteren Ausführungsform führt der Prozess Dokumentabschnitte, die unter Verwendung der ursprünglichen Dokumentkonvertierungsprogramme konvertiert wurden, und Dokumentabschnitte, die unter Verwendung der Bildschirmleser-Anwendung konvertiert wurden, zusammen, wobei das resultierende zusammengeführte Dokument dieselbe Reihenfolge aufweist wie das ursprüngliche Eingabedokument.
Obwohl es Bildschirmleser-Technologie seit vielen Jahren gibt, bestand die Aufgabe von Bildschirmleser-Anwendungen darin, sehbehinderte Personen beim Verständnis von Informationen zu unterstützen, die ihnen auf einem Anzeigebildschirm angezeigt werden. Bildschirmleser-Anwendungen vermitteln die Informationen, indem sie den auf dem Bildschirm angezeigten Text in eine hörbare Version übertragen, die vom Benutzer nicht gesehen, sondern gehört werden kann. Da es sehbehinderten Benutzern von Bildschirmleser-Technologie schwerfällt, auf Text beruhende Informationen zu lesen, legen Bildschirmleser-Anwendungen den Schwerpunkt darauf, hörbare Ausgaben auszugeben, anstelle die angezeigten Informationen in einem textgebundenen Format auszugeben. Entsprechend stützen sich auch NLP-Anwendungen, die es seit einiger Zeit gibt, in erster Linie darauf, textgebundene Eingaben aufzunehmen und zu verarbeiten, um verschiedene Operationen in Zusammenhang mit natürlicher Sprache durchzuführen. Da sich die seit langem existierenden hörbaren Ausgabeformate von Bildschirmleser-Anwendungen von den textgebundenen Eingaben unterscheiden, die von NLP-Eingabeprozessen häufig benötigt werden, liegt es nicht auf der Hand, diese beiden getrennten Technologien, um Eingaben für NLP-Operationen bereitzustellen, miteinander zu kombinieren, so dass dies vor dem hier beschriebenen Ansatz nicht vorgenommen wurde.
3 ist eine Komponentendarstellung, die verschiedene Komponenten zeigt, mit denen verschiedene Arten von Inhalt für NLP-Aufgaben verfügbar gemacht werden. NLP-Aufgaben 300 beinhalten eine Inhaltsnutzung und/oder Aufnahme von Inhalt durch die NLP-Aufgaben oder -Operationen wie z. B. ein FA-System. Dabei werden von den NLP-Operationen verschiedene Arten eines Inhalts 310 verwendet und/oder aufgenommen. Diese Inhalte können allgemeinen Text, Diagramme, Tabellen, Bilder und zusätzliche Arten von Inhalt in einem nicht textgebundenen Dokument beinhalten.
Eine Inhaltsanalyse-Einheit 350 dient zum Analysieren von Dokumentabschnitten. Dabei kann ein Eingabedokument eine beliebige Anzahl von Dokumentabschnitten enthalten. Bei manchen Arten von Inhalt wie z. B. Dokumentabschnitten, die allgemeinen Text enthalten, wird eine Standardinhaltskonvertierung 360 verwendet, um die Inhalte in ein NLP-Format zu konvertieren. Die standardmäßige Inhaltsleser-Einheit beinhaltet ein oder mehrere ursprüngliche Konvertierungsprogramme, mit denen Inhalte aus diesen Dokumentabschnitten in das NLP-Format konvertiert werden. Der nun in einem NLP-Format vorliegende konvertierte Inhalt wird in einem Datenspeicher 380 gespeichert. Inhalt im NLP-Format kann auch Spezialinhalt wie z. B. Softwarecode enthalten, der in Dokumentabschnitten wie z. B. Tabellen, Diagrammen usw. vorhanden ist und in ein textgebundenes Format konvertiert wird.
Die Inhaltsanalyse-Einheit 350 identifiziert zudem Dokumentabschnitte, die eine Art von Inhalt enthalten, die sich nicht unter Verwendung der ursprünglichen Konvertierungsprogramme konvertieren lässt. Für diese Dokumentabschnitte gibt die Inhaltsanalyse-Einheit Bildschirmansichten der Dokumentabschnitte in eine Bildschirmleser-Anwendung 370 ein, z. B. in eine Bildschirmleser-Anwendung, die zur Unterstützung sehbehinderter Personen gedacht ist. Die Bildschirmleser-Anwendung konvertiert Informationen, die auf dem Anzeigebildschirm angezeigt werden, in ein natürliches Sprachformat. Bei einer Ausführungsform speichert die Bildschirmleser-Anwendung das natürliche Sprachformat in einem textgebundenen Format, das in einem Datenspeicher gespeichert werden kann. Bei einer zweiten Ausführungsform gibt die Bildschirmleser-Anwendung das natürliche Sprachformat als hörbare Sprache aus, die von einem Benutzer gehört und verstanden werden kann. Bei dieser zweiten Ausführungsform dient eine Spracherkennungsanwendung dazu, die hörbare Sprache als eine Eingabe zu empfangen und eine textgebundene Form der Sprache auszugeben, die in einem NLP-Format vorliegt. Das von der Bildschirmleser-Anwendung 370 bereitgestellte NLP-Format wird in dem Datenspeicher 380 gespeichert.
Wenn das Eingabedokument einige Dokumentabschnitte, die mit den ursprünglichen Konvertierungsprogrammen kompatibel sind und mit der Standardinhaltskonvertierung 360 konvertiert werden, sowie andere Dokumentabschnitte enthält, die nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel sind und daher mit der Bildschirmleser-Anwendung 370 konvertiert werden, wird bei einer Ausführungsform ein Zusammenführungsprozess verwendet, um die konvertierten Abschnitte des Dokuments so zusammenzuführen, dass sie in dem NLP-Format 380 in derselben Reihenfolge vorliegen wie in dem ursprünglichen Eingabedokument. Im NLP-Format vorliegender Inhalt, der in dem Datenspeicher 380 gespeichert ist, wird als eine Eingabe für eine NLP-Operation wie z. B. eine Operation 390 für eine Verwendung/Aufnahme von NLP-Inhalt verwendet. Bei der NLP-Operation kann es sich um eine Operation handeln, die durch ein FA-System durchgeführt wird.
4 ist eine Abbildung eines Ablaufplans, der die Logik zeigt, mit der verschiedene Arten von Inhalt für NLP-Aufgaben verfügbar gemacht werden. Die Verarbeitung beginnt in 400, woraufhin der Prozess in Schritt 410 ein Eingabedokument 420 empfängt, bei dem es sich um Inhalt handelt, der eine beliebige Anzahl von Dokumentabschnitten enthalten kann. Die in 4 gezeigte Verarbeitung dient zum Identifizieren von Dokumentabschnitten, die mit ursprünglichen Konvertierungsprogrammen, welche zum Konvertieren von Inhalten in das NLS-Format verwendet werden, kompatibel sind, sowie zum Identifizieren von Dokumentabschnitten, die nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel sind. Das Eingabedokument 420 kann für die Verwendung oder Aufnahme durch ein FA-System vorgesehen sein, um dem Korpus des FA-Systems Inhalt hinzuzufügen.
In Schritt 425 wählt der Prozess den ersten Dokumentabschnitt aus dem Eingabedokument 420 aus. Bei einer Ausführungsform ist ein Dokumentabschnitt ein Abschnitt, der dieselbe Dokumentart aufweist, so dass bei Auftreten einer anderen Dokumentart eine Grenze zwischen beiden Dokumentabschnitten identifiziert wird. Wenn beispielsweise die ersten beiden Seiten eines Dokuments aus Standardtext bestehen, auf den ein Diagramm (z. B. ein Ablaufplan usw.) folgt, werden die ersten beiden Seiten als der erste Dokumentabschnitt und das Diagramm als der zweite Dokumentabschnitt behandelt.
In Schritt 430 identifiziert der Prozess die Art von Inhalt, die in dem ausgewählten Dokumentabschnitt vorhanden ist (z. B. Absatztext, Diagramm, Tabelle, Grafik, Liste, sonstiger nicht textgebundener Inhalt usw.). Der Prozess entscheidet, ob ursprüngliche Konvertierungsprogramme vorhanden sind, um die identifizierte Art von Inhalt, die in dem ausgewählten Dokumentabschnitt festgestellt wurde, in das NLP-Format zu konvertieren (Entscheidung 435). Wenn die Entscheidung 435 ermittelt, dass der ausgewählte Dokumentabschnitt durch ein ursprüngliches Dokumentkonvertierungsprogramm konvertiert werden kann, folgt die Entscheidung 435 der Verzweigung „Ja”, woraufhin in Schritt 440 der ausgewählte Dokumentabschnitt hinzugefügt oder anderweitig als Standardinhalt gekennzeichnet und in einen Datenspeicher 450 aufgenommen wird. Wenn die Entscheidung 435 dagegen ermittelt, dass der ausgewählte Dokumentabschnitt nicht durch ein ursprüngliches Dokumentkonvertierungsprogramm konvertiert werden kann, folgt die Entscheidung 435 der Verzweigung „Nein”, woraufhin in Schritt 460 der ausgewählte Dokumentabschnitt hinzugefügt oder anderweitig als Bildschirmleser-Inhalt gekennzeichnet und in einen Datenspeicher 470 aufgenommen wird, um durch eine Bildschirmleser-Anwendung verarbeitet zu werden. Zusätzlich wird in Schritt 460 die festgestellte Inhaltsart (z. B. die Diagrammart, Bildart, usw.) vermerkt, so dass eine geeignete Bildschirmleser-Anwendung ausgewählt werden kann, falls mehrere Bildschirmleser-Anwendungen vorhanden sind.
Der Prozess entscheidet, ob in dem Eingabedokument weitere zu verarbeitende Dokumentabschnitte vorhanden sind (Entscheidung 480). Wenn weitere Dokumentabschnitte zu verarbeiten sind, folgt die Entscheidung 480 der Verzweigung „Ja”, die zu Schritt 425 zurückschleift, um den nächsten Dokumentabschnitt aus dem Eingabedokument 420 auszuwählen und zu verarbeiten. Dieses Durchlaufen einer Schleife wird so lange fortgesetzt, bis keine weiteren Dokumentabschnitte zu verarbeiten sind, woraufhin die Entscheidung 480 der Verzweigung „Nein” folgt, wonach der Inhalt in einem vordefinierten Prozess 485 verarbeitet und in das NLP-Format konvertiert wird, das in dem Datenspeicher 380 gespeichert wird. Sobald der Inhalt in dem NLP-Format gespeichert wurde (Datenspeicher 380), wird in Schritt 490 eine NLP-Operation durchgeführt, z. B. eine Verwendung des NLP-Formats oder eine Aufnahme der im NLP-Format vorliegenden Inhalte (z. B. durch ein FA-System usw.). Danach endet die Verarbeitung in 495.
5 ist eine Abbildung eines Ablaufplans, der die Logik zeigt, die zum Verarbeiten des Inhalts verwendet wird. Die Inhaltsverarbeitung beginnt in 500, woraufhin der Prozess entscheidet, ob mindestens ein Dokumentabschnitt vorhanden ist, der nicht mit den ursprünglichen Konvertierungsprogrammen des Systems kompatibel ist (Entscheidung 510). Wenn das gesamte Eingabedokument (alle Dokumentabschnitte oder ein einziger Dokumentabschnitt) mit den ursprünglichen Konvertierungsprogrammen konvertiert werden kann, folgt die Entscheidung 510 der Verzweigung „Nein”, woraufhin in Schritt 520 das gesamte Dokument unter Verwendung eines oder mehrerer ursprünglicher Konvertierungsprogramme in das NLP-Format konvertiert wird, wobei die resultierenden im NLP-Format vorliegenden Inhalte in dem Datenspeicher 380 gespeichert werden. Danach kehrt die Verarbeitung in 525 zur aufrufenden Routine zurück (siehe 4).
Wenn in Entscheidung 510 wiederum mindestens ein Abschnitt des Dokuments nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel ist, folgt die Entscheidung 510 der Verzweigung „Nein”, um den Inhalt des Dokuments zu verarbeiten. Der Prozess entscheidet, ob das gesamte Eingabedokument (alle Dokumentabschnitte) unter Verwendung einer Bildschirmleser-Anwendung konvertiert werden soll (Entscheidung 530). Wenn beispielsweise ein Großteil des Dokuments nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel ist, könnte es weniger zeitaufwendig sein, das gesamte Dokument unter Verwendung einer Bildschirmleser-Anwendung zu konvertieren. Wenn das gesamte Dokument unter Verwendung einer Bildschirmleser-Anwendung konvertiert wird, folgt die Entscheidung 530 der Verzweigung „Ja”, woraufhin in einem vordefinierten Prozess 535 das gesamte Dokument unter Verwendung von einer oder mehreren Bildschirmleser-Anwendungen konvertiert wird (Einzelheiten zur Verarbeitung siehe 6 und zugehörige Erläuterungen). Danach kehrt die Verarbeitung in 540 zur aufrufenden Routine zurück (siehe 4). Wenn dagegen einige Dokumentabschnitte unter Verwendung ursprünglicher Konvertierungsprogramme konvertiert werden und andere unter Verwendung einer Bildschirmleser-Anwendung konvertiert werden, folgt die Entscheidung 530 der Verzweigung „Nein” für eine weitere Verarbeitung.
In Schritt 550 wählt der Prozess den ersten Dokumentabschnitt aus, von dem ermittelt wurde, dass er mit einem oder mehreren ursprünglichen Konvertierungsprogrammen kompatibel ist und dass er zuvor in dem Datenspeicher 450 gespeichert war. In Schritt 555 konvertiert der Prozess den ausgewählten Dokumentabschnitt unter Verwendung eines der ursprünglichen Konvertierungsprogramme in das NLP-Format. In Schritt 560 speichert der Prozess den nun in dem NLP-Format vorliegenden konvertierten Dokumentabschnitt in einem Datenspeicher 451 für konvertierten Inhalt. Der Prozess entscheidet, ob es weiteren Inhalt gibt, der unter Verwendung der ursprünglichen Konvertierungsprogramme konvertiert werden soll (Entscheidung 565). Wenn es weitere Abschnitte gibt, die unter Verwendung der ursprünglichen Konvertierungsprogramme konvertiert werden sollen, folgt die Entscheidung 565 der Verzweigung „Ja”, die zurückschleift, um den nächsten Dokumentabschnitt aus dem Datenspeicher 450 wie oben beschrieben auszuwählen und zu konvertieren. Dieses Durchlaufen einer Schleife wird so lange fortgesetzt, bis alle Dokumentabschnitte aus dem Datenspeicher 450 verarbeitet wurden, woraufhin die Entscheidung 565 der Verzweigung „Nein” folgt, um die Dokumentabschnitte zu verarbeiten, die nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel sind.
In Schritt 570 wählt der Prozess den ersten Dokumentenabschnitt aus, von dem ermittelt wurde, dass er nicht mit den ursprünglichen Konvertierungsprogrammen kompatibel ist und dass er zuvor in dem Datenspeicher 470 gespeichert war. In einem vordefinierten Prozess 575 konvertiert der Prozess den ausgewählten Dokumentabschnitt unter Verwendung einer Bildschirmleser-Anwendung in das NLP-Format (Einzelheiten zur Verarbeitung siehe 6 und zugehörige Erläuterungen). In Schritt 580 speichert der Prozess den nun in dem NLP-Format vorliegenden konvertierten Dokumentabschnitt in einem Datenspeicher 471 für konvertierten Inhalt. Der Prozess entscheidet, ob es weiteren Inhalt gibt, der unter Verwendung einer Bildschirmleser-Anwendung konvertiert werden soll (Entscheidung 585). Wenn es weitere Abschnitte gibt, die unter Verwendung einer Bildschirmleser-Anwendung konvertiert werden sollen, folgt die Entscheidung 585 der Verzweigung „Ja”, die zurückschleift, um den nächsten Dokumentabschnitt aus dem Datenspeicher 470 wie oben beschrieben auszuwählen und zu konvertieren. Dieses Durchlaufen einer Schleife wird so lange fortgesetzt, bis alle Dokumentabschnitte aus dem Datenspeicher 470 verarbeitet wurden, woraufhin die Entscheidung 585 der Verzweigung „Nein” folgt. In Schritt 590 führt der Prozess die unter Verwendung der ursprünglichen Konvertierungsprogramme konvertierten (und in dem Datenspeicher 451 gespeicherten) Dokumentabschnitte mit den (in dem Datenspeicher 471 gespeicherten) Dokumentabschnitten zusammen, die unter Verwendung einer Bildschirmleser-Anwendung konvertiert wurden. Die resultierende zusammengeführte Ausgabe im NLP-Format weist Dokumentabschnitte auf, die in derselben Reihenfolge vorliegen wie das ursprüngliche Eingabedokument. Die resultierende zusammengeführte Ausgabe im NLP-Format wird in dem Datenspeicher 380 gespeichert. Danach kehrt die Verarbeitung in 595 zu der aufrufenden Routine zurück (siehe 4).
6 ist eine Abbildung eines Ablaufplans, der die von dem Prozess durchgeführte Logik zeigt, die einen Bildschirmleser verwendet, um einen Abschnitt eines Dokuments in eine konvertierte, für NLP-Aufgaben geeignete Form umzuwandeln. Die Bildschirmleser-Verarbeitung beginnt in 600, woraufhin der Prozess in Schritt 605 einen Dokumentabschnitt und die Inhaltsart des ausgewählten Abschnitts auswählt (z. B. Diagramm, Tabelle, Bild, andere nicht textgebundene Dokumentart usw.). Der Prozess entscheidet, ob es mehrere Bildschirmleser-Anwendungen gibt, die für ein Konvertieren des ausgewählten im NLP-Format vorliegenden Inhalts verfügbar sind (Entscheidung 610). Wenn mehrere Bildschirmleser verfügbar sind, folgt die Entscheidung 610 der Verzweigung „Ja”, um die beste (bevorzugte) Bildschirmleser-Anwendung auszuwählen, die beim Konvertieren des ausgewählten Dokumentabschnitts verwendet werden soll. Dabei kann eine bestimmte Bildschirmleser-Anwendung zwar besonders geeignet sein, um eine bestimmte Art von Inhalt wie z. B. Diagramme zu verarbeiten, gleichzeitig jedoch untauglich sein, um eine andere Art von Inhalt wie z. B. Tabellen zu verarbeiten. Umgekehrt kann eine andere Bildschirmleser-Anwendung für ein Verarbeiten von Tabellen geeignet, für ein Verarbeiten von Diagrammen jedoch untauglich sein.
In Schritt 615 initialisiert der Prozess die bevorzugte Bildschirmleser-Anwendung mit dem Anfangswert „None” (kein Wert) und speichert den Anfangswert in einem Arbeitsspeicherbereich 618. In Schritt 620 wählt der Prozess die erste verfügbare Bildschirmleser-Anwendung aus einem Datenspeicher 625 aus. In Schritt 630 ruft der Prozess Bildschirmleser-Metadaten aus einem Datenspeicher 635 ab. Die Bildschirmleser-Metadaten enthalten Daten zu der ausgewählten Bildschirmleser-Anwendung, wobei die Metadaten die Funktionen (z. B. Beurteilungswerte usw.) der ausgewählten Bildschirmleser-Anwendung beim Konvertieren verschiedener Arten von Dokumentinhalt enthalten. Der Prozess entscheidet, ob die ausgewählte Bildschirmleser-Anwendung besser als die momentan bevorzugte Bildschirmleser-Anwendung ist (Entscheidung 640). Da die bevorzugte Bildschirmleser-Anwendung den Anfangswert „None” erhalten hat, wird die erste ausgewählte Bildschirmleser-Anwendung als besser erachtet und ersetzt den Anfangswert. Bei der Beurteilung von nachfolgenden Bildschirmleser-Anwendungen werden die Funktionen der ausgewählten Bildschirmleser-Anwendung mit den Funktionen der momentan besten (bevorzugten) Bildschirmleser-Anwendung für ein Konvertieren des in dem ausgewählten Dokumentabschnitt enthaltenen Dokumentinhalts verglichen. Wenn die ausgewählte Bildschirmleser-Anwendung beim Konvertieren des in dem ausgewählten Dokumentabschnitt enthaltenen Dokumentinhalts besser abschneidet als die momentan beste (bevorzugte) Bildschirmleser-Anwendung, folgt die Entscheidung 640 der Verzweigung „Ja”, woraufhin in Schritt 645 die momentan bevorzugte Bildschirmleser-Anwendung in dem Arbeitsspeicherbereich 618 durch die ausgewählte Bildschirmleser-Anwendung ersetzt wird. Wenn dagegen die ausgewählte Bildschirmleser-Anwendung beim Konvertieren des in dem ausgewählten Dokumentabschnitt enthaltenen Dokumentinhalts nicht besser abschneidet als die momentan beste (bevorzugte) Bildschirmleser-Anwendung, folgt die Entscheidung 640 der Verzweigung „Nein” und übergeht dabei Schritt 645. Der Prozess entscheidet, ob weitere Bildschirmleser-Anwendungen zu verarbeiten sind (Entscheidung 650). Wenn weitere Bildschirmleser-Anwendungen zu verarbeiten sind, folgt die Entscheidung 650 der Verzweigung „Ja”, die zurückschleift, um die nächste Bildschirmleser-Anwendung auszuwählen und sie wie oben beschrieben zu beurteilen bzw. mit der momentan bevorzugten Bildschirmleser-Anwendung zu vergleichen. Dieses Durchlaufen einer Schleife wird so lange fortgesetzt, bis alle Bildschirmleser-Anwendungen beurteilt und verglichen wurden, woraufhin die Entscheidung 650 der Verzweigung „Nein” folgt und in Schritt 655 der bevorzugte Bildschirmleser zum Konvertieren dieser Art von Inhalt aus dem Arbeitsspeicherbereich 618 ausgewählt wird.
Wenn in Entscheidung 610 wiederum nicht mehrere Bildschirmleser-Anwendungen verfügbar sind, folgt die Entscheidung 610 der Verzweigung „Nein”, woraufhin der Prozess in Schritt 660 die einzige verfügbare Bildschirmleser-Anwendung auswählt, die für ein Konvertieren des Dokumentabschnitts verfügbar ist. Nachdem eine Bildschirmleser-Anwendung ausgewählt wurde, entweder durch Identifizieren der bevorzugten Bildschirmleser-Anwendung, falls mehrere Leser vorhanden sind, oder durch Auswählen der einzigen verfügbaren Bildschirmleser-Anwendung, entscheidet der Prozess, ob die ausgewählte Bildschirmleser-Anwendung ein Ausgeben der Ergebnisse der Bildschirmleser-Anwendung in ein Textdokument unterstützt (Entscheidung 665). Wenn die ausgewählte Bildschirmleser-Anwendung ein Ausgeben der Ergebnisse der Bildschirmleser-Anwendung in ein Textdokument unterstützt, folgt die Entscheidung 665 der Verzweigung „Ja”, woraufhin der Prozess in Schritt 670 die Inhalte des ausgewählten Dokumentabschnitts dem Bildschirmleser bereitstellt, um sie zu verarbeiten und in einer Ausgabedatei (Datenspeicher 450) zu speichern. Bei einer Ausführungsform wird der Bildschirmleser-Anwendung der Dokumentabschnitt bereitgestellt, indem am Anfang des Dokumentabschnitts eine erste Bildschirmanzeige des Dokumentabschnitts angezeigt wird und die Bildschirmleser-Anwendung den auf dem Anzeigebildschirm angezeigten Inhalt verarbeitet. Eine Bildschirmansicht ist der Teil des Dokumentabschnitts, der momentan auf einer Anzeigeeinheit angezeigt wird. Wenn weiterer Inhalt aus dem Dokumentabschnitt zu verarbeiten ist, führt der Prozess einen Bildlauf nach unten durch, so dass der nächste Teil des Dokumentabschnitts in einer zweiten Bildschirmansicht sichtbar ist, und die Bildschirmleser-Anwendung verarbeitet die nächste angezeigte Bildschirmansicht. Dies wird so lange fortgesetzt, bis der gesamte Dokumentabschnitt in einer Abfolge von Bildschirmansichten angezeigt wurde, wobei jede Bildschirmansicht durch die Bildschirmleser-Anwendung verarbeitet wird und die von der Bildschirmleser-Anwendung hervorgebrachten Inhalte im NLP-Format in dem Datenspeicher 450 gespeichert (diesem hinzugefügt) werden. Nachdem in Schritt 670 der gesamte Dokumentabschnitt verarbeitet wurde, kehrt die Verarbeitung in 675 zu der aufrufenden Routine zurück (siehe 5).
Wenn in Entscheidung 665 wiederum die ausgewählte Bildschirmleser-Anwendung ein Ausgeben von Ergebnissen in einer Ausgabedatei nicht unterstützt, da viele Bildschirmleser-Anwendungen so konzipiert sind, dass sie hörbare Sprache für sehbehinderte Benutzer bereitstellen, folgt die Entscheidung 665 der Verzweigung „Nein”, um den Dokumentabschnitt unter Verwendung der ausgewählten Bildschirmleser-Anwendung und von Spracherkennungssoftware zu verarbeiten. In Schritt 680 initialisiert der Prozess die Spracherkennungssoftware, die verwendet wird, um eine Spracherkennung für die hörbare Ausgabe der Bildschirmleser-Anwendung durchzuführen. Bei einer Ausführungsform wird der Bildschirmleser-Anwendung der Dokumentabschnitt bereitgestellt, indem am Anfang des Dokumentabschnitts eine erste Bildschirmanzeige des Dokumentabschnitts angezeigt wird und die Bildschirmleser-Anwendung den auf dem Anzeigebildschirm angezeigten Inhalt verarbeitet. Die Verarbeitung der angezeigten Bildschirmansicht führt dazu, dass die Bildschirmansicht des Dokumentabschnitts in hörbarer Sprache vorliegt. Anschließend konvertiert die Spracherkennungssoftware die hörbare Sprache in Text und speichert den Text in einem temporären Dokument. Wenn weiterer Inhalt aus dem Dokumentabschnitt zu verarbeiten ist, führt der Prozess einen Bildlauf nach unten durch, so dass der nächste Teil des Dokumentabschnitts in einer zweiten Bildschirmansicht sichtbar ist, und die Bildschirmleser-Anwendung verarbeitet die nächste angezeigte Bildschirmansicht, wobei die zweite Bildschirmansicht durch die Bildschirmleser-Anwendung als hörbare Sprache ausgegeben wird, die wiederum durch die Spracherkennungssoftware in Text konvertiert und in dem temporären Dokument gespeichert wird. Dies wird so lange fortgesetzt, bis der gesamte Dokumentabschnitt in einer Abfolge von Bildschirmansichten angezeigt wurde, wobei jede Bildschirmansicht durch die Bildschirmleser-Anwendung unter Hervorbringung einer hörbaren Sprachausgabe verarbeitet wird, und bis die Spracherkennungssoftware die gesamte hörbare Sprachausgabe in Text konvertiert hat, der in dem temporären Textdokument gespeichert wird. Wenn der gesamte Dokumentabschnitt durch die Bildschirmleser-Anwendung und die Spracherkennungssoftware verarbeitet wurde, liegt der Dokumentabschnitt als Inhalte im NLP-Format vor, die in einem temporären Textdokument gespeichert sind. In Schritt 690 speichert der Prozess die Daten aus dem temporären Dokument in dem Datenspeicher 450. Danach kehrt die Verarbeitung in 695 zu der aufrufenden Routine zurück (siehe 5).
Der Ablaufplan und die Blockschaubilder in den Figuren veranschaulichen die Architektur, Funktionalität und den Betrieb möglicher Realisierungen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. Somit kann jeder Block der Ablaufpläne oder Blockschaubilder ein Modul, Segment oder einen Code-Teil darstellen, der einen oder mehrere ausführbare Befehle aufweist, mit denen sich die eine oder mehreren angegebenen logischen Funktionen realisieren lassen. Zu beachten ist ferner, dass bei manchen alternativen Ausführungsformen die in dem Block erwähnten Funktionen in einer anderen Reihenfolge als der in den Figuren genannten auftreten können. So können zwei aufeinanderfolgend dargestellte Blöcke tatsächlich im Wesentlichen gleichzeitig stattfinden, oder die Blöcke können mitunter in umgekehrter Reihenfolge ausgeführt werden, wobei dies abhängig von der betreffenden Funktionalität ist. Ebenfalls erwähnenswert ist, dass jeder Block der Blockschaubilder und/oder der Ablaufplan-Darstellung sowie Kombinationen von Blöcken in den Blockschaubildern und/oder der Ablaufplan-Darstellung durch Spezialsysteme auf der Grundlage von Hardware, welche die angegebenen Funktionen oder Handlungen oder Kombinationen hiervon ausführen, oder durch Kombinationen von Spezial-Hardware- und Computerbefehlen realisiert werden kann/können.
Obwohl bestimmte Ausführungsformen der vorliegenden Erfindung gezeigt und beschrieben wurden, dürfte dem Fachmann klar sein, dass auf der Grundlage der hier dargelegten Lehren Änderungen und Abwandlungen vorgenommen werden können, ohne von dieser Erfindung und ihren weiter gefassten Aspekten abzuweichen. Daher soll der inhaltliche Umfang der beigefügten Ansprüche alle derartigen Änderungen und Abwandlungen umfassen, die innerhalb des tatsächlichen gedanklichen Wesensgehalts und inhaltlichen Umfangs dieser Erfindung liegen. Darüber hinaus sollte klar sein, dass die Erfindung allein durch die beigefügten Ansprüche definiert wird. Der Fachmann weiß, dass, wenn eine bestimmte Ziffer eines eingeführten Anspruchselements beabsichtigt wird, eine derartige Absicht in dem Anspruch ausdrücklich geltend gemacht wird, und dass in Abwesenheit einer solchen Geltendmachung keine derartige Beschränkung vorliegt. Als nicht einschränkendes Beispiel und als Verständnishilfe enthalten die im Folgenden beigefügten Ansprüchen einführende Formulierungen wie „mindestens ein/eine” und „ein/eine oder mehrere”, um Anspruchselemente einzuführen. Allerdings sind derartige Formulierungen nicht so zu verstehen, als beschränkte die Einführung eines Anspruchselements durch die unbestimmten Artikel „ein/eine/eines” ein wie auch immer geartetes bestimmtes Element, selbst wenn derselbe Anspruch die einführenden Formulierungen „ein/eine oder mehrere” oder „mindestens ein/eine” und unbestimmte Artikel wie „ein/eine” enthält; dies gilt gleichermaßen für die Verwendung von bestimmten Artikeln in den Ansprüchen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

IEEE.802.11-Standards [0030]

Claims

Verfahren in einem Datenverarbeitungssystem, das einen Prozessor und einen Arbeitsspeicher aufweist, zum Verfügbarmachen von Inhalt für Aufgaben zur Verarbeitung von natürlicher Sprache (Natural Language Processing, NLP), wobei das Verfahren aufweist: Eingeben einer Bildschirmansicht eines Dokumentabschnitts in eine Bildschirmleser-Anwendung, um Daten, die auf dem Bildschirm angezeigt werden, in ein natürliches Sprachformat zu konvertieren; und Durchführen einer NLP-Operation für das natürliche Sprachformat.
Verfahren nach Anspruch 1, wobei die NLP-Operation durch ein Frage- und Antwortsystem durchgeführt wird.
Verfahren nach Anspruch 1, des Weiteren aufweisend: vor dem Eingeben: Empfangen eines Dokuments, das den Dokumentabschnitt enthält; Identifizieren, dass der Dokumentabschnitt mit einem oder mehreren ursprünglichen Dateikonvertierungsprogrammen, die zum Konvertieren von Dokumentinhalten in das NLP-Format verwendet werden, nicht kompatibel ist.
Verfahren nach Anspruch 1, des Weiteren aufweisend: Empfangen eines Eingabedokuments, das eine Vielzahl von Dokumentabschnitten, unter anderem den eingegebenen Dokumentabschnitt, enthält; Identifizieren eines ersten Satzes von Dokumentabschnitten aus der Vielzahl von Dokumentabschnitten, die mit einem oder mehreren ursprünglichen Konvertierungsprogrammen, die zum Konvertieren von Dokumentinhalten in das NLP-Format verwendet werden, kompatibel sind; Konvertieren des ersten Satzes von Dokumentabschnitten in das NLP-Format unter Verwendung des einen oder der mehreren ursprünglichen Konvertierungsprogramme; Identifizieren eines zweiten Satzes von Dokumentabschnitten aus der Vielzahl von Dokumentabschnitten, die mit dem einen oder den mehreren ursprünglichen Konvertierungsprogrammen nicht kompatibel sind, wobei der zweite Satz von Dokumentabschnitten den eingegebenen Dokumentabschnitt beinhaltet; und Konvertieren des zweiten Satzes von Dokumentabschnitten in das NLP-Format, indem eine oder mehrere Bildschirmansichten, die jeweils dem zweiten Satz von Dokumentabschnitten entsprechen, in die Bildschirmleser-Anwendung eingegeben werden.
Verfahren nach Anspruch 4, wobei das Identifizieren eines ausgewählten Abschnitts aus dem zweiten Satz von Dokumentabschnitten des Weiteren aufweist: Erkennen einer Inhaltsart, die dem ausgewählten Abschnitt aus dem zweiten Satz von Dokumentabschnitten entspricht, wobei die ausgewählte Inhaltsart aus einer Gruppe ausgewählt wird, die aus einem Diagramm, einer Tabelle, einem Bild und einer nicht textgebundenen Dokumentart besteht.
Verfahren nach Anspruch 4, des Weiteren aufweisend: Empfangen einer hörbaren Spracheingabe von der Bildschirmleser-Anwendung während einer Konvertierung des zweiten Satzes von Dokumentabschnitten in das NLP-Format, wobei das NLP-Format ein hörbares NLP-Format ist; und Eingeben der hörbaren Spracheingabe in eine Spracherkennungsanwendung, die das hörbare NLP-Format in ein textgebundenes NLP-Format konvertiert.
Verfahren nach Anspruch 4, des Weiteren aufweisend: Zusammenführen des konvertierten ersten Satzes von Dokumentabschnitten und des konvertierten zweiten Satzes von Dokumentabschnitten in eine Ausgabedatei mit natürlicher Sprache, wobei eine Zusammenführungsreihenfolge des ersten und zweiten Satzes von konvertierten Dokumentabschnitten in der Ausgabedatei mit natürlicher Sprache mit einer ursprünglichen Reihenfolge der Vielzahl von Dokumentabschnitten übereinstimmt, die in dem Eingabedokument gegeben ist.
Datenverarbeitungssystem, aufweisend: einen oder mehrere Prozessoren; einen Arbeitsspeicher, der mit mindestens einem der Prozessoren verbunden ist; eine Anzeige; und einen Satz von Befehlen, die in dem Arbeitsspeicher gespeichert sind und durch mindestens einen der Prozessoren ausgeführt werden, um Inhalt für NLP-Aufgaben verfügbar zu machen, wobei der Satz von Befehlen folgende Aktionen durchführt: Eingeben einer Bildschirmansicht eines Dokumentabschnitts in eine Bildschirmleser-Anwendung, um Daten, die auf dem Bildschirm angezeigt werden, in ein natürliches Sprachformat zu konvertieren; und Durchführen einer NLP-Operation für das natürliche Sprachformat.
Computerprogrammprodukt, das in einem computerlesbaren Speichermedium gespeichert ist, welches Computerbefehle aufweist, die bei Ausführung durch ein Datenverarbeitungssystem das Datenverarbeitungssystem veranlassen, Inhalt für NLP-Aufgaben verfügbar zu machen, indem Aktionen durchgeführt werden, die aufweisen: Eingeben einer Bildschirmansicht eines Dokumentabschnitts in eine Bildschirmleser-Anwendung, um Daten, die auf dem Bildschirm angezeigt werden, in ein natürliches Sprachformat zu konvertieren; und Durchführen einer NLP-Operation für das natürliche Sprachformat.