DE202010018551U1

DE202010018551U1 - Automatische Bereitstellung von Inhalten, die mit erfassten Informationen, wie etwa in Echtzeit erfassten Informationen, verknüpft sind

Info

Publication number: DE202010018551U1
Application number: DE202010018551.3U
Authority: DE
Original assignee: Google LLC
Current assignee: Google LLC
Priority date: 2009-03-12
Filing date: 2010-03-12
Publication date: 2017-08-24
Anticipated expiration: 2020-03-13
Also published as: CN102349087A; WO2010105246A3; WO2010105246A2; WO2010105244A2; WO2010105245A2; WO2010105245A3; US20110043652A1; CN102349087B; EP2406767A2; US8990235B2; WO2010105244A3; EP2406767A4

Abstract

Computerlesbares Medium, dessen Inhalte ein oder mehrere erste Computervorrichtungen, die jeweils einen Prozessor und einen Speicher beinhalten, veranlassen, relevante Informationen bereitzustellen, wobei die Inhalte Folgendes umfassen: die wiederholte automatische Ausführung von folgenden Aktionen durch mindestens eine der einen oder mehreren ersten Computervorrichtungen, während vom Benutzer bereitgestellter Text empfangen wird: Überwachen (510) des empfangenen Textes; Auswählen (515) von einem Teil des Textes; Erstellen (520) einer Abfrage basierend auf mindestens einem Teil des ausgewählten Teils des Textes; Auswählen (525) von mindestens einem Index für die Suche; Übermitteln (530), ohne spezifische Aufforderung zur Übermittlung durch den Benutzer, der Abfrage an mindestens eine von einer oder mehreren zweiten Computervorrichtungen, die basierend auf mindestens einem Teil des ausgewählten Index ausgewählt wurden; Empfangen (535) von Informationen, die relevant für die Abfrage sind, von mindestens einer der einen oder mehreren zweiten Computervorrichtungen; und Anzeigen (540) der relevanten Informationen durch mindestens eine der einen oder mehreren ersten Computervorrichtungen.

Description

QUERVERWEIS AUF VERWANDTE ANMELDUNGEN
Diese Anmeldung beansprucht Priorität gegenüber der vorläufigen US-Patentanmeldung Nr. 61/159,757, eingereicht am 12. März 2009, mit dem Titel DOCUMENT INTERACTION SYSTEM AND METHOD, der vorläufigen US-Patentanmeldung Nr. 61/184,273, eingereicht am 4. Juni 2009, mit dem Titel DOCUMENT INTERACTION, SUCH AS INTERACTION USING A MOBILE DEVICE, der vorläufigen US-Patentanmeldung Nr. 61/301,576, eingereicht am 4. Februar 2010, mit dem Titel PROVIDING ADDITIONAL INFORMATION BASED ON CONTENT OF AUDIO DATA, SUCH AS RELEVANT INFORMATION REGARDING TOPICS RAISED IN A LIVE AUDIO STREAM, und der vorläufigen US-Patentanmeldung Nr. 61/301,572, eingereicht am 4. Februar 2010, mit dem Titel PROVIDING RELEVANT INFORMATION, die hiermit alle unter Bezugnahme in ihrer Gesamtheit aufgenommen sind.
Zu schützen und Gegenstand des Gebrauchsmusters sind, gemäß den Anforderungen des Gebrauchsmustergesetzes, ausschließlich Vorrichtungen, wie sie in den beigefügten Patentansprüchen definiert sind, jedoch keine Verfahren. Sollte in der Beschreibung Bezug auf Verfahren genommen werden, dienen diese Bezüge lediglich dazu, die Vorrichtung oder die Vorrichtungen, für welche mit den beigefügten Ansprüchen Schutz beantragt wird, zu veranschaulichen.
ALLGEMEINER STAND DER TECHNIK
Personen erhalten fortlaufend Informationen, die möglicherweise von Interesse für sie sind. Informationen werden in vielen Formen dargestellt, von Papierdokumenten (Zeitungen, Bücher, Zeitschriften und so weiter) bis hin zu anderen Gegenständen in der Umgebung (Schilder, Werbetafeln, Bildschirme und so weiter). Häufig werden Informationen zumindest teilweise mittels Text präsentiert, entweder gedruckt in einem Dokument, angezeigt durch ein Objekt, präsentiert in einem Audio- oder Videostream und so weiter.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1A ist ein Datenflussdiagramm, das den Informationsfluss in einigen Ausführungsformen des Systems darstellt.
1B ist ein Datenflussdiagramm, das den Informationsfluss in einigen Ausführungsformen des Systems darstellt.
2 ist ein Komponentendiagramm der in einer typischen Implementierung des Systems im Rahmen einer typischen Betriebsumgebung enthaltenen Komponenten.
3 ist ein Blockdiagramm, das eine geeignete Erfassungsvorrichtung zur Verwendung mit dem System veranschaulicht.
4 ist ein Anzeigediagramm, das eine beispielhafte Anzeige zeigt, die von einem System zur Bereitstellung relevanter Informationen im Zusammenhang mit der Anzeige der relevanten Informationen präsentiert wird.
5 ist ein Flussdiagramm, das eine Routine zur Bereitstellung von Informationen veranschaulicht, die relevant für den empfangenen Text sind.
6 ist ein Datenstrukturdiagramm, das eine Datenstruktur zeigt, die von dem System in Verbindung mit der Speicherung von Daten, die von dem System verwendet werden, genutzt wird.
7 ist ein Blockdiagramm, das eine Umgebung zeigt, in der das System betrieben wird.
8 ist ein Flussdiagramm, das eine Routine zur automatischen Präsentation von Informationen veranschaulicht, die aus einem wiedergegebenen Dokument erfasst wurden.
9 ist ein Flussdiagramm, das eine Routine zur Bestimmung der Inhaltsquellen veranschaulicht, die mit einem identifizierten wiedergegebenen Dokument verknüpft sind.
10 ist ein Blockdiagramm von Komponenten oder Modulen zur Interaktion mit audiobasierten Informationen.
11 ist ein Flussdiagramm, das ein Beispiel einer Aktion veranschaulicht, die basierend auf dem Inhalt des empfangenen Audio durchgeführt werden soll.
12 ist ein Flussdiagramm, das ein Beispiel einer Subroutine für eine Aktion veranschaulicht, und zwar für eine Aktion zur Identifizierung von Begriffen in empfangenem Audio und zur Bereitstellung einer Ausgabe basierend auf diesen Begriffen.
13 ist ein schematisches Diagramm, das eine Benutzeroberfläche zur Anzeige von visuellen Inhalten, die mit Audioinhalten verknüpft sind, die innerhalb eines 30-minütigen Zeitraums empfangen wurden, veranschaulicht.
BESCHREIBUNG
Überblick
Die Erfinder haben erkannt, dass es nützlich wäre, nach Informationen, Inhalten und/oder durchzuführenden Aktionen zu suchen, diese zu empfangen und/oder anzuzeigen, wenn Texte oder Informationen bereitgestellt, erzeugt, erstellt und/oder zu anderen Zwecken übertragen werden, wie beispielsweise zum Zwecke der Erstellung von Dokumenten oder Präsentation von Informationen.
In einigen Beispielen wird das Erfassen von Informationen und das Präsentieren von Inhalten, die mit den erfassten Informationen verknüpft sind, beschrieben. Das System stellt automatisch relevante Informationen in Reaktion auf von einem Benutzer bereitgestellten Text bereit, der vom System überwacht werden kann, wie beispielsweise vom Benutzer eingegebener Text. Das System überwacht den bereitgestellten Text und wählt automatisch einen Teil des Textes aus, wie beispielsweise einen Betreff, ein Objekt, ein Verb eines Satzes, einen Abschnitt oder eine zufällige oder gesammelte Gruppe von Wörtern usw. Das System erzeugt auf Basis des ausgewählten Teils des Textes eine Abfrage, wählt einen Index aus, der unter Verwendung der Abfrage durchsucht werden soll, überträgt die Abfrage an den ausgewählten Index und empfängt Suchergebnisse, die für die Abfrage relevant sind. Das System zeigt mindestens eines der Suchergebnisse an, sodass der Benutzer die Informationen ansehen kann, die für den vom Benutzer bereitgestellten Text relevant sind.
In einigen Beispielen wird das Erfassen von Informationen und das Zuordnen der erfassten Informationen zu zahlreichen Inhaltsquellen beschrieben. Das System identifiziert ein wiedergegebenes Dokument basierend auf den aus dem Dokument erfassten Informationen und nutzt das Dokument als Zugangspunkt zu einem oder mehreren Kanälen mit zugehörigem Inhalt. Das System identifiziert Inhaltsquellen und stellt Informationen im Zusammenhang mit Inhaltsquellen zusammen mit den erfassten Informationen bereit.
In einigen Beispielen stellt das System Informationen bereit, die im Zusammenhang mit Inhalten stehen, die aus einem empfangenen Audiosignal extrahiert wurden. Das System empfängt ein Live-Audiosignal, z. B. von einem Lautsprecher eines Radios oder einem Live-Gespräch, das im Rahmen eines Telefongesprächs oder an einem gemeinsam genutzten physischen Ort stattfindet, erfasst Informationen aus dem Audiosignal und führt eine Aktion im Zusammenhang mit den erfassten Informationen durch. Bei der durchzuführenden Aktion kann es sich beispielsweise um die Identifizierung von Suchbegriffen und die Durchführung einer Abfrage oder Suche auf Basis dieser Begriffe handeln. Anschließend empfängt das System Informationen, die mit den Audioinhalten in Zusammenhang stehen bzw. verknüpft sind, und gibt diese an den Benutzer aus, etwa indem es diese an ein Mobilgerät oder eine separate Anzeigevorrichtung ausgibt, um sie dem Benutzer anzuzeigen.
Beispielszenarien
Die folgenden Szenarien stellen mögliche Anwendungen der offenbarten Technologie dar. Durchschnittsfachleute werden erkennen, dass diese Szenarien bereitgestellt sind, um zu lehren, wie die offenbarte Technologie implementiert sein kann, und dass die offenbarte Technologie auf andere Szenarien anwendbar ist, die hierin nicht explizit beschrieben sind.
Eine Person schreibt einen Artikel über die Weltmeisterschaft 2010 und beendet einen Absatz über das Gastgeberland Südafrika. Das System, das in dem vom Schreiber verwendeten Textverarbeitungsprogramm integrierte ist, aktualisiert fortlaufend Links zu Informationen, die in einem Seitenbereich des Verarbeitungsprogramms angezeigt werden, während der Schreiber den Absatz zu Ende schreibt. Sowie die Person mit der Eingabe des Satzes „Als Gastgeberland musste sich Südafrika ...” beginnt, zeigt das System Links zu verschiedenen Seiten an, die Informationen über Südafrika beinhalten. Wenn die Person mit der Eingabe des nächsten Satzteils „... nicht qualifizieren, und die Spieler sind daher erpicht darauf, ...” fortfährt, zeigt das System Links zu den Biografien und Statistiken der verschiedenen Spieler an. Wenn die Person den Satz beendet mit „... mit dem Training zu beginnen und zu einer starken Einheit zusammenzuwachsen.”, verlinkt das System weitere Artikel, die die Herausforderungen beschreiben, vor denen die Gastgeberländer vorheriger Weltmeisterschaften standen.
Eine Kuratorin liest einen Zeitschriftenartikel über die Ausstellung Whitney Biennial und ist daran interessiert, mehr darüber zu erfahren. Die Kuratorin erfasst einen Teil des Textes von dem Artikel mit ihrem Smartphone, z. B. in dem sie ein Bild von dem Textteil aufnimmt. In Reaktion auf die Aufnahme identifiziert das System den Artikel, identifiziert ein Tag „whitney biennial” für den Artikel und ermittelt, dass der Artikel mit drei verschiedenen Twitter-Feeds von prominenten Kunstkritikern verknüpft ist, die ähnliche Tags aufweisen. Das System präsentiert Hinweise auf die Twitter-Feeds über die Anzeige des Smartphones und präsentiert einen der Feeds, sobald es eine Auswahl vom Benutzer für den Feed empfängt.
Ein Student befindet sich in einer Vorlesung zur amerikanischen Geschichte Ende der 1700er-Jahre. Der Student zeichnet die Vorlesung mithilfe seines Mobiltelefons auf und erlaubt dem System, Inhalte zu identifizieren und abzurufen, die möglicherweise im Zusammenhang mit dem stehen, was in der Vorlesung erzählt wird. Während sich der Student auf die Vorlesung konzentriert, macht das System für ihn Notizen, wobei es in der Vorlesung zitierte Passagen, Biografien zu in der Vorlesung erwähnten Personen usw. aufzeichnet und abruft. So identifiziert das System beispielsweise während eines Teils der Vorlesung, in dem die relative Größe und Einwohnerzahl von Philadelphia und New York City im Jahr 1789 behandelt werden, elektronische Versionen von Karten und Diagrammen, die ähnliche Informationen beinhalten, und ruft diese für den Studenten ab. Der Student kann die automatisch erzeugten Inhalte auch als einen Index bei der Wiedergabe der Audiodatei der Vorlesung verwenden.
Natürlich sind auch andere Szenarien als die mit den hierin beschriebenen Verfahren und Techniken im Zusammenhang stehenden Szenarien möglich.
Es werden nun verschiedene Ausführungsformen des Systems beschrieben. Die folgende Beschreibung liefert spezifische Details für ein gründliches Verständnis und ermöglicht die Beschreibung dieser Ausführungsformen. Fachleute werden jedoch verstehen, dass das System auch ohne viele dieser Details umgesetzt werden kann. Zudem können einige allgemein bekannte Strukturen oder Funktionen nicht im Detail gezeigt oder beschrieben sein, um eine unnötige Verschleierung der relevanten Beschreibung der verschiedenen Ausführungsformen zu vermeiden.
Die Terminologie, die in der nachfolgend präsentierten Beschreibung verwendet wird, sollte in einer möglichst umfassenden angemessenen Weise interpretiert werden, auch wenn sie in Verbindung mit einer detaillierten Beschreibung bestimmter Ausführungsformen der Erfindung verwendet wird. Auch können nachstehend bestimmte Begriffe hervorgehoben sein; jedoch wird jegliche Terminologie, die in beliebiger einschränkender Weise interpretiert werden soll, in diesem detaillierten Beschreibungsabschnitt offenkundig und spezifisch als solche definiert.
TEIL I – EINFÜHRUNG
1. Das System und seine Benutzer
Personen konsumieren Informationen von wiedergegebenen (gedruckten und angezeigten) Medien visuell, einschließlich Informationen, die in Texten, Bildern, Videos und anderen Formen präsentiert werden. Personen lesen beispielsweise Zeitungen, Zeitschriften, Bücher, Blogs, Textnachrichten, Werbetafeln, Kassenzettel, Notizen und so weiter; betrachten Fotos, Bilder, Objekte, Werbeanzeigen und so weiter; und schauen sich Filme, Videos, Vorführungen, andere Personen und so weiter an. Ebenso konsumieren Personen Informationen auf akustische Weise von vielen Quellen, wie beispielsweise einem Radio oder Fernseher. In der Tat empfangen und konsumieren Personen ständig Informationen, in dem sie lediglich ihre Umwelt beobachten und der Welt um sie herum zuhören.
Ein derartiger Konsum von Informationen kann aktiv (der Benutzer ist sich der Informationen bewusst und interagiert häufig mit ihnen) oder passiv (der Benutzer ist sich der Informationen nicht bewusst, empfängt sie aber) sein. Eine Person kann Informationen gewollt, zum Beispiel, indem Personen diese häufig „pullen”, oder ungewollt, wenn sie zu ihnen „gepusht” werden (passiver Konsum), beziehen. In gewisser Hinsicht ähneln Personen hinsichtlich ihrer Interaktion mit der Umwelt Vorrichtungen (Computern, Mobiltelefonen und anderen Vorrichtungen), die Informationen anziehen und an sie herangetragene Informationen empfangen.
Vorrichtungen sind jedoch keine Menschen und aktuelle Vorrichtungen leisten eher schlechte Arbeit bei der Erfassung von Informationen innerhalb einer umliegenden Umgebung oder in der Nähe der Vorrichtung. Die hierin offenbarte Technologie beschreibt Systeme und Verfahren, die die Wahrnehmung in Vorrichtungen ermöglichen und begünstigen. Die Technologie kann eine Wahrnehmung von textbasierten Informationen nahe einer Vorrichtung, eine Wahrnehmung von bildbasierten Informationen nahe einer Vorrichtung, eine Wahrnehmung von einer Anzeige von Informationen nahe einer Vorrichtung (wie etwa einem wiedergegebenen Dokument) und so weiter begünstigen. Unter Verwendung der offenbarten Technologie können Vorrichtungen Personen darin, wie sie mit der Welt interagieren, nachahmen. Auch wenn das System nachfolgend allgemein als interagierend mit visuell wahrnehmbaren Dokumenten beschrieben wird, kann das System ebenfalls so konfiguriert werden, dass es audiobasierte Informationen sammelt und verarbeitet.
1.1. Physische/digitale Interaktionen
Nahezu jede physische Anzeige von Informationen ist mit zusätzlichen digitalen Informationen verknüpft oder kann damit verknüpft werden. Zum Beispiel kann ein Bild mit einer Beschreibung (z. B. Metadaten), einer Webseite und so weiter verbunden sein; ein einzelnes Wort kann mit einer Definition, einem Wikipedia-Eintrag, einer Werbeanzeige und so weiter verbunden sein; ein Dokument kann mit seinem elektronischen Gegenstück, einer Webseite, einer Slideshow und so weiter verbunden sein; ein geografischer Standort (oder ein Objekt an dem Standort) kann mit Metadaten, Bildern, Informationen zu dem Standort verbunden sein; ein Audiostream kann mit einer Slideshow verbunden sein; und so weiter. In Gegenwart einer physischen Anzeige von Informationen muss das System nur die Anzeige von Informationen (oder Teilaspekte der Anzeige von Informationen, wie etwa Text in der Anzeige von Informationen) identifizieren, um Zugang zu verbundenen Informationen zu erhalten. Das System ermöglicht es der physischen Anzeige von Informationen, als Plattform zu fungieren, aus der eine reichhaltige, digitale, dritte Interaktivitätsdimension erzeugt wird, die Benutzer und Inhalte umspannt.
1.2. Identifikation eines wiedergegebenen Dokuments
In einigen Fällen kann das Identifizieren eines wiedergegebenen Dokuments einem Leser Zugriff auf eine Fülle zusätzlicher Informationen ermöglichen, welche das Dokument selbst ergänzen und das Lesererlebnis bereichern. Bei jedem wiedergegebenen Dokument, das ein elektronisches Gegenstück aufweist, können Teile der Informationen in dem wiedergegebenen Dokument verwendet werden, um das elektronische Gegenstück zu identifizieren. In einigen Beispielen erfasst und verwendet das System ein Muster von Text aus einem wiedergegebenen Dokument, um ein elektronisches Gegenstück des Dokuments zu identifizieren und ausfindig zu machen. In einigen Fällen ist die Stichprobe des Textes, die vom System benötigt wird, sehr klein, da ein paar Wörter oder Teilwörter aus einem Dokument oft als Erkennungsmarke für das gerenderte Dokument und als Link zu dessen elektronischem Gegenstück fungieren können. Darüber hinaus kann das System diese wenigen Wörter nicht nur verwenden, um das Dokument, sondern auch eine Position innerhalb des Dokuments zu identifizieren. Somit können wiedergegebene Dokumente und deren digitale Gegenstücke unter Verwendung des hierin besprochenen Systems in vielerlei nutzbringender Hinsicht verknüpft werden.
Daher können die wiedergegebenen Dokumente und ihre elektronischen Gegenstücke unter Verwendung des hierin offenbarten Systems in vielerlei nutzbringender Hinsicht verknüpft werden.
Wenn ein Benutzer ein paar Wörter, Zeichen oder Bereiche in einem wiedergegebenen Dokument scannt, kann das System einfach das elektronische Dokumentgegenstück oder einige Teile davon abrufen, das elektronische Gegenstück oder Teile davon anzeigen, per E-Mail an jemanden versenden, erwerben, drucken, auf einer Webseite hochladen oder andere Aktionen ausführen, über die ein Benutzer mit dem Dokument oder den zugehörigen Inhalten interagieren kann. Beispielsweise kann ein Benutzer sein mobiles Gerät (und dessen Kamera) über einen Teil eines Zeitungs- oder Zeitschriftenartikels halten, wodurch bewirkt wird, dass das mobile Gerät des Benutzers eine elektronische Version des Artikels auf dem Touchscreen des mobilen Geräts anzeigt und dem Benutzer Optionen bereitgestellt werden, die es dem Benutzer ermöglichen, mit dem Artikel weiter zu interagieren. In einigen Fällen kann das Halten über dem Artikel das Mobilgerät veranlassen, in einen Dokumenterkennungs- oder Interaktionsmodus zu wechseln, wie etwa wenn das Mobilgerät eine bestimmte Nähe zu dem Artikel erkennt.
Das System implementiert diese und viele andere Beispiele der Integration von Papierinformationen und digitalen Informationen, ohne dass die aktuellen Prozesse zum Schreiben, Drucken und Veröffentlichen von Dokumenten und anderen Informationsanzeigen geändert werden müssen, wodurch wiedergegebene Dokumente und physische Objekte eine ganze neue Ebene digitaler Funktionalität erhalten.
Sobald das System einen Textteil in einem wiedergegebenen Dokument mit einer bestimmten digitalen Entität verknüpft hat, ist das System in der Lage, eine Vielzahl an Funktionen für diese Verknüpfung bereitzustellen.
Die meisten wiedergegebenen Dokumente verfügen über ein elektronisches Gegenstück, das über das Internet oder über eine andere Online-Datenbank oder den Dokumentenkorpus zugänglich ist oder zugänglich gemacht werden kann, z. B. in Reaktion auf die Zahlung einer Gebühr oder eines Abonnements. Im einfachsten Fall kann das System anschließend, wenn ein Benutzer einige Wörter in einem wiedergegebenen Dokument erfasst, dieses elektronische Dokument oder einen Teil davon abrufen, es anzeigen, es jemandem per E-Mail zuschicken, es erwerben, es drucken und/oder es auf eine Webseite posten. Darüber hinaus könnte beispielsweise das Erfassen einiger Worte eines Buches, das von einer Person während des Frühstücks gelesen wird, dazu führen, dass die Audio-Buchversion in dem Auto der Person ab dem Punkt vorgelesen wird, ab dem sie zur Arbeit fährt, oder das Erfassen der Seriennummer einer Druckerpatrone könnte den Bestellungsvorgang einer Ersatzpatrone einleiten.
Eine typische Nutzung des Systems beginnt mit dem Einsatz einer Erfassungsvorrichtung zum Erfassen von Text von einem wiedergegebenen Dokument, wobei es jedoch wichtig ist anzumerken, dass andere Verfahren zur Erfassung von anderen Arten von Objekten gleichermaßen anwendbar sind. Daher wird das System gelegentlich als Erfassen oder Scannen von Text aus einem wiedergegebenen Dokument beschrieben, wobei diese Begriffe folgendermaßen definiert sind:
Ein wiedergegebenes Dokument ist ein ausgedrucktes Dokument oder ein in einer Anzeige oder auf einem Monitor angezeigtes Dokument. Es ist ein Dokument, das für einen Menschen wahrnehmbar ist, egal ob in permanenter Form oder auf einer flüchtigen Anzeige. Es ist ein physisches Objekt, das Informationen mittels einer Präsentationsebene bereitstellt. Wiedergegebene Dokumente beinhalten Papierdokumente, Werbetafeln, Schilder, Informationen, die mittels einer Präsentationsebene einer Computervorrichtung bereitgestellt sind, Informationen, die durch eine Welle ausgebreitet werden, wie etwa ein Audio- oder Videostream von Informationen, und/oder physische Objekte, die Informationen präsentieren oder anzeigen.
Das Erfassen oder Scannen ist ein Prozess zur systematischen Untersuchung, um Informationen von einem wiedergegebenen Dokument zu erhalten. Der Prozess kann optische Erfassung, beispielsweise unter Verwendung einer Kamera in einem Mobiltelefon oder eines optischen Handscanners, beinhalten oder kann Vorlesen aus dem Dokument in eine Audioerfassungsvorrichtung oder seine Eingabe auf einem Tastenfeld oder einer Tastatur beinhalten. Für weitere Beispiele siehe Abschnitt 15.
Zusätzlich zum Erfassen von Text aus wiedergegebenen Dokumenten erfasst das System möglicherweise Informationen von anderen Quellen, wie beispielsweise von RFID(Radio Frequency Identification)-Tags, QR-Codes, Barcodes, anderen physischen Objekten (z. B. Bildern, Skulpturen), Informationen, die direkt von der Präsentationsebene einer Computervorrichtung stammen, usw. Auch wenn das System hierin allgemein so beschrieben wird, dass es mit Daten von gedruckten oder angezeigten Dokumenten interagiert und diese erfasst, kann das System bereits so konfiguriert sein, dass es alternativ oder ergänzend mit audiobasierten Informationen (beispielsweise über das Radio oder TV-Sendungen empfangene Informationen) interagieren und diese erfassen kann. Daher können andere Informationsquellen audio- und/oder videobasierte Daten (wie Radioprogramme und andere Inhalte auf Radiokanälen), Videoinhalte und andere Inhalte auf Videokanälen, (einschließlich TV-Shows, TV-Werbesendungen, Filme usw.), egal, ob sie von einem lokalen Medium wie einer Video-Disk oder per Streaming von einem entfernten Server wiedergegeben werden, usw. beinhalten. Als ein Beispiel kann das System Informationen aus einer Audioquelle erfassen und Informationen oder ergänzende Inhalte in Verbindung mit der Audioquelle oder den Inhalten des von der Quelle erzeugten Audiostreams anzeigen.
2. Einführung in das System
In diesem Abschnitt werden einige der Vorrichtungen, Prozesse und Systeme beschrieben, aus denen sich ein System zur Integration von Papierinformationen und digitalen Informationen zusammensetzt. In verschiedenen Beispielen baut das System eine breite Palette von Diensten und Anwendungen auf diesem zugrunde liegenden Kern auf, welcher die Basisfunktionalität zur Verfügung stellt.
2.1. Die Prozesse
1A ist ein Datenflussdiagramm, das den Informationsfluss in einigen Beispielen eines geeigneten Systems veranschaulicht. Andere Beispiele verwenden eventuell nicht alle hier dargestellten Stufen oder Elemente, wohingegen einige viele weitere verwenden.
Eine Erfassungsvorrichtung, wie ein Mobilgerät mit einer Kamera und/oder einem Sprachrekorder, erfasst 100 Text und/oder andere Informationen aus einem wiedergegebenen Dokument oder von Informationen, die in der Nähe der Vorrichtung angezeigt werden. Die Vorrichtung kann die erfassten Daten verarbeiten 102, zum Beispiel, um Artefakte des Erfassungsprozesses zu entfernen und das Signal-Rausch-Verhältnis zu verbessern, um gewünschte Informationen innerhalb der Daten zu identifizieren oder aufzufinden und so weiter. Mittels einer Erkennungskomponente (wie etwa einer OCR-Vorrichtung, Spracherkennungsvorrichtung, Autokorrelationseinheit oder anderen hierin beschriebenen Techniken) konvertiert 104 das System die Daten optional zu einer oder mehreren Signaturen, wie etwa Textsegmenten, Textoffsets oder anderen Symbolen oder Zeichen. Alternativ führt das System eine alternative Form des Extrahierens von einer oder mehreren Dokumentsignaturen aus dem wiedergegebenen Dokument durch. In einigen Fällen stellt die Signatur einen Satz von möglichen Texttranskriptionen dar. In einigen Fällen kann der Prozess durch Feedback aus anderen zuvor oder nachfolgend durchgeführten Schritten beeinflusst oder eingeschränkt werden. Wenn das System beispielsweise zuvor bereits Kandidatendokumente, aus denen die Erfassung wahrscheinlich entstanden ist, erzeugt hat, ist es in der Lage, die möglichen Interpretationen der ursprünglichen Erfassung zu begrenzen.
Nachverarbeitungskomponenten empfangen möglicherweise Daten vom Erkennungsprozess und Filtern 106 die Daten oder führen je nach Wunsch andere Operationen aus. In einigen Beispielen kann das System sofort und ohne Ausführen der nächsten Schritte in der Routine direkte Aktionen 107 ableiten, bestimmen, identifizieren und/oder auführen, z. B. wenn das System eine Wortverbindung oder ein Symbol erfasst, die oder das ausreichend Informationen enthält, um auf die Absicht des Benutzers schließen zu können. In diesen Fällen muss das System nicht notwendigerweise ein digitales Dokument als Gegenstück identifizieren oder referenzieren, um die Wünsche des Benutzers durchzuführen.
In Schritt 108 kann das System dann eine Abfrage oder einen Satz an Abfragen erzeugen, die oder der bei der Suche nach einem elektronischen Gegenstück oder anderen Inhalten verwendet wird, die mit den erfassten Informationen verknüpft sind. Einige Aspekte der Abfrageerstellung können von dem verwendeten Suchprozess abhängig sein und das System kann sie in einem späteren Schritt durchführen (wie etwa, nachdem eine Suche durchgeführt wird), wobei es jedoch typischerweise einige Operationen gibt, wie etwa die Entfernung von offensichtlich falsch erkannten oder irrelevanten Zeichen, die das System im Voraus durchführen kann.
Das System leitet 110 die Abfrage oder die Abfragen an eine Such- und Kontextanalyse-Komponente weiter. Das System kann versuchen, das Dokument zu identifizieren, aus dem die ursprünglichen Daten erfasst worden sind. Dazu verwendet das System unter Umständen Suchindizes und Suchmaschinen 112, etwaige Kenntnisse über den Benutzer 114 und/oder Kenntnisse über den Benutzerkontext oder den Kontext, in dem die Informationen erfasst wurden 116. Das System kann zum Beispiel mit einer Suchmaschine 112 interagieren, die Informationen speziell über wiedergegebene Dokumente, über deren digitale Dokument-Gegenstücke und/oder über Dokumente, die über eine Web(Internet)-Präsenz verfügen, nutzt oder indexiert. Das System kann Informationen mit diesen Informationsquellen hin- und hertransferieren und kann identifizierte Informationen in verschiedene andere Schritte der Routine einspeisen. Das System kann, basierend auf einem Empfang von Kenntnissen über Kandidatendokumente während Schritt 110, beispielsweise Informationen über die Sprache, Schriftart, Darstellung und voraussichtlich folgende Wörter einer Erfassung empfangen.
In Schritt 120 kann das System eine Kopie des Dokuments oder der Dokumente abrufen, die zuvor als elektronische Gegenstücke für das wiedergegebene Dokument identifiziert wurden. Das System kann einen direkten Zugriff auf Dokumentquellen und -archive 124 (z. B. ein lokales Archiviersystem oder eine Datenbank oder einen Webserver) haben, oder das System kann einen Zugriffsdienst 122 kontaktieren, um ein Dokument oder Dokumente abzurufen. Der Zugriffsdienst 122 kann eine Authentifizierung, einen Schutz oder Zahlungen für Dokumente verlangen oder kann andere Dienste bereitstellen, wie etwa, neben anderen Dingen, eine Konvertierung des Dokuments in ein gewünschtes Format oder eine gewünschte Sprache.
Anwendungen des Systems nutzen möglicherweise die Vorteile der Verknüpfung von zusätzlicher Funktionalität oder Daten mit einem Teil des Dokuments oder dem gesamten Dokument. Werbeanwendungen beispielsweise können bestimmte Werbenachrichten oder -themen mit Teilen eines Dokuments, wie etwa Schlüsselwörtern, Wortverbindungen oder Nähe zu bestimmten Inhalten, verknüpfen. Diese zusätzlich verknüpfte Funktionalität oder Daten, die spezifizieren, dass sie in Verbindung mit bestimmen Teilen des Dokuments verfügbar sein sollte, kann als eine oder mehrere Überlagerungen auf dem Dokument angesehen werden und wird hierin als Markup bezeichnet. Somit identifiziert das System, in Schritt 130, jegliches Markup, das für die erfassten Daten und/oder ein identifiziertes elektronisches Gegenstück relevant ist. In einigen Fällen wird das Markup durch den Benutzer, den Urheber, den Herausgeber des Dokuments, andere Benutzer des Dokuments und so weiter bereitgestellt und kann auf einer direkt zugänglichen Quelle 132 gespeichert sein oder durch einen Markup-Dienst 134 dynamisch erzeugt werden. In einigen Beispielen kann das Markup mit einem wiedergegebenen Dokument und/oder dem digitalen Gegenstück eines wiedergegebenen Dokuments oder mit Gruppen aus einem oder beiden dieser Dokumente verknüpft werden und auf diese anwendbar sein.
Als Folge einiger oder aller der vorherigen Schritte kann das System 140 Aktionen einleiten oder durchführen. Die Aktionen können Standard-Systemaktionen, wie etwa einfaches Aufzeichnen der gefundenen Informationen sein, können von den Daten oder dem Dokument abhängig sein oder können von der Markup-Analyse abgeleitet sein. In einigen Fällen kann das System Daten einfach an ein anderes System übermitteln. In einigen Fällen werden die möglichen Aktionen, die für eine Erfassung an einer bestimmten Stelle in einem wiedergegebenen Dokument geeignet sind, dem Benutzer als ein Menü auf einer verbundenen Anzeige, wie etwa der Anzeige einer Erfassungsvorrichtung (dem Touchscreen eines Mobilgerätes), oder einer verbundenen Anzeige (dem Laptopbildschirm des Benutzers) präsentiert. Das System kann eine Aktion oder Aktionen in Reaktion auf die Erfassung als Reaktion auf eine Benutzeranfrage zur Durchführung von einer Aktion oder Aktionen oder zu einem späteren Zeitpunkt identifizieren oder durchführen.
Als Beispiel für die Art und Weise, wie die Erfassungsvorrichtung verwendet werden kann, erfasst ein Leser möglicherweise einen Text aus einem Zeitungsartikel mit einer Kamera, die zu einem Mobilgerät gehört. Der Text wird über die Kamera als Bitmap-Bild erfasst. Die Logik speichert das gerasterte Bild im Speicher, versieht das Bild mit einem Zeitstempel und erfasst andere Daten, die mit der Aufzeichnung verknüpft sind (z. B. Position eines Geräts, Geo-Lokalisierungsdaten usw.). Die Logik führt außerdem eine optische Zeichenerkennung (OCR) durch und konvertiert das Bild zu Text. Das System lädt den Text in einen Index von Inhalten, die mit der Zeitung in Verbindung stehen, und identifiziert und ruft ein elektronisches Gegenstück für den Artikel ab. Anschließend zeigt die Erfassungsvorrichtung das elektronische Gegenstück über einen verbundenen Touchscreen an, zusammen mit einer oder mehreren durchzuführenden Aktionen, wie etwa Herunterladen und Anschauen von verbundenen Artikeln oder von Artikeln, die zusätzliche Hintergrundinformationen bereitstellen, Hervorheben bestimmter Begriffe innerhalb eines Artikels und Bereitstellen von Links zu Definitionen für diese Begriffe oder Anschauen von Werbeanzeigen oder Kaufinformationen für in oder um den Artikel herum besprochene Produkte.
Weitere Einzelheiten zu den Systemprozessen, Komponenten und/oder Vorrichtungen können in den hierin durch Bezugnahme aufgenommenen Anwendungen gefunden werden. Auch wenn das System wie zuvor beschrieben hierin allgemein so beschrieben wird, dass es mit Daten von gedruckten oder angezeigten Dokumenten interagiert und diese erfasst, kann das System bereits so konfiguriert sein, dass es alternativ oder ergänzend mit audiobasierten Informationen interagieren und diese erfassen kann, wie Fachleute auf dem Gebiet leicht nachvollziehen können.
1B ist ein Datenflussdiagramm, das den Informationsfluss in einem Beispiel eines geeigneten Systems veranschaulicht. Eine Erfassungsvorrichtung 155 erfasst präsentierte Informationen wie Text, Audio, Video, GPS-Koordinaten, Benutzergesten, Barcodes und so weiter aus Informationsquellen 150 und anderen Quellen, wie etwa Quellen in drahtloser Kommunikation mit der Vorrichtung (nicht gezeigt). Bei Schritt 160 sammelt und speichert die Informationssicherungskomponente von der Erfassungsvorrichtung 155 erfasste Informationen. Bei Schritt 165 übergibt das System die aus der Erfassungsvorrichtung zusammengetragenen Informationen einer Verarbeitungskomponente für erfasste Informationen. Die Verarbeitungskomponente für erfasste Informationen 165 ist konfiguriert, die Gegenwart von wiedergegebenen Dokumenten zu erkennen, Textbereiche aus Dokumenten zu extrahieren und die Dokumentinformationen zu analysieren, um Dokument- und Textmerkmale, wie etwa absolute und relative Layout-Informationen, Absatz, Zeilen- und Wortschatten oder -profile, zeichenbezogene Merkmale und Zeichencodierungen zu erkennen. In einigen Beispielen kann die Verarbeitungskomponente für erfasste Informationen konfiguriert sein, Typen von Daten zu verarbeiten, die kein Text sind, wie etwa Audio, Kompassdaten, GPS, Beschleunigung, Verlauf, Temperatur, Feuchtigkeit, Körperwärme usw. In einigen Beispielen wird die Verarbeitungseinheit für erfasste Informationen Informationen in Laufe der Zeit akkumulieren und die akkumulierten Informationen zusammensetzen, um beispielsweise größere oder höherauflösende Bilder der Informationsquelle zu bilden, während die Erfassungsvorrichtung weitere Informationen erfasst oder sendet. In einigen Beispielen kann die Verarbeitungskomponente für erfasste Informationen den Kontext, wie etwa vorherige von einem Benutzer erfasste Informationen, nutzen (siehe Abschnitt 13 und 14), um die Verarbeitung erfasster Informationen zu lenken, z. B. durch Einschränken oder Ausweiten des Verarbeitungsumfangs und Lenken der Annahmen darüber, was verarbeitet wird. Wenn das System zum Beispiel kürzlich identifiziert hat, dass der Benutzer Informationen aus einer bestimmten Quelle erfasst hat, kann im Anschluss weniger Verarbeitung erforderlich sein, um ein ähnliches Maß an Gewissheit über die neu erfassten Informationen zu erhalten, da eine Suche innerhalb eines begrenzten Möglichkeitsraums schnell zu einer Übereinstimmung führen kann, welche anschließend, wenn erwünscht, noch weiter bestätigt werden kann. Die Verarbeitungskomponente für erfasste Informationen kann die identifizierten Informationen verifizieren. wie etwa durch automatisches Bestätigen oder Ablehnen von Vorhersagen in den Informationen basierend auf vorläufigen Annahmen oder durch Nutzen eines Concierge-Dienstes 170 (siehe Abschnitt 19.8) oder durch Anfordern von Benutzerfeedback. In Schritt 175 speichert das System die erfassten und verarbeiteten Informationen als einen Teil von Systemverlauf und Kontext.
In Schritt 180 führt das System eine Suche basierend auf den verarbeiteten Informationen und dem Kontext durch (siehe Abschnitt 42.2. 13 und 14). In einigen Beispielen können Suchergebnisse im Laufe der Zeit akkumuliert und korreliert werden, z. B., sich überschneidende Suchergebnisse basierend auf Teilsätzen der im Laufe der Zeit erfassten Informationen, um Mehrdeutigkeiten aufzulösen (wie etwa mehrere Teile einer Audioaufnahme, Audio aus mehreren Frequenzbändern, mehrere Bilder usw.). In einigen Beispielen können die Suchergebnisse durch die Verarbeitungskomponente für erfasste Informationen noch weiter verifiziert werden, z. B. basierend auf dem Prinzip, dass die Bildverarbeitungskomponente eine zusätzliche Analyse der Suchergebnisse (oder der von der Dokumentenverwaltungskomponente 185 abgerufenen Dokumentinformationen) und der erfassen Informationen durchführen kann. Wenn die Suchkomponente beispielsweise 10 mögliche Ergebnisse erzeugt, kann die Verarbeitungskomponente für erfasste Informationen bestimmen, dass 6 davon, wie etwa das Muster vertikaler Striche in dem Text, sehr unwahrscheinlich mit den Suchergebnissen übereinstimmen. In Schritt 185 kann eine Dokumentenverwaltungskomponente des Systems, wenn ein Dokument identifiziert wurde, eine Darstellung des Dokuments abrufen. In Schritt 190 kann eine Markup-Komponente des Systems ein dynamisches und/oder statisches Markup, das sich auf die Textausgabe bezieht, aus dem Verarbeitungsschritt der erfassten Informationen und/oder dem ermittelten Dokument oder der abgerufenen Darstellung des Dokuments berechnen und/oder abrufen. Für weitere Informationen zu statischem und dynamischem Markup siehe Abschnitt 5. In einigen Beispielen erzeugt die Markup-Komponente Markup parallel zu der Dokumentenidentifikation basierend auf identifiziertem Text, sobald dieser erkannt ist.
In Schritt 195 werden die Informationen unter Umständen dem Benutzer präsentiert. In einigen Beispielen können diese Informationen Folgendes beinhalten: Feedback, wie etwa einen Hinweis, die Erfassungsvorrichtung für besseren Fokus zu bewegen; das Überlegen von Hervorhebungen über die erfassten Bilder, um mögliche Bereiche von Interesse anzuzeigen, möglicherweise einschließlich des Bereichs von Interesse, der implizit ausgewählt werden würde, wenn der Benutzer die Erfassungsvorrichtung über demselben Bereich hält; eine saubere, neu wiedergegebene Version des abgebildeten Textes, der mit Bildskalierung, Layout, Aufbau usw. des Sichtfeldes der Erfassungsvorrichtung übereinstimmt; eine Liste mit auf den aktuellen Bereichen von Interesse basierenden verfügbaren Optionen; die Resultate der Durchführung einer einzelnen Aktion basierend auf den aktuellen Bereichen von Interesse, wie etwa ein automatisches Wählen einer Telefonnummer; Präsentieren von audiovisuellem Material unter Verwendung von einem Template, das für den Typ oder die Typen von Informationen angemessen ist, die von dem Benutzer als Interessengebiete angegeben wurden; Präsentieren einer Informationsanzeige und/oder eines Audios basierend auf den Interessengebieten. In einigen Beispielen können sich Bereiche von Interesse aus einem Bereich, der durch den Benutzer implizit oder explizit angegeben wird, und aus sukzessive größeren Bereichen, wie etwa Wortverbindungen, Sätze, Zeilen, Absätzen, Spalten, Artikeln, Seiten, Ausgaben, Veröffentlichungen usw., die den zentralen Bereich von Interesse umgeben, zusammensetzen. In einigen Beispielen wird eine Hauptregion von Interesse vom System basierend auf der Position im Bild vorgeschlagen, beispielsweise die Mitte eines Bildschirms einer Erfassungsvorrichtung, und durch eine explizite Benutzerinteraktion, durch Zeigen mit der Maus auf eine Stelle nahe derselben Region für eine kurze Zeitspanne oder durch eine Benutzerinteraktion mit einem Bildschirm (z. B. Wischen mit einem Finger über die Region von Interesse oder Tippen an eine Stelle innerhalb einer vorgeschlagenen Region von Interesse) ausgewählt.
2.2. Die Komponenten
Wie hierin beschrieben beinhaltet ein geeignetes System oder eine geeignete Betriebsumgebung eine Reihe von verschiedenen Komponenten. Zum Beispiel kann das System eine oder mehrere optische Erfassungsvorrichtungen oder Stimmerfassungsvorrichtungen beinhalten (wie etwa Mobiltelefone und andere mobile Multifunktions-Computervorrichtungen, Handscanner-Vorrichtungen und so weiter). Die Erfassungsvorrichtungen kommunizieren mit anderen Komponenten des Systems, wie etwa einem Computer oder anderen Mobilgeräten, entweder unter Verwendung von drahtgebundenen oder drahtlosen Verbindungen oder über ein Netzwerk.
Die Erfassungsvorrichtung, Computer und andere Komponenten im Netzwerk beinhalten unter Umständen einen Speicher, der vom Computer ausführbare Anweisungen zur Verarbeitung der empfangenen Daten oder Informationen enthält, die aus wiedergegebenen Dokumenten und anderen Quellen (wie z. B. auf einer Anzeige oder auf einem Monitor angezeigte Informationen) erfasst werden.
2 ist ein Komponentendiagramm, das die in einer typischen Implementierung des Systems im Rahmen einer typischen Betriebsumgebung enthaltenen Komponenten angibt. Wie dargestellt beinhaltet die Betriebsumgebung eine oder mehrere Erfassungsvorrichtungen 216. In einigen Beispielen unterstützt ein Erfassungsgerät entweder das optische Erfassen oder das Kopieren mithilfe von „Audiodaten”. Jede Erfassungsvorrichtung ist in der Lage, mit anderen Teilen des Systems, wie etwa einem Computer 212, entweder unter Verwendung von einer direkten drahtgebundenen oder drahtlosen Verbindung oder über das Netzwerk 220 zu kommunizieren, mit welchem sie unter Verwendung einer drahtlosen oder drahtgebundenen Verbindung kommunizieren kann, wobei letztere typischerweise eine drahtlose Basisstation 214 beinhaltet. In einigen Beispielen kommuniziert die Erfassungsvorrichtung mit anderen Komponenten des Systems über ein Mobilfunk-Telekommunikationsnetz (z. B. GSM oder CDMA). In einigen Beispielen ist die Erfassungsvorrichtung in ein Mobilgerät integriert und teilt sich optional einige der Audio- und/oder optischen Komponenten, die in dem Gerät für Sprachkommunikationen und zum Aufnehmen von Bildern verwendet werden.
Der Computer 212 kann einen Speicher beinhalten, der vom Computer ausführbare Anweisungen zum Verarbeiten eines Auftrags von Erfassungsvorrichtung 216 enthält. Als ein Beispiel kann ein Auftrag eine Kennung (wie etwa eine Seriennummer der Erfassungsvorrichtung 216 oder eine Kennung, die den Benutzer der Erfassungsvorrichtung teilweise oder eindeutig identifiziert), Erfassungskontextinformationen (z. B. Zeit der Erfassung, Ort der Erfassung usw.) und/oder erfasste Informationen (wie etwa eine Textfolge) beinhalten, die verwendet wird, um die Quelle, aus welcher Daten erfasst werden, eindeutig zu identifizieren. In alternativen Beispielen kann die Betriebsumgebung mehr oder weniger Komponenten beinhalten.
Ebenfalls Teil des Netzwerks 220 sind Suchmaschinen 232, Dokumentenquellen 234, Benutzerkontendienste 236, Markup-Dienste 238 und andere Netzwerkdienste 239. Das Netzwerk 220 kann ein firmeneigenes Intranet sein, das öffentliche Internet, ein Mobilfunknetz oder ein anderes Netzwerk oder eine beliebige Vernetzung dieser sein. Unabhängig von der Art, in der die Vorrichtungen und Komponenten miteinander verbunden sind, können sie alle gemäß allgemein bekannten kommerziellen Transaktion- und Kommunikationsprotokollen (z. B. Transmission Control Protocol (TCP), Internet Protocol (IP)) betreibbar sein. In einigen Beispielen können viele der Funktionen und Fähigkeiten des Systems in die Erfassungsvorrichtung eingebunden oder integriert sein.
In zahlreichen Beispielen können die Funktionen und Funktionalitäten der Erfassungsvorrichtung 216 und des Computers 212 komplett oder teilweise in einer Vorrichtung integriert sein. Somit können sich die Begriffe Erfassungsvorrichtung und Computer, abhängig davon, ob die Vorrichtung Funktionen oder Fähigkeiten von der Erfassungsvorrichtung 216 und dem Computer 212 einbindet, auf dieselbe Vorrichtung beziehen. Zudem können einige oder alle der Funktionen der Suchmaschinen 232, Dokumentenquellen 234, Benutzerkontodienste 236, Markup-Dienste 238 und anderer Netzwerkdienste 239 in jedweder Vorrichtung und/oder anderen, nicht gezeigten Vorrichtungen implementiert sein.
2.3. Die Erfassungsvorrichtung
Die Erfassungsvorrichtung kann Text mithilfe einer optischen oder Abbildungskomponente, die Bilddaten von einem Objekt, einer Informationsanzeige und/oder einem wiedergegebenen Dokument erfasst, oder mithilfe einer Audioaufzeichnungsvorrichtung, die vom Benutzer vorgelesenen Text eines angezeigten Texts erfasst, oder mithilfe anderer Verfahren erfassen. In einigen Beispielen kann die Erfassungsvorrichtung außerdem Bilder, Filme, grafische Zeichen und Symbole und so weiter erfassen, einschließlich maschinenlesbarer Codes wie etwa Barcodes, RFID-Tags usw., obgleich diese nicht erforderlich sind, um ein Dokument zu erkennen oder Aktionen in Verbindung mit dem Dokument oder erfasstem Text durchzuführen. In einigen Fällen kann die Erfassungsvorrichtung Bilder aus der Umgebung der Vorrichtung aufnehmen, einschließlich Bilder von Objekten, die die Vorrichtung umgeben. Die Vorrichtung kann außerordentlich einfach sein und wenig mehr als einen Wandler, ein wenig Speicher und eine Datenschnittstelle beinhalten und auf andere Funktionalität angewiesen sein, die anderswo in dem System liegt, oder sie kann eine umfangreicher ausgestattete Vorrichtung, wie etwa ein Smartphone, sein. In einigen Fällen kann die Vorrichtung ein Mobilgerät mit Bild- und Videoerfassungs- sowie Abspielfähigkeiten sein, das eine oder mehrere Anwendungen, die einen Teil oder die Gesamtheit der hierin beschriebenen Funktionalität erbringen, in einem Speicher speichert und startet oder ausführt.
Die Erfassungsvorrichtung beinhaltet ein Erfassungselement, das Texte, Symbole, Grafiken usw. aus wiedergegebenen Dokumenten und anderen Informationsanzeigen erfasst. Das Erfassungselement kann eine Abbildungskomponente, wie etwa einen optischen Abtastkopf, eine Kamera, optische Sensoren und so weiter, beinhalten.
In einigen Beispielen handelt es sich bei der Erfassungsvorrichtung um einen tragbaren Scanner, der zum Scannen von Texten, Grafiken oder Symbolen aus wiedergegebenen Dokumenten dient. Der tragbare Scanner beinhaltet ein Abtastelement, das Text, Symbole, Grafiken und so weiter aus wiedergegebenen Dokumenten erfasst. Neben Dokumenten, die auf Papier gedruckt sind, beinhalten wiedergegebene Dokumente in einigen Beispielen Dokumente, die auf einem Bildschirm, wie etwa einem CRT-Monitor oder einer LCD-Anzeige, angezeigt wurden.
3 ist ein Blockdiagramm, das ein Beispiel einer Erfassungsvorrichtung 300 veranschaulicht. Die Erfassungsvorrichtung 300, die ein Mobiltelefon und/oder eine andere mobile oder tragbare Vorrichtung oder Reihe von Kommunikationsvorrichtungen, einschließlich eines Laptops, eines Tablets oder Netbooks, von Personen getragener Gegenstände (Brillen, Kleidung, Hüte, Accessoires und so weiter), sein kann, kann eine Erfassungskomponente 310 beinhalten, wie etwa eine Kamera, eine Abbildungskomponente, einen Abtastkopf, ein Mikrofon oder einen anderen Audiorecorder und so weiter. In Fällen, in denen die Erfassungsvorrichtung 300 ein Mobiltelefon ist, kann die Erfassungskomponente 310 die Kamera sein, die mit dem Telefon verbunden ist, wie etwa ein bildbasierter CMOS-Sensor, der in vielen kommerziell verfügbaren Telefonen verwendet wird. In Fällen, in denen die Erfassungsvorrichtung 300 eine Digitalkamera ist, kann die Erfassungskomponente 310 Spiegelsystem, Prisma, Linse und/oder Sucher der Kamera beinhalten. In anderen Fällen kann die Erfassungskomponente eine getrennte Komponente oder zusätzliche Komponenten sein, die nicht in die Kamera des Telefons (nicht gezeigt) integriert sind, einschließlich, in einigen Fällen, nichtoptischer Komponenten.
Die Erfassungsvorrichtung 300 kann auch eine Anzeigekomponente 320 wie beispielsweise eine Benutzeroberfläche, einen Touchscreen und/oder andere Komponenten beinhalten, die in der Lage sind, Benutzern der Vorrichtung 300 Informationen anzuzeigen. Die angezeigten Informationen können von der Erfassungskomponente 310 aufgenommene Bilder, Bilder innerhalb eines Sichtfelds der Erfassungskomponente 310, Inhalte im Zusammenhang mit erfassten Informationen (wie etwa elektronische Gegenstücke erfasster Dokumente oder Inhalte, die die erfassten Informationen ergänzen), Inhalte, die Markierungen und andere Informationen für Inhalte im Sichtfeld der Erfassungskomponente 310 hervorheben oder überlagern, Auswahlmenüs, die Aktionen anzeigen, die in Reaktion auf das Erfassen von Informationen durchgeführt werden sollen, und so weiter beinhalten. Die Anzeigekomponente 320 kann außerdem Informationen von einem Benutzer empfangen, wie etwa über durch den Benutzer auswählbare Optionen, die auf der Anzeige präsentiert werden.
In einigen Beispielen des Systems beinhaltet die Erfassungsvorrichtung 300 eine oder mehrere Komponenten, die in der Lage sind, den Betrieb der Erfassungsvorrichtung 300 und/oder von anderen Computervorrichtungen und Systemen zu transformieren. Die Erfassungsvorrichtung 300 kann außerdem eine Erkennungskomponente 330 beinhalten, die erkennt, wann die Vorrichtung in der Nähe von Informationen ist, die von der Vorrichtung 300 erfasst werden können. Die Erkennungskomponente 330 kann Teil der Erfassungskomponente 310 oder darin integriert sein (wie etwa eine Komponente, die Text innerhalb von Bildern identifiziert, die von einer Abbildungskomponente aufgenommen wurden), kann ein Abstandssensor sein, der Abstände zwischen der Erfassungsvorrichtung 300 und Objekten (Dokumenten, Werbetafeln usw.) in der Umgebung der Vorrichtung misst, kann ein Ausrichtungssensor sein, der die Ausrichtung (Neigungswinkel in Bezug auf die x-, y- oder z-Achse und so weiter) der Erfassungsvorrichtung 300 misst, und so weiter. Weitere Details hinsichtlich der Interaktionen zwischen der Erfassungskomponente 310, der Anzeigekomponente und/oder der Erkennungskomponente 330, einschließlich Routinen, die durch diese Komponenten durchgeführt werden, sind hierin beschrieben.
Die Erkennungskomponente 330 kann auch Informationen von einer Zeitsteuerungskomponente (nicht dargestellt) beinhalten oder abrufen, die die Dauer bestimmter Zustande der Erfassungsvorrichtung misst. Zum Beispiel kann die Laufzeitkomponente, die Teil der Erkennungskomponente 330 sein kann, messen, wie lange die Erfassungsvorrichtung 300 parallel zu einer Achse gehalten wird, die durch ein wiedergegebenes Dokument, das auf einem Tisch platziert ist, definiert ist, oder kann messen, wie lange die Erfassungsvorrichtung 300 innerhalb einer bestimmten Nähe zu einem Straßenschild ist, und so weiter.
Die Erfassungsvorrichtung 300 kann zudem eine Betriebsanpassungskomponente 340 beinhalten, die den Betrieb oder den Modus der Erfassungsvorrichtung 300 ändert. In einigen Beispielen des Systems ändert die Betriebsanpassungskomponente 340 (automatisch) den Betriebsmodus der Erfassungsvorrichtung 300 bei Empfangen einer Angabe oder eines Signals von der Erkennungskomponente 330 darüber, dass die Erfassungsvorrichtung 300 in der Nähe von aufzunehmenden Informationen ist, von einem Standardmodus zu einem Informationserfassungsmodus (wie etwa einem Texterfassungsmodus). Zusätzlich kann die Betriebsanpassungskomponente den Betriebsmodus der Erfassungsvorrichtung 300 bei Empfangen einer Angabe oder eines Signals von der Erkennungskomponente 330 darüber, dass die Erfassungsvorrichtung 300 nicht länger in der Nähe von etwaigen Informationen ist, zurück zu einem Standardmodus ändern. In einigen Fällen startet die Betriebsanpassungskomponente 340, ohne den Betriebsmodus der Vorrichtung zu ändern, eine Anwendung, wie etwa eine Anwendung, die konfiguriert ist, Informationen zu erfassen und eine Aktion für einen Benutzer der Erfassungsvorrichtung 300 durchzuführen.
Wenn die Erfassungsvorrichtung 300 im Informationserfassungsmodus betrieben oder von einer laufenden Anwendung gesteuert wird, die von der Betriebsanpassungskomponente 340 gestartet wurde, kann es beispielsweise einige oder alle der hierin beschriebenen Routinen und Verfahren ausführen, einschließlich der Identifizierung von mit den erfassten Informationen verknüpften Dokumenten und Informationen und der Ausführung von mit den erfassten Informationen verknüpften Aktionen (z. B. Kaufen von Produkten, Anzeigen von Werbeanzeigen, Präsentieren von ergänzenden Informationen, Aktualisieren von Weblogs usw.). Die Erfassungsvorrichtung 300 kann einige oder alle der Routinen und Verfahren über Programme durchführen, die in dem Speicher der Erfassungsvorrichtung 300 gespeichert sind. wie etwa Programme, die auf die Erfassungsvorrichtung 300 heruntergeladen wurden, Programme, die in das Betriebssystem der Erfassungsvorrichtung 300 integriert sind, und so weiter.
Die Erfassungsvorrichtung 300 kann neben anderen hierin beschriebenen Teilen auch andere Komponenten beinhalten, wie Gerätebetriebskomponenten 350, die mit dem Betrieb der Vorrichtung verknüpft sind (Verarbeitungskomponenten, Speicherkomponenten, Stromkomponenten, SIM- und andere Sicherheitskomponenten, Eingabekomponenten wie Tastenfelder und Tasten usw.), Kommunikationskomponenten 360 (drahtlose Funkmodule, GSM-/Zellenkomponenten, SMS/MMS- und andere Messaging-Komponenten, Bluetooth^TM-Komponenten, RFID-Komponenten usw.) für die Kommunikation mit einem externen Netzwerk und/oder einer anderen Computervorrichtung, Komponenten 370, die der Vorrichtung Kontextinformationen bereitstellen (GPS und andere Geo-Positionssensoren, Beschleunigungssensor und andere Bewegungssensoren, Richtungssensoren, Temperatur-Messkomponenten und andere Komponenten zur Messung von Umgebungsbedingungen usw.) und andere Komponenten 380, wie einen Audio-Messwandler, externe Leuchten oder Vibrationskomponenten, um einem Benutzer Rückmeldung zu geben, und/oder Tasten, Scrollräder oder taktile Sensoren, um Eingaben von einem Benutzer zu erhalten, oder einen Touchscreen, um Informationen an Benutzer weiterzugeben und Eingaben von Benutzern zu erhalten.
Die Erfassungsvorrichtung 300 kann auch eine Logikkomponente (nicht dargestellt) zur Interaktion mit den verschiedenen anderen Komponenten beinhalten, um möglicherweise die empfangenen Signale zu verarbeiten und in verschiedene Formate und/oder Interpretationen umzuwandeln. Die Logikkomponente kann betreibbar sein, um Daten und Programmanweisungen, die in einem verbundenen Speicher (nicht gezeigt) wie etwa RAM, ROM, Flash- oder anderem geeigneten Speicher gespeichert sind, zu lesen und zu schreiben. Die Erfassungsvorrichtung 300 kann Informationen in Form von Datenstrukturen, Routinen, Algorithmen, Skripten und so weiter in einem Speicher oder anderen Speicherkomponenten, wie etwa computerlesbaren Medien, speichern oder enthalten.
Die Logikkomponente kann ein Zeitsignal von einer Takteinheit (nicht dargestellt) lesen. In einigen Beispielen kann die Erfassungsvorrichtung eine eingebaute Stromversorgung (nicht gezeigt) aufweisen. In anderen Beispielen kann der Scanner 302 über eine kabelgebundene Verbindung mit einer anderen Vorrichtung, wie etwa einer Universal Serial Bus(USB)-Verbindung, mit Strom versorgt werden. In einigen Beispielen kann die Erfassungsvorrichtung 300 auf mehrere einzelne Vorrichtungen verteilt sein.
2.3.1. Informationserkennende Erfassungsvorrichtungen
sDas System kann eine Komponente zur Bestimmung, dass sich eine Erfassungsvorrichtung in der Nähe von Informationen wie z. B. einem wiedergegebenen Dokument befindet, und zur Änderung des Betriebs der Erfassungsvorrichtung basierend auf der Bestimmung beinhalten. In einigen Beispielen beinhaltet die Erfassungsvorrichtung eine Kamera, die Bilder wiedergegebener Dokumente oder anderer Informationsanzeigen erfasst, und eine Lagekomponente, die eine Nähe zu wiedergegebenen Dokumenten oder den anderen Informationsanzeigen erkennt. Die Lagekomponente kann eine optische Komponente innerhalb der Kamera sein oder verwenden, oder kann eine eigenständige Komponente, wie etwa ein Abstandssensor, sein. Das System kann, bei Bestimmen, dass die Erfassungsvorrichtung in der Nähe von Informationen ist, die Erfassungsvorrichtung veranlassen, den Modus zu einem zu andern, der Text, Dokumente und/oder andere Informationsanzeigen, wie etwa Objekte, die Text anzeigen, erkennt und damit interagiert. In einem Dokumenterfassungsmodus kann das System zum Beispiel, mittels der Erfassungsvorrichtung, einen oder mehrere Prozesse initiieren, die Bilder von wiedergegebenen Dokumenten oder Informationsanzeigen erfassen und Aktionen basierend auf diesen Erfassungen durchführen.
TEIL II – ÜBERBLICK ZU DEN BEREICHEN DES SYSTEMS
Die Integration von Papierinformationen und digitalen Informationen nimmt immer mehr zu, sodass es viele Aspekte vorhandener Technologien gibt, die verändert werden können, um diese Integration besser nutzen oder effektiver implementieren zu können. Dieser Abschnitt beleuchtet einige dieser Themen.
3. Suche
Das Durchsuchen eines Korpus von Dokumenten, selbst so einen großen Korpus wie das World Wide Web, hat Einzug in den Alltag normaler Benutzer gehalten, die eine Tastatur zum Erzeugen einer Suchabfrage verwenden, die an eine Suchmaschine gesendet wird. Dieser und der folgende Abschnitt besprechen Aspekte sowohl hinsichtlich des Ausbaus einer Abfrage, die durch eine Erfassung eines wiedergegebenen Dokuments veranlasst wird, als auch der Suchmaschine, die eine solche Abfrage bearbeitet.
3.1. Erfassen/Sprechen/Eintippen als Suchabfrage
Die Nutzung des beschriebenen Systems beginnt üblicherweise mit ein paar Worten, die von einem wiedergegebenen Dokument mithilfe eines der verschiedenen Verfahren; einschließlich der zuvor erwähnten, erfasst werden. Wenn die Eingabe eine Deutung erfordert, um sie in Text umzuwandeln, wie beispielsweise im Fall von OCR oder Spracheingabe, kann es in dem System ein End-to-End-Feedback geben, sodass der Dokumentenkorpus verwendet werden kann, um den Erkennungsprozess zu verbessern. End-to-End-Feedback kann durch Durchführen einer Approximation der Erkennung oder Deutung, Identifizieren eines Satzes von einem oder mehreren übereinstimmenden Kandidatendokumenten und anschließendem Verwenden von Informationen aus den möglichen Übereinstimmungen in den Kandidatendokumenten, um die Erkennung oder Deutung weiter zu verfeinern oder zu beschränken, angewendet werden. Unterlagen von Bewerbern können nach ihrer wahrscheinlichen Relevanz (z. B. basierend auf der Anzahl der anderen Benutzer, die Informationen aus diesen Dokumenten erfasst haben, oder deren Popularität im Internet) gewichtet werden, wobei diese Gewichtungen in diesem iterativen Erkennungsprozess angewendet werden können.
3.2. Suchen nach kurzen Wortverbindungen
Da die selektive Leistung einer Suchabfrage, die auf ein paar Wörtern basiert, erheblich erhöht wird, wenn die relativen Positionen dieser Wörter bekannt ist, muss nur wenig Text erfasst werden, damit das System die Position des Textes in einem Korpus identifizieren kann. In den meisten Fällen wird der Eingabetext eine zusammenhängende Wortfolge sein, wie etwa ein kurzer Satz.
3.2.1 Lokalisieren eines Dokuments und einer Position in einem Dokument bei Erfassung kurzer Phrasen
Neben dem Auffinden des Dokuments, aus dem eine Wortverbindung stammt, kann das System die Position in diesem Dokument identifizieren und Maßnahmen basierend auf diesem Wissen ergreifen.
3.2.2. Sonstige Verfahren zum Auffinden einer Position
Das System kann auch andere Verfahren zur Ermittlung des Dokuments und der Position einsetzen, z. B. kann es Wasserzeichen oder andere spezielle Markierungen in dem wiedergegebenen Dokument verwenden.
3.3. Einbindung anderer Faktoren in Suchabfragen
Neben dem erfassten Text können andere Faktoren (d. h. Informationen zur Identität, zum Profil und zum Kontext des Benutzers) Bestandteil der Suchabfrage sein, wie beispielsweise die Zeit der Erfassung, die Identität und der geografische Standort des Benutzers, Kenntnisse über die Gewohnheiten des Benutzers und kürzliche Aktivitäten usw.
Die Identität des Dokuments und andere Informationen in Zusammenhang mit vorherigen erfassten Informationen, insbesondere wenn sie erst kürzlich erfasst wurden, können Bestandteil einer Suchabfrage sein.
Die Identität des Benutzers kann anhand einer eindeutigen Kennung, die mit einer Erfassungsvorrichtung verknüpft ist, und/oder biometrischen oder anderen ergänzenden Informationen (Sprachmuster, Fingerabdrücke usw.) bestimmt werden.
3.4. Kenntnisse über die Art von Unzuverlässigkeiten in Suchabfragen (OCR-Fehler usw.)
Bei der Erstellung der Suchabfrage können die Arten von Fehlern berücksichtigt werden, die wahrscheinlich beim entsprechenden verwendeten Erfassungsverfahren auftreten. Ein Beispiel dafür ist eine Anzeige vermuteter Fehler bei der Erkennung spezieller Zeichen; in diesem Fall kann eine Suchmaschinen diese Zeichen als Platzhalter behandeln oder ihnen eine geringere Priorität zuweisen.
3.5. Lokale Zwischenspeicherung des Index für bessere Leistung/Offline-Nutzung
Manchmal kann es sein, dass die Erfassungsvorrichtung zum Zeitpunkt der Datenerfassung nicht mit der Suchmaschine oder dem Korpus kommunizieren kann. Aus diesem Grund können Informationen, die für die Offline-Verwendung der Vorrichtung hilfreich sind, im Voraus auf die Vorrichtung oder eine Entität, mit der die Vorrichtung kommunizieren kann, heruntergeladen werden. In einigen Fällen kann die Gesamtheit oder ein wesentlicher Teil eines Indexes, der mit einem Korpus assoziiert ist, heruntergeladen werden. Dieses Thema wird in Abschnitt 15.3 näher besprochen.
3.6. Abfragen in jedweder Form können aufgezeichnet und später ausgeführt werden
Falls es aller Wahrscheinlichkeit zu Verzögerungen oder Kosten in Zusammenhang mit der Übertragung einer Abfrage oder dem Empfang der Ergebnisse kommt, können diese vorgeladenen Informationen die Leistung der lokalen Vorrichtung verbessern, die Kommunikationskosten senken und dem Benutzer hilfreiches und zeitnahes Feedback geben.
Wenn keine Kommunikation möglich ist (das lokale Gerät ist offline), können die Abfragen gespeichert und dann an den Rest des Systems übermittelt werden, sobald die Kommunikation wiederhergestellt ist.
In diesen Fällen kann es wichtig sein, einen Zeitstempel mit jeder Abfrage zu übermitteln. Die Erfassungszeit kann einen erheblichen Faktor bei der Auslegung der Abfrage darstellen. Abschnitt 13.1 bespricht beispielsweise die Bedeutung der Erfassungszeit im Verhältnis zu früheren Erfassungen. Es ist wichtig zu beachten, dass der Erfassungszeitpunkt nicht immer derselbe sein wird wie der Zeitpunkt, zu dem die Abfrage ausgeführt wird.
3.7. Parallele Suche
Aus Leistungsgründen können in Reaktion auf eine einzelne Erfassung mehrere Abfragen nacheinander oder parallel gestartet werden. In Reaktion auf eine einzelne Erfassung können etliche Abfragen gesendet werden, beispielsweise wenn neue Wörter zu der Erfassung hinzugefügt werden, oder um mehrere Suchmaschinen parallel abzufragen.
In einigen Beispielen sendet das System beispielsweise Abfragen an einen speziellen Index für das aktuelle Dokument, an eine Suchmaschine auf einer lokalen Maschine, an eine Suchmaschine in einem Unternehmensnetzwerk und an entfernte Suchmaschinen im Internet.
Den Ergebnissen bestimmter Suchen kann eine höhere Priorität als den Ergebnissen von anderen Suchen zugewiesen werden.
Die Antwort auf eine gegebene Abfrage kann anzeigen, dass andere ausstehende Abfragen überflüssig sind; diese werden unter Umständen vor Abschluss abgebrochen.
4. Papier und Suchmaschinen
Häufig ist es wünschenswert, dass eine Suchmaschine, die herkömmliche Online-Abfragen verarbeitet, auch solche Abfragen verarbeiten kann, die aus wiedergegebenen Dokumenten stammen. Herkömmliche Suchmaschinen können auf vielfältige Weise verbessert oder modifiziert werden, damit sie sich besser zur Verwendung mit dem beschriebenen System eignen.
Die Suchmaschine und/oder andere Komponenten des Systems können Indizes erstellen und beibehalten, die andere oder zusätzliche Funktionen aufweisen. Das System kann eine eingehende, aus Papier stammende Abfrage modifizieren oder die Art verändern, wie die Abfrage in der resultierenden Suche bearbeitet wird, und diese aus Papierdokumenten stammenden Abfragen somit von denen unterscheiden, die aus Abfragen, die in einen Webbrowser eingetippt wurden, und aus anderen Quellen stammen. Zudem kann das System, wenn die Ergebnisse ausgegeben werden, die aus den aus Papier stammenden Suchen hervorgegangen sind, unterschiedliche Aktionen im Vergleich zu denen aus anderen Quellen einleiten oder unterschiedliche Optionen anbieten. Jeder dieser Ansätze wird nachstehend besprochen.
4.1. Indexierung
Häufig kann derselbe Index mithilfe von papierbasierten oder herkömmlichen Abfragen durchsucht werden, der Index kann jedoch auf verschiedenste Weise für die Verwendung im aktuellen System optimiert werden.
4.1.1. Kenntnisse über die Papierform
Solch einem Index können zusätzliche Felder hinzugefügt werden, die bei einer papierbasierten Suche helfen.
Indexeintrag, der Dokumentenverfügbarkeit in Papierform angibt
Das erste Beispiel ist ein Feld. Dieses zeigt an, dass bekannt ist, dass das Dokument in Papierform vorhanden ist oder verteilt wurde. Das System kann solchen Dokumenten eine höhere Priorität geben, wenn die Abfrage papierbasiert ist.
Kenntnisse über die Beliebtheit der Papierform
In diesem Beispiel wurden die statistischen Daten bezüglich der Popularität von Papierdokumenten (und optional bezüglich der Teilbereiche innerhalb dieser Dokumente), wie beispielsweise die Anzahl der Erfassungsaktivitäten, die vom Herausgeber oder anderen Quellen bereitgestellten Umlaufnummern usw., verwendet, um diesen Dokumenten eine höhere Priorität zuzuweisen und so die Priorität von digitalen Dokumentgegenstücken zu erhöhen (z. B. für browserbasierte Abfragen oder Websuchen) usw.
Kenntnisse über wiedergegebenes Format
In einem weiteren wichtigen Beispiel werden unter Umständen die Informationen über das Layout einer spezifischen Wiedergabe eines Dokuments aufgezeichnet.
Beispielsweise kann der Index für eine bestimmte Ausgabe eines Buches Informationen darüber enthalten, wo Zeilen- und Seitenumbrüche eingefügt wurden, welche Schriften verwendet wurden oder wo spezielle Großschreibungen verwendet wurden.
Der Index kann auch Informationen zur Lage von anderen Elementen auf der Seite beinhalten, wie z. B. Bilder, Textfelder, Tabellen und Werbeanzeigen.
Verwendung semantischer Informationen im Original
Zuletzt können auch semantische Informationen im Index aufgezeichnet werden, die aus dem Quellenmarkup abgeleitet werden können, aber nicht im Papierdokument zu sehen sind, wie z. B. ein bestimmter Textteil, der sich auf ein Element bezieht, das zum Kauf angeboten wird, oder ein bestimmter Absatz, der Programmcode enthält.
4.1.2. Indexierung, wenn das Erfassungsverfahren bekannt ist
Ein zweiter Faktor, der die Art des Indexes verändern kann, ist die Kenntnis von der Art der Erfassung, die wahrscheinlich verwendet wird. Eine Suche, die von einem erfassten Bild eines Textes initiiert wird, kann nützlich sein, wenn der Index Zeichen berücksichtigt, die häufig im OCR-Prozess verwechselt werden, oder Angaben über die im Dokument verwendeten Schriften beinhaltet. Beispielsweise kann die Reihenfolge des Buchstabens „r”, gefolgt von dem Buchstaben „n”, mit dem Buchstaben „m” im OCR-Prozess verwechselt werden. Dementsprechend können die Zeichenfolgen „m” oder „m” mit denselben Dokumentgruppen im Index verknüpft sein. Gleichermaßen kann, wenn die Abfrage aus einer Spracherkennung hervorgeht, ein Index, der auf ähnlich klingenden Phonemen basiert, wesentlich effizienter durchsucht werden. Als weiteres Beispiel kann das System ein Dokument vor Indexieren des Dokuments künstlich verwackeln, um die Unschärfe, die wahrscheinlich auftreten wird, wenn ein Benutzer Bilder des Dokuments durch Bewegen einer Erfassungsvorrichtung über dem Dokument aufnimmt, widerzuspiegeln. Ähnliche Techniken können das System widerstandsfähig gegenüber schlechter Optik, Rauschen usw. machen. Ein weiterer Faktor, der sich auf die Verwendung des Indexes in dem beschriebenen Modell auswirken kann, ist die Bedeutung iterativen Feedbacks während des Erkennungsprozesses. Wenn die Suchmaschine in der Lage ist, Feedback von dem Index bereitzustellen, während der Text erfasst wird, kann sie die Genauigkeit der Erfassung erheblich erhöhen.
Indexierung unter Verwendung von Offsets
Wenn der Index wahrscheinlich mithilfe der in einigen Beispielen in Abschnitt 9 beschriebenen OCR-Verfahren mit Offset/Autokorrelation durchsucht wird, speichert das System die entsprechenden Offset- oder Signatur-Informationen in einem Index.
4.1.3. Mehrere Indizes
Schließlich kann es im beschriebenen System häufig vorkommen, dass Suchen in vielen Indizes durchgeführt werden. Indizes können auf mehreren Maschinen in einem Unternehmensnetzwerk verwaltet werden. Teilindizes können auf die Erfassungsvorrichtung oder auf eine Maschine in der Nähe der Erfassungsvorrichtung heruntergeladen werden. Für Benutzer oder Gruppen von Benutzern mit bestimmten Interessen, Gewohnheiten oder Berechtigungen können getrennte Indizes erstellt werden. Für jedes Dateisystem, jedes Verzeichnis, selbst für jede Datei auf der Festplatte eines Benutzers kann ein Index vorhanden sein. Indizes werden von Benutzern und von Systemen veröffentlicht und abonniert. Es wird daher wichtig sein, Indizes zu erstellen, die effizient verteilt, hochgeladen, zusammengeführt und getrennt werden können.
4.2. Verarbeiten von Abfragen
4.2.1. Kenntnis, dass es sich um eine papierbasierte Erfassung handelt
Eine Suchmaschine kann andere Aktionen ausführen, wenn sie erkennt, dass die Suchabfrage anhand eines Papierdokuments erstellt wurde. Die Maschine kann die Abfrage derart bearbeiten, dass sie beispielsweise toleranter gegenüber Fehlertypen ist, die bei bestimmten Erfassungsverfahren eher auftreten.
Sie kann dies möglicherweise von einigen in der Abfrage enthaltenen Indikatoren (z. B. ein Kennzeichen, das die Art der Erfassung wiedergibt) oder aber von der Abfrage selbst ableiten (z. B. anhand der Erkennung von Fehlern oder Unklarheiten, die typisch für den OCR-Prozess sind).
Alternativ können Abfragen von einer Erfassungsvorrichtung über einen anderen Kanal, Port oder Verbindungstyp als jene von anderen Quellen an die Maschine gesendet werden und so auf diese Weise von anderen unterschieden werden. Einige Beispiele des Systems leiten Abfragen beispielsweise mittels eines dedizierten Gateways an die Suchmaschine weiter. Somit weiß die Suchmaschine, dass alle Abfragen, die über das dedizierte Gateway laufen, aus einem Papierdokument stammen.
4.2.2. Verwendung von Kontext
Im nachfolgenden Abschnitt 13 werden eine Vielzahl von unterschiedlichen Faktoren beschrieben, die nicht Bestandteil des erfassten Textes selbst sind, jedoch wesentlich zur Identifizierung eines Dokuments beitragen können. Dazu gehören solche Dinge wie der Verlauf kürzlich erfolgter Erfassungen, die längerfristigen Lesegewohnheiten eines bestimmten Benutzers, der geografische Standort eines Benutzers und die kürzlich erfolgte Verwendung von bestimmten elektronischen Dokumenten. Diese Faktoren werden hierin als „Kontext” bezeichnet.
Ein Teil des Kontextes kann von der Suchmaschine selbst verarbeitet werden und in den Suchergebnissen wiedergegeben werden. Beispielsweise kann die Suchmaschine der Erfassungsverlauf eines Benutzers verfolgen und kann dieser Erfassungsverlauf außerdem mit einem Querverweis auf herkömmliche tastaturbasierte Abfragen versehen. In diesen Fällen kann die Suchmaschine mehr Zustandsinformationen als die meisten herkömmlichen Suchmaschinen über jeden einzelnen Benutzer verwalten und verwenden, und jede Interaktion mit einer Suchmaschine kann derart angesehen werden, dass sie sich über mehrere Suchen und einen längeren Zeitraum als heutzutage üblich erstreckt.
Ein Teil des Kontextes kann in der Suchabfrage (Abschnitt 3.3) an die Suchmaschine übertragen und möglicherweise in der Maschine gespeichert werden, um so bei zukünftigen Abfragen verwendet werden zu können. Zuletzt wird ein Teil des Kontextes besser anderswo bearbeitet und wird so zu einem Filter oder einer sekundären Suche, die auf die Ergebnisse der Suchmaschine angewendet wird.
Beitrat eines Datenstroms zur Suche
Eine wichtige Eingangsgröße im Suchprozess ist der weitere Kontext darüber, wie die Gemeinschaft der Benutzer mit der wiedergegebenen Version des Dokuments interagiert – beispielsweise, welche Dokumente am meisten gelesen werden und von wem. Es gibt Analogien zu einer Websuche, die die Seiten, auf die am häufigsten verlinkt wird, oder solche, die aus vergangenen Suchergebnissen am häufigsten ausgewählt wurden, ausgibt. Für weitere Diskussion zu diesem Thema siehe Abschnitt 13.4 und 14.2.
4.2.3. Dokument-Teilbereiche
Das beschriebene System kann nicht nur Informationen zu Dokumenten als Ganzes, sondern auch Informationen über Teilbereiche von Dokumenten, bis hin zu einzelnen Wörtern, ausgeben und verwenden. Viele bereits vorhandene Suchmaschinen konzentrieren sich hauptsächlich auf das Auffinden eines Dokuments oder einer Datei, die für eine bestimmte Abfrage relevant ist. Diejenigen, die mit einer feineren Körnung arbeiten und eine Stelle innerhalb eines Dokuments identifizieren können, bieten einen erheblichen Vorteil für das beschriebene System.
4.3. Ausgeben von Ergebnissen
Die Suchmaschine kann einige der weiteren Informationen, die sie nun verwaltet, verwenden, um die ausgegebenen Ergebnisse zu beeinflussen.
Das System kann außerdem bestimmte Dokumente ausgeben, auf die der Benutzer nur aufgrund der Tatsache, dass er im Besitz der Papierkopie ist, zugreifen kann (Abschnitt 7.4).
Des Weiteren kann die Suchmaschine über den einfachen Abruf von Text hinaus neue Aktionen oder Optionen anbieten, die für das beschriebene System geeignet sind.
5. Markup Anmerkungen. Verbesserung. Metadaten
Neben dem Durchführen des Erfassen-Suchen-Abrufen-Prozesses, verknüpft das beschriebene System außerdem zusätzliche Funktionalität mit einem Dokument, und insbesondere mit spezifischen Stellen oder Segmenten von Text innerhalb eines Dokuments. Diese zusätzliche Funktionalität ist oftmals, wenn auch nicht exklusiv, mit dem wiedergegebenen Dokument verbunden, indem es mit dessen elektronischem Gegenstück verknüpft ist. Als ein Beispiel könnten Hyperlinks auf einer Webseite dieselbe Funktionalität aufweisen, wenn ein Ausdruck dieser Webseite erfasst wird. In einigen Fällen ist diese Funktionalität nicht in dem elektronischen Dokument definiert, sondern ist gespeichert oder wird anderswo erzeugt.
Diese Ebene zusätzlicher Funktionalität wird hierin als „Markup” bezeichnet.
5.1. Statische oder dynamische Überlagerungen
Eine Möglichkeit, sich das Markup vorzustellen, ist als eine „Überlagerung” auf dem Dokument, welche weitere Informationen über das Dokument oder einen Teil davon bereitstellt – und Aktionen spezifizieren kann, die damit in Verbindung stehen. Das Markup kann für Menschen lesbare Inhalte beinhalten, ist für einen Benutzer aber oftmals unsichtbar und/oder zur Maschinennutzung bestimmt. Zu Beispielen gehören Optionen, die in einem Popup-Menü auf einer nahegelegenen Anzeige angezeigt werden sollen, wenn ein Benutzer Text aus einem bestimmten Bereich in einem wiedergegebenen Dokument erfasst, oder Audiosamples, die die Aussprache einer bestimmten Wortverbindung veranschaulichen. Als ein weiteres Beispiel kann das System einen Jingle abspielen, der mit einer Werbeanzeige assoziiert ist, wenn ein Benutzer die Werbeanzeige aus dem wiedergegebenen Dokument erfasst.
5.1.1 Mehrere Ebenen, möglicherweise aus mehreren Quellen
Jedes Dokument kann mehrere Überlagerungen gleichzeitig aufweisen, und diese können aus einer Reihe von Speicherorten stammen. Markup-Daten können von dem Autor des Dokuments oder vom Benutzer oder von Dritten erstellt oder bereitgestellt werden.
Markup-Daten können an das elektronische Dokument angehängt oder darin eingebettet sein. Sie können sich an einem herkömmlichen Ort befinden (zum Beispiel an dem selben Ort wie das Dokument, jedoch mit einer anderen Dateinamenendung). Markup-Daten können in den Suchergebnissen der Abfrage enthalten sein, die das Originaldokument gefunden hat, oder können durch eine separate Abfrage an dieselbe oder eine andere Suchmaschine gefunden werden. Markup-Daten können unter Verwendung des ursprünglichen erfassten Textes und anderer Erfassungsinformationen oder Kontextinformationen gefunden werden, oder können unter Verwendung bereits abgeleiteter Informationen über das Dokument und den Ort der Erfassung gefunden werden. Markup-Daten können selbst dann an einem Ort gefunden werden, der in dem Dokument spezifiziert ist, wenn das Markup selbst nicht in dem Dokument enthalten ist.
Das Markup kann, in ähnlicher Weise dazu, wie Links auf einer herkömmlichen HTML-Webseite oftmals als statische Daten innerhalb des HTML-Dokuments eingebettet sind, größtenteils statisch und spezifisch für das Dokument sein, wobei Markup jedoch auch dynamisch erzeugt und/oder auf eine große Anzahl von Dokumenten angewendet werden kann. Ein Beispiel für dynamisches Markup sind an ein Dokument angehängte Informationen, die aktuelle Aktienpreise von Unternehmen beinhalten, die in diesem Dokument erwähnt werden. Ein Beispiel für ein vielseitig angewendetes Markup sind Übersetzungsinformationen, die in mehreren Dokumenten oder Abschnitten von Dokumenten automatisch in einer bestimmten Sprache verfügbar sind.
5.1.2. Persönliche „Plugin”-Ebenen
Benutzer können Markupdaten auch installieren oder bestimmte Quellen dafür abonnieren und somit die Reaktion des Systems auf bestimmte Erfassungen personalisieren.
5.2. Schlüsselwörter und Wortverbindungen, Marken und Logos
Einige Elemente in Dokumenten können ein bestimmtes „Markup” oder eine Funktionalität aufweisen, die mit ihnen basierend auf ihren eigenen Eigenschaften anstatt auf ihrer Position in einem bestimmten Dokument assoziiert sind. Zu Beispielen gehören spezielle Markierungen, die in dem Dokument nur zu dem Zweck abgedruckt sind, erfasst zu werden, sowie Logos und Handelsmarken, die den Benutzer mit weiteren Informationen über die betreffende Organisation verbinden können. Dasselbe gilt für „Schlüsselwörter” oder „Schlüsselwortverbindungen” in dem Text. Organisationen können bestimmte Wortverbindungen registrieren, mit denen sie assoziiert sind oder mit denen sie gerne assoziiert sein würden, und diesen bestimmtes Markup beifügen, das überall dort verfügbar wäre, wo diese Wortverbindung erfasst wird.
Jedes Wort, jede Wortverbindung usw. kann dazugehöriges Markup aufweisen. Zum Beispiel kann das System bestimmte Items zu einem Popup-Menü (z. B. einen Link auf eine Online-Buchhandlung) immer dann hinzufügen, wenn der Benutzer das Wort „Buch” oder den Titel eines Buches oder eines Themas im Zusammenhang mit Büchern erfasst. In einigen Beispielen des Systems werden digitale Dokumentgegenstücke oder Indizes herangezogen, um zu bestimmen, ob eine Erfassung in der Nähe des Wortes „Buch” oder des Titels eines Buches oder eines Themas im Zusammenhang mit Büchern stattgefunden hat – und das Systemverhalten wird gemäß dieser Nähe zu Schlüsselwort-Elementen verändert. In dem vorstehenden Beispiel ist zu beachten, dass das Markup Daten, die aus einem nicht kommerziellen Text oder Dokumenten erfasst wurden, ermöglicht, eine kommerzielle Transaktion auszulösen.
5.3. Vom Benutzer bereitgestellte Inhalte
5.3.1. Benutzerkommentare und Anmerkungen, einschließlich Multimedia
Anmerkungen sind eine weitere Art von elektronischen Informationen, die mit einem Dokument verknüpft sein können. Zum Beispiel kann ein Benutzer eine Audiodatei seiner Überlegungen zu einem bestimmten Dokument als Sprachanmerkungen zum späteren Abrufen anfügen. Als ein anderes Beispiel für eine Multimedia-Anmerkung kann ein Benutzer Fotos von Orten anfügen, auf die in dem Dokument Bezug genommen wird. Der Benutzer stellt im Allgemeinen Anmerkungen für das Dokument bereit, doch das System kann Anmerkungen aus anderen Quellen assoziieren (andere Benutzer in einer Arbeitsgruppe können beispielsweise Anmerkungen teilen).
5.3.2. Notizen vom Korrekturlesen
Ein wichtiges Beispiel für von Benutzern stammendes Markup ist die Kommentierung auf Papierdokumenten im Zuge eines Korrekturlese-, Bearbeitungs- oder Überprüfungsvorgangs.
5.4. Inhalte Dritter
Wie zuvor erwähnt kann Markup häufig durch Dritte bereitgestellt werden, z. B. durch andere Leser des Dokuments. Ein gutes Beispiel sind Onlineunterhaltungen und Rezensionen, sowie von einer Community verwaltete Informationen im Zusammenhang mit bestimmten Werken, von Freiwilligen beigesteuerte Übersetzungen und Erklärungen.
Ein weiteres Beispiel für Markup Dritter ist das, das von Werbekunden bereitgestellt wird.
5.5. Dynamisches Markup auf Basis von Datenströmen anderer Benutzer
Durch Analysieren der Daten, die von Dokumenten von mehreren oder allen Benutzern des Systems erfasst wurden, kann Markup erstellt werden, das auf den Aktivitäten und Interessen einer Gemeinschaft basiert. Ein Beispiel kann eine Online-Buchhandlung sein, die Markup oder Anmerkungen erstellt, die dem Benutzer faktisch mitteilen „Personen, denen dieses Buch gefallen hat, haben auch Gefallen gefunden an ...”. Das Markup kann weniger anonym sein und kann dem Benutzer mitteilen, welche der Personen in seiner Kontaktliste dieses Buch ebenfalls vor Kurzem gelesen haben. Weitere Beispiele für die Datenstromanalyse sind in Abschnitt 14 enthalten.
5.6. Markup auf Basis von externen Ereignissen und Datenquellen
Oftmals wird Markup auf externen Ereignissen und Datenquellen, wie etwa Eingaben aus einer Unternehmensdatenbank, Informationen aus dem öffentlichen Internet oder Statistiken, die von dem lokalen Betriebssystem zusammengetragen wurden, basiert sein.
Datenquellen können auch lokaler sein und können insbesondere Informationen über den Benutzerkontext bereitstellen – über seine Identität, Standort und Aktivitäten. Das System kann zum Beispiel mit einer Mobiltelefonkomponente der Erfassungsvorrichtung des Benutzers kommunizieren und eine Markup-Ebene bereitstellen, die dem Benutzer die Option gibt, ein Dokument an jemanden zu senden, mit dem der Benutzer vor Kurzem am Telefon gesprochen hat.
5.7 Bildverbesserungen und Kompensation
In einigen Beispielen stellt das System durch Überlagern mit einer Darstellung, die das Dokument mit verschiedenen Anzeigeelementen zeigt, eine erweiterte Ansicht eines Dokuments bereit. Die erweiterte Ansicht kann ein Echtzeitbild eines Abschnitts des Dokuments innerhalb des Sichtfelds einer Erfassungsvorrichtung mit verschiedenen Anzeigeelementen in Verbindung mit dem Dokument überlagern oder kann verknüpfte elektronische Versionen oder Bilder des Dokuments, die durch das System abgerufen oder erzeugt wurden, mit verschiedenen Anzeigeelementen in Verbindung mit dem Dokument darstellen oder überlagern. In einigen Beispielen stellt das System Dokumentinteraktionstechniken bereit, die verschiedene Hardware-Konfigurationen von Erfassungsvorrichtungen, wie etwa die Anordnung von Kameras und anderen Abbildungskomponenten in Bezug auf die Anzeige oder einen Mittelpunkt eines Dokuments, die Größe einer Erfassungsvorrichtung und/oder die Anzeige der Erfassungsvorrichtung ausgleichen. Das System kann Dokumentinteraktionstechniken bereitstellen, die es einem Benutzer ermöglichen, Papierdokumente zu navigieren, Markup in Verbindung mit Dokumenten zu identifizieren, Papierdokumente heran- oder herauszuzoomen und so weiter. Das System kann zum Beispiel auf Gesten reagieren, die von einem Benutzer einer Erfassungsvorrichtung durchgeführt werden, wie etwa Gesten, die eine Erfassungsvorrichtung im Verhältnis zu einem Papierdokument in verschiedenen Richtungen bewegen. Neben anderen Vorteilen ermöglicht das System Benutzern somit, mit Papierdokumenten. Zielobjekten und anderen Anzeigen von Informationen unter Verwendung von Multifunktionsmobilgeräten zu interagieren, die nicht notwendigerweise nur dafür hergestellt wurden, mit Informationen zu interagieren oder Informationen aus der Umgebung um die Vorrichtung herum zu erfassen.
6. Authentifizierung Personalisierung und Sicherheit
In vielen Situationen ist die Identität des Benutzers bekannt. Diese kann gelegentlich eine „anonyme Identität” sein, wobei der Benutzer beispielsweise nur über die Seriennummer der Erfassungsvorrichtung identifiziert wird. Normalerweise wird jedoch davon ausgegangen, dass das System über wesentlich detailliertere Kenntnisse über den Benutzer verfügt, die verwendet werden können, um das System zu personalisieren und zu erlauben, dass Aktivitäten und Transaktionen im Namen des Benutzers durchgeführt werden.
6.1. Benutzerchronik und „Lebensbibliothek”
Eine der einfachsten und doch hilfreichsten Funktionen, die das System durchführen kann, ist das Anlegen eines Datensatzes für einen Benutzer von dem Text, den er erfasst hat, und allen anderen Informationen, die mit diesen erfassten Informationen verknüpft sind, einschließlich der Details von allen gefundenen Dokumenten, der Stelle innerhalb dieses Dokuments und allen infolgedessen ausgeführten Aktionen. In einigen Beispielen kann das System erfasste Informationen an eine benutzerdefinierte E-Mail-Adresse senden, wobei ein Benutzer mittels eines E-Mail-Clients über ein E-Mail-Protokoll, wie etwa POP3, IMAP usw., auf die erfassten Informationen zugreifen kann. Darüber hinaus können die erfassen Informationen, die als E-Mail gespeichert werden, einen Link zu einer umfangreicheren Lebensbibliothekserfahrung beinhalten, wie etwa die, die in Abschnitt 16.1 beschrieben sind.
Diese gespeicherte Chronik ist sowohl für den Benutzer als auch für das System nützlich.
6.1.1. Für den Benutzer
Dem Benutzer kann eine „Lebensbibliothek” präsentiert werden, wobei es sich um einen Datensatz von allem handelt, was er gelesen und erfasst hat. Diese kann allein dem persönlichen Interesse dienen oder aber beispielsweise in einer Bibliothek von einem Akademiker verwendet werden, der Material für die Bibliografie seiner nächsten Abhandlung sammelt.
In manchen Fällen möchte der Benutzer die Bibliothek möglicherweise öffentlich zugänglich machen, indem er sie beispielsweise wie einen Weblog im Internet veröffentlicht, sodass andere sehen können, was er liest und was ihn interessiert.
Zuletzt kann die Erfassung, in Situationen, in denen der Benutzer irgendeinen Text erfasst und das System nicht unmittelbar auf die Erfassung einwirken kann (zum Beispiel, weil eine elektronische Version des Dokuments noch nicht zur Verfügung steht), in der Bibliothek gespeichert werden und kann später, entweder automatisch oder als Reaktion auf eine Benutzeranforderung, verarbeitet werden. Ein Benutzer kann außerdem neue Markup-Dienste abonnieren und diese auf vorherige Erfassungen anwenden.
6.1.2. Für das System
Ein Datensatz, der die zuvor erfassten Informationen eines Benutzers beinhaltet, ist auch für das System nützlich. Die Lesegewohnheiten und den -verlauf des Benutzer zu kennen, kann viele Aspekte des Systembetriebs verbessern. Das einfachste Beispiel ist, dass jede Erfassung, die von einem Benutzer durchgeführt wird, wahrscheinlicher aus einem Dokument stammt, aus dem der Benutzer in der jüngeren Vergangenheit Informationen erfasst hat, wobei es insbesondere dann, wenn die vorherige Erfassung innerhalb der letzten paar Minuten erfolgt ist, sehr wahrscheinlich ist, dass sie aus demselben Dokument stammt. Gleichermaßen ist es wahrscheinlicher, dass ein Dokument in einer Anfang-bis-Ende-Reihenfolge gelesen wird. Bei englischen Dokumenten ist es daher ebenfalls wahrscheinlicher, dass spätere Erfassungen weiter unten in dem Dokument erfolgen werden. Derartige Faktoren können dem System dabei helfen, in Fällen von Mehrdeutigkeit den Ort der Erfassung festzustellen, und können zudem die Menge an Text reduzieren, der erfasst werden muss.
6.2. Erfassungsvorrichtung als Zahlungs-, Identitäts- und Authentifizierungsvorrichtung
Da der Erfassungsprozess in der Regel mit irgendeiner Art Vorrichtung beginnt, kann die Vorrichtung als Schlüssel verwendet werden, der den Benutzer identifiziert und bestimmte Aktionen autorisiert.
6.2.1. Erfassungsvorrichtung mit Benutzerkonto verknüpfen
Die Erfassungsvorrichtung kann mit dem Konto eines Mobiltelefons verknüpft werden. Die Erfassungsvorrichtung kann mit einem Mobilfunkkonto beispielsweise durch Einsetzen einer SIM-Karte, die mit dem Konto verbunden ist, in die Erfassungsvorrichtung verknüpft werden. Gleichermaßen kann die Vorrichtung in einer Kreditkarte oder anderen Zahlungskarte eingebettet sein oder über das System verfügen, um eine solche Karte damit zu verbinden. Die Vorrichtung kann daher als ein Zahlungstoken verwendet werden und Finanztransaktionen können durch die Erfassung aus dem wiedergegebenen Dokument initiiert werden.
6.2.2. Verwenden der Erfassung zur Authentifizierung
Die Erfassungsvorrichtung kann über den Prozess der Erfassung eines Tokens, Symbols oder Textes, der oder das mit einem bestimmten Benutzer oder Konto verknüpft ist, auch mit diesem Benutzer oder Konto verknüpft werden. Darüber hinaus kann die Erfassungsvorrichtung zur biometrischen Identifikation verwendet werden, zum Beispiel durch Erfassen eines Fingerabdrucks des Benutzers. Im Fall einer audiobasierten Erfassungsvorrichtung kann das System den Benutzer durch Abgleichen des Stimmmusters des Benutzers oder durch Erfordern, dass der Benutzer ein bestimmtes Passwort oder einen Satz sagt, identifizieren.
Wenn ein Benutzer beispielsweise ein Zitat aus einem Buch erfasst und ihm die Option bereitgestellt wird, das Buch von einem Onlinehändler zu kaufen, kann der Benutzer diese Option auswählen und wird anschließend aufgefordert, seinen Fingerabdruck zu erfassen, um die Transaktion zu bestätigen.
Siehe auch Abschnitt 15.5 und 15.6.
6.2.3. Sichere Erfassungsvorrichtung
Wenn die Erfassungsvorrichtung zur Identifizierung und Authentifizierung des Benutzers und zur Initiierung von Transaktionen im Namen des Benutzers verwendet wird, ist es wichtig, dass die Kommunikationen zwischen der Vorrichtung und anderen Teilen des Systems sicher sind. Außerdem ist es wichtig, vor Situationen, wie dass eine andere Vorrichtung eine Erfassungsvorrichtung imitiert, und sogenannten „Man-In-The-Middle”-Angriffen, bei denen eine Kommunikation zwischen der Vorrichtung und anderen Komponenten abgehört wird, zu schützen.
Techniken, die eine derartige Sicherheit bereitstellen, sind Fachleuchten auf dem Gebiet hinreichend bekannt; In zahlreichen Beispielen sind die Hardware und die Software in der Vorrichtung und anderswo im System so konfiguriert, dass sie diese Techniken implementieren.
7. Veröffentlichungsmodelle und -elemente
Ein Vorteil des beschriebenen Systems liegt darin, dass es, um viele der Vorteile des Systems zu erhalten, nicht erforderlich ist, die üblichen Prozesse des Erzeugens, Druckens oder Veröffentlichens von Dokumenten zu verändern. Es gibt jedoch Gründe, dass die Ersteller oder Herausgeber eines Dokuments – nachstehend einfach als „Herausgeber” bezeichnet – die Funktionalität zur Unterstützung des beschriebenen Systems ggf. herstellen möchten.
Dieser Abschnitt befasst sich hauptsächlich mit den veröffentlichten Dokumenten selbst. Für Informationen über andere damit im Zusammenhang stehende kommerzielle Transaktionen, wie etwa Werbung, siehe Abschnitt 10 mit der Überschrift „P-Commerce”.
7.1. Elektronische Gegenstücke zu gedruckten Dokumenten
Das System ermöglicht, dass gedruckte Dokumente über eine zugehörige elektronische Präsenz verfügen. Üblicherweise liefern Herausgeber oftmals eine CD-ROM mit einem Buch aus, die weitere digitale Informationen, Anleitungsvideos und andere Multimediadaten, Beispielcode oder Dokumente oder weiteres Referenzmaterial enthält. Zusätzlich unterhalten einige Herausgeber Webseiten in Verbindung mit bestimmten Veröffentlichungen, welche derartige Materialien sowie Informationen, die nach dem Zeitpunkt der Veröffentlichung aktualisiert werden können, wie etwa Fehlerverzeichnisse, weitere Kommentare, aktualisierte Referenzmaterialien, Bibliografien und weitere Quellen für relevante Daten und Übersetzungen in andere Sprachen, zur Verfügung stellen. Online-Foren ermöglichen es den Lesern, ihre Kommentare zu der Veröffentlichung einzubringen.
Das beschreibene System ermöglicht es, dass derartige Materialien wesentlich enger als je zuvor mit dem wiedergegebenen Dokument in Verbindung stehen, und ermöglicht es dem Benutzer, diese wesentlich einfacher aufzufinden und damit zu interagieren. Durch Erfassen eines Teils eines Textes aus dem Dokument kann das System den Benutzer automatisch mit digitalen Materialien, die mit dem Dokument verknüpft sind und insbesondere mit dem spezifischen Teil des Dokuments verknüpft sind, vernetzen und diese Materialien auf der Erfassungsvorrichtung anzeigen. Gleichermaßen kann der Benutzer über die Erfassungsvorrichtung mit Onlinecommunities, die sich mit diesem Abschnitt des Textes auseinandersetzen, oder mit Anmerkungen und Kommentaren von anderen Lesern vernetzt werden. In der Vergangenheit hätten derartige Informationen typischerweise durch Suchen nach einer bestimmten Seitenzahl oder einem Kapitel aufgefunden werden müssen.
Eine beispielhafte Anwendung hierfür findet sich auf dem Gebiet wissenschaftlicher Lehrbücher (Abschnitt 17.5).
7.2. „Abonnements” für gedruckte Dokumente
Einige Herausgeber verfügen unter Umständen über Mailing-Listen, in die sich die Leser eintragen lassen können, falls sie über neue relevante Informationen oder die Veröffentlichung einer neuen Ausgabe des Buchs informiert werden möchten. Mit dem beschriebenen System kann der Benutzer sein Interesse an bestimmten Dokumenten oder Teilen von Dokumenten leichter bekunden, in einigen Fällen sogar bevor der Herausgeber ein Bereitstellen einer derartigen Funktionalität erwogen hat. Das Interesse des Lesers kann dem Herausgeber mitgeteilt werden, wodurch dessen Entscheidung darüber, wann und wo Aktualisierungen, weitere Informationen, Neuauflagen oder sogar ganz neue Publikationen zu Themen verfügbar sind, die sich für bestehende Bücher als interessant erwiesen haben, möglicherweise beeinflusst wird.
7.3. Gedruckte Markierungen, die eine besondere Bedeutung aufweisen oder spezielle Daten enthalten
Viele Aspekte des Systems sind einfach durch die Verwendung von dem bereits in einem Dokument vorhandenen Text möglich. Wenn das Dokument jedoch in dem Wissen hergestellt wird, dass es in Verbindung mit dem System verwendet werden kann, kann zusätzliche Funktionalität durch Drucken zusätzlicher Informationen in Form spezieller Markierungen hinzugefügt werden, welche verwendet werden können, um den Text oder eine erforderliche Aktion genauer zu identifizieren oder die Interaktion des Dokuments mit dem System anderweitig zu verbessern. Das einfachste und wichtigste Beispiel ist ein Hinweis für den Leser, dass das Dokument durch das System definitiv abrufbar ist. Beispielsweise kann ein spezielles Symbol verwendet werden, um anzuzeigen, dass dieses Dokument mit einem zugehörigen Online-Diskussionsforum verknüpft ist.
Diese Symbole können nur für den Leser gedacht sein oder möglicherweise während der Erfassung vom System erkannt und zur Initiierung einer Aktion verwendet werden. In dem Symbol können ausreichend Daten codiert sein, um mehr als nur das Symbol zu identifizieren: Es kann beispielsweise außerdem Informationen über das Dokument, die Ausgabe und den Ort des Symbols speichern, die durch das System erkannt und gelesen werden können.
7.4. Autorisierung durch Besitz des Papierdokuments
Es gibt einige Situationen, in denen Besitz oder Zugriff auf das gedruckte Dokument dem Benutzer bestimmte Rechte einräumen würde, beispielsweise den Zugriff auf eine elektronische Kopie des Dokuments oder auf zusätzliche Materialien. Mit dem beschriebenen System könnten solche Rechte in einfach als Ergebnis einer Erfassung von Abschnitten des Textes aus dem Dokument oder einer Erfassung spezieller gedruckter Symbole gewährt werden. In Fallen, in denen das System sicherstellen muss, dass der Benutzer im Besitz des gesamten Dokuments war, fordert es den Benutzer ggf. dazu auf, bestimmte Elemente oder Phrasen von bestimmten Seiten, z. B. „Die zweite Zeile von Seite 46”, zu erfassen.
7.5. Ablaufende Dokumente
Wenn das gedruckte Dokument ein Gateway zu zusätzlichen Materialien und Funktionalität ist, kann ein Zugriff auf Funktionalitäten auch zeitlich beschränkt werden. Nach dem Ablaufdatum kann von einem Benutzer verlangt werden, dass er eine Gebühr bezahlt, um eine neuere Ausgabe des Dokuments zu erhalten, um erneut auf die Funktionalitäten zugreifen zu können. Das Papierdokument kann natürlich weiterhin verwendet werden, verliert jedoch einen Teil seiner erweiterten elektronischen Funktionalität. Dies kann wünschenswert sein, zum Beispiel, weil es für den Herausgeber von Nutzen ist, Gebühren für einen Zugang zu elektronischen Materialien zu beziehen, oder es erforderlich zu machen, dass der Benutzer gelegentlich neue Ausgaben erwirbt, oder weil es Nachteile in Verbindung mit veralteten Ausgaben der gedruckten Dokumente, die im Umlauf verbleiben, gibt. Gutscheine sind ein Beispiel für eine Art kommerziellen Dokuments, das ein Ablaufdatum aufweisen kann.
7.6. Popularitätsanalyse und Veröffentlichungsentscheidungen
In Abschnitt 10.5 wird die Verwendung der Statistike des Systems zur Beeinflussung der Vergütung von Autoren und der Preisgestaltung von Werbeanzeigen erörtert.
In einigen Beispielen leitet das System die Popularität einer Veröffentlichung von der Aktivität in der elektronischen Community, die mit ihr verknüpft ist, sowie von der Verwendung des Papierdokuments ab. Diese Faktoren können Herausgebern helfen, Entscheidungen darüber zu treffen, was sie in Zukunft veröffentlichen werden. Wenn sich ein Kapitel in einem vorhandenen Buch beispielsweise als überaus populär herausstellt, kann es sich lohnen, dieses auf eine separate Veröffentlichung auszuweiten.
8. Dokumentzugriffsdienste
Ein wichtiger Aspekt des beschriebenen Systems ist die Fähigkeit, einem Benutzer, der Zugriff auf eine wiedergegebene Kopie eines Dokuments hat, den Zugriff auf eine elektronische Version dieses Dokuments zu ermöglichen. In einigen Fällen ist ein Dokument in einem öffentlichen Netzwerk oder einem privaten Netzwerk, zu dem der Benutzer Zugang hat, frei verfügbar. Das System verwendet den erfassten Text, um das Dokument zu identifizieren, aufzufinden und abzurufen, wobei es in einigen Fällen auf der Erfassungsvorrichtung angezeigt oder im E-Mail-Posteingang abgelegt wird.
In einigen Fällen ist ein Dokument in elektronischer Form vorhanden, aber möglicherweise aufgrund einer Vielzahl von Gründen nicht für den Benutzer zugänglich. Es kann vorkommen, dass die Konnektivität nicht ausreicht, um das Dokument abzurufen, dass der Benutzer nicht berechtigt ist, es abzurufen, es können Kosten mit der Erteilung des Zugriffs darauf verbunden sein oder das Dokument kann zurückgezogen und womöglich durch eine neue Version ersetzt worden sein, um nur einige Möglichkeiten zu nennen. Das System stellt dem Benutzer typischerweise Feedback über diese Situationen bereit.
Wie in Abschnitt 7.4 beschrieben variiert der Umfang oder die Art des Zugriffs, der einem bestimmten Benutzer gewährt wird, wenn bekannt ist, dass der Benutzer bereits Zugriff auf eine gedruckte Ausgabe des Dokuments hat.
8.1. Authentifizierter Dokumentenzugriff
Der Zugriff auf das Dokument kann auf bestimmte Benutzer oder auf diejenigen beschränkt sein, die bestimmte Kriterien erfüllen, oder nur unter bestimmten Umständen verfügbar sein, z. B. wenn der Benutzer mit einem sicheren Netzwerk verbunden ist. Abschnitt 6 beschreibt einige der Möglichkeiten, wie die Anmeldedaten eines Benutzers und einer Erfassungsvorrichtung ermittelt werden können.
8.2. Dokumentenerwerb-Vergütung des Urheberrechtsinhabers
Dokumente, die der allgemeinen Öffentlichkeit nicht frei zur Verfügung stehen, können dennoch gegen Zahlung einer Gebühr, häufig zur Vergütung des Herausgebers oder des Urheberrechtsinhabers, zugänglich sein. Das System kann Zahlungsmöglichkeiten direkt implementieren oder kann andere Zahlungsmethoden im Zusammenhang mit dem Benutzer verwenden, einschließlich der in Abschnitt 6.2 beschriebenen.
8.3. Dokumenthinterlegung und proaktiver Abruf
Elektronische Dokumente sind häufig flüchtiger Natur; die digitale Quellversion eines wiedergegebenen Dokuments kann gegenwärtig verfügbar, in der Zukunft jedoch nicht mehr zugänglich sein. Das System kann die existierende Version im Interesse des Benutzers selbst dann, wenn der Benutzer dies nicht angefordert hat, abrufen und speichern und garantiert somit deren Verfügbarkeit, falls sie der Benutzer in Zukunft anfordern sollte. Dadurch wird sie außerdem dem System zur Verwendung bereitgestellt, zum Beispiel als Teil des Prozesses der Identifikation zukünftiger Erfassungen.
In dem Fall, dass eine Zahlung für den Zugriff auf das Dokument erforderlich ist, kann ein vertrauenswürdiger Dienst zur „Dokumenthinterlegungs” das Dokument gegen Zahlung einer geringen Gebühr und gegen Zusicherung, dass der Urheberrechtsinhaber in der Zukunft im vollen Umfang vergütet wird, wenn der Benutzer jemals das Dokument von dem Dienst anfordert, im Namen des Benutzers abrufen.
Variationen diesbezüglich können implementiert werden, wenn das Dokument zum Zeitpunkt der Erfassung nicht in elektronischer Form vorliegt. Der Benutzer kann den Dienst autorisieren, in seinem/ihrem Namen eine Anfrage für das Dokument abzuschicken oder eine Zahlung dafür durchzuführen, wenn das elektronische Dokument zu einem späteren Zeitpunkt verfügbar sein sollte.
8.4. Verknüpfung mit anderen Abonnements und Konten
Manchmal kann eine Zahlung basierend auf einer vorhandenen Verknüpfung mit einem anderen Konto oder Abonnement des Benutzers erlassen oder verringert werden bzw. als bezahlt gelten. Abonnenten der gedruckten Version einer Zeitung können beispielsweise automatisch berechtigt sein, die elektronische Version abzurufen.
In anderen Fällen ist die Verknüpfung unter Umständen nicht ganz so direkt: Einem Benutzer wird möglicherweise basierend auf einem Konto, das von seinem Arbeitgeber eingerichtet wurde, oder basierend auf seiner Erfassung einer gedruckten Kopie, die einem Freund gehört, der ein Abonnent ist, Zugriff gewährt.
8.5. Ersetzen des Fotokopierens durch Erfassen-und-Drucken
Der Prozess des Erfassen von Text aus einem Papierdokument, Identifizierens eines elektronischen Originals und Druckens dieses Originals oder eines Teils dieses Originals, das mit der Erfassung verknüpft ist, stellt eine Alternative zum herkömmlichen Fotokopieren dar und bietet viele Vorteile:

• Das Papierdokument muss sich nicht am selben Ort wie das Enddokument befinden Ausdruck und muss in keinem Fall zur gleichen Zeit da sein.
• Die Dokumente nutzen nicht ab bzw. werden nicht beschädigt, wie das häufig beim Fotokopieren der Fall ist besonders bei alten, brüchigen und wertvollen Dokumenten, kann verhindert werden
• Die Qualität der Kopie ist in der Regel viel höher.
• Es können Aufzeichnungen darüber gespeichert werden, welche Dokumente oder Teile von Dokumenten am häufigsten kopiert werden.
• Die Bezahlung des Urheberrechtsinhabers kann im Rahmen des Prozesses erfolgen.
• Unautorisiertes Kopieren kann untersagt werden.

8.6. Auffinden wertvoller Originale von Fotokopien
Wenn Dokumente sehr wertvoll sind, z. B. wenn es sich um Rechtspapiere oder -dokumente handelt, die von historischer oder anderweitig von besonderer Bedeutung sind, arbeiten Personen in der Regel mit Kopien dieser Dokumente, häufig viele Jahre lang, während die Originale an einem sicheren Ort aufbewahrt werden.
Das beschriebene System könnte mit einer Datenbank verknüpft werden, in der der Ort (z. B. ein zur Archivierung dienendes Lagerhaus) eines Originaldokuments aufgezeichnet wird, wodurch jemand, der Zugriff auf eine Kopie hat, das archivierte Originalpapierdokument leicht lokalisieren sind.
9. Technologien zur Verarbeitung von Informationen
Technologien zur optischen Zeichenerkennung (OCR) konzentrieren sich bisher üblicherweise auf Bilder, die eine große Menge an Text beinhalten, die z. B. von einem Flachbettscanner stammt, der eine ganze Seite erfasst. OCR-Technologien benötigen oftmals umfassendes Training und Korrektur durch den Benutzer, um einen brauchbaren Text zu erzeugen. OCR-Technologien erfordern eine erhebliche Verarbeitungsleistung der Maschine, die die OCR durchführt, und obwohl viele Systeme ein Wörterbuch verwenden, sollen sie im Allgemeinen mit einem quasi unendlichen Vokabular arbeiten können.
Alle zuvor beschriebenen herkömmlichen Eigenschaften können durch das beschriebene System verbessert werden. Jedoch können die hierin beschriebenen Techniken, wie etwa die Erkennung von Text, Identifikation von Dokumenten, Erkennung von Informationen und andere, natürlich auch unter Verwendung von typischen OCR-Technologien implementiert sein.
Viele der diskutierten Probleme sind direkt mit anderen Erkennungstechnologien, insbesondere der Spracherkennung, verknüpft. Wie in Abschnitt 3.1 erwähnt, kann der Prozess des Erfassen von Papier erreicht werden, indem ein Benutzer den Text einer Vorrichtung, die Audio erfasst, laut vorliest. Fachleute werden erkennen, dass die hier in Bezug auf Bilder, Schriftarten und Textfragmente besprochenen Prinzipien oftmals auch für Audiosamples, Benutzersprachmodelle und Phoneme gelten.
Eine Erfassungsvorrichtung, die zur Verwendung mit dem beschriebenen System vorgesehen ist, ist häufig klein, tragbar, hat einen niedrigen Strombedarf und dient nicht einzig und allein zur Texterfassung. Die Erfassungsvorrichtung kann optische Elemente aufweisen, die für OCR nicht ideal geeignet sein können, oder keine optischen Elemente aufweisen, die bei OCR behilflich sind.
Die Erfassungsvorrichtung erfasst unter Umständen jeweils nur ein paar Worte und in einigen Implementierungen möglicherweise noch nicht einmal ein ganzes Zeichen auf einmal, sondern einen horizontalen Schnitt durch den Text, wobei viele dieser Schnitte zusammengefügt werden, um ein erkennbares Signal zu bilden, von dem ein Text abgeleitet werden kann. Die Erfassungsvorrichtung kann zudem eine sehr eingeschränkte Verarbeitungsleistung oder Speicher aufweisen, weshalb, obgleich sie in einigen Beispielen sämtliche OCR-Prozesse selbst durchführen kann, viele Beispiele auf eine Verbindung zu einer leistungsstärkeren Vorrichtung, möglicherweise zu einem späteren Zeitpunkt, angewiesen sind, um die erfassten Signale in Text umzuwandeln. Schließlich können die Möglichkeiten für Benutzerinteraktionen begrenzt sein, sodass möglicherweise alle Anfragen für Benutzereingaben auf einen späteren Zeitpunkt verschoben werden müssen oder in einem höheren Grad als bisher üblich in einem „Beste Schätzung”-Modus gearbeitet werden muss.
In einigen Beispielen verarbeitet das System erfasste Informationen, indem es erst das Vorhandensein von zu erkennenden interessierenden Informationen identifiziert, wie beispielsweise Text oder Sprache, dann die Merkmale extrahiert, die mit dem Ort der interessierenden Informationen innerhalb der erfassten Informationen verknüpft sind, wie beispielsweise die Position von Wörtern, Zeilen, Absätze, Spalten usw. auf einer Seite oder der Frequenzbereich für einen bestimmten Redner in einer Menschenmenge, und schließlich die Merkmale der interessierenden Informationen erkennt, wie beispielsweise das Layout des Textes innerhalb eines wiedergegebenen Dokuments oder die Identifizierung von Unicode-Zeichen, die erkannten Buchstaben innerhalb eines wiedergegebenen Dokuments entsprechen, um zum Beispiel die Quelle des erfassten Bildes zu identifizieren oder eine Markup-Ebene zu erzeugen und über dem erfassten Bild anzuzeigen. Obgleich diese Prozesse auf jedweder Art von Informationen durchgeführt werden können, beschreiben die nachstehenden Beispiele diese Prozesse in Bezug auf textbasierte wiedergegebene Dokumente.
9.1 Identifikation und Extraktion
Identifikation ist der Prozess der Bestimmung der Wahrscheinlichkeit, dass ein erfasstes Bild Text enthält. Da die Erfassungsvorrichtung Bilder ständig aufnehmen kann, kann das System bevor es versucht. Textmerkmale aus des erfassten Informationen zu extrahieren oder den Text zu erkennen, zunächst bestimmen, ob ein aufgenommenes Bild Text enthält. Mit anderen Worten, das System ist „Text-bewusst”, sodass es jederzeit feststellen kann, ob es sich in der Gegenwart von Text befindet.
Sobald das System bestimmt, dass Text vorhanden ist, kann das System mit dem Extraktionsprozess beginnen. Der Extraktionsprozess identifiziert die Lage des Textes innerhalb einer Erfassung. Der Extraktionsprozess kann zum Beispiel Bereichsgrenzen erzeugen, die Wörtern und Absätzen innerhalb des aufgenommenen Bildes entsprechen.
Mehrere Faktoren spielen bei den Identifikations- und Extraktionsprozessen eine Rolle. Beim Analysieren von Text kann das System beispielsweise verschiedene Merkmale in Zusammenhang mit Strichen innerhalb des Textes identifizieren, wie z. B. das Vorhandensein kontrastreicher Kanten, das Fehlen von Farbvariationen innerhalb der Striche (z. B. beim Vergleich des Hintergrunds mit den Vordergrundfarben eines Striches), eine gleichbleibende Breite (horizontal, vertikal oder in beide Richtungen), das Vorhandensein gerader Kanten, das Vorhandensein sanft abgerundeter Kanten usw. In einem anderen Beispiel kann das System die Periodizität oder Wiederholung von Eigenschaften von möglichem Text innerhalb eines erfassten Bildes identifizieren, wie z. B. die Kanten von Strichen, das Vorhandensein horizontaler und/oder vertikaler Striche, Grundlinien, Höhenlinien, Winkel zwischen dominanten vertikalen Linien und Grundlinien, das Vorhandensein von Glyphen oder Teilkomponenten von Glyphen (z. B. Ecken, Kurven, Diagonalen, Brücken zwischen Teilen einer Glyphe wie einen schmalen Strich zwischen breiten Strichen in einem kalligrafischen Buchstaben, Serifen, konsistente Zeilenenden und Gehrungen usw.). Das System kann zudem Bewegungsunschärfe verwenden, um das Vorhandensein von Text basierend auf dem Vorhandensein von hellen und dunkelfarbigen Bändern in der Bewegungsrichtung, wie z. B. Hintergrund- und Vordergrundstreifenbildung im Falle einer extremen Bewegungsunschärfe entlang der horizontalen Textachse in von links nach rechts verlaufenden Skripten, identifizieren.
Weitere Faktoren, die während der Identifikation und Extraktion von Text möglicherweise berücksichtigt werden, sind unter anderem folgende:

• Zeilen
– Glyphen-Vertikale innerhalb einer Linie
– Glyphen-Horizontale innerhalb einer Linie
– Grundlinie
– Höhe der Glyphen oder Symbole innerhalb einer Linie
– Horizontale Freiräume zwischen Zeichen, Wörtern und/oder Strichen
– Vertikale Leerstellen zwischen Linien
– Kanten und Ränder
• Dichte
– Strich-zu-Hintergrund-Verhältnisse
– Dichte innerhalb von und zwischen Zeilen
• Zeichenfolgen
– N-Begriffsgruppen (Folge von N aufeinanderfolgenden Wörtern)
• Wörter
• Großbuchstaben
• Interpunktion
• Sätze (Großbuchstabe, Satzzeichen, Punkt)
• Absätze
• Überschriften
• Beschriftungen
– Basierend auf Nähe zu einem Bild
• Erklärungen
– Felder, Symbole usw.
• Text auf Grafiken
– Kurzer Text
– Höherer Kontrast, Periodizität usw. als Hintergrundbild
• Logos
– Unternehmens-/Produkt-/Dienstnamen
– Größere Unternehmenslogos
– Abgrenzung vom Hintergrund (z. B. ovale Umrandungen).

Fachleute auf dem Gebiet werden nachvollziehen können, dass das System bei der Durchführung der Textidentifikation und -extraktion und auf jeder Analyseebene irgendeines oder alle der zuvor beschriebenen Merkmale verwenden kann. Während des Identifikationsprozesses kann sich das System zum Beispiel allein auf die Anzahl horizontaler Freiräume zwischen Zeichen stützen, während es sich während des Extraktionsprozesses auf Entfernungen zwischen den horizontalen Freiräumen und ihrer Beziehung zu Kanten innerhalb des erfassten Bildes stützt.
Das System kann auch bei nichttextuellen Informationen basierend auf zum Beispiel großen Bereichen von weichen Farbverläufen, Zufälligkeiten (z. B. die Position kontrastreicher Stellen, die Länge kontrastreicher Kanten, Unebenheit kontrastreicher Kanten), dem Vorhandensein von Gesichtern, Körpern oder Gebäuden innerhalb eines erfassten Bildes, uneinheitlichen Größen von Linien oder verbundenen Komponenten usw. eine Identifikation und Extraktion durchführen.
9.2. Texterkennung
Basierend auf den extrahierten Positionsinformationen kann das System versuchen, den Text oder die Merkmale des Textes innerhalb des erfassten Bildes zu erkennen. Das System kann den Text zum Beispiel an eine OCR-Komponente senden oder auf Basis identifizierter Merkmale des Textes (z. B. Muster von Oberlängen und/oder Unterlängen innerhalb des Textes) eine Signatur erzeugen. Vor dem Durchführen der Texterkennung kann das System Text normalisieren oder kanonisieren, beispielsweise durch Umwandeln jedes kursiven oder fetten Texts in eine Standardformatierung.
Der Texterkennungsprozess kann auf mehreren Merkmalen zur Erkennung der Eigenschaften des Textes oder zur Erzeugung einer Signatur für ein wiedergegebenes Dokument beruhen, wie Glyphenmerkmale (z. B. eingeschlossene Leerstellen, vertikale und horizontale Striche usw.), Zeichensetzung, Großschreibung, Zeichenleerstellen und Linien-, Absatz-, Spalten-, Kopfzeilen-, Überschriften-, Tasten-/Legenden-, Logo-, Text-auf-Grafik-Merkmale usw. Darüber hinaus können Wortmerkmale wie Wortabstände oder Wortdichte im Texterkennungsprozess helfen. Das System kann zum Beispiel Informationen im Zusammenhang mit Zwischenräumen zwischen Wörtern, die auf ein Dokument gedruckt sind, wie etwa Entfernungen zwischen Räumen (horizontal, vertikal, orthogonal und so weiter), der Breite der Zwischenräume und so weiter verwenden. Das System kann bei der Analyse des Weiteren Kenntnisse über Zeilenumbrüche einbeziehen. Wenn Zeilenumbrüche bekannt sind, kann sich das System zum Beispiel auf die vertikale Ausrichtung von Wortpositionen stützen, wohingegen sich das System, wenn Zeilenumbrüche unbekannt sind, auf benachbarte Folgen von relativen Wortlängen stützen kann. Als ein weiteres Beispiel kann das System Informationen im Zusammenhang mit der Zeichendichte verwenden, wie etwa relative Dichten zwischen Zeichen (horizontal, vertikal, orthogonal und so weiter), relative Dichten zwischen gruppierten Zeichenpaaren oder absolute Dichteinformationen. Bestimmte Merkmale können für Schriftart, Schriftgröße usw. unveränderlich sein, wie etwa Punkt- und Liniensymmetrien (z. B. Autokorrelationen innerhalb von Zeichen, um Punkte und/oder Linien herum). Das System kann dynamisch auswählen, welche Merkmale innerhalb eines aufgenommenen Bildes analysiert werden sollen. Bei Vorhandensein von optischer und Bewegungsunschärfe kann das System zum Beispiel weniger detaillierte Aspekte des Textes verwenden, wie etwa relative Wortbreiten. In einigen Beispielen kann sich das System eindeutige N-Begriffsgruppen zunutze machen, indem es bestimmt, ob unbekannte oder seltene N-Begriffsgruppen Rauschen oder Hochsignalinformationen (Schreibfehler, E-Mail-Adressen, URLs usw.) sind, zum Beispiel basierend auf der Gewissheit von Zeichen, die von üblichen N-Begriffsgruppen abweichen, der Länge der Abweichung, der Zuordnung regulärer Ausdrücke (z. B. für E-Mail-Adressen und URLs) und so weiter.
Das System kann auch externe Ressourcen verwenden, die nicht Teil eines wiedergegebenen Dokuments sind, um Text innerhalb des wiedergegebenen Dokuments zu erkennen, wie etwa Kenntnisse über die ungefähre Anzahl von Glyphen in einem Wort, Wörterbücher (z. B. Worthäufigkeitsverzeichnisse), Grammatik- und Zeichensetzungsregeln, Wahrscheinlichkeiten, mit denen bestimmte Wort- und Zeichen-Gramme innerhalb eines Korpus gefunden werden, reguläre Ausdrücke für den Abgleich mit verschiedenen Zeichenfolgen wie E-Mail-Adressen, URL usw. Darüber hinaus kann das System Ressourcen wie etwa DNS-Server Adressbücher und Telefonbücher verwenden, um erkannten Text, wie etwa URLs, E-Mail-Adressen und Telefonnummern, zu verifizieren. Als ein weiteres Beispiel kann das System Schriftartmatrizen verwenden, um bei der Erkennung und Verifizierung verschiedener Zeichen zu helfen. Nicht erkannte Zeichen in einer gegebenen Schriftart können mit erkannten Zeichen in derselben Schriftart verglichen werden, um basierend auf der Beziehung zwischen den nicht erkannten und erkannten Zeichen, die sich in einer Schriftartmatrix zeigt, bei ihrer Erkennung zu helfen. Ein unerkanntes „d” kann beispielsweise basierend darauf, dass ein „c” und ein „l” erkannt wird, als „d” erkannt werden, wenn eine Schriftarten-Matrix anzeigt, dass die Darstellung eines „d” der Kombination aus „c” und „l” ähnelt.
Das System kann den erkannten Text oder die erkannten Merkmale zur Identifizierung des Dokuments, das in dem erfassten Bild dargestellt ist, unter den Dokumenten in einem Dokumentenkorpus verwenden. Die Menge und Art der zum Identifizieren verwendeten Informationen kann basierend auf einer Reihe von Faktoren variieren, wie etwa dem Dokumenttyp, der Größe des Korpus, den Dokumentinhalten usw. Eine Folge von 5 oder 6 Wörtern innerhalb eines erfassten Bildes oder die relative Position von Zwischenräumen zwischen den Wörtern können ein entsprechendes Dokument innerhalb eines relativ großen Korpus zum Beispiel eindeutig identifizieren. In einigen Beispielen kann das System eine Umrechnungstabelle verwenden, um die Wahrscheinlichkeit dafür zu berechnen, dass Informationen über bestimmte Merkmale oder die Kombination aus Informationen, die bestimmte Merkmale betreffen, ein Dokument eindeutig identifizieren werden. Beispielsweise kann die Umrechnungstabelle anzeigen, dass eine Wortfolge aus 5 Wörtern die gleiche Wahrscheinlichkeit für ein eindeutiges Identifizieren eines Dokuments aufweist, wie zwei unterschiedliche Folgen aus 3 Wörtern, das Oberlängen-/Unterlängenmuster von 2 aufeinanderfolgenden Zeilen und so weiter. In einigen Beispielen kann das System erfasste Bilder automatisch sammeln oder „zusammenfügen”, um beispielsweise ein zusammengesetztes Bild eines gerenderten Dokuments zu erzeugen, das mit höherer Wahrscheinlichkeit ein entsprechendes Dokument als die erfassten Bilder einzeln identifiziert.
In einigen Beispielen kann der Texterkennungsprozess die Erfassung von Informationen beeinflussen. Wenn der Text zum Beispiel als unscharf oder unvollständig erkannt wird, kann das System den Fokus der Kamera der Erfassungsvorrichtung anpassen oder den Benutzer auffordern, die Erfassungsvorrichtung neu zu positionieren oder einzustellen. Verschiedene Techniken, die das System einsetzen kann, um Text zu erkennen, sind nachstehend detaillierter beschrieben.
9.2.1 „Ungewisse” OCR
sDie primäre neue Eigenschaft der OCR innerhalb des beschriebenen Systems ist der Umstand, dass sie allgemein Bilder von Text untersucht, der anderswo existiert und möglicherweise in digitaler Form abgerufen werden kann. Eine exakte Transkription des Textes wird von der OCR-Engine daher nicht immer erfordert. Das OCR-System kann einen Satz oder eine Matrix aus möglichen Übereinstimmungen ausgeben, die in einigen Fällen Wahrscheinlichkeitsrichtungen beinhaltet, die nach wie vor verwendet werden können, um nach dem digitalen Original zu suchen.
9.2.2 Iterative OCR-schätzen, disambiguieren, schätzen ...
Wenn die Vorrichtung, die die Erkennung durchführt, zum Zeitpunkt der Verarbeitung eine Verbindung zum Dokumentenindex herstellen kann, dann können während des OCR-Prozesses Informationen zum Inhalt des Dokumentenkorpus bereitgestellt werden, wodurch sich die Erkennungsgenauigkeit möglicherweise erheblich erhöht.
Eine solche Verbindung gestattet der Vorrichtung auch, den Benutzer zu informieren, wenn ausreichend Text zur Identifikation der digitalen Quelle erfasst wurde.
9.2.3 Verwenden der Kenntnis der wahrscheinlichen Wiedergabe
Wenn das System Kenntnis von Aspekten der wahrscheinlichen gedruckten Wiedergabe eines Dokuments hat, wie etwa die beim Drucken verwendete Schriftart oder das Seiten-Layout oder welche Abschnitte kursiv sind, ist dies ebenfalls nützlich für den Erkennungsprozess. (Abschnitt 4.1.1).
9.2.4 Zwischenspeichern von Schriftarten-Schriftart auf dem Host festlegen und auf den Client herunterladen
Wenn Kandidaten-Quelltexte im Dokumentenkorpus identifiziert sind, kann die Schriftart oder eine Wiedergabe davon auf das Gerät heruntergeladen werden, um die Erkennung zu unterstützen.
9.2.5 Autokorrelation und Zeichenabstände
Auch wenn Komponentenzeichen eines Textfragments unter Umständen die anerkannteste Möglichkeit zum Darstellen eines Fragments von einem Text sind, das als Dokumentensignatur verwendet werden kann, funktionieren andere Darstellungen des Textes hinreichend gut, sodass der tatsächliche Text eines Textfragments bei dem Versuch, das Textfragment in einem digitalen Dokument und/oder einer Datenbank zu lokalisieren, oder wenn die Darstellung eines Textfragments zur Disambiguierung in eine lesbare Form gebracht wird, nicht verwendet werden muss. Andere Darstellungen von Textfragmenten können Vorteile bereitstellen, die den eigentlichen Textdarstellungen fehlen. Eine optische Zeichenerkennung von Textfragmenten ist zum Beispiel oftmals fehlerhaft, im Gegensatz zu anderen Darstellungen von erfassten Textfragmenten, die verwendet werden können, um nach einem Textfragment zu suchen und/oder dieses nachzubilden, ohne auf optische Zeichenerkennung für das gesamte Fragment zurückgreifen zu müssen. Derartige Verfahren können für einige Vorrichtungen, die mit dem aktuellen System verwendet werden, besser geeignet sein.
Durchschnittsfachleute auf diesem Gebiet und andere wissen, dass es viele verschiedene Möglichkeiten zur Beschreibung des Aussehens von Textfragmenten gibt. Derartige Charakterisierungen von Textfragmenten können Wortlängen. relative Wortlängen, Zeichenhöhen, Zeichenbreiten, Zeichenformen, Zeichenhäufigkeiten, Tokenhäufigkeiten und dergleichen beinhalten, sind aber nicht darauf beschränkt. In einigen Beispielen werden die Versätze zwischen übereinstimmenden Texttoken (d. h. der Anzahl von dazwischenliegenden Token plus eins) verwendet, um Textfragmente zu charakterisieren.
Bei der herkömmlichen OCR werden Kenntnisse über Schriftarten, Buchstabenstrukturen und -formen bei dem Versuch verwendet, Zeichen in einem gescannten Text zu bestimmen. Die Beispiele für die vorliegende Erfindung sind anders; sie nutzen eine Vielzahl von Verfahren, die den wiedergegebenen Text selbst zur Unterstützung beim Erkennungsprozess verwenden. Diese verwenden Merkmale (oder Token), um „sich gegenseitig zu erkennen”. Eine Möglichkeit, um auf die besagte Selbsterkennung zu verweisen, ist die „Vorlagenabstimmung” und diese ähnelt der „Konvolution”. Um eine solche Selbsterkennung durchzuführen schiebt das System eine Kopie des Textes horizontal über sich selbst und zeichnet übereinstimmende Bereiche der Textbilder auf. Frühere Templateabgleichs- und Faltungstechniken umfassen eine Vielzahl verwandter Techniken. Diese Techniken zum Tokenisieren und/oder Erkennen von Zeichen/Tokens werden hierin insgesamt als „Autokorrelation” bezeichnet, da beim Abgleichen von Zeichen/Token der Text verwendet wird, um mit seinen eigenen Komponenten zu korrelieren.
Bei der Autokorrelation sind umfassende verbundene Bereiche, die übereinstimmen, von Interesse. Diese treten auf, wenn Zeichen (oder Zeichengruppen) andere Instanzen desselben Zeichens (oder der Gruppe) überlagern. Vollständige verbundene Bereiche, die übereinstimmen, bieten automatisch eine Tokenisierung des Textes zu zusammengesetzten Token. Während die zwei Exemplare des Textes aneinander vorbeibewegt werden, werden die Bereiche aufgezeichnet, an denen eine perfekte Übereinstimmung auftritt (d. h. sämtliche Pixel in einem vertikalen Schnitt werden abgeglichen). Wenn sich ein Zeichen/Token mit sich selbst übereinstimmt, stimmt auch die horizontale Ausdehnung dieser Übereinstimmung (z. B. der verbundene übereinstimmende Abschnitt des Textes) überein.
Es ist zu beachten, dass es zu diesem Zeitpunkt nicht notwendig ist, die tatsächliche Identität von jedem Token (d. h. den bestimmten Buchstaben, die bestimmte Ziffer oder das bestimmte Symbol oder eine Gruppe davon, der/die/das dem Token-Bild entspricht), sondern nur den Abstand bis zum nächsten Vorkommnis desselben Tokens im erfassten Text zu bestimmen. Die Versatzzahl ist die Entfernung (Anzahl von Tokens) zum nächsten Auftreten des gleichen Tokens. Wenn das Token innerhalb der Textfolge einzigartig ist, ist der Versatz Null (0). Die Folge von Tokenversätzen, die somit erzeugt wird, ist eine Signatur, die verwendet werden kann, um den erfassten Text zu identifizieren.
In einigen Beispielen werden die Token-Abstände, die für eine Zeichenfolge von erfassten Token bestimmt werden, mit einem Index verglichen, der einen Korpus von elektronischen Dokumenten basierend auf den Token-Abständen von ihren Inhalten indexiert (Abschnitt 4.1.2). In anderen Beispielen werden die für eine Folge erfasster Token bestimmten Tokenversätze zu Text umgewandelt und mit einem konventionelleren Index verglichen, der einen Korpus von elektronischen Dokumenten basierend auf ihren Inhalten indexiert.
Wie bereits zuvor beschrieben kann ein ähnlicher Token-Korrelationsprozess auf Sprachfragmente angewendet werden, wenn der Erfassungsprozess aus Audiosamples gesprochener Wörter besteht.
9.2.6 „Selbsterkennung” von Schrift/Zeichen
Bei der herkömmlichen OCR mit Vorlagenabgleich werden gescannte Bilder mit einer Bibliothek mit Zeichenbildern verglichen. Im Wesentlichen wird das Alphabet für jede Schriftart gespeichert und neu gescannte Bilder werden mit den gespeicherten Bildern verglichen, um zusammenpassende Zeichen zu finden. Der Prozess weist im Allgemeinen eine anfängliche Verzögerung auf, solange bis die korrekte Schriftart identifiziert ist. Danach ist der OCR-Prozess relativ schnell, da die meisten Dokumente durchgehend dieselbe Schriftart verwenden. Nachfolgende Bilder können daher durch Vergleich mit der zuletzt identifizierten Schriftartbibliothek in Text umgewandelt werden.
Die Formen von Zeichen in den am häufigsten verwendeten Schriften stehen in Beziehung zueinander. Bei den meisten Schriften ähneln sich beispielsweise die Buchstaben „c” und „e” optisch, genauso wie die Buchstaben „t” und „f” usw. Durch die Verwendung dieser Beziehung zum Erstellen von Vorlagen für Buchstaben, die noch nicht gescannt wurden, wird der OCR-Prozess effizienter. Wenn ein Leser zum Beispiel eine kurze Textfolge aus einem Papierdokument in einer bisher nicht vorgefundenen Schriftart erfasst, sodass das System keinen Satz von Bildtemplates hat, mit denen es die aufgenommenen Bilder vergleichen kann, kann das System die wahrscheinliche Beziehung zwischen bestimmten Zeichen nutzen, um die Schriftarttemplatebibliothek zu erstellen, obwohl es bisher noch nicht alle der Buchstaben in dem Alphabet gefunden hat. Das System kann die erstellte Schrifttemplatebibliothek anschließend verwenden, um später erfasste Text zu erkennen und die erstellte Schriftartbibliothek zu verfeinern.
9.2.7 Senden von allen unerkannten Objekten (einschließlich Grafiken) an den Server
Wenn Bilder nicht maschinell in eine Form transkribiert werden können, die für die Verwendung in einem Suchprozess geeignet ist, können die Bilder zur späteren Nutzung durch den Benutzer für eine mögliche manuelle Transkription oder eine Verarbeitung zu einem späteren Zeitpunkt, an dem dem System möglicherweise andere Ressourcen zur Verfügung stehen, gespeichert werden.
10. P-Commerce
Viele der Aktionen, die durch das System möglich werden, resultieren in der Durchführung einer kommerziellen Transaktion. Das Wort P-Commerce wird hierin verwendet, um kommerzielle Aktivitäten zu beschreiben, die über das System aus Papier initiiert werden.
10.1. Verkäufe von Dokumenten aus ihren physischen gedruckten Ausgaben heraus
Wenn ein Benutzer Text aus einem Dokument erfasst, kann dem Benutzer das Dokument entweder in Papierform oder elektronischer Form zum Kauf angeboten werden. Dem Benutzer können außerdem dazugehörige Dokumente angeboten werden, wie etwa solche, die zitiert oder anderweitig in dem Papierdokument referenziert wurden, oder solche zu einem ähnlichen Thema oder solche von demselben Autor.
10.2. Verkäufe von allem anderen, die durch Papierdokumente initiiert oder unterstützt werden
Die Erfassung von Text kann auf eine Vielzahl von Arten mit anderen kommerziellen Aktivitäten verknüpft sein. Der erfasste Text kann sich in einem Katalog befinden, der explizit dafür ausgelegt ist, Produkte zu verkaufen, in welchem Fall der Text ziemlich direkt mit dem Kauf eines Produkts assoziiert werden kann (Abschnitt 18.2). Der Text kann außerdem Teil einer Werbeanzeige sein, in welchem Fall ein Verkauf des beworbenen Produkts erfolgen kann.
In anderen Fällen erfasst der Benutzer anderen Text, durch den sein mögliches Interesse an einer kommerziellen Transaktion abgeleitet werden kann. Ein Leser eines Romans, der in einem bestimmten Land spielt, kann zum Beispiel an einem Urlaub dort interessiert sein. Jemand, der einen Testbericht über ein neues Auto liest, kann in Erwägung ziehen, dieses zu erwerben. Der Benutzer kann ein bestimmtes Textfragment in dem Wissen erfassen, dass ihm als Ergebnis eine bestimmte kommerzielle Möglichkeit präsentiert wird, oder diese kann ein Nebeneffekt der Erfassungsaktivitäten sein.
10.3. Erfassung von Bezeichnungen, Symbolen, Seriennummern, Barcodes an einem Objekt, die zu einem Verkauf führt
Manchmal werden Texte oder Symbole sogar auf ein Objekt oder dessen Verpackung gedruckt. Ein Beispiel ist die Seriennummer oder Produktkennung, die oftmals auf einem Etikett auf der Rück- oder Unterseite eines elektronischem Zubehörteils zu finden ist. Das System kann dem Benutzer eine einfache Möglichkeit bieten, durch Erfassen dieses Texts eines oder mehrere des gleichen Produkts zu erwerben. Außerdem können ihm Handbücher, Unterstützung oder Reparaturdienstleistungen angeboten werden.
10.4. Kontextuelle Werbeanzeigen
Neben der direkten Erfassung von Text aus einer Werbeanzeige kann das System eine neue Art von Werbung gestatten, die nicht notwendigerweise ausdrücklich in dem wiedergegebenen Dokument zu finden ist, aber nichtsdestotrotz auf dem basiert, was die jeweilige Person liest.
10.4.1. Auf Kontext und Verlauf basierende Werbung
Bei einer herkömmlichen Publikation auf Papier nehmen Werbeanzeigen in Relation zu dem Text eines Zeitungsartikels in der Regel eine große Menge an Platz ein, und es können nur eine begrenzte Anzahl an Werbeanzeigen rund um einen bestimmten Artikel platziert werden. In dem beschriebenen System kann Werbung mit einzelnen Wörtern oder Wortverbindungen assoziiert sein und kann entsprechend den bestimmten Interessen, die ein Benutzer durch Erfassen dieses Texts gezeigt hat, und möglicherweise unter Berücksichtigung des Erfassungsverlaufs ausgewählt werden.
Mithilfe des beschriebenen Systems ist es möglich, einen Kauf mit einem bestimmten gedruckten Dokument zu verknüpfen und Inserenten erheblich mehr Feedback zur Effektivität ihrer Werbung in bestimmten gedruckten Publikationen bereitzustellen.
10.4.2. Auf Benutzerkontext und -verlauf basierende Werbung
Das System kann zur eigenen Verwendung eine große Menge an Informationen zu anderen Aspekten des Kontextes eines Benutzers zusammentragen (Abschnitt 13); Schätzungen des geografischen Standorts des Benutzers sind ein gutes Beispiel dafür. Derartige Daten können außerdem dazu verwendet werden, die präsentierte Werbung auf einen Benutzer des Systems zuzuschneiden.
10.5. Vergütungsmodelle
Das System ermöglicht einige neue Vergütungsmodelle für Inserenten und Vermarkter. Der Herausgeber eines gedruckten Dokuments, das Werbeanzeigen beinhaltet, kann gewisse Einnahmen aus einem Kauf erhalten, der auf sein Dokument zurückzuführen ist. Dies kann unabhängig davon, ob die Werbeanzeige in der ursprünglichen gedruckten Form vorhanden war oder nicht, gelten; sie könnte elektronisch hinzugefügt worden sein, entweder durch den Herausgeber, den Werbekunden oder Dritte, und der Benutzer kann die Quelle einer solchen Werbung abonniert haben.
10.5.1. Popularitätsbasierte Vergütung
Eine Statistikanalyse durch das System kann die Popularität bestimmter Teile einer Publikation enthüllen (Abschnitt 14.2). Bei einer Zeitung könnte sie zum Beispiel, die Zeitdauer, die Leser mit dem Anschauen einer bestimmten Seite oder eines Artikels verbringen, oder die Beliebtheit eines bestimmten Kolumnisten offenbaren. In einigen Fällen kann es angemessen sein, dass ein Autor oder Herausgeber eine Vergütung basierend auf den Aktivitäten der Leser anstatt auf herkömmlichen Metriken, wie etwa Anzahl der geschriebenen Wörter oder Anzahl verteilter Exemplare, erhält. Ein Autor, dessen Werk eine häufig gelesene Instanz über ein Thema wird, könnte bei zukünftigen Aufträgen anders berücksichtigt werden als einer, dessen Bücher sich genauso oft verkauft haben, aber nur selten geöffnet werden. (Siehe auch Abschnitt 7.6).
10.5.2. Popularitätsbasierte Werbung
Entscheidungen zu Werbung in einem Dokument können auch auf Statistiken zur Leserschaft basieren. Die Werbeflächen in der Nähe der beliebtesten Kolumnisten können mit einem Aufpreis verkauft werden. Werbekunden können sogar einige Zeit nachdem das Dokument veröffentlicht wurde, basierend auf der Kenntnis darüber, wie es angenommen wurde, belastet oder vergütet werden.
10.6. Auf der Lebensbibliothek basiertes Marketing
Die in den Abschnitten 6.1 und 16.1 beschriebene Lebensbibliothek oder der Erfassungsverlauf kann eine äußerst nützliche Quelle von Informationen zu Interessen und Gewohnheiten eines Benutzers sein. Unter dem Vorbehalt von Zustimmung und Datenschutzfragen können solche Daten Angebote von Waren oder Dienstleistungen an den Benutzer anregen. Selbst in anonymisierter Form können die zusammengetragenen Statistiken überaus nützlich sein.
10.7. Verkauf/Anzeige von Informationen zu einem späteren Zeitpunkt (wenn verfügbar)
Werbungen und andere Möglichkeiten zu kommerziellen Transaktionen werden dem Benutzer möglicherweise nicht unmittelbar zum Zeitpunkt der Erfassung präsentiert. Zum Beispiel kann die Möglichkeit, eine Fortsetzung eines Romans zu erwerben, zu dem Zeitpunkt, zu dem der Benutzer den Roman liest, nicht verfügbar sein, doch das System kann die Möglichkeit bereitstellen, wenn die Fortsetzung veröffentlicht wurde.
Ein Benutzer kann Daten erfassen, die mit einem Kauf oder einer anderen kommerziellen Transaktion verknüpft sind, sich aber dazu entscheiden, die Transaktion nicht zum Zeitpunkt der Erfassung zu initiieren und/oder abzuschließen. In einigen Beispielen werden Daten im Zusammenhang mit Erfassungen in einer Lebensbibliothek des Benutzers gespeichert, und diese Lebensbibliothekseinträge können „aktiv” (d. h. fähig zu späteren Interaktionen ähnlich denen, die zum Zeitpunkt, an dem die Erfassung erfolgte, verfügbar waren) bleiben. Somit kann ein Benutzer eine Erfassung nochmals zu einem späteren Zeitpunkt betrachten und basierend auf dieser Erfassung optional eine Transaktion abschließen. Da das System verfolgen kann, wann und wo die ursprüngliche Erfassung erfolgt ist, können alle an der Transaktion beteiligten Parteien ordnungsgemäß kompensiert werden. Zum Beispiel kann der Autor, der die Geschichte geschrieben hat, – und der Herausgeber, der die Geschichte herausgegeben hat, – die neben der Werbeanzeige, aus der der Benutzer Daten erfasst hat, erschienen ist, kompensiert werden, wenn der Benutzer sechs Monate später seine Lebensbibliothek besucht, diese bestimmte Erfassung aus dem Verlauf auswählt und „Kauf dieses Produkts auf Amazon” aus dem Popup-Menü (das ähnlich oder identisch zu dem Menü sein kann, das zum Zeitpunkt der Erfassung optional angezeigt wird) auswählt.
11. Integration von Betriebssystem und Anwendung
Moderne Betriebssysteme (OSs) und andere Softwarepakete haben viele Eigenschaften, die vorteilhaft für die Verwendung des beschriebenen Systems eingesetzt werden können und zudem auf verschiedene Weisen verändert werden können, um eine noch bessere Plattform für seine Verwendung bereitzustellen.
11.1. Einfügung von Informationen im Zusammenhang mit Erfassung und Druck in Metadaten und Indexierung
Neue und kommende Dateisysteme und die zugehörigen Datenbanken verfügen häufig über die Funktionalität zum Speichern einer Vielzahl von Metadaten, die mit jeder Datei verknüpft sind. Klassischerweise beinhalteten diese Metadaten solche Dinge wie die ID des Benutzers, der die Datei erstellt hat, die Zeitpunkte von Erstellung, letzter Veränderung und letzter Verwendung. Neuere Dateisysteme erlauben, dass zusätzliche Informationen wie Schlüsselwörter, Bildeigenschaften, Dokumentenquellen und Benutzerkommentare gespeichert werden, und in einigen Systemen können diese Metadaten beliebig erweitert werden. Dateisysteme können daher verwendet werden, um Informationen zu speichern, die zur Implementierung des aktuellen Systems nützlich wären. Durch das Dateisystem kann zum Beispiel der Zeitpunkt, wann ein gegebenes Dokument letztmalig ausgedruckt wurde, ebenso gespeichert werden wie Details darüber, welcher Text davon unter Verwendung des beschriebenen Systems von Papier erfasst wurde und wann und durch wen.
In Betriebssystemen werden zunehmend Suchmaschinenfunktionen eingebunden, um Benutzern die Möglichkeit zu bieten, lokale Dateien schneller zu finden. Diese Einrichtungen können durch das System vorteilbringend genutzt werden. Dies bedeutet, dass viele der in Abschnitt 3 und 4 besprochenen, mit Suchen im Zusammenhang stehenden Konzepte nicht nur auf heutige internetbasierte und ähnliche Suchmaschinen zutreffen, sondern auch auf sämtliche PCs.
In einigen Fällen unterstützen bestimmte Software-Anwendungen das zuvor beschriebene System und gehen dabei über die vom OS bereitgestellten Funktionen hinaus.
11.2. OS-Unterstützung für Erfassungsvorrichtungen
Mit zunehmender Verwendung von Erfassungsvorrichtungen wie mobilen Kommunikationsvorrichtungen mit integrierten Kameras und Mikrofonen im Alltag ist es wünschenswert, dass sie im Betriebssystem auf die gleiche Weise unterstützt werden wie Mäuse und Drucker, da die Anwendbarkeit von Erfassungsvorrichtungen weit über eine einzelne Software-Anwendung hinausreicht. Das Gleiche gilt für andere Aspekte der Systemtätigkeit. Nachstehend werden einige Beispiele besprochen. In einigen Beispielen wird das gesamte beschriebene System, oder der Kern davon, durch das OS (z. B. Windows, Windows Mobile, Linux, Mac OS X, iPhone OS, Android oder Symbian) bereitgestellt. In einigen Beispielen wird eine Unterstützung für das System durch Anwendungsprogrammierschnittstellen (APIs) bereitgestellt, die von anderen Softwarepaketen verwendet werden können, einschließlich solcher, die Aspekte des Systems direkt implementieren.
11.2.1. Unterstützung von OCR und anderen Erkennungstechnologien
Die meisten Verfahren zur Erfassung von Text von einem wiedergegebenen Dokument erfordern eine Erkennungssoftware, die die Quelldaten, üblicherweise ein erfasstes Bild oder einige gesprochene Worte, als Text interpretiert, der im System verwendet werden kann. Einige OS beinhalten Sprachunterstützung oder Handschrifterkennung, obwohl es jedoch weniger üblich ist, dass OS eine OCR-Unterstützung beinhalten, da sich die Verwendung von OCR in der Vergangenheit eher auf einen kleinen Anwendungsbereich beschränkt hat.
Wenn Erkennungskomponenten Teil des OS sind, können sie andere vom OS bereitgestellte Funktionen besser nutzen. Viele Systeme beinhalten zum Beispiel Rechtschreibwörterbücher, Grammatikanalysetools, Internationalisierungs- und Lokalisierungsmöglichkeiten, die durch das beschriebene System alle vorteilbringend für seinen Erkennungsprozess genutzt werden können, besonders da sie für einen bestimmten Benutzer so angepasst sein können, dass sie Wörter und Wortverbindungen beinhalten, mit denen er üblicherweise in Berührung kommt.
Falls das Betriebssystem Funktionen zur Volltextindexierung beinhaltet, dann können diese auch zur Bereitstellung von Informationen während des Erkennungsprozesses verwendet werden (siehe Abschnitt 9.3.).
11.2.2. Für Erfassungen auszuführende Aktionen
Falls Informationen erfasst und dem Betriebssystem präsentiert werden, führt es möglicherweise unter diesen Umständen eine Standardaktion aus, sofern kein anderes Teilsystem die Eigentumsrechte an den Erfassungen beansprucht. Ein Beispiel einer Standardaktion ist es, dem Benutzer eine Auswahl an Alternativen zu präsentieren oder die erfassten Daten an die OS-internen Sucheinrichtungen zu übermitteln.
11.2.3. OS verwendet Standardaktionen für bestimmte Dokumente oder Dokumententypen
Wenn die digitale Quelle des wiedergegebenen Dokuments gefunden wird, verfügt das OS möglicherweise über eine Standardaktion, die ausgeführt wird, wenn dieses bestimmte Dokument oder ein Dokument dieser Klasse erfasst wird. Anwendungen und andere Teilsysteme können sich bei dem OS als potenzielle Handler für bestimmte Erfassungstypen in einer ähnlichen Weise registrieren. wie die Mitteilung von Anwendungen über ihre Fähigkeit, bestimmte Dateitypen zu bearbeiten.
Markup-Daten, die mit einem wiedergegebenen Dokument oder mit einer Erfassung von einem Dokument verknüpft sind. können Anweisungen für das Betriebssystem beinhalten, bestimmte Anwendungen zu starten, Argumente, Parameter oder Daten der Anwendung weiterzuleiten usw.
11.2.4. Interpretation von Gesten und Zuordnung zu Standardaktionen
In Abschnitt 12.1.3 wird die Verwendung von „Gesten” behandelt, wobei bestimmte Bewegungen mit einer Erfassungsvorrichtung möglicherweise Standardaktionen repräsentieren, wie beispielsweise das Markieren des Anfangs und des Endes eines Textbereichs.
Dies entspricht Aktionen wie dem Drücken der Umschalttaste auf einer Tastatur, während die Cursor-Tasten zur Auswahl eines Textbereichs verwendet wird, oder dem Scrollen eines Dokuments unter Verwendung des Rads einer Maus. Derartige Aktionen durch den Benutzer sind ausreichend standardisiert, um durch das OS der Erfassungsvorrichtung auf systemumfassende Weise interpretiert zu werden, wodurch ein gleichbleibendes Systemverhalten sichergestellt ist. Dasselbe ist wünschenswert für andere Aktionen im Zusammenhang mit Erfassungsvorrichtungen.
11.2.5. Festlegen einer Reaktion auf standardmäßige (und nicht standardmäßige) Symbol-/Text-Menüelemente
Auf ähnliche Weise können bestimmte Textelemente oder andere Symbolelemente bei der Erfassung Standardaktionen auslösen, und das OS stellt möglicherweise eine Auswahl dieser Aktionen bereit. Beispielsweise könnte das Erfassen des Textes „[drucken]” in einem Dokument das OS dazu veranlassen, eine Kopie desselben Dokuments abzurufen und auszudrucken. Das OS kann außerdem eine Möglichkeit bereitstellen, derartige Aktionen zu registrieren und sie mit bestimmten Erfassungen zu verknüpfen.
11.3. Unterstützung von typischen durch die Erfassung initiierten Aktivitäten in Komponenten der grafischen Benutzeroberfläche des Systems
Die meisten Software-Anwendungen basieren im Wesentlichen auf Standardkomponenten für eine grafische Benutzeroberfläche (GUI), die vom Betriebssystem bereitgestellt werden.
Die Verwendung dieser Komponenten durch Entwickler gewährleistet ein konsistentes Verhalten in unterschiedlichen Paketen (z. B. dass das Drücken der linken Pfeiltaste im Rahmen einer Textbearbeitung dazu führt, dass sich der Cursor nach links bewegt), ohne dass die einzelnen Programmierer dieselbe Funktionalität eigenständig implementieren müssen.
Eine ähnliche Konsistenz in diesen Komponenten ist wünschenswert, wenn die Aktivitäten durch eine Texterfassung oder andere Aspekte des beschriebenen Systems initiiert werden. Nachstehend sind einige Beispiele gegeben.
11.3.1. Oberfläche zum Auffinden bestimmter Textinhalte
Eine typische Verwendung des Systems umfasst beispielsweise, dass ein Benutzer einen Bereich eines Papierdokuments erfasst und dass das System ein elektronisches Gegenstück in einem Software-Paket öffnet, das dieses anzeigen oder bearbeiten kann, und veranlasst, dass dieses Paket zu dem gescannten Text scrollt und diesen hervorhebt (Abschnitt 12.2.1). Der erste Teil dieses Prozesses, Finden und Öffnen des elektronischen Dokuments, wird typischerweise durch das OS bereitgestellt und ist über Softwarepakete hinweg standardisiert. Der zweite Teil-Auffinden eines bestimmten Textteils innerhalb eines Dokuments und Veranlassen, dass das Paket zu diesem scrollt und ihn hervorhebt – ist jedoch noch nicht standardisiert und wird von jedem Paket oft unterschiedlich implementiert. Die Verfügbarkeit einer Standard-API für diese Funktionalität könnte den Betrieb bei diesem Aspekt des Systems erheblich verbessern.
11.3.2. Textinteraktionen
Sobald ein Textstück in einem Dokument aufgefunden wurde, kann das System eine Vielzahl von Operationen an diesem Text durchführen wollen. Als ein Beispiel kann das System den umgebenden Text anfordern, sodass die Erfassung einiger Wörter durch den Benutzer dazu führen könnte, dass das System auf den gesamten Satz oder Absatz zugreift, der diese enthält. Diese Funktionalität wiederum kann sinnvollerweise durch das OS bereitgestellt werden, anstatt in jedem Stück Software implementiert zu werden, das Text bearbeitet.
11.3.3. Kontextuelle (Popup-)Menüs
Einige der Operationen, die vom System ermöglicht werden, erfordern ein Feedback vom Benutzer, und dieses kann idealerweise im Kontext der Anwendung angefordert werden, die die Daten verarbeitet. In einigen Beispielen verwendet das System die Popup-Menüs der Anwendung, die üblicherweise mit dem Drucken der rechten Maustaste auf einem Text assoziiert sind. Das System fügt in solche Menüs zusätzliche Optionen ein und veranlasst, dass als Ergebnis von Aktivitäten wie etwa einer Erfassung eines Abschnitts eines Papierdokuments angezeigt werden.
11.4. Web-/Netzwerkschnittstellen
In der heutigen zunehmend vernetzten Welt kann auf viele der auf einzelnen Vorrichtungen verfügbaren Funktionen über ein Netzwerk zugegriffen werden, und die Funktionen im Zusammenhang mit dem beschriebenen System stellen keine Ausnahme dar. Als ein Beispiel können, in einer Büroumgebung, viele Papierdokumente, die von einem Benutzer empfangen wurden, von den Maschinen anderer Benutzer in demselben Unternehmensnetzwerk ausgedruckt worden sein. Das System auf einem Computer kann, in Reaktion auf eine Erfassung, abhängig von der entsprechenden Berechtigungssteuerung in der Lage sein, diese anderen Maschinen nach Dokumenten abzufragen, die dieser Erfassung entsprechen können.
11.5. Ausdrucken von Dokumenten löst Speicherung aus
Ein wichtiger Faktor bei der Integration von Papierdokumenten und digitalen Dokumenten ist die Bewahrung von so vielen Informationen zu den Unterschiedenen zwischen den beiden wie möglich. In einigen Beispielen macht das OS einfache Aufzeichnungen darüber, wann und durch wen ein beliebiges Dokument gedruckt wurde. In einigen Beispielen leitet das OS eine oder mehrere weitere Aktionen ein, die es besser geeignet für eine Verwendung mit dem System machen würden. Zu Beispielen gehören:

• Speichern der digital wiedergegeben Version von jedem gedruckten Dokument zusammen mit den Informationen über die Quelle, von der sie gedruckt wurden
• Speichern einer Untergruppe von hilfreichen Informationen zur gedruckten Version, z. B. die verwendeten Schriften und Positionen von Zeilenumbrüchen, die möglicherweise bei zukünftigen Erfassungsinterpretationen helfen könnten
• Speichern der Version des Quelldokuments, das mit der jeweiligen gedruckten Kopie verknüpft ist
• Automatisches Indexieren des Dokuments zum Zeitpunkt des Druckens und Speichern der Ergebnisse für zukünftige Suchen

11.6. Eigene (gedruckte/erfasste) Dokumente
Ein OS verwaltet häufig bestimmte Kategorien von Ordnern oder Dateien, die von besonderer Bedeutung sind. Die Dokumente eines Benutzers können, aufgrund von Konvention oder Planung, zum Beispiel in einem „Meine Dokumente”-Ordner gefunden werden. Normale Dateiöffnungsdialoge können automatisch eine Liste der kürzlich geöffneten Dokumente beinhalten.
In einem für die Verwendung mit dem beschriebenen System optimierten OS werden diese Kategorien möglicherweise so verbessert oder erweitert, dass die Interaktion eines Benutzers mit Papierversionen der gespeicherten Dateien berücksichtigt wird. Kategorien wie „Meine gedruckten Dokumente” oder „Meine kürzlich gelesenen Dokumente” könnten sinnvoll identifiziert und in dessen Operationen eingebunden werden.
11.7. Markup-Hierarchien auf OS-Ebene
sDa üblicherweise wichtige Aspekte des Systems mithilfe der in Abschnitt 5 beschriebenen „Markup”-Komponente bereitgestellt werden, wäre es klar von Vorteil, wenn dieses Markup auf eine Weise vom OS unterstützt werden würden, dass sie für mehrere Anwendungen sowie für das OS selbst zugänglich ist. Darüber hinaus können Markup-Ebenen durch das OS, basierend auf dessen Kenntnis über Dokumente, die sich unter dessen Kontrolle befinden, und die Einrichtungen, die es bereitstellen kann, bereitgestellt werden.
11.8. Verwenden von DRM-Funktionen des OS
Eine zunehmende Anzahl an Betriebssystem unterstützen eine Form der „digitalen Rechteverwaltung” (Digital Rights Management, DRM), d. h. die Möglichkeit zur Steuerung der Verwendung von bestimmten Daten gemäß den Rechten, die einem bestimmten Benutzer oder Gerät bzw. einer bestimmten Software-Entität gewährt werden. Es kann zum Beispiel ein nicht autorisiertes Kopieren oder Verteilen eines bestimmten Dokuments verhindern.
12. Benutzeroberfläche
Die Benutzeroberfläche des Systems kann komplett Teil der Erfassungsvorrichtung sein, sofern dieses technisch ausgereift und selbst über eine signifikante Verarbeitungsleistung verfügt, wie ein Mobiltelefon oder ein PDA, oder komplett Teil eines Computers sein, wenn die Erfassungsvorrichtung relativ einfach gehalten und über ein Kabel mit dem Computer verbunden ist. In einigen Fällen sind einige Funktionalitäten in jeder Komponente angesiedelt.
Die Beschreibungen in den folgenden Abschnitten sind daher Angaben dazu, was in bestimmten Implementierungen wünschenswert ist, aber sie sind nicht unbedingt geeignet für alle und können auf verschiedene Arten modifiziert werden.
12.1. Auf dem Erfassungsgerät
Bei den meisten Erfassungsvorrichtungen liegt die Aufmerksamkeit des Benutzers zum Zeitpunkt der Erfassung in der Regel auf der Vorrichtung und dem Papier. Es ist daher sehr erstrebenswert, dass sämtliche Eingaben und Feedback, die als ein Teil des Prozesses der Erfassung benötigt werden, nicht erfordern, dass die Aufmerksamkeit des Benutzers mehr als nötig woanders, zum Beispiel auf dem Bildschirm eines Computers, liegt.
12.1.1. Feedback an Erfassungsvorrichtung
Eine Erfassungsvorrichtung kann dem Benutzer auf vielfältige Weise Feedback zu bestimmten Bedingungen geben. Die offensichtlichsten Arten sind direkt visuell, wobei die Erfassungsvorrichtung eine vollständige Anzeige von erfassten Bildern oder Anzeigeleuchten umfasst, und auditiv, wobei die Erfassungsvorrichtung Pieptöne, Klicklaute oder andere Geräusche machen kann. Wichtige Alternativen sind unter anderem taktile Rückmeldungen, bei denen das Erfassungsgerät vibrieren, summieren oder anderweitig die Berührung des Benutzers stimulieren und die Rückmeldung projizieren kann, wobei es einen Status anzeigt, indem es etwas, von einen farbigen Lichtpunkt bis hin zu einer anspruchsvollen Darstellung, auf das Papier projiziert.
Zu wichtigem sofortigem Feedback, das möglicherweise an der Erfassungsvorrichtung bereitgestellt wird, gehört:

• Feedback zum Erfassungsprozess – Benutzer bewegt die Erfassungsvorrichtung zu schnell, in einem zu großen Winkel oder driftet zu weit nach oben oder unten
• ausreichender Inhalt – es wurden ausreichend Informationen erfasst, um mit ziemlicher Sicherheit eine Übereinstimmung zu finden, sofern es eine gibt – dies ist wichtig bei einem getrennten Betrieb
• bekannter Kontext – es wurde eine Quelle des Textes aufgefunden
• bekannter einzigartiger Kontext – es wurde eine einzigartige Quelle des Textes aufgefunden
• Verfügbarkeit von Inhalten – Angabe dazu, ob der jeweilige Inhalt für den Benutzer frei oder gegen eine Gebühr verfügbar ist

Viele der Benutzerinteraktionen, die normalerweise mit den späteren Phasen des Systems verknüpft sind, können auch auf der Erfassungsvorrichtung ausgeführt werden, sofern sie über hinreichende Funktionen verfügt, um z. B. einen Teil des Dokuments oder das ganze Dokument anzuzeigen.
12.1.2. Steuerungen an der Erfassungsvorrichtung
Die Erfassungsvorrichtung kann dem Benutzer verschiedenste Möglichkeiten bereitstellen, um neben der grundlegenden Texterfassung Eingaben zu tätigen, wie beispielsweise Tasten/Schaltflächen, Scroll-/Jog-Räder, berührungsempfindliche Oberflächen und/oder Beschleunigungssensoren zur Erkennung der Bewegung der Vorrichtung. Einige dieser Steuerungen ermöglichen umfangreichere Interaktionen, während die Erfassungsvorrichtung noch gehalten wird.
So kann die Erfassungsvorrichtung dem Benutzer zum Beispiel in Reaktion auf die Erfassung von Text eine Reihe verschiedener möglicher übereinstimmender Dokumente präsentieren. Der Benutzer verwendet eine berührungsempfindliche Oberfläche der Erfassungsvorrichtung, um eins aus der Liste auszuwählen.
12.1.3. Gesten
Der Hauptgrund für das Bewegen einer Erfassungsvorrichtung über das Papier ist die Erfassung von Text, aber einige Bewegungen können von der Vorrichtung erkannt und zur Anzeige anderer Benutzerintentionen verwendet werden. Die besagten Bewegungen werden hierin als „Gesten” bezeichnet.
Der Benutzer kann beispielsweise einen großen Textbereich angeben, indem er die ersten paar Wörter mit einer Bewegung von links nach rechts und die letzten paar Wörter mit einer Bewegung von rechts nach links erfasst. Der Benutzer kann durch Bewegen der Erfassungsvorrichtung auf der Seite nach unten über mehrere Zeilen hinweg auch die vertikale Ausdehnung des Texts angeben. Eine Rückwärtsbewegung während der Erfassung kann einen Abbruch des vorherigen Erfassungsvorgangs signalisieren.
12.1.4. Online-/Offline-Verhalten
Viele Aspekte des Systems können von der Netzwerkkonnektivität zwischen den Komponenten des Systems, wie einer Erfassungsvorrichtung und einem drahtlosen Netzwerk, oder mit der Außenwelt in Form einer Verbindung zu Unternehmensdatenbanken und Internetsuchen abhängen. Diese Verbindung kann jedoch eventuell nicht durchgehend vorhanden sein, und so wird es Fälle geben, wenn ein Teil oder die Gesamtheit des Systems als „offline” angesehen werden kann. Es ist erstrebenswert, dem System zu ermöglichen, auch unter solchen Umständen weiterhin brauchbar zu funktionieren.
Die Erfassungsvorrichtung kann zum Erfassen von Text verwendet werden, wenn keine Verbindung zu anderen Teilen des Systems besteht. Eine sehr einfache Vorrichtung kann lediglich in der Lage sein, die Bild- oder Audiodaten im Zusammenhang mit der Erfassung zu speichern, idealerweise mit einem Zeitstempel, der anzeigt, wann sie erfasst wurden. Die verschiedenen Erfassungen können für das übrige System hochgeladen werden, wenn die Erfassungsvorrichtung das nächste Mal damit verbunden ist, und anschließend bearbeitet werden. Die Erfassungsvorrichtung kann auch andere Daten im Zusammenhang mit den Erfassungen hochladen, beispielsweise Sprachanmerkungen oder Ortsangaben.
Technisch ausgereiftere Vorrichtungen können trotz getrennter Verbindung in der Lage sein, einige oder alle der Systemoperationen selbst auszuführen. Verschiedene Techniken zum Verbessern der Fähigkeit, dies zu tun. werden in Abschnitt 15.3 besprochen. Oftmals wird es der Fall ein, dass einige, aber nicht alle, der erwünschten Aktionen im Offlinebetrieb durchgeführt werden können. Zum Beispiel kann der Text erkannt werden, doch die Identifikation der Quelle kann von einer Verbindung zu einer internetbasierten Suchmaschine abhängig sein. In einigen Beispielen speichert die Vorrichtung daher genug Informationen darüber, wie weit jede Operation fortgeschritten ist, damit das restliche System effizient fortfahren kann, wenn die Verbindung wiederhergestellt ist.
Im Allgemeinen ist eine sofort verfügbare Konnektivität für den Systembetrieb von Nutzen, aber in einigen Situationen kann es auch von Vorteil sein, mehrere Erfassungen durchzuführen und diese dann als Stapel zu verarbeiten. Wie nachstehend in Abschnitt 13 besprochen, kann die Identifikation der Quelle einer bestimmten Erfassung beispielsweise erheblich verbessert werden, indem andere Erfassungen, die von dem Benutzer ungefähr zur selben Zeit durchgeführt wurden, untersucht werden. In einem System, in dem dem Benutzer Live-Feedback bereitgestellt wird, ist das System nur in der Lage zurückliegende Erfassungen zu verwenden, wenn es die aktuelle verarbeitet. Wenn die Erfassung eine aus einem Stapel ist, der durch die Vorrichtung im Offline-Betrieb gespeichert wurde, wird das System jedoch in der Lage sein, alle verfügbaren Daten zu berücksichtigen, die aus späteren Erfassungen sowie aus früheren verfügbar sind, wenn es seine Analyse durchführt.
12.2. Auf einer Host-Vorrichtung
Eine Erfassungsvorrichtung kann mit einigen anderen Vorrichtungen wie beispielsweise einem PC kommunizieren, um viele der Funktionen des Systems durchzuführen, einschließlich detaillierterer Interaktionen mit dem Benutzer.
12.2.1. Infolge einer Erfassung durchgeführte Aktivitäten
Wenn das Host-Gerät eine Erfassung empfängt, kann es eine Vielzahl von Aktivitäten initiieren. Es folgt eine unvollständige Liste möglicher Aktionen, die durch das System nach Auffinden eines elektronischen Dokumentgegenstücks, das mit der Erfassung im Zusammenhang steht, und einer Stelle innerhalb dieses Dokuments durchgeführt werden können.

• Die Details über die Erfassung können im Verlauf des Benutzers gespeichert werden. (Abschnitt 6.1)
• Das Dokument wird möglicherweise von einem lokalen Speicher oder einem entfernten Speicherort abgerufen. (Abschnitt 8)
• Die Metadaten des Betriebssystems und andere mit dem Dokument verknüpfte Datensätze werden möglicherweise aktualisiert. (Abschnitt 11.1)
• Mit dem Dokument verknüpftes Markup kann untersucht werden, um die nächsten relevanten Operationen zu bestimmen. (Abschnitt 5)
• Eine Software-Anwendung kann gestartet werden, um das Dokument zu bearbeiten, anzuzeigen oder anderweitig zu verwenden. Die Wahl der Anwendung kann von dem Quelldokument oder den Inhalten der Erfassung oder einem anderen Aspekt der Erfassung abhängen. (Abschnitt 11.2.2, 11.2.3)
• Die Anwendung kann zur Position der Erfassung scrollen, diese hervorheben, die Einfügemarke dorthin bewegen oder diese anderweitig anzeigen. (Abschnitt 11.3)
• Die präzisen Grenzen des erfassten Textes können modifiziert werden, um beispielsweise ganze Wörter, Sätze oder Absätze rund um den erfassten Text auszuwählen. (Abschnitt 11.3.2)
• Dem Benutzer kann die Möglichkeit geboten werden, den erfassten Text in die Zwischenablage zu kopieren oder andere betriebssystem- oder anwendungsspezifische Standardoperationen an dem Text auszuführen.
• Anmerkungen können mit dem Dokument oder dem erfassten Text verknüpft werden. Diese können aus einer unmittelbaren Benutzereingabe stammen oder früher erfasst worden sein, beispielsweise im Fall von Sprachanmerkungen, die mit einem erfassten Bild im Zusammenhang stehen. (Abschnitt 19.4)
• Markup kann untersucht werden, um einen Satz von weiteren möglichen Operationen zu bestimmen, die der Benutzer auswählen kann.

12.2.2. Kontextuelle Popup-Menüs
Manchmal ist es offensichtlich, welche Aktion vom System auszuführen ist, manchmal muss der Benutzer jedoch eine Auswahl treffen. Eine gute Möglichkeit, dies zu tun, ist mithilfe von „Popup-Menüs” oder sogenannten „Kontextmenüs”, die in der Nähe der Inhalte auf der Anzeige der Erfassungsvorrichtung erscheinen. (Siehe Abschnitt 11.3.3). In einigen Beispielen projiziert die Erfassungsvorrichtung ein Popup-Menü auf das Papierdokument. Ein Benutzer kann mithilfe herkömmlicher Verfahren wie einer Tastatur und Maus oder unter Verwendung von den Bedienelementen an der Erfassungsvorrichtung (Abschnitt 12.1.2), Gesten (Abschnitt 12.1.3) oder durch Interaktion mit dem Computerdisplay mithilfe einer Erfassungsvorrichtung (Abschnitt 12.2.4) eine Option aus diesen Menüs auswählen. In einigen Beispielen beinhalten die Popup-Menüs, die als Ergebnis einer Erfassung erscheinen können, Standardpunkte, die Aktionen darstellen, die stattfinden, wenn der Benutzer nicht reagiert – zum Beispiel, wenn der Benutzer das Menü ignoriert und eine weitere Erfassung durchführt.
12.2.3. Feedback zur Disambiguierung
Wenn ein Benutzer mit der Erfassung von Text beginnt, gibt es anfänglich mehrere Dokumente oder andere Textstellen, mit denen er überstimmten könnte. Wenn mehr Text erfasst wird, und andere Faktoren berücksichtigt werden (Abschnitt 13), wird die Anzahl von Kandidatenstellen abnehmen, bis die tatsächliche Stelle identifiziert ist, oder ohne Benutzereingabe keine weitere Disambiguierung möglich sein. In einigen Beispielen bietet das System eine Echtzeit-Anzeige der gefundenen Dokumente oder Stellen, zum Beispiel in Form einer Liste, von Vorschaubildern oder von Textsegmenten, und die Anzahl von Elementen in dieser Anzeige verringert sich während die Erfassung fortgesetzt wird. In einigen Beispielen zeigt das System Vorschaubilder aller Kandidatendokumente an, wobei die Größe oder Position des Vorschaubildes von der Wahrscheinlichkeit, dass es das korrekte Gegenstück ist, abhängig ist.
Wenn eine Erfassung zweifelsfrei identifiziert ist, kann dieser Umstand dem Benutzer zum Beispiel mittels Audiofeedback mitgeteilt werden.
Manchmal kommt der erfasste Text in vielen Dokumenten vor und wird daher als ein Zitat erkannt. Das System kann dies auf dem Bildschirm anzeigen, zum Beispiel durch Gruppieren von Dokumenten, die eine zitierte Referenz enthalten, um das ursprüngliche Quelldokument herum.
12.2.4. Erfassung vom Bildschirm
Einige Erfassungsvorrichtungen können in der Lage sein, Text zu erfassen, der auf einem Bildschirm angezeigt wird oder auf Papier gedruckt ist. Dementsprechend wird der Begriff wiedergegebenes Dokument hierin verwendet, um anzuzeigen, dass Drucken auf Papier nicht die einzige Wiedergabemöglichkeit ist, und dass die Erfassung von Text oder Symbolen zur Verwendung durch das System gleichermaßen wertvoll sein kann, wenn dieser Text auf einer elektronischen Anzeige angezeigt wird.
Der Benutzer des beschriebenen Systems muss unter Umständen aus einer Vielzahl von anderen Gründen, etwa um eine Auswahl aus einer Liste von Optionen zu treffen, mit einem Computerbildschirm interagieren. In anderen Abschnitten wurden physische Bedienelemente auf der Erfassungsvorrichtung (Abschnitt 12.1.2) oder Gesten (Abschnitt 12.1.3) sowie Eingabeverfahren, die selbst beim Erfassen von Informationen von einer Anzeigevorrichtung in Verbindung mit alternativen Eingabeverfahren, wie etwa einer Tastatur oder Maus, geeignet sind, beschrieben.
In einigen Beispielen kann die Erfassungsvorrichtung ihre Position auf dem Bildschirm erkennen, ohne dass der erfasste Text verarbeitet werden muss, möglicherweise mithilfe spezieller Hardware oder Software auf dem Computer.
13. Kontextinterpretation
Ein wichtiger Aspekt des beschriebenen Systems ist die Verwendung anderer Faktoren jenseits der einfachen Erfassung einer Textfolge, um mit deren Hilfe das verwendete Dokument zu identifizieren. Eine Erfassung einer kleinen Menge Text kann das Dokument oftmals eindeutig identifizieren, in vielen Situationen wird sie jedoch einige Kandidatendokumente identifizieren. Eine Lösung dafür ist es, den Benutzer aufzufordern, die Quelle der erfassten Informationen zu bestätigen, wobei es jedoch eine bevorzugte Alternative ist, andere Faktoren zu nutzen, um die Möglichkeiten automatisch einzugrenzen. Derartige ergänzende Informationen können die Menge an Text, der erfasst werden muss, erheblich reduzieren und/oder die Zuverlässigkeit und Geschwindigkeit, mit der die Stelle in dem elektronischen Gegenstück identifiziert werden kann, erhöhen. Dieses zusätzliche Material wird als „Kontext” bezeichnet und wurde in Abschnitt 4.2.2 kurz besprochen. An dieser Stelle wird es ausführlicher betrachtet.
13.1. System- und Erfassungskontext
Das vielleicht wichtigste Beispiel für diese Informationen ist der Erfassungsverlauf des Benutzers.
Es ist höchstwahrscheinlich, dass eine gegebene Erfassung aus demselben Dokument wie die vorherige bzw. aus einem verknüpften Dokument stammt, insbesondere dann, wenn die vorherige Erfassung erst wenige Minuten zurückliegt (Abschnitt 6.1.2). Im umgekehrten Fall, wenn das System erkennt, dass sich die Schriftart zwischen zwei Erfassungen verändert hat, ist es wahrscheinlicher, dass diese aus unterschiedlichen Dokumenten stammen.
Ebenso nützlich sind der längerfristige Erfassungsverlauf und die Lesegewohnheiten des Benutzers. Diese können zudem verwendet werden, um ein Modell der Interessen und Verknüpfungen des Benutzers zu entwickeln.
13.2. Realer Kontext des Benutzers
Ein weiteres Beispiel für hilfreichen Kontext ist der geografische Standort des Benutzers. So ist es beispielsweise wesentlich wahrscheinlicher, dass ein Benutzer in Paris Le Monde anstatt der Seattle Times liest. Der Zeitpunkt, die Größe und geografische Verteilung von gedruckten Versionen der Dokumente kann daher sehr wichtig sein und kann in einem gewissen Maß aus dem Betrieb des Systems abgeleitet werden.
Die Tageszeit kann ebenfalls relevant sein, wenn ein Benutzer beispielsweise auf dem Weg zur Arbeit eine Art von Publikation liest und mittags oder im Zug auf dem Weg nach Hause eine andere.
13.3. Verwandter digitaler Kontext
Die jüngste Verwendung elektronischer Dokumente durch den Benutzer, einschließlich derer, nach denen gesucht wurde oder die mit konventionelleren Mitteln abgerufen wurden, kann ebenfalls ein hilfreicher Indikator sein.
In einigen Fällen, wie etwa in einem Unternehmensnetzwerk, können weitere Faktoren als sinnvoll erachtet werden:

• Welche Dokumente wurden in jüngster Zeit ausgedruckt?
• Welche Dokumente wurden kürzlich auf dem Dateiserver des Unternehmens geändert?
• Welche Dokumente wurden in jüngster Zeit per E-Mail versendet?

Alle dieser Beispiele legen möglicherweise nahe, dass ein Benutzer eher eine Papierversion dieser Dokumente liest. Im Gegensatz dazu, wenn durch den Aufbewahrungsort, an dem sich ein Dokument befindet, bestätigt werden kann, dass das Dokument nie ausgedruckt oder irgendwohin verschickt wurde, wo es hätte ausgedruckt werden können, kann es ohne Risiko aus allen Suchen, die aus Papier stammen, ausgeklammert werden.
13.4. Sonstige Statistiken – der globale Kontext
Der Abschnitt 14 befasst sich mit der Analyse des Datenstroms, der sich aus papierbasierten Suchen ergibt, aber es ist an dieser Stelle anzumerken, dass Statistiken über die Popularität von Dokumenten bei anderen Lesern, über den Zeitpunkt dieser Popularität und über die Teile der Dokumente, die am häufigsten erfasst werden, ebenfalls Beispiele für weitere Faktoren sind, die im Suchprozess von Nutzen sein können. Das System überträgt die Möglichkeit Google-artiger Seiteneinstufung auf Papier.
Einige weitere Implikationen der Verwendung von Kontext bei Suchmaschinen finden Sie auch im Abschnitt 4.2.2.
14. Datenstrom-Analyse
Als Nebeneffekt wird bei der Verwendung des Systems ein äußerst nützlicher Datenstrom erzeugt. Dieser Strom ist eine Aufzeichnung davon, was Benutzer lesen, und wann, und ist in vielen Fällen eine Aufzeichnung darüber, was sie von den Dingen, die sie lesen, als besonders wertvoll erachten. Solche Daten standen für Papierdokumente zuvor niemals wirklich zur Verfügung.
Einige Möglichkeiten, wie diese Daten für das System und für den Benutzer des Systems nützlich sein können, sind in Abschnitt 6.1 beschrieben. Dieser Abschnitt konzentriert sich auf ihre Verwendung für andere. Es gibt natürlich wesentliche Datenschutzfragen, die hinsichtlich jeder Verteilung von Daten darüber, was Personen lesen, berücksichtigt werden müssen, doch solche Themen wie das Aufrechterhalten der Anonymität von Daten sind dem Fachmann allgemein bekannt.
14.1. Dokumentenverfolgung
Wenn das System weiß, welche Dokumente ein gegebener Benutzer liest, kann es auch ableiten, wer ein gegebenes Dokument liest. Dies ermöglicht die Nachverfolgung eines Dokuments über eine Organisation, um zum Beispiel eine Analyse darüber zu ermöglichen. wer es liest und wann, wie weit es verteilt wurde, wie lange diese Verteilung dauerte und wer aktuelle Ausgaben angeschaut hat, während andere noch mit veralteten Exemplaren arbeiten.
Bei veröffentlichten Dokumenten mit einer größeren Verbreitung ist die Verfolgung der einzelnen Kopien schwieriger, aber die Analyse der Verbreitung der Leserschaft ist dennoch möglich.
14.2. Leserangfolge – Popularität von Dokumenten und Teilbereichen
In Situationen, in denen Benutzer Text oder andere Daten erfassen, der oder die von besonderem Interesse für sie sind, kann das System die Popularität von bestimmten Dokumenten und von besonderen Teilbereichen dieser Dokumente ableiten. Dies schafft eine wertvolle Eingabe für das System selbst (Abschnitt 4.2.2) und eine wichtige Informationsquelle für Autoren, Herausgeber und Werbekunden (Abschnitt 7.6, Abschnitt 10.5). Diese Daten können außerdem nützlich sein, wenn sie in Suchmaschinen und Suchindizes integriert werden – zum Beispiel, um bei der Einstufung von Suchergebnissen für Abfragen, die aus wiedergegebenen Dokumenten stammen, und/oderq, um bei der Einstufung herkömmlicher Abfragen, die in einem Webbrowser eingetippt werden, zu helfen.
14.3. Analyse der Benutzer – Erstellung von Profilen
Kenntnisse von dem, was ein Benutzer liest, ermöglichen dem System, ein recht detailliertes Modell von den Interessen und Aktivitäten des Benutzers zu erstellen. Dies kann auf einer abstrakten statistischen Basis nützlich sein – „35% der Nutzer, die diese Zeitung kaufen, lesen auch das neuste Buch dieses Autors” – es kann jedoch, wie nachfolgend erörtert, auch andere Interaktionen mit dem einzelnen Benutzer ermöglichen.
14.3.1. Social Networking
Ein Beispiel ist die Vernetzung von einem Benutzer mit einem anderen, die ähnliche Interessen haben. Dabei kann es sich um Personen handeln, die dem Benutzer bereits bekannt sind. Das System fragt einen Hochschullehrer möglicherweise: „Wussten Sie, dass Ihr Kollege an der Universität XYZ auch gerade diese Arbeit gelesen hat?” Das System kann einen Benutzer fragen: „Möchten Sie sich mit anderen Leuten in Ihrer Nachbarschaft vernetzen, die ebenfalls Jane Eyre lesen?” Solche Verknüpfungen können die Basis für die automatische Schaffung von Buchgemeinschaften und ähnlichen sozialen Strukturen darstellen, entweder in der physischen Welt oder online.
14.3.2. Marketing
Im Abschnitt 10.6 wurde bereits die Idee erwähnt, einzelnen Benutzern Produkte und Dienste basierend auf ihren Interaktionen mit dem System anzubieten. Derzeitige Online-Buchhändler geben einem Benutzer zum Beispiel oftmals Empfehlungen basierend auf dessen vorherigen Interaktionen mit dem Buchhändler. Derartige Empfehlungen werden wesentlich nützlicher, wenn sie auf Interaktionen mit den tatsächlichen Büchern basiert sind.
14.4. Auf anderen Aspekten des Datenstroms basiertes Marketing
Wir haben einige Möglichkeiten beschrieben, wie das System diejenigen, die Dokumente veröffentlichen oder Werbung in ihnen inserieren, beeinflussen oder zu weiteren Käufen anregen kann, die durch Papierdokumente initiiert werden (Abschnitt 10). Einige kommerzielle Aktivitäten können eventuell gar keine direkte Interaktion mit den Papierdokumenten aufweisen, können durch diese aber dennoch beeinflusst werden. Zum Beispiel kann das Wissen darüber, dass Personen in einer Gemeinschaft mehr Zeit damit verbringen, den Sportteil der Zeitung zu lesen, als beim Finanzteil, kann von Interesse für jemanden sein, der ein Fitnessstudio eröffnen möchte.
14.5. Typen von Daten, die erfasst werden können
Neben den beschriebenen Statistiken zum Beispiel darüber, wer welche Teile von welchen Dokumenten wann und wo liest, kann es von Interesse sein, die aktuellen Inhalte des erfassten Textes unabhängig davon zu untersuchen, ob das Dokument aufgefunden wurde oder nicht.
In vielen Situationen erfasst der Benutzer nicht nur Text, sondern veranlasst auch die Ausführung einiger Aktionen infolgedessen. Diese könnte beispielsweise Versenden eines Verweises auf das Dokument per E-Mail an einen Bekannten sein. Selbst in Abwesenheit von Informationen über die Identität des Benutzers oder des Empfängers der E-Mail kann die Kenntnis, dass jemand das Dokument als wertvoll genug erachtet, um es per E-Mail zu verschicken, sehr nützlich sein.
Neben den beschriebenen verschiedenen Verfahren zum Ableiten des Werts eines bestimmten Dokuments oder Textteils gibt der Benutzer in manchen Fällen den Wert durch Zuweisen einer Bewertung explizit an.
Wenn von einem bestimmten Kreis von Benutzern bekannt ist, dass sie eine Gruppe bilden. zum Beispiel weil sie bekanntermaßen Mitarbeiter eines bestimmten Unternehmens sind, kann die aggregierte Statistik dieser Gruppe dazu verwendet werden, die Wichtigkeit eines bestimmten Dokuments für diese Gruppe abzuleiten. Dies trifft auf Gruppen zu, die durch maschinelle Klassifikationstechniken, wie etwa Bayessche Statistik, Clusterbildung, k-Nearest-Neighbor (k-NN), Singulärwertzerlegung (SVD) usw. basierend auf Daten über Dokumente, Erfassungen, Benutzer usw. identifiziert werden.
15. Vorrichtungsmerkmale und -funktionen
In einigen Beispielen kann die Erfassungsvorrichtung in einem Mobiltelefon integriert sein, dessen Telefonhardware nicht modifiziert wurde, um das System zu unterstützen, etwa wenn die Texterfassung adäquat über die Bilderfassung erfolgen und vom Telefon selbst oder von einem System, auf das das Mobiltelefon zum Beispiel über eine drahtlose Netzwerkverbindung oder eine Mobilfunkverbindung zugreifen kann, verarbeitet oder im Speicher des Telefons gespeichert werden kann, um sie später zu verarbeiten. Viele moderne Telefone verfügen über die Fähigkeit, Software herunterzuladen, die einige Teile des Systems implementieren kann. In einigen Beispielen wird die Kamera verwendet, die in vielen Mobiltelefonen eingebaut ist, um ein Bild von dem Text aufzunehmen. Die Anzeige des Telefons, die normalerweise als ein Sucher für die Kamera funktionieren würde, kann auf dem Live-Bild der Kamera Informationen über die Qualität des Bildes und dessen Eignung für OCR, darüber, welche Textsegmente erfasst werden und, wenn die OCR auf dem Telefon durchgeführt werden kann, sogar eine Transkription des Textes, überlagern. Die Anzeige des Telefons kann außerdem eine Oberfläche bereitstellen, über die ein Benutzer mit dem erfassten Text interagieren kann und zugehörige Aktionen aufrufen kann.
Gleichermaßen können Sprachdaten von einem Mikrofon des Mobiltelefons erfasst werden. Eine solche Spracherfassung ist in vielen Situationen jedoch wahrscheinlich suboptimal, zum Beispiel, wenn es beträchtliche Hintergrundgeräusche gibt, und eine genaue Spracherkennung ist auch in günstigsten Zeiten eine schwierige Aufgabe. Die Audiomöglichkeiten können am besten dafür verwendet werden, Sprachanmerkungen zu erfassen.
In einigen Beispielen wurde das Telefon modifiziert, um dedizierte Erfassungseinrichtungen hinzuzufügen oder diese Funktionalität in einem ansteckbaren Adapter oder einem separaten über Bluetooth^TM angeschlossenen Peripheriegerät bereitzustellen, der oder das mit dem Telefon verbunden wird. Unabhängig von der Art des Erfassungsmechanismus weist die Integration des Systems in ein modernes Mobiltelefon viele weitere Vorteile auf. Das Telefon verfügt über eine Verbindung mit der übrigen Welt, was bedeutet, dass Abfragen für entfernte Suchmaschinen oder andere Teile des Systems eingereicht werden können, und Kopien und Dokumente zum sofortigen Speichern oder Anschauen abgerufen werden können. Ein Telefon verfügt typischerweise über eine Verarbeitungsleistung, die ausreichend ist, um viele Funktionen des Systems lokal durchzuführen, und einen Speicher, der ausreicht, um eine angemessene Menge an Daten zu erfassen. Die Größe des Speichers kann durch den Benutzer oftmals auch vergrößert werden. Telefone weisen ausreichend gute Anzeige- und Audioeinrichtungen zum Bereitstellen von Benutzerfeedback und oftmals eine Vibrationsfunktion für taktiles Feedback auf. Sie verfügen auch über eine gute Stromversorgung.
Das vielleicht Wichtigste ist, dass viele potenzielle Benutzer bereits über ein Mobiltelefon verfügen.
Eine für die Verwendung mit dem System geeignete Erfassungsvorrichtung benötigt kaum mehr als die Fähigkeit, Text von einer wiedergegebenen Version des Dokuments zu erfassen. Wie zuvor beschrieben, kann diese Erfassung durch eine Vielzahl von Verfahren erreicht werden, die das Aufnehmen eines Fotos von einem Teil des Dokuments oder Eintippen einiger Wörter in ein Tastenfeld beinhalten. Diese Erfassung kann unter Verwendung eines Mobiltelefons mit Bild- und Audioerfassungsmöglichkeiten oder eines optischen Scanners, der auch Sprachanmerkungen aufnimmt, erzielt werden.
15.1. Eingabe und Ausgabe
Viele der möglicherweise nützlichen zusätzlichen Eingabe- und Ausgabeeinrichtungen für eine derartige Vorrichtung wurden in Abschnitt 12.1 beschrieben. Sie beinhalten Tasten, Scrollräder und Touchpads zur Eingabe und Anzeigen, Indikatorleuchten, Audio- und Berührungswandler zur Ausgabe. Manchmal wird die Vorrichtung viele von diesen umfassen, manchmal sehr wenige. Die Erfassungsvorrichtung wird gelegentlich in der Lage sein, mit einer anderen Vorrichtung zu kommunizieren, die bereits über diese verfügt (Abschnitt 15.6), beispielsweise unter Verwendung einer Drahtlosverbindung, und gelegentlich wird die Erfassungsfunktionalität in solch eine andere Vorrichtung integriert sein (Abschnitt 15.7).
15.2. Konnektivität
In einigen Beispielen implementiert die Vorrichtung einen Großteil des Systems selbst. In einigen Beispielen kommuniziert sie jedoch oftmals mit einem PC oder einer anderen Computervorrichtung und mit der übrigen Welt unter Verwendung von Kommunikationseinrichtungen.
Häufig handelt es sich bei diesen Kommunikationsoptionen um eine Form von Universal-Datennetzwerk wie Ethernet, 802.11 oder UWB oder um ein Standardnetzwerk zum Anschließen von Peripheriegeräten wie USB, IEEE-1394 (Firewire), Bluetooth^TM oder Infrarot. Wenn eine drahtgebundene Verbindung wie etwa Firewire oder USB verwendet wird, kann die Vorrichtung über dieselbe Verbindung elektrische Energie empfangen. Unter einigen Umständen kann die Erfassungsvorrichtung einer verbundenen Maschine als ein herkömmliches Peripheriegerät wie etwa eine USB-Speichervorrichtung erscheinen.
Schließlich kann die Vorrichtung in manchen Fällen an eine andere Vorrichtung „angedockt” werden, um sie entweder zusammen mit dieser Vorrichtung zu verwenden oder bequem aufzubewahren.
15.3. Zwischenspeicherung und weitere Online-/Offline-Funktionalität
In den Abschnitten 3.5 und 12.1.4 wurde der getrennte Betrieb thematisiert. Wenn eine Erfassungsvorrichtung einen begrenzten Teilsatz der gesamten Funktionalität des Systems aufweist und nicht in Verbindung mit den anderen Teilen des Systems ist, kann die Vorrichtung dennoch nützlich sein, obwohl die verfügbare Funktionalität gelegentlich reduziert sein wird. Auf der einfachsten Ebene kann die Vorrichtung die unbearbeiteten Bild- oder Audiodaten, die erfasst werden, aufzeichnen, und diese können später verarbeitet werden. Zum Nutzen des Benutzers kann es jedoch wichtig sein, wenn möglich Feedback darüber bereitzustellen, ob die erfassten Daten für die vorliegende Aufgabe wahrscheinlich ausreichen werden, ob sie erkannt werden können oder wahrscheinlich erkennbar sind, und ob die Quelle der Daten identifiziert werden kann oder wahrscheinlich später identifizierbar ist. Der Benutzer wird anschließend wissen, ob seine Erfassungsaktivität sinnvoll ist. Selbst wenn alle der vorstehend genannten unbekannt sind, können die Rohdaten dennoch gespeichert werden, sodass zumindest der Benutzer später darauf Bezug nehmen kann. Dem Benutzer kann das Bild einer Erfassung präsentiert werden, beispielsweise wenn die Erfassung nicht durch den OCR-Prozess erkannt werden kann.
Um einige einer Reihe von verfügbaren Optionen zu veranschaulichen, werden nachfolgend eine eher einfach gehaltene optische Scanvorrichtung und anschließend eine um einiges funktionsreichere Scanvorrichtung beschrieben. Viele Vorrichtungen stellen einen Kompromiss zwischen diesen beiden dar.
15.3.1. Der SimpleScanner – ein Low-End-Offline-Beispiel
Der SimpleScanner ist mit einem Abtastkopf ausgestattet, der Pixel auf der Seite lesen kann, während er entlang einer Zeile eines Textes bewegt wird. Er kann seine Bewegung entlang der Seite erkennen und die Pixel mit einigen Informationen über die Bewegung aufnehmen. Außerdem weist er eine Uhr auf, die es ermöglicht, dass jeder Scan mit einem Zeitstempel versehen wird. Die Uhr wird mit einer Host-Vorrichtung synchronisiert, wenn der SimpleScanner über Konnektivität verfügt. Die Uhr zeigt ggf. nicht die tatsächliche Uhrzeit an, es können jedoch relative Uhrzeiten daraus bestimmt werden, sodass der Host die tatsächliche Uhrzeit eines Scans, oder im schlimmsten Fall die verstrichene Zeit zwischen den Scans, ableiten kann.
Der SimpleScanner verfügt nicht über genügend Verarbeitungsleistung, um selbst eine OCR durchführen zu können, hat jedoch grundlegende Kenntnisse über typische Wortlängen, Wortabstände und deren Beziehung zur Schriftgröße. Er weist einige grundlegende Anzeigeleuchten auf, die dem Benutzer mitteilen, ob der Scan voraussichtlich lesbar sein wird, ob der Kopf zu schnell, zu langsam oder zu ungenau über das Papier bewegt wird und wenn bestimmt wird, dass für das zu identifizierende Dokument voraussichtlich ausreichend viele Wörter einer bestimmten Größe gescannt worden sind.
Der SimpleScanner weist einen USB-Stecker auf, der in den USB-Anschluss eines Computers gesteckt werden kann, um den Scanner aufzuladen. Der Computer erkennt diesen als eine USB-Speichervorrichtung, auf der mit Zeitstempel versehene Datendateien aufgezeichnet wurden, und ab diesem Punkt übernimmt der Rest der Systemsoftware.
15.3.2. Das SuperDevice – ein High-End-Offline-Beispiel
Das SuperDevice benötigt Konnektivität, um alle Funktionen der Vorrichtung nutzen zu können, es verfügt jedoch über einen Onboard-Speicher mit großer Kapazität und über ausreichende Verarbeitungsleistung, die eine bessere Beurteilung der erfassten Daten im Offline-Modus ermöglicht.
Wenn das SuperDevice Text erfasst, indem es beispielsweise Bilder eines mit einer Kamera des SuperDevice aufgenommenen Dokuments verarbeitet, wird der erfasste Text an eine OCR-Engine weitergeleitet, die versucht, den Text zu erkennen. Eine Reihe von Schriftarten, einschließlich solcher aus den vom Benutzer am häufigsten gelesenen Veröffentlichungen, wurden darauf heruntergeladen, um bei der Durchführung dieser Aufgabe zu helfen, so auch ein Wörterbuch, das mit dem Rechtschreibprüfungswörterbuch des Benutzers auf seinem PC synchronisiert wird und daher viele der Wörter enthält, die ihm häufig begegnen. Ebenfalls auf dem SuperDevice gespeichert ist eine Liste von Wörtern und Wortverbindungen mit der typischen Häufigkeit ihrer Verwendung – diese kann mit dem Wörterbuch kombiniert werden. Das SuperDevice kann die Häufigkeitsstatistiken verwenden, um sowohl bei dem Erkennungsprozess zu helfen, als auch seine Einschätzung darüber, wann eine ausreichende Menge Text erfasst wurde, zu verbessern; bei häufiger verwendeten Wortverbindungen ist es weniger wahrscheinlich, dass diese als Grundlage für eine Suchabfrage nützlich sind.
Darüber hinaus wird der vollständige Index für die Artikel in den neuesten Ausgaben der Zeitungen und Zeitschriften, die am häufigsten vom Benutzer gelesen werden, im SuperDevice gespeichert, so wie die Indizes der Bücher, die der Benutzer kürzlich von einem Online-Buchhändler erworben hat oder aus denen der Benutzer innerhalb der letzten paar Monate etwas erfasst hat. Zuletzt werden die Titel von mehreren tausend der beliebtesten Veröffentlichungen, in denen Daten für das System verfügbar sind, gespeichert, sodass der Benutzer in Abwesenheit anderer Informationen den Titel erfassen kann und sich eine gute Vorstellung davon machen kann, ob es wahrscheinlich ist, dass Erfassungen aus einem bestimmten Werk später in elektronischer Form abgerufen werden können oder nicht.
Während des Erfassungsprozesses informiert das System den Benutzer darüber, dass die Qualität und Beschaffenheit der erfassten Daten ausreichend ist und es daher wahrscheinlich ist, dass die elektronische Kopie der erfassten Informationen abgerufen werden kann, sobald die Konnektivität wiederhergestellt ist. Das System zeigt dem Benutzer oftmals an, dass es bekannt ist, dass die Erfassung erfolgreich verlief, und dass der Kontext in einem der internen Indizes erkannt wurde, oder dass die betreffende Veröffentlichung dafür bekannt ist, dass sie dem System diese Daten zur Verfügung stellt, sodass der spätere Abruf erfolgreich sein sollte.
Das SuperDevice dockt in einer Aufnahmevorrichtung an, die mit einem Firewire- oder USB-Anschluss des Computers verbunden ist, woraufhin nicht nur die erfassten Daten hochgeladen, sondern auch die verschiedenen Onboard-Indizes und anderen Datenbanken basierend auf der jüngsten Benutzeraktivität und den neuesten Publikationen aktualisiert werden. Das SuperDevice verfügt zudem über ein System zum Herstellen einer Verbindung zu drahtlosen öffentlichen Netzwerken und Mobilfunknetzen oder zur Kommunikation über Bluetooth^TM mit einem Mobiltelefon und somit mit dem öffentlichen Netzwerk, wenn diese Einrichtungen verfügbar sind. In einigen Fällen können die eingebauten Indizes und andere Datenbanken drahtlos aktualisiert werden. Der Aktualisierungsprozess kann durch den Benutzer oder automatisch durch das System initiiert werden.
15.4. Merkmale zur Bilderfassung
Wir betrachten nun einige der Merkmale, die insbesondere bei einer Erfassungsvorrichtung wünschenswert sind.
15.4.1. Flexible Positionierung und komfortable Optik
Einer der Gründe für die anhaltende Popularität von Papierdokumenten ist die einfache Verwendbarkeit in einer Vielzahl von Situationen, in denen die Verwendung eines Computers zum Beispiel unpraktisch und unkomfortabel wäre. Eine Vorrichtung, die dazu dient, einen großen Teil der Benutzerinteraktionen mit Papier zu erfassen, sollte in ihrer Verwendung daher ähnlich praktisch sein. Dies traf für Scanner in der Vergangenheit nicht zu; selbst die kleinsten Handgeräte waren etwas unhandlich. Solche, die dafür ausgelegt sind, in Kontakt mit der Seite zu sein, müssen in einem genauen Winkel zum Papier gehalten werden und sehr vorsichtig an der Länge des zu erfassenden Textes entlangbewegt werden. Dies ist akzeptabel, wenn man einen Unternehmensbericht auf einem Bürotisch scannt, kann jedoch unpraktisch sein, wenn eine Wortverbindung aus einem Roman gescannt werden soll, während man auf einen Zug wartet. Kamerabasierte Erfassungsvorrichtungen, die in einer Entfernung zu dem Papier arbeiten, können gleichermaßen in vielen Umständen nützlich sein.
Einige Beispiele des Systems verwenden einen Scanner, der auf dem Papierdokument aufliegt und dieses scannt und anstatt eines Objektivs einen Bildleiter, d. h. ein Glasfaserbündel, zur Übertragung des Bildes von der Seite auf die optische Sensorvorrichtung nutzt. Eine solche Vorrichtung kann so geformt sein, dass es möglich ist, sie in einer natürlichen Position zu halten; in einigen Beispielen ist der Teil, der mit der Seite in Berührung ist, zum Beispiel keilförmig, was es der Hand des Benutzers ermöglicht, sich natürlicher über die Seite zu bewegen, in einer Bewegung, die der Verwendung eines Textmarkers entspricht. Die Führung ist entweder in direkten Kontakt mit dem Papier oder in einem geringen Abstand dazu und kann eine austauschbare transparente Spitze aufweisen, die die Bildführung vor einer möglichen Beschädigung schützen kann. Wie in Abschnitt 12.2.4 erwähnt wurde, kann der Scanner verwendet werden, um sowohl von einem Bildschirm, als auch von Papier zu scannen, und das Material der Spitze kann so gewählt werden, dass die Wahrscheinlichkeit von Schäden an solchen Anzeigen reduziert wird.
Schließlich stellen einige Beispiele des Geräts dem Benutzer während des Erfassungsprozesses Feedback bereit, das unter Verwendung von Licht, eines Tons oder taktilem Feedback anzeigt, dass der Benutzer die Erfassungsvorrichtung zu schnell, zu langsam oder zu ruckartig bewegt bzw. auf der Erfassungslinie zu weit nach oben oder unten driftet.
15.5. Sicherheit, Identität, Authentifizierung, Personalisierung und Abrechnung
Wie in Abschnitt 6 beschrieben kann die Erfassungsvorrichtung eine wichtige Rolle bei der Identifizierung und Authentifizierung von sicheren Transaktionen, Käufen und einer Vielzahl von anderen Operationen spielen. Daher kann sie, neben den für eine solche Rolle erforderlichen Schaltungen und der Software, verschiedene Hardwaremerkmale einbeziehen, die sie sicherer machen können, wie etwa einen Smartcard-Leser, RFID oder ein Tastenfeld, auf dem eine PIN eingegeben werden kann.
Sie kann außerdem verschiedene biometrische Sensoren zur Unterstützung der Identifizierung des Benutzers beinhalten. In dem Fall einer Erfassungsvorrichtung mit Bilderfassungsfähigkeiten kann die Kamera zum Beispiel auch in der Lage sein, einen Fingerabdruck zu lesen. Bei einem Stimmenrecorder kann das Sprachmuster der Benutzers verwendet werden.
15.6. Vorrichtungsverknüpfungen
In einigen Beispielen kann die Erfassungsvorrichtung eine Verknüpfung zu anderen in der Nähe befindlichen Vorrichtungen herstellen, um entweder ihre eigene oder deren Funktionalität zu erweitern. In einigen Beispielen verwendet sie beispielsweise die Anzeige von einem in der Nähe befindlichen PC oder Telefon, um ergänzendes Feedback über ihren Betrieb bereitzustellen, oder verwendet deren Netzwerkverbindung. Andererseits kann die Vorrichtung in ihrer Rolle als eine Sicherheits- und Identifikationsvorrichtung agieren, um Operationen, die von den anderen Vorrichtungen durchgeführt werden, zu authentifizieren. Sie kann auch einfach eine Verbindung eingehen, um als ein Peripheriegerät dieser Vorrichtung zu funktionieren.
Ein interessanter Aspekt derartiger Verknüpfungen ist, dass sie mithilfe der Erfassungseinrichtungen der Vorrichtung initiiert und authentifiziert werden können. Ein Benutzer, der sich an einem öffentlichen Computerterminal sicher identifizieren möchte, kann zum Beispiel die Erfassungseinrichtungen der Vorrichtung verwenden, um einen Code oder ein Symbol, das in einem bestimmten Bereich des Bildschirms des Terminals angezeigt wird, zu erfassen und so eine Schlüsselübertragung erwirken. Ein vergleichbarer Prozess kann unter Verwendung von Audiosignalen durchgeführt werden, die von einer Sprachaufzeichnungsvorrichtung aufgefangen werden.
15.7. Integration mit anderen Vorrichtungen
In einigen Beispielen ist die Funktionalität der Erfassungsvorrichtung in einer anderen Vorrichtung integriert, die bereits verwendet wird. Die integrierten Vorrichtungen können in der Lage sein, sich eine Stromversorgung, Datenerfassungs- und Speichereinrichtungen und Netzwerkschnittstellen zu teilen. Eine derartige Integration kann aus praktischen Gründen erfolgen, um Kosten zu senken, oder um Funktionalität zu ermöglichen, die sonst nicht verfügbar wäre.
Einige Beispiele von Vorrichtungen, in denen die Erfassungsfunktionalität integriert sein kann, sind unter anderem:

• ein vorhandenes Peripheriegerät wie beispielsweise eine Maus, ein Stylus, eine USB-Kamera (Webcam), ein Bluetooth-Headset oder eine Fernsteuerung;
• eine andere Verarbeitungs-/Speichervorrichtung, wie beispielsweise ein PDA, ein MP3-Player, ein Sprachrekorder oder eine digitale Kamera;
• andere häufig mit sich geführte oder getragene Produkte, nur aus Komfortgründen, wie beispielsweise eine Uhr, Schmuck, eine Brille, ein Hut, ein Stift, ein Autoschlüsselanhänger usw.

TEIL III – BEISPIELHAFTE ANWENDUNGEN DES SYSTEMS
In diesem Abschnitt werden Verwendungsbeispiele von dem System und von Anwendungen beschrieben, die möglicherweise auf dem System basieren. Diese Liste soll rein veranschaulichend und in keiner Weise vollständig sein.
16. Persönliche Anwendungen
16.1. Lebensbibliothek
Bei der Lebensbibliothek (siehe auch Abschnitt 6.1.1) handelt es sich um ein digitales Archiv mit allen wichtigen Dokumenten, die der Abonnent speichern möchte, und sie beinhaltet eine Reihe von Beispielen von Diensten dieses Systems. In der Lebensbibliothek können alle wichtigen Bücher, Zeitschriftenartikel, Zeitungsausschnitte usw. in digitaler Form gespeichert sein. Darüber hinaus können die Anmerkungen, Kommentare und Notizen des Abonnenten zusammen mit den Dokumenten gespeichert sein. Der Zugriff auf die Lebensbibliothek kann über das Internet und World Wide Web erfolgen.
Das System erstellt und verwaltet das Dokumentenarchiv der Lebensbibliothek für die Abonnenten. Der Abonnent gibt die Dokumente, die der Abonnent in seiner Lebensbibliothek speichern möchte, durch Erfassen von Informationen aus dem Dokument an, oder indem er dem System anderweitig anzeigt, dass das bestimmte Dokument zu der Lebensbibliothek des Benutzers hinzugefügt werden soll. Die erfassten Informationen sind typischerweise Text aus dem Dokument, können aber auch ein Barcode oder anderer Code sein, der das Dokument identifiziert. Das System akzeptiert den Code und verwendet diesen, um das Quelldokument zu identifizieren. Nachdem das Dokument identifiziert ist, kann das System entweder eine Kopie des Dokuments in der Lebensbibliothek des Benutzers speichern, oder einen Link zu einer Quelle anzeigen, aus der das Dokument bezogen werden kann.
Ein Beispiel des Lebensbibliothek-Systems kann überprüfen, ob der Abonnent autorisiert ist, eine elektronische Kopie abzurufen. Wenn ein Leser beispielsweise Text oder eine Kennung aus einer Kopie eines Artikels in der New York Times (NYT) erfasst, sodass der Artikel der Lebensbibliothek des Lesers hinzugefügt wird, wird die Lebensbibliothek mit der NYT verifizieren, ob der Leser die Onlineausgabe der NYT abonniert; falls ja, erhält der Leser eine Kopie des Artikels, der in seiner Lebensbibliothek gespeichert ist; wenn nicht, werden Informationen, die das Dokument identifizieren und erklären, wie es bestellt werden kann, in seinem Lebensbibliothekskonto gespeichert.
In einigen Beispielen verwaltet das System ein Abonnentenprofil für jeden Abonnenten, das Informationen zu den Zugriffsberechtigungen beinhaltet. Dokumentzugriffsinformationen können auf verschiedene Weise kompiliert sein, von denen zwei die Folgenden sind: 1) der Abonnent stellt dem Lebensbibliothek-System die Dokumentzugriffsinformationen, zusammen mit seinen Kontonamen und Passwörtern usw., zur Verfügung oder 2) der Lebensbibliothek-Dienstleistungsanbieter fragt den Herausgeber mit den Informationen des Benutzers ab und der Herausgeber antwortet durch Ermöglichen eines Zugangs zu einer elektronischen Kopie, wenn der Lebensbibliothek-Abonnent autorisiert ist, auf das Material zuzugreifen. Wenn der Lebensbibliothek-Abonnent nicht autorisiert ist, über eine elektronische Kopie des Dokuments zu verfügen, stellt der Herausgeber einen Preis für den Lebensbibliothek-Dienstleistungsanbieter bereit, welcher dem Kunden anschließend die Option bereitstellt, das elektronische Dokument zu erwerben. Fall dies geschieht zahlt der Lebensbibliothek-Dienstleistungsanbieter entweder den Herausgeber direkt und stellt dem Lebensbibliothek-Kunden später eine Rechnung aus, oder der Lebensbibliothek-Dienstleistungsanbieter belastet für den Kauf die Kreditkarte des Kunden. Der Lebensbibliothek-Dienstleistungsanbieter würde einen Anteil des Kaufpreises oder ein geringes festgelegtes Entgelt für die Ermöglichung der Transaktion erhalten.
Das System kann das Dokument in der persönlichen Bibliothek des Abonnenten und/oder jeder anderen Bibliothek archivieren, für die der Abonnent Archivierungsprivilegien hat. Während ein Benutzer zum Beispiel Text aus einem gedruckten Dokument erfasst, kann das Lebensbibliothek-System das wiedergegebene Dokument und dessen elektronisches Gegenstück identifizieren. Nachdem das Quelldokument identifiziert ist, kann das Lebensbibliothek-System Informationen über das Quelldokument in der persönlichen Bibliothek des Benutzers und in einer Gruppenbibliothek, für die der Abonnent Archivierungsrechte besitzt, aufzeichnen. Gruppenbibliotheken sind gemeinschaftliche Archive wie etwa eine Dokumentenablage für: eine Gruppe, die gemeinsam an einem Projekt arbeitet, eine Gruppe von Wissenschaftlern, ein Gruppen-Weblog usw.
Die Lebensbibliothek kann auf viele Weisen organisiert werden: chronologisch, nach Thema, nach Höhe des Interesses des Abonnenten, nach Art der Publikation (Zeitung, Buch, Zeitschrift, technisches Paper usw.), nach dem Leseort oder Lesezeitpunkt, nach ISBN oder Dewey-Dezimalklassifikation usw. In einer Alternative kann das System Klassifikationen basierend darauf, wie andere Abonnenten dasselbe Dokument klassifiziert haben, ermitteln. Das System kann dem Benutzer Klassifikationen vorschlagen oder das Dokument für den Benutzer automatisch klassifizieren.
In verschiedenen Beispielen können Anmerkungen direkt in das Dokument eingefügt oder aber in einer separaten Datei verwaltet werden. Wenn ein Abonnent zum Beispiel Text aus einem Zeitungsartikel erfasst, wird der Artikel in seiner Lebensbibliothek archiviert, wobei der erfasste Text hervorgehoben ist. Alternativ dazu wird der Artikel in seiner Lebensbibliothek zusammen mit einer dazugehörigen Anmerkungsdatei archiviert (wodurch das archivierte Dokument unverändert bleibt). Beispiele des System können eine Kopie des Quelldokuments in der Bibliothek eines jeden Abonnenten aufbewahren, eine Kopie in der Hauptbibliothek, auf die von vielen Abonnenten zugegriffen werden kann, oder auf eine Kopie verlinken, die sich im Besitz des Herausgebers befindet.
In einigen Beispielen werden in der Lebensbibliothek nur die Änderungen des Benutzers am Dokument (z. B. Hervorhebungen usw.) und ein Link zu einer Online-Version des Dokuments (anderer Speicherort) gespeichert. Das System oder der Abonnent führt die Veränderungen mit dem Dokument zusammen, wenn der Abonnent das Dokument später abruft.
Falls die Anmerkungen in einer separaten Datei gespeichert werden, werden dem Abonnenten das Quelldokument und die Anmerkungsdatei bereitgestellt und der Abonnent kombiniert diese, um ein geändertes Dokument zu erstellen. Alternativ dazu kombiniert das System die zwei Dateien, bevor es sie dem Abonnenten präsentiert. In einem anderen Beispiel ist die Anmerkungsdatei eine Überlagerung für die Dokumentdatei und kann durch Software auf dem Computer des Abonnenten über das Dokument gelegt werden.
Abonnenten des Lebensbibliothek-Dienstes zahlen eine monatliche Gebühr, damit das System das Archiv des Abonnenten beibehält. Alternativ dazu zahlt der Abonnent einen geringen Betrag (z. B. eine Mikrozahlung) für jedes Dokument, das in dem Archiv gespeichert ist. Alternativ dazu zahlt der Abonnent für den Zugriff auf das Archiv des Abonnenten eine Gebühr je Zugriff. Alternativ dazu können Abonnenten Bibliotheken zusammenstellen und anderen ermöglichen, basierend auf einem Gewinnbeteiligungsmodell mit dem Lebensbibliothek-Dienstleistungsanbieter und Urheberrechtsinhabern, auf diese Materialien/Anmerkungen zuzugreifen. Alternativ dazu erhält der Lebensbibliothek-Dienstleistungsanbieter eine Zahlung von dem Herausgeber, wenn der Lebensbibliothek-Abonnent ein Dokument bestellt (ein Gewinnbeteiligungsmodell mit dem Herausgeber, wobei der Lebensbibliothek-Dienstleistungsanbieter einen Anteil des Gewinns des Herausgebers erhält).
In einigen Beispielen agiert der Anbieter des Lebensbibliothek-Dienstes als Mittler zwischen dem Abonnenten und dem Urheberrechteinhaber (oder dem Vertreter des Urheberrechtsinhabers wie dem Copyright Clearance Center, kurz CCC), um die Rechnungsstellung und Zahlung für urheberrechtlich geschützte Materialien zu erleichtern. Der Lebensbibliothek-Dienstleistungsanbieter verwendet die Zahlungsinformationen des Abonnenten und andere Benutzerkontoinformationen, um diesen Vermittlungsdienst bereitzustellen. Im Wesentlichen nutzt der Lebensbibliothek-Dienstleistungsanbieter die bereits vorhandene Beziehung mit dem Abonnenten, um den Erwerb von urheberrechtlich geschütztem Material im Namen des Abonnenten zu ermöglichen.
In einigen Beispielen kann das Lebensbibliothek-System Auszüge von Dokumenten speichern. Wenn ein Abonnent beispielsweise Text aus einem Papierdokument erfasst, werden die Bereiche um den erfassten Text exzerpiert und in der Lebensbibliothek abgelegt, und nicht das gesamte Dokument in der Lebensbibliothek archiviert. Dies ist besonders vorteilhaft, wenn das Dokument lang ist, da ein Erhalten der Umstände der ursprünglichen Erfassung ermöglicht, dass der Abonnent das Dokument nicht erneut lesen muss, um die interessanten Abschnitte zu finden. Natürlich kann ein Hyperlink zu dem gesamten elektronischen Gegenstück des Papierdokuments in den Auszugsmaterialien enthalten sein.
In einigen Beispielen speichert das System auch Informationen zum Dokument in der Lebensbibliothek, wie etwa den Autor, den Titel der Publikation, den Herausgeber, den Urheberrechtsinhaber (oder den Lizenzvertreter des Urheberrechtsinhabers), die ISBN, Links zu öffentlichen Anmerkungen zum Dokument, Leserangfolge usw. Bei einigen dieser zusätzlichen Informationen zum Dokument handelt es sich um eine Form von Papierdokument-Metadaten. Dritte können öffentliche Anmerkungsdateien für den Zugriff durch Personen erstellen, die nicht sie selbst sind, wie etwa die breite Öffentlichkeit. Ein Verknüpfen der Kommentare Dritter über ein Dokument ist vorteilhaft, da das Lesen von Anmerkungsdateien anderer Benutzer das Verständnis des Abonnenten über das Dokument verbessert.
In einigen Beispielen archiviert das System Materialien nach Klasse. Dieses Merkmal ermöglicht es einem Lebensbibliothek-Abonnenten, elektronische Gegenstücke ohne Zugriff auf jedes Papierdokument schnell für eine gesamte Klasse von Papierdokumenten zu speichern. Wenn der Abonnent zum Beispiel Text aus einem Exemplar der Zeitschrift National Geographic erfasst, stellt das System dem Abonnenten die Option zur Verfügung, alle älteren Hefte der National Geographic zu archivieren. Wenn der Abonnent auswählt, alle älteren Hefte zu archivieren, würde der Lebensbibliothek-Dienstleistungsanbieter anschließend bei der National Geographic Society verifizieren, ob der Abonnent dafür autorisiert ist. Wenn nicht, kann der Lebensbibliothek-Dienstleistungsanbieter den Erwerb der Rechte zur Archivierung der National-Geographic-Zeitschriftensammlung vermitteln.
16.2. Lebensspeicher
Eine Variation oder Verbesserung Lebensbibliothek-Konzepts ist der Lebensspeicher, wobei das System den von einem Benutzer erfassten Text verwendet, um mehr über dessen andere Aktivitäten abzuleiten. Die Erfassung von einer Speisekarte von einem bestimmten Restaurant, einem Programm von einer bestimmten Theateraufführung, einem Fahrplan an einer bestimmten Bahnhaltestelle oder einem Artikel aus einer Lokalzeitung ermöglicht es dem System, Rückschlüsse über den Standort und soziale Aktivitäten des Benutzers zu ziehen und ein automatisches Tagebuch, wie etwa eine Webseite, für sie anzulegen. Der Benutzer wäre in der Lage, das Tagebuch zu editieren und zu verändern, zusätzliche Materialien wie etwa Fotos hinzuzufügen und natürlich auch, sich die erfassten Elemente erneut anzuschauen.
17. Anwendungen im akademischen Bereich
Die von dem beschriebenen System unterstützte Erfassungsvorrichtung kann auf viele überzeugende Weisen im akademischen Bereich eingesetzt werden. Sie können die Schüler-Lehrer-Interaktion verbessern und die Lernerfahrung vergrößern. Neben anderen Verwendungen können Schüler Lernmaterialien beschriften, damit sie ihren spezifischen Anforderungen entsprechen; Lehrer können die Klassenleistung überwachen; und Lehrer können in einer Arbeit eines Schülers zitierte Ausgangsmaterialien verifizieren.
17.1. Kinderbücher
Die Interaktion eines Kindes mit einem Papierdokument, wie etwa einem Buch, wird durch ein Lesekompetenzerwerbssystem überwacht, das einen spezifischen Satz von Beispielen für dieses System nutzt. Das Kind verwendet eine Erfassungsvorrichtung, die mit anderen Elementen des Lesekompetenzerwerbssystems kommuniziert. Neben der Erfassungsvorrichtung beinhaltet das Lesekompetenzerwerbssystem eine Anzeige und Lautsprecher sowie eine Datenbank, auf die die Erfassungsvorrichtung zugreifen kann. Wenn das Kind ein unbekanntes Wort in dem Buch entdeckt, erfasst das Kind dieses mit der Erfassungsvorrichtung. In einem Beispiel vergleicht das Lesekompetenzerwerbssystem den erfassten Text mit den Ressourcen in seiner Datenbank, um das Wort zu identifizieren. Die Datenbank beinhaltet ein Wörterbuch, einen Thesaurus und/oder Multimediadaten (z. B. Audio, Grafiken usw.). Nachdem das Wort identifiziert wurde, verwendet das System die Lautsprecher, um dem Kind das Wort und dessen Definition vorzutragen. In einem anderen Beispiel werden das Wort und dessen Definition durch das Lesekompetenzerwerbssystem auf der Anzeige angezeigt. Multimediadateien über das erfasste Wort können über die Anzeige und die Lautsprecher auch abgespielt werden. Wenn ein Kind zum Beispiel das Buch „Goldlöckchen und die drei Bären” liest und das Wort „Bär” erfasst, kann das System das Wort „Bär” laut vorlesen und ein kurzes Video zu Bären auf dem Display abspielen. Auf diese Weise lernt das Kind, das geschriebene Wort auszusprechen, und über die Multimediapräsentation wird ihm visuell beigebracht, was das Wort bedeutet.
Das Lesekompetenzerwerbssystem stellt direkt auditorische und/oder visuelle Informationen bereit, um den Lernprozess zu fördern. Das Kind verwendet diese ergänzenden Informationen, um sich schnell ein tieferes Verständnis des geschriebenen Materials anzueignen. Das System kann verwendet werden, um Leseanfängern das Lesen beizubringen, um Kinder zu helfen, sich ein größeres Vokabular anzueignen, usw. Das System stellt dem Kind Informationen über Wörter zur Verfügung, die das Kind nicht kennt, oder über die das Kind weitere Informationen erhalten möchte.
17.2. Lesekompetenzerwerb
In einigen Beispielen erstellt das System persönliche Wörterbücher. Wenn der Leser ein Wort sieht, das neu, interessant oder besonders nützlich oder problematisch ist, speichert es der Leser (zusammen mit seiner Definition) in einer Computerdatei. Diese Computerdatei wird das personalisierte Wörterbuch des Benutzers. Das Wörterbuch ist von der Größe her im Allgemeinen kleiner als ein normales Wörterbuch, kann also auf eine Mobilstation heruntergeladen werden und somit selbst dann verfügbar sein, wenn das System nicht unmittelbar zugänglich ist. In einigen Beispielen beinhalten die Einträge des persönlichen Wörterbuchs Audiodateien, um bei der korrekten Aussprache von Wörtern zu helfen, und Informationen, die das Papierdokument identifizieren, aus dem das Wort erfasst wurde.
In einigen Beispielen erstellt das System benutzerdefinierte Rechtschreib- und Vokabeltests für Schülerinnen und Schüler. Liest ein Schüler beispielsweise eine Aufgabe, so kann der Schüler unbekannte Wörter mit der Erfassungsvorrichtung erfassen. Das System speichert eine Liste mit allen Wörtern, die der Schüler erfasst hat. Später gibt das System einen angepassten Orthografie-/Wortschatztest an den Schüler auf einem verbundenen Monitor aus (oder druckt einen solchen Test auf einem verbundenen Drucker).
17.3. Musikunterricht
Die Anordnung von Noten auf einer Notenlinie entspricht der Anordnung von Buchstaben in einer Textzeile. Die Erfassungsvorrichtung kann verwendet werden, um Notenschrift zu erfassen, und ein entsprechender Prozess der Erstellung einer Suche in Datenbanken bekannter Musikstücke würde ermöglichen, dass das Stück, aus dem die Erfassung erfolgte, zu identifizieren, welches anschließend abgerufen, abgespielt werden oder die Grundlage für eine weitere Aktion sein kann.
17.4. Erkennen von Plagiaten
Lehrer können das System zum Erkennen von Plagiaten oder Verifizieren von Quellen verwenden, indem sie Text aus den Arbeiten der Schüler erfassen und den erfassten Text an das System senden. Ein Lehrer, der zum Beispiel verifizieren möchte, ob ein Zitat in der Arbeit eines Schülers aus der Quelle stammt, die der Schüler angegeben hat, kann einen Teil des Zitats erfassen und den Titel des Dokuments, das durch das System identifiziert wird, mit dem Titel des Dokuments vergleichen, das von dem Schüler zitiert wurde. In gleicher Weise kann das System Erfassungen von Text aus Arbeiten, die als originäre Arbeiten des Schülers eingereicht wurden, verwenden, um aufzuzeigen, ob der Text stattdessen kopiert wurde.
17.5. Verbessertes Lehrbuch
In einigen Beispielen kann die Erfassung von Text aus einem wissenschaftlichen Lehrbuch Schüler oder Lehrer zu detaillierteren Erklärungen, weiteren Übungen, Diskussionen zwischen Schülern und Lehrern über das Material, verwandten beispielhaften früheren Prüfungsfragen, weiteren Texten zu dem Thema, Aufzeichnungen von Vorlesungen zu dem Thema usw. führen. (Siehe auch Abschnitt 7.1.).
17.6. Sprachenerwerb
In einigen Beispielen wird das System zum Unterrichten von Fremdsprachen verwendet. Das Erfassen eines spanischen Wortes kann zum Beispiel bewirken, dass das Wort auf spanisch zusammen mit seiner Definition auf englisch laut vorgelesen wird.
Das System stellt direkt auditive und/oder visuelle Informationen bereit, um den Prozess zum Erlernen einer neuen Sprache zu unterstützen. Der Leser verwendet diese ergänzenden Informationen, um sich schnell ein tieferes Verständnis des Materials anzueignen. Das System kann verwendet werden, um Lernanfängern beizubringen, Fremdsprachen zu lesen, Schülern dabei zu helfen, sich ein größeres Vokabular anzueignen usw. Das System stellt Informationen über Fremdwörter bereit, die dem Leser unbekannt sind, oder über die der Leser mehr Informationen möchte. Beim Erfassen von Text in einer Sprache kann die Erfassungsvorrichtung den erfassten Text in einer anderen Sprache anzeigen, mit der der Benutzer vertrauter ist. In einem weiteren Beispiel kann die Erfassungsvorrichtung den erfassten Text so anzeigen, wie er im Dokument erscheint, aber dem Benutzer gestatten, selektiv bestimmte Wörter zu übersetzen und anzuzeigen, die ihm nicht vertraut oder bekannt sind, indem er die Wörter zum Beispiel auf einem Touchscreen der Erfassungsvorrichtung antippt. Die Übersetzung kann durch die Erfassungsvorrichtung durchgeführt werden oder zur Übersetzung an ein anderes System gesendet werden.
Die Interaktion von Lesern mit einem Papierdokument wie beispielsweise einer Zeitung oder einem Buch wird von einem Sprachkompetenzsystem überwacht. Der Leser verfügt über eine Erfassungsvorrichtung, die mit dem Sprachkompetenzsystem kommuniziert. In einigen Beispielen beinhaltet das Sprachkompetenzsystem eine Anzeige und Lautsprecher sowie eine Datenbank, auf die die Erfassungsvorrichtung zugreifen kann. Wenn der Leser ein unbekanntes Wort in einem Artikel entdeckt, erfasst der Leser dieses mit der Erfassungsvorrichtung. Die Datenbank beinhaltet ein Fremdsprachenwörterbuch, einen Thesaurus und/oder Multimediadaten (z. B. Audio, Grafiken usw.). In einem Beispiel vergleicht das System den erfassten Text mit den Ressourcen in seiner Datenbank, um das erfasste Wort zu identifizieren. Nachdem das Wort identifiziert wurde, verwendet das System die Lautsprecher, um dem Leser das Wort und dessen Definition vorzutragen. In einigen Beispielen werden sowohl das Wort als auch dessen Definition auf der Anzeige angezeigt. Multimediadateien über Grammatikhinweise im Zusammenhang mit dem erfassten Wort können über die Anzeige und Lautsprecher ebenfalls abgespielt werden. Wenn zum Beispiel das Wort „sprechen” erfasst wird, kann das System das Wort „hablar” vortragen, einen kurzen Audioclip abspielen, der die korrekte spanische Aussprache angibt, und eine vollständige Liste der verschiedenen Konjugationen von „hablar” anzeigen. Auf diese Weise lernt der Schüler, das geschriebene Wort auszusprechen, über die Multimediapräsentation wird ihm die Schreibweise des Wortes visuell beigebracht, und er lernt, wie das Verb zu konjugieren ist. Darüber hinaus kann das System Grammatiktipps über die ordnungsgemäße Verwendung von „hablar” zusammen mit anderen gängigen Phrasen präsentieren.
In einigen Beispielen erfasst der Benutzer ein Wort oder eine kurze Wortverbindung aus einem wiedergegebenen Dokument in einer Sprache, die nicht die Muttersprache des Benutzers ist (oder in einer anderen Sprache, die der Benutzer hinreichend kennt). In einigen Beispielen verwaltet das System eine priorisierte Liste der „bevorzugten” Sprachen des Benutzers. Das System identifiziert das elektronische Gegenstück des wiedergegebenen Dokuments und bestimmt den Erfassungsort innerhalb des Dokuments. Das System identifiziert außerdem ein zweites elektronisches Gegenstück des Dokuments, das in eine der vom Benutzer bevorzugten Sprachen übersetzt wurde, und bestimmt die Stelle in dem übersetzten Dokument, die dem Erfassungsort in dem Originaldokument entspricht. Wenn die entsprechende Stelle nicht genau bekannt ist, identifiziert das System einen kleinen Bereich (z. B. einen Absatz), der die entsprechende Stelle des Erfassungsorts beinhaltet. Die entsprechende übersetzte Stelle wird dem Benutzer anschließend dargestellt. Dies stellt dem Benutzer eine genaue Übersetzung des jeweiligen Abschnitts an der erfassten Stelle zur Verfügung, einschließlich Slang oder anderer idiomatischer Verwendungen, die sich oftmals nur schwer auf einer Wort-für-Wort-Basis übersetzen lassen.
17.7. Sammeln von Forschungsmaterialien
Ein Benutzer, der ein bestimmtes Thema untersucht, kann auf alle möglichen Arten von Materialien, sowohl gedruckt als auch auf dem Bildschirm, stoßen, die er möglicherweise als relevant für das Thema in einem persönlichen Archiv speichern möchte. Das System würde ermöglichen, dass dieser Prozess als Ergebnis eines Erfassen einer kurzen Wortverbindung aus einem beliebigen Stück Material automatisch erfolgt, und könnte außerdem eine Bibliografie anlegen, die zur Aufnahme in einer Veröffentlichung zum Thema geeignet ist.
18. Kommerzielle Anwendungen
Natürlich können aus nahezu allen Prozessen, die in diesem Dokument beschrieben werden, kommerzielle Aktivitäten entstehen, aber an dieser Stelle konzentrieren wir uns auf einige wenige offensichtliche Einnahmequellen.
18.1. Gebührenbasierte Suche und Indexierung
Bei herkömmliche Internet-Suchmaschinen ist das Durchsuchen von elektronischen Dokumenten in der Regel kostenlos, und sie berechnen Inhaltsanbietern auch keine Gebühr dafür, ihre Inhalte in dem Index aufzunehmen. In einigen Beispielen ermöglicht das System Rechnungen an Benutzer und/oder Zahlungen an Suchmaschinen und/oder Inhaltsanbieter in Verbindung mit dem Betrieb und der Verwendung des Systems.
In einigen Beispielen zahlen die Abonnenten der Dienste des Systems eine Gebühr für Suchen, die von Erfassungen aus Papierdokumenten stammen. Ein Börsenmakler kann zum Beispiel einen Artikel des Wall Street Journal über ein neues Produkt lesen, das von Unternehmen X angeboten wird. Durch Erfassen des Namens von Unternehmen X aus dem Papierdokument und Zustimmen, die nötigen Gebühren zu zahlen, verwendet der Börsenmakler das System, um spezielle oder proprietäre Datenbanken zu durchsuchen, um Premiuminformationen über das Unternehmen, wie etwa Analystenberichte, zu erhalten. Das System kann außerdem Vorkehrungen für eine Prioritätsindexierung der Dokumente schaffen, die am wahrscheinlichsten in Papierform gelesen werden, beispielsweise indem es sicherstellt, dass alle der Zeitungen, die an einem bestimmten Tag veröffentlicht werden, bereits indexiert und verfügbar sind, bevor sie in den Geschäften ausliegen.
Inhaltsanbieter können eine Gebühr dafür zahlen, dass sie mit bestimmten Begriffen in Suchabfragen verknüpft werden, die von Papierdokumenten übermittelt werden. In einem Beispiel wählt das System den bevorzugtesten Inhaltsanbieter beispielsweise basierend auf zusätzlichem Kontext über den Anbieter aus (wobei der Kontext in diesem Fall ist, dass der Inhaltsanbieter eine Gebühr gezahlt hat, um in der Liste der Ergebnisse weiter vorgerückt zu werden). Im Wesentlichen passt der Suchanbieter Papierdokument-Suchergebnisse basierend auf bereits existenten Vereinbarungen mit einem Inhaltsanbieter an. Siehe auch die Beschreibung von Schlüsselwörtern und Schlüsselwortverbindungen in Abschnitt 5.2.
Dort, wo der Zugriff auf bestimmte Inhalte auf bestimmte Personengruppen beschränkt sein soll (z. B. Kunden oder Mitarbeiter), können diese Inhalte durch eine Firewall geschützt sein und daher allgemein von Dritten nicht indexierbar sein. Der Inhaltsanbieter kann dennoch einen Index zu den geschützten Inhalten bereitstellen wollen. In solch einem Fall kann der Inhaltsanbieter einen Dienstleistungsanbieter bezahlen, um Systemabonnenten den Index des Inhaltsanbieters zur Verfügung zu stellen. Eine Anwaltskanzlei kann beispielsweise alle der Dokumente eines Kunden indexieren. Die Dokumente sind hinter der Firewall der Anwaltskanzlei gespeichert. Jedoch möchte die Anwaltskanzlei, dass ihre Angestellten und der Kunde über die Erfassungsvorrichtung Zugang zu den Dokumenten haben und stellt den Index (oder einen Verweis auf den Index) dem Dienstleistungsanbieter zur Verfügung, welcher wiederum den Index der Anwaltskanzlei durchsucht, wenn Angestellte oder Kunden der Anwaltskanzlei von einer Erfassungsvorrichtung erfasste Suchbegriffe einreichen. Die Anwaltskanzlei stellt dem System des Dienstleistungsanbieters eine Liste von Angestellten und/oder Kunden zur Verfügung, um diese Funktion zu ermöglichen, oder das System kann Zugriffsrechte durch Abfragen der Anwaltskanzlei vor Durchsuchen des Index der Anwaltskanzlei verifizieren. Es ist zu beachten, dass der Index, der von der Anwaltskanzlei bereitgestellt wird, in dem vorhergehenden Beispiel nur der der Dokumente des Kunden ist und nicht ein Index aller Dokumente in der Anwaltskanzlei. Daher kann der Dienstleistungsanbieter den Kunden der Anwaltskanzlei ausschließlich Zugang zu den Dokumenten gewähren, die die Anwaltskanzlei für den Kunden indexiert hat.
Es gibt mindestens zwei separate Einnahmequellen, die sich aus Suchen, die von Papierdokumenten stammen, ergeben können: eine Einnahmequelle kann sich aus der Suchfunktion und die andere aus der Inhaltsbereitstellungsfunktion ergeben. Die Suchfunktionseinnahmen können aus bezahlten Abonnements von Benutzern generiert werden, können aber auch basierend auf einer Gebühr pro Suche generiert werden. Die Einnahmen der Inhaltsauslieferung können mit dem Inhaltsanbieter oder dem Urheberrechtsinhaber geteilt werden (der Dienstanbieter kann für jede Auslieferung einen Prozentsatz des Verkaufs oder eine feste Gebühr, wie z. B. einen Kleinstbetrag verlangen), können jedoch auch durch ein „Überweisungsmodell” erzeugt werden, in dem das System eine Gebühr oder einen Prozentsatz für jeden Artikel erhält, den der Abonnent aus dem Online-Katalog bestellt und den das System geliefert bzw. zu dem das System beigetragen hat, unabhängig davon, ob der Dienstanbieter die Transaktion vermittelt. In einigen Beispielen erhält der Systemdienstleistungsanbieter für alle Käufe, die der Abonnent getätigt hat. Einnahmen von dem Inhaltsanbieter, entweder für einen gewissen Zeitraum oder zu einem beliebigen späteren Zeitpunkt, wenn ein Kauf eines identifizierten Produkts erfolgt.
18.2. Kataloge
Verbraucher können die Erfassungsvorrichtung verwenden, um Käufe über papierbasierte Kataloge zu tätigen. Der Abonnent erfasst Informationen aus dem Katalog, die den Katalog identifizieren. Diese Informationen sind Text aus dem Katalog, ein Barcode oder andere Identifikatoren des Katalogs. Der Abonnent erfasst Informationen, die die Produkte identifizieren, die er erwerben möchte. Das Katalogversandetikett kann eine Kundenidentifikationsnummer enthalten, die den Kunden für den Kataloganbieter identifiziert. Falls dem so ist, kann der Abonnent auch seine Kundenidentifikationsnummer erfassen. Das System agiert als ein Vermittler zwischen dem Abonnenten und dem Anbieter, um die Katalogbestellung durch Bereitstellen der Auswahl des Kunden und der Kundenidentifikationsnummer für den Anbieter zu erleichtern.
18.3. Gutscheine
Ein Verbraucher erfasst papierbasierte Gutscheine und speichert eine elektronische Kopie des jeweiligen Gutscheins auf der Erfassungsvorrichtung oder einer entfernen Vorrichtung wie einem Computer, um sie später abzurufen und zu verwenden. Ein Vorteil des elektronischen Speicherns liegt darin, dass der Verbraucher von der Last befreit wird, Papiergutscheine mit sich zu führen. Ein weiterer Vorteil liegt darin, dass elektronische Gutscheine von jedem beliebigen Ort aus abgerufen werden können. In einigen Beispielen kann das System Gutscheinverfallsdaten verfolgen, den Verbraucher über Gutscheine, die demnächst verfallen benachrichtigen und/oder verfallene Gutscheine aus dem Speicher löschen. Einen Vorteil für den Aussteller der Gutscheine bietet die Möglichkeit, mehr Feedback darüber zu erhalten, wer die Gutscheine verwendet, und wann und wo diese erfasst und verwendet werden.
18.3. Werbeportal
Über ein Werbeportal können Inserenten Markup-Ebenen erstellen und verwalten, die mit verschiedenen Werbeanzeigen verknüpft sind. In einem Beispiel kann ein Werbeportal eine Weboberfläche bereitstellen, durch die ein Werbekunde eine oder mehrere Werbekampagnen und verbundene Informationen, wie etwa einen Namen, Markup-Informationen im Zusammenhang mit der Kampagne, Informationen darüber, wann Werbeanzeigen in der Kampagne angezeigt werden sollten und wem die Werbeanzeigen angezeigt werden sollten, Informationen über die beworbenen Produkte oder Dienstleistungen und/oder beworbene Produkte, Tags, Schlüsselwörter und/oder Schlüsselphrasen im Zusammenhang mit der Kampagne, Text oder andere Medien im Zusammenhang mit der Kampagne und so weiter, eintragen kann. Ein Werbeportal kann außerdem eine Oberfläche bereitstellen, durch die ein Werbekunde Bedienelemente angeben kann, die in der dazugehörigen Markup-Ebene erscheinen sollen. Zum Beispiel kann ein Werbekunde einen bestimmten Bereich innerhalb eines Werbebilds und/oder einen bestimmten Satz oder ein Wort innerhalb von Werbetext angeben kann, der mit einer Bedienungsüberlagerung angezeigt werden soll, wenn die Werbeanzeige erfasst und auf einer Erfassungsvorrichtung angezeigt wird. In einigen Beispielen kann es ein Werbeportal Werbekunden auch ermöglichen, eine Ausführungsspezifikation bereitzustellen, die eine oder mehrere bevorzugte Anbieter und/oder einen „Informationen-zum-Kauf”-Vorgang beinhalten kann. Ein Werbeportal kann zudem eine Oberfläche zur Verfügung stellen, mit der ein Werbetreibender die Aspekte der Erfahrung eines Kunden steuern kann, darunter auch, ob und/oder wann Sonderangebote, verschiedene Arten von Medien, eine Markup-Schicht, die auf die Interessen eines bestimmten Benutzers zugeschnitten ist, Bedürfnisse, geografischer Standorte, gesprochene Sprache usw. angeboten werden sollen. Zum Beispiel kann ein Werbeportal eine Übersetzung einer Werbeanzeige aus der Sprache der Werbeanzeige in eine Sprache, die von einem Benutzer der Erfassungsvorrichtung, der die Werbeanzeige erfasst, bevorzugt wird, bereitstellen. In einigen Beispielen kann ein Werbeportal Dienstleistungen bereitstellen, die von Verbrauchern genutzt werden können. Zum Beispiel kann ein Werbeportal Werbekunden oder anderen Dritten ermöglichen, Bewertungen und/oder Kommentare im Zusammenhang mit Werbeinteraktivitätsebenen, Anbietern, Werbekunden, Produkten, Dienstleistungen und dergleichen zu posten. In anderen Beispielen kann ein Werbeportal Benutzern ermöglichen, Kommentare im Zusammenhang mit wiedergegebenen oder gedruckten Werbeanzeigen zu posten, die Links, Bilder, Querverweise usw. beinhalten.
19. Allgemeine Anwendungen
19.1. Formulare
Das System kann dazu verwendet werden, ein elektronisches Dokument, das einem Papierformular entspricht, automatisch auszufüllen. Ein Benutzer erfasst ein wenig Text oder einen Barcode, der das Papierformular eindeutig identifiziert. Die Erfassungsvorrichtung übermittelt die Identität des Formulars und Informationen, die den Benutzer identifizieren, an einen nahegelegenen Computer. Der nahegelegene Computer verfügt über eine Internetverbindung. Der nahegelegene Computer kann auf eine erste Datenbank von Formularen und eine zweite Datenbank. die über Informationen über den Benutzer der Erfassungsvorrichtung verfügt, (wie etwa eine Informationsdatenbank über Abonnenten des Dienstleistungsanbieters) zugreifen. Der nahegelegene Computer greift auf eine elektronische Version des Papierformulars auf der ersten Datenbank zu und füllt die Felder des Formulars basierend auf den Informationen über den Benutzer aus, die aus der zweiten Datenbank abgerufen werden. Der nahegelegene Computer schickt das fertige Formular dann per E-Mail an den bestimmungsgemäßen Empfänger. Alternativ dazu könnte der Computer das fertige Formular auf einem nahegelegenen Drucker ausdrucken.
Anstatt auf eine externe Datenbank zuzugreifen, verfügt das System in einigen Beispielen über eine Erfassungsvorrichtung, die die Benutzerinformationen z. B. in einem Identitätsmodul, auf einer SIM-Karte oder einer Sicherheitskarte enthält. Die Erfassungsvorrichtung stellt dem nahegelegenen PC Informationen bereit, die das Formular identifizieren. Der nahegelegene PC greift auf das elektronische Formular zu und fragt die Erfassungsvorrichtung nach beliebigen Informationen ab, die notwendig sind, um das Formular auszufüllen.
19.2. Visitenkarten
Das System kann verwendet werden, um elektronische Adressbücher oder andere Kontaktlisten anhand von Papierdokumenten automatisch auszufüllen. Bei Erhalt einer Visitenkarte einer neuen Bekanntschaft kann ein Benutzer mit seinem Mobiltelefon beispielsweise ein Bild der Karte aufnehmen. Das System findet eine elektronische Kopie der Karte, die verwendet werden kann, um das Onboard-Adressbuch des Mobiltelefon mit den Kontaktdaten der neuen Bekannten zu aktualisieren. Die elektronische Kopie kann mehr Informationen über die neue Bekanntschaft enthalten, als auf eine Visitenkarte passen. Zudem kann das eingebaute Adressbuch auch eine Verknüpfung zu der elektronischen Kopie speichern, sodass alle Änderungen an der elektronischen Kopie automatisch in dem Adressbuch des Mobiltelefons aktualisiert werden. In diesem Beispiel beinhaltet die Visitenkarte optional ein Symbol oder einen Text, der anzeigt, das eine elektronische Kopie existiert. Wenn keine elektronische Kopie existiert, kann das Mobiltelefon OCR und Kenntnisse über Visitenkarten-Standardformate verwenden, um für die neue Bekanntschaft einen Eintrag in dem Adressbuch auszufüllen. Symbole können auch beim Prozess der direkten Extraktion von Informationen aus dem Bild helfen. Ein Telefonsymbol neben der Telefonnummer auf einer Visitenkarte kann beispielsweise erkannt werden, um den Ort der Telefonnummer zu bestimmen.
19.3. Korrekturlesen/Bearbeiten
Das System kann den Korrekturlese- und Bearbeitungsprozess verbessern. Eine Möglichkeit, wie das System den Bearbeitungsprozess verbessern kann, ist durch Verknüpfen der Interaktionen des Editors mit einem Papierdokument mit dessen elektronischem Gegenstück. Während ein Editor ein Papierdokument liest und verschiedene Teile des Dokuments erfasst, führt das System entsprechende Anmerkungen oder Bearbeitungen an einem elektronischen Gegenstück des Papierdokuments aus. Wenn der Redakteur beispielsweise einen Abschnitt des Textes erfasst und die „neuer Absatz”-Steuerungsgeste mit der Erfassungsvorrichtung macht, würde ein Computer, der mit der Erfassungsvorrichtung verbunden ist, einen „neuer Absatz”-Umbruch an der Stelle des erfassten Textes in die elektronische Kopie des Dokuments einfügen.
19.4. Sprachanmerkungen
Ein Benutzer kann ein Dokument mit Sprachanmerkungen versehen, indem er einen Teil des Textes aus dem Dokument erfasst und dann eine Sprachaufzeichnung anfertigt, die mit dem erfassten Text verknüpft wird. In einigen Beispielen verfügt die Erfassungsvorrichtung über ein Mikrofon, um verbale Anmerkungen des Benutzers aufzuzeichnen. Nachdem die verbalen Anmerkungen aufgezeichnet sind, identifiziert das System das Dokument, aus welchem der Text erfasst wurde, und lokalisiert den erfassten Text innerhalb des Dokuments und fügt die Sprachanmerkung an dieser Stelle an. In einigen Beispielen wandelt das System die Sprache in Text um und fügt die Anmerkung als einen Textkommentar an.
In einigen Beispielen speichert das System Anmerkungen getrennt vom Dokument, sodass das Dokument nur einen Verweis auf die Anmerkungen enthält. Die Anmerkungen werden für einen bestimmten Abonnenten oder Benutzergruppen dann zu einer Anmerkungs-Markup-Ebene des Dokuments.
In einigen Beispielen geht das System für jede Erfassung und zugehörige Anmerkung wie folgt vor: es identifiziert das Dokument, öffnet es mithilfe eines Softwarepakets, scrollt zur Position der Erfassung und spielt die Sprachanmerkung ab. Der Benutzer kann anschließend mit einem Dokument interagieren, während er auf Sprachanmerkungen, vorgeschlagene Änderungen oder andere Kommentare Bezug nimmt, die entweder von ihm selbst oder von jemand anderem aufgezeichnet wurden.
19.5. Hilfe im Text
Das beschriebene System kann dazu verwendet werden, Papierdokumente mit elektronischen Hilfemenüs zu erweitern. In einigen Beispielen enthält eine Markup-Ebene, die mit einem Papierdokument verknüpft ist, Hilfemenü-Informationen für das Dokument. Wenn ein Benutzer zum Beispiel Text aus einem bestimmten Abschnitt des Dokuments erfasst, überprüft das System das mit dem Dokument assoziierte Markup und stellt dem Benutzer ein Hilfemenü dar, wie etwa auf einer Anzeige der Erfassungsvorrichtung.
19.6. Verwendung mit Anzeigen
In einigen Fällen kann es von Vorteil sein, Informationen von einem Fernseher, einem Computer-Monitor oder anderen ähnlichen Anzeigen erfassen zu können. In einigen Beispielen wird die Erfassungsvorrichtung verwendet, um Informationen von Computermonitoren und Fernsehern zu erfassen. In einigen Beispielen weist die Erfassungsvorrichtung einen Beleuchtungssensor auf, der dafür optimiert ist, mit herkömmlichen Kathodenstrahlröhren(CRT)-Anzeigetechniken wie etwa Rastern, Austasten usw. zu funktionieren.
Eine Spracherfassungsvorrichtung, die so funktioniert, dass sie Ton von dem Benutzer aufnimmt, der einen Text aus einem Dokument vorliest, funktioniert normalerweise unabhängig davon, ob das Dokument in Papierform vorliegt oder auf einer Anzeige oder einem anderen Medium angezeigt wird.
19.6.1. Öffentliche Kioske und dynamische Session-IDs
Eine Verwendung für die direkte Erfassung von Anzeigen ist die Verknüpfung von Vorrichtungen wie in Abschnitt 15.6 beschrieben. In einigen Beispielen zeigt ein öffentliches Internet-Terminal zum Beispiel eine dynamische Sitzungs-ID auf seinem Monitor an. Das Terminal ist mit einem Kommunikationsnetzwerk wie etwa dem Internet oder einem firmeneigenen Intranet verbunden. Die Sitzungs-ID ändert sich periodisch, jedoch mindestens immer dann, wenn das Terminal verwendet wird, sodass jedem Benutzer eine neue Sitzungs-ID angezeigt wird. Um das Terminal zu verwenden, erfasst der Abonnent die auf dem Terminal angezeigte Sitzungs-ID; durch Erfassen der Sitzungs-ID teilt der Benutzer dem System mit, dass er wünscht, das Terminal für die Bereitstellung von Inhalten, die aus Erfassungen von gedruckten Dokumenten oder vom Terminalbildschirm selbst resultieren, vorübergehend mit seiner Erfassungsvorrichtung zu verbinden. Die Erfassungsvorrichtung kann die Sitzungs-ID und andere Informationen, die die Erfassungsvorrichtung authentifizieren (wie etwa eine Seriennummer, Kontonummer oder andere identifizierende Informationen) direkt an das System übermitteln. Die Erfassungsvorrichtung kann mit dem System zum Beispiel direkt kommunizieren (wobei „direkt” bedeutet, ohne die Nachricht über das Terminal zu vermitteln), durch Senden der Sitzungsbeginn-Nachricht über ein Mobilfunknetz, auf das die Erfassungsvorrichtung zugreifen kann. Alternativ dazu kann die Erfassungsvorrichtung eine Drahtlosverbindung mit dem Terminal herstellen und die Kommunikationsverbindung des Terminals nutzen, indem sie die Sitzungsbeginn-Informationen an das Terminal überträgt (eventuell über Nahbereichsfunk wie etwa Bluetooth^TM usw.); als Antwort sendet das Terminal die Sitzungsbeginn-Informationen über eine Internetverbindung an das System.
Das System kann verhindern, dass andere eine Vorrichtung, die bereits mit einer Erfassungsvorrichtung verknüpft ist, während des Zeitraums (oder der Session) verwenden, in dem die Vorrichtung mit der Erfassungsvorrichtung verknüpft ist. Dieses Merkmal ist nützlich, um zu verhindern, dass andere ein öffentliches Internetterminal nutzen, bevor die Sitzung einer anderen Person zu Ende ist. Als ein Beispiel für dieses Konzept, das mit der Verwendung eines Computers in einem Internetcafé zusammenhängt, erfasst der Benutzer einen Barcode auf einem Monitor eines PCs, den er verwenden möchte; als Reaktion sendet das System eine Sitzungs-ID an den Monitor, der diese anzeigt; der Benutzer initiiert die Sitzung durch Erfassen der Sitzungs-ID von dem Monitor (oder durch Eingeben über ein Tastenfeld oder Touchscreen oder Mikrofon auf der Erfassungsvorrichtung); und das System verknüpft in seinen Datenbanken die Sitzungs-ID mit der Seriennummer (oder einer anderen Kennung, die die Erfassungsvorrichtung des Benutzers eindeutig identifiziert) seiner Erfassungsvorrichtung, sodass eine andere Erfassungsvorrichtung die Sitzungs-ID nicht erfassen kann und den Monitor während der Sitzung nicht verwenden kann. Die Erfassungsvorrichtung ist in Kommunikation (über eine Drahtlosverbindung wie Bluetooth^TM, eine festverdrahtete Verbindung wie etwa eine Docking-Station usw.) mit einem PC, der mit dem Monitor verbunden ist, oder ist über andere Mittel, wie etwa ein Mobiltelefon usw., in direkter Kommunikation (d. h. ohne über den PC zu gehen) mit dem System.
19.7. Social Networking oder Kollaborationsumgebung
Das System kann eine Social-Networking- oder Kollaborationsumgebung, wie etwa ein Wiki, gelegentlich auch als „Wiqi” bezeichnet, bereitstellen, wo Benutzer Seiten für Wörter, Wortverbindungen, Sätze usw. erstellen können, auf denen Benutzer relevante Informationen posten können. Ein Benutzer kann beispielsweise eine Seite für berühmte Zitate aus einem Buch oder Film erstellen, auf der Benutzer Bilder, Audio, Video usw. des verwendeten Zitats oder einen Index, der Informationen darüber enthält, wo das Zitat verwendet oder zitiert wurde, posten können. In einigen Beispielen kann das System diese Seiten automatisch aktualisieren, wenn ein Benutzer den betreffenden Text über eine Erfassungsvorrichtung erfasst. Als ein weiteres Beispiel kann die Erfassungsvorrichtung ein erfasstes Bild mit Links zu einer Wiki-Seite entsprechend dem erfassten Text überlagern. Eine Wiki-Seite für ein bestimmtes Wort oder eine Wortverbindung kann für alle Benutzer zur Verfügung stehen oder kann für eine ausgewählte Gruppe von Benutzern erstellt werden, wie etwa eine Familie oder eine Gruppe von Freunden. Neben anderen Vorteilen ermöglicht das System, in einigen Beispielen, somit die Verwendung von wiedergegebenen Dokumenten als Plattformen in eine digitale Umgebung mit gemeinschaftlichem Informationsaustausch.
19.8. Concierge-Dienst
Ein Software-Concierge-System oder -Dienst bietet menschliche Unterstützung (z. B. einen virtuellen Concierge) an. Diese Person erhält Informationen zu Problemen, die bei einem Benutzer während der Verwendung einer Anwendung auftreten, und kann Maßnahmen ergreifen, um Lösungen anzubieten oder die Probleme zu beheben. Der menschliche Assistent kann Probleme beheben, die für automatisierte Prozesse schwer zu beheben sind, und kann dem Verfasser der Anwendung Feedback zu Problembereichen beim Verwenden der Software geben. Zum Beispiel kann ein Benutzer, der nach einem Dokument sucht, Probleme beim Auffinden des Dokuments haben, aber der menschliche Assistent kann die Schlüsselwörter begutachten, die der Benutzer zur Suche verwendet, kann eine Vorstellung davon haben, was der Benutzer zu suchen versucht, und kann bessere Schlüsselwörter in die Suchabfrage des Benutzers einbringen, sodass der Benutzer relevantere Suchergebnisse erhält. Als ein weiteres Beispiel, wenn das System nicht in der Lage ist, Text innerhalb eines erfassten Bildes zu identifizieren oder zu erkennen oder eine entsprechende elektronische Version eines wiedergegebenen Dokuments zu identifizieren, können diese Aufgaben zur Unterstützung an ein Software-Concierge-System gesendet werden. Desweiteren kann ein Benutzer das Concierge-System verwenden, um Produkte zu bestellen, die durch die Erfassungsvorrichtung identifiziert wurden. Dies spart dem Benutzer Zeit und verbessert die Benutzerzufriedenheit mit der und gesamte Meinung über die Anwendung. Somit stellt das Software-Concierge-System eine neue Ebene von Softwareleistung bereit, die Benutzererfahrungen verbessert und Wege ermöglicht, Software zu verwenden, die Softwareentwickler zuvor nicht implementieren konnten.
TEIL IV – SYSTEMDETAILS
Wie hierin beschrieben überwacht das System in einigen Beispielen die Eingabe, die von einem Benutzer empfangen wird, und lokalisiert die mit der empfangenen Eingabe verknüpften Inhalte und zeigt diese an – automatisch. Das System empfängt die Eingabe während der Erstellung. Bearbeitung oder Erfassung von Text, neben anderen Verfahren, und lokalisiert Inhalte von statischen Inhaltsquellen, die Inhalte bereitstellen, die vor dem Empfang der Eingabe erstellt wurden, und/oder von dynamischen Inhaltsquellen, die Inhalte bereitstellen, die während des Empfangs der Eingabe oder danach erstellt wurden, z. B. Inhalte in sozialen Netzwerken.
Automatische Erfassung und Anzeige von relevanten verknüpften Informationen
Software-Anwendungen wie beispielsweise Wortverarbeitungsanwendungen können zum Erstellen, Bearbeiten und/oder Anschauen von Informationen in Textform verwendet werden. Dementsprechend kann es in manchen Fällen wünschenswert sein, Informationen bereitzustellen, die für den Text relevant sind. Wie hierin beschrieben, stellt das System automatisch Informationen bereit, die die erhaltenen und/oder erfassten Informationen ergänzen, wie beispielsweise Informationen, die in einem Texteditor erhalten oder anderweitig in das System eingegeben oder eingesprochen werden.
Die Erfinder erkennen an, dass es während des Schreibens, Bearbeiten, Überprüfen und/oder Erfassen von Material durch eine Person hilfreich wäre, automatisch Informationen bereitzustellen, die die Person möglicherweise als nützlich für die Durchführung der Aufgabe, die sie erledigen soll, ansehen würde, wie etwa Informationen, die für das Thema des Materials oder der Aufgabe relevant sind. Die Erfinder schätzen, dass dies insbesondere dann hilfreich wäre, wenn die Person nicht den herkömmlichen Prozess der Festlegung einer Abfrage, Auswahl einer geeigneten Informationseinheit für die Suche und der ausdrücklichen Anforderung der Durchführung einer Suche in der Informationseinheit mithilfe der Abfrage durchlaufen muss.
Ein Hardware-, Firmware- und/oder Software-System oder ein System zur Bereitstellung relevanter Informationen, die andere Informationen ergänzen, wird beschrieben. Das System stellt automatisch relevante Informationen in Reaktion auf von einem Benutzer bereitgestellten Text bereit, der vom System überwacht werden kann, wie beispielsweise vom Benutzer eingegebener Text. Das System überwacht den vom Benutzer bereitgestellten Text und wählt automatisch einen Teil des Textes aus. Das System erzeugt auf Basis des ausgewählten Teils des Textes eine Abfrage, wählt einen Index aus, der unter Verwendung der Abfrage durchsucht werden soll, überträgt die Abfrage an den ausgewählten Index und empfängt Suchergebnisse, die für die Abfrage relevant sind. Neben anderen Vorteilen zeigt das System dann mindestens eines der Suchergebnisse an, sodass der Benutzer die Informationen einsehen kann, die für den vom Benutzer bereitgestellten Text relevant sind.
Sobald der Benutzer weiteren Text bereitstellt, fährt das System mit der Überwachung des weiteren Textes fort und wiederholt die Schritte zum Auswählen eines Textteils, Erstellen einer Abfrage basierend auf dem ausgewählten Teil, Auswählen eines Indexes, Übertragen der Abfrage an den Index, Empfangen von Suchergebnissen und Anzeigen eines Suchergebnisses. Auf diese Weise stellt das System automatisch, kontinuierlich und wiederholt Inhalte bereit, wie etwa ergänzende Informationen, die für den Text relevant sind, den der Benutzer bereitstellt und/oder erfasst.
Somit stellt das System dem Benutzer automatisch Inhalte bereit, die mit dem Thema des bereitgestellten Textes verknüpft sind und möglicherweise für diesen relevant sind, wie zum Beispiel ein Thema, über das der Benutzer schreibt bzw. das der Benutzer bearbeitet und/oder überprüft. Das System führt dies aus, ohne dass der Benutzer eine Abfrage erstellen, eine geeignete Informationseinheit für die Suche festlegen oder ausdrücklich anfordern muss, dass eine Suche durchgeführt wird, wobei jeder dieser Schritte andernfalls eine Aktion vom Benutzer erfordern und so möglicherweise den Schreib-, Bearbeitungs- und/oder Überprüfungsprozess des Benutzers behindern würde. Dementsprechend können das System und die Techniken, die hierin beschrieben werden, die Prozesse des Schreibens, Bearbeitens und/oder Überprüfens von Informationen für den Benutzer verbessern sowie zusätzliche Vorteile bringen.
Bereitstellen relevanter Informationen
4 ist ein Anzeigediagramm, das eine beispielhafte Anzeige 400 zeigt, die von einem System im Zusammenhang mit der Anzeige von empfangenem Text und der Bereitstellung von für den empfangenen Text relevanten Informationen präsentiert wird. Wie dargestellt, wird die Anzeige 400 von einer Wortverarbeitungsanwendung einer Computervorrichtung bereitgestellt und von der Informationsausgabevorrichtung der Computervorrichtung (zum Beispiel der Anzeigevorrichtung der Computervorrichtung) angezeigt. Die Wortverarbeitungsanwendung kann das System beinhalten (die Wortverarbeitungsanwendung bindet das System zum Beispiel in einen oder mehrere ihrer Prozesse ein), das System kann ein von der Wortverarbeitungsanwendung unabhängiges System sein (ein oder mehrere von der Wortverarbeitungsanwendung unabhängige Prozesse beinhalten das System) oder es wird eine Kombination aus diesen oder anderen Konfigurationen verwendet. Andere Anwendungen einer Computervorrichtung, wie etwa eine Browser-Anwendung, eine E-Mail-Anwendung, eine Tabellenkalkulationsanwendung, eine Datenbankanwendung, eine Präsentationsanwendung, eine Softwareentwicklungsanwendung und/oder andere Anwendungen, können die Anzeige 400 darstellen. Alternativ oder zusätzlich kann ein Betriebssystem einer Computervorrichtung die Anzeige 400 präsentieren. Das System kann mit einer beliebigen Sammlung von Daten (hierin als Dokument bezeichnet) verwendet werden, einschließlich der Daten, die in wiedergegebenen Dokumenten präsentiert und von einer Erfassungsvorrichtung erfasst werden, die das System ausführt.
Die Anzeige 400 beinhaltet einen Textanzeigebereich 405 und einen Informationsanzeigebereich 410. Im Textanzeigebereich 405 wird Text angezeigt, der von einem Benutzer bereitgestellt wird, wie beispielsweise Text, der von einem Benutzer über eine Informationseingabevorrichtung wie eine Tastatur bereitgestellt wird. Der Benutzer kann Informationen über andere Informationseingabevorrichtungen bereitstellen, wie beispielsweise über ein Mikrofon, das gesprochene Informationen empfängt, die in Text umgewandelt werden, eine Erfassungskomponente, die Text aus einem wiedergegebenen Dokument erfasst, und andere hierin beschriebene Eingabegeräte. Der Benutzer kann Text auch auf andere Arten bereitstellen, z. B. durch Einfügen von Text in dem Textanzeigebereich 405. In einigen Ausführungsformen kann der Benutzer Text bereitstellen, indem er ein binäres Objekt mit verknüpftem Text, wie zum Beispiel ein Bild mit zugehörigem Text (z. B. eine Bildunterschrift, einen Titel, eine Beschreibung usw.) in dem Textanzeigebereich 405 einfügt. In diesem Beispiel betrachtet das System den mit dem binären Objekt verknüpften Text als den bereitgestellten Text.
Im Informationsanzeigebereich 410 werden mehrere Informationselemente angezeigt, die das System als relevant für den bereitgestellten Text erachtet, der im Textanzeigebereich 405 angezeigt wird. Wie dargestellt, werden im Informationsanzeigebereich 410 sechs verschiedene Informationselemente 415 (einzeln dargestellt als die Elemente 415a–f) angezeigt. Der Informationsanzeigebereich 410 beinhaltet auch ein Menüelement „Aktion” 430, über das der Benutzer verschiedene vom System durchzuführende Aktionen festlegen kann (z. B. Anzeigen eines Zeitstrahls, Analysieren von Text und andere Aktionen), und ein Menüelement „Optionen” 435, über das der Benutzer Optionen für das System festlegen kann (z. B. zu durchsuchende Indizes, Anzahl der anzuzeigenden Elemente und andere Optionen).
Die Routine, durch die das System Text empfängt und Informationen bereitstellt, die für den bereitgestellten Text relevant sind, ist in 5 dargestellt, die unter Bezugnahme auf das Beispiel in 4 beschrieben wird. In einigen Beispielen führt das System die Routine 500 automatisch kontinuierlich und wiederholt aus, während der Benutzer Text bereitstellt. Unter Bezugnahme auf 4 beinhaltet der Anzeigebereich 405 einen ersten Satz 480, den der Benutzer bereitgestellt hat.
In Schritt 510 überwacht das System den empfangenen Text, während der Benutzer den Text bereitstellt. Unter der Annahme, dass der Benutzer den ersten Satz zum Beispiel mithilfe einer Tastatur eingegeben hat, überwacht das System den Text, während der Benutzer den Text eingibt. Das System kann den Text per Hooking von Betriebssystem- oder Anwendungsereignissen unter Verwendung eines Gerätetreibers für die zur Bereitstellung des Textes verwendete Eingabevorrichtung, einer Spracherkennungsmaschine, einer Bildschirm-OCR-Funktion, mit der der Text erfasst wird, und/oder anderer Techniken überwachen. Das System kann den überwachten Text auf verschiedene Arten speichern, zum Beispiel indem es eine sekundäre Kopie der eingegebenen Zeichen in einem Pufferspeicher erstellt, Datenstrukturen mit Teilen des Textes füllt und/oder andere Techniken verwendet. Das System kann den gespeicherten Text und/oder die gespeicherten Datenstrukturen aktualisieren, während der Benutzer Text hinzufügt, den Text bearbeitet und/oder den Text löscht.
In Schritt 515 wählt das System einen Teil des überwachten Textes aus, um eine Abfrage zu erstellen. Das System kann verschiedene Techniken verwenden, um den Teil des überwachten Textes auszuwählen. So kann das System beispielsweise bestimmen, dass der Benutzer einen Satz oder Abschnitt beendet hat, und dann verschiedene Komponenten des Satzes oder Abschnitts identifizieren, wie etwa Subjekte, Prädikate, Objekte und/oder andere Komponenten. Das System kann dann eine oder mehrere Komponenten des Satzes oder Abschnitts, wie beispielsweise ein Substantiv, eine Nominalphrase, einen Eigennamen, eine Eigennamenphrase, ein Verb, ein Adverb und/oder andere Komponenten, auswählen. In einem weiteren Beispiel kann das System die erste Instanz eines Substantivs im bereitgestellten Text auswählen. Das System kann Techniken zur Zusammenfassung natürlicher Sprache, Synonymabgleichstechniken und/oder andere Techniken verwenden, um einen Teil des überwachten Textes zu identifizieren und auszuwählen. Wie in 4 durch die gestrichelten Linien, die durch Referenzzeichen 450 angegeben sind, dargestellt, hat das System die Nominalphrase „Comic-Buch” in Schritt 515 ausgewählt.
In Schritt 520 erstellt das System eine Abfrage basierend auf dem ausgewählten Text. Das System kann zum Beispiel den ausgewählten Text „Comic-Buch” verwenden, um die Abfrage „comic + buch” zu erstellen. Das System kann weitere Informationen voranstellen oder an die Abfrage anhängen. In Schritt 225 wählt das System mithilfe der Abfrage einen zu durchsuchenden Index aus. Das System kann unter mehreren Indizes auswählen, die das System gruppiert oder kategorisiert hat. Das System kann beispielsweise einen allgemeinen Index für die Suche auswählen (z. B. einen von Google, Yahoo, Bing usw. bereitgestellten Index). In einem anderen Beispiel kann das System einen Referenzindex für die Suche auswählen (z. B. einen von Wikipedia, anderen Enzyklopädie-Webseiten usw. bereitgestellten Index). In einem weiteren Beispiel kann das System einen Index eines kommerziellen Anbieters von Waren oder Dienstleistungen auswählen (z. B. einen von Google Products, Amazon, PriceGrabber usw. bereitgestellten Index). In einem weiteren Beispiel kann das System einen Index von Anbietern von Echtzeitinhalten auswählen (z. B. einen von Facebook, Twitter, Blogger, Flickr, Youtube, Vimeo und anderen Seiten mit benutzergenerierten Inhalten bereitgestellten Index). Zusätzlich oder alternativ kann das System einen Index aus anderen Gruppen oder Kategorien von Indizes auswählen. Das System kann den Index basierend auf dem ausgewählten Text und/oder basierend auf zusätzlichen Informationen, wie beispielsweise nicht ausgewähltem Text oder mit einem Dokument verknüpften Metadaten (z. B. Dokumententitel, Inhaber, Zusammenfassung usw.), und/oder anderen zusätzlichen Informationen (z. B. Rolle des Benutzers, Tageszeit, Jahreszeit, geografischer Standort des Benutzers, mit dem Benutzer verknüpfte historische Daten usw.) auswählen. In einigen Beispielen wählt das System mehrere Indizes für die Suche mithilfe der Abfrage aus.
In Schritt 530 übermittelt das System die Abfrage an den ausgewählten Index (d. h. an das entsprechende Computersystem oder die mehreren entsprechenden Computersysteme, das oder die auszuführende Abfragen von dem ausgewählten Index empfangen). In Schritt 535 empfängt das System ein oder mehrere Suchergebnisse von dem Index, die für die Abfrage relevant sind. In Schritt 540 zeigt das System ein Suchergebnis an. Unter erneuter Bezugnahme auf 4 zeigt das System einen Teil des Suchergebnisses für die Abfrage „comic + buch” als Element 415a im Informationsanzeigebereich 410 an. Das Element 415a beinhaltet einen Titelbereich 420a, in dem Informationen zum Titel des Ergebnisses angegeben sind, und einen Inhaltsbereich 425a, in dem mit dem Ergebnis verknüpfter Inhalt angezeigt wird. Wie dargestellt wird in dem Titelbereich 420a ein Titel einer Wikipedia-Webseite zu Comic-Büchern angezeigt. In dem Inhaltsbereich 425a wird ein Teil des Inhalts der Wikipedia-Webseite zu Comic-Büchern angezeigt. Obwohl dies nicht speziell in 4 dargestellt ist, verknüpft das System den Titelbereich 420a oder den Inhaltsbereich 425 oder beide Bereiche mit der aktuellen Wikipedia-Webseite, die die Quelle der angezeigten Informationen ist, damit der Benutzer leicht zur aktuellen Wikipedia-Webseite navigieren kann.
Wie dargestellt zeigt das System die Elemente 415 im Informationsanzeigebereich 410 in umgekehrter Reihenfolge zur entsprechenden Abfrageerstellungszeit an, wobei das zuletzt erstellte Element oben im Informationsanzeigebereich 410 angezeigt wird. Das System zeigt eine begrenzte Anzahl an Elementen 415 (beispielsweise drei bis sechs Elemente) gleichzeitig im angezeigten (nicht ausgeblendeten) Bereich des Informationsanzeigebereichs 410 an. Das System kann die Anzahl von Elementen 415 aus verschiedenen Gründen begrenzen, z. B. um zu verhindern. dass der Benutzer möglicherweise durch viel zu viele Suchergebnisse überfordert wird, und/oder um nur einen minimalen Bereich der Anzeige 400 zu belegen. Das System ist jedoch nicht auf die Anzeige von nur drei bis sechs Elementen 415 begrenzt und kann weniger oder mehr Elemente 415 anzeigen. In einigen Beispielen zeigt das System die Elemente 415 in einer Reihenfolge an, bei der das zuletzt erstellte Element unten in der verfügbaren Anzeige im Informationsanzeigebereich 410 angezeigt wird. In einigen Beispielen zeigt das System die Elemente 415 neben dem zugehörigen Text an. In einigen Beispielen zeigt das System die Elemente 415 als Markup an, das den Text innerhalb der Anzeige 400 überlagert.
Nach oder während der Anzeige von Suchergebnissen in Schritt 540 füährt die Routine 500 mit Schritt 545 fort, wobei das System bestimmt, ob weiterhin Text empfangen wird oder nicht, z. B. indem der Benutzer der Anwendung weiterhin Text bereitstellt. Wenn weiterhin Text empfangen wird, kehrt die Routine 500 zu Schritt 510 zurück. Unter erneuter Bezugnahme auf 4 beginnt ein zweiter vom Benutzer bereitgestellter und in dem Textanzeigebereich 405 angezeigter Satz mit „Marvel-Comics” 455. Das System hat diesen zweiten Satz in Schritt 510 überwacht, den Text „Marvel-Comics” 455 in Schritt 515 ausgewählt und eine Abfrage basierend auf dem ausgewählten Text in Schritt 520 erzeugt. Das System wählt in Schritt 525 einen Index für die Suche mithilfe der Abfrage aus, übermittelt die Abfrage in Schritt 530, empfängt ein Suchergebnis in Schritt 535 und zeigt einen Teil des Suchergebnisses in Schritt 540 an. Der Teil des Suchergebnisses, der relevant für diese Abfrage ist, wird als Element 515b im Informationsanzeigebereich 510 angezeigt.
Sobald der Benutzer Text bereitstellt, führt das System die unter Bezugnahme auf 5 beschriebenen Schritte kontinuierlich und wiederholt aus. In Anlehnung an das Beispiel aus 4 hat das System den Text „Stan Lee” 460 im dritten Satz ausgewählt. Das System zeigt Informationen, die relevant für den ausgewählten Text sind, als Element 415c in dem Informationsanzeigebereich 410 an. Es wird ein vom System ausgewähltes viertes Textelement gezeigt, wie durch Bezugszeichen 465 angegeben: „1960er”. Das System hat eine Abfrage entsprechend diesem ausgewählten Text erstellt, einen Index durchsucht und als Reaktion auf die Suche ein Suchergebnis empfangen, von dem ein Teil als Element 415d im Informationsanzeigebereich 410 angezeigt wird.
Nachdem der Benutzer einen Teil des Textes oder den kompletten Text bereitgestellt hat, der in dem Textanzeigebereich 405 angezeigt wird, bestimmt das System, dass ein primäres Thema des Textes die Geschichte von Comic-Büchern betrifft. Das System bestimmt dies unter Umständen basierend auf verschiedenen Elementen des Textes, wie beispielsweise dem Subjekt des ersten Satzes „Comic-Buch”, der Verwendung von Verben in der Vergangenheitsform („war” im dritten Satz und „erstellte” im letzten Satz”), dem Verweis auf einen bestimmten Zeitraum in der Vergangenheit (die „1960er”) und/oder weiteren Informationen im bereitgestellten Text. Das System kann auch die Suchergebnisse analysieren, die in Reaktion auf die verschiedenen erzeugten Abfragen bereitgestellt werden, um dies zu bestimmen. Dementsprechend kann das System eine Abfrage nicht nur basierend auf dem Text des zuletzt erstellten Satzes, sondern auch basierend auf Text von anderen Sätzen, Suchergebnissen und/oder anderen Informationen erzeugen. Das System hat eine Abfrage, die sich auf die „Geschichte von Comic-Büchern” bezieht, basierend auf diesen Faktoren erzeugt und einen entsprechenden Index ausgewählt, wie beispielsweise einen Index, der von einem oder mehreren kommerziellen Buchhändlern bereitgestellt wird. Das System kann diese Indizes auswählen, um nach Referenzmaterialien, die länger sind als diejenigen, die über das Internet bereitgestellt werden können, und/oder nach Referenzmaterialien, die nicht im Internet bereitgestellt werden, zu suchen.
Das System hat eine Abfrage bezüglich der Wortverbindung „Geschichte von Comic-Büchern” erzeugt, einen Index von kommerziellen Buchhändlern durchsucht und ein Suchergebnis von Amazon empfangen, das das System als Element 415e anzeigt. Auf diese Weise kann das System dem Benutzer Links zu Referenzmaterialien oder zusätzlichen, relevanten Informationen, die unter Umständen nicht unbedingt auf Internet-Webseiten bereitgestellt werden, bereitstellen oder den Zugriff darauf ermöglichen. Wie bereits zuvor erwähnt ist jedes der Elemente 415 auch mit einer Webseite verknüpft, sodass der Benutzer ein Element 415 auswählen kann (z. B. durch Klicken auf das Element 415). Die Auswahl eines Elements 415 veranlasst das System dazu, ein Browser-Fenster mit der URL (Uniform Resource Locator) zu öffnen, die mit dem Element 415 verknüpft ist, und die Inhalte der Webseite im Browser-Fenster anzuzeigen. Das System zeigt ein „R” umrandet von Strichen in ähnlicher Weise wie ein Fußnotenzeichen an, so wie vom Referenzeichen 470 angezeigt, um anzugeben, dass der gesamte Absatz im Textanzeigebereich 405 als Basis für die Abfrage gedient hat, die zum Element 415e geführt hat.
Das System bestimmt möglicherweise auch basierend auf einem Teil des Textes oder auf dem gesamten Text, der im Textanzeigebereich 405 angezeigt wird, dass der Benutzer am Kauf von Comic-Büchern interessiert ist. Dementsprechend hat das System eine Abfrage bezüglich des Kaufs von Comic-Büchern erzeugt, einen allgemeinen Index durchsucht und ein Suchergebnis empfangen, das das System als Element 415f anzeigt. Auf diese Weise kann das System dem Benutzer Links zu kommerziellen Webseiten, die Produkte verkaufen, an denen der Benutzer möglicherweise interessiert ist, bereitstellen oder den Zugriff darauf ermöglichen. Erneut kann der Buchstabe „R” 470 angeben, dass der gesamte Absatz im Textanzeigebereich 405 als Basis für die Abfrage gedient hat, die zum Element 415f geführt hat.
In einigen Beispielen zeigt das System neben oder alternativ zur Anzeige von Textinformationen als Elemente 415 nicht textliche Informationen (z. B. Bilder, Videos, Ton und/oder andere eingebettete Elemente) im Informationsanzeigebereich 410 an. In einigen Ausführungsformen sortiert das System die Elemente 415 nicht nach der Zeit, sondern nach anderen Informationen, wie beispielsweise nach der Relevanz der Elemente für den vom Benutzer bereitgestellten Text. Um Elemente nach ihrer Relevanz zu sortieren, kann das System einen Relevanzfaktor für jedes Element 415 zum Zeitpunkt der Erstellung des jeweiligen Elements berechnen. Das System kann den Relevanzfaktor auch zu einem späteren Zeitpunkt aktualisieren. Der Relevanzfaktor eines Suchergebnisses, das vom System zu Beginn des Empfangs von Text vom Benutzer als äußerst relevant erachtet wurde, könnte sich beispielsweise verringern, wenn das System basierend auf zusätzlichem vom Benutzer empfangenem Text bestimmt, dass das Suchergebnis doch nicht so relevant ist.
In einigen Beispielen bietet das System dem Benutzer die Möglichkeit, nach oben oder unten durch die Elemente 415 zu scrollen (Zeile für Zeile oder Seite für Seite), sodass der Benutzer andere Elemente 415 als die aktiv im Informationsanzeigebereich 415 angezeigten ansehen kann. In einigen Beispielen verknüpft das System neben der Verknüpfung des Elements 415 mit der Quell-Webseite das Element 415 mit dem Text im Textanzeigebereich 405, der als Basis für die Abfrage gedient hat, die zum Element 415 geführt hat, sodass der Benutzer leicht von dem Element zum verknüpften Text im Textanzeigebereich 405 navigieren kann. In einigen Beispielen verknüpft das System auch den Text im Textanzeigebereich 405, der als Basis für die Abfrage gedient hat, die zum Element 415 geführt hat, sodass der Benutzer leicht von dem Text im Textanzeigebereich 405 zum verknüpften Element 415 navigieren kann. In einigen Beispielen stellt das System eine Zeitachse bereit, die die Zeiten anzeigt, zu denen das System Abfragen erstellt und/oder die Durchführung von Suchen angefordert hat. In einigen Beispielen markiert das System Text, den das System als einem bestimmten Format entsprechend erkennt, wie z. B. Eigennamen, Telefonnummern, Orte und/oder andere Formate. In einigen Beispielen, wenn der Benutzer Text löscht, für den das System ein Element 415 bereitgestellt hat, entfernt das System das Element 415 aus dem Informationsanzeigebereich 415.
In einigen Beispielen zeigt das System Ansichten des Informationsanzeigebereich 410 an, die von einer Ansicht des Textanzeigebereichs 405 abhängen. Das System kann zum Beispiel Informationen anzeigen, die mit bestimmten Textfragmenten im Textanzeigebereich verknüpft sind, wenn die Anzeige im Textanzeigebereich auf Satzebene vergrößert wird, und Informationen anzeigen, die mit dem gesamten Dokument verknüpft sind, wenn im Textanzeigebereich das gesamte Dokument angezeigt wird. Somit führt eine Änderung der Ansicht zum Beispiel durch Vergrößern oder Verkleinern der Anzeige im Textanzeigebereich 405 dazu, dass im Informationsanzeigebereich 410 verschiedene Arten und Ebenen von Informationen angezeigt werden.
In einigen Beispielen zeigt das System den Textanzeigebereich 405 auf einer ersten Anzeige einer ersten Computervorrichtung und den Informationsanzeigebereich 410 auf einer zweiten Anzeige einer zweiten Computervorrichtung an. Das System kann dem Benutzer zum Beispiel die Möglichkeit zum Erstellen, Bearbeiten und/oder Löschen von schriftlichem Material auf einer ersten Computervorrichtung bereitstellen, wie beispielsweise auf einem Desktop oder Laptop, der eine Tastatur beinhaltet, über die der Benutzer Text einfach eingeben kann. Das System kann dann Informationen, die relevant für das geschriebene Material sind, auf einer Anzeige einer sekundären Computervorrichtung anzeigen, die mit der ersten Computervorrichtung wie einer Handheld-Computervorrichtung (z. B. ein Smartphone, Tablet-Computervorrichtung usw.) verbunden ist. Das System kann aus verschiedenen Gründen in solch einer Anordnung konfiguriert sein, z. B. um dem Benutzer die Wahl zu lassen, wann und/oder wie die relevanten Informationen angezeigt werden.
In einigen Beispielen beendet das System anstelle der Routine 500 aus 2 nach der Bestimmung, dass kein weiterer Text mehr empfangen wird, die Routine 200 in Reaktion auf eine andere Bestimmung, zum Beispiel auf die Bestimmung, dass das Dokument nicht länger aktiv ist, der Benutzer angefordert hat, dass das System nicht in Betrieb ist, und/oder andere Bestimmungen.
In einigen Beispielen bietet das System dem Benutzer anstatt oder neben der Option zur kontinuierlichen Überwachung von Text, der von einem Benutzer bereitgestellt wird, die Möglichkeit, die Bereitstellung relevanter Informationen zu verzögern, bis der Benutzer die Bereitstellung ausdrücklich anfordert. Nach einer speziellen Anforderung durch den Benutzer kann das System den bereitgestellten Text dann wie hierin beschreiben analysieren, einen oder mehrere Teile des bereitgestellten Textes auswählen und Informationen bereitstellen, die für die ausgewählten Teile relevant sind. Zum Beispiel bei der Erstellung eines Wortverarbeitungsdokuments verwendet der Benutzer möglicherweise das System nicht von Beginn an, sondern er wartet stattdessen, bis eine bestimmte Menge an geschriebenem Text (zum Beispiel ein Absatz, ein Abschnitt, ein Kapitel usw.) vorhanden ist, und fordert dann an, dass das System die relevanten Informationen bereitstellt. Das System würde dann den geschriebenen Text analysieren, mehrere Teile des Textes auswählen und mehrere Elemente von relevanten Informationen bereitstellen, wobei jedes Element einem anderen ausgewählten Teil des Textes entspricht. In einem weiteren Beispiel kann der Benutzer ein bereits erstelltes Dokument öffnen und anfordern, dass das System Informationen bereitstellt, die relevant für das bereits erstellte Dokument sind.
In einigen Beispielen wählt das System einen Teil des Textes aus, der vom Benutzer bereitgestellt wird, indem es automatisch eine Zusammenfassung des Textes erstellt oder indem es veranlasst, dass automatisch eine Zusammenfassung vom Text erstellt wird. Das System erzeugt dann die Abfrage basierend auf der Zusammenfassung des Textes.
In einigen Beispielen arbeitet das System gleichzeitig oder allgemein in mehreren Anwendungen (zum Beispiel gleichzeitig in einer Wortverarbeitungsanwendung und in einer Browser-Anwendung). In diesen Ausführungsformen kann das System Text überwachen, der vom Benutzer über mehrere Anwendungen hinweg bereitgestellt wird, und dazu relevante Informationen bereitstellen.
6 ist ein Datenstrukturdiagramm, das eine Datenstruktur 600 zeigt, die vom System im Zusammenhang mit der Speicherung der vom System verwendeten Daten genutzt wird. Die in 6 dargestellte Datenstruktur 600 entspricht dem Beispiel, das in 4 dargestellt ist. Die Datenstruktur 600 beinhaltet Zeilen, wie die Zeilen 650a und 650b, wobei jede Zeile in die folgenden Spalten unterteilt ist: eine Dokumenten-ID-Spalte 601, die das Dokument identifiziert, das den Text enthält, für den das System relevante Informationen bereitgestellt hat; eine Textspalte 602, die den Text des Dokuments enthält, für den das System ein Element 415 bereitgestellt hat; eine Abfragespalte 605, die die vom System in Reaktion auf den vom Benutzer bereitgestellten Text erzeugte Abfrage beinhaltet; eine Indexspalte 610, die eine Kennung von einem Index beinhaltet, den das System für die Suche mithilfe der Abfrage ausgewählt hat; eine Titelspalte 615, die einen Titel von einem Suchergebnis beinhaltet, das in Reaktion auf das Durchsuchen des Index mithilfe der Abfrage bereitgestellt wurde; eine Inhaltsspalte 620, die beschreibende Informationen beinhaltet, die mit dem Suchergebnis verknüpft sind; ein Quellenspalte 625, die eine Quelle (z. B. eine URL) des Suchergebnisses beinhaltet; und eine Reihenfolgenspalte 630, die eine Zahl beinhaltet, die eine Reihenfolge angibt, in der das System das Suchergebnis in Bezug auf andere Suchergebnisse verarbeitet hat.
Wie dargestellt beinhaltet die Zeile 650a folgende Werte in den einzelnen Spalten: „445” in der Dokumenten-ID-Spalte 601, „Comic-Buch” in der Textspalte 602, „Comic + Buch” in der Abfragenspalte 605, „Referenz” in der Indexspalte 610 (zeigt an, dass ein Referenzindex durchsucht wurde), „Wikipedia” in der Titelspalte 615, Inhalt von einer bestimmten Wikipedia-Seite, die sich auf Comic-Bücher bezieht, in der Inhaltsspalte 620, eine URL (Uniform Resource Locator), die auf die Wikipedia-Seite verweist, in der Quellenspalte 625 und die Zahl „1” in der Reihenfolgenspalte 630 (zeigt an, dass dies das erste vom System bereitgestellte Suchergebnis ist). Die anderen Zeilen 650 beinhalten ähnliche Informationen, die anderen Elementen 415 aus 4 entsprechen. Die Textspalte 602 der Zeilen 650e und 650f enthält jeweils [Absatz 1], was anzeigt, dass der gesamte erste Absatz als Basis für Elemente von Informationen diente, die vom System bereitgestellt wurden.
Die Datenstruktur 600 kann andere Spalten beinhalten, die nicht spezifisch dargestellt sind, wie zum Beispiel eine Datums-/Zeitspalte, die das Datum und/oder die Uhrzeit beinhaltet, an dem bzw. zu der das System die Abfrage erzeugt hat; eine Anzeigespalte, die angibt, ob das System das Suchergebnis als Element 415 anzeigen soll oder nicht, eine oder mehrere Spalten, die Informationen zu sekundären Suchergebnissen beinhalten und/oder andere Spalten, die andere Informationen beinhalten oder anzeigen. Das System kann auch andere Datenstrukturen verwalten, die nicht spezifisch dargestellt sind, wie beispielsweise eine Datenstruktur, die Benutzerpräferenzen beinhaltet, eine Datenstruktur, die Informationen über zu durchsuchende Indizes beinhaltet, eine Datenstruktur, die Informationen zu einer Historie von Elementen von Informationen beinhaltet, und/oder andere Datenstrukturen.
Indem einer Person automatisch Informationen bereitgestellt werden, die für ein Thema von Interesse für die Person relevant sind, ermöglicht das System der Person, eine beträchtliche Menge Zeit zu sparen. Die automatische Bereitstellung relevanter Informationen durch das System eliminiert die Notwendigkeit, dass die Person Text zur Verwendung für eine Abfrage und Anforderung einer Suche auswählen muss. Auch wenn das System unter Bezugnahme auf das Beispiel eines Benutzer beschrieben wurde, der mithilfe einer Wortverarbeitungsanwendung oder einer anderen Anwendung Text schreibt, kann das System in anderen Kontexten und/oder Umgebungen verwendet werden, z. B. im Kontext einer Person, die ein zuvor geschriebenes Dokument editiert (z. B. ein Editor, der Fakten überprüft und/oder das schriftliche Material anderweitig bearbeitet), im Kontext einer Person, die ein geschriebenes Dokument liest (z. B. eine Person, die ein elektronisches Dokument liest oder Text von einem gedruckten Dokument erfasst) und/oder in anderen Kontexten. Dementsprechend ist die Verwendung des Systems nicht auf die hierin beschriebenen Beispiele beschränkt.
Neben den hierin beschriebenen Umgebungen und Vorrichtungen stellt 7 ein Übersichtsblockdiagramm dar, das eine Umgebung 700 zeigt, in der das System betrieben werden kann. Das Blockdiagramm zeigt ein Computersystem 750. Das Computersystem 750 beinhaltet einen Speicher 760. Der Speicher 760 beinhaltet Software 761, in der sowohl das System 762 als auch die Daten 763 eingebunden sind, die in der Regel vom System verwendet werden. Der Speicher beinhaltet des Weiteren ein Webclient-Computerprogramm 766 zum Empfangen von Webseiten und/oder anderen Informationen von anderen Computer. Während die Elemente 762 und 763 im Laufe ihrer Nutzung im Speicher gespeichert werden, wird Fachleuten auf dem Gebiet klar sein, dass diese Elemente oder Teile davon zum Zwecke des Speichermanagements, Datenintegrität und/oder zu anderen Zwecken zwischen dem Speicher und einer persistenten Speichervorrichtung 773 übertragen werden können. Das Computersystem 750 beinhaltet des Weiteren eine oder mehrere zentrale Verarbeitungseinheiten (CPU) 771 zum Ausführen von Programmen wie den Programmen 761, 762 und 766 und ein computerlesbares Medienlaufwerk 772 zum Lesen von Informationen oder zum Installieren von Programmen wie dem System von greifbaren computerlesbaren Speichermedien wie einer Diskette, einer CD-ROM, einer DVD, einem USB-Flash-Laufwerk und/oder anderen greifbaren computerlesbaren Speichermedien. Das Computersystem 750 beinhaltet außerdem eines oder mehrere der Folgenden: eine Netzwerkverbindungsvorrichtung 774 zum Herstellen einer Verbindung zu einem Netzwerk (zum Beispiel dem Internet 740) und Übertragen oder Empfangen von Daten über die Router, Switches, Hosts und anderen Vorrichtungen, aus denen das Netzwerk besteht, eine Informationseingabevorrichtung 775 und eine Informationsausgabevorrichtung 776.
Das Blockdiagramm veranschaulicht außerdem mehrere Servercomputersysteme, wie die Servercomputersysteme 710, 720 und 730. Jedes der Servercomputersysteme beinhaltet ein Webserver-Computerprogramm, wie z. B. die Webserver 711, 720 und 731, zur Bereitstellung von Webseiten und/oder anderen Informationen in Reaktion auf die Anforderungen von Webclient-Computerprogrammen wie dem Webclient-Computerprogramm 766. Die Servercomputersysteme sind über das Internet 740 oder ein Datenübertragungsnetzwerk anderer Art mit dem Computersystem 750 verbunden. Fachleuten auf diesem Gebiet wird klar sein, dass die Servercomputersysteme jedoch auch über andere Netzwerke als das Internet mit dem Computersystem 750 verbunden werden könnten.
Auch wenn verschiedene Beispiele in Zusammenhang mit den hierin beschriebenen Umgebungen beschrieben werden, wird Fachleuten auf dem Gebiet klar sein, dass das System in einer Vielzahl von anderen Umgebungen implementiert werden kann, einschließlich eines einzelnen monolithischen Computersystems und verschiedener anderer Kombinationen von Computersystemen oder ähnlichen Vorrichtungen, die auf verschiedene Weisen angeschlossen sind. In verschiedenen Beispielen können eine Vielzahl von Computersystemen oder andere verschiedene Client-Geräte anstelle der Webclient-Computersysteme verwendet werden, wie beispielsweise Mobiltelefone, Personal Digital Assistants, Fernseher, Kameras usw. So kann sich das System beispielsweise in einem Mobilgerät wie einem Smartphone befinden, das sowohl die Eingabe von Text über eine Eingabevorrichtung als auch die Erfassung von Text über eine Erfassungsvorrichtung ermöglicht.
Integrieren von wiedergegebenen Dokumenten in Inhaltestreams
Wie hierin beschrieben erfasst das System in einigen Beispielen Text aus einem wiedergegebenen Dokument und führt Aktionen durch und/oder stellt Inhalte im Zusammenhang mit dem erfassten Text oder dem wiedergegebenen Dokument bereit. Das System kann beispielsweise Inhalte von Inhaltsquellen sozialer Netzwerke, Archiven mit Benutzerinhalten, Echtzeit-Nachrichten und Inhaltsfeeds usw. bereitstellen.
8 ist ein Flussdiagramm, das eine Routine 800 zur automatischen Präsentation von Informationen, die von einem wiedergegebenen Dokument erfasst wurden, darstellt. In Schritt 810 erfasst das System Informationen aus einem wiedergegebenen Dokument. Wie hierin beschrieben kann das System mithilfe einer Abbildungskomponente eines Mobilgeräts ein Bild von Text aus dem wiedergegebenen Dokument aufnehmen oder andere Techniken zur Erfassung der Informationen einsetzen.
In Schritt 820 identifiziert das System automatisch Inhalte, die mit den erfassten Informationen verknüpft sind. In einigen Fällen identifiziert das System spezifische Inhaltselemente, die mit den erfassten Informationen verknüpft sind, wie etwa Bilder, Videos, Text usw. In einigen Fällen identifiziert das System Inhaltsquellen, die mit den erfassten Informationen verknüpft sind, wie beispielsweise Nachrichten-Webseiten und andere Informations-Webseiten, Blogs, benutzergenerierte Inhaltsseiten, Podcast-Archive, Bild- und Video-Archive, Foren usw. Das System kann beim Identifizieren von Inhalten einen oder mehrere der hierin beschriebenen Indizes abfragen, wie etwa die Indizes, die mit Online-Inhaltsquellen verknüpft sind, die benutzergenerierte Inhalte beinhalten. Beispiele für derartige Inhaltsquellen sind unter anderem YouTube, Wikipedia, Flickr, Twitter, Yahoo, MSN, Boingboing.net, nytimes.com, Google usw. In einigen Fällen sind die Inhalte statisch und werden vor der Durchführung einer Erfassung von Informationen erstellt. In manchen Fällen ist der Inhalt dynamisch oder er wird während der Erfassung von Informationen in Echtzeit erstellt.
In Schritt 830 stell das System die identifizierten Inhalte dar. Das System kann die Inhalte beispielsweise über eine Anzeigekomponente einer Vorrichtung anzeigen, die die Informationen erfasst hat, wie z. B. einem Touchscreen eines Smartphones. Das System kann die Inhalte mithilfe einiger oder aller der hierin beschriebenen Techniken anzeigen, einschließlich Anzeigen der Inhalte (oder Angaben der Inhalte) neben den erfassten Informationen, Überlagern der erfassten Informationen mit den Inhalten, Anzeigen der Inhalte auf einer verknüpften Vorrichtung usw.
In Schritt 840 bestimmt das System, ob eine weitere Anforderung zur Erfassung von Informationen vom System empfangen wird. Ein Benutzer kann seine Erfassungsvorrichtung beispielsweise zu einem zweiten Teil eines wiedergegebenen Dokuments bewegen und so den Wunsch anzeigen, Inhalte zu finden, die mit dem zweiten Teil des Dokuments verknüpft sind. Wenn das System bestimmt, dass eine weitere Anforderungen vorhanden ist, kehrt die Routine 800 zu Schritt 810 zurück, wobei die Routine 800 anderenfalls endet.
Daher bietet das System Benutzern von Erfassungsvorrichtungen wie Mobilgeräten in einigen Beispielen neben anderen Vorteilen die Möglichkeit, automatisch Inhalte zu empfangen, die mit den von ihnen in Echtzeit erfassten Informationen verknüpft sind.
Wie hierin beschrieben bietet das System Benutzern in einigen Beispielen die Möglichkeit, auf benutzergenerierte Inhaltsquellen zuzugreifen und zu diesen beizutragen, die auf der Erfassung und Identifizierung von Dokumenten und anderen Informationsanzeigen basieren. 9 ist ein Flussdiagramm, das eine Routine 900 zur Bestimmung der Inhaltsquellen, die mit einem identifizierten wiedergegebenen Dokument verknüpft sind, veranschaulicht.
In Schritt 910 erfasst das System Informationen aus einem wiedergegebenen Dokument. Wie hierin beschrieben kann das System Text erfassen, etwa indem der Text mithilfe einer Abbildungskomponente eines Mobilgeräts abgebildet wird. Das System kann auch andere Arten von Informationen wie beispielsweise nichttextuelle Informationen erfassen.
In Schritt 920 identifiziert das System das Dokument basierend auf den erfassten Informationen. Wie hierin beschrieben kann das System das Dokument identifizieren, indem eine elektronische Version des Dokuments lokalisiert wird, die aus dem Dokument erfassten Text beinhaltet.
In Schritt 930 bestimmt das System, dass eine oder mehrere Inhaltsquellen mit dem wiedergegebenen Dokument verknüpft sind. Das System identifiziert beispielsweise einen Kanal oder ein Tag im Zusammenhang mit dem wiedergegebenen Dokument oder mit einem bestimmten Teil eines wiedergegebenen Dokuments und identifiziert Inhaltsquellen, die Inhalte mit ähnlichen Tags bereitstellen.
In Schritt 940 stellt das System dem Benutzer einen Hinweis auf die bestimmten Inhaltsquellen bereit. In einigen Fällen präsentiert das System zusammen mit dem wiedergegebenen Dokument einen Hinweis auf die Inhalte von den bestimmten Inhaltsquellen. In einigen Fällen greift das System auf die Inhaltsquelle zu und bietet einem Benutzer neben anderen Vorteilen so die Möglichkeit, zu einer Inhaltsquelle beizutragen.
In einem Beispiel zeigt das System einen Datenstrom von einer bestimmten Inhaltsquelle in einem Fensterbereich neben einem Bild des wiedergegebenen Dokuments an und verfolgt das Voranschreiten des Benutzers in dem wiedergegebenen Dokument, wobei der Fensterbereich mit Informationen aus dem Datenstrom, die für den Abschnitt relevant sind, den der Benutzer aktuell liest, aktualisiert wird. Der Fensterbereich kann verschiedene Arten von Inhalten oder Hinweise verschiedener Art bereitstellen, einschließlich Blog-Einträge/-Kommentare, Metadaten, verwandte Dokumente oder Inhalte, Hyperlinks, Videos, Bilder, Tweets, Foren, Nachrichten-Feeds, Podcasts, Querverweise zu anderen Dokumenten oder Positionen innerhalb des aktuellen Dokuments usw.
In einem anderen Beispiel liest ein Benutzer eine Zeitung und erfasst Text aus einem Artikel im Wirtschaftsteil über die private Finanzplanung für Paare mit seinem Mobilgerät. Das System identifiziert den Artikel und zugehörige Tags (z. B. „Private Finanzplanung”, „Beziehungen”). Das System bestimmt, dass zwei Inhaltsquellen Inhalte mit ähnlichen Tags enthalten – eine davon ein Kanal einer Video-Sharing-Webseite, der sich mit der Haushaltsplanung von Paaren befasst, und die andere ein Weblog für einen Autor bekannter Investmentbücher – und stellt dem Benutzer Hinweise auf diese Quellen über eine Anzeigekomponente des Mobilgeräts bereit.
Natürlich kann das System auch andere Inhaltsquellen identifizieren und bereitstellen, die hierin nicht spezifisch beschrieben sind.
Erfassen von Informationen aus audiobasierten Informationsquellen
Auch wenn das System zuvor allgemein so beschrieben ist, dass es mit Daten von gedruckten oder angezeigten Dokumenten interagiert und diese erfasst, kann das System ohne Weiteres so konfiguriert werden, dass es alternativ oder zusätzlich mit audiobasierten Informationen interagieren und diese erfassen kann, wie etwa Informationen, die über das Radio oder TV-Sendungen empfangen werden. Das System kann Informationen bereitstellen, die im Zusammenhang mit Inhalten stehen, die aus einem empfangenen Audiosignal extrahiert wurden. In einigen Beispielen empfängt das System ein Live-Audiosignal z. B. von einem Lautsprecher eines Radios, und konvertiert dieses über ein Mikrofon eines Mobilgeräts in ein elektrisches Audiosignal. Nach einigen optionalen Vorverarbeitungen des Audiosignals wandelt das System die Inhalte des Audiosignals, häufig gesprochene Sprache, in Text um und führt anschließend eine Aktion basierend auf diesem Text durch. Bei der durchzuführenden Aktion kann es sich beispielsweise um die Identifizierung von Suchbegriffen und die Durchführung einer Abfrage oder Suche auf Basis dieser Begriffe handeln. Das System empfängt dann Informationen, die mit den Audioinhalten im Zusammenhang stehen bzw. verknüpft sind, und gibt diese an den Benutzer aus, etwa durch Ausgeben dieser an ein Mobilgerät zur Anzeige für den Benutzer.
In einigen Beispielen beinhalten die präsentierten Informationen visuell anzeigbare Informationen, die mit den im empfangenen Audio bereitgestellten Inhalten verknüpft sind. Das empfangene Audio kann beispielsweise eine Radioübertragung oder ein Live-Vortrag über ein gegebenes Thema sein. Das empfangene Audio wird in Text umgewandelt und verarbeitet, um nicht nur Begriffe in Bezug auf das Hauptthema zu identifizieren, sondern auch weitere Begriffe oder Inhalte, die im Verlauf des empfangenen Audios erfasst werden oder logisch davon abgeleitet wurden. Somit kann das empfangene Audio in einem Beispiel einer Audiospur von einer Star-Trek-Episode entsprechen, die gerade auf einem Fernseher wiedergegeben wird. Das System empfängt diese Audiospur, wobei das Audio einen Verweis auf den Komponisten Brahms beinhaltet. Das System kann dann nicht nur Informationen in Bezug auf die Sendung „Star Trek”, sondern auch Informationen in Bezug auf Brahms abrufen, wie z. B. eine Biografie von Brahms und Bilder von ihm, Links zu (oder heruntergeladene Dateien von) ausgewählten Aufzeichnungen der von ihm komponierten Musik usw.
In einigen Beispielen tastet das System eine Audiosequenz ab, um die Sequenz und/oder eine Position in der Sequenz zu identifizieren. Das System kann zum Beispiel bei der Identifizierung der Sequenz oder Position in der Sequenz Sprache-zu-Text-Techniken oder Techniken zum Abgleichen nichttextueller Inhalte anwenden, wie hierin im Hinblick auf die Identifizierung von Text und/oder wiedergegebenen Dokumenten beschrieben. Das System kann anschließend die identifizierte Position verwenden, um eine bereinigte Version der Audiosequenz, ein Transkript der Audiosequenz, mit der Audiosequenz verknüpftes Markup usw. abzurufen, um Inhalte oder durchführbare Aktionen in Verbindung mit der Audiosequenz der Informationen, die von der Audiosequenz präsentiert werden, zu identifizieren.
In einigen Beispielen beziehen sich die zusätzlichen Informationen auf die Audioinhalte, entsprechen diesen jedoch nicht (z. B. handelt es sich nicht um ein Transkription oder Zusammenfassung der Audioinhalte). Stattdessen stellen sie Verbesserungen, Verdeutlichungen, Inspirationen oder Ausgangspunkte von den Audioinhalten zur Verfügung. Tatsächlich bilden die zusätzlichen Informationen und das hierin beschriebene System eine 1:n-Beziehung zwischen den Audioinhalten und den ergänzenden Informationen, die dazu beträgt, die Audioinhalte weiter zu definieren, zu verdeutlichen, zu erweitern oder anderweitig zu verbessern, und die mehrere verschiedene Seiten von Informationen in beliebiger unterschiedlicher Form darstellen kann.
10 zeigt eine Gruppe von Funktionskomponenten oder -modulen, die in Reaktion auf das empfangene Audio zugehörige Informationen empfangen, analysieren und bereitstellen. Auch wenn die Komponenten allgemein als Funktionsmodule beschrieben werden, die in Software implementiert und von einem oder mehreren Mikroprozessoren (oder ähnlichen Vorrichtungen) ausgeführt werden, können die Komponenten aus 10 auch in Hardware, etwa mittels einer Gruppe von logischen Gates (z. B. feldprogrammierbaren Gate-Arrays (FPGAs)), anwendungsspezifischen integrierten Schaltkreisen (ASICs) usw., implementiert werden. Darüber hinaus können eine oder mehrere der in 10 gezeigten Komponenten extern implementiert werden, auch wenn sie in einer Einheit 1000 kombiniert dargestellt sind. Die meisten Komponenten können beispielsweise durch eine Erfassungsvorrichtung implementiert werden, wobei ein oder mehrere Module durch ein oder mehrere Servercomputer implementiert werden. Daher können einige Komponenten auf dem Mobilgerät installiert sein und ausgeführt werden, während andere zur Verarbeitung an das Netzwerk oder die Cloud gesendet werden.
Eine Audioempfangskomponente 1002 empfängt das Audio z. B. über ein Mikrofon, und das empfangene Audiosignal kann je nach Bedarf verstärkt oder abgeschwächt werden. Darüber hinaus kann die Audioempfangskomponente 1002 eine vorab aufgezeichnete Audiodatei oder eine extern erzeugte oder veröffentlichte Streaming-Audiosequenz empfangen. Das empfangene Audio kann von einer beliebigen Quelle stammen, dies ist aber insbesondere für inhaltsreiche Quellen wie Talkshows, Call-in-Sendungen, Nachrichtensendungen, Vorlesungen und Seminare, Podcasts usw. hilfreich.
Eine Audioverarbeitungskomponente 1004 kann eine bestimmte Verarbeitung des empfangenen Audiosignals durchführen, wie zum Beispiel Filterungen, um unerwünschte Signale herauszufiltern. Die Audioempfangskomponente und die Audioverarbeitungskomponente verarbeiten das empfangene Audio gemeinsam und bringen es in eine Form, in der es von der Sprache-zu-Text-Komponente 1006 am besten in Text umgewandelt werden kann. Wenn das empfange Audio beispielsweise in analoger Form vorliegt, digitalisieren die Audioempfangs- und -verarbeitungskomponenten das Audio, um einen digitalisierten Audiostream zu erzeugen. Wenn die empfange Audiodatei oder der Audiostream ein unerwünschtes Format aufweist, können diese Audiokomponenten sie bzw. ihn in ein anderes Format konvertieren (z. B. eine größere .wav-Datei in eine komprimierte .mp3-Datei konvertieren). Handelt es sich bei dem gewünschten Audioausschnitt um gesprochenes Audio, dann wenden diese Audiokomponenten einen Bandlückenfilter an, um Audiokomponenten mit hoher und niedriger Frequenz aus dem empfangenen Audio zu entfernen.
Die Sprache-zu-Text-Komponente 1006 wandelt gesprochene Wörter in dem empfangenen Audio in Text um. Die Sprache-zu-Text-Komponente kann außerdem eine Spracherkennungsfunktionalität beinhalten, wobei das System auf einen bestimmten Sprecher oder eine Gruppe von Sprechern abgestimmt wird, um zu versuchen, die sprechende Person zu identifizieren und auf Grundlage der bekannten Interessen, Schreibtendenzen und/oder anderer Sprach- und Aussprachemuster des Sprechers besser zu erkennen, was gesagt wird. Es gibt viele vorhandene Sprache-zu-Text-Komponenten wie zum Beispiel die, die von Nuance Communications Inc., IBM, Microsoft, usw. hergestellt werden. In einem Beispiel handelt es sich bei der Audioempfangskomponente 1002 um ein Mikrofon, das eine Funkübertragung empfängt und verstärkt, und die Audioverarbeitungskomponente 1004 filtert die Audiokomponenten mit niedriger und hoher Frequenz heraus, sodass die Sprache-zu-Text-Komponente 1006 idealerweise nur das gewünschte gesprochene Audio empfängt. Die Sprache-zu-Text-Komponente wandelt das gesprochene Audio anschließend in Text um, der als Textdatei zur weiteren Verarbeitung gespeichert werden kann.
Eine Textanalysekomponente 1008 verarbeitet die Textdatei unter Verwendung von einer oder mehreren Textanalyseroutinen. Die Textanalysekomponente kann zum Beispiel die Textdatei analysieren, um eine gesprochene Sprache in der Textdatei zu bestimmen, und diese Textdatei anschließend verarbeiten, um Korrekturen wie Rechtschreibprüfung, Grammatik-/Satzanalyse usw. vorzunehmen. Somit kann das System durch die Erkennung der Sprache, die mit dem gesprochenen Audioinhalt verknüpft ist, das beste Wörterbuch identifizieren, um die Umwandlung von Sprache zu Text und die mögliche Bearbeitung oder Verbesserung einer resultierenden Textdatei basierend auf einer Rechtschreibprüfung, Grammatikkorrektur usw. weiter zu unterstützen. Die Textanalysekomponente kann dabei helfen, Themen oder relevante Inhalte in der Textdatei zu bestimmen, um wichtige Themen innerhalb z. B. eines Konversationsprogramms durch Analysieren des empfangenen Audios hinsichtlich bestimmter Marker zu identifizieren. Diese Marker können Veränderungen der Stimme, z. B. laute Stimmen, zwei oder mehr gleichzeitig sprechende Personen, die Verwendung bestimmter Begriffe (z. B. „wichtig”, „zusammenzufassend ...”) usw., repräsentieren. Diese Marker können weitere relevante Teile der Textdatei repräsentieren. Die Audioverarbeitungskomponente könnte für die Textdatei einen Hinweis in dem empfangenen Audio für Instanzen lauterer Stimmen, möglicherweise gleichzeitig sprechenden Personen usw. einfügen.
Die Textanalysekomponente 1008 kann einen Index mit Begriffen und einen Zähler für diese Begriffe erstellen, um der Reihenfolge nach den am häufigsten gesprochenen Begriff zu identifizieren. Suchmaschinen führen automatische Indexierung durch, indem sie Text analysieren und speichern, um so einen schnellen und akkuraten Informationsabruf zu ermöglichen. In einem Beispiel führt die Textanalysekomponente eine Volltextindexierung des gesamten empfangenen und umgewandelten Audios durch, um Textdateien mit natürlicher Sprache zu erzeugen, wobei das System jedoch eine Teiltextindexierung durchführen kann, um die Indextiefe zu beschränken und die Indexgröße zu reduzieren. Ein Ziel der Erstellung und Speicherung eines Indexes für die Textdatei liegt darin, die Geschwindigkeit und Leistungsfähigkeit der Analyse von empfangenem Audio zur Erstellung einer Suchabfrage zu verbessern. Ohne einen Index müsste das System unter Umständen die Textdatei für jede durchgeführte Analyse oder Abfrage scannen, was viel Zeit und Rechenleistung erfordern würde. Häufige Begriffe, wie zum Beispiel Artikel (ein, eine, der, die, das), können gefiltert werden und es kann eine Stammformreduktion für Begriffe durchgeführt werden, sodass grammatikalisch ähnliche Begriffe in Gruppen zusammengefasst werden (z. B. alle Verbformen gruppiert werden, wie „springen”, „springt”, „ist gesprungen”). Als Stammformreduktion wird das Verfahren zur Reduktion gebeugter (oder gelegentlich abgeleiteter) Wortformen von ihrem Wortstamm, ihrer Grundform oder Ausgangsform – allgemein einer schriftlichen Wortform – bezeichnet. Der Wortstamm muss mit der morphologischen Ausgangsform des Wortes nicht identisch, sondern die verwandten Wörter müssen nur demselben Wortstamm entsprechen, selbst wenn der Wortstamm selbst keine gültige Ausgangsform ist. Das Stammformreduktionsverfahren ist nicht nur bei der Erstellung von Indizes, sondern auch bei der Erstellung von Abfragen für Suchmaschinen nützlich.
Die Textanalysekomponente 1008 kann nicht nur einen Index von gesprochenen Begriffen erstellen, sondern auch einen Zeitpunkt hinzufügen, zu dem diese gesprochen wurden. Wie nachfolgend beschrieben kann mithilfe des Zeitpunkts eine visuelle Oberfläche erstellt werden, um einem Benutzer, z. B. im Laufe eines Audioprogramms, Informationen anzuzeigen, die mit dem empfangenen Audio verknüpft sind. Die Textanalysekomponente kann das System auch bei der Identifizierung von Wortverbindungen unterstützen, indem sie benachbarte Begriffe zu grammatikalischen Wortverbindungen zusammenfasst. Wenn zum Beispiel der Begriff „Lake” (See) zeitlich häufig vor dem Begriff „Erie” auftritt, dann bestimmt das System, dass wahrscheinlich eher der Eigenname „Lake Erie” (Eriesee) als das allgemeine Substantiv „Lake” und der Eigenname „Erie” für eine Stadt gemeint sind. Die Textanalysekomponente kann die Textdatei mit einem Wörterbuch vergleichen, um Eigennamen zu identifizieren, und Eigennamen einen höheren Rang zuzuordnen oder diese anderweitig zu kennzeichnen, um sie wie hierin beschrieben weiterzuverarbeiten. Diese Eigennamen können zum Beispiel die Basis für Abfragen an externe Datenbanken bilden, um zugehörige Informationen abzurufen.
Die Textanalysekomponente 1008 kann viele anderen Operationen durchführen, wie hierin beschrieben. Die Textanalysekomponente 1008 kann beispielsweise versuchen, unerwünschte Informationen wie etwa Werbeanzeigen, Sender-Identifikationsnachrichten, öffentliche Broadcast-Nachrichten usw. herauszufiltern oder zu löschen.
Die Textanalysekomponente 1008 kann Funktionen zur automatischen Zusammenfassung oder automatischen Auszugserstellung nutzen, um automatisch einen Auszug des empfangenen Audios zu erzeugen. Die automatische Zusammenfassung beinhaltet die Erstellung einer gekürzten Version der Textdatei, entweder durch Extraktions- oder Abstraktionsprozesse, wobei die erstellte Zusammenfassung idealerweise die wichtigsten Elemente des Originaltextes beinhaltet. Extraktionstechniken kopieren lediglich die Informationen, die vom System als am wichtigsten erachtet werden, in die Zusammenfassung (z. B. wichtige Abschnitte, Sätze oder Absätze), während eine Abstraktion eine Paraphrasierung des Textdatei beinhaltet. Bei der Abstraktion wird eine Textdatei im Allgemeinen stärker komprimiert als bei der Extraktion, aber die dazu in der Regel notwendigen Prozesse verwenden typischerweise Technologien zur Erstellung natürlicher Sprache, die eine erhebliche Verarbeitungsleistung erfordern und zu unakzeptablen Ergebnissen führen können.
Die Textanalysekomponente 1008 kann die Textdatei analysieren, um zu versuchen, diskrete Audiosegmente zu identifizieren. Die Textanalysekomponente kann zum Beispiel die Textdatei analysieren und nach häufigen Wortverbindungen suchen, die einen Themenwechsel anzeigen, indem sie z. B. nach Textphrasen, wie „damit in Zusammenhang stehend”, „wenden wir uns nun ... zu”, „dies wirft eine weitere Frage auf ...”, und ähnlichen grammatikalischen Konstrukten sucht. Zusätzlich oder alternativ kann die Textanalysekomponente einfach eine statistische Analyse der Wörter in der Textdatei basierend auf deren Reihenfolge und dem Zeitpunkt des Auftretens durchführen, um eine Nutzungshäufigkeit während eines gegebenen Zeitintervalls zu bestimmen, um sich auf ein Thema oder Inhalte zu beziehen, die während des Zeitintervalls behandelt werden. Natürlich können viele andere Textanalysetechniken durchgeführt werden, um Audiosegmente innerhalb der Textdatei automatisch zu identifizieren.
Eine Abfrageerstellungskomponente 1010 erhält Informationen von der Textanalysekomponente und erstellt eine Abfrage, die an eine Suchmaschine übermittelt werden kann. In einem Beispiel werden die während eines vorbestimmten Zeitraums am häufigsten gesprochenen Begriffe von dem Mobilgerät über das Netzwerk an die Suchmaschine gesendet, um Informationen abzurufen, die mit den empfangenen Audioinhalten verknüpft sind. Die Abfrageerstellungskomponente kann eine anfängliche Abfrage oder Seed-Abfrage erstellen, indem sie automatisch Überlegungen zur Begriffshäufigkeit aus Anweisungen für natürliche Sprache in der Textdatei verwendet und innerhalb eines gegebenen Zeitraums häufig auftretende Begriffe mithilfe Boole'scher Operatoren und Boole'scher Suchformulierungen kombiniert.
Die Abfrageerstellungskomponente kann Abfrageerweiterungstechniken oder ähnliche Techniken durchführen. Als Abfrageerweiterung wird das Verfahren zur Neuformulierung einer Seed-Abfrage zur Verbesserung der Leistung beim Abrufen verknüpfter Informationen bezeichnet. Eine Abfrageerweiterung umfasst die Bewertung einer anfänglichen vom System erstellten Abfrage (welche Wörter wurden ausgewählt, wie z. B. das am häufigsten auftretende Subjektiv oder die am häufigsten auftretende Nominalphrase innerhalb eines Intervalls von zwei Minuten) und die Erweiterung der Suchabfrage, um zu versuchen, zusätzliche Informationen zu erhalten. Eine Abfrageerweiterung beinhaltet Techniken wie zum Beispiel das Finden von Synonymen von Wörtern, Finden aller verschiedenen morphologischen Formen von Wörtern mittels Stammformreduktion der einzelnen Wörter in der Abfrage, automatisches Suchen nach einer korrigierten Form (z. B. für Jargon- und Slang-Wortverbindungen), Neugewichten der Begriffe in der Originalabfrage und Hinzufügen von Kontextinformationen zur Originalabfrage, die nicht in der Originalabfrage enthalten sind.
Die Textanalysekomponente 1008 und die Abfrageerstellungskomponente 1010 analysieren die Textdatei oder den empfangenen Audiostream wie zuvor beschrieben und zerlegt sie oder ihn in Inhaltssegmente, die Inhalte des empfangenen Audiosignals repräsentieren, wie etwa einzelne behandelte Themen oder während eines Audioprogramms erwähnte Subjektive, und jedes dieser Inhaltssegmente wird zur Erstellung von einer oder mehreren Abfragen verwendet. Eine Komponente 1012 zur Verarbeitung der zugehörigen Informationen empfängt und verarbeitet dann die zugehörigen Informationen, die vom System abgerufen wurden. In einem Beispiel beinhaltet dies den Empfang der zugehörigen Informationen und die Bereitstellung dieser Informationen auf einer Anzeigevorrichtung, wo sie vom Benutzer angesehen werden können. Eine Komponente 1014 für den Verlauf zugehöriger Informationen protokolliert alle zugehörigen Informationen, die basierend auf einer übermittelten Abfrage empfangen werden. Dies gestattet dem Benutzer, die zugehörigen Informationen später zu einem für den Benutzer passenderen Zeitpunkt durchzusehen. Somit können alle Informationen bezüglich einer Radiosendung, die sich der Benutzer während der Fahrt zu einer Besprechung angehört hat, gespeichert und später vom Benutzer zu einer für ihn passenderen Zeit angesehen werden.
Eine Kommunikation- und Routingkomponente 1016 ist für den Empfang und das Weiterleiten von Informationen verantwortlich. Wie zuvor beschrieben kann das Audio über ein Mikrofon oder als Audiodatei über das Netzwerk empfangen werden. Gleichermaßen können zugehörige Informationen auf einem Mobilgerät empfangen und angezeigt oder aber an eine Vorrichtung weitergeleitet werden. Somit kann der Benutzer anfordern, dass das System die zugehörigen Informationen über die Kommunikationskomponente 1016 weiterleitet, um sie auf einer in der Nähe befindlichen Vorrichtung anzuzeigen (z. B. einem PC, einem drahtlosen Bildrahmen, einem Laptop, einer Set-Top-Box eines Fernsehers). Somit kann die Kommunikationskomponenten auf die gespeicherte elektronische Adresse dieser Vorrichtungen (Mobiltelefonnummer, URL, IP-Adresse usw.) zugreifen, um die Weiterleitung der zugehörigen Informationen zu gestatten. Weitere Details zu den Komponenten aus 10 sind hierin, z. B. in den vorstehenden Abschnitten II und III, beschrieben.
11 zeigt eine Routine 1100 zur Verarbeitung von empfangenem Audio. In Schritt 1102 empfängt das System audiobasierte Informationen, etwa live oder voraufgezeichnet, wie vorstehend beschrieben. In Schritt 1104 verarbeitet das System das empfangene Audio vorab, z. B. durch Filterung mittels der Audioverarbeitungskomponente 1004. In Schritt 1106 wandelt das System das Audio zum Beispiel unter Verwendung der Sprache-zu-Text-Komponente 1006 in Text um. In Schritt 1108 führt das System eine Aktion basierend auf den Inhalten des empfangenen Audiostreams aus. Wie hierin beschrieben kann es sich bei der Aktion um eine von vielen verschiedenen handeln.
12 zeigt ein Flussdiagramm, das die in Schritt 1108 ausgeführten Schritte darstellt. In Schritt 1202 identifiziert das System Suchbegriffe zum Beispiel unter Verwendung der Textanalyse und Komponente 1008. In Schritt 1204 führt das System eine Abfrage oder Suche zum Beispiel mithilfe der Abfrageerstellungskomponente 1010 aus. In Schritt 1206 empfängt das System zugehörige Informationen oder Inhalte (z. B. über die Kommunikations- und Routingkomponente 1016). In Schritt 1208 gibt das System die empfangenen und zugehörigen Informationen an eine identifizierte Vorrichtung, wie etwa der Vorrichtung, die die Informationen erfasst hat, zur Anzeige aus. Die Kommunikations- und Routingkomponente 1016 und die Komponente 1012 zur Verarbeitung zugehöriger Informationen leiten die zugehörigen Informationen beispielsweise an das Mobilgerät des Benutzers sowie den Computer des Benutzers weiter.
13 veranschaulicht Benutzeroberflächen zur Anzeige ergänzender Informationen für den Benutzer. Das System kann die Benutzeroberflächen auf einer beliebigen der zuvor beschriebenen Anzeigevorrichtungen anzeigen. Die Komponente 1012 zur Verarbeitung zugehöriger Informationen kann einen grafischen Zeitstrahl 1302 erzeugen, der so segmentiert ist, dass er verschiedene Blöcke von Inhalten anzeigt, die in dem empfangen Audiosignal enthalten sind. In dem Beispiel aus 13 erstreckt sich das Audio von 2:00:00 bis 2:30:00 und repräsentiert ein 30-minütiges Audioprogramm. Ein linker „Zurück”-Pfeil 1304 und ein rechter „Vor”-Pfeil 1306 gestatten dem Benutzer, auf diese Pfeile zu zeigen und zu klicken, um eine grafische Darstellung der vorherigen und nächsten Audioabschnitte anzusehen, wie beispielsweise die vorherigen und nachfolgenden 30 Minuten einer Radiosendung. Wie hierin beschrieben analysiert das System die Textdatei und zerlegt die Textdatei in Inhaltssegmente, die einzelne während des Audioprogramms behandelte Themen oder Inhalte aus dem empfangenen Audio repräsentieren. Jedes dieser Inhaltssegmente entspricht einer oder mehreren von dem System erstellten Abfragen, und zugehörige Informationen werden vom System abgerufen. Jedes der einzelnen Inhaltssegmente wird von angezeigten rechteckigen Segmenten dargestellt, von denen die ersten drei in 13 jeweils als 1310, 1314 und 1318 ausgewiesen sind.
Die Komponente 1012 zur Verarbeitung zugehöriger Informationen ruft einen Satz zugehöriger Informationen ab, die von der Komponente 1014 zur Speicherung der Historie von zugehörigen Informationen indexiert und im Speicher gespeichert wurden. In diesem Beispiel wurden als Reaktion auf eine von der Abfrageerstellungskomponente 1010 erstellte Abfrage drei Seiten oder Bildschirme mit zugehörigen Informationen erhalten. Die bereitgestellten zugehörigen Informationen können stark variieren und von einem einfachen Link zu einer Webseite, über ein oder mehrere Seiten, die von einer Webseite kopiert wurden, bis hin zu einer oder mehreren Seiten, die basierend auf den erhaltenen zugehörigen Informationen erstellt wurden, reichen. Die erstellten Seiten können relevante Informationen beinhalten, die von einer oder mehreren Webseiten mit ausgeschnittenen Werbeanzeigen, von mehreren Seiten von Text, der auf eine einzelne Seite aggregiert wurde, von Bildern, die in einen separaten Bereich auf der erstellten Seite konsolidiert wurden, usw. erhalten wurden. Wie in 13 gezeigt beinhaltet jede Seite oder jeder Bildschirm einen Link oder eine URL, der oder die eine Adresse identifiziert, unter der die Seite mit den zugehörigen Informationen gefunden wurde, und die Seite oder der Bildschirm gestattet dem Benutzer, auf den Link zu klicken und dadurch zu dieser Seite zu gelangen. Die Seiten 1312 beinhalten auch Text und Bilder, die mithilfe der Abfrage erhalten wurden.
Gleichermaßen entspricht das zweite Audiosegment 1314 einer einzelnen Seite 1316 von Text, während das dritte Segment 1318 sechs abgerufenen und gespeicherten Seiten mit Inhalt 1320 entspricht, die jeweils über einen Link, Text und Bilder verfügen. Linien, die sich von der Unterseite der einzelnen Sätze gestapelter Seiten erstrecken und in einem entsprechenden Audiosegment zusammenlaufen, zeigen visuell an, welcher Seitenstapel mit dem jeweiligen Audiosegment verknüpft ist. Auch wenn dies nicht dargestellt ist, kann jedes Audiosegment die Suchabfrage beinhalten, die von der Abfrageerstellungskomponente 310 erstellt wurde, um dem Benutzer zu helfen, das Thema von jedem Audiosegment leicht zu bestimmen. Wenn also ein Schlüsselbegriff in der Abfrage „Brahms” lautete, dann wird das mit dieser Abfrage verknüpfte, angezeigte Audiosegment so bezeichnet.
Um den Benutzer weiter zu unterstützen, kann die Komponente 1012 zur Verarbeitung von zugehörigen Informationen einen Index 1322 erzeugen, der den gespeicherten zugehörigen Informationen entspricht. Wie dargestellt repräsentiert der Index eine Liste oder Tabelle aller Audiosegmente und entsprechenden zugehörigen Informationen, die empfangen und gespeichert wurden. Daher entspricht das erste Audiosegment einer ersten Zeit <Zeit 1>, gefolgt von einer Beschreibung dieser Inhalte <Beschreibung 1>, wie etwa der Abfrage, gefolgt von einer Liste der zugehörigen erhaltenen Informationen <RelatedlnfoList 1>. Ähnliche Einträge im Index sind auch für jedes nachfolgende Audiosegment zu finden, wie beispielsweise <Zeit 2>, <Beschreibung 2> und <RelatedlnfoList 2>.
Anstatt das empfangene Audiosignal zu speichern und später anzusehen, wie in 13 gezeigt, kann es unmittelbar zum Zeitpunkt der Audioerzeugung empfangen werden, wie z. B. während einer Vorlesung oder Live-Radiosendung, wodurch das System zugehörige Informationen zeitgleich zur Anzeige für den Benutzer bereitstellen kann. In diesem Fall können die dem Benutzer angezeigten zugehörigen Informationen minimal sein. Zum Beispiel kann eine Radiosendung sich mit den aktuellen Unruhen in der Welt befassen und dabei das afrikanische Land Darfür erwähnen. Das System kann dann einen Link zu Inhalten auf einer Wikipedia-Seite zu Darfur bereitstellen oder Inhalte von dieser Seite abrufen, aber die Verlaufskomponente speichert zusätzliche zugehörige Informationen zur späteren Betrachtung. Dadurch kann der Benutzer zum Beispiel die Wikipedia-Seite zu Darfur während der Radiosendung über das Mobilgerät des Benutzers anzeigen, aber später, z. B. abends, zu seinem persönlichen Computer gehen und mehrere Seiten über Darfur ansehen, die von der Verlaufskomponente gespeichert wurden.
Natürlich kann es zu Latenzen zwischen dem empfangenen Audio und den resultierenden zugehörigen Informationen kommen, die dem Benutzer präsentiert werden. In einigen Fällen erkennt das System diese Latenzen und stellt dem Benutzer Feedback zur Verfügung, um anzuzeigen, wie groß die Verzögerung unter Umständen ist. In einigen Fällen speichert das System das empfangene Audio in einem Zwischenspeicher, um die Verzögerung zu minimieren und die Präsentation des Audiosignals mit den präsentierten Informationen zu synchronisieren.
Bei live oder in Echtzeit empfangenem Audio hat die Komponente zur Verarbeitung zugehöriger Informationen möglicherweise nicht genug Zeit, um Audioinhalte akkurat zu disambiguieren oder zu aggregieren, wie in 13 dargestellt. Ursächlich dafür könnten Verarbeitungsbeschränkungen des Mobilgeräts, Zeitbeschränkungen, der Umfang des empfangenen Audios und darin enthaltenen Audioinhalten, ein zu großer Verarbeitungsaufwand bei der Verarbeitung von Audiodaten, um Text zu extrahieren (z. B. aufgrund einer sehr lauten Umgebung mit mehreren sprechenden Personen und Hintergrundmusik), usw. sein. Infolgedessen kann das System das empfangene Audio einfach in periodische Segmente, wie z. B. zweiminütige Segmente, segmentieren und eine einzelne Seite mit zugehörigen Informationen bereitstellen, die mit dem Begriff oder der Wortverbindung verknüpft sind, der oder die während dieses Segments am häufigsten interpretiert wurde. Der Benutzer kann die Möglichkeit haben, die Segmentierung des empfangenen Audios zu verlangsamen oder zu beschleunigen und somit die Rate einzustellen, mit der die zugehörigen Informationen dem Benutzer bereitgestellt werden. Nur wenige zugehörige Informationen werden in diesem Beispiel einer zeitgleichen Anzeige bereitgestellt, da die Informationen möglicherweise nicht in Zusammenhang mit den Audioinhalten stehen oder unwichtig für den Benutzer sind.
Der Benutzer kann die Möglichkeit haben, einen Merker in dem System zu setzen, der eine von mehreren Funktionen haben kann. Der Merker kann das System anweisen, weitaus mehr zugehörige Informationen als üblich zu den Inhalten des empfangenen Audios bereitzustellen. Ein anderer Merker kann einfach als Lesezeichen oder visueller Indikator dienen, der dem Benutzer angezeigt wird. In dem Beispiel aus 13 kann eines der Audiosegmente rot oder gelb hervorgehoben werden, um den Merker des Benutzers anzuzeigen, oder der Merker könnte mit dem kompletten Audioprogramm selbst verknüpft sein.
Ein anderer Merker könnte mit dem Kauf eines Elements, das in dem empfangenen Audio identifiziert wurde, verknüpft sein. Wenn in einer Radiosendung beispielsweise ein Buch erwähnt wird, kann der Benutzer dem Mobilgerät eine Eingabe bereitstellen, über die automatisch eine Kopie des erwähnten Buches bestellt wird, z. B. über das Amazon.com-Konto des Benutzers. Ein anderer Merker kann das System anweisen, eine Benachrichtigung an den Benutzer zu senden, wenn ein Nachfolgeartikel oder ein anderes Medium (z. B. Audiostream) zu denselben Audioinhalten verfügbar ist. Dies würde einem Benutzer gestatten, einem Bericht zu folgen und nachfolgende Ereignisse zu entdecken.
Merker können auch zur Ausführung anderer Aktionen bereitgestellt werden. Ein Merker kann das System beispielsweise dazu veranlassen, automatisch eine Benachrichtigung an den Benutzer zu senden (per E-Mail, SMS, Voicemail usw.), um anzuzeigen, wann ein Fernsehprogramm zu den Audioinhalten ausgestrahlt wird, und ein anderer Merker kann das System dazu veranlassen, eine Set-Top-Box oder einen digitalen Videorekorder anzuweisen, das Programm aufzuzeichnen.
Der Benutzer kann Standardwerte und Präferenzen eingeben. Der Benutzer kann beispielsweise festlegen, dass die zugehörigen Informationen von einer spezifischen Quelle stammen oder in einem spezifischen Format vorliegen müssen (z. B. wenn verfügbar, alle öffentlichen Fernsehinhalte bereitstellen, die mit den Audioinhalten verknüpft sind).
Viele alternative oder zusätzliche Prozesse können genutzt werden, um die Leistung des Systems zu verbessern. Um beispielsweise die Audioverarbeitung weiter zu verbessern, kann das System versuchen, die „beste” Audioversion aufzufinden. Falls der Benutzer zum Beispiel zu einer bestimmten Uhrzeit und Tageszeit den Sender National Public Radio hört, kann das System auf eine Datei oder einen Audiostream für das Audioprogramm unter www.npr.org zugreifen. Mit diesem Audio kann das System in der Lage sein, Sprache wesentlich genauer in Text umwandeln.
Falls das System Zugriff auf einen Videofeed hat, dass die Lippen eines Sprechers zeigt, wie es beispielsweise bei einer Fernsehsendung der Fall sein kann, kann das System die Umwandlung von Sprache in Text durch Durchführung automatischen Lippenlesens verbessern, um dabei zu helfen, die Umwandlung von Sprache in Text zu verbessern.
Die Textanalysekomponente 1008 (und/oder die Sprache-zu-Text-Komponente) kann Kontextinformationen analysieren, um eine bessere Textanalyse (oder Umwandlung von Sprache zu Text) zu verbessern. Somit kann das System eine Zeit analysieren, die mit dem empfangenen Audio verknüpft ist, und diese Zeit mit einem Kalendereintrag eines Kalenders oder Planungsprogramms vergleichen, um zu identifizieren, worauf sich das Audio möglicherweise bezieht. Wenn im Kalender des Benutzers angezeigt wird, dass der Benutzer zum Zeitpunkt des Empfangs des Audios auf dem Weg zu einer Besprechung war, dann kann das System annehmen, dass der Benutzer in seinem Fahrzeug saß und Radio hörte, während er zur Besprechung gefahren ist. Dies stünde im Gegensatz zu einem Kalender, der anzeigt, dass der Benutzer eine Vorlesung zum Thema Literatur der Maya besucht hat. Die Textanalysekomponente kann auch Standortinformationen abrufen, die zeigen, dass sich der Benutzer mit einer Geschwindigkeit von 60 Meilen pro Stunde bewegt hat, was ferner darauf hindeutet, dass der Benutzer mit seinem Fahrzeug unterwegs war. Standortinformationen können ebenfalls verwendet werden, um zu bestimmen, dass sich der Benutzer an der University of Washington aufhielt, was wiederum darauf hindeuten kann, dass der Benutzer die Vorlesung zum Thema Literatur der Maya besuchte. Bei Konflikten, z. B. einem Konflikt zwischen einem lokalen Kalender auf dem Mobilgerät des Benutzers und einem entfernten Kalender, der anderswo gespeichert ist, hat der mobile Kalender Vorrang.
In einem anderen Beispiel kann das System anhand des Kalenders des Benutzers bestimmen, dass der Benutzer zu einem gegebenen Zeitpunkt an einem gegebenen Ort an einer Medizinvorlesung teilnehmen sollte. Wenn ein Zeitstempel und geografische Koordinaten oder ähnliche Metadaten anzeigen, dass sich der Benutzer zur geplanten Zeit am vordefinierten Ort befindet, nimmt das System mit hoher Wahrscheinlichkeit an, dass sich der Benutzer in der Medizinvorlesung befindet. Infolgedessen kann das System ein medizinisches Wörterbuch als Hilfe nutzen, um die Sprache besser in Text umzuwandeln.
Wie zuvor beschrieben versucht das System automatisch, die Textdatei zu disambiguieren und wichtige Inhalte darin zu identifizieren. Wenn der Text beispielsweise den Begriff „Mission” neben dem Begriff „Impossible” beinhaltet, der wiederum in der Nähe des Begriffs „Film” steht, dann nimmt das System eine hohe Wahrscheinlichkeit dafür an, dass sich der Sprecher auf den Film „Mission Impossible” bezieht. Daher kann die Abfrageerstellungskomponente zugehörige Informationen zum Film Mission Impossible abrufen, möglicherweise mit Vorführungszeiten und Standorten von Kinos in der Nähe des derzeitigen Aufenthaltsorts des Benutzers. Tatsächlich kann das System versuchen, die Inhalte eines empfangenen Audios zu akkumulieren und sie auf Kontextinformationen bezüglich des Standorts des Benutzers und einen Vektor oder ein Muster vor und nach einem Zeitstempel des empfangenen Audios anwenden. Falls sich der Benutzer für zwei Stunden am Standort seines Büros befand, sich dann mit einer durchschnittlichen Geschwindigkeit von 30 Meilen pro Stunde von seinem Büro wegbewegt hat, um dann an einem Standort zu verweilen, der einer Adresse eines Kunden im privaten Telefonbuch des Benutzers entspricht, nimmt das System mit hoher Wahrscheinlichkeit an, dass der Benutzer eine Kundenbesprechung hat und das das empfangene Audio aus einer Besprechung mit dem Kunden stammt, auch wenn in dem Kalender keine derartige Besprechung aufgeführt ist.
Eine Bewegung des Mobilgeräts kann zur Durchführung bestimmter Aktionen führen. Wenn der Benutzer ein Buch auf einem Laptop oder digitalen Lesegerät (z. B Amazon Kindle) liest und das System erkennt, dass sich der Benutzer von seinem Haus zu seinem Fahrzeug bewegt hat und losfährt, dann kann das System das Audiosystem im Fahrzeug anweisen, das Buch in Audioform wiederzugeben. Dies kann erreicht werden, indem das Mobilgerät eine Audiokopie des Buchs lokal oder in dem Netzwerk lokalisiert und sie über eine drahtlose Verbindung einer Head-End-Audioeinheit im Fahrzeug bereitstellt. Alternativ kann das Mobilgerät den Text von einer Textversion des Buches in Sprache umwandeln und ihn über die Lautsprecher/Bluetooth-Verbindung/Audiobuchse des Mobilgeräts ausgeben oder ihn der Head-End-Einheit im Fahrzeug bereitstellen usw. Das System könnte automatisch nach ähnlichen Kontextwechseln suchen, etwa wenn das Buch oder der Artikel, den der Benutzer gerade gelesen hat, nun auf einem oder mehreren Kanälen oder Radiosendern/Satellitenkanälen im Fahrzeug des Benutzers, in einem Fernsehprogramm usw. verfügbar ist.
Die Abfragekomponente kann eine Hierarchie von Datenabfragen und Funktionen zum Abrufen zugehöriger Informationen implementieren, um die Wahrscheinlichkeit zu verbessern, dass die zugehörigen Informationen tatsächlich im Zusammenhang mit dem empfangenen Audio stehen und von Interesse für den Benutzer sind. Wenn also in einer Radiosendung ein Buch erwähnt wird, kann die Abfragekomponente zugehörige Informationen bezüglich des Autors des Buchs, Leitartikel oder Kritiken zu Arbeiten, die der Autor geschrieben hat, vom Sender bereitgestellte Informationen (wie vorstehend erwähnt) und infolge des Programms bereitgestellte oder erstellte Informationen abrufen. Derartig erstellte Inhalte können in Form von einem Diskussionsforum, zusätzlichen Call-In-Informationen, einem offenen Forum und anderen Audioinformationen sowie textbasierten Informationen vorliegen, die über das Internet verfügbar sind, wie etwa Blogs, RSS-Feeds, Twitter-Beiträge oder andere Versionen eines Buches, Artikels oder einer Publikation, die im empfangenen Audio erwähnt werden.
Auf ähnliche Weise kann das System bei der automatischen Erstellung von Beiträgen für den Benutzer helfen, sodass der Benutzer seinen eigenen Hauptkanal veröffentlichen kann, über den er seine eigene Sichtweise oder Beiträge bezüglich der Audioinhalte wiedergeben kann. So kann der Benutzer automatisch per Blog, Twitter, Einwahl, Podcasts usw. Inhalte einstellen, die das System automatisch empfangen und mithilfe der Verlaufskomponente gespeichert hat. Verschiedene Benutzer, die dieses System nutzen, können dann über eine Social-Networking-Community miteinander verbunden werden, sodass sie die jeweiligen Beiträge der anderen auf ihrem eigenen „Kanal” bewerten oder darüber abstimmen können, Informationen auf den Kanälen der anderen hinzufügen oder korrigieren können und dazu beitragen können, Empfehlungen für die Benutzer zu erstellen, deren Inhalte mehr Stimmen erhalten, von Dritten weniger bearbeitet werden usw.
Wie vorstehend beschrieben kann das System versuchen, die beste Version des empfangenen Audios zu identifizieren. Wenn das System keine Bestimmung anhand des Kontextes (z. B. dem Standort des Benutzers, der Bewegung des Benutzers, der Tageszeit, Kalendereinträge usw.) vornehmen kann, dann kann das System versuchen, die beste Audioversion anhand von Muster in dem Audio zu identifizieren, die mit den Muster in gespeicherten Audiodateien verglichen werden können. Die Audiomuster können Muster von ruhigen Stellen und deren Zeiten, Änderungen im Dynamikbereich des Audios usw. darstellen, die einer einfachen Analyse einer Audiodatei entsprechen, um ein im Wesentlichen eindeutige „Signatur” für dieses Audio zu erstellen. Daher ist keine komplizierte Umwandlung von Sprache in Text notwendig und nur ein kleiner Teil des Audiosignals muss tatsächlich analysiert werden. Anhand dieser Signatur kann das System die berechnete Signatur mit einer Datenbank von Signaturen vergleichen, wobei die Datenbank eine Tabelle von Signaturen und zugehörigen Audiodateien beinhaltet. Falls eine Übereinstimmung gefunden wird, kann das System anschließend auf diese kurze Audiodatei zugreifen und eine Umwandlung von Sprache in Text oder eine andere hierin beschriebene Verarbeitung durchführen, anstatt zu versuchen, eine solche Analyse basierend auf einer geräuschvolleren empfangenen Audioversion mit einer geringeren Wiedergabetreue durchzuführen.
Schlussfolgerung
Die vorherige detaillierte Beschreibung von Ausführungsformen und Beispielen des Systems soll nicht vollständig sein oder das System auf die exakten, vorstehend offenbarten Formen beschränken. Obwohl vorstehend spezifische Ausführungsformen und Beispiele für das System zu Veranschaulichungszwecken beschrieben sind, sind, wie der Fachmann auf dem relevanten Gebiet erkennen wird, verschiedene äquivalente Modifikationen innerhalb des Schutzumfangs des Systems möglich. Als ein Beispiel können alternative Ausführungsformen, obwohl Prozesse und Blöcke in einer gegebenen Reihenfolge dargestellt sind, in einer anderen Reihenfolge Routinen durchführen, die Schritte aufweisen, oder Systeme verwenden, die Blöcke aufweisen, und einige Prozesse oder Blöcke können entfernt, verschoben, hinzugefügt, unterteilt, kombiniert und/oder verändert werden. Jeder dieser Prozesse oder Blöcke kann in einer Reihe unterschiedlicher Weisen implementiert sein. Zudem können, obwohl Prozesse oder Blöcke gelegentlich als der Reihe nach durchgeführt gezeigt sind, diese Prozesse oder Blöcke stattdessen parallel durchgeführt werden oder können zu unterschiedlichen Zeiten durchgeführt werden.
Auch wenn viele der zuvor beschriebenen Ausführungsformen und Beispiele Software verwenden, die auf greifbaren Speichermedien innerhalb eines Mobilgeräts oder eines anderen Computersystems gespeichert ist, können Anwendungen und Prozesse in den Computersystemen hartcodiert sein (z. B. gespeichert in EEPROM, PROM usw.).
Die hierin bereitgestellten Lehren des Systems können auf andere Systeme angewendet werden, bei denen es sich nicht notwendigerweise um das vorstehend beschriebene System handelt. Die Elemente und Handlungen der verschiedenen vorstehend beschriebenen Ausführungsformen können kombiniert werden, um weitere Ausführungsformen bereitzustellen.
Alle der vorstehenden Patente und Anwendungen und andere Referenzen, einschließlich aller, die in zugehörigen Anmeldedokumenten aufgeführt sind, sind durch Verweise hierin einbezogen. Aspekte des System können, falls nötig, verändert werden, um die Systeme, Funktionen und Konzepte der verschiedenen vorstehend beschriebenen Bezugnahmen zu verwenden, um noch weitere Ausführungsformen des Systems bereitzustellen.
Diese und andere Änderungen können an dem System angesichts der vorherigen detaillierten Beschreibung vorgenommen werden. Obwohl die vorstehende Beschreibung bestimmte Ausführungsformen des Systems verdeutlicht und den besten erwogenen Modus beschreibt, kann das System unabhängig davon, wie detailliert das Vorstehende in Textform erscheint, auf viele Arten umgesetzt werden. Dementsprechend umfasst der tatsächliche Schutzumfang des Systems nicht nur die offenbarten Ausführungsformen, sondern auch alle äquivalenten Möglichkeiten zur Ausführung oder Umsetzung des Systems nach den Ansprüchen.
Während bestimmte Aspekte des Systems nachfolgend in bestimmten Anspruchsformen präsentiert werden, betrachten die Erfinder die verschiedenen Aspekte des Systems in beliebiger Anzahl von Anspruchsformen. Während zum Beispiel nur ein Aspekt des Systems als in einem computerlesbaren Medium ausgeführt aufgezählt wird, können andere Aspekte ebenso in einem computerlesbaren Medium ausgeführt sein. Dementsprechend behalten sich die Erfinder das Recht vor, nach Einreichen der Anmeldung zusätzliche Ansprüche hinzuzufügen, um solche zusätzlichen Anspruchsformen für andere Aspekte des Systems zu verfolgen.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Nicht-Patentliteratur

IEEE-1394 [0301]

Claims

Computerlesbares Medium, dessen Inhalte ein oder mehrere erste Computervorrichtungen, die jeweils einen Prozessor und einen Speicher beinhalten, veranlassen, relevante Informationen bereitzustellen, wobei die Inhalte Folgendes umfassen: die wiederholte automatische Ausführung von folgenden Aktionen durch mindestens eine der einen oder mehreren ersten Computervorrichtungen, während vom Benutzer bereitgestellter Text empfangen wird: Überwachen (510) des empfangenen Textes; Auswählen (515) von einem Teil des Textes; Erstellen (520) einer Abfrage basierend auf mindestens einem Teil des ausgewählten Teils des Textes; Auswählen (525) von mindestens einem Index für die Suche; Übermitteln (530), ohne spezifische Aufforderung zur Übermittlung durch den Benutzer, der Abfrage an mindestens eine von einer oder mehreren zweiten Computervorrichtungen, die basierend auf mindestens einem Teil des ausgewählten Index ausgewählt wurden; Empfangen (535) von Informationen, die relevant für die Abfrage sind, von mindestens einer der einen oder mehreren zweiten Computervorrichtungen; und Anzeigen (540) der relevanten Informationen durch mindestens eine der einen oder mehreren ersten Computervorrichtungen.
Computerlesbares Medium nach Anspruch 1. wobei das Empfangen von Text, der vom Benutzer bereitgestellt wird, das Empfangen von Text beinhaltet, der vom Benutzer im Rahmen der Erstellung eines Dokuments bereitgestellt wird.
Computerlesbares Medium nach Anspruch 1 oder 2, wobei das Empfangen von Text, der durch den Benutzer bereitgestellt wird, das Empfangen von Text beinhaltet, der optisch von dem einen oder den mehreren ersten Computervorrichtungen erfasst wird.
Computerlesbares Medium nach einem der Ansprüche 1 bis 3, wobei das Erstellen der Abfrage zumindest teilweise basierend auf den ausgewählten Teil des Textes ein Erstellen einer Abfrage beinhaltet, die andere Wörter als die im ausgewählten Teil des Textes enthaltenen Wörter beinhaltet.
Computerlesbares Medium nach einem der Ansprüche 1 bis 4, wobei das Erstellen der Abfrage zumindest teilweise basierend auf dem ausgewählten Teil des Textes ein Erstellen einer ersten Abfrage, die mit dem ausgewählten Teil des Textes verknüpft ist, und ein Erstellen einer zweiten Abfrage, die mit dem Text verknüpft ist, der den ausgewählten Teil des Textes umgibt, beinhaltet.
Computerlesbares Medium nach einem der Ansprüche 1 bis 5, wobei das Auswählen eines Teils des Textes ein optisches Erfassen von Text, der auf einem wiedergegebenen Dokument gedruckt ist, durch die eine oder die mehreren ersten Computervorrichtungen beinhaltet; und wobei das Erstellen einer Abfrage zumindest teilweise basierend auf dem ausgewählten Teil des Textes ein Identifizieren des wiedergegebenen Dokuments aus dem erfassten Text und ein Erstellen der Abfrage zumindest teilweise basierend auf dem identifizierten Dokument beinhaltet.
Computerlesbares Medium nach einem der Ansprüche 1 bis 6, wobei der Text einen Satz beinhaltet und wobei das Auswählen eines Teils des Textes ein Identifizieren mehrerer Komponenten des Satzes und ein Auswählen von mindestens einer der mehreren Komponenten als den ausgewählten Teil des Textes beinhaltet.
Computerlesbares Medium, dessen Inhalte eine oder mehrere erste Computervorrichtungen veranlassen, eine Bereitstellung relevanter Informationen durchzuführen, umfassend: Überwachen (510) von empfangenem Text; Auswählen (515) eines Teils des Textes; Erstellen (520) einer Abfrage zumindest teilweise basierend auf dem ausgewählten Teil des Textes; Auswählen (525) von mindestens einem Index für die Suche; Übermitteln (530), ohne eine spezifische Aufforderung zur Übermittlung erhalten zu haben, der Abfrage an mindestens eine von einer oder mehreren zweiten Computervorrichtungen, die zumindest teilweise basierend auf dem ausgewählten Index ausgewählt werden; Empfangen (535) von Informationen, die relevant für die Abfrage sind, von der mindestens einen der einen oder mehreren zweiten Computervorrichtungen; und Bereitstellen (540) der zweiten Informationen durch die Informationsausgabevorrichtung der mindestens einen der einen oder mehreren ersten Computervorrichtungen.
Computerlesbares Medium nach Anspruch 8, wobei der Text von einer Wortverarbeitungsanwendung empfangen wird.
System in einem Mobilgerät zur Interaktion mit einer elektronischen Inhaltsquelle, wobei das System dafür angepasst ist, dass es während des Empfangens von Text, der von einem Benutzer bereitgestellt wird, wiederholt automatisch Operationen durchzuführen, die Folgendes umfassen: Überwachen (510) des Textes; Auswählen (515) eines Teils des empfangenen Textes ohne Benutzerinteraktion mit dem Teil des empfangenen Textes; Erstellen (520) einer Abfrage zumindest teilweise basierend auf dem ausgewählten Teil des Textes; Auswählen (525) von mindestens einem Index für die Suche; Übermitteln (530), ohne spezifische Aufforderung zur Übermittlung durch den Benutzer, der Abfrage an mindestens eine von einer oder mehreren zweiten Computervorrichtungen, die zumindest teilweise basierend auf dem ausgewählten Index ausgewählt werden; Empfangen (535) von Informationen, die relevant für die Abfrage sind, von mindestens einer der einen oder mehreren zweiten Computervorrichtungen; und Anzeigen (540) der relevanten Informationen durch mindestens eine der einen oder mehreren ersten Computervorrichtungen.
System nach Anspruch 10, ferner umfassend: eine optische Erfassungskomponente, wobei die optische Erfassungskomponente programmiert ist, unter Verwendung einer Abbildungskomponente des Mobilgeräts Informationen aus einem wiedergegebenen Dokument zu erfassen; eine Dokumentidentifikationskomponente, wobei die Dokumentidentifikationskomponente programmiert ist, das wiedergegebene Dokument basierend auf den erfassten Informationen zu identifizieren; und eine Inhaltsidentifikationskomponente, wobei die Inhaltsidentifikationskomponente programmiert ist, als Reaktion auf von der Dokumentidentifikationskomponente empfangene Informationen, die angeben, dass das wiedergegebene Dokument identifiziert wurde, eine Inhaltsquelle, die mit dem identifizierten wiedergegebenen Dokument verknüpft ist, automatisch zu identifizieren.
System nach Anspruch 11, ferner umfassend: eine Inhaltsquellenkomponente, wobei die Inhaltsquellenkomponente programmiert ist, die identifizierte Inhaltsquelle basierend auf von einem Benutzer des Mobilgeräts empfangenen Eingaben zu aktualisieren.