DE112020002465T5

DE112020002465T5 - Zufallsabtasten aus einer suchmaschine

Info

Publication number: DE112020002465T5
Application number: DE112020002465.2T
Authority: DE
Inventors: Michael Baessler; Thomas Hampp-Bahnmueller; Jojo Joseph; Pavlo Petrenko
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-07-02
Filing date: 2020-07-01
Publication date: 2022-02-17
Also published as: CN114072788B; CN114072788A; US20210004417A1; US11797615B2; JP2022538657A; US20240004939A1; WO2021001761A1

Abstract

Die Erfindung betrifft ein Verfahren zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine. Das Bereitstellen jedes der Zufallsabtastdokumente weist ein zufälliges Auswählen einer zeitbezogenen Gruppierung (bucket) aus einem Satz von zeitbezogenen Gruppierungen auf. Eine Suchabfrage wird an die Suchmaschinenschnittstelle gesendet und definiert eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Als Reaktion auf das Senden der Suchabfrage wird von der Suchmaschinenschnittstelle ein Suchergebnis empfangen. Das Suchergebnis weist einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters auf, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Des Weiteren wird eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht, zufällig ausgewählt.

Description

HINTERGRUND
Die vorliegende Offenbarung betrifft das Gebiet der elektronischen Datenverarbeitung und konkreter ein Zufallsabtasten aus einer Suchmaschine.
In dem Artikel von Z. Bar-Yossef und M. Gurevich: Random sampling from a search engine's index, Journal of the ACM, Bd. 55, Ausgabe 5, Artikelnr. 24, 2008, wird Bezug genommen auf K. Bharat und A. Broder: A technique for measuring the relative size and overlap of public Web search engines, Proceedings of the 7th International World Wide Web Conference (WWW7), Seiten 379 bis 388, 1998, die einen Ansatz zum Zufallsabtasten von Dokumenten aus einem Korpus von Dokumenten unter Verwendung von lediglich einer öffentlichen Schnittstelle der Suchmaschine beschreiben, das durch eine Suchmaschine indiziert wurde. Zufallsabfragen werden formuliert und einer Suchmaschine übermittelt. Aus den zurückgegebenen Ergebnissätzen werden einheitlich gewählte Dokumente herausgesucht. Um die Zufallsabfragen aufzubauen, wird ein Lexikon aus Begriffen benötigt, die in den Dokumenten des durchsuchten Korpus vorkommen. Jeder Begriff in dem Lexikon ist durch einen Schätzwert seiner Häufigkeit flankiert. Eine Zufallsabfrage wird formuliert, indem Begriffe auf der Grundlage ihrer geschätzten Häufigkeiten und unter Berücksichtigung ihrer Konjunktion oder Disjunktion aus dem Lexikon als Suchbegriffe zufällig ausgewählt werden. Das Lexikon wird in einem Vorverarbeitungsschritt aufgebaut, indem das Korpus von Dokumenten durchlaufen wird.
Die Technik von Bharat und Broder hat den Nachteil, dass lange Dokumente bevorzugt werden, da derartige Dokumente aufgrund ihres reichhaltigeren Inhalts im Allgemeinen viel mehr mit Zufallsabfragen als kürzere Dokumente übereinstimmen. Ein weiteres Problem besteht darin, dass öffentliche Suchmaschinen im Allgemeinen keinen Zugriff auf die vollständige Liste von Ergebnissen eine Abfrage zulassen, sondern vielmehr auf eine vorgegebene maximale Anzahl von Ergebnissen, d.h. auf die ersten N Ergebnisse. Somit tendiert der Bharat-Broder-Ansatz bei Zufallsabfragen mit mehr als N möglichen Ergebnissen einseitig in Richtung von Dokumenten mit einem hohen statischen Rang innerhalb der ersten N Suchergebnisse. Dies ist möglicherweise insbesondere bei Abfragen mit disjunkten Kombinationen aus zufälligen Suchbegriffen der Fall. Um dieses Problem abzumildern, verwendet der Ansatz nach Bharat und Broder geschätzte Begriffshäufigkeiten, um Abfragen zu wählen, die wahrscheinlich nicht mehr als N Ergebnisse zurückgeben. Mit der um Größenordnungen anwachsenden Anzahl von Dokumenten eines Korpus von Dokumenten, die durch eine Suchmaschine indiziert wurden, während N im Allgemeinen konstant gehalten wird, wird diese Lösung zur Abfrageauswahl ineffektiv. Vielmehr ist es unter Umständen nahezu unmöglich, solche Zufallsbegriffe zu finden, dass disjunktive Abfragen, die diese Zufallsbegriffe aufweisen, weniger als N Ergebnisse zurückgeben. Wenn disjunktive Abfragen mit weniger als N Ergebnissen gefunden werden, kann ein Verwenden dieser Abfragen den Nachteil haben, dass nur ein kleiner Teilsatz des Korpus tatsächlich abgetastet wird. Selbst wenn es einfacher ist, konjunktive Abfragen mit weniger als N Ergebnissen aufzubauen, indem die Anzahl von Zufallsbegriffen erhöht wird, aus denen die Abfragen bestehen, erhöht das Verwenden von mehr Zufallsbegriffen die einseitige Tendenz in Richtung längerer Dokumente, insbesondere in Richtung von Dokumenten mit einer großen Vielfalt von Begriffen wie etwa Wörterbücher und Wortlisten.
Selbst im Falle von Modifikationen des Bharat-Broader-Ansatzes, die diese einseitige Tendenz vermeiden, wie etwa der einen, die von Z. Bar-Yossef und M. Gurevich in „Random sampling from a search engine's index“ im Journal of the ACM, Bd. 55, Ausgabe 5, Artikelnr. 24, 2008, beschrieben ist, besteht bei Bharat-Broader nach wie vor der Nachteil, dass es aufwendig ist, eine echte Zufallsabtastung zu erzeugen, insbesondere aus einem mehrsprachigen großen Korpus. Es werden unter Umständen Millionen von Aufrufen einer Suchschnittstelle benötigt, um ein Zufallsabtasten zu erhalten.
KURZDARSTELLUNG
Verschiedene Ausführungsformen stellen ein Verfahren zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine sowie ein Computerprogrammprodukt und ein Computersystem zum Ausführen des Verfahrens bereit, das durch den Gegenstand der Hauptansprüche beschrieben ist. Vorteilhafte Ausführungsformen sind in den Unteransprüchen beschrieben. Ausführungsformen der vorliegenden Erfindung können frei miteinander kombiniert werden, sofern sie sich nicht gegenseitig ausschließen.
Bei einem Aspekt betrifft die Erfindung ein Verfahren zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine. Die Suchmaschine weist einen Suchindex auf, der das Korpus von Dokumenten indiziert. Jedem der Dokumente des Korpus ist ein Zeitstempel zugewiesen.
Das Verfahren weist ein Ermitteln eines Zeitrahmens von Interesse auf. Das eine oder die mehreren Zufallsabtastdokumente werden bereitgestellt. Der Zeitstempel jedes der Zufallsabtastdokumente liegt innerhalb des Zeitrahmens von Interesse.
Das Bereitstellen jedes der Zufallsabtastdokumente weist ein zufälliges Auswählen einer zeitbezogenen Gruppierung (bucket) aus einem Satz von zeitbezogenen Gruppierungen auf. Der Satz von zeitbezogenen Gruppierungen unterteilt den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern. Jede der zeitbezogenen Gruppierungen definiert eines der Zeitfenster. Bei jedem der Zeitfenster erfüllt die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium. Eine Suchabfrage wird an die Suchmaschinenschnittstelle zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex gesendet. Die Suchabfrage definiert eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Als Reaktion auf das Senden der Suchabfrage wird von der Suchmaschinenschnittstelle ein Suchergebnis empfangen. Das Suchergebnis weist einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters auf, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht, wird zufällig ausgewählt.
Gemäß Ausführungsformen weist das Verfahren zum zufälligen Auswählen der zeitbezogenen Gruppierungen ferner ein Ermitteln erster zeitbezogener Gruppierungen eines ersten Teilsatzes des Satzes von zeitbezogenen Gruppierungen unter Verwendung erster Suchabfragen auf. Das Ermitteln jeder der ersten zeitbezogenen Gruppierungen weist ein Auswählen eines ersten Zeitfensters innerhalb des Zeitfensters von Interesse mit einer vordefinierten Breite auf. Eine erste Suchabfrage wird erzeugt, die eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des ersten Zeitfensters definiert. Die erste Suchabfrage wird an die Suchmaschinenschnittstelle zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex gesendet. Als Reaktion auf das Senden der ersten Suchabfrage wird von der Suchmaschinenschnittstelle ein Suchergebnis empfangen. Das erste Suchergebnis weist einen Satz von Dokumenten des Korpus mit Zeitstempeln innerhalb des ersten Zeitfensters auf, der durch die erste Suchabfrage definiert ist. Wenn das empfangene erste Suchergebnis das erste vordefinierte Kriterium bezüglich der Anzahl von Dokumenten erfüllt, die in den zeitbezogenen Gruppierungen enthalten sein müssen, wird die erste zeitbezogene Gruppierung erzeugt, die eine Definition des ersten Zeitfensters aufweist, das durch die erste Suchabfrage verwendet wird. Anderenfalls wird das erste Zeitfenster angepasst und eine weitere Suchabfrage wird unter Verwendung einer angepassten ersten Suchabfrage mit dem angepassten ersten Zeitfenster ausgeführt.
Gemäß Ausführungsformen weist das Verfahren zum zufälligen Auswählen der zeitbezogenen Gruppierungen ferner ein Vorhersagen zweiter zeitbezogener Gruppierungen eines zweiten Teilsatzes des Satzes von zeitbezogenen Gruppierungen auf. Unter Verwendung der ersten zeitbezogenen Gruppierungen definieren die zweiten zeitbezogenen Gruppierungen zweite Zeitfenster innerhalb des vorgegebenen Zeitrahmens, sodass alle der vorhergesagten zweiten Zeitfenster das erste vordefinierte Kriterium erfüllen.
Gemäß Ausführungsformen umfasst das Verfahren ferner ein Prüfen, ob das empfangene Suchergebnis ein zweites vordefiniertes Kriterium bezüglich der Anzahl von Dokumenten erfüllt, aus denen das zweite Suchergebnis besteht. Wenn das zweite vordefinierte Kriterium nicht erfüllt ist, wird die Breite des durch die zweite ausgewählte zeitbezogene Gruppierung definierten Zeitfensters angepasst.
Gemäß Ausführungsformen umfasst das Verfahren ferner ein Durchführen einer statistischen Analyse unter Verwendung des einen oder der mehreren bereitgestellten Dokumente.
Bei einem Aspekt betrifft die Erfindung ein Computerprogrammprodukt, das ein durch einen Computer lesbares nichtflüchtiges Speichermedium aufweist, das darauf verkörperte, durch eine Maschine ausführbare Programmanweisungen enthält, um unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine ein oder mehrere Zufallsabtastdokumente aus einem Korpus von Dokumenten bereitzustellen. Die Suchmaschine weist einen Suchindex auf, der das Korpus von Dokumenten indiziert. Jedem der Dokumente des Korpus ist ein Zeitstempel zugewiesen.
Eine Ausführung der Programmanweisungen durch einen Prozessor eines Computers veranlasst den Prozessor, das Computersystem so zu steuern, dass ein Zeitrahmen von Interesse ermittelt wird. Das eine oder die mehreren Zufallsabtastdokumente werden bereitgestellt. Der Zeitstempel jedes der Zufallsabtastdokumente liegt innerhalb des Zeitrahmens von Interesse.
Das Bereitstellen jedes der Zufallsabtastdokumente weist ein zufälliges Auswählen einer zeitbezogenen Gruppierung (bucket) aus einem Satz von zeitbezogenen Gruppierungen auf. Der Satz von zeitbezogenen Gruppierungen unterteilt den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern. Jede der zeitbezogenen Gruppierungen definiert eines der Zeitfenster. Bei jedem der Zeitfenster erfüllt die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium. Eine Suchabfrage wird an die Suchmaschinenschnittstelle zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex gesendet. Die Suchabfrage definiert eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Als Reaktion auf das Senden der Suchabfrage wird von der Suchmaschinenschnittstelle ein Suchergebnis empfangen. Das Suchergebnis weist einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters auf, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht, wird zufällig ausgewählt.
Bei einem weiteren Aspekt betrifft die Erfindung ein Computersystem zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine. Die Suchmaschine weist einen Suchindex auf, der das Korpus von Dokumenten indiziert. Jedem der Dokumente des Korpus ist ein Zeitstempel zugewiesen. Das Computersystem weist einen Prozessor und einen Hauptspeicher auf, in dem durch eine Maschine ausführbare Programmanweisungen gespeichert sind.
Die Ausführung der Programmanweisungen durch den Prozessor veranlasst den Prozessor, das Computersystem so zu steuern, dass ein Zeitrahmen von Interesse ermittelt wird. Das eine oder die mehreren Zufallsabtastdokumente werden bereitgestellt. Der Zeitstempel jedes der Zufallsabtastdokumente liegt innerhalb des Zeitrahmens von Interesse.
Das Bereitstellen jedes der Zufallsabtastdokumente weist ein zufälliges Auswählen einer zeitbezogenen Gruppierung (bucket) aus einem Satz von zeitbezogenen Gruppierungen auf. Der Satz von zeitbezogenen Gruppierungen unterteilt den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern. Jede der zeitbezogenen Gruppierungen definiert eines der Zeitfenster. Bei jedem der Zeitfenster erfüllt die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium. Eine Suchabfrage wird an die Suchmaschinenschnittstelle zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex gesendet. Die Suchabfrage definiert eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Als Reaktion auf das Senden der Suchabfrage wird von der Suchmaschinenschnittstelle ein Suchergebnis empfangen. Das Suchergebnis weist einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters auf, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist. Eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht, wird zufällig ausgewählt.
Figurenliste
Im Folgenden werden Ausführungsformen der Erfindung lediglich beispielhaft ausführlicher erläutert, wobei Bezug auf die Zeichnungen genommen wird, bei denen:

1 ein Blockschema darstellt, das ein beispielhaftes Computersystem gemäß einer Ausführungsform veranschaulicht,
2 ein Blockschema darstellt, das eine beispielhafte Suchinfrastruktur gemäß einer Ausführungsform veranschaulicht,
3 ein schematisches Diagramm darstellt, das ein beispielhaftes Gruppieren von Dokumenten gemäß einer Ausführungsform veranschaulicht,
4 ein schematisches Flussdiagramm eines beispielhaften Verfahrens zum Bereitstellen eines Zufallsabtastdokuments gemäß einer Ausführungsform darstellt,
5 ein schematisches Flussdiagramm eines beispielhaften Verfahrens zum Ermitteln zeitbezogener Gruppierungen gemäß einer Ausführungsform darstellt, und
6 ein schematisches Flussdiagramm eines beispielhaften Verfahrens zum Ermitteln zeitbezogener Gruppierungen gemäß einer Ausführungsform darstellt.

AUSFÜHRLICHE BESCHREIBUNG
Die Beschreibungen der verschiedenen Ausführungsformen der vorliegenden Erfindung sollen der Veranschaulichung dienen, sind jedoch nicht als vollständig oder auf die Erfindung in der offenbarten Form beschränkt gedacht. Für Fachleute sind viele Modifikationen und Variationen denkbar, ohne dass diese eine Abweichung vom Schutzumfang und Grundgedanken der beschriebenen Ausführungsformen darstellen würden. Die hierin verwendete Terminologie wurde gewählt, um die Grundgedanken der Ausführungsformen, die praktische Anwendung bzw. die technische Verbesserung gegenüber den auf dem Markt vorgefundenen Technologien zu erläutern bzw. anderen mit entsprechenden Fachkenntnissen das Verständnis der hierin offenbarten Ausführungsformen zu ermöglichen.
Ausführungsformen können die vorteilhafte Wirkung haben, dass ein effizientes Verfahren zum Bereitstellen von Zufallsabtastdokumenten aus einem Korpus von Dokumenten bereitgestellt wird, auf den über eine Suchmaschine zugegriffen wird. Im Gegensatz zu bekannten Ansätzen hängen Ausführungsformen nicht von inhaltsbezogenen Suchbegriffen zum Abrufen von Dokumenten ab, sondern vielmehr von zeitbezogenen Suchbegriffen. Die Ergebnisse von Suchabfragen und somit das Abtasten gemäß Ausführungsformen sind sowohl von dem Inhalt als auch von der Länge der Dokumente unabhängig. Mit anderen Worten, es wird ein Ansatz zum Erfassen von Dokumenten bereitgestellt, der sowohl von Dokumentinhalt als auch von der Dokumentgröße unabhängig ist. Somit sind weder ein zusätzlicher Aufwand noch zusätzliche Maßnahmen erforderlich, um zu gewährleisten, dass das Abtasten nicht mit einer einseitigen Tendenz bezüglich des Inhalts oder Größe der Dokumente erfolgt. Ausführungsformen können besonders nützlich für den Fall sein, dass die Dokumente und/oder der Inhalt der Dokumente unterschiedliche Arten aufweisen, wie etwa Dokumente in unterschiedlichen Sprachen oder Formaten oder wie etwa mehrsprachige Dokumente.
Ausführungsformen können die vorteilhafte Wirkung haben, dass ein Zufallsabtasten ermöglicht wird, ohne dass ein direkter Zugriff auf den Suchindex und/oder das Korpus von Dokumenten oder eine Eigentümerschaft an diesen erforderlich ist. Ungeachtet dessen können Ausführungsformen unabhängig von einer beliebigen Rangordnung sein, die durch die Suchmaschine in Bezug auf die Dokumente der Suchergebnisse eingeführt wird.
Bei einem Dokument kann es sich um eine beliebige Art von elektronischer Datei handeln, z.B. um eine Datendatei, um eine Textdatei, um eine Audiodatei, um eine Bilddatei oder um eine Videodatei. Die Zufallsabtastdokumente können zu einer statistischen Analyse an dem Korpus von Dokumenten verwendet werden. Das Abtasten kann verwendet werden, um Eigenschaften der Dokumente des Korpus und/oder Eigenschaften von Merkmalen oder Entitäten abzuschätzen, die durch die Daten beschrieben werden, die durch die Dokumente bereitgestellt werden. Das Verwenden des Abtastens kann den Vorteil haben, dass eine kostengünstigere und schnellere Datensammlung als durch Analysieren jedes Dokuments des Korpus bereitgestellt wird. Jedes einzelne Abtastdokument wird zufällig und gänzlich willkürlich ausgewählt, sodass jedes Dokument des Korpus in einem beliebigen Stadium während des Abtastprozesses dieselbe Wahrscheinlichkeit haben kann, ausgewählt zu werden.
Bei einer Suchmaschine handelt es sich um ein Softwaresystem, das so ausgestaltet ist, dass es in einer systematischen Weise an einem Korpus von Dokumenten eine Suche, z.B. eine Websuche, nach bestimmten Informationen ausführt, die in einer Suchabfrage angegeben sind. Suchergebnisse können in Form einer Liste dargestellt werden, die Dokumente identifiziert, die Suchkriterien erfüllen, die durch die verwendete Suchabfrage definiert sind. Die Liste kann Zeiger, z.B. Verknüpfungen, zu den jeweiligen Dokumenten des Korpus aufweisen. Eine Suchmaschine kann ferner so konfiguriert sein, dass sie das Korpus von Dokumenten durchläuft und/oder indiziert. Das Indizieren kann ein Sammeln, syntaktisches Analysieren (parsing) und Speichern von Daten in Form eines Index aufweisen, um einen schnellen und exakten Abruf von Informationen zu erleichtern. Der Index kann Zeiger auf jedes der Dokumente des Korpus aufweisen.
Ausführungsformen können verwendet werden, um eine Risikobeurteilung für ein Korpus von Dokumenten wie etwa eine große Cloud-Datenquelle darüber bereitzustellen, wie hoch das Risiko ist, dass eine bestimmte Art von Daten, z.B. sensible Daten, in dem Korpus vorliegt. Falls es sich bei den Dokumenten um Datendateien handelt, kann eine statistische Datenanalyse durchgeführt werden. Somit kann ein Auftreten bestimmter Ereignisse oder eines Zustands in einem System wie etwa in einer Produktionseinrichtung oder in einem Computersystem festgestellt werden. Die Ergebnisse einer derartigen statistischen Analyse können verwendet werden, um Maßnahmen festzulegen, die ergriffen werden müssen, um ein Risiko zu verhindern und/oder ein Problem zu lösen. Die Ergebnisse können zur Instandhaltung, d.h. zu Servicearbeiten, zum Instandsetzen und/oder Austauschen notwendiger Einheiten, Ausrüstungen, Maschinen, Gebäudeinfrastruktur und Versorgungseinrichtungen verwendet werden. Ergebnisse können insbesondere zur vorausschauenden Instandhaltung verwendet werden.
Gemäß Ausführungsformen wird über ein Netzwerk wie etwa ein Intranet oder das Internet auf die Suchmaschinenschnittstelle zugegriffen. Unstrukturierte Daten wie etwa über das World Wide Web, das auch als „Web“ bezeichnet wird, bereitgestellte Daten nehmen rasch zu und das Verwalten der Daten wird immer mehr zu einem Problem. Um eine effiziente Ausführung von Abfragen an unstrukturierten Daten zu ermöglichen, werden Suchindizes verwendet. Erzeugen und Aufrechterhalten eines Suchindex an einem großen Satz von unstrukturierten Daten, insbesondere an einem rasch zunehmenden Satz, kann komplex, zeitraubend und aufwendig sein. Derzeit gibt es Anwendungen wie etwa Share Point oder Cloud-Datenquellen, z.B. Dropbox^®, OneDrive^®, Google Drive^® usw., die diese Fähigkeit standardmäßig bereitstellen. Unter Umständen ist es jedoch nicht möglich, alle Dokumente eines Index innerhalb eines angemessenen Zeitraums zu analysieren, insbesondere dann nicht, wenn der Index Millionen von Dokumenten enthält und an dem Index ausführbare Operationen zeitlichen Einschränkungen unterliegen, z.B. aufgrund der Datenschutz-Grundverordnung (DSGVO). Um schnellere und/oder effizientere Entscheidungen treffen zu können, kann es ausreichen, nur einen kleinen repräsentativen Abschnitt eines großen Datensatzes unter Verwendung statistischer Verfahren zu untersuchen, um eine angemessene Schlussfolgerung über den gesamten Datensatz, d.h. das Korpus von Dokumenten, zu ziehen. Um jedoch in der Lage zu sein, Zufallsdokumente zur statistischen Analyse abzurufen, ist im Allgemeinen ein uneingeschränkter Zugriff auf den gesamten Datensatz erforderlich, um eine echte Zufallsabtastung bereitstellen zu können. Falls auf den Datensatz unter Verwendung eines Suchindex zugegriffen wird, ist ein uneingeschränkter Zugriff auf den Suchindex erforderlich. Ein derartiger uneingeschränkter Zugriff auf den Suchindex ist jedoch im Allgemeinen dessen Eigentümer vorbehalten. Ausführungsformen können die vorteilhafte Wirkung haben, dass sie eine Erzeugung einer echten Zufallsabtastung unter Verwendung einer bestehenden, z.B. öffentlichen, Suchmaschinenschnittstelle selbst im Falle eines eingeschränkten Zugriffs ermöglichen.
Ausführungsformen können die vorteilhafte Wirkung haben, dass eine Zufallsabtastung bereitgestellt wird, die es einer Anwendung ermöglicht, die z.B. auf einer Client-Einheit bereitgestellt ist, eine statistische Analyse unter Verwendung der Zufallsabtastung durchzuführen. Arten von Anwendungen, die möglicherweise eine Zufallsabtastung zur statistischen Analyse benötigen, weisen Anwendungen auf, die im Kontext von DSGVO oder der Bewertung sensibler Daten arbeiten. Die Zufallsabtastung kann z.B. verwendet werden, um zu prüfen, ob ein großes Dokumentkorpus frei von sensiblen Daten ist, wie etwa Kreditkartennummern, Geburtsdaten, Sozialversicherungsnummern usw. Bei anderen Arten von Anwendungen handelt es sich um Anwendungen zur Risikobeurteilung, die den Inhalt eines großen Datensatzes unter Verwendung einer kleinen Zufallsabtastung, d.h. eines Teilsatzes von Daten, auf beliebige Arten von Risiken prüfen.
Eine Gruppierung definiert einen Satz oder einen Bereich von Parametern, die zum Auswählen von Dokumenten verwendet werden, die Parameterwerte innerhalb des definierten Bereichs aufweisen. Eine zeitbezogene Gruppierung definiert einen Bereich eines zeitbezogenen Parameters, d.h. eine Zeitangabe, der zum Auswählen von Dokumenten verwendet wird, die Zeitangaben innerhalb des definierten Bereichs, d.h. ein Zeitfenster, aufweisen. Somit kann ein Satz von zeitbezogenen Gruppierungen einen Zeitrahmen eines Korpus in eine Mehrzahl von Zeitfenstern unterteilen, wobei jedes Zeitfenster einen Teilsatz von Dokumenten des Korpus mit Zeitangaben innerhalb des jeweiligen Zeitfensters aufweist.
Gemäß Ausführungsformen beruht die Definition der zeitbezogenen Gruppierungen auf einer Zeitangabe, die jedem Dokument zugewiesen ist, z.B. auf einem Erstellungszeitpunkt des Dokuments, einem Veröffentlichungszeitpunkt oder einem Zeitpunkt der letzten Änderung. Im Gegensatz hierzu beruht die Definition von begriffsbezogenen Gruppierungen auf lexikalischen Begriffen und/oder auf Kombinationen von lexikalischen Begriffen, aus denen die Dokumente bestehen, d.h. aus dem Inhalt des Dokuments. Ausführungsformen können die vorteilhafte Wirkung haben, dass Gruppierungen, sobald sie festgelegt sind, z.B. auf der Grundlage des Erstellungszeitpunkts oder Veröffentlichungszeitpunkts von Dokumenten, über die Zeit stabil sein können oder außerhalb der Suchmaschine fortbestehen können. Angenommen, dass Dokumente zu dem Korpus hinzugefügt und durch die Suchmaschine nach Erstellung oder Veröffentlichung indiziert werden, können Änderungen an dem Korpus auf einen jüngst zurückliegenden Zeitraum begrenzt werden. Der Bestand an älteren Dokumenten kann konstant bleiben, und somit können beliebige Definitionen von Gruppierungen für diese Dokumente gültig bleiben. Des Weiteren sind möglicherweise viel weniger Abfragen erforderlich, um eine Zufallsabtastung zu erhalten, was die Belastung der Suchmaschine verringern und somit ein schnelleres Ermitteln von Zufallsabtastdokumenten gewährleisten kann.
Gemäß Ausführungsformen kann ein bestimmtes Korpus von Dokumenten gruppiert werden, d.h., das Korpus wird in eine Mehrzahl von Gruppierungen unterteilt. Beim Zufallsabtasten kann eine Gruppierung aus dieser Mehrzahl von Gruppierungen zufällig herausgesucht werden, und ein Dokument kann aus der zufällig herausgesuchten Gruppierung zufällig ausgewählt werden.
Gemäß Ausführungsformen können die Gruppierungen die folgenden Anforderungen erfüllen: Die Anzahl von Dokumenten pro Gruppierung, d.h. die Größe der Gruppierungen, kann kleiner als ein Grenzwert der Anzahl von Ergebnissen sein, der durch die Suchmaschine in Bezug auf die Suchergebnisse eingeführt wird. Zeitbezogene Gruppierungen derselben Größe können Zeitfenster unterschiedlicher Größe für den Fall definieren, dass sich die Dichte von Dokumenten innerhalb der jeweiligen Zeitfenster voneinander unterscheidet. Alle Gruppierungen können dieselbe Größe haben, sodass jedes Dokument in dem Korpus von Dokumenten dieselbe Chance hat, zufällig ausgewählt zu werden. Falls die Gruppierungen unterschiedliche Größen haben, kann eine zusätzliche Verarbeitung ausgeführt werden, um sicherzustellen, dass jede dieselbe Chance hat, zufällig herausgesucht zu werden. Beim zufälligen Auswählen eines der Dokumente einer Gruppierung kann ein zusätzliches Ablehnungsabtasten durchgeführt werden, um die mathematische Korrektheit des Abtastprozesses sicherzustellen.
Bei einer Zielverteilung d₁, die nur schwer direkt abzutasten ist, kann ein Ablehnungsabtasten eine einfach abzutastende Probeverteilung d₂ verwenden, wobei Abtastungen aus d₂ genutzt werden, um das Abtasten aus d₁ zu simulieren. Abtastungen werden wiederholt aus einer Probeverteilung d₂ erzeugt, bis eine Abtastung akzeptiert ist. Um zu entscheiden, ob eine Abtastung X akzeptiert ist, wird eine Akzeptanz-Ablehnung-Prozedur angewendet. Die Akzeptanz-Ablehnung akzeptiert die Abtastung X mit einer Akzeptanzwahrscheinlichkeit p_RS, die als „Akzeptanzfunktion“ bezeichnet wird. Das Akzeptanzabtasten verwendet eine Akzeptanz-Ablehnung-Prozedur, um die Lücke zwischen d₂ und d₁ zu überbrücken. Wenn es sich bei d₁ um eine einheitliche Verteilung und bei d₂ um eine uneinheitliche Verteilung handelt, weist die Akzeptanz-Ablehnung-Prozedur Instanzen mit niedrigen Wahrscheinlichkeiten in d₂ niedrige Akzeptanzwahrscheinlichkeiten und Instanzen mit hohen Wahrscheinlichkeiten in d₂ hohe Akzeptanzwahrscheinlichkeiten zu. Somit glättet die Akzeptanz-Ablehnung-Prozedur die Verteilung d₂, sodass es sich bei beliebigen d₁ und d₂ bei der Verteilung der akzeptierten Abtastungen um exakt die Zielverteilung d₁ handelt.
Ausführungsformen können die vorteilhafte Wirkung haben, dass die Gruppierungen mit einer kleinen Anzahl von Abfragen ermittelt werden. Vorzugsweise werden die Gruppierungen mit so wenigen Abfragen wie möglich ermittelt, da jede Abfrage eine Last für die Suchmaschine bedeutet und einige Suchmaschinenbegrenzungen der Abfragequote haben. Das bedeutet, dass die Anzahl von Abfragen begrenzt ist, die pro vordefiniertem Zeitintervall zulässig sind.
Ausführungsformen können die vorteilhafte Wirkung haben, dass die ersten zeitbezogenen Gruppierungen, d.h. unter Verwendung von Suchabfragen ermittelte zeitbezogene Gruppierungen, verwendet werden können, um weitere zeitbezogene Gruppierungen zu ermitteln, d.h. die zweiten zeitbezogenen Gruppierungen. Nicht alle zeitbezogenen Gruppierungen des Satzes von zeitbezogenen Gruppierungen, die den Zeitrahmen von Interesse unterteilen, müssen unter Verwendung von Suchabfragen ermittelt werden. Lediglich die ersten zeitbezogenen Gruppierungen, d.h. ein Teilsatz des Satzes von zeitbezogenen Gruppierungen, werden unter Verwendung von Suchabfragen ermittelt. Somit kann die Anzahl von Suchabfragen minimiert werden, die an die Suchmaschine gesendet werden müssen. Die ersten zeitbezogenen Gruppierungen können über den Zeitrahmen von Interesse verteilt sein, z.B. gleichmäßig oder zufällig. Gemäß Ausführungsformen können vorhergesagte zeitbezogene Gruppierungen verwendet werden, z.B. nachdem sie erfolgreich auf Genauigkeit getestet wurden, um weitere zeitbezogene Gruppierungen vorherzusagen. Gemäß Ausführungsformen müssen die vorhergesagten zeitbezogenen Gruppierungen unter Umständen ein zweites vordefiniertes Kriterium erfüllen, um zu weiteren Vorhersagen verwendet zu werden.
Ausführungsformen können die vorteilhafte Wirkung haben, dass durch Prüfen während des Zufallsabtastens, ob die empfangenen Prüfergebnisse das zweite vordefinierte Kriterium erfüllen, das Ermitteln von zeitbezogenen Gruppierungen verbessert werden kann. Zum Beispiel können die zeitbezogenen Gruppierungen verbessert werden. Somit kann die Qualität der Vorhersage der zweiten zeitbezogenen Gruppierungen bei Bedarf geprüft und verbessert werden. Zum Beispiel kann ein zur Vorhersage der zweiten zeitbezogenen Gruppierungen verwendetes Modell wie z.B. ein Maschinenlernmodell verbessert werden. Im Falle eines Maschinenlernmodells kann das Maschinenlernmodell unter Verwendung der verbesserten zeitbezogenen Gruppierungen als zusätzliche Trainingsdaten erneut trainiert werden. Gemäß Ausführungsformen können das erste und das zweite vordefinierte Kriterium identisch sein. Gemäß Ausführungsformen können das erste und das zweite vordefinierte Kriterium unterschiedlich sein.
Gemäß Ausführungsformen wird der Algorithmus zum Erstellen des Gruppierens in einer anfänglichen Gruppierungsphase optimiert, um so wenige Abfragen wie möglich zu verwenden. Die Optimierung kann das Ermitteln der ersten zeitbezogenen Gruppierungen und/oder das Prüfen des Suchergebnisses während des Abtastens aufweisen. Gemäß Ausführungsformen können die zeitbezogenen Gruppierungen während des Abrufens von Zufallsabtastdokumenten aus der Suchmaschine über die Zeit weiter optimiert werden, um eine bessere Verteilung zu erhalten, z.B. durch das Prüfen des Suchergebnisses. Ausführungsformen können die vorteilhafte Wirkung haben, dass ein Verbessern der Definition eines durch die zeitbezogenen Gruppierungen bereitgestellten Zeitfensters ermöglicht wird, aus dem ein Zufallsdokument abgerufen wird. Ausführungsformen können die vorteilhafte Wirkung haben, dass eine bessere Leistung und eine geringere Abfragelast der Suchinfrastruktur sichergestellt wird.
Gemäß Ausführungsformen definiert das zweite vordefinierte Kriterium eine Anzahl von Dokumenten, mit der die Anzahl von Dokumenten übereinstimmen muss, aus denen das Suchergebnis besteht. Ausführungsformen können die vorteilhafte Wirkung haben, dass sichergestellt wird, dass alle zum Zufallsabtasten verwendeten zeitbezogenen Gruppierungen Suchergebnisse bereitstellen, die dieselbe Anzahl von Dokumenten aufweisen.
Gemäß Ausführungsformen definiert das zweite vordefinierte Kriterium einen Bereich von Anzahlen von Dokumenten, aus denen das Suchergebnis bestehen muss. Ausführungsformen können die vorteilhafte Wirkung haben, dass sichergestellt wird, dass alle zum Zufallsabtasten verwendeten zeitbezogenen Gruppierungen Suchergebnisse mit Anzahlen von Dokumenten innerhalb desselben Bereichs bereitstellen.
Gemäß Ausführungsformen weist das Anpassen des Zeitfensters ein Anpassen der Breite des Zeitfensters auf. Die Breite des Zeitfensters wird verringert, wenn die Anzahl von Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters zu groß ist, um das zweite vordefinierte Kriterium zu erfüllen, wohingegen die Breite des Zeitfensters vergrößert wird, wenn die Anzahl des Korpus mit Zeitstempeln innerhalb des Zeitfensters zu klein ist, um das zweite Suchkriterium zu erfüllen. Ausführungsformen können die vorteilhafte Wirkung haben, dass eine effiziente Möglichkeit zum Anpassen der Anzahl von Dokumenten bereitgestellt wird, die durch Suchergebnisse auf der Grundlage von zeitbezogenen Gruppierungen bereitgestellt werden, sodass jedes Suchergebnis das zweite vordefinierte Suchkriterium erfüllt.
Gemäß Ausführungsformen weist das Verfahren ferner in Abhängigkeit von dem Anpassen des Zeitfensters, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, ein Anpassen mindestens der Zeitfenster auf, die durch zeitbezogene Gruppierungen benachbart zu der zufällig ausgewählten zeitbezogenen Gruppierung definiert sind. Ausführungsformen können die vorteilhafte Wirkung haben, dass ferner zeitbezogene Gruppierungen benachbart zu der zufällig ausgewählten zeitbezogenen Gruppierung angepasst werden. Somit sind die Anpassungen nicht auf eine einzige zeitbezogene Gruppierung beschränkt sondern können sich auf weitere zeitbezogene Gruppierungen auswirken. Falls die Breite des Zeitfensters der zufällig ausgewählten zeitbezogenen Gruppierung verringert wird, müssen die Breiten der Zeitfenster der einen oder der mehreren benachbarten zeitbezogenen Gruppierungen möglicherweise ebenfalls angepasst werden, um zu sicherzustellen, dass der volle Zeitrahmen von Interesse durch die Zeitfenster überdeckt wird, die durch die zeitbezogenen Gruppierungen definiert sind, und/oder um sicherzustellen, dass Suchergebnisse auf der Grundlage der benachbarten zeitbezogenen Gruppierungen nach wie vor das zweite vordefinierte Kriterium erfüllen. Falls die Breite des Zeitfensters der zufällig ausgewählten zeitbezogenen Gruppierung vergrößert wird, müssen die Breiten der Zeitfenster der einen oder der mehreren benachbarten zeitbezogenen Gruppierungen möglicherweise verkleinert werden, um überlappende Zeitfenster zu vermeiden. Falls die Breite des Zeitfensters der zufällig ausgewählten zeitbezogenen Gruppierung verkleinert wird, müssen die Breiten der Zeitfenster der einen oder der mehreren benachbarten zeitbezogenen Gruppierungen möglicherweise vergrößert werden, um eine volle Überdeckung des Zeitfensters von Interesse sicherzustellen. Des Weiteren kann ein Verkleinern oder Vergrößern einer benachbarten zeitbezogenen Gruppierung einen weiteren Ausgleich erfordern, d.h. Vergrößern oder Verkleinern, um sicherzustellen, dass das zweite vordefinierte Kriterium nach wie vor erfüllt wird.
Verschiedene algorithmische Realisierungsformen einer effizienten Erstellung von zeitbezogenen Gruppierungen können möglich sein. Bei den hierin beschriebenen Algorithmen handelt es sich lediglich um beispielhafte Algorithmen, obwohl die Erfindung nicht auf diese Algorithmen beschränkt ist.
Gemäß Ausführungsformen können ein oder mehrere der folgenden Hauptmerkmale des durch die Suchmaschine indizierten Korpus von Dokumenten erfasst werden: eine Gesamtzahl der Dokumente, aus denen das Korpus besteht, eine älteste Zeitangabe, die einem der Dokumente zugewiesen ist, aus denen das Korpus besteht, eine jüngste Zeitangabe, die einem der Dokumente des Korpus zugewiesen ist. Die Gesamtzahl von Dokumenten kann entweder in Form einer tatsächlichen Anzahl von Dokumenten, aus denen das Korpus aktuell besteht, oder in Form einer geschätzten Anzahl bereitgestellt werden. Das Identifizieren der ältesten Zeitangabe kann ein Abrufen des ältesten Dokuments aufweisen, das in dem Korpus enthalten ist, z.B. des Dokuments, dem das älteste Erstellungsdatum und/oder das älteste Veröffentlichungsdatum zugewiesen ist. Das Identifizieren der jüngsten Zeitangabe kann ein Abrufen des jüngsten Dokuments aufweisen, das in dem Korpus enthalten ist, z.B. des Dokuments, dem das jüngste Erstellungsdatum und/oder das jüngste Veröffentlichungsdatum zugewiesen ist. Zum Erfassen der vorstehend erwähnten Hauptmerkmale wie etwa dem Abrufen des ältesten und des jüngsten Dokuments können je nach den Fähigkeiten der Suchmaschine geeignete Abfragen verwendet werden.
Ein Muster eines Pseudo-Algorithmus, der beispielhaft durch maschinelles Lernen unterstützt wird, kann Folgendes aufweisen:

Gewünschte_Genauigkeit festlegen = N1 (gewünschte Genauigkeit ist der Schwellenwert, der bei Erreichen ermöglicht, den Prozess zu beenden. Genauigkeit in diesem Kontext kann als Qualitätsmaß eines ML-Modells angesehen werden. Nach einer Trainings- bzw. Testaufteilung des gekennzeichneten Datensatzes, z.B. des ersten Teilsatzes von zeitbezogenen Gruppierungen und der Anzahlen von Dokumenten, die in den ersten zeitbezogenen Dokumenten enthalten sind, wird das ML-Modell trainiert, indem die Trainingssätze verwendet werden, die sich aus der Aufteilung ergeben, und abgefragt, um Voraussagen von Anzahlen von Dokumenten in zeitbezogenen Gruppierungen von Testsätzen vorherzusagen, die sich aus der Aufteilung ergeben. Die Anzahl von Dokumenten, die in den korrekten Vorhersagen enthalten sind, kann gezählt (mit einer bestimmten Toleranz für eine Standardabweichung oder einer anderen Art von Fehlermessung) und durch die Gesamtzahl von Dokumenten in den Testsätzen dividiert werden. Zum Beispiel N1= 90);
Max_Iterationen festlegen = N2 (definiert die maximale Anzahl von Iterationen, die zum Extrahieren von Gruppierungen ausgeführt werden, bevor maschinelles Lernen unter Verwendung der extrahierten Gruppierungen ausgeführt wird, z.B. N2 = 50);
Max_Abfragen festlegen = N3 (definiert die maximale Anzahl von Fragen, die Pro Iteration zum Extrahieren einer Gruppierung ausgeführt werden, z.B. N3 = 100);
Gruppierung Größe_festlegen = N4 (definiert die vorgesehene Anzahl von Dokumenten pro Gruppierung, z.B. N4 = 20);
Gruppierungsbreiten ={} (initialisiert ein leeres Wörterbuch von Gruppierungsbreiten, wobei es sich bei Schlüsseln eines Wörterbuchs von Gruppierungsbreiten um Zeitstempel handelt und es sich bei Werten um Zeitintervalle handelt, d.h. Zeitfenster, die den jeweiligen Zeitstempel aufweisen, für den eine Anzahl von ,Gruppierungsgröße‘ Dokumenten abgerufen wird, wenn das jeweilige Zeitintervall als Suchparameter einer Suchabfrage zum Auswählen von Dokumenten aus dem Korpus verwendet wird);
Gruppierungsbreite mit einem bestimmten Zeitstempel kalibrieren { Gruppierungsbreite (z.B. in Minuten) = T, wenn Gruppierungsbreite leer ist, z.B. T = 60; anderenfalls wird der Wert der Gruppierungsbreite ermittelt, die dem nahesten Zeitstempel aus Gruppierungsbreiten zugewiesen ist } Während max_Iterationen nicht überschritten ist { Während max_Abfragen nicht überschritten ist { einen zufälligen Zeitstempel innerhalb eines vordefinierten Zeitrahmens erzeugen (der Zeitrahmen kann durch den ältesten und den jüngsten Zeitstempel begrenzt sein, der Dokumenten zugewiesen ist, die in dem Korpus enthalten sind); eine Abfrage mit dem Zeitstempel und Zeitfenster=kalibrieren() unter Verwendung des zufälligen Zeitstempels erzeugen; die Abfrage ausführen und die Anzahl von Dokumenten in dem angegebenen Zeitfenster=kalibrieren() unter Verwendung des zufälligen Zeitstempels herausfinden; ein Zeitintervall ermitteln, das den zufälligen Zeitstempel aufweist, für den eine Anzahl von ,Gruppierungsgröße' Dokumenten abgerufen wird; } Das Gruppierungsbreiten-Wörterbuch mit dem zufälligen Zeitstempel und dem ermittelten Zeitintervall aktualisieren; }
Die Genauigkeit des Modells berechnen, z.B. mit einem LSTM oder einem polynomialen Regressionsalgorithmus, wobei Merkmale wie z.B. Offset, Tag des Jahres, Wochentag, Tageszeit verwendet werden;
Wenn Genauigkeit > gewünschte_Genauigkeit, stoppen.

Gemäß Ausführungsformen gibt bei jedem der Dokumente der Zeitstempel des jeweiligen Dokuments eine Erzeugungszeit, eine Veröffentlichungszeit oder eine Zeit einer jüngsten Änderung des jeweiligen Dokuments an. Gemäß Ausführungsformen weist jedes Dokument einen dem jeweiligen Dokument zugewiesenen Zeitstempel auf.
Gemäß Ausführungsformen weisen die Definitionen der Zeitfenster durch die zeitbezogenen Gruppierungen eine Zeitangabe innerhalb des Zeitfensters auf, z.B. einen Zeitpunkt und eine Breite des Zeitfensters. Bei der Zeitangabe kann es sich um einen einzelnen Zeitpunkt handeln, wie etwa durch einen Zeitstempel bereitgestellt, der digitale Datums- und Uhrzeitinformationen aufweist. Die Uhrzeitinformationen können Stunden, Minuten und/oder Sekunden aufweisen. Gemäß Ausführungsformen kann die Zeitangabe in Form eines Tages des Jahres, eines Wochentages, einer Tageszeit bereitgestellt sein. Gemäß Ausführungsformen kann die Zeitangabe in Form eines Offsets ab der gegenwärtigen Uhrzeit und/oder ab einem gegenwärtigen Datum bereitgestellt sein.
Gemäß Ausführungsformen definiert die Zeitangabe einen Startpunkt des Zeitfensters. Gemäß Ausführungsformen definiert die Zeitangabe einen Endpunkt des Zeitfensters. Gemäß Ausführungsformen definiert die Zeitangabe einen Mittelpunkt des Zeitfensters.
Gemäß Ausführungsformen stellt das erste vordefinierte Kriterium eine vordefinierte Anzahl von Dokumenten bereit, mit der Übereinstimmung bestehen muss. Ausführungsformen können die vorteilhafte Wirkung haben, dass sichergestellt wird, dass das Korpus für jedes der Zeitfenster dieselbe Anzahl von Dokumenten mit Zeitstempeln innerhalb des jeweiligen Zeitfensters aufweist. Gemäß Ausführungsformen stellt das erste vordefinierte Kriterium einen vordefinierten Bereich von Anzahlen von Dokumenten bereit, mit denen Übereinstimmung bestehen muss. Ausführungsformen können die vorteilhafte Wirkung haben, dass sichergestellt wird, dass das Korpus für jedes der Zeitfenster eine Anzahl von Dokumenten mit Zeitstempeln innerhalb des jeweiligen Zeitfensters aufweist, sodass alle Anzahlen von Dokumenten innerhalb desselben Bereichs liegen. Mit anderen Worten, Unterschiede bezüglich der Anzahl von Dokumenten sind bei den unterschiedlichen zeitbezogenen Gruppierungen begrenzt.
Gemäß Ausführungsformen umfasst das Verfahren ferner ein Ermitteln einer Gesamtzahl von Dokumenten, die in dem Korpus enthalten sind. Gemäß Ausführungsformen wird die Gesamtzahl von in dem Korpus enthaltenen Dokumenten von der Suchmaschinenschnittstelle aus abgefragt. Gemäß Ausführungsformen wird die Gesamtzahl von in dem Korpus enthaltenen Dokumenten geschätzt, indem Suchabfragen verwendet werden, die eine Kombination aus zufälligen Suchbegriffen aufweisen, die in den Dokumenten des Korpus enthalten sind. Ausführungsformen können die vorteilhafte Wirkung haben, dass die Gesamtzahl von in dem Korpus enthaltenen Dokumenten zum Auswählen der Anzahl von ersten zeitbezogenen Gruppierungen verwendet werden kann, d.h. Iterationen, die ermittelt werden müssen, um eine geeignete exakte Vorhersage weiterer zeitbezogener Gruppierungen zu ermöglichen. Je größer die Gesamtzahl, desto mehr erste zeitbezogene Gruppierungen sind möglicherweise erforderlich, um eine geeignet exakte Vorhersage der zweiten zeitbezogenen Gruppierungen sicherzustellen. Je kleiner die Gesamtzahl, desto weniger erste zeitbezogene Gruppierungen sind möglicherweise erforderlich, um eine geeignet exakte Vorhersage der zweiten zeitbezogenen Gruppierungen sicherzustellen.
Die Gesamtzahl von Dokumenten, die in einem indizierten Korpus von Dokumenten enthalten sind, kann zum Beispiel über eine API der Suchmaschine bereitgestellt oder auf der Grundlage von Abtastungsabfragen geschätzt werden, wie z.B. beschrieben von Z. Bar-Yossef und M. Gurevich: Random sampling from a search engine's index, Journal of the ACM, Bd. 55, Ausgabe 5, Artikelnr. 24, 2008, von Z. Bar-Yossef und M. Gurevich: Efficient search engine measurements, Proceedings of the 16th International World Wide Web Conference (WWW), Seiten 401 bis 410, 2007, oder von A. Broder, M. Fontoura, V. Josifovski, R. Kumar, R. Motwani, S. Nabar, R. Panigrahy, A. Tomkins und Y. Xu: Estimating corpus size via queries, Proceedings of CIKM, 2006, Seiten 594 bis 630.
Gemäß Ausführungsformen weist das Ermitteln des Zeitrahmens von Interesse ein Ermitteln eines ältesten Zeitstempels auf, der den Dokumenten des Korpus zugewiesen ist. Des Weiteren wird ein jüngster Zeitstempel ermittelt, der den Dokumenten des Korpus zugewiesen ist. Der Zeitrahmen von Interesse wird aus dem Zeitintervall ausgewählt, das durch den ältesten und den jüngsten Zeitstempel überspannt wird. Ausführungsformen können die vorteilhafte Wirkung haben, dass ein Verfahren zum Ermitteln einer maximalen Größe für den Zeitrahmen von Interesse bereitgestellt wird, d.h. das Zeitintervall, das durch den ältesten und den jüngsten Zeitstempel überspannt wird.
Zum Identifizieren des in dem Korpus enthaltenen älteren Dokuments und somit der ältesten Zeitangabe, die einem der Dokumente zugewiesen ist, können Abtastabfragen verwendet werden. Des Weiteren können ein Sondieren von Zeitrahmen, ein zeitliches Sortieren und/oder Ergebnisuntersuchungen verwendet werden. Das jüngste Dokument und somit die jüngste Zeitangabe, die einem der Dokumente zugewiesen ist, kann unter Verwendung von Abtastabfragen identifiziert werden. Des Weiteren können ein Sondieren von Zeitrahmen, ein zeitliches Sortieren und/oder Ergebnisuntersuchungen verwendet werden.
Gemäß Ausführungsformen kann der Zeitrahmen von Interesse gleich dem Zeitintervall sein, das durch den ältesten und den jüngsten Zeitstempel überspannt wird. Ausführungsformen können die vorteilhafte Wirkung haben, dass die für den Zeitrahmen von Interesse mögliche maximale Größe verwendet wird. Gemäß Ausführungsformen ist der Zeitrahmen von Interesse kürzer als das Zeitintervall, das durch den ältesten und den jüngsten Zeitstempel überspannt wird. Ausführungsformen können die vorteilhafte Wirkung haben, dass eine Verwendung eines Zeitrahmen von Interesse ermöglicht, der aus dem Zeitintervall ausgewählt ist, das durch den ältesten und den jüngsten Zeitstempel überspannt wird. Ein derartiger kürzerer Zeitrahmen von Interesse kann weniger Berechnungsaufwand zum Gruppieren erfordern. Das Gruppieren des Korpus von Dokumenten kann auf einen bestimmten Zeitrahmen von Interesse beschränkt sein, d.h., nur ein Teilsatz von Dokumenten des Korpus, denen ein Zeitstempel innerhalb des jeweiligen Zeitrahmens zugewiesen ist, muss möglicherweise beim Gruppieren berücksichtigt werden. Zum Beispiel können nur Dokumente aus den letzten 10 Jahren berücksichtigt werden. Der Zeitrahmen von Interesse kann durch die Anwendung definiert werden, die die statistische Analyse durchführt. Der Zeitrahmen von Interesse kann von der durchzuführenden statistischen Analyse abhängen.
Gemäß Ausführungsformen wird das Anpassen des ersten Zeitfensters und das Ausführen einer weiteren Suchabfrage mit einer angepassten ersten Suchabfrage mit dem angepassten ersten Zeitfenster wiederholt, bis entweder das erste Suchergebnis der weiteren Suche das erste vordefinierte Kriterium erfüllt oder eine vordefinierte maximale Anzahl von Wiederholungen erreicht ist. Ausführungsformen können die vorteilhafte Wirkung haben, dass sichergestellt wird, dass erste Zeitfenster für die ersten zeitbezogenen Gruppierungen ermittelt werden, die das erste vordefinierte Kriterium erfüllen, während zu viele Wiederholungen, d.h. Suchabfragen, vermieden werden. Falls eine vordefinierte maximale Anzahl von Wiederholungen erreicht ist, kann das erste Zeitfenster abgelehnt werden, das das erste vordefinierte Kriterium nicht erfüllt, und ein weiteres erstes Zeitfenster kann ausgewählt werden.
Gemäß Ausführungsformen können die ersten Zeitfenster zufällig ausgewählt werden. Gemäß Ausführungsformen können die ausgewählten ersten Zeitfenster gleichmäßig über den Zeitrahmen von Interesse verteilt sein.
Gemäß Ausführungsformen ist eine maximale Anzahl von in den Suchergebnissen enthaltenen Dokumenten durch einen Ergebnisanzahlgrenzwert begrenzt, der durch die Suchmaschine definiert ist. Somit kann das Suchmaschinenergebnis einer Einschränkung unterliegen, die die maximale Anzahl von Dokumenten begrenzt, die bei einer Suchabfrage zurückgegeben werden. Ein Ergebnis, das durch eine Suchmaschine als Antwort auf eine Suchabfrage bereitgestellt wird, kann nur einen kleinen Teilsatz aller Dokumente aufweisen, die tatsächlich die Suchparameter erfüllen, die für die Suchabfrage definiert sind.
Gemäß Ausführungsformen kann das Verfahren ein Ermitteln des Ergebnisanzahlgrenzwertes der Suchmaschine aufweisen. Das erste vordefinierte Kriterium kann so definiert sein, dass die Anzahl von Dokumenten, die in dem Suchergebnis enthalten sind, kleiner als der Ergebnisanzahlgrenzwert sein muss, um das erste vordefinierte Kriterium erfüllen zu können. Gemäß Ausführungsformen wird der durch die Suchmaschine definierte Ergebnisanzahlgrenzwert von der Suchmaschinenschnittstelle aus abgefragt. Gemäß Ausführungsformen wird der durch die Suchmaschine definierte Ergebnisanzahlgrenzwert unter Verwendung von Testsuchabfragen ermittelt. Der Ergebnisanzahlgrenzwert kann in der Größenordnung von 100 Dokumenten liegen, z.B. 250, 500, 750 oder mehr Dokumente, z.B. 1000 Dokumente betragen.
Ausführungsformen können die vorteilhafte Wirkung haben, dass sichergestellt wird, dass eine unter Verwendung einer zeitbezogenen Gruppierung erzeugte Suchabfrage ein Suchergebnis bereitstellt, das alle Dokumente des Korpus mit einem Zeitstempel innerhalb des Zeitfensters der verwendeten zeitbezogenen Gruppierung aufweist.
Gemäß Ausführungsformen weist das Anpassen des ersten Zeitfensters ein Anpassen der Breite des ersten Zeitfensters auf. Die Breite des Zeitfensters wird verringert, wenn die Anzahl von Dokumenten des Korpus, denen Zeitstempel innerhalb des ersten Zeitfensters zugewiesen sind, zu groß ist, sodass das Suchergebnis das erste vordefinierte Kriterium nicht erfüllt, wohingegen die Breite des Zeitfensters vergrößert wird, wenn die Anzahl von Dokumenten des Korpus, denen Zeitstempel innerhalb des ersten Zeitfensters zugewiesen sind, zu klein ist, um das erste Suchkriterium zu erfüllen.
Ausführungsformen können die vorteilhafte Wirkung haben, dass ein effektives Verfahren zum Anpassen des ersten Zeitfensters bereitgestellt wird, sodass das erste vordefinierte Kriterium erfüllt wird.
Gemäß Ausführungsformen ist die Anzahl von ersten zeitbezogenen Gruppierungen, die in dem ersten Teilsatz von zeitbezogenen Gruppierungen enthalten sind, kleiner als die Anzahl von zeitbezogenen Gruppierungen, die in dem Satz von zeitbezogenen Gruppierungen enthalten sind. Ausführungsformen können die vorteilhafte Wirkung haben, dass der Aufwand zum Ermitteln von zeitbezogenen Gruppierungen unter Verwendung von Suchabfragen, d.h. der ersten zeitbezogenen Gruppierungen, nur bei einem kleinen Teil der zeitbezogenen Gruppierungen durchgeführt werden muss, die zum Überdecken des gesamten Zeitrahmens von Interesse erforderlich sind. Der Rest der erforderlichen zeitbezogenen Gruppierungen kann vorhergesagt werden, ohne dass durch die Suchmaschine weitere Suchabfragen ausgeführt werden müssen.
Gemäß Ausführungsformen weist das Verfahren ferner ein Speichern des ersten Teilsatzes von zeitbezogenen Gruppierungen auf. Ausführungsformen können die vorteilhafte Wirkung haben, dass der gespeicherte Teilsatz von zeitbezogenen Gruppierungen zum zufälligen Auswählen von zeitbezogenen Gruppierungen während des Abtastens und/oder für ein Gruppieren eines weiteren Zeitrahmens von Interesse, der sich mindestens teilweise mit dem aktuellen Zeitrahmen von Interesse überlappt, und/oder für ein späteres Abtasten verwendet werden kann.
Gemäß Ausführungsformen weist das Vorhersagen mindestens eines aus einer Interpolation und einer Extrapolation auf. Ausführungsformen können die vorteilhafte Wirkung haben, dass ein effektives Verfahren zum Vorhersagen von zweiten zeitbezogenen Gruppierungen bereitgestellt wird. Zum Beispiel kann für die Vorhersage ein Regressionsmodell verwendet werden, das auf einer Regressionsanalyse beruht. Zum Beispiel kann eine Zeitreihenanalyse verwendet werden. Gemäß Ausführungsformen kann das zufällige Auswählen einer zeitbezogenen Gruppierung ein zufälliges Auswählen eines Zeitpunkts innerhalb des Zeitrahmens von Interesse aufweisen, z.B. unter Verwendung eines Zufallszahlengenerators oder eines Pseudo-Zufallszahlengenerators, und unter Verwendung einer Vorhersage einer Verteilung der Breiten von Zeitfenstern, um für den zufällig ausgewählten Zeitpunkt ein Zeitfenster zu ermitteln.
Gemäß Ausführungsformen kann das Vorhersagen ein Erzeugen eines Maschinenlernmodells aufweisen, das zum Vorhersagen der zweiten zeitbezogenen Gruppierungen trainiert ist. Das Erzeugen des Maschinenlernmodells kann ein Bereitstellen von Trainingssätzen unter Verwendung der ersten zeitbezogenen Gruppierungen aufweisen. Jeder Trainingssatz weist eine Zeitangabe, die einem ersten Zeitfenster zugewiesen ist, das durch die ersten zeitbezogenen Gruppierungen definiert ist, als Trainingseingabedaten und eine Breite des jeweiligen ersten Zeitfensters als Trainingsausgabedaten auf. Des Weiteren kann an den Trainingssätzen ein Lernalgorithmus ausgeführt werden, um das Maschinenlernmodell zu erzeugen.
Ausführungsformen können die vorteilhafte Wirkung haben, dass ein Maschinenlernmodell bereitgestellt wird, das zum effektiven und effizienten Vorhersagen der zweiten zeitbezogenen Gruppierungen trainiert ist. Somit sind keine Suchabfragen erforderlich, um die zweiten zeitbezogenen Gruppierungen zu ermitteln.
Der Begriff „maschinelles Lernen“ bezeichnet einen Computeralgorithmus, der zum Extrahieren nützlicher Informationen aus Trainingsdatensätzen verwendet werden kann, indem auf eine automatisierte Weise probabilistische Modelle aufgebaut werden (die als „Maschinenlernmodelle“ bezeichnet werden). Das maschinelle Lernen kann unter Verwendung eines oder mehrerer Lernalgorithmen wie z.B. lineare Regression, K-Means, Klassifizierungsalgorithmus, Vertiefungsalgorithmus usw. durchgeführt werden. Bei einem Modell kann es sich zum Beispiel um eine Gleichung oder einen Satz von Regeln handeln, die/der es möglich macht, einen ungemessenen Wert aus anderen, bekannten Werten vorherzusagen. Gemäß einer Ausführungsform handelt es sich bei dem Maschinenlernmodell um ein polynomiales Regressionsmodell oder ein Deep-Learning-Modell, z.B. ein rekurrentes künstliches neuronales Netz (recurrent neural network, RNN) wie etwa ein langes Kurzzeitgedächtnis (long short-term memory, LSTM).
Polynomiale Regression ist eine Form von Regressionsanalyse, bei der eine Beziehung zwischen einer unabhängigen Variablen x und einer abhängigen Variablen y als Polynom n-ten Grades in x modelliert wird. Polynomiale Regression stellt eine nichtlineare Beziehung zwischen dem Wert von x und dem entsprechenden Erwartungswert von y her, d.h. E(y|x).
Gemäß Ausführungsformen weist das Vorhersagen unter Verwendung des Maschinenlernmodells ein Bereitstellen erster Eingabedaten für das Maschinenlernmodell auf, die eine Zeitangabe aufweisen. Die bereitgestellte Zeitangabe liegt innerhalb des Zeitrahmens von Interesse, wohingegen die jeweilige Zeitangabe außerhalb des ersten Zeitfensters liegt, das durch die ersten zeitbezogenen Gruppierungen definiert ist. Als Reaktion auf das Bereitstellen der ersten Eingabedaten werden von dem Maschinenlernmodell erste Ausgabedaten empfangen, die eine Vorhersage einer zweiten zeitbezogenen Gruppierung aufweisen, die mit der durch die ersten Eingabedaten bereitgestellten Zeitangabe ein zweites Zeitfenster definieren. Das zweite Zeitfenster der vorhergesagten zweiten zeitbezogenen Gruppierung erfüllt das erste vordefinierte Kriterium.
Ausführungsformen können die vorteilhafte Wirkung haben, dass zweite zeitbezogene Gruppierungen vorhergesagt werden um die ersten zeitbezogenen Gruppierungen zu ergänzen, sodass der Satz von zeitbezogenen Gruppierungen ermittelt werden kann, die den gesamten Zeitrahmen von Interesse unterteilen.
Gemäß Ausführungsformen weist das Verfahren ferner ein Speichern des zweiten Teilsatzes von zeitbezogenen Gruppierungen auf. Ausführungsformen können die vorteilhafte Wirkung haben, dass die zweiten zeitbezogenen Gruppierungen zum zufälligen Auswählen der zeitbezogenen Gruppierungen bereitgestellt werden können.
Gemäß Ausführungsformen weist das zufällige Auswählen der zeitbezogenen Gruppierung aus dem Satz von zeitbezogenen Gruppierungen ein Bereitstellen zweiter Eingabedaten, die eine zufällig ausgewählte Zeitangabe innerhalb des Zeitrahmens von Interesse aufweisen, für das Maschinenlernmodell auf. Als Reaktion auf das Bereitstellen der zweiten Eingabedaten werden von dem Maschinenlernmodell zweite Ausgabedaten empfangen, die die zeitbezogene Gruppierung aus dem Satz von zeitbezogenen Gruppierungen aufweist, die das Zeitfenster definiert, das die zufällig ausgewählte Zeitangabe aufweist und das erste vordefinierte Kriterium erfüllt.
Ausführungsformen können die vorteilhafte Wirkung haben, dass die ersten zeitbezogenen Gruppierungen möglicherweise nicht mehr benötigt werden, sobald das Maschinenlernmodell erzeugt wurde. Das Maschinenlernmodell kann verwendet werden, um eine zeitbezogene Gruppierung für eine beliebige, zufällig ausgewählte Zeitangabe innerhalb des Zeitfensters von Interesse vorherzusagen. Somit kann das zufällige Auswählen einer zeitbezogenen Gruppierung ein zufälliges Auswählen eines Zeitpunkts innerhalb des Zeitrahmens von Interesse aufweisen, z.B. unter Verwendung eines Zufallszahlengenerators oder eines Pseudo-Zufallszahlengenerators, und unter Verwendung des Maschinenlernmodells, um während des Abtastens eine geeignete zeitbezogene Gruppierung vorherzusagen.
Gemäß Ausführungsformen weist das Verfahren zum zufälligen Auswählen der zeitbezogenen Gruppierungen ferner ein Ermitteln dritter zeitbezogener Gruppierungen eines dritten Teilsatzes des Satzes von zeitbezogenen Gruppierungen auf. Das Ermitteln der dritten zeitbezogenen Gruppierungen weist ein Erfassen eines oder mehrerer gespeicherter dritter Teilsätze von zeitbezogenen Gruppierungen auf. Ausführungsformen können die vorteilhafte Wirkung haben, dass gespeicherte zeitbezogene Gruppierungen, d.h. vorher ermittelte zeitbezogene Gruppierungen, z.B. für einen weiteren, mindestens teilweise überlappenden Zeitrahmen von Interesse. Somit müssen die jeweiligen zeitbezogenen Gruppierungen weder unter Verwendung von Suchabfragen ermittelt werden, noch müssen sie erneut vorhergesagt werden. Die jeweiligen zeitbezogenen Gruppierungen können vielmehr von einem lokalen, einem wechselbaren oder einem entfernt angeordneten Speichermedium abgerufen werden. Gemäß Ausführungsformen ist die Anzahl von dritten zeitbezogenen Gruppierungen, die in dem einen oder den mehreren dritten Teilsätzen von zeitbezogenen Gruppierungen enthalten sind, kleiner als die Anzahl von zeitbezogenen Gruppierungen, die in dem Satz von zeitbezogenen Gruppierungen enthalten sind. Gemäß Ausführungsformen können die dritten zeitbezogenen Gruppierungen zusammen mit den ersten zeitbezogenen Gruppierungen verwendet werden, um die zweiten zeitbezogenen Gruppierungen vorherzusagen. Gemäß Ausführungsformen können die dritten zeitbezogenen Gruppierungen verwendet werden, um die ersten zeitbezogenen Gruppierungen zu ergänzen, sodass weniger zweite zeitbezogene Gruppierungen vorhergesagt werden müssen. Gemäß Ausführungsformen ist die Anzahl von dritten zeitbezogenen Gruppierungen, die in dem dritten Teilsatz von zeitbezogenen Gruppierungen enthalten sind, gleich der Anzahl von zeitbezogenen Gruppierungen, die in dem Satz von zeitbezogenen Gruppierungen enthalten sind. Somit können alle zeitbezogenen Gruppierungen aus einem Satz von zeitbezogenen Gruppierungen durch die gespeicherten dritten zeitbezogenen Gruppierungen bereitgestellt werden.
Gemäß Ausführungsformen können die dritten Teilsätze von zeitbezogenen Gruppierungen jeweils einen durchgehenden Teilabschnitt des Zeitrahmens von Interesse in eine Mehrzahl von dritten Zeitfenstern unterteilen, die durch dritte zeitbezogene Gruppierungen der dritten Teilsätze von zeitbezogenen Gruppierungen definiert sind.
Gemäß Ausführungsformen weist das Computerprogrammprodukt ferner durch eine Maschine ausführbare Programmanweisungen auf, die so konfiguriert sind, dass sie beliebige der Ausführungsformen des hierin beschriebenen Verfahrens zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten realisieren.
Gemäß Ausführungsformen ist das Computersystem ferner so konfiguriert, dass es beliebige der Ausführungsformen des hierin beschriebenen Verfahrens zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten ausführt.
1 zeigt ein beispielhaftes Computersystem 100, das zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus 212 von Dokumenten konfiguriert ist, wobei eine Suchmaschinenschnittstelle einer Suchmaschine verwendet wird, die durch einen Server 200 bereitgestellt wird. Das Computersystem 100 und der Server 200 können über ein Netzwerk 210, z.B. ein Intranet oder das Internet, Daten austauschen. Das Korpus 212 von Dokumenten kann auf Speichermedien gespeichert sein, z.B. auf Servern, die in dem Netzwerk 210 enthalten sind, auf die über das Netzwerk 210 zugegriffen werden kann. Alternativ kann das Korpus 212 von Dokumenten auf einem oder mehreren Speichermedien wie etwa lokalen und/oder entfernt angeordneten Speichermedien gespeichert sein, auf die über den Server 200 zugegriffen werden kann. Es wird klar sein, dass es sich bei dem hierin beschriebenen Computersystem 100 um eine beliebige Art von computergestütztem System handeln kann, das eine Mehrzahl einer Mehrzahl von Prozessorchips, eine Mehrzahl von Hauptspeicherpufferchips und einen Hauptspeicher aufweist. Das Computersystem 100 kann zum Beispiel in Form eines digitalen Universalcomputers wie etwa eines Personal Computers, einer Workstation oder eines Minicomputers realisiert sein kann.
Bei beispielhaften Ausführungsformen umfasst das Computersystem 100 wie in 1 gezeigt im Hinblick auf die Hardwarearchitektur einen Prozessor 105, einen Speicher (Hauptspeicher) 110, der mit einer Hauptspeicher-Steuereinheit 115 verbunden ist, und eine oder mehrere Eingabe- und/oder Ausgabeeinheiten (E/A-Einheiten) (bzw. Peripherieeinheiten) 10, 145, die zu Datenübertragungszwecken über eine lokale Eingabe/Ausgabe-Steuereinheit 135 verbunden sind. Bei der Eingabe/Ausgabe-Steuereinheit 135 kann es sich, ohne auf diese beschränkt zu sein, um einen oder mehrere Busse oder andere drahtgebundene oder drahtlose Verbindungen handeln, die in der Technik bekannt sind. Die Eingabe/Ausgabe-Steuereinheit 135 kann weitere Elemente aufweisen, die aus Gründen der Einfachheit weggelassen wurden, beispielsweise Steuereinheiten, Puffer (Cache), Treiber, Repeater und Empfänger, um den Datenaustausch zu ermöglichen. Ferner kann die lokale Schnittstelle Adress-, Steuer- und/oder Datenverbindungen umfassen, um eine entsprechende Datenübertragung zwischen den vorstehend erwähnten Komponenten zu ermöglichen.
Bei dem Prozessor 105 handelt es sich um eine Hardwareeinheit zum Ausführen von Software, insbesondere derjenigen, die im Hauptspeicher 110 gespeichert ist. Bei dem Prozessor 105 kann es sich um einen beliebigen kundenspezifischen oder handelsüblichen Prozessor, eine Zentraleinheit (CPU), einen Hilfsprozessor unter mehreren zu dem Computersystem 100 gehörigen Prozessoren, einen auf Halbleitern beruhenden Mikroprozessor (in Form eines Mikrochips oder Chipsatzes), einen Makroprozessor oder allgemein eine beliebige Einheit zum Ausführen von Softwareanweisungen handeln.
Der Hauptspeicher 110 kann ein beliebiges oder eine Kombination aus flüchtigen Hauptspeichermodulen (z.B. Direktzugriffsspeicher (random access memory (RAM) wie zum Beispiel DRAM, SRAM, SDRAM usw.)) und nichtflüchtigen Hauptspeichermodulen (z.B. ROM, löschbarer programmierbarer Nur-Lese-Speicher (EPROM), elektronisch löschbarer programmierbarer Nur-Lese-Speicher (EEPROM) oder programmierbarer Nur-Lese-Speicher (PROM)) umfassen. Zu beachten ist, dass der Hauptspeicher 110 eine verteilte Architektur haben kann, bei der zusätzliche Module voneinander entfernt angeordnet sind, auf die der Prozessor 105 aber zugreifen kann.
Die Software im Hauptspeicher 110 kann ein oder mehrere separate Programme umfassen, von denen jedes eine geordnete Auflistung ausführbarer Anweisungen zum Realisieren logischer Funktionen aufweist, insbesondere von Funktionen, die in Ausführungsformen der vorliegenden Erfindung einbezogen sind. Zum Beispiel können die ausführbaren Anweisungen so konfiguriert sein, dass sie Suchabfragen erzeugen und über das Netzwerk 210 an der Server 200 senden und Suchergebnisse empfangen. Die ausführbaren Anweisungen können ferner zum Ermitteln von zeitbezogenen Gruppierungen und/oder zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus dem Korpus 212 von Dokumenten konfiguriert sein, wobei eine Suchmaschinenschnittstelle verwendet wird, die durch die Suchmaschine auf dem Server 200 bereitgestellt wird. Die Software im Hauptspeicher 110 kann ferner ein geeignetes Betriebssystem (BS) 111 umfassen. Das BS 111 steuert im Wesentlichen die Ausführung anderer Computerprogramme wie z.B. möglicherweise der Software 112.
Wenn es sich bei dem Computersystem 100 um einen PC, eine Workstation, eine intelligente Einheit oder dergleichen handelt, kann die Software im Hauptspeicher 110 ferner ein Basic Input Output System (BIOS) 122 umfassen. Beim BIOS handelt es sich um einen Satz notwendiger Softwareroutinen, die beim Einschalten Hardware initialisieren und testen, das BS 111 starten und die Übertragung von Daten zwischen den Hardwareeinheiten unterstützen. Das BIOS ist im ROM gespeichert, sodass das BIOS ausgeführt werden kann, wenn das Computersystem 100 aktiviert wird.
Im Betriebszustand des Computersystems 100 ist der Prozessor 105 so konfiguriert, dass im Speicher 110 gespeicherte Software 112 ausgeführt, Daten zum und aus dem Speicher 110 übertragen und der Software folgend Operationen des Computersystems 100 allgemein gesteuert werden. Die hierin beschriebenen Verfahren und das BS 111 werden ganz oder teilweise, aber normalerweise in letztgenannter Weise, durch den Prozessor 105 gelesen, eventuell innerhalb des Prozessors 105 gepuffert und anschließend ausgeführt.
Software 112 kann ferner auf einem beliebigen, durch einen Computer lesbaren Medium wie zum Beispiel auf einem Speicher 120 zur Verwendung durch oder in Verbindung mit einem beliebigen computergestützten System oder Verfahren bereitgestellt gespeichert sein. Der Speicher 120 kann einen Plattenspeicher wie zum Beispiel einen Festplattenlaufwerksspeicher aufweisen.
Bei beispielhaften Ausführungsformen können eine herkömmliche Tastatur 150 und eine Maus 155 mit der Eingabe/Ausgabe-Steuereinheit 135 verbunden sein. Zu weiteren Ausgabeeinheiten wie z.B. zu den E/A-Einheiten 145 können Eingabeeinheiten, zum Beispiel und ohne auf diese beschränkt zu sein, ein Drucker, ein Scanner, ein Mikrofon und dergleichen gehören. Schließlich können zu den E/A-Einheiten 10, 145 ferner Einheiten gehören, die Datenübertragung sowohl für Eingänge als auch für Ausgänge realisieren, zum Beispiel und ohne auf diese beschränkt zu sein, eine Netzwerkschnittstellenkarte (Network Interface Card, NIC), ein Modulator/Demodulator (zum Zugreifen auf andere Dateien, Einheiten, Systeme oder ein Netzwerk) ein Hochfrequenz-Transceiver (HF-Transceiver) oder ein anderer Transceiver, eine Telefonschnittstelle, eine Bridge, ein Router und dergleichen. Bei den E/A-Einheiten 10, 145 kann es sich um eine beliebige verallgemeinerte kryptografische Karte oder Smart-Card handeln, die in der Technik bekannt sind. Das Computersystem 100 kann ferner eine Anzeigesteuereinheit 125 enthalten, die mit einer Anzeige 130 verbunden ist. Bei beispielhaften Ausführungsformen kann das Computersystem 100 ferner eine Netzwerkschnittstelle zum Verbinden mit einem Netzwerk 210 wie etwa einem Intranet oder dem Internet umfassen. Bei dem Netzwerk kann es sich um ein IP-Netzwerk zum Datenübertragung zwischen dem Computersystem 100 und einem beliebigen externen Server wie etwa dem Server 200, einem anderen Client und dergleichen über eine Breitbandverbindung handeln. Das Netzwerk 210 sendet und empfängt zwischen dem Computersystem 100 und dem Server 200, der einen Dienstekatalog bereitstellt. Bei beispielhaften Ausführungsformen kann es sich bei dem Netzwerk 210 um ein verwaltetes IP-Netzwerk handeln, das durch einen Diensteanbieter administriert wird. Das Netzwerk 210 kann in drahtloser Form realisiert sein, z.B. unter Verwendung von Funkprotokollen und -technologien wie zum Beispiel WLAN, WiMAX usw. Bei dem Netzwerk 210 kann es sich außerdem um ein Netzwerk mit Paketvermittlung wie z.B. ein lokales Netzwerk, ein Weitverkehrsnetzwerk, ein Stadt- oder Regionalnetzwerk, das Internet-Netzwerk und/oder eine ähnliche Art von Netzwerkumgebung handeln. Bei dem Netzwerk kann es sich um ein Fixed Wireless Network, ein drahtloses lokales Netzwerk (local area network, LAN), ein drahtloses Weitverkehrsnetzwerk (wide area network, WAN), ein Personal Area Network (PAN), ein virtuelles privates Netzwerk (VPN), ein Intranet oder ein anderes geeignetes Netzwerksystem handeln, das Ausrüstungen zum Empfangen und Senden von Signalen umfasst.
Der Server 200 kann eine Suchmaschine mit einer Suchmaschinenschnittstelle bereitstellen, die zum Übertragen von Daten mit dem Computersystem 100 über das Netzwerk 210 konfiguriert ist. Die Suchmaschine kann einen Suchindex 206 aufweisen, der das Korpus 212 von Dokumenten indiziert. Der Suchindex 206 kann auf dem Server 200 gespeichert sein. Alternativ kann der Suchindex 206 auf einem lokalen oder entfernt angeordneten Speichermedium gespeichert sein, auf das durch den Server 200 zugegriffen werden kann. Die Suchmaschine kann zum Durchlaufen von Dokumenten konfiguriert sein, die über das Netzwerk 210 bereitgestellt werden, zum Indizieren der Dokumente, zum Erzeugen und Aktualisieren des Suchindex 206 und/oder zum Durchsuchen indizierter Dokumente des Korpus 212 unter Verwendung des Suchindex 206.
2 zeigt eine beispielhafte Suchinfrastruktur, die ein Computersystem 100 aufweist, das so konfiguriert ist, dass es mit einem Server 200, z.B. mit einem Webserver, über ein digitales Telekommunikationsnetzwerk 210, z.B. das World Wide Web, Daten austauscht. Das Computersystem 100 kann unter Verwendung einer Netzwerkschnittstelle 204 Suchabfragen an eine Suchmaschinenschnittstelle 202 senden, die durch den Server 200 bereitgestellt wird. Bei der Suchmaschinenschnittstelle 204 kann es sich z.B. um eine öffentliche Schnittstelle handeln. Die Suchmaschine 202 kann unter Verwendung eines Suchindex 206, der ein Korpus 212 von Dokumenten indiziert, die Suchabfragen ausführen. Das Korpus 212 von Dokumenten kann auf dem Netzwerk 210, d.h. durch Knoten des Netzwerks 210, bereitgestellt sein. Die Suchmaschine 202 kann in dem Korpus 212 enthaltene Dokumente identifizieren, die zeitbezogene Parameter erfüllen, die durch die Suchabfragen definiert sind. Die identifizierten Dokumente können dem Computersystem 100 unter Verwendung eines Suchergebnisses bereitgestellt werden, das über das Netzwerk 210 von dem Server 200 empfangen wurde. Das Suchergebnis kann eine Liste jeweiliger Dokumente aufweisen, die mit den Dokumenten auf dem Netzwerk 210 verknüpft sind. Das Computersystem 100 kann die Verknüpfungen verwenden, um die jeweiligen Dokumente des Suchergebnisses von dem Netzwerk 210 abzurufen.
3 veranschaulicht ein beispielhaftes Gruppieren von Dokumenten nach Erstellungsdatum. Jedem der Dokumente eines Korpus von Dokumenten kann ein Zeitstempel zugewiesen sein, der z.B. ein Datum und/oder eine Uhrzeit der Erstellung des jeweiligen Dokuments identifiziert. Ein erster Satz von zeitbezogenen Gruppierungen 300 wird unter Verwendung von Suchabfragen erhalten. Unter Verwendung von Breiten und Größen dieser zeitbezogenen Gruppierungen 300, d.h. der Breite der Zeitfenster, die durch die Suchabfragen und die Anzahlen von Dokumenten definiert sind, die in der Suchergebnissen enthalten sind, die zum Erhalten der ersten zeitbezogenen Gruppierungen verwendet werden, kann die Anzahl von erstellten Dokumenten 302, z.B. pro Tag, über den Zeitrahmen von Interesse hinweg vorhergesagt werden, z.B. in der Zeit vom 21.02.2010 bis zum 07.01.2019. Als Teil dieser Vorhersage kann ein zweiter Satz von zeitbezogenen Gruppierungen 304 vorhergesagt werden, um den gesamten Zeitrahmen von Interesse zu überdecken. Die aus Abfragen erhaltenen zeitbezogenen Gruppierungen 300 sowie die vorhergesagten zeitbezogenen Gruppierungen 304 können auf eine maximale Gruppierungsgröße (max. Größe) von Nmax Dokumenten begrenzt werden, z.B. Nmax = 20. Mit anderen Worten, jede zeitbezogene Gruppierung 300, 304 kann erforderlich sein, um ein vordefiniertes Kriterium zu erfüllen, das die maximale Anzahl von Dokumenten beschränkt, die in der jeweiligen Gruppierung enthalten sind. Falls Dokumente zu spärlich verteilt sind, können die Ergebnisse von Abfragen unter Verwendung benachbarter Zeitfenster 310 als Suchparameter zu einer einzigen zeitbezogenen Gruppierung zusammengeführt werden. Mit anderen Worten, die Breite der zeitbezogenen Gruppierung kann vergrößert werden, um die benachbarten Zeitfenster 310 zu überdecken. Falls die Dokumente zu dicht verteilt sind, kann das Ergebnis einer Abfrage in getrennte zeitbezogene Gruppierungen aufgeteilt werden, indem das Zeitfenster 312, 314 aufgeteilt wird, das durch die jeweilige Suchabfrage als Suchparameter verwendet wird. Falls die Anzahl von Dokumenten, die in einem Zeitfenster 312 enthalten sind, das als Suchparameter einer Suchabfrage verwendet wird, gleich oder größer als der Ergebnisanzahlgrenzwert wird, der durch die Suchmaschine eingeführt wird, kann die Breite des Zeitfensters 312 verringert werden, indem das Zeitfenster 312 aufgeteilt wird, sodass die Anzahlen von Dokumenten, die in den entstehenden schmaleren Zeitfenstern enthalten sind, jeweils kleiner als der Ergebnisanzahlgrenzwert pro Suchabfrage sind. Falls die Anzahl von Dokumenten, die in einem Zeitfenster 314 enthalten sind, das als Suchparameter einer Suchabfrage verwendet wird, größer als die vordefinierte maximale Gruppierungsgröße ist, kann das Zeitfenster 314 so aufgeteilt werden, dass die Anzahlen von Dokumenten, die in den entstehenden schmaleren Zeitfenstern enthalten sind, jeweils kleiner oder gleich der vordefinierten maximalen Gruppierungsgröße sind. Die angepassten ersten zeitbezogenen Gruppierungen 300 können verwendet werden, um die Quote von Dokumenten 302 vorherzusagen, die über die Zeit hinweg, d.h. über den Zeitrahmen von Interesse hinweg, erstellt wurden. Auf der Grundlage der angepassten ersten zeitbezogenen Gruppierungen 300 können zweite zeitbezogene Gruppierungen 304 so vorhergesagt werden, dass sie die vordefinierte maximale Gruppierungsgröße erfüllen, d.h. die vordefinierte maximale Gruppierungsgröße nicht überschreiten.
4 zeigt ein schematisches Flussdiagramm eines beispielhaften Verfahrens zum Bereitstellen eines Zufallsabtastdokuments gemäß einer Ausführungsform. In Schritt 400 wird eine zeitbezogene Gruppierung zufällig aus einem Satz von zeitbezogenen Gruppierungen ausgewählt. Zum Beispiel wird eine zufällige Gruppierungsanzahl aus gespeicherten zeitbezogenen Gruppierungen gewählt, oder eine zufällige Zeitangabe wird gewählt und eine zeitbezogene Gruppierung, die eine zufällige Zeitangabe aufweist, wird ermittelt, z.B. unter Verwendung eines Vorhersagemodells. In Schritt 402 wird die zufällig ausgewählte zeitbezogene Gruppierung unter Verwendung einer Suchmaschine an einem Suchindex abgefragt, um ein Suchergebnis zu empfangen, das z.B. eine Ergebnisliste für die zeitbezogene Gruppierung mit allen Dokumenten eines Korpus aufweist, die in dem Zeitfenster enthalten sind, das durch die zeitbezogene Gruppierung definiert ist. In Schritt 404 wird ein Dokument aus dem Suchergebnis als Abtastdokument zufällig ausgewählt. In Schritt 406 wird das Abtastdokument aus dem Korpus abgerufen, z.B. unter Verwendung einer durch das Suchergebnis bereitgestellten Verknüpfung. In Schritt 408 kann die in Schritt 400 ausgewählte zeitbezogene Gruppierung wahlweise mit einer linken oder rechten benachbarten zeitbezogenen Gruppierung angepasst werden, wenn die ausgewählte zeitbezogene Gruppierung zu klein ist, oder die jeweilige zeitbezogene Gruppierung kann aufgeteilt werden, wenn sie zu groß ist. Somit kann ein Prüfen und Anpassen der zeitbezogenen Gruppierung während einer laufenden Abtastung ausgeführt werden. Falls mehr Abtastdokumente erforderlich sind, können die Schritte 400 bis 408 wiederholt werden, bis eine geeignete Anzahl von Zufallsabtastdokumenten abgerufen wurde. In Schritt 410 werden die Abtastdokumente verwendet, z.B. zur statistischen Analyse wie etwa Risikobeurteilung, Risikomanagement, Fehlererkennung, Fehlervorhersage, Fehleranalyse, Instandhaltung und/oder vorausschauende Instandhaltung. Gemäß Ausführungsformen kann das zufällige Auswählen des Dokuments ein Verwenden einer zusätzlichen Ablehnungsabtastung zur Erzielung der mathematischen Korrektheit des Abtastprozesses aufweisen.
5 zeigt ein schematisches Flussdiagramm eines beispielhaften Verfahrens zum Ermitteln zeitbezogener Gruppierungen. In Schritt 500 können Metadaten der Suchmaschine abgeleitet werden. Die Metadaten können z.B. eine Anzahl von Dokumenten, die in dem Korpus enthalten sind, ein ältestes Dokument des Korpus innerhalb des Zeitrahmens von Interesse, das jüngste Dokument des Korpus innerhalb des Zeitrahmens von Interesse und/oder einen Ergebnisanzahlgrenzwert aufweisen, der durch die Suchmaschine in Bezug auf die Ergebnisse der Suchabfrage eingeführt wird. In Schritt 502 wird der Satz von zeitbezogenen Gruppierungen ermittelt. Suchabfragen mit Zeitfenstern als Zeitparametern können verwendet werden, die eine Ergebnisliste erzeugen, die kleiner als der Ergebnisanzahlgrenzwert der verwendeten Suchmaschine ist. Weitere Einzelheiten des Schritts 502 sind in 5 veranschaulicht. In Schritt 504 können zeitbezogene Gruppierungen für den gesamten Zeitrahmen von Interesse verfügbar sein und wahlweise außerhalb der Suchmaschine gespeichert werden, um durch eine Anwendung z.B. zum Zufallsabtasten von Dokumenten verwendet zu werden.
6 zeigt ein schematisches Flussdiagramm eines beispielhaften Verfahrens zum Ermitteln zeitbezogener Gruppierungen, das Einzelheiten von Schritt 502 aus 5 bereitstellt. In Schritt 600 wird eine zufällige Zeitangabe mit einem Zeitrahmen von Interesse ausgewählt. In Schritt 602 wird ein Zeitfenster für die ausgewählte Zeitangabe aufgebaut. Die Zeitangabe kann z.B. einen Startpunkt, einen Endpunkt oder einen Mittelpunkt des Zeitfensters definieren. Zum Aufbauen des Zeitfensters kann eine vordefinierte Breite oder die Breite einer oder mehrerer benachbarter zeitbezogener Gruppierungen verwendet werden. In Schritt 604 wird unter Verwendung des Zeitfensters von Schritt 602 als Suchparameter eine Suchabfrage erzeugt, und die Suchabfrage wird durch eine Suchmaschine an einem Suchindex ausgeführt. In Schritt 606 wird ein Suchabfrage-Ergebniszählwert abgerufen, d.h., eine Anzahl von Dokumenten wird ermittelt, die in dem Suchergebnis enthalten sind. In Schritt 608 wird das für die Suche verwendete Zeitfenster gegebenenfalls angepasst, sodass es zu dem Grenzwert für die Größe des Abfrageergebnisses passt, d.h. ein vordefiniertes Kriterium bezüglich der Anzahl von Dokumenten erfüllt. Die Breite des Zeitfensters kann vergrößert, verkleinert oder beibehalten werden. In Schritt 610 wird das endgültige Zeitfenster, d.h. die zeitbezogene Gruppierung gespeichert, die sich aus dem Anpassen von Schritt 608 ergibt. Gemäß Ausführungsformen können die Gruppierungen des endgültigen Zeitfensters zusammen mit einigen Metadaten des Abfrageergebnisses gespeichert werden. Die Schritte 604 bis 608 können mit dem angepassten Zeitfenster wiederholt werden, bis das angepasste Zeitfenster das vordefinierte Kriterium erfüllt. Die Schritte 600 bis 610 können wiederholt werden, bis unter Verwendung von Suchabfragen eine geeignete Anzahl von zeitbezogenen Gruppierungen ermittelt wurde. Die erforderliche Anzahl von zeitbezogenen Gruppierungen, die unter Verwendung von Suchabfragen ermittelt wurden, kann von der Gesamtzahl von Dokumenten des Korpus innerhalb des Zeitrahmens von Interesse abhängen.
Wenn der vordefinierte Wiederholungsgrenzwert und/oder eine geeignete Anzahl von zeitbezogenen Gruppierungen erreicht ist, kann eine Vorhersagephase gestartet werden, die weitere zeitbezogene Gruppierungen unter Verwendung der zeitbezogenen Gruppierungen vorhersagt, die mit Suchabfragen ermittelt wurden. Die Vorhersage kann ein Verwenden eines Maschinenlernmoduls (ML-Moduls) aufweisen, das unter Verwendung der zeitbezogenen Gruppierungen erzeugt und trainiert wurde, die in Schritt 612 mit Suchabfragen als Trainingssatz für das ML-Modul ermittelt wurden. In Schritt 614 wird das ML-Modul unter Verwendung des Trainingssatzes trainiert. In Schritt 616 wird das trainierte ML-Modul zum Vorhersagen von zeitbezogenen Gruppierungen verwendet, um zeitbezogene Gruppierungen für den gesamten Zeitrahmen von Interesse bereitzustellen.
Gemäß einer Ausführungsform kann es sich bei dem Ermitteln von zeitbezogenen Gruppierungen mit Suchabfragen und bei der Vorhersage von zeitbezogenen Gruppierungen um aufeinanderfolgende Phasen handeln. Gemäß alternativen Ausführungsformen kann ein iteratives Verfahren verwendet werden. Vorhergesagte zeitbezogene Gruppierungen können geprüft werden. Falls die vorhergesagten zeitbezogenen Gruppierungen das vordefinierte Kriterium erfüllen, z.B. das erste oder das zweite vordefinierte Kriterium, kann die Vorhersage fortgesetzt werden. Falls die vorhergesagten zeitbezogenen Gruppierungen das vordefinierte Kriterium nicht erfüllen, kann die Breite der zeitbezogenen Gruppierungen angepasst werden, und die vorhergesagten zeitbezogenen Gruppierungen mit den angepassten zeitbezogenen Gruppierungen können als zusätzlicher Trainingssatz zum weiteren Trainieren des ML-Moduls verwendet werden, um die Vorhersage zu verbessern.
Es versteht sich, dass eine oder mehrere der vorstehend erwähnten Ausführungsformen der Erfindung kombiniert werden können, solange sich die kombinierten Ausführungsformen nicht gegenseitig ausschließen. Ordnungszahlen wie z.B. ,erster/erste/erstes', ,zweiter/zweite/zweites' und ,dritter/dritte/drittes' werde hierin verwendet, um unterschiedliche Elemente anzugeben, denen derselbe Name zugewiesen ist, stellen aber nicht zwangsläufig eine beliebige Reihenfolge der jeweiligen Elemente dar. Soweit dies technisch und/oder physisch möglich und vernünftig ist, kann es sich bei Elementen, denen unterschiedliche Ordnungszahlen zugewiesen sind, gemäß Ausführungsformen um dieselben Elemente handeln.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Flussdiagrammdarstellungen und/oder Blockschemata von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird klar sein, dass jeder Block der Flussdiagramme und/oder der Blockschemata und Kombinationen von Blöcken in den Flussdiagrammen und/oder Blockschemata mit Hilfe von durch einen Computer lesbaren Programmanweisungen realisiert werden kann bzw. können.
Bei der vorliegenden Erfindung kann es sich um ein System, ein Verfahren und/oder ein Computerprogrammprodukt handeln. Das Computerprogrammprodukt kann (ein) durch einen Computer lesbare(s) Speichermedium (oder -medien) enthalten, auf dem/denen durch einen Computer lesbare Programmanweisungen gespeichert sind, um einen Prozessor zu veranlassen, Aspekte der vorliegenden Erfindung auszuführen.
Bei dem durch einen Computer lesbaren Speichermedium kann es sich um eine materielle Einheit handeln, auf der Anweisungen zur Verwendung durch eine Einheit zur Ausführung von Anweisungen aufbewahrt und gespeichert sein können. Bei dem durch einen Computer lesbaren Speichermedium kann es sich zum Beispiel, ohne auf diese beschränkt zu sein, um eine elektronische Speichereinheit, eine magnetische Speichereinheit, eine optische Speichereinheit, eine elektromagnetische Speichereinheit, eine Halbleiterspeichereinheit oder eine beliebige geeignete Kombination des Vorstehenden handeln. Eine nicht erschöpfende Liste genauerer Beispiele des durch einen Computer lesbaren Speichermediums umfasst Folgendes: eine transportable Computerdiskette, eine Festplatte, einen Direktzugriffsspeicher (RAM), einen Nur-Lese-Speicher (ROM), einen löschbaren programmierbaren Nur-Lese-Speicher (EPROM oder Flash-Speicher), einen statischen Direktzugriffsspeicher (SRAM), einen transportablen Nur-Lese-Speicher in Form einer Compact Disc (CD-ROM), eine Digital Versatile Disc (DVD), einen Speicherstick, eine Diskette, eine mechanisch codierte Einheit wie zum Beispiel Lochkarten oder erhöhte Strukturen in einer Rille mit darauf aufgezeichneten Anweisungen oder beliebige geeignete Kombinationen des Vorstehenden. Ein durch einen Computer lesbares Speichermedium im hierin verwendeten Sinne ist nicht so auszulegen, dass es sich dabei um flüchtige Signale an sich handelt, beispielsweise um Funkwellen oder sich frei ausbreitende elektromagnetische Wellen, um elektromagnetische Wellen, die sich durch einen Hohlleiter oder andere Übertragungsmedien ausbreiten (z.B. ein Lichtwellenleiterkabel durchlaufende Lichtimpulse) oder um elektrische Signale, die über ein Kabel übertragen werden.
Hierin beschriebene, durch einen Computer lesbare Programmanweisungen können über ein Netzwerk, zum Beispiel das Internet, ein lokales Netzwerk ein Weitverkehrsnetzwerk und/oder ein Drahtlosnetzwerk von einem durch einen Computer lesbaren Speichermedium auf betreffende Datenverarbeitungs-/Verarbeitungseinheiten oder auf einen externen Computer oder eine externe Speichereinheit heruntergeladen werden. Das Netzwerk kann Kupferübertragungskabel, Lichtwellenübertragungsleiter, Drahtlosübertragung, Router, Firewalls, Switches, Gateway-Computer und/oder Edge-Server aufweisen. Eine Netzwerkadapterkarte oder eine Netzwerkschnittstelle bei jeder Datenverarbeitungs-/Verarbeitungseinheit empfängt durch einen Computer lesbare Programmanweisungen aus dem Netzwerk und leitet die durch einen Computer lesbaren Programmanweisungen zur Speicherung in einem durch einen Computer lesbaren Speichermedium innerhalb der jeweiligen Datenverarbeitungs-/Verarbeitungseinheit weiter.
Bei durch einen Computer lesbaren Programmanweisungen zum Ausführen von Operationen der vorliegenden Erfindung kann es sich um Assembleranweisungen, ISA-Anweisungen (ISA = Instruction Set Architecture), Maschinenanweisungen, maschinenabhängige Anweisungen, Mikrocode, Firmware-Anweisungen, Daten zum Setzen von Zuständen oder entweder Quellcode oder Objektcode handeln, die in einer beliebigen Kombination aus einer oder mehreren Programmiersprachen geschrieben sind, zu denen eine objektorientierte Programmiersprache wie beispielsweise Smalltalk, C++ oder Ähnliches und herkömmliche prozedurale Programmiersprachen wie beispielsweise die Programmiersprache „C“ oder ähnliche Programmiersprachen gehören. Die durch einen Computer lesbaren Programmanweisungen können vollständig auf dem Computer eines Benutzercomputersystems, teilweise auf dem Computer eines Benutzercomputersystems, als eigenständiges Softwarepaket, teilweise auf dem Computer eines Benutzercomputersystems und teilweise auf einem entfernt angeordneten Computer oder vollständig auf dem entfernt angeordneten Computer oder Server ausgeführt werden. Beim letztgenannten Szenario kann der entfernt angeordnete Computer mit dem Computer eines Benutzercomputersystems über eine beliebige Art von Netzwerk verbunden sein, unter anderem über ein lokales Netzwerk (Local Area Network, LAN) oder über ein Weitverkehrsnetzwerk (Wide Area Network, WAN), oder die Verbindung kann zu einem externen Computer hergestellt sein (beispielsweise über das Internet unter Nutzung eines Internet-Dienstanbieters (Internet Service Provider)). Bei einigen Ausführungsformen können elektronische Schaltungen, zu denen beispielsweise programmierbare Logikschaltungen, vor Ort programmierbare Gatteranordnungen (Field-Programmable Gate Arrays, FPGA) oder programmierbare Logikanordnungen (PLA) gehören, die durch einen Computer lesbaren Programmanweisungen ausführen, indem Zustandsinformationen der durch einen Computer lesbaren Programmanweisungen genutzt werden, um die elektronische Schaltung zu personalisieren, sodass Aspekte der vorliegenden Erfindung durchgeführt werden.
Aspekte der vorliegenden Erfindung sind hierin unter Bezugnahme auf Flussdiagrammdarstellungen und/oder Blockschemata von Verfahren, Vorrichtungen (Systemen) und Computerprogrammprodukten gemäß Ausführungsformen der Erfindung beschrieben. Es wird klar sein, dass jeder Block der Flussdiagramme und/oder der Blockschemata und Kombinationen von Blöcken in den Flussdiagrammen und/oder Blockschemata mit Hilfe von durch einen Computer lesbaren Programmanweisungen realisiert werden kann bzw. können.
Diese durch einen Computer lesbaren Programmanweisungen können einem Prozessor eines Universalcomputers, eines Spezialcomputers oder anderer programmierbaren Datenverarbeitungsvorrichtungen bereitgestellt werden, um eine Maschine zu erzeugen, sodass die Anweisungen, die über den Prozessor des Computers oder anderer programmierbarer Datenverarbeitungsvorrichtungen ausgeführt werden, Mittel schaffen, - um die in einem Block bzw. in den Blöcken des Flussdiagramms bzw. der Flussdiagramme und/oder des Blockschemas bzw. der Blockschemata angegebenen Funktionen/Aktionen zu realisieren. Diese durch einen Computer lesbaren Programmanweisungen können ebenfalls in einem durch einen Computer lesbaren Medium gespeichert sein, das einen Computer, andere programmierbare Datenverarbeitungsvorrichtungen oder andere Einheiten anweisen kann, in einer bestimmten Weise zu funktionieren, sodass das durch einen Computer lesbare Medium mit darauf gespeicherten Anweisungen ein Erzeugnis aufweist, das Anweisungen enthält, die die in einem Block bzw. in den Blöcken der Flussdiagramme und/oder der Blockschemata angegebene Funktion/Aktion realisieren.
Die durch einen Computer lesbaren Programmanweisungen können auch in einen Computer, in andere programmierbare Datenverarbeitungsvorrichtungen oder in andere Einheiten geladen werden, um zu bewirken, dass auf dem Computer, auf anderen programmierbaren Vorrichtungen oder anderen Einheiten eine Reihe von Operationen ausgeführt werden, um einen mittels Computer realisierten Prozess zu schaffen, sodass die Anweisungen, die auf dem Computer, auf anderen programmierbaren Vorrichtungen oder Einheiten ausgeführt werden, die in einem Block bzw. in den Blöcken der Flussdiagramme und/oder der Blockschemata angegebenen Funktionen/Aktionen realisieren.
Die Flussdiagramme und Blockschemata in den Figuren veranschaulichen die Architektur, Funktionalität und Wirkungsweise möglicher Realisierungsformen von Systemen, Verfahren und Computerprogrammprodukten gemäß verschiedenen Ausführungsformen der vorliegenden Erfindung. In diesem Zusammenhang kann jeder Block in den Flussdiagrammen bzw. in den Blockschemata ein Modul, ein Segment oder einen Abschnitt von Anweisungen darstellen, das bzw. der eine oder mehrere ausführbare Anweisungen zum Realisieren der angegebenen Logikfunktion bzw. Logikfunktionen aufweist. Bei einigen alternativen Realisierungsformen können die in dem Block angegebenen Funktionen in einer anderen als in der Reihenfolge ausgeführt werden, die in den Figuren angegeben ist. Zum Beispiel können zwei hintereinander aufgeführte Blöcke tatsächlich im Wesentlichen gleichzeitig ausgeführt werden, oder die Blöcke können je nach der mit den Blöcken verbundenen Funktionalität manchmal in umgekehrter Reihenfolge ausgeführt werden. Darüber hinaus ist anzumerken, dass jeder Block der Blockschemata und/oder Flussdiagrammdarstellungen sowie Kombinationen von Blöcken in den Blockschemata und/oder Flussdiagrammdarstellungen mit Hilfe zweckgebundener hardwaregestützter Systeme zum Ausführen der angegebenen Funktionen bzw. Aktionen oder mit Hilfe von Kombinationen aus zweckgebundener Hardware und zweckgebundenen Computeranweisungen realisiert werden kann bzw. können.
Bei möglichen Kombinationen von vorstehend beschriebenen Merkmalen kann es sich um die folgenden handeln:

1. Ein Verfahren zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine, wobei die Suchmaschine einen Suchindex aufweist, der das Korpus von Dokumenten indiziert, wobei jedem der Dokumente des Korpus ein Zeitstempel zugewiesen ist, wobei das Verfahren aufweist:
- Ermitteln eines interessierenden Zeitrahmens,
- Bereitstellen eines oder mehrerer Zufallsabtastdokumente, wobei der Zeitstempel eines jeden der Zufallsabtastdokumente innerhalb eines Zeitrahmens von Interesse liegt, wobei das Bereitstellen eines jeden der Zufallsabtastdokumente aufweist:
  - zufälliges Auswählen einer zeitbezogenen Gruppierung aus einem Satz von zeitbezogenen Gruppierungen, wobei der Satz von zeitbezogenen Gruppierungen den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern unterteilt, wobei jede der zeitbezogenen Gruppierungen eines der Zeitfenster definiert, wobei bei jedem der Zeitfenster die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium erfüllt,
  - Senden einer Suchabfrage zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex an die Suchmaschinenschnittstelle, wobei die Suchabfrage eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters definiert, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist,
  - als Reaktion auf das Senden der Suchabfrage Empfangen eines Suchergebnisses von der Suchmaschinenschnittstelle, wobei das Suchergebnis einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, und
  - zufälliges Auswählen eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht.
- 2. Das Verfahren nach Punkt 1, wobei die Definitionen der durch die zeitbezogenen Gruppierungen definierten Zeitfenster eine Zeitangabe innerhalb des Zeitfensters und eine Breite des Zeitfensters aufweisen.
- 3. Das Verfahren nach einem der vorhergehenden Punkte, wobei das vordefinierte Kriterium eine vordefinierte Anzahl von Dokumenten bereitstellt, mit der Übereinstimmung bestehen muss.
- 4. Das Verfahren nach einem der Punkte 1 oder 2, wobei das erste vordefinierte Kriterium einen ersten vordefinierten Bereich von Anzahlen von Dokumenten bereitstellt, mit denen Übereinstimmung bestehen muss.
- 5. Das Verfahren nach einem der vorhergehenden Punkte, wobei das Auswählen des Zeitrahmens von Interesse aufweist:
  - Ermitteln eines ältesten Zeitstempels, der den Dokumenten des Korpus zugewiesen ist,
  - Ermitteln eines jüngsten Zeitstempels, der den Dokumenten des Korpus zugewiesen ist,
  - wobei der Zeitrahmen von Interesse aus dem Zeitintervall ausgewählt ist, das durch den ältesten und den jüngsten Zeitstempel überspannt wird.
6. Das Verfahren nach Punkt 5, wobei der Zeitrahmen von Interesse gleich dem Zeitintervall ist, das durch den ältesten und den jüngsten Zeitstempel überspannt wird.
7. Das Verfahren nach Punkt 5, wobei der Zeitrahmen von Interesse kürzer als das Zeitintervall ist, das durch den ältesten und den jüngsten Zeitstempel überspannt wird.
8. Das Verfahren nach einem der vorhergehenden Punkte, wobei zum zufälligen Auswählen der zeitbezogenen Gruppierungen das Verfahren ferner ein Ermitteln erster zeitbezogener Gruppierungen eines ersten Teilsatzes des Satzes von zeitbezogenen Gruppierungen unter Verwendung erster Suchabfragen aufweist, wobei das Ermitteln jeder der ersten zeitbezogenen Gruppierungen aufweist:
- Auswählen eines ersten Zeitfensters innerhalb des Zeitrahmens von Interesse mit einer vordefinierten Breite,
- Erzeugen einer ersten Suchabfrage, die eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des ersten Zeitfensters definiert,
- Senden der ersten Suchabfrage an die Suchmaschinenschnittstelle zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex,
- als Reaktion auf das Senden der ersten Suchabfrage Empfangen eines ersten Suchergebnisses von der Suchmaschinenschnittstelle, wobei das erste Suchergebnis einen Satz von Dokumenten des Korpus mit Zeitstempeln innerhalb des ersten Zeitfensters aufweist, das durch die erste Suchabfrage definiert ist,
- wenn das empfangene erste Suchergebnis das erste vordefinierte Kriterium bezüglich der Anzahl von Dokumenten erfüllt, die in den zeitbezogenen Gruppierungen enthalten sein müssen, Erzeugen der ersten zeitbezogenen Gruppierung, die eine Definition des ersten Zeitfensters aufweist, das durch die erste Suchabfrage verwendet wird,
- anderenfalls Anpassen des ersten Zeitfensters und Ausführen einer weiteren Suchabfrage unter Verwendung einer angepassten ersten Suchabfrage mit dem angepassten ersten Zeitfenster.
9. Das Verfahren nach Punkt 8, wobei das Anpassen des ersten Zeitfensters und das Ausführen einer weiteren Suchabfrage mit einer angepassten ersten Suchabfrage mit dem angepassten ersten Zeitfenster wiederholt wird, bis entweder das erste Suchergebnis der weiteren Suche das erste vordefinierte Kriterium erfüllt oder eine vordefinierte maximale Anzahl von Wiederholungen erreicht ist.
10. Das Verfahren nach einem der Punkte 8 bis 9, wobei das Anpassen des ersten Zeitfensters ein Anpassen der Breite des ersten Zeitfensters aufweist, wobei die Breite des ersten Zeitfensters verringert wird, wenn die Anzahl von Dokumenten des Korpus, denen Zeitstempel innerhalb des ersten Zeitfensters zugewiesen sind, zu groß ist, sodass das Suchergebnis das erste vordefinierte Kriterium nicht erfüllt, und die Breite des ersten Zeitfensters vergrößert wird, wenn die Anzahl von Dokumenten des Korpus, denen Zeitstempel innerhalb des ersten Zeitfensters zugewiesen sind, zu klein ist, um das erste Suchkriterium zu erfüllen.
11. Das Verfahren nach einem der Punkte 8 bis 10, wobei das Verfahren ferner ein Speichern des ersten Teilsatzes von zeitbezogenen Gruppierungen aufweist.
12. Das Verfahren nach einem der vorhergehenden Punkte, wobei zum zufälligen Auswählen der zeitbezogenen Gruppierungen das Verfahren ferner ein Vorhersagen zweiter zeitbezogener Gruppierungen eines zweiten Teilsatzes des Satzes von zeitbezogenen Gruppierungen aufweist, wobei die zweiten zeitbezogenen Gruppierungen zweite Zeitfenster innerhalb des vordefinierten Zeitrahmens unter Verwendung der ersten zeitbezogenen Gruppierungen definieren, sodass alle der vorhergesagten zweiten Zeitfenster das erste vordefinierte Kriterium erfüllen.
13. Das Verfahren nach Punkt 12, wobei das Vorhersagen ein Erzeugen eines Maschinenlernmodells aufweist, das zum Vorhersagen der zweiten zeitbezogenen Gruppierung trainiert ist, wobei das Erzeugen des Maschinenlernmodells aufweist:
- Bereitstellen von Trainingssätzen unter Verwendung der ersten zeitbezogenen Gruppierungen, wobei jeder Trainingssatz eine Zeitangabe, die als Trainingseingabedaten einem ersten Zeitfenster zugewiesen ist, das durch die ersten zeitbezogenen Gruppierungen definiert ist, und eine Breite des jeweiligen ersten Zeitfensters als Trainingsausgabedaten aufweist,
- Ausführen eines Lernalgorithmus an den Trainingssätzen zum Erzeugen des Maschinenlernmodells.
14. Das Verfahren nach Punkt 13, wobei das Vorhersagen unter Verwendung des Maschinenlernmodells ferner aufweist:
- Bereitstellen erster Eingabedaten, die eine Zeitangabe für das Maschinenlernmodell aufweisen, wobei die bereitgestellte Zeitangabe innerhalb des Zeitrahmens von Interesse liegt, wohingegen die jeweilige Zeitangabe außerhalb des ersten Zeitfensters liegt, das durch die ersten zeitbezogenen Gruppierungen definiert ist,
- als Reaktion auf das Bereitstellen der ersten Eingabedaten Empfangen erster Ausgabedaten von dem Maschinenlernmodell, die eine Vorhersage einer zweiten zeitbezogenen Gruppierung aufweisen, die ein zweites Zeitfenster mit der durch die ersten Eingabedaten bereitgestellten Zeitangabe definiert, wobei das zweite Zeitfenster der vorhergesagten zweiten zeitbezogenen Gruppierung das erste vordefinierte Kriterium erfüllt.
15. Das Verfahren nach einem der Punkte 12 bis 14, wobei das Verfahren ferner ein Speichern des zweiten Teilsatzes von zeitbezogenen Gruppierungen aufweist.
16. Das Verfahren nach einem der Punkte 12 bis 14, wobei das zufällige Auswählen der zeitbezogenen Gruppierung aus dem Satz von zeitbezogenen Gruppierungen aufweist:
- Bereitstellen zweiter Eingabedaten, die eine zufällig ausgewählte Zeitangabe innerhalb des Zeitrahmens von Interesse aufweisen, für das Maschinenlernmodell,
- als Reaktion auf das Bereitstellen der zweiten Eingabedaten Empfangen zweiter Ausgabedaten von dem Maschinenlernmodell, die die zeitbezogene Gruppierung des Satzes von zeitbezogenen Gruppierungen aufweisen, die das Zeitfenster definieren, das die zufällig ausgewählte Zeitangabe aufweist und das erste vordefinierte Kriterium erfüllt.
17. Das Verfahren nach einem der vorhergehenden Punkte, wobei zum zufälligen Auswählen der zeitbezogenen Gruppierungen das Verfahren ferner ein Ermitteln dritter zeitbezogener Gruppierungen eines dritten Teilsatzes des Satzes von zeitbezogenen Gruppierungen aufweist, wobei das Ermitteln der dritten zeitbezogenen Gruppierungen ein Erfassen einer oder mehrerer gespeicherter dritter Teilsätze von zeitbezogenen Gruppierungen aufweist.
18. Das Verfahren nach einem der vorhergehenden Punkte, wobei das Verfahren ferner ein Prüfen, ob das empfangene Suchergebnis ein zweites vordefiniertes Kriterium bezüglich der Anzahl von Dokumenten erfüllt, aus denen das Suchergebnis besteht, und wenn das zweite vordefinierte Kriterium nicht erfüllt ist, ein Anpassen der Breite des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist.
19. Das Verfahren nach Punkt 18, wobei das zweite vordefinierte Kriterium eine Anzahl von Dokumenten definiert, mit der die Anzahl von Dokumenten übereinstimmen muss, aus denen das Suchergebnis besteht.
20. Das Verfahren nach Punkt 18, wobei das zweite vordefinierte Kriterium einen Bereich von Anzahlen von Dokumenten definiert, aus denen das Suchergebnis bestehen muss.
21. Das Verfahren nach einem der Punkte 18 bis 20, wobei das Anpassen des Zeitfensters ein Anpassen der Breite des Zeitfensters aufweist, wobei die Breite des Zeitfensters verringert wird, wenn die Anzahl von Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters zu groß ist, um das zweite vordefinierte Kriterium zu erfüllen, und die Breite des Zeitfensters vergrößert wird, wenn die Anzahl des Korpus mit Zeitstempeln innerhalb des Zeitfensters zu klein ist, um das zweite Suchkriterium zu erfüllen.
22. Das Verfahren nach einem der Punkte 18 bis 21, wobei das Verfahren ferner in Abhängigkeit von dem Anpassen des Zeitfensters, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, ein Anpassen mindestens der Zeitfenster aufweist, die durch zeitbezogene Gruppierungen benachbart zu der zufällig ausgewählten zeitbezogenen Gruppierung definiert sind.
23. Das Verfahren nach einem der vorhergehenden Punkte, wobei das Verfahren ferner ein Durchführen einer statistischen Analyse unter Verwendung des einen oder der mehreren bereitgestellten Dokumente umfasst.
24. Ein Computerprogrammprodukt, das ein nichtflüchtiges, durch einen Computer lesbares Speichermedium aufweist, das darauf verkörperte, durch eine Maschine ausführbare Programmanweisungen enthält, um unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine ein oder mehrere Zufallsabtastdokumente aus einem Korpus von Dokumenten bereitzustellen, wobei die Suchmaschine einen Suchindex aufweist, der das Korpus von Dokumenten indiziert, wobei jedem der Dokumente des Korpus ein Zeitstempel zugewiesen ist, wobei eine Ausführung der Programmanweisungen durch einen Prozessor eines Computers den Prozessor veranlasst, das Computersystem zu steuern zum:
- Ermitteln eines interessierenden Zeitrahmens,
- Bereitstellen eines oder mehrerer Zufallsabtastdokumente, wobei der Zeitstempel eines jeden der Zufallsabtastdokumente innerhalb eines Zeitrahmens von Interesse liegt, wobei das Bereitstellen eines jeden der Zufallsabtastdokumente aufweist:
  - zufälliges Auswählen einer zeitbezogenen Gruppierung aus einem Satz von zeitbezogenen Gruppierungen, wobei der Satz von zeitbezogenen Gruppierungen den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern unterteilt, wobei jede der zeitbezogenen Gruppierungen eines der Zeitfenster definiert, wobei bei jedem der Zeitfenster die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium erfüllt,
  - Senden einer Suchabfrage zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex an die Suchmaschinenschnittstelle, wobei die Suchabfrage eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters definiert, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist,
  - als Reaktion auf das Senden der Suchabfrage Empfangen eines Suchergebnisses von der Suchmaschinenschnittstelle, wobei das Suchergebnis einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, und
  - zufälliges Auswählen eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht.
25. Ein Computersystem zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine, wobei die Suchmaschine einen Suchindex aufweist, der das Korpus von Dokumenten indiziert, wobei jedem der Dokumente des Korpus ein Zeitstempel zugewiesen ist, wobei das Computersystem einen Prozessor und einen Hauptspeicher aufweist, der durch eine Maschine ausführbare Programmanweisungen speichert, wobei eine Ausführung der Programmanweisungen durch den Prozessor den Prozessor veranlasst, das Computersystem zu steuern zum:
- Ermitteln eines interessierenden Zeitrahmens,
- Bereitstellen eines oder mehrerer Zufallsabtastdokumente, wobei der Zeitstempel eines jeden der Zufallsabtastdokumente innerhalb eines Zeitrahmens von Interesse liegt, wobei das Bereitstellen eines jeden der Zufallsabtastdokumente aufweist:
  - zufälliges Auswählen einer zeitbezogenen Gruppierung aus einem Satz von zeitbezogenen Gruppierungen, wobei der Satz von zeitbezogenen Gruppierungen den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern unterteilt, wobei jede der zeitbezogenen Gruppierungen eines der Zeitfenster definiert, wobei bei jedem der Zeitfenster die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium erfüllt,
  - Senden einer Suchabfrage zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex an die Suchmaschinenschnittstelle, wobei die Suchabfrage eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters definiert, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist,
  - als Reaktion auf das Senden der Suchabfrage Empfangen eines Suchergebnisses von der Suchmaschinenschnittstelle, wobei das Suchergebnis einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, und
  - zufälliges Auswählen eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht.

Claims

Verfahren zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine, wobei die Suchmaschine einen Suchindex aufweist, der das Korpus von Dokumenten indiziert, wobei jedem der Dokumente des Korpus ein Zeitstempel zugewiesen ist, wobei das Verfahren aufweist: Ermitteln eines interessierenden Zeitrahmens, Bereitstellen eines oder mehrerer Zufallsabtastdokumente, wobei der Zeitstempel eines jeden der Zufallsabtastdokumente innerhalb eines Zeitrahmens von Interesse liegt, wobei das Bereitstellen eines jeden der Zufallsabtastdokumente aufweist: zufälliges Auswählen einer zeitbezogenen Gruppierung aus einem Satz von zeitbezogenen Gruppierungen, wobei der Satz von zeitbezogenen Gruppierungen den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern unterteilt, wobei jede der zeitbezogenen Gruppierungen eines der Zeitfenster definiert, wobei bei jedem der Zeitfenster die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium erfüllt, Senden einer Suchabfrage zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex an die Suchmaschinenschnittstelle, wobei die Suchabfrage eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters definiert, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, als Reaktion auf das Senden der Suchabfrage Empfangen eines Suchergebnisses von der Suchmaschinenschnittstelle, wobei das Suchergebnis einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, und zufälliges Auswählen eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht.
Verfahren nach Anspruch 1, wobei die Definitionen der durch die zeitbezogenen Gruppierungen definierten Zeitfenster eine Zeitangabe innerhalb des Zeitfensters und eine Breite des Zeitfensters aufweisen.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das vordefinierte Kriterium eine vordefinierte Anzahl von Dokumenten bereitstellt, mit der Übereinstimmung bestehen muss.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das vordefinierte Kriterium einen vordefinierten Bereich von Anzahlen von Dokumenten bereitstellt, mit denen Übereinstimmung bestehen muss.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Auswählen des Zeitrahmens von Interesse aufweist: Ermitteln eines ältesten Zeitstempels, der den Dokumenten des Korpus zugewiesen ist, Ermitteln eines jüngsten Zeitstempels, der den Dokumenten des Korpus zugewiesen ist, wobei der Zeitrahmen von Interesse aus dem Zeitintervall ausgewählt ist, das durch den ältesten und den jüngsten Zeitstempel überspannt wird.
Verfahren nach Anspruch 5, wobei der Zeitrahmen von Interesse gleich dem Zeitintervall ist, das durch den ältesten und den jüngsten Zeitstempel überspannt wird.
Verfahren nach Anspruch 5, wobei der Zeitrahmen von Interesse kürzer als das Zeitintervall ist, das durch den ältesten und den jüngsten Zeitstempel überspannt wird.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum zufälligen Auswählen der zeitbezogenen Gruppierungen das Verfahren ferner ein Ermitteln erster zeitbezogener Gruppierungen eines ersten Teilsatzes des Satzes von zeitbezogenen Gruppierungen unter Verwendung erster Suchabfragen aufweist, wobei das Ermitteln jeder der ersten zeitbezogenen Gruppierungen aufweist: Auswählen eines ersten Zeitfensters innerhalb des Zeitrahmens von Interesse mit einer vordefinierten Breite, Erzeugen einer ersten Suchabfrage, die eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des ersten Zeitfensters definiert, Senden der ersten Suchabfrage an die Suchmaschinenschnittstelle zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex, als Reaktion auf das Senden der ersten Suchabfrage Empfangen eines ersten Suchergebnisses von der Suchmaschinenschnittstelle, wobei das erste Suchergebnis einen Satz von Dokumenten des Korpus mit Zeitstempeln innerhalb des ersten Zeitfensters aufweist, das durch die erste Suchabfrage definiert ist, wenn das empfangene erste Suchergebnis das erste vordefinierte Kriterium bezüglich der Anzahl von Dokumenten erfüllt, die in den zeitbezogenen Gruppierungen enthalten sein müssen, Erzeugen der ersten zeitbezogenen Gruppierung, die eine Definition des ersten Zeitfensters aufweist, das durch die erste Suchabfrage verwendet wird, anderenfalls Anpassen des ersten Zeitfensters und Ausführen einer weiteren Suchabfrage unter Verwendung einer angepassten ersten Suchabfrage mit dem angepassten ersten Zeitfenster.
Verfahren nach Anspruch 8, wobei das Anpassen des ersten Zeitfensters und das Ausführen einer weiteren Suchabfrage mit einer angepassten ersten Suchabfrage mit dem angepassten ersten Zeitfenster wiederholt wird, bis entweder das erste Suchergebnis der weiteren Suche das erste vordefinierte Kriterium erfüllt oder eine vordefinierte maximale Anzahl von Wiederholungen erreicht ist.
Verfahren nach einem der Ansprüche 8 bis 9, wobei das Anpassen des ersten Zeitfensters ein Anpassen der Breite des ersten Zeitfensters aufweist, wobei die Breite des ersten Zeitfensters verringert wird, wenn die Anzahl von Dokumenten des Korpus, denen Zeitstempel innerhalb des ersten Zeitfensters zugewiesen sind, zu groß ist, sodass das Suchergebnis das erste vordefinierte Kriterium nicht erfüllt, und die Breite des ersten Zeitfensters vergrößert wird, wenn die Anzahl von Dokumenten des Korpus, denen Zeitstempel innerhalb des ersten Zeitfensters zugewiesen sind, zu klein ist, um das erste Suchkriterium zu erfüllen.
Verfahren nach einem der Ansprüche 8 bis 10, wobei das Verfahren ferner ein Speichern des ersten Teilsatzes von zeitbezogenen Gruppierungen aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum zufälligen Auswählen der zeitbezogenen Gruppierungen das Verfahren ferner ein Vorhersagen zweiter zeitbezogener Gruppierungen eines zweiten Teilsatzes des Satzes von zeitbezogenen Gruppierungen aufweist, wobei die zweiten zeitbezogenen Gruppierungen zweite Zeitfenster innerhalb des vordefinierten Zeitrahmens unter Verwendung der ersten zeitbezogenen Gruppierungen definieren, sodass alle der vorhergesagten zweiten Zeitfenster das erste vordefinierte Kriterium erfüllen.
Verfahren nach Anspruch 12, wobei das Vorhersagen ein Erzeugen eines Maschinenlernmodells zum Vorhersagen der zweiten zeitbezogenen Gruppierung aufweist, wobei das Erzeugen des Maschinenlernmodells aufweist: Bereitstellen von Trainingssätzen unter Verwendung der ersten zeitbezogenen Gruppierungen, wobei jeder Trainingssatz eine Zeitangabe, die als Trainingseingabedaten einem ersten Zeitfenster zugewiesen ist, das durch die ersten zeitbezogenen Gruppierungen definiert ist, und eine Breite des jeweiligen ersten Zeitfensters als Trainingsausgabedaten aufweist, Ausführen eines Lernalgorithmus an den Trainingssätzen zum Erzeugen des Maschinenlernmodells.
Verfahren nach einem der Ansprüche 12 bis 13, wobei das Vorhersagen unter Verwendung des Maschinenlernmodells ferner aufweist: Bereitstellen erster Eingabedaten, die eine Zeitangabe für das Maschinenlernmodell aufweisen, wobei die bereitgestellte Zeitangabe innerhalb des Zeitrahmens von Interesse liegt, wohingegen die jeweilige Zeitangabe außerhalb des ersten Zeitfensters liegt, das durch die ersten zeitbezogenen Gruppierungen definiert ist, als Reaktion auf das Bereitstellen der ersten Eingabedaten Empfangen erster Ausgabedaten von dem Maschinenlernmodell, die eine Vorhersage einer zweiten zeitbezogenen Gruppierung aufweisen, die ein zweites Zeitfenster mit der durch die ersten Eingabedaten bereitgestellten Zeitangabe definiert, wobei das zweite Zeitfenster der vorhergesagten zweiten zeitbezogenen Gruppierung das erste vordefinierte Kriterium erfüllt.
Verfahren nach einem der Ansprüche 12 bis 14, wobei das Verfahren ferner ein Speichern des zweiten Teilsatzes von zeitbezogenen Gruppierungen aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das zufällige Auswählen der zeitbezogenen Gruppierung aus dem Satz von zeitbezogenen Gruppierungen aufweist: Bereitstellen zweiter Eingabedaten, die eine zufällig ausgewählte Zeitangabe innerhalb des Zeitrahmens von Interesse aufweisen, für das Maschinenlernmodell, als Reaktion auf das Bereitstellen der zweiten Eingabedaten Empfangen zweiter Ausgabedaten von dem Maschinenlernmodell, die die zeitbezogene Gruppierung des Satzes von zeitbezogenen Gruppierungen aufweisen, die das Zeitfenster definieren, das die zufällig ausgewählte Zeitangabe aufweist und das erste vordefinierte Kriterium erfüllt.
Verfahren nach einem der vorhergehenden Ansprüche, wobei zum zufälligen Auswählen der zeitbezogenen Gruppierungen das Verfahren ferner ein Ermitteln dritter zeitbezogener Gruppierungen eines dritten Teilsatzes des Satzes von zeitbezogenen Gruppierungen aufweist, wobei das Ermitteln der dritten zeitbezogenen Gruppierungen ein Erfassen einer oder mehrerer gespeicherter dritter Teilsätze von zeitbezogenen Gruppierungen aufweist.
Verfahren nach einem der vorhergehenden Ansprüche, wobei das Verfahren ferner ein Prüfen, ob das empfangene Suchergebnis ein zweites vordefiniertes Kriterium bezüglich der Anzahl von Dokumenten erfüllt, aus denen das Suchergebnis besteht, und wenn das zweite vordefinierte Kriterium nicht erfüllt ist, ein Anpassen der Breite des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist.
Verfahren nach Anspruch 18, wobei das zweite vordefinierte Kriterium eine Anzahl von Dokumenten definiert, mit der die Anzahl von Dokumenten übereinstimmen muss, aus denen das Suchergebnis besteht.
Verfahren nach Anspruch 18, wobei das zweite vordefinierte Kriterium einen Bereich von Anzahlen von Dokumenten definiert, aus denen das Suchergebnis bestehen muss.
Verfahren nach einem der Ansprüche 18 bis 20, wobei das Anpassen des Zeitfensters ein Anpassen der Breite des Zeitfensters aufweist, wobei die Breite des Zeitfensters verringert wird, wenn die Anzahl von Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters zu groß ist, um das zweite vordefinierte Kriterium zu erfüllen, und die Breite des Zeitfensters vergrößert wird, wenn die Anzahl des Korpus mit Zeitstempeln innerhalb des Zeitfensters zu klein ist, um das zweite Suchkriterium zu erfüllen.
Verfahren nach einem der Ansprüche 18 bis 21, wobei das Verfahren ferner in Abhängigkeit von dem Anpassen des Zeitfensters, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, ein Anpassen mindestens der Zeitfenster aufweist, die durch zeitbezogene Gruppierungen benachbart zu der zufällig ausgewählten zeitbezogenen Gruppierung definiert sind.
Verfahren nach einem der vorhergehenden Punkte, wobei das Verfahren ferner ein Durchführen einer statistischen Analyse unter Verwendung des einen oder der mehreren bereitgestellten Dokumente umfasst.
Computerprogrammprodukt, das ein nichtflüchtiges, durch einen Computer lesbares Speichermedium aufweist, das darauf verkörperte, durch eine Maschine ausführbare Programmanweisungen enthält, um unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine ein oder mehrere Zufallsabtastdokumente aus einem Korpus von Dokumenten bereitzustellen, wobei die Suchmaschine einen Suchindex aufweist, der das Korpus von Dokumenten indiziert, wobei jedem der Dokumente des Korpus ein Zeitstempel zugewiesen ist, wobei eine Ausführung der Programmanweisungen durch einen Prozessor eines Computers den Prozessor veranlasst, das Computersystem zu steuern zum: Ermitteln eines interessierenden Zeitrahmens, Bereitstellen eines oder mehrerer Zufallsabtastdokumente, wobei der Zeitstempel eines jeden der Zufallsabtastdokumente innerhalb eines Zeitrahmens von Interesse liegt, wobei das Bereitstellen eines jeden der Zufallsabtastdokumente aufweist: zufälliges Auswählen einer zeitbezogenen Gruppierung aus einem Satz von zeitbezogenen Gruppierungen, wobei der Satz von zeitbezogenen Gruppierungen den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern unterteilt, wobei jede der zeitbezogenen Gruppierungen eines der Zeitfenster definiert, wobei bei jedem der Zeitfenster die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium erfüllt, Senden einer Suchabfrage zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex an die Suchmaschinenschnittstelle, wobei die Suchabfrage eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters definiert, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, als Reaktion auf das Senden der Suchabfrage Empfangen eines Suchergebnisses von der Suchmaschinenschnittstelle, wobei das Suchergebnis einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, und zufälliges Auswählen eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht.
Computersystem zum Bereitstellen eines oder mehrerer Zufallsabtastdokumente aus einem Korpus von Dokumenten unter Verwendung einer Suchmaschinenschnittstelle einer Suchmaschine, wobei die Suchmaschine einen Suchindex aufweist, der das Korpus von Dokumenten indiziert, wobei jedem der Dokumente des Korpus ein Zeitstempel zugewiesen ist, wobei das Computersystem einen Prozessor und einen Hauptspeicher aufweist, der durch eine Maschine ausführbare Programmanweisungen speichert, wobei eine Ausführung der Programmanweisungen durch den Prozessor den Prozessor veranlasst, das Computersystem zu steuern zum: Ermitteln eines interessierenden Zeitrahmens, Bereitstellen eines oder mehrerer Zufallsabtastdokumente, wobei der Zeitstempel eines jeden der Zufallsabtastdokumente innerhalb eines Zeitrahmens von Interesse liegt, wobei das Bereitstellen eines jeden der Zufallsabtastdokumente aufweist: zufälliges Auswählen einer zeitbezogenen Gruppierung aus einem Satz von zeitbezogenen Gruppierungen, wobei der Satz von zeitbezogenen Gruppierungen den Zeitrahmen von Interesse in eine Mehrzahl von Zeitfenstern unterteilt, wobei jede der zeitbezogenen Gruppierungen eines der Zeitfenster definiert, wobei bei jedem der Zeitfenster die Anzahl von Dokumenten, aus denen das Korpus mit Zeitstempeln innerhalb des jeweiligen Zeitfensters besteht, ein erstes vordefiniertes Kriterium erfüllt, Senden einer Suchabfrage zur Ausführung durch die Suchmaschine unter Verwendung des Suchindex an die Suchmaschinenschnittstelle, wobei die Suchabfrage eine Suche nach Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters definiert, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, als Reaktion auf das Senden der Suchabfrage Empfangen eines Suchergebnisses von der Suchmaschinenschnittstelle, wobei das Suchergebnis einen Satz aus allen Dokumenten des Korpus mit Zeitstempeln innerhalb des Zeitfensters aufweist, das durch die zufällig ausgewählte zeitbezogene Gruppierung definiert ist, und zufälliges Auswählen eines der Dokumente, aus denen der empfangene Satz von Dokumenten besteht.