DE10028624A1 - Verfahren und Vorrichtung zur Dokumentenbeschaffung - Google Patents
Verfahren und Vorrichtung zur DokumentenbeschaffungInfo
- Publication number
- DE10028624A1 DE10028624A1 DE10028624A DE10028624A DE10028624A1 DE 10028624 A1 DE10028624 A1 DE 10028624A1 DE 10028624 A DE10028624 A DE 10028624A DE 10028624 A DE10028624 A DE 10028624A DE 10028624 A1 DE10028624 A1 DE 10028624A1
- Authority
- DE
- Germany
- Prior art keywords
- count
- documents
- document
- strings
- partial
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Ein Verfahren zur Dokumentenbeschaffung beinhaltet die Schritte der Unterteilung einer Suchzeichenfolge in partielle Zeichenfolgen, das Auswählen eines Dokuments oder mehrerer Dokumente von einer Vielzahl gespeicherter Dokumente, derartig, dass das eine Dokument oder die mehreren Dokumente jeweils alle partiellen Zeichenfolgen enthalten, die Berechnung jeweiliger Ränge der partiellen Zeichenfolgen für jedes der Anzahl Dokumente und die Berechnung eines Rangs der Suchzeichenfolge von den jeweiligen Rängen der partiellen Zeichenfolgen für jedes der Anzahldokumente.
Description
Die vorliegende Erfindung betrifft im allgemeinen eine Vorrichtung, ein Verfahren und Spei
chermedium mit einem darin enthaltenen Programm sowie ein Programm zur Dokumentensu
che, Dokumentenbeschaffung (insbesondere bzw. Dokumentenwiedergewinnung, Dokumenten
abruf).
Dokumentenbeschaffungstechniken (Dokumenten-"Retrieval"-Techniken) beschaffen Doku
mente, die eine Suchzeichenfolge enthalten, von einer Dokumenten-Datenbank. Eine derartige
Dokumentenbeschaffungstechnik ist ein Wahrscheinlich-Relevanz-Beschaffungsschema ("likely
relevance retrieval scheme"), das Dokumente beschafft (sucht, lokalisiert und/oder abruft), die
Zeichenfolgen enthalten, die einer Suchzeichenfolge ähnlich sind.
Die Wahrscheinlich-Relevanz-Beschaffungstechnik bzw. die Beschaffungstechnik, die auf einer
wahrscheinlichen Relevanz basiert, ist zum Beispiel in der japanischen offengelegten Patentan
meldung Nr. 11-85776 offenbart. Diese Technik berechnet Rangordnungen bzw. Rangord
nungspunkte partieller Zeichenfolgen, die Teile einer Suchzeichenfolge sind, und zwar basie
rend auf der Häufigkeit des Auftretens und sucht nach der Suchzeichenfolge in dem Dokument,
in dem die erhaltenen Rangpunkte bzw. Rangordnungspunkte verwendet werden.
Ein anderes Beispiel der Wahrscheinlich-Relevanz-Beschaffungstechnik findet man in "Deve
lopment and Evaluation of Full-Document-Based Retrieval System" 'Retrieval Express'",
Proceedings of the Third Annual Meeting of the Association for Natural Language Processing,
Seiten 361-364, März 1997. Diese Technik erhält die Häufigkeit des Auftretens einer Suchzei
chenfolge in einem Dokument, in dem alle Positionen eines derartigen Auftretens in dem
Dokument, basierend auf dem Auftreten von partiellen Zeichenfolgen erhalten werden und
berechnet eine Rangordnung der Suchzeichenfolgen bezüglich des Dokuments. Die Technik,
die in der obigen offengelegten Patentanmeldung offenbart ist, sucht jedoch lediglich nach einer
Suchzeichenfolge in einem einzelnen Dokument und kann nicht verwendet werden, um ein
Dokument wiederzubeschaffen, das eine Suchzeichenfolge von einer Vielzahl von Dokumenten
enthält.
Weiter werden je länger die Suchzeichenfolge ist, desto größer die Anzahl der partiellen
Zeichenfolgen, die bei der Suche zu berücksichtigen sind. Ebenso ist je länger die Suchzeichen
folge ist, desto größer die Anzahl der Dokumentsegmente, die zur Berechnung der Rangpunkte
("ranking scores") zu verarbeiten sind. Dies führt zu einer Zunahme in der Beschaffungszeit.
Wenn zum Beispiel eine Suchzeichenfolge "ABCDEF" lautet (jeder Großbuchstabe stellt ein
einziges japanisches Zeichen zum Zwecke der Erläuterung dar) und partielle Zeichenfolgen,
die jeweils aus zwei Zeichen bestehen, als eine Einheit bei der Verarbeitung verwendet werden,
kann man fünf partielle Zeichenfolgen, d. h. "AB", "BC", "CD", "DE" und "EF" extrahieren.
Wenn im allgemeinen eine Suchzeichenfolge aus m-Zeichen besteht und n-Zeichen eine Verar
beitungseinheit bilden, kann man (m - n + 1) partielle Zeichenfolge extrahieren. Da der
Rangpunkt bei jeder Position zu berechnen ist, wo wenigstens eine extrahierte partielle Zei
chenfolge erscheint, nimmt die Anzahl der Positionen, für die eine Berechnung erforderlich ist,
mit der Anzahl der partiellen Zeichenfolgen zu.
Ein Rangpunkt partieller Zeichenfolgen in dem Dokument wird basierend auf der Häufigkeit
des Auftretens der partiellen Zeichenfolge in dem Dokument berechnet. Für manche der
partiellen Zeichenfolgen, die in dem Dokument erscheinen, kann gelten, dass sie nicht durch
die Suchzeichenfolge getragen werden. Dennoch werden diese für die Rangpunkte mitgezählt.
Dies reduziert die Genauigkeit der Suche. Zum Beispiel kann die Suchzeichenfolge "ABCDEF"
nur einmal bei einem gegebenen Dokument erscheinen und eine andere Zeichenfolge
"WXYZEF", die eine vollständig unterschiedliche Bedeutung hat, kann mehrere Male in
diesem Dokument erscheinen. In einem derartigen Fall erscheint die partielle Suchzeichenfolge
"EF" so häufig, wie die Anzahl des Auftretens von "ABCDEF" plus die Anzahl des Auftretens
von "WXYZEF". Infolgedessen wird der Rangpunkt der partiellen Zeichenfolge "EF" letzt
endlich unangemessen hoch, obwohl die Suchzeichenfolge nur selten auftritt, was zu einem
unangemessen hohen Rangpunkt für die Suchzeichenfolge führt.
Ein anderes Problem liegt darin, dass die Suche nicht durchgeführt werden kann, falls die
Länge einer Suchzeichenfolge kürzer als eine Verarbeitungseinheit ist. Dies liegt daran, dass
die Suchzeichenfolge nicht in partielle Zeichenfolgen unterteilt werden kann, die die Länge der
Verarbeitungseinheit haben. Falls zum Beispiel die Suchzeichenfolge "B" ist und zwei Zeichen
eine Verarbeitungseinheit bilden, kann die Suche gemäß diesem Verfahren nicht durchgeführt
werden, da die Suchzeichenfolge kürzer als die Verarbeitungseinheit ist.
Die Technik, die in "Development and Evaluation of Full-Document-Based Retrieval System
'Retrieval Express"', Proceedings of the Third Annual Meeting of the Association for Natural
Language Processing, Seiten 361-364, März 1997 offenbart ist, hat dasselbe Problem, wie die
Technik in der obigen offengelegten Patentanmeldung. Das heißt, der Umfang der Berechnung
zum Zählen von Auftreteereignissen einer Suchzeichenfolge in einem Dokument nimmt mit der
Länge der Suchzeichenfolge zu, was zu einer Verlängerung einer Verarbeitungszeit für die
Dokumentbeschaffung führt. Je größer die Anzahl der Auftreteereignisse einer Suchzeichenfol
ge, desto auffälliger ist die Zunahme der Verarbeitungszeit der Dokumentbeschaffung.
Aufgabe der Erfindung ist es, eine Vorrichtung, ein Verfahren, ein Programm und ein Spei
cherprodukt mit dem Programm bereitzustellen, bei dem ein Beschaffungsschema eingesetzt
wird, das ein Dokument schnell mit hoher Geschwindigkeit beschaffen kann.
Vorstehende Aufgabe wird durch die Gegenstände der unabhängigen Ansprüche gelöst. Vor
teilhafte Weiterbildungen gehen aus den Unteransprüchen hervor.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Computerlast der Auswahl
eines Dokuments und der Berechnung von Rangpunkten reduziert wird, wodurch eine Hochge
schwindigkeitsverarbeitung erzielt wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, das frei von einem Einfluss von anderen
Zeichenfolgen ist, die für eine Suchzeichenfolge nicht relevant sind, wodurch die Beschaf
fungsgenauigkeit verbessert wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Computerlast zum Erzielen
bzw. Erfassung von Positionen des Auftretens einer Suchzeichenfolge reduziert werden kann,
wodurch eine Dokumentbeschaffung mit hoher Geschwindigkeit erzielt wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Anzahl der Rangpunktsuch
vorgänge bzw. Rang relevante Suchvorgänge reduziert werden kann, wodurch die Suchge
schwindigkeit erhöht wird.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, das ein Dokument selbst dann beschaffen
kann, wenn die Länge einer Suchzeichenfolge kürzer als die Verarbeitungseinheit ist.
Vorteilhaft wird ein Beschaffungsschema eingesetzt, bei dem die Berechnungslast für die
Berechnung der Rangpunkt reduziert wird, wodurch eine Beschaffung mit hoher Geschwindig
keit erzielt wird.
Vorteilhaft wird ein Verfahren zur Dokumentbeschaffung bereitgestellt, das die Schritt der
Unterteilung einer Suchzeichenfolge in partielle Zeichenfolgen, die Auswahl eines Dokuments
oder mehrerer Dokumente aus einer Vielzahl bzw. Anzahl von gespeicherten bzw. registrierten
Dokumenten, so dass das eine Dokument oder die mehreren Dokumente jeweils alle partiellen
Zeichenfolgen enthalten, die Berechnung jeweiliger Punkte bzw. Rangpunkte der jeweiligen
Zeichenfolgen für jedes des einen Dokuments oder der mehreren Dokumente und die Berech
nung eines Rangpunkts bzw. Punkts der Suchzeichenfolge von den jeweiligen Punkten bzw.
Rangpunkten der partiellen Zeichenfolgen für jedes Dokument des einen Dokuments oder der
mehreren Dokumente umfasst.
"Ein Dokument oder mehrere Dokumente" werden hierin auch kurz als "Anzahl von Doku
menten" bezeichnet, wobei es sich dabei um ein einzelnes Dokument oder mehrere oder viele
Dokumente handeln kann.
Bei dem oben beschriebenen Verfahren werden das eine Dokument oder die mehreren Doku
mente, die partielle Zeichenfolgen enthalten, die der Suchzeichenfolge ähneln, vor der Berech
nung der Punkte bzw. der Rangpunkte ausgewählt. Aufgrund dieses Filterungsprozesses wird
die Hochgeschwindigkeits-Dokumentbeschaffung erzielt, um ein Dokument aus der Vielzahl
von gespeicherten Dokumenten zu beschaffen.
Vorteilhaft ist ein Verfahren derartig, dass der Schritt des Unterteilens die Suchzeichenfolge
in partielle Zeichenfolgen unterteilt, die sich im allgemeinen nicht überlappen und die eine volle
Länge der Suchzeichenfolge abdecken.
Bei dem oben beschriebenen Verfahren kann die Berechnungslast der Auswahl des einen
Dokuments oder von mehreren Dokumenten und der Berechnung von Punkten bzw. Rängen
reduziert werden, wodurch einen Beschaffung von Dokumenten mit hoher Geschwindigkeit
erzielt wird.
Vorteilhaft ist das beschriebene Verfahren derartig, dass der Schritt der Berechnung jeweiliger
Rangpunkte bzw. Punkte für die partiellen Zeichenfolgen die Schritte enthält, wonach ein erster
Zählwert erhalten wird, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene
Folge der partiellen Zeichenfolgen enthalten, zweite Zählwerte erhalten werden, die jeweils
anzeigen, wie viele Male eine entsprechende Folge der partiellen Zeichenfolgen bei einem
gegebenen Dokument des einen Dokuments oder mehreren Dokumente erscheint, der kleinste
der zweiten Zählwerte bzw. Zählungen erhalten wird und ein Rangpunkt bzw. Punkt der
gegebenen einen Zeichenfolge der partiellen Zeichenfolgen für das gegebene eine Dokument
des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und dem kleins
ten der zweiten Zählwerte derartig erhalten wird, dass der Punkt bzw. Rangpunkt der gegebe
nen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und mit der
Zunahme des kleinsten der zweiten Zählwerte zunimmt.
Vorteilhaft kann der Anschluss eines irrelevanten Auftretens partieller Zeichenfolgen reduziert
werden, wenn Ränge bzw. Punkte berechnet werden, wodurch die Beschaffungsgenauigkeit
verbessert wird.
Vorteilhaft ist das oben zuerst beschriebene Verfahren derartig, dass der Schritt der Berechnung
jeweiliger Punkte bzw. Rangpunkte der partiellen Zeichenfolgen die Schritte enthält, wonach
ein erster Zählwert erhalten wird, der anzeigt, wie viele der gespeicherten Dokumente eine
gegebene Zeichenfolge der partiellen Zeichenfolgen enthalten, wonach ein zweiter Zählwert
erhalten wird, der anzeigt, wie viele Male die Suchzeichenfolge in einem gegebenen Dokument
des einen Dokuments oder der mehreren Dokumente erscheint, und wonach ein Punkt bzw. ein
Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen für das gegebene eine
Dokument des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und
dem zweiten Zählwert derartig erhalten wird, dass der Punkt bzw. Rangpunkt der gegebenen
einen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und mit der
Zunahme des zweiten Zählwertes abnimmt.
Der Einfluss eines irrelevanten Auftretens partieller Zeichenfolgen innerhalb eines Dokuments
kann beseitigt werden, wenn Punkte berechnet werden, wodurch die Beschaffungsgenauigkeit
verbessert wird.
Vorteilhaft ist das oben beschriebene Verfahren derartig, dass der Schritt der Erzielung eines
zweiten Zählwerts weiter einen Schritt enthält, wonach eine obere Grenze auf den zweiten
Zählwert platziert wird bzw. der zweite Zählwert mit einer oberen Grenze versehen wird.
Bei dem oben beschriebenen Verfahren kann die Berechnungslast bei der Detektion von
Positionen der Suchzeichenfolge reduziert werden, wodurch eine Beschaffung eines Dokuments
mit hoher Geschwindigkeit unterstützt wird.
Vorteilhaft ist das oben zuerst beschriebene Verfahren dergestalt, dass der Schritt der Auswahl
eines Dokuments oder mehrere Dokumente das eine Dokument oder mehrere Dokumente
auswählt, von denen jedes die Suchzeichenfolge enthält, und der Schritt der Berechnung
jeweiliger Rangpunkte der partiellen Zeichenfolgen die Schritte enthält, wonach ein erster
Zählwert anzeigt, wie viele der registrierten Dokumente die Suchzeichenfolge enthalten, ein
zweiter Zählwert anzeigt, wie viele Male eine gegebene Folge der partiellen Zeichenfolgen in
einem gegebenen Dokument des einen Dokuments oder der mehreren Dokumente erscheint und
ein Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen für das gegebene eine Doku
ment des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und dem
zweiten Zählwert derartig erhalten wird, dass der Rangpunkt bzw. Punkt der gegebenen einen
Zeichenfolge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und der
Zunahme des zweiten Zählwertes zunimmt.
Bei dem oben beschriebenen Verfahren kann der Einfluss von irrelevanten Auftreteereignissen
der partiellen Zeichenfolgen über unterschiedliche Dokumente beseitigt werden, wodurch zur
verbesserten Genauigkeit der Dokumentbeschaffung beigetragen wird.
Vorteilhaft ist das oben zuerst beschriebene Verfahren derartig, dass der Schritt der Auswahl
eines Dokuments oder mehrerer Dokumente das eine Dokument oder die mehreren Dokumente
auswählt, von denen jedes die Suchzeichenfolge enthält, und der Schritt der Berechnung
jeweiliger Rangpunkte bzw. Punkte der partiellen Zeichenfolgen die Schritte enthält, wonach
ein erster Zählwert erhalten wird, der anzeigt, wie viele der gespeicherten Dokumente die
Suchzeichenfolge enthalten, eine Grenze von dem ersten Zählwert berechnet wird, ein zweiter
Zählwert erhalten wird, der anzeigt, wie viele Male die Suchzeichenfolge in einem gegebenen
Dokument des einen Dokuments oder der mehreren Dokumente erscheint, während ein oberes
Ende des zweiten Zählwertes auf die Grenze beschränkt wird, und ein Rangpunkt bzw. ein
Punkt einer gegebenen einen Folge der partiellen Zeichenfolgen für das gegebene eine Doku
ment des einen Dokuments oder der mehreren Dokumente von dem ersten Zählwert und dem
zweiten Zählwert derartig erhalten wird, dass der Rangpunkt der gegebenen einen Folge der
partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und mit der Zunahme des
zweiten Zählwertes zunimmt.
Bei dem oben beschriebenen Verfahren kann der Einfluss irrelevanter Auftreteereignisse der
partiellen Zeichenfolgen beseitigt werden und die Berechnungslast von Detektionspositionen
der Suchzeichenfolge kann reduziert werden, wodurch dazu beigetragen wird, eine Beschaffung
eines Dokuments genau und mit hoher Geschwindigkeit zu erzielen.
Vorteilhaft beinhaltet ein Verfahren zur Dokumentbeschaffung die Schritte, wonach jeweilige
Indizes für Dokumente bereitgestellt werden, wobei jeder der jeweiligen Indizes partielle
Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden, und jeweilige
Positionen davon in dem entsprechenden Dokument auflistet, die partiellen Zeichenfolgen
ausgewählt werden, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge
identisch ist, ein Dokument oder mehrere Dokumente von den Dokumenten ausgewählt werden,
so dass das eine Dokument oder die mehreren Dokumente jeweils wenigstens eine Folge der
ausgewählten partiellen Zeichenfolgen enthalten, die jeweiligen Rangpunkte der ausgewählten
partiellen Zeichenfolgen für jedes des einen Dokuments oder der mehreren Dokumente berech
net wird und ein Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausge
wählten partiellen Zeichenfolgen für jedes Dokument des einen oder der mehreren Dokumente
berechnet wird.
Bei dem oben beschriebenen Verfahren kann eine geeignete Dokumentenbeschaffung selbst
dann erzielt werden, wenn die Suchzeichenfolge kürzer als die Länge der partiellen Zeichenfol
ge ist.
Bei der folgenden Beschreibung von Ausführungsformen werden weitere Merkmale offenbart,
wobei Merkmale unterschiedlicher Ausführungsformen kombiniert werden können.
Fig. 1 ist ein Blockdiagramm einer Dokumentbeschaffungsvorrichtung gemäß der ersten
Ausführungsform der vorliegenden Erfindung;
Fig. 2A und 2B sind erläuternde Zeichnungen, die gespeicherte Dokumente zeigen;
Fig. 3 ist ein Blockdiagramm einer Systemkonfiguration, die die Dokumentbeschaf
fungsvorrichtung der Fig. 1 realisiert;
Fig. 4 ist ein Flussdiagramm eines Prozesses zum Berechnung von Rangfolgen für
mehrere Dokumente, wobei der Prozess durch die Dokumentbeschaffungsvorrichtung
gemäß der ersten Ausführungsform der vorliegenden Erfindung durch
geführt wird;
Fig. 5 ist ein Flussdiagramm eines Prozesses der Berechnung eines Rangordnungs
punktes bzw. einer Rangordnung, die bei einem Schritt S3 der Fig. 4 durchge
führt wird;
Fig. 6 ist ein Flussdiagramm eines Prozesses der Berechnung eines Rangordnungs
punktes bzw. eines Rangpunktes entsprechend der zweiten Ausführungsform der
vorliegenden Erfindung;
Fig. 7 ist ein Flussdiagramm eines Prozesses der Berechnung eins Rangpunktes bzw.
eines Rangordnungspunktes gemäß der dritten Ausführungsform der vorliegen
den Erfindung;
Fig. 8 ist ein Flussdiagramm eines Prozesses zum Erzielen eines Auftretungsereignis-
Zählwertes einer Suchzeichenfolge mit einer oberen Grenze gemäß der vierten
Ausführungsform der vorliegenden Erfindung;
Fig. 9 ist ein Flussdiagramm eines Prozesses zur Berechnung der Rangordnungspunkte
einer Vielzahl von Dokumenten gemäß der fünften Ausführungsform der vorlie
genden Erfindung;
Fig. 10 ist ein Flussdiagramm eines Prozesses der Berechnung von Rangpunkten bzw.
Rangordnungspunkten für eine Vielzahl von Dokumenten gemäß der sechsten
Ausführungsform der vorliegenden Erfindung;
Fig. 11A bis 11C sind erläuternde Zeichnungen, die Beispiele von Dokumenten und ein Beispiel
einer entsprechenden Indexeinheit zeigen;
Fig. 12 ist ein Flussdiagramm eines Prozesses zum Berechnen von Rangpunkten bzw.
Rangordnungspunkten für eine Vielzahl von Dokumenten gemäß der siebten
Ausführungsform der vorliegenden Erfindung;
Fig. 13 ist ein Blockdiagramm der Dokumentbeschaffungsvorrichtung gemäß der achten
Ausführungsform der vorliegenden Erfindung; und
Fig. 14 ist ein Flussdiagramm eines Prozesses der Auswahl partieller Zeichenfolgen, die
sich nicht überlappen und die eine volle Länge einer Suchzeichenfolge abdecken.
Im folgenden werden die Ausführungsformen der vorliegenden Erfindung unter Bezugnahme
auf die beigefügten Zeichnungen beschrieben.
Fig. 1 ist ein Blockdiagramm einer Dokumentbeschaffungsvorrichtung 1 gemäß einer ersten
Ausführungsform der vorliegenden Erfindung. Die Dokumentbeschaffungsvorrichtung 1
beinhaltet eine Textunterteilungseinheit 2, eine Indexeinheit 3, eine Dokumentauswahleinheit
4 und eine Rangberechnungseinheit 5.
Die Textunterteilungseinheit 2 unterteilt einen Text in partielle Zeichenfolgen, wo der Text ein
gespeichertes Dokument sein kann oder eine Suchzeichenfolge sein kann. Die Indexeinheit 3
speichert darin Information über partielle Zeichenfolgen, die durch Unterteilen eines gespei
cherten Dokuments erhalten werden. Die Dokumentauswahleinheit 4 verwendet partielle
Zeichenfolgen, die durch Unterteilen einer Suchzeichenfolge erhalten werden, um ein Doku
ment auszuwählen, für das eine Rangordnung zu berechnen ist. Die Rangberechnungseinheit
5 verwendet partielle Zeichenfolgen, die durch Unterteilen der Suchzeichenfolge erhalten
werden, um einen Rangordnungspunkt des Dokuments zu berechnen, das durch die Dokument
auswahleinheit 4 ausgewählt wird. Die Textunterteilungseinheit 2 führt einen Unterteilungs
schritt durch und die Dokumentauswahleinheit 4 führt einen Dokumentauswahlschritt durch.
Weiter führt die Rangberechnungseinheit 5 einen Rangberechnungsschritt durch. Details eines
jeden Schritts werden später beschrieben.
Wenn ein Dokument, das zu Speichern bzw. zu Registrieren ist, bereitgestellt wird, unterteilt
die Textunterteilungseinheit 2 das Dokument in partielle Zeichenfolgen. Die Information über
das Auftreten partieller Zeichenfolgen wird in der Indexeinheit 3 gespeichert.
Im folgenden wird ein Prozess, der durch die Dokumentbeschaffungsvorrichtung 1 durchge
führt wird, detailliert beschrieben.
Die Fig. 2A und 2B sind erläuternde Zeichnungen, die gespeicherte Dokumente zeigen.
Jede der Fig. 2A und 2B zeigt ein gespeichertes Dokument. Bei jedem gespeicherten
Dokument zeigen Nummern bzw. Zahlen, die links gezeigt sind, die Zahl der Zeichen an, die
von dem Beginn eines Dokuments zu einer Position einer entsprechenden Zeichenfolge gezählt
wurden. In einem Dokument der Fig. 2A, beginnt die Zeichenfolge "ABCD" bei dem elften
Zeichen von Beginn des Dokuments an und "EF" wird bei dem 20. Zeichen und bei dem 60.
Zeichen von Beginn an gefunden. Weiter erscheint die Zeichenfolge "ABCDEF" beim 31.
Zeichen von Beginn an. Wenn Zeichenfolgen mit zwei Zeichen als eine Einheit zur Verarbei
tung verwendet werden, werden nur zwei Zeichen-Zeichenfolgen von einem Dokument extra
hiert und die extrahierten Zeichenfolgen werden in der Indexeinheit 3 zusammen mit ihren
Positionen und ihrem Auftreten aufgezeichnet (Zeichenzählung von Beginn des Dokuments an).
Fig. 2C stellt eine erläuternde Zeichnung dar, die den Inhalt der Indexeinheit 3 zeigt. Zum
Beispiel hat das Dokument, das in Fig. 2A gezeigt ist, die Zeichenfolge "AB", die bei dem
11. Zeichen und bei dem 31. Zeichen von Beginn an auftritt, und hat die Zeichenfolge "BC",
die bei dem 12. Zeichen und bei dem 32. Zeichen von Anfang an beginnt aufzutreten, so dass
diese Auftreteereignisse in dem Dokument in der Indexeinheit 3 aufgezeichnet werden, wie in
Fig. 2C gezeigt ist. Die Indexeinheit 3 zeichnet nicht nur die Positionen des Auftretens auf,
sondern zeichnet ebenso Dokumentidentifizierer zum Identifizieren von Dokumenten, die
relevant für die aufgezeichneten Auftreteereignisse sind, auf. Weiter werden die Anzahl der
Auftreteereignisse ebenso aufgezeichnet. Wie in Fig. 2C gezeigt ist, wird die Zeichenfolge
"AB" als "{1, 2, (11, 31)}" aufgezeichnet, was anzeigt, dass die Zeichenfolge "AB" zweimal
auftritt (die Anzahl der Auftreteereignisse = 2) in dem Dokument der Fig. 2A mit dem
Dokumentidentifizierer 1. Diese Auftreteereignisse werden bei dem 11. Zeichen und bei dem
31. Zeichen von Beginn an gefunden.
Wenn eine Suchzeichenfolge zum Zweck der Dokumentbeschaffung bereitgestellt wird, unter
teilt die Textunterteilungseinheit 2 die Suchzeichenfolge in partielle Zeichenfolgen. Die Doku
mentauswahleinheit 4 wählt ein Dokument oder Dokumente aus, für das bzw. für die eine
Rangordnung zu berechnen ist, wo eine derartige Auswahl in Hinblick auf die partiellen
Zeichenfolgen durchgeführt wird. Die Rangberechnungseinheit 5 berechnet eine Rangordnung
für jedes der ausgewählten Dokumente, in dem die partiellen Zeichenfolgen verwendet werden,
wobei dadurch Dokumentbeschaffungsergebnisse bereitgestellt werden.
Die Dokumentauswahleinheit 4 wählt eines oder mehrere Dokumente aus, in dem die Doku
mente identifiziert werden, die alle partiellen Zeichenfolgen der Suchzeichenfolge enthalten.
Alternativ können Dokumente, die die Suchzeichenfolge selbst enthalten, ausgewählt werden,
oder Dokumente, die gewisse geeignete Bedingungen erfüllen, können ausgewählt werden.
Die Rangberechnungseinheit 5 berechnet einen Rangordnungspunkt (kurz: "Rangpunkt") der
Suchzeichenfolge bezüglich eines jeden der ausgewählten Dokumente. Der Rangordnungspunkt
der Suchzeichenfolge wird basierend auf Rangordnungspunkte der partiellen Zeichenfolgen
erhalten. Hier können die Rangordnungen der partiellen Zeichenfolgen berechnet werden,
indem ein Verfahren verwendet wird, das in der Fachwelt als ein tf-Verfahren, ein tf.idf-
Verfahren oder dergleichen bekannt ist, die typischerweise bei der Datenbeschaffung verwendet
werden. Zum Beispiel wird hierbei auf W. B. Frakes Ed., "Information Retrieval Data Structu
res & Algorithms", Prentice Hall, 1992 und insbesondere auf Section 14 des Dokuments
verwiesen. Um einen Rangordnungspunkt der Suchzeichenfolge von den Rangordnungspunkten
der partiellen Zeichenfolgen zu erhalten, kann man eine Summe, einen Mittelwert, ein Maxi
mum usw. der Suchzeichenfolgen der partiellen Zeichenfolgen erhalten.
Die Berechnung der Rangordnungspunkte wird unter Bezugnahme auf die Indexeinheit 3
beschrieben, die in Fig. 2C gezeigt ist.
Wenn eine Suchzeichenfolge "ABCDEF" bereitgestellt wird, extrahiert die Textunterteilungs
einheit 2 partielle Zeichenfolgen "AB", "BC", "CD", "DE" und "EF". Dann wählt die
Dokumentauswahleinheit 4 ein Dokument oder Dokumente aus, das bzw. die alle partiellen
Zeichenfolgen von einer Vielzahl von registrierten Dokumenten enthalten. In diesem Beispiel
erfüllt nur das Dokument der Fig. 2A die geforderte Bedingung. In dem Stand der Technik
werden Dokumente, die wenigstens eines der partiellen Zeichenfolgen enthalten, ausgewählt.
Ein derartiges Schema nach dem Stand der Technik würde also das Dokument der Fig. 2B in
diesem Beispiel auswählen, wohingegen die vorliegende Erfindung sich nicht für die Auswahl
des Dokuments 2B entscheidet.
Nach der Auswahl eines Dokuments oder von Dokumenten berechnet die Rangberechnungsein
heit 5 ein Rangordnungspunkt bezüglich eines jeden der ausgewählten Dokumente, in dem die
partiellen Zeichenfolgen verwendet werden. Im folgenden wird auf die Rangordnungspunkte
der partiellen Zeichenfolgen Bezug genommen, als ob sie wie folgt berechnet werden:
SCORE(n) = tf(n) . (1 + Log2(N/df(n)) (1)
wobei SCORE(n) ein Rangordnungspunkt der partiellen Zeichenfolge (n) ist und tf(n) die
Anzahl der Auftretungsereignisse der partiellen Zeichenfolgen in dem relevanten Dokument
ist. Weiter zeigt N die Anzahl der gespeicherten Dokumente an (die in diesem Beispiel zwei
beträgt) und df(n) zeigt die Anzahl der gespeicherten Dokumente an, die die partielle Zeichen
folgen enthalten. Im folgenden wird df(n) als Dokumenthäufigkeit bezeichnet. Bei dieser
Ausführungsform wird der Rangordnungspunkt für das Dokument als eine Summe der Rang
ordnungspunkte der partiellen Zeichenfolgen, die in dem Dokument enthalten sind, erzielt.
Bezüglich des Dokuments der Fig. 2A wird der Rangordnungspunkt SCORE(AB) der partiel
len Zeichenfolge "AB" durch Substituieren von 2 für tf(AB) und von 2 für df(AB) in der
Gleichung (1) erhalten. In diesem Fall beträgt SCORE(AB) 2. Weiter werden SCORE(BC) =
4, SCORE(CD) = 4, SCORE(DE) = 1 und SCORE(EF) = 3 erhalten.
Dementsprechend erhält man SCORE(ABCDEF) wie folgt:
SCORE(ABCDEF) = SCORE(AB) + SCORE(BC) +
SCORE(CD) + SCORE(DE) + SCORE(EF) = 14
Dies ist der Rangordnungspunkt der Rufzeichenfolge "ABCDEF" bezüglich des Dokuments
der Fig. 2A.
Fig. 3 ist ein Blockdiagramm einer Systemkonfiguration, die die Dokumentbeschaffungsvor
richtung 1 realisiert.
Die Dokumentbeschaffungsvorrichtung 1 beinhaltet eine CPU 11, ein ROM 12, ein RAM 13,
einen Bus 14, eine Festplatte 15, ein CD-ROM-Laufwerk 16, eine Ausgabevorrichtung 17, eine
Eingabevorrichtung 18 und eine Kommunikationssteuervorrichtung 20. Die CPU 11 kümmert
sich um verschiedene Ausführungen und die zentrale Steuerung verschiedener Elemente. Das
ROM 12 ist ein Nur-Lesespeicher, der darin BIOS-Programme und dergleichen speichert. Das
RAM 13 speichert darin Daten und liefert einen Arbeitsbereich für die CPU 11. Der Bus 14
stellt eine Verbindung zwischen der CPU 11, dem ROM 12 und dem RAM 13 her. Der Bus
14 ist ebenso über Schnittstellen und/oder Steuerschaltungen (nicht gezeigt) mit der Festplatte
15, dem CD-ROM-Laufwerk 16, der Ausgabevorrichtung 17, wie zum Beispiel eine CRT-
Anzeige, eine LCD-Anzeige oder einen Drucker, die Eingabevorrichtung 18, wie zum Beispiel
eine Tastatur und eine Maus und die Kommunikationssteuervorrichtung 20 verbunden, die mit
einem Netzwerk 21 verbunden ist.
Programme, um die Dokumentbeschaffungsvorrichtung 1 zu veranlassen, eine Verarbeitung
entsprechend der vorliegenden Erfindung auszuführen, sind in einer CD-ROM 19 gespeichert,
die als ein Speichermedium für die vorliegende Erfindung dient. Die CD-ROM 19 wird in das
CD-ROM-Laufwerk 16 eingeführt und die Programme werden in die Festplatte 15 geladen und
installiert. Mit den Programmen, die in der Festplatte 15 gespeichert sind, ist die Dokumentbe
schaffungsvorrichtung 1 bereit, verschiedene Prozesse der vorliegenden Erfindung auszuführen.
Es werden nämlich die verschiedenen Einheiten, die in Fig. 1 gezeigt sind, als Prozesse
verkörpert, die durch die CPU 11 durchgeführt werden, die die Programme ausführt. Die
Indexeinheit 3 ist als eine Datenbank in der Festplatte 15 eingebaut.
Das Speichermedium der vorliegenden Erfindung ist nicht auf eine CD-ROM beschränkt,
sondern es kann sich um jeden Typ von Speichermedium, wie zum Beispiel CD-RW, CD-R,
DVD, FD oder MO handeln. Das Programm kann von dem Netzwerk 19, wie zum Beispiel
Internet über die Kommunikationssteuervorrichtung heruntergeladen werden und kann auf der
Festplatte 15 installiert werden. In diesem Fall wird eine Speichervorrichtung, die darin die
Programme auf der Übertragungsseite des Netzwerkes 19 speichert, als das Speichermedium
der vorliegenden Erfindung angesehen. Die Programme können auf einem vorbestimmten
Betriebssystem arbeiten.
Fig. 4 ist ein Flussdiagramm eines Prozesses der Berechnung von Anordnungspunkten für
eine Vielzahl von Dokumenten, wo der Prozess durch die Computerbeschaffungsvorrichtung
1 gemäß der ersten Ausführungsform der vorliegenden Erfindung durchgeführt wird. Das
Flussdiagramm der Fig. 4 ist unter der Verwendung von Schreibweisen der C-Sprache
gezeigt.
In einem Schritt S1 werden sowohl der Arrayindex m als auch der Dokumentidentifizierer
DocId auf 1 gesetzt.
Bei einem Schritt S2 wird eine Suche nach einem Dokument durchgeführt, das alle partiellen
Zeichenfolgen enthält und die kleinste Dokumenten-ID aufweist, die nicht kleiner als DocId ist.
Falls ein derartiges Dokument gefunden wird, wird der Dokumentenidentifizierer DocId auf
die erhaltenen Dokumenten-ID gesetzt und das Verfahren geht zu einem Schritt S3 über.
Ansonsten wird das Verfahren beendet.
Im Schritt S3 wird ein Rangordnungspunkt für das Dokument mit dem Dokumentidentifizierer
DocId berechnet. Der erhaltene Rangordnungspunkt wird in der Struktur, die der C-Sprache
ähnlich ist und die den Dokumentenidentifizierer und den Rangpunkt als seine Elemente
aufweist, gespeichert.
In einem Schritt S4 werden der Dokumentenidentifizierer DocId jeweils um eins erhöht. Dann
geht das Verfahren zu dem Schritt S2 zurück.
Fig. 5 ist ein Flussdiagramm eines Prozesses zur Berechnung eines Rangordnungspunktes, die
bei dem Schritt S3 der Fig. 4 durchgeführt wird. In einem Schritt S11 wird ein Parameter n
zum Anzeigen einer partiellen Zeichenfolge auf eins gesetzt und ein Rangpunkt ("score") wird
auf null gesetzt.
In dem Schritt S12 wird die Gleichung (1) unter Bezugnahme auf eine Zeichenfolge str[n]
berechnet und zu dem Rangpunkt ("score") hinzugefügt.
In einem Schritt S13 wird eine Überprüfung dahingehend durchgeführt, ob n gleich num ist.
Hier ist num die Anzahl aller partieller Zeichenfolgen einer Suchzeichenfolge. Falls n gleich
num ist, wird das Verfahren beendet. Ansonsten geht das Verfahren zu einem Schritt S14 über.
Bei dem Schritt S14 wird n um eins erhöht. Dann kehrt das Verfahren zum Schritt S12 zurück.
Im folgenden wird eine zweite Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der zweiten Ausführungsform wird auf dieselben Elemente wie jene der ersten Ausfüh
rungsform durch dieselben Bezugszeichen Bezug genommen und eine Beschreibung davon wird
weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der zweiten Ausführungsform unterscheidet sich von
jener der ersten Ausführungsform nur in den Operationen der Rang-Berechnungseinheit 5. Bei
der ersten Ausführungsform berechnet die Rang-Berechnungseinheit 5 einen Rangordnungs
punkt einer partiellen Zeichenfolge bezüglich eines ausgewählten Dokuments in Hinblick auf
die Anzahl der Auftretensereignisse der partiellen Zeichenfolge in dem Dokument. Diese
partielle Zeichenfolge kann in dem Dokument in einem Kontext auftreten, der keine semanti
sche Relevanz hinsichtlich der Suchzeichenfolge aufweist und ein derartiges irrelevantes
Auftreten beeinträchtigt den erzielten Rangordnungspunkt, wodurch sich eine weniger genaue
Suche ergibt.
Bei dem Beispiel der Fig. 2A ist es wahrscheinlich, dass die Zeichenfolge "EF", die bei dem
20. Zeichen und bei dem 60. Zeichen auftritt, keine Relevanz hinsichtlich der Suchzeichenfolge
hat. Da die Zeichenfolge "EF" dreimal in dem Dokument auftritt, wird jedoch SCORE(EF)
einfach als 3 berechnet. Hinsichtlich der Relevanz der Suchzeichenfolge "ABCDEF" kann
dieser Rangpunkt zu hoch sein.
Bei der zweiten Ausführungsform wählt die Dokumentbeschaffungsvorrichtung 1 einen mini
malen Auftretungsereignis-Zählwerten von jeweiligen partiellen Zeichenfolgen aus, die in dem
Dokument erscheinen, und substituiert den ausgewählten minimalen Auftretungsereignis-
Zählwert für die Auftretungsereignis-Zählwerte der partiellen Zeichenfolgen beim Berechnen
der Rangordnungspunkte. In dem Beispiel der Fig. 2A beträgt ein minimaler Auftretungser
eignis-Zählwert 1, d. h. die Anzahl der Auftretungsereignisse einer partiellen Zeichenfolge
"DE", so dass der minimale Auftretungsereignis-Zählwert 1 für die Auftretungsereignis-
Zählwerte der anderen partiellen Zeichenfolgen "AB", "BC", "CD" und "EF" zum Zwecke
der Berechnung der Rangordnungspunkte substituiert wird. Infolgedessen werden SCORE(AB)
= 1, SCORE(BC) = 2, SCORE(CD) = 2, SCORE(DE) = 1 und SCORE(EF) = 1 erhalten,
wodurch SCORE(ABCDEF) = 7 erzeugt wird.
Fig. 6 ist ein Flussdiagramm eines Prozesses zur Berechnung eines Rangordnungspunktes
entsprechend der zweiten Ausführungsform der vorliegenden Erfindung. Die Schritte bis auf
den Schritt der Berechnung eines Rangordnungspunktes sind dieselben, wie jene der ersten
Ausführungsform, wie in Fig. 4 gezeigt ist.
In dem Schritt S11 der Fig. 6 wird ein Parameter n zum Anzeigen einer partiellen Zeichenfol
ge auf 1 gesetzt und ein Parameter mintf zum Erzielen eines minimalen Auftretungsereignis-
Zählwertes wird auf eine sehr große Zahl bzw. größtmögliche Zahl gesetzt.
In einem Schritt S12 wird mintf auf den kleinsten Wert von mintf und einem Auftretungsereig
nis-Zählwert einer Zeichenfolge str[n] gesetzt.
Bei einem Schritt S13 wird eine Überprüfung durchgeführt, ob n gleich num ist. Wie zuvor ist
num die Anzahl aller partieller Zeichenfolgen einer Suchzeichenfolge. Falls n nicht gleich num
ist, geht das Verfahren zu einem Schritt S14 über, wo n um 1 erhöht wird, wobei danach eine
Prozedur folgt, wo zu dem Schritt S12 zurückgegangen wird. Falls n gleich num ist, dann
bedeutet dies, dass mintf gleich den minimalen Auftretungsereignis-Zählwert ist, so dass das
Verfahren zu einem nächsten Schritt übergeht.
Bei einem Schritt S15 wird n auf 1 gesetzt und ein Zählpunkt wird auf 0 gesetzt.
Bei einem Schritt S16 wird die Gleichung (1), bei der tf(n) durch mintf ersetzt wird, unter
Bezugnahme auf eine Zeichenfolge str[n] berechnet und zu dem Zählpunkt zugefügt.
Bei einem Schritt S17 wird eine Überprüfung dahingehend durchgeführt, ob n gleich num ist.
Falls n gleich num ist, kommt das Verfahren zu einem Ende. Ansonsten geht das Verfahren zu
dem Schritt S18 über.
Bei dem Schritt S18 wird n um 1 erhöht. Dann geht das Verfahren zu dem Schritt S16 zurück.
Gemäß der zweiten Ausführungsform wird der Einfluss irrelevanter Auftretungsereignisse von
partiellen Zeichenfolgen von dem Rangordnungspunkt der Suchzeichenfolge beseitigt, wenn
derartige Auftretungsereignisse in einem Kontext bzw. Zusammenhang stattfinden, der keine
Relevanz bezüglich der Suchzeichenfolge hat. Dies verbessert die Beschaffungsgenauigkeit.
Im folgenden wird eine dritte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der dritten Ausführungsform werden dieselben Elemente, wie jene der zweiten Ausfüh
rungsform durch dieselben Bezugszeichen bezeichnet und eine Beschreibung davon wird
weggelassen. Die Dokumentbeschaffungsvorrichtung 1 der dritten Ausführungsform unter
scheidet sich von jener der zweiten Ausführungsform dahingehend, dass die dritte Ausführungs
form ein Schema verwendet, dass sich von der zweiten Ausführungsform hinsichtlich der
Beseitigung des Einflusses von irrelevanten Auftretungsereignissen von partiellen Zeichenfol
gen unterscheidet.
Um den Einfluss irrelevanter Auftretungsereignisse von partiellen Zeichenfolgen zu beseitigen,
wird die Anzahl der Auftretungsereignisse der Suchzeichenfolge bezüglich eines ausgewählten
Dokuments erhalten und wird dann als ein Ersatz bzw. Substitut für Auftretungs-Zählwerte der
partiellen Zeichenfolgen zum Zwecke der Erzielung von Rangordnungspunkten verwendet. Der
Auftretungszählwert der Suchzeichenfolge wird erhalten, indem alle Positionen überprüft
werden, wo die Suchzeichenfolge bei dem ausgewählten Dokument auftritt.
Um die Positionen von Erscheinungen der Suchzeichenfolge zu erhalten, kann ein herkömmli
ches Verfahren verwendet werden das Positionen partieller Zeichenfolge miteinander abgleicht
bzw. in Übereinstimmung bringt. Zum Beispiel eine Technik, die auf Seite 839 in Chuichi
Kikuchi "A Fast Full-Text Search Method for Japanese Text Database", Transactions of the
Institute of Electronics, Information and Communication Engineers, Band J75-D-I, Nr. 9,
Seiten 836-846, 1992 offenbart ist, verwendet werden.
Bezüglich des Beispieles des Dokuments der Fig. 2A kann von dem Index der Fig. 2C
gewährleistet werden, dass die Suchzeichenfolge "ABCDEF" nur einmal bei dem von Beginn
an 31. Zeichen auftritt. Basierend auf diesem Fund, werden die Auftretungsereignis-Zählwerte
der partiellen Zeichenfolgen "AB", "BC", "CD", "DE" und "EF" auf 1 gesetzt, was der
Auftretungsereignis-Zählwert der Suchzeichenfolge ist. Der Rangordnungspunkt, der infolge
dieser Prozedur erhalten wird, ist derselbe wie jener der zweiten Ausführungsform. Das heißt
SCORE(ABCDEF) gleich 7 wird erhalten.
Fig. 7 ist ein Flussdiagramm eines Prozesses zur Berechnung eines Rangordnungspunktes
gemäß der dritten Ausführungsform der vorliegenden Erfindung. Schritte anders als der Schritt
zur Berechnung eines Rangordnungspunktes sind dieselben wie jene bei der ersten Ausfüh
rungsform, wie in Fig. 4 gezeigt ist.
In dem Schritt S11 der Fig. 7 wird die Anzahl der Auftretungsereignisse einer Suchzeichen
folge erhalten. Der erhaltene Auftretungsereignis-Zählwert wird auf wordtf festgelegt.
Bei dem Schritt S12 wird ein Parameter n zum Anzeigen einer partiellen Zeichenfolge auf 1
gesetzt und ein Rangpunkt wird auf 0 gesetzt.
Bei dem Schritt S13 wird die Gleichung (1), bei der tf(n) durch wordtf ersetzt wird, unter
Bezugnahme auf eine Zeichenfolge str[n] berechnet und zu dem Rangpunkt addiert.
Bei dem Schritt S14 wird eine Überprüfung durchgeführt, ob n gleich num ist. Falls n gleich
num ist, kommt das Verfahren zu einem Ende. Ansonsten geht das Verfahren zu einem Schritt
S15 über.
Bei dem Schritt S15 wird n um 1 erhöht. Dann geht das Verfahren zu dem Schritt S13 zurück.
Gemäß der dritten Ausführungsform wird der Einfluss irrelevanter Auftretungsereignisse
partieller Zeichenfolgen von dem Rangordnungspunkt der Suchzeichenfolge beseitigt, wenn
derartige Auftretungsereignisse in Kontexten bzw. Zusammenhängen stattfinden, die keine
Relevanz hinsichtlich der Suchzeichenfolge haben. Dies verbessert die Beschaffungsgenauig
keit.
Im folgenden wird eine vierte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der vierten Ausführungsform werden dieselben Elemente wie jene der dritten Ausführungs
form mit den selben Bezugszeichen bezeichnet und deren Beschreibung wird weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der vierten Ausführungsform unterscheidet sich von
jener der dritten Ausführungsform in den folgenden Aspekten. Bei der dritten Ausführungsform
erzielt die Rangpunkt-Berechnungseinheit 5 den Auftretungsereignis-Zählwert der Suchzeichen
folge beim ausgewählten Dokument durch Überprüfen aller Positionen, wo die Suchzeichenfol
ge in dem Dokument auftritt.
Wenn die Suchzeichenfolge lang ist und häufig auftritt, ist jedoch die Berechnungslast zum
Erzielen aller Auftretepositionen verbietend hoch, was zu einer länglichen Beschaffungszeit
zum Beschaffen eines Dokuments führt.
Bei der vierten Ausführungsform der vorliegenden Erfindung wird die obere Grenze auf den
Auftretungsereignis-Zählwert einer Suchzeichenfolge gesetzt. Falls der Auftretungsereignis-
Zählwert einer Suchzeichenfolge in einem Dokument unterhalb der oberen Grenze liegt, wird
dieser Zählwert als die Anzahl der Auftretungsereignisse der Suchzeichenfolge verwendet. Falls
der Auftretungsereignis-Zählwert einer Suchzeichenfolge die obere Grenze überschreitet, wird
die obere Grenze als ein Ersatz bzw. Substitut für den Auftretungsereignis-Zählwert verwendet.
In diesem Fall besteht kein Erfordernis, den gesamten Weg zur Überprüfung aller Erschei
nungspositionen der Suchzeichenfolge zu gehen, und es genügt, falls das Zählen gestoppt wird,
wenn der Zählwert die obere Grenze erreicht.
Fig. 8 ist ein Flussdiagramm eines Prozesses zum Erzielen des Auftretungsereignis-Zählwerts
einer Suchzeichenfolge mit einer oberen Grenze gemäß der vierten Ausführungsform der
vorliegenden Erfindung.
Bei der dritten Ausführungsform wird der Auftretungsereignis-Zählwert einer Suchzeichenfolge
einfach durch Zählen aller Auftretungsereignisse der Suchzeichenfolge beim Schritt S11 der
Fig. 7 erhalten. Bei der vierten Ausführungsform wird der Auftretungsereigniszählwert wie
folgt erhalten.
In einem Schritt S21 wird wordtf auf 0 gesetzt.
In einem Schritt S22 wird nach einem neuen Auftretungsereignis der Suchzeichenfolge gesucht.
Falls sie gefunden wird, geht das Verfahren zum Schritt S23. Ansonsten kommt das Verfahren
zu einem Ende.
In dem Schritt S23 wird der Auftretungsereignis-Zählwert wordtf um 1 erhöht.
In dem Schritt S24 wird eine Überprüfung dahingehend durchgeführt, ob wordtf gleich L ist,
wo die Anzahl L eine obere Grenze des Auftretungsereignis-Zählwerts festlegt. Falls dies so
ist, kommt das Verfahren zu einem Ende. Ansonsten geht das Verfahren zurück zu dem Schritt
S22.
Gemäß der vierten Ausführungsform der vorliegenden Erfindung wird die Berechnungslast zum
Überprüfen aller Ereignispositionen einer Suchzeichenfolge im Vergleich zu dem Fall der
dritten Ausführungsform reduziert, wodurch eine schnellere Dokumentbeschaffung erzielt wird.
Im folgenden wird eine fünfte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der fünften Ausführungsform werden die gleichen Elemente, wie jene der dritten Ausfüh
rungsform durch dieselben Bezugszeichen bezeichnet und eine Beschreibung davon wird
weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der fünften Ausführungsform unterscheidet sich von
jener der dritten Ausführungsform in den folgenden Aspekten. Bei der dritten Ausführungsform
erzielt die Rangberechnungseinheit 5 einen Auftretungsereignis-Zählwert einer Suchzeichenfol
ge bei einem ausgewählten Dokument und verwendet den erzielten Auftretungsereignis-
Zählwert als einen Ersatz bzw. ein Substitut für die Auftretungsereignis-Zählwerte partieller
Zeichenfolgen, um Rangordnungspunkte zu erzielen. Auf diese Art und Weise kann der
Einfluss irrelevanter Auftretungsereignisse von partiellen Zeichenfolgen von dem Rangord
nungspunkt der Suchzeichenfolge beseitigt werden, wenn die partiellen Zeichenfolgen außer
halb eines Kontexts für die Suchzeichenfolge erscheinen.
Bei der dritten Ausführungsform wird der Rangordnungspunkt einer Suchzeichenfolge von den
Rangordnungspunkten partieller Zeichenfolgen abgeleitet, die wiederum basierend auf der
Anzahl der gespeicherten Dokumente abgeleitet werden, die die partiellen Zeichenfolgen
enthalten. Infolgedessen kann das Vorhandensein eines irrelevanten Dokuments den Rangord
nungspunkt beeinträchtigen, wenn das irrelevante Dokument eine bestimmte partielle Zeichen
folge aufweist, ohne eine Suchzeichenfolge zu enthalten. Mit anderen Worten wird der Einfluss
eines irrelevanten Auftretens von Suchzeichenfolgen nicht vollständig bei der dritten Ausfüh
rungsform beseitigt.
Bei dem Beispiel des Dokuments der Fig. 2A wird SCORE(AB) so berechnet, dass es gleich
1 ist, da die Anzahl der Dokumente, die die Zeichenfolge "AB" enthalten, 2 ist, wenn der
Auftretungsereignis-Zählwert der Zeichenfolge "AB" in dem Dokument der Fig. 2A auf die
Anzahl der Auftretungsereignisse der Suchzeichenfolge festgelegt wird. Das Dokument der
Fig. 2B ist jedoch irrelevant, da dieses Dokument nicht die Suchzeichenfolge "ABCDEF"
enthält. In diesem Fall wird deshalb das Vorhandensein eines irrelevanten Dokuments, das ein
anderer Typ eines irrelevanten Auftretens von partiellen Zeichenfolgen ist, den Rangordnungs
punkt der Suchzeichenfolge beeinträchtigen.
In Hinblick darauf verwendet die fünfte Ausführungsform der vorliegenden Erfindung die
Anzahl der Dokumente mit einer Suchzeichenfolge darin als die Anzahl der Dokumente, die
eine gegebene partielle Zeichenfolge enthalten, und zwar für den Zweck der Berechnung eines
Rangordnungspunktes der gegebenen partiellen Zeichenfolge. In dem Beispiel des Dokuments
der Fig. 2A und 2B wird die Anzahl der gespeicherten Dokumente, die die Zeichenfolge
"AB" enthalten, gleich 1 gesetzt, wobei die Anzahl der Dokumente ist, die die Suchzeichenfol
ge "ABCDEF" enthalten. Infolgedessen wird SCORE(AB) 2. Weiter wird SCORE(BC) = 2.
SCORE(CD) = 2, SCORE(DE) = 2 und SCORE(EF) = 2 erhalten, wodurch
SCORE(ABCDEF) = 10 wird.
Fig. 9 ist ein Flussdiagramm eines Prozesses zur Berechnung von Rangordnungspunkten für
eine Vielzahl von Dokumenten gemäß der fünften Ausführungsform der vorliegenden Erfin
dung.
Bei einem Schritt S101 der Fig. 9 wird die Anzahl der Dokumente, die die Suchzeichenfolge
enthalten, erhalten. Der erhaltene Dokumentenzählwert wird in einem Parameter worddf
festgelegt.
Bei einem Schritt S102 werden ein Arrayindex m und ein Dokumentenidentifizierer DocId auf
1 gesetzt.
Bei einem Schritt S103 wird eine Suche nach einem Dokument durchgeführt, das die Suchzei
chenfolge enthält und das die kleinste Dokument-ID nicht kleiner als DocId enthält. Falls ein
derartiges Dokument gefunden wird, wird der Dokumentenidentifizierer DocId auf die erzielte
Dokumenten-ID gesetzt und das Verfahren geht zu dem Schritt S104 über. Ansonsten kommt
das Verfahren zu einem Ende.
Bei dem Schritt S104 wird ein Rangordnungspunkt, das den Dokumentidentifizierer DocId
aufweist, berechnet. Hier wird bei der Gleichung (1), die zur Berechnung eines Rangordnungs
punktes bei dem Schritt S104 verwendet wird, df(str[n]) durch worddf ersetzt. Der erzielte
Rangpunkt wird in der Struktur, die der C-Sprache ähnlich ist und die den Dokumentidentifizie
rer und den Rangpunkt als Elemente aufweist, gespeichert.
Bei dem Schritt S105 werden der Arrayindex m und der Dokumentidentifizierer DocId jeweils
um 1 erhöht. Dann geht das Verfahren zu dem Schritt S103 zurück.
Gemäß der fünften Ausführungsform der vorliegenden Erfindung wird der Einfluss irrelevanter
Auftretungsereignisse partieller Zeichenfolgen im wesentlichen von dem Rangordnungspunkt
einer Rufzeichenfolge bezüglich eines ausgewählten Dokuments beseitigt, wenn die partiellen
Zeichenfolgen außerhalb eines Kontexts in dem ausgewählten Dokument oder sogar außerhalb
eines Kontexts in anderen gespeicherten Dokumenten erscheinen. Dies verbessert die Beschaf
fungsgenauigkeit.
Bei dieser Ausführungsform sind die Rangordnungspunkte der partiellen Zeichenfolgen jeweils
gleich einem Rangordnungspunkt, der unter Verwendung der Anzahl der Dokumente erhalten
wurde, die die Suchzeichenfolge darin aufweisen, und der Anzahl der Auftretungsereignisse
der Suchzeichenfolge. Deswegen besteht kein Bedürfnis danach, alle Rangordnungspunkte der
partiellen Zeichenfolgen zu berechnen und sie mit dem Ziel zu kombinieren, den Rangord
nungspunkt der Suchzeichenfolge zu erzeugen. Alternativ wird der Rangordnungspunkt der
Suchzeichenfolge direkt von der Anzahl der Dokumente abgeleitet, die die Suchzeichenfolge
darin und die Anzahl der Auftretungsereignisse der Suchzeichenfolge aufweisen. Dies ermög
licht die Reduktion bei der Berechnungslast, wodurch eine Wahrscheinlich-Relevanz-
Dokumentsbeschaffung mit hoher Geschwindigkeit erzielt wird.
Im folgenden wird eine sechste Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der sechsten Ausführungsform wird auf die gleichen Elemente wie bei der vierten Ausfüh
rungsform durch dieselben Bezugszeichen Bezug genommen und eine Beschreibung davon wird
weggelassen.
Die Dokumentbeschaffungsvorrichtung 1 der sechsten Ausführungsform unterscheidet sich von
jener der vierten Ausführungsform in den folgenden Aspekten. Bei der vierten Ausführungs
form wird eine obere Grenze für die Anzahl der Auftretungsereignisse einer Suchzeichenfolge
mit dem Ziel der Beschleunigung der Dokumentbeschaffungsgeschwindigkeit gesetzt.
Durch die Deckelung bzw. durch das Setzen einer Obergrenze kann jedoch die Beschaffungsge
nauigkeit verschlechtert werden, da ein derartiger Deckel zu einem anderen Rangordnungspunkt
führt, als jener, der ohne eine obere Grenze erzielt werden würde. Das Ausmaß, mit dem
sich der Rangordnungspunkt aufgrund des Platzierens einer oberen Grenze ändert, hängt von
der Anzahl der Dokumente ab, die die Suchzeichenfolge enthalten. Wenn die Gleichung (1) zur
Berechnung einer Rangordnungsfolge verwendet wird, so ist der Unterschied des Rangord
nungspunktes, der durch das Platzieren einer oberen Grenze verursacht wird, um so größer,
je kleiner die Anzahl der Dokumente ist, die die Suchzeichenfolge enthalten. Im Hinblick
darauf ist es vorzuziehen, dass die obere Grenze dynamisch entsprechend der Anzahl der
Dokumente geändert wird, die die Suchzeichenfolge darin aufweisen, und zwar mit dem Ziel,
den Einfluss der Platzierung eines Deckels bzw. Setzens einer Obergrenze zu reduzieren. Zum
Beispiel kann eine obere Grenze Lx zur Verwendung in dem Fall der Anzahl von Dokumenten
mit einer Suchzeichenfolge darin, die x ist (x 1) wie folgt berechnet werden:
Lx = L1(1 + log2(N/x))/(1 + log2N) (2)
wobei L1 eine obere Grenze ist, die in dem Fall verwendet wird, dass die Anzahl der Doku
mente, die eine Suchzeichenfolge aufweisen, 1 ist. Gemäß der Gleichung (2) ist die obere
Grenze um so größer, je kleiner die Anzahl der Dokumente ist, die die Suchzeichenfolge darin
aufweisen. Das heißt, je kleiner der Unterschied des Rangordnungspunktes ist, der durch das
Setzen der oberen Grenze verursacht wird, desto geringer ist die Anzahl der Dokumente, die
die Suchzeichenfolge darin aufweisen. Mit anderen Worten wird die Reduktion bei der Beschaf
fungsgenauigkeit aufgrund des Einführens einer oberen Grenze verbessert. Bemerkenswert ist,
dass die Gleichung (2) nur ein Beispiel ist und jede Formel verwendet werden kann, solange
eine obere Grenze mit einer Zunahme in der Anzahl der Dokumente zunimmt, die eine Such
zeichenfolge darin aufweisen.
Fig. 10 ist ein Flussdiagramm eines Prozesses zur Berechnung von Rangordnungspunkten für
eine Vielzahl von Dokumenten gemäß der sechsten Ausführungsform der vorliegenden Erfin
dung.
Mit einem Schritt S111 der Fig. 10 wird die Anzahl der Dokumente, die die Suchzeichenfolge
enthalten, erhalten. Der erhaltene Dokumentzählwert wird in einem Parameter worddt festge
legt.
In einem Schritt S112 wird die obere Grenze Lx erhalten, indem die Gleichung (2) verwendet
wird, bei der worddf für x substituiert werden.
Bei einem Schritt S113 werden ein Arrayindex m und ein Dokumentidentifizierer DocId beide
auf 1 gesetzt.
Beim Schritt S114 wird eine Suche nach einem Dokument durchgeführt, das die Suchzeichen
folge enthält und die kleinste Dokument-ID nicht kleiner als DocId aufweist. Falls ein derarti
ges Dokument gefunden wird, wird der Dokumentenidentifizierer DocId auf die erzielte
Dokumenten-ID gesetzt und das Verfahren geht zu dem Schritt S115 über. Ansonsten kommt
das Verfahren zu einem Ende.
Bei dem Schritt S115 wird ein Rangordnungspunkt für das Dokument, das den Dokumenteni
dentifizierer DocId aufweist, berechnet. Hier werden die Schritte S11 bis S15 der Fig. 7 bei
dem Schritt S115 ausgeführt, wobei bei der Gleichung des Schrittes S13 df(str[n]) durch worddf
ersetzt worden ist und wordtf durch die obere Grenze Lx begrenzt worden ist.
Bei dem Schritt S116 werden der Arrayindex m und der Dokumentenidentifizierer DocId
jeweils um 1 erhöht. Dann kehrt das Verfahren zu dem Schritt S103 zurück.
Im folgenden wird eine siebte Ausführungsform der vorliegenden Erfindung beschrieben.
Bei der siebten Ausführungsform werden dieselben Elemente wie jene der ersten Ausführungs
form durch dieselben Bezugszeichen bezeichnet und eine Beschreibung davon wird weggelas
sen.
Die Dokumentenbeschaffungsvorrichtung 1 der siebten Ausführungsform unterscheidet sich von
jener der ersten Ausführungsform in den folgenden Aspekten. Wenn bei der ersten Ausfüh
rungsform eine Suchzeichenfolge kürzer als die Länge (d. h. die Anzahl der Zeichen) einer
partiellen Zeichenfolge ist, die als eine Verarbeitungseinheit dient, kann die Textunterteilungs
einheit 2 die Suchzeichenfolge nicht in partielle Zeichenfolgen unterteilen, was zu einer
Situation führt, bei der eine Dokumentbeschaffung scheitert. Wenn zum Beispiel eine Suchzei
chenfolge "A" ist und zwei Zeichen eine Verarbeitungseinheit bilden, kann keine Beschaffung
durchgeführt werden, da die Suchzeichenfolge kürzer als die Verarbeitungseinheit ist.
Wenn die Suchzeichenfolge kürzer als eine Verarbeitungseinheit ist, wird ein Verfahren bei der
siebten Ausführungsform der vorliegenden Erfindung wie folgt verwendet.
- 1. Die Textunterteilungseinheit 2 extrahiert alle partiellen Zeichenfolgen von der Indexeinheit 3, so dass diese partiellen Zeichenfolgen mit dem selben Zeichen bzw. mit den selben Zeichen beginnen, wie dies bei der Suchzeichenfolge der Fall ist.
- 2. Die Dokumentauswahleinheit 4 identifiziert ein Dokument oder mehrere Dokumente, die wenigstens eine der partiellen Suchzeichenfolgen enthalten, die durch die Textunterteilungsein heit 2 extrahiert werden.
- 3. Die Rangberechnungseinheit 5 berechnet Rangordnungspunkte der Dokumente, die durch die Dokumentauswahleinheit 4 ausgewählt werden, indem die partiellen Zeichenfolgen verwen det werden, die durch die Textunterteilungseinheit 2 extrahiert werden.
Fig. 11A bis 11C sind erläuternde Zeichnungen, die Beispiele von Dokumenten und ein
Beispiel einer entsprechenden Indexeinheit zeigen. Das obige Verfahren wird weiter im Detail
unter Bezugnahme auf die Fig. 11A bis 11C beschrieben.
Wenn eine Verarbeitungseinheit aus zwei Zeichen besteht, wird die Indexeinheit 3 Inhalte
aufweisen, wie in Fig. 11C gezeigt ist und zwar bezüglich des Dokuments der Fig. 11A und
des Dokuments der Fig. 11B. Hier ist das Datenformat der Indexeinheit 3, die in Fig. 11C
gezeigt ist, dasselbe, wie jenes der Indexeinheit 3, das in Fig. 2C gezeigt ist. Im folgenden
wird das Verfahren des Beschaffungsprozesses unter Bezugnahme auf ein Beispiel beschrieben,
bei dem "Y" als eine Suchzeichenfolge gegeben ist.
Die Textunterteilungseinheit 2 extrahiert drei partielle Zeichenfolgen "YI", "YK" und "YB"
als partielle Zeichenfolgen, die dasselbe Zeichen am Beginn davon als die Suchzeichenfolge
aufweisen. Die Dokumentauswahleinheit 4 wählt das Dokument der Fig. 11A und das Doku
ment der Fig. 11B aus, da sie wenigstens eines der extrahierten partiellen Zeichenfolgen
enthalten. Dann berechnet die Rangberechnungseinheit 5 Rangordnungspunkte der ausgewähl
ten Dokumente, in dem die partiellen Zeichenfolgen verwendet werden, die durch die Textun
terteilungseinheit 2 extrahiert wurden.
Wenn die Rangordnungspunkte berechnet werden, leitet die Rangberechnungseinheit 5 einen
Rangordnungspunkt der Suchzeichenfolge bezüglich eines ausgewählten Dokuments von
Rangordnungspunkten der partiellen Zeichenfolgen innerhalb des ausgewählten Dokuments ab.
Dies wird zum Beispiel erzielt, indem die Summe der Rangordnungspunkte der partiellen
Zeichenfolgen berechnet wird. Wenn die Rangordnungspunkte der partiellen Zeichenfolgen
basierend auf der Gleichung (1) berechnet wird, wird man SCORE(YI) = 0, SCORE(YK) =
2 und SCORE(YB) = 2 erhalten, wodurch SCORE(Y) = 4 erzielt wird.
Fig. 12 ist ein Flussdiagramm eines Prozesses zur Berechnung von Rangordnungspunkten für
eine Vielzahl von Dokumenten gemäß der siebten Ausführungsform der vorliegenden Erfin
dung.
Im Schritt S121 werden sowohl ein Arrayindex m als auch ein Dokumentenidentifizierer DocId
auf 1 gesetzt.
Im Schritt S122 wird eine Suche nach einem Dokument durchgeführt, das wenigstens eine
partielle Zeichenfolge enthält und dessen kleinste Dokument-ID nicht kleiner als DocId ist. Hier
werden die partiellen Zeichenfolgen als jene festgelegt, die mit dem bzw. den selben Zeichen
beginnen, wie dies bei der Suchzeichenfolge der Fall ist. Falls ein derartiges Dokument gefun
den wird, wird der Dokumentenidentifizierer DocId auf die erzielte Dokumenten-ID festgelegt
und das Verfahren geht zu einem Schritt S122 über. Ansonsten kommt das Verfahren zu einem
Ende.
In dem Schritt S123 wird ein Rangordnungspunkt für das Dokument berechnet, das den Doku
mentenidentifizierer DocId aufweist. Der erzielte Rangpunkt wird mit der Struktur, die eine
der C-Sprache ähnliche Struktur aufweist und die den Dokumentenidentifizierer und den
Rangpunkt als ihre Elemente aufweist. In einem Schritt S124 werden der Arrayindex m und der
Dokumentenidentifizierer DocId jeweils um 1 erhöht. Dann kehrt das Verfahren zu dem Schritt
S122 zurück.
Indem dem oben beschriebenen Verfahren gefolgt wird, kann man ein Dokument selbst dann
beschaffen, wenn eine Suchzeichenfolge eine kürzere Länge als eine Verarbeitungseinheit
aufweist.
Bei der Berechnung von Rangordnungspunkten kann ein Dokumenten-Zählwert, der die Anzahl
der Dokumente, die eine Suchzeichenfolge aufweisen, in derselben Art und Weise wie bei der
dritten Ausführungsform der vorliegenden Erfindung verwendet werden. Bei dem Beispiel der
Fig. 11A und 11B gibt es zwei Dokumente, die die Zeichenfolge "Y" aufweisen. Bezüglich
des Dokumentes 11A ist deshalb SCORE(YI) = 0, SCORE(YK) = 1 und SCORE(YB) = 1,
was dazu führt, dass SCORE(Y) 2 ist. Dieser Berechnungsprozess kann die Beschaffungsge
nauigkeit verbessern, da er die Anzahl der Dokumente, die die Suchzeichenfolge aufweisen,
zum Zwecke der Berechnung der Rangordnungspunkte verwendet. Weiter kann die Rangbe
rechnungseinheit 5 die Anzahl der Auftretungsereignisse der Suchzeichenfolge in dem Doku
ment zum Zwecke der Berechnung der Rangordnungspunkte verwenden. In dem Dokument der
Fig. 11A erscheint die Suchzeichenfolge "Y" zweimal, wie durch Aufaddieren der Auftre
tungsereignis-Zählwerte von "YI", "YK" und "YB", die in Fig. 11C gezeigt sind, berechnet
wird. Da die Anzahl der Dokumente, die "Y" enthalten, 2 ist, wird SCORE(Y) als 2 berechnet.
Bei diesem Verfahren wird die Gleichung (1) für eine geringere Anzahl von Malen bzw. mit
einer geringeren Häufigkeit berechnet als bei den vorhergehenden Verfahren, wodurch die
Dokumentbeschaffung beschleunigt wird.
Im folgenden wird die achte Ausführungsform der vorliegenden Erfindung beschrieben.
Fig. 13 ist ein Blockdiagramm der Dokumentbeschaffungsvorrichtung 1A entsprechend einer
achten Ausführungsform der vorliegenden Erfindung.
Die Textunterteilungseinheit 2 unterteilt einen Text in partielle Zeichenstrings, wobei der Text
ein gespeichertes Dokument oder eine Suchzeichenfolge sein kann. Die Indexeinheit 3 speichert
Information über partielle Zeichenfolgen, die durch Unterteilen eines gespeicherten Dokuments
erhalten werden. Eine Auswahleinheit 6 für partielle Zeichenfolgen wählt partielle Zeichenfol
gen aus, die für Dokumentbeschaffungszwecke zu verwenden sind, wo eine derartige Auswahl
aus den partiellen Zeichenfolgen, die durch Unterteilen der Suchzeichenfolge erhalten wurden,
getroffen wird. Die Dokumentauswahleinheit 4 verwendet partielle Zeichenfolgen, die durch
eine Auswahleinheit 6 für partielle Zeichenfolgen ausgewählt wurden, um ein Dokument
auszuwählen, für das ein Rangordnungspunkt zu berechnen ist. Die Rangberechnungseinheit
5 verwendet die partiellen Zeichenfolgen, die durch die Auswahleinheit 6 für partielle Zeichen
folgen ausgewählt wurden, um einen Rangordnungspunkt des Dokuments zu berechnen, der
durch die Dokumentauswahleinheit 4 ausgewählt wurde. Die Textunterteilungseinheit 2 führt
einen Unterteilungsschritt aus und die Dokumentauswahleinheit 4 führt einen Dokumentaus
wahlschritt aus. Weiter führt die Rangberechnungseinheit 5 einen Rangberechnungsschritt
durch und die Auswahleinheit 6 für partielle Zeichenfolgen führt einen Auswahlschritt für
partielle Zeichenfolgen aus.
Die Speicherung der Dokumente ist dieselbe, wie die bei der ersten Ausführungsform.
Wenn eine Suchzeichenfolge für den Zweck der Dokumentbeschaffung bereitgestellt wird,
unterteilt die Textunterteilungseinheit 2 die Suchzeichenfolge in partielle Zeichenfolgen. Die
Auswahleinheit 6 für partielle Zeichenfolgen wählt partielle Zeichenfolgen aus allen partiellen
Zeichenfolgen aus, die durch Unterteilen der Suchzeichenfolge erhalten wurden, so dass die
ausgewählten partiellen Zeichenfolgen für die Dokumentbeschaffungszwecke zu verwenden
sind. Die Dokumentauswahleinheit 4 wählt ein Dokument oder Dokumente aus, für die ein
Rangordnungspunkt zu berechnen ist, wobei eine derartige Auswahl in Hinblick auf die
ausgewählten partiellen Zeichenfolgen getroffen wird. Die Rangberechnungseinheit 5 berechnet
einen Rangordnungspunkt für jedes ausgewählte Dokument, in dem die ausgewählten partiellen
Zeichenfolgen verwendet werden, wodurch Dokumentbeschaffungsergebnisse bereitgestellt
werden.
Die Textunterteilungseinheit 2, die Dokumentauswahleinheit 4 und die Rangberechnungseinheit
5 funktionieren im wesentlichen genauso, wie bei der ersten Ausführungsform. Die Auswahl
einheit 6 für partielle Zeichenfolgen wählt partielle Zeichenfolgen so wenig wie möglich,
jedoch ausreichend, um die volle Länge der Suchzeichenfolge abzudecken aus, wobei eine
derartige Auswahl von allen partiellen Zeichenfolgen, die durch die Textunterteilungseinheit
2 unterteilt wurden, die die Suchzeichenfolge unterteilt, durchgeführt wird. Um die partiellen
Zeichenfolgen nicht mehr als notwendig auszuwählen, um die volle Länge der Suchzeichenfolge
abzudecken, wählt die Auswahleinheit 6 für die partielle Zeichenfolge partielle Zeichenfolgen
eine nach der anderen von Anfang der Suchzeichenfolge aus, so dass sie sich nicht miteinander
überlappen. Falls die partiellen Zeichenfolgen, die ausgewählt sind, so dass sie sich nicht
miteinander überlappen, nicht die volle Länge der Suchzeichenfolge abdecken können, wird
zusätzlich eine partielle Zeichenfolge, die einem Endabschnitt der Suchzeichenfolge entspricht,
ausgewählt.
Wenn eine Suchzeichenfolge "ABCDEF" zum Beispiel bereitgestellt wird, extrahiert die
Textunterteilungseinheit 2 fünf partielle Suchzeichenfolgen "AB", "BC", "CD", "DE" und
"EF". In diesem Fall wählt die Auswahleinheit 6 für die partielle Suchzeichenfolge drei der
fünf Folgen "AB", "CD" und "EF" aus, während die anderen beiden Zeichenfolgen "BC" und
"DE" ausgelassen werden. Wenn eine Suchzeichenfolge "BCDEF" auf der anderen Seite
lautet, werden zwei partielle Zeichenfolgen "BC" und "DE" zuerst gewählt. Keine weiteren
partiellen Zeichenfolgen können ohne Überlapp ausgewählt werden, jedoch sind die ausge
wählten zwei partiellen Zeichenfolgen nicht dazu in der Lage, die volle Länge der Suchzeichen
folge abzudecken (d. h. sie können nicht das letzte Zeichen der Suchzeichenfolge abdecken).
In diesem Fall wird eine andere partielle Suchzeichenfolge "EF" zusätzlich ausgewählt.
Infolgedessen werden drei partielle Zeichenfolgen "BC", "DE" und "EF" von der Suchzei
chenfolge "BCDEF" ausgewählt.
Ausgewählte partielle Zeichenfolgen sind immer weniger als alle partiellen Zeichenfolgen.
Wenn eine Suchzeichenfolge aus m-Zeichen besteht, ist die Anzahl der ausgewählten partiellen
Zeichenfolgen gleich der kleinsten ganzen Zahl, nicht kleiner als m/n. Falls nämlich n gleich
2 und m gleich 3 ist, ist die kleinste ganze Zahl, die nicht kleiner als 3/2 ist, 2. Falls n gleich
2 ist und m gleich 4 ist, ist die kleinste ganze Zahl, die nicht kleiner als 4/2 ist, 2. Falls n
gleich 2 und m gleich 5 ist, ist die kleinste ganze Zahl, die nicht kleiner als 5/2 ist, 3. Diese
Zahl der ausgewählten partiellen Zeichenfolgen ist kleiner als (m - n + 1), das ist die Zahl der
partiellen Zeichenfolgen, die bei der japanischen offengelegten Patentanmeldung Nr. 11/85776
verwendet wird. In dieser Art und Weise kann die achte Ausführungsform der vorliegenden
Erfindung die Berechnungslast zum Auswählen von Dokumenten und Berechnen von Rangord
nungspunkten reduzieren, wodurch eine Dokumentenbeschaffung mit hoher Geschwindigkeit
erzielt wird.
Fig. 14 ist ein Flussdiagramm eines Prozesses zum Auswählen partieller Zeichenfolgen, der
nicht die volle Länge einer Suchzeichenfolge überlappt und abdeckt.
Bei einem Schritt S201 wird ein Parameter s auf 1 gesetzt. Dieser Parameter zeigt eine Startpo
sition einer partiellen Zeichenfolge an.
Bei einem Schritt S202 wird s plus sublen berechnet. Die sich ergebende sum (Summe) wird
in einem Parameter e festgelegt. Hier ist sublen eine Länge von partiellen Zeichenfolgen, d. h.
eine Länge einer Verarbeitungseinheit. Der Parameter e zeigt die Position an, die als nächstes
einer Endposition der partiellen Zeichenfolge folgt, und zwar beginnend bei der Position s.
Bei einem Schritt S203 wird eine Überprüfung dahingehend durchgeführt, ob e größer als len
plus 1 ist, wobei len die Länge einer Suchzeichenfolge ist. Falls dies nicht so ist, geht das
Verfahren zu einem Schritt S204 über.
In dem Schritt S204 wird eine partielle Zeichenfolge mit der Startposition s als eine der par
tiellen Zeichenfolge für den Beschaffungszweck ausgewählt.
In dem Schritt S205 wird eine Überprüfung dahingehend durchgeführt, ob e gleich len plus 1
ist. Falls dies so ist, kommt das Verfahren zu einem Ende.
In dem Schritt S206 wird die Startposition s auf e festgelegt. Dann geht das Verfahren zu dem
Schritt S202 zurück.
Falls die Überprüfung bei dem Schritt S203 findet, dass e größer ist als len plus 1 ist, geht das
Verfahren zu einem Schritt S207 über.
In dem Schritt S207 wird eine partielle Zeichenfolge mit einer Startposition (len - sublen + 1)
als eine der partiellen Zeichenfolgen für ein Beschaffungszweck ausgewählt. Dann kommt das
Verfahren zu einem Ende.
Bemerkenswert ist, dass die achte Ausführungsform der vorliegenden Erfindung in derselben
Art und Weise modifiziert werden kann, wie die erste Ausführungsform modifiziert worden
ist, um die zweite bis siebte Ausführungsform, wie zuvor beschrieben wurde, bereitzustellen.
Bemerkenswert ist weiter, dass, obwohl die erste bis achte Ausführungsform unter Bezugnahme
auf eine bestimmte Kombination von Merkmalen der vorliegenden Erfindung beschrieben
wurde, verschiedene andere Kombinationen gemacht werden können, um Variationen der
jeweiligen Ausführungsformen bereitzustellen.
Weiter ist die vorliegende Erfindung nicht auf diese Ausführungsform beschränkt, sondern
verschiedene Variationen und Modifikationen können durchgeführt werden, ohne vom Umfa 00990 00070 552 001000280000000200012000285910087900040 0002010028624 00004 00871ng
der Erfindung abzuweichen.
Die vorliegende Erfindung basiert auf der prioritätsbegründenden japanischen Patentanmeldung
Nr. 11-360369, die am 20. Dezember 1999 beim Japanischen Patentamt eingereicht wurde und
deren gesamter Inhalt hiermit durch Bezugnahme aufgenommen wird.
Ein Verfahren zur Dokumentenbeschaffung beinhaltet die Schritte der Unterteilung einer
Suchzeichenfolge in partielle Zeichenfolgen, das Auswählen eines Dokuments oder mehrerer
Dokumente von einer Vielzahl gespeicherter Dokumenten derartig, dass das eine Dokument
oder die mehren Dokumente jeweils alle partiellen Zeichenfolgen enthalten, die Berechnung
jeweiliger Ränge der partiellen Zeichenfolgen für jedes der Anzahl Dokumente und die Berech
nung eines Rangs der Suchzeichenfolge von den jeweiligen Rängen der partiellen Zeichenfolgen
für jedes der Anzahldokumente.
Claims (36)
1. Verfahren zur Dokumentenbeschaffung, dadurch gekennzeichnet, dass es die folgenden
Schritte umfasst:
eine Suchzeichenfolge wird in partielle Zeichenfolgen unterteilt;
eine Anzahl Dokumente wird aus einer Vielzahl von gespeicherten Dokumenten derartig ausgewählt, dass jedes der Dokumente der Anzahl Dokumente alle partielle Zeichenfolgen enthält;
jeweilige Rangpunkte der partiellen Zeichenfolgen für jedes der Anzahl Dokumente werden berechnet; und
ein Rangpunkt der Suchzeichenfolge wird von den jeweiligen Rangpunkten der partiel len Zeichenfolgen für jedes der Anzahl Dokumente berechnet.
eine Suchzeichenfolge wird in partielle Zeichenfolgen unterteilt;
eine Anzahl Dokumente wird aus einer Vielzahl von gespeicherten Dokumenten derartig ausgewählt, dass jedes der Dokumente der Anzahl Dokumente alle partielle Zeichenfolgen enthält;
jeweilige Rangpunkte der partiellen Zeichenfolgen für jedes der Anzahl Dokumente werden berechnet; und
ein Rangpunkt der Suchzeichenfolge wird von den jeweiligen Rangpunkten der partiel len Zeichenfolgen für jedes der Anzahl Dokumente berechnet.
2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt zum Unterteilen
die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die sich überlappen.
3. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Unterteilung
die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die sich im allgemeinen nicht
überlappen und die eine volle Länge der Suchzeichenfolge abdecken.
4. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Berechnung
jeweiliger Rangpunkte der partiellen Zeichenfolgen die folgenden Schritte umfasst:
ein erster Zählerwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene der partiellen Zeichenfolgen beinhaltet;
ein zweiter Zählerwert wird erhalten, der anzeigt, wie viele Male die gegebene eine Zeichenfolge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl von Dokumenten erscheint; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge gebene eine Dokument der Anzahl von Dokumenten von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und der Zunahme des zweiten Zählwer tes zunimmt.
ein erster Zählerwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene der partiellen Zeichenfolgen beinhaltet;
ein zweiter Zählerwert wird erhalten, der anzeigt, wie viele Male die gegebene eine Zeichenfolge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl von Dokumenten erscheint; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge gebene eine Dokument der Anzahl von Dokumenten von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen mit der Abnahme des ersten Zählwertes und der Zunahme des zweiten Zählwer tes zunimmt.
5. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Berechnung
jeweiliger Rangpunkte der partiellen Zeichenfolgen die folgenden Schritte umfasst:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Zeichenfolge der partiellen Zeichenfolgen enthalten;
zweite Zählwerte werden erhalten, die jeweils anzeigen, wie häufig eine entsprechende Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint;
ein kleinster Zählwert der zweiten Zählwerte wird erhalten; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge gebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleinsten der zweiten Zählwerte erhalten, so dass der Rangpunkt der gegebenen einen Zeichenfolge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählerwert abnimmt und wenn der kleinste Zählwert der zweiten Zählwerte zunimmt.
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Zeichenfolge der partiellen Zeichenfolgen enthalten;
zweite Zählwerte werden erhalten, die jeweils anzeigen, wie häufig eine entsprechende Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint;
ein kleinster Zählwert der zweiten Zählwerte wird erhalten; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge gebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleinsten der zweiten Zählwerte erhalten, so dass der Rangpunkt der gegebenen einen Zeichenfolge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählerwert abnimmt und wenn der kleinste Zählwert der zweiten Zählwerte zunimmt.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt der Berechnung
jeweiliger Rangpunkte der partiellen Zeichenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei nem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge gebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert erhalten, so dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfol gen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei nem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen wird für das ge gebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert erhalten, so dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfol gen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
7. Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass der Schritt der Erzielung
eines zweiten Zählwerts weiter ein Schritt beinhaltet, eine obere Grenze für den zweiten
Zählwert festzulegen.
8. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt des Auswählens
einer Anzahl von Dokumenten die Anzahl von Dokumenten auswählt, wobei jedes die Suchzei
chenfolge enthält, und der Schritt der Berechnung jeweiliger Rangpunkte der partiellen Zei
chenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente die Suchzeichenfolge enthalten;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig eine Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert erhal ten, so dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente die Suchzeichenfolge enthalten;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig eine Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert erhal ten, so dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
9. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Schritt des Auswählens
einer Anzahl von Dokumenten die Anzahl von Dokumente auswählt, von denen jedes die
Suchzeichenfolge enthält, und der Schritt der Berechnung jeweiliger Rangpunkt der partiellen
Suchzeichenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente die Suchzeichenfolge enthalten;
von dem ersten Zählwert wird eine Grenze berechnet;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei nem gegebenen Dokument der Anzahl von Dokumenten erscheint, während ein oberes Ende des zweiten Zählwerts auf die Grenze beschränkt wird; und
ein Rangpunkt eines gegebenen der partiellen Zeichenfolgen wird für das gegebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolge zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente die Suchzeichenfolge enthalten;
von dem ersten Zählwert wird eine Grenze berechnet;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei nem gegebenen Dokument der Anzahl von Dokumenten erscheint, während ein oberes Ende des zweiten Zählwerts auf die Grenze beschränkt wird; und
ein Rangpunkt eines gegebenen der partiellen Zeichenfolgen wird für das gegebene eine Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen einen Folge der partiellen Zeichenfolge zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
10. Verfahren zur Dokumentenbeschaffung, gekennzeichnet durch die folgenden Schritte:
jeweilige Indizes für Dokumente werden bereitgestellt, wobei jedes der jeweiligen Indi zes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden und jeweilige Positionen dafür in dem entsprechenden Dokument auflistet;
die partiellen Zeichenfolgen werden ausgewählt, die mit einer Zeichenfolge starten, die identisch mit einer Suchzeichenfolge ist;
eine Anzahl Dokumente wird aus den Dokumenten derartig ausgewählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolgen enthalten;
jeweilige Rangpunkte der ausgewählten partiellen Zeichenfolgen werden für jedes Do kument der Anzahl Dokumente berechnet; und
ein Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausgewählten partiellen Zeichenfolgen werden für jedes Dokument der Anzahl Dokumente berechnet.
jeweilige Indizes für Dokumente werden bereitgestellt, wobei jedes der jeweiligen Indi zes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden und jeweilige Positionen dafür in dem entsprechenden Dokument auflistet;
die partiellen Zeichenfolgen werden ausgewählt, die mit einer Zeichenfolge starten, die identisch mit einer Suchzeichenfolge ist;
eine Anzahl Dokumente wird aus den Dokumenten derartig ausgewählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolgen enthalten;
jeweilige Rangpunkte der ausgewählten partiellen Zeichenfolgen werden für jedes Do kument der Anzahl Dokumente berechnet; und
ein Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausgewählten partiellen Zeichenfolgen werden für jedes Dokument der Anzahl Dokumente berechnet.
11. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass der Schritt der Berechnung
jeweiliger Rangpunkte der ausgewählten partiellen Zeichenfolgen die folgenden Schritte enthält:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen anzeigt;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die gegebene Zeichenfolge der ausgewählten Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente er scheint; und
ein Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen Zeichenfolge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen anzeigt;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die gegebene Zeichenfolge der ausgewählten Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente er scheint; und
ein Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, dass der Rangpunkt der gegebenen Zeichenfolge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
12. Verfahren nach Anspruch 10, dadurch gekennzeichnet, dass der Schritt der Berechnung
jeweiliger Rangpunkte der ausgewählten partiellen Zeichenfolgen die folgenden Schritte
umfasst:
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen beinhaltet;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei nem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, so dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
ein erster Zählwert wird erhalten, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen beinhaltet;
ein zweiter Zählwert wird erhalten, der anzeigt, wie häufig die Suchzeichenfolge in ei nem gegebenen Dokument der Anzahl Dokumente erscheint; und
ein Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen wird für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhalten, so dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
13. Vorrichtung zur Dokumentbeschaffung, gekennzeichnet durch folgendes:
eine Unterteilungseinheit (2), die eine Suchzeichenfolge in partielle Zeichenfolgen un terteilt;
eine Dokumentauswahleinheit (4), die eine Anzahl Dokumente von einer Vielzahl ge speicherter Dokumente derartig auswählt, dass die Anzahl Dokumente jeweils alle partiellen Zeichenfolgen enthalten; und
eine Rangberechnungseinheit (5), die jeweilige Rangpunkte der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
eine Unterteilungseinheit (2), die eine Suchzeichenfolge in partielle Zeichenfolgen un terteilt;
eine Dokumentauswahleinheit (4), die eine Anzahl Dokumente von einer Vielzahl ge speicherter Dokumente derartig auswählt, dass die Anzahl Dokumente jeweils alle partiellen Zeichenfolgen enthalten; und
eine Rangberechnungseinheit (5), die jeweilige Rangpunkte der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
14. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Unterteilungseinheit
(2) die Suchzeichenfolge in partielle Zeichenfolgen unterteilt, die einander überlappen.
15. Vorrichtung nach Anspruch 14, die weiter eine Auswahleinheit (6) für partielle Zeichen
folgen umfasst, die die partiellen Zeichenfolgen auswählt, die im allgemeinen nicht überlappen
und die die volle Länge der Suchzeichenfolge abdecken, wobei die ausgewählten partiellen
Zeichenfolgen aufeinander folgend berechnet werden, um die jeweiligen Rangpunkte der
ausgewählten partiellen Zeichenfolgen zu berechnen.
16. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Rangberechnungsein
heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rangpunkt der gegebenen Folge der partiellen Zeichen folgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rangpunkt der gegebenen Folge der partiellen Zeichen folgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
17. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Rangberechnungsein
heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele Doku mente der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthal ten;
eine zweite Einrichtung, die zweite Zählwerte erhält, die anzeigen, wie häufig eine ent sprechende Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint;
eine Minimaleinrichtung, um den kleinsten der zweiten Zählwerte zu erhalten; und
eine Rangeinrichtung, die einen Rang der gegebenen Folge der partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleins ten der zweiten Zählwerte derartig erhält, dass der Rangpunkt der gegebenen Folge der partiel len Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der kleinste der zweiten Zählwerte zunimmt.
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele Doku mente der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthal ten;
eine zweite Einrichtung, die zweite Zählwerte erhält, die anzeigen, wie häufig eine ent sprechende Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint;
eine Minimaleinrichtung, um den kleinsten der zweiten Zählwerte zu erhalten; und
eine Rangeinrichtung, die einen Rang der gegebenen Folge der partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleins ten der zweiten Zählwerte derartig erhält, dass der Rangpunkt der gegebenen Folge der partiel len Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der kleinste der zweiten Zählwerte zunimmt.
18. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Rangberechnungsein
heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Einrichtung, die einen Rangpunkt der gegebenen Zeichenfolge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Zeichenfolge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Einrichtung, die einen Rangpunkt der gegebenen Zeichenfolge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Zeichenfolge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
19. Vorrichtung nach Anspruch 18, dadurch gekennzeichnet, dass die zweite Einrichtung
zum Erzielen eines zweiten Zählwertes weiter eine Festlegeinrichtung zum Festlegen einer
oberen Grenze des zweiten Zählwerts enthält.
20. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Dokumentauswahl
einheit (4) die Anzahl Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält und
wobei die Rangberechnungseinheit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig eine gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Einrichtung, die einen Rangpunkt der gegebenen Folge der partiellen Zeichenfol gen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der gegebenen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig eine gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Einrichtung, die einen Rangpunkt der gegebenen Folge der partiellen Zeichenfol gen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der gegebenen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
21. Vorrichtung nach Anspruch 13, dadurch gekennzeichnet, dass die Dokumentauswahl
einheit (4) die Anzahl Dokumente auswählt, von denen jedes die Suchzeichenfolge enthält, und
die Rangberechnungseinheit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine Berechnungseinrichtung, die eine Grenze von dem ersten Zählwert berechnet;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint, während ein oberes Ende des zweiten Zählwerts auf die Grenze beschränkt wird; und
eine Rangeinrichtung, die einen Rangpunkt einer gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine Berechnungseinrichtung, die eine Grenze von dem ersten Zählwert berechnet;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint, während ein oberes Ende des zweiten Zählwerts auf die Grenze beschränkt wird; und
eine Rangeinrichtung, die einen Rangpunkt einer gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
22. Vorrichtung zur Dokumentenbeschaffung, dadurch gekennzeichnet, dass sie folgendes
umfasst:
eine Textunterteilungseinheit (2), die jeweilige Indizes für Dokumente bereitstellt, wo bei jeder Index der jeweiligen Indizes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden und ihre jeweiligen Positionen in dem entsprechenden Dokument auflistet, und die die partiellen Zeichenfolgen auswählt, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge identisch ist;
eine Dokumentauswahleinheit (4), die eine Anzahl Dokumente von den Dokumenten derartig auswählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolge enthalten; und
eine Rangberechnungseinheit (5), die jeweilige Ränge der ausgewählten partiellen Zei chenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rang punkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
eine Textunterteilungseinheit (2), die jeweilige Indizes für Dokumente bereitstellt, wo bei jeder Index der jeweiligen Indizes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden wurden und ihre jeweiligen Positionen in dem entsprechenden Dokument auflistet, und die die partiellen Zeichenfolgen auswählt, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge identisch ist;
eine Dokumentauswahleinheit (4), die eine Anzahl Dokumente von den Dokumenten derartig auswählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolge enthalten; und
eine Rangberechnungseinheit (5), die jeweilige Ränge der ausgewählten partiellen Zei chenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rang punkt der Suchzeichenfolge von den jeweiligen Rangpunkten der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
23. Vorrichtung nach Anspruch 22, dadurch gekennzeichnet, dass die Rangberechnungsein
heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthal ten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der ausgewählten partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rang für die gegebene Folge der ausgewählten partiel len Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthal ten;
eine zweite Einrichtung, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der ausgewählten partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rang für die gegebene Folge der ausgewählten partiel len Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
24. Vorrichtung nach Anspruch 22, dadurch gekennzeichnet, dass die Rangberechnungsein
heit (5) folgendes enthält:
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthält;
eine zweite Einrichtung, die eine zweite Folge erhält, die anzeigt, wie häufig die Such zeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rangpunkt für die gegebene Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Einrichtung, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthält;
eine zweite Einrichtung, die eine zweite Folge erhält, die anzeigt, wie häufig die Such zeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rangeinrichtung, die einen Rangpunkt für die gegebene Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
25. Programm und/oder Computer lesbares Aufzeichnungsmedium, das das Programm
enthält, wobei das Programm den Computer veranlasst, eine Dokumentbeschaffung durchzufüh
ren und das Programm dadurch gekennzeichnet ist, dass es folgendes umfasst:
eine Unterteilungs-Kodeeinheit, die eine Zeichenfolge in partielle Zeichenfolgen unterteilt;
eine Dokumentauswahl-Kodeeinheit, die eine Anzahl Dokumente von einer Vielzahl ge speicherter Dokumente derartig auswählt, dass die Anzahl Dokumente jeweils alle partiellen Zeichenfolgen enthalten; und
eine Rangberechnungs-Kodeeinheit, die jeweilige Ränge der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
eine Unterteilungs-Kodeeinheit, die eine Zeichenfolge in partielle Zeichenfolgen unterteilt;
eine Dokumentauswahl-Kodeeinheit, die eine Anzahl Dokumente von einer Vielzahl ge speicherter Dokumente derartig auswählt, dass die Anzahl Dokumente jeweils alle partiellen Zeichenfolgen enthalten; und
eine Rangberechnungs-Kodeeinheit, die jeweilige Ränge der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rangpunkten der partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnet.
26. Programm und/oder Computer lesbares Aufzeichnungsmedium nach Anspruch 25,
dadurch gekennzeichnet, dass die Unterteilungs-Kodeeinheit die Suchzeichenfolge in partielle
Zeichenfolgen unterteilt, die sich miteinander überlappen.
27. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 26
beansprucht, dadurch gekennzeichnet, dass das Programm weiter eine Auswahl-Kodeeinheit
für partielle Zeichenfolgen umfasst, die partielle Zeichenfolgen auswählt, die im allgemeinen
sich nicht überlappen und die eine volle Länge der Suchzeichenfolge abdecken, wobei die
ausgewählten partiellen Zeichenfolgen darauf folgend verwendet werden, um jeweilige Rang
punkte der ausgewählten partiellen Zeichenfolgen zu berechnen.
28. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 25
beansprucht, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
29. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 25
beansprucht, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthält;
eine zweite Kodeeinheit, die zweite Zählwerte erhält, die jeweils anzeigen, wie häufig eine entsprechende Folge der partiellen Zeichenfolgen in einen gegebenen Dokument der Anzahl Dokumente erscheint;
eine Minimum-Kodeeinheit, die einen kleinsten Zählwert der zweiten Zählwerte erhält; und
eine Rang-Kodeeinheit, die einen Rang der gegebenen Folge der partiellen Zeichenfol gen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleinsten Zählwert der zweiten Zählwerte derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der kleinste Zählwert der zweiten Zählwerte zunimmt.
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthält;
eine zweite Kodeeinheit, die zweite Zählwerte erhält, die jeweils anzeigen, wie häufig eine entsprechende Folge der partiellen Zeichenfolgen in einen gegebenen Dokument der Anzahl Dokumente erscheint;
eine Minimum-Kodeeinheit, die einen kleinsten Zählwert der zweiten Zählwerte erhält; und
eine Rang-Kodeeinheit, die einen Rang der gegebenen Folge der partiellen Zeichenfol gen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem kleinsten Zählwert der zweiten Zählwerte derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der kleinste Zählwert der zweiten Zählwerte zunimmt.
30. Programm und/oder Computer lesbares Aufzeichnungsmedium nach Anspruch 25,
dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert, abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge speicherten Dokumente eine gegebene Folge der partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert, abnimmt und wenn der zweite Zählwert zunimmt.
31. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 30
beansprucht, dadurch gekennzeichnet, dass die zweite Kodeeinheit zum Erhalten eines zweiten
Kodewerts weiter eine Festlegungs-Kodeeinheit enthält, die eine obere Grenze für den zweiten
Zählwert festlegt.
32. Programm und/oder Computer lesbares Aufzeichnungsmedium nach Anspruch 25,
dadurch gekennzeichnet, dass die Dokumentauswahl-Kodeeinheit die Anzahl Dokumente
auswählt, von denen jedes die Suchzeichenfolge enthält, und wobei die Rangberechnungs-
Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig eine gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig eine gegebene Folge der partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt der gegebenen Folge der partiellen Zei chenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
33. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 25
beansprucht, dadurch gekennzeichnet, dass die Dokumentauswahl-Kodeeinheit die Anzahl
Dokumente, von denen jedes die Suchzeichenfolge enthält, auswählt und die Rangberechnungs-
Kodeeinheit folgendes enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine Berechnungs-Kodeeinheit, die eine Grenze von dem ersten Zählwert berechnet;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint, während ein oberes Ende des zweiten Zählwertes auf die Grenze beschränkt ist; und
eine Rang-Kodeeinheit, die einen Rang einer gegebenen Folge der partiellen Zeichen folgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rang der gegebenen Folge der partiellen Zeichenfol gen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie häufig die ge speicherten Dokumente die Suchzeichenfolge enthalten;
eine Berechnungs-Kodeeinheit, die eine Grenze von dem ersten Zählwert berechnet;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint, während ein oberes Ende des zweiten Zählwertes auf die Grenze beschränkt ist; und
eine Rang-Kodeeinheit, die einen Rang einer gegebenen Folge der partiellen Zeichen folgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rang der gegebenen Folge der partiellen Zeichenfol gen zunimmt, wenn der erste Zählwert abnimmt und wenn der zweite Zählwert zunimmt.
34. Programm und/oder Computer lesbares Aufzeichnungsmedium mit dem Programm
darin, wobei das Programm einen Computer veranlasst, eine Dokumentenbeschaffung durchzu
führen und das Programm durch folgendes gekennzeichnet ist:
eine Textunterteilungs-Kodeeinheit, die jeweilige Indizes für Dokumente bereitstellt, wobei jeder der jeweiligen Indizes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden werden und die jeweiligen Positionen in dem entsprechenden Dokument davon auflistet, und die die partiellen Zeichenfolgen auswählt, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge identisch ist;
eine Dokumentauswahl-Kodeeinheit, die eine Anzahl Dokumente von den Dokumenten derartig auswählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolgen enthalten; und
eine Rangberechnungs-Kodeeinheit, die jeweilige Folgen der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnen und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rängen der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnen.
eine Textunterteilungs-Kodeeinheit, die jeweilige Indizes für Dokumente bereitstellt, wobei jeder der jeweiligen Indizes partielle Zeichenfolgen, die in einem entsprechenden Dokument gefunden werden und die jeweiligen Positionen in dem entsprechenden Dokument davon auflistet, und die die partiellen Zeichenfolgen auswählt, die mit einer Zeichenfolge beginnen, die mit einer Suchzeichenfolge identisch ist;
eine Dokumentauswahl-Kodeeinheit, die eine Anzahl Dokumente von den Dokumenten derartig auswählt, dass die Anzahl Dokumente jeweils wenigstens eine Folge der ausgewählten partiellen Zeichenfolgen enthalten; und
eine Rangberechnungs-Kodeeinheit, die jeweilige Folgen der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnen und die weiter einen Rangpunkt der Suchzeichenfolge von den jeweiligen Rängen der ausgewählten partiellen Zeichenfolgen für jedes Dokument der Anzahl Dokumente berechnen.
35. Programm und/oder Computer lesbares Aufzeichnungsmedium mit dem Programm nach
Anspruch 34, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes
enthält:
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthal ten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der ausgewählten partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rang der gegebenen Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
eine erste Kodeeinheit, die einen ersten Zählwert erhält, der anzeigt, wie viele der ge speicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthal ten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die gegebene Folge der ausgewählten partiellen Zeichenfolgen in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rang der gegebenen Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
36. Programm und/oder Computer lesbares Aufzeichnungsmedium, wie im Anspruch 34
beansprucht, dadurch gekennzeichnet, dass die Rangberechnungs-Kodeeinheit folgendes enthält:
eine erste Kodeeinrichtung, die einen ersten Zählwert enthält, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt für die gegebene Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
eine erste Kodeeinrichtung, die einen ersten Zählwert enthält, der anzeigt, wie viele der gespeicherten Dokumente eine gegebene Folge der ausgewählten partiellen Zeichenfolgen enthalten;
eine zweite Kodeeinheit, die einen zweiten Zählwert erhält, der anzeigt, wie häufig die Suchzeichenfolge in einem gegebenen Dokument der Anzahl Dokumente erscheint; und
eine Rang-Kodeeinheit, die einen Rangpunkt für die gegebene Folge der ausgewählten partiellen Zeichenfolgen für das gegebene Dokument der Anzahl Dokumente von dem ersten Zählwert und dem zweiten Zählwert derartig erhält, dass der Rangpunkt der gegebenen Folge der ausgewählten partiellen Zeichenfolgen zunimmt, wenn der erste Zählwert abnimmt und der zweite Zählwert zunimmt.
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP11162068A JP2000348059A (ja) | 1999-06-09 | 1999-06-09 | 文書検索方法 |
JP11-162068 | 1999-06-09 | ||
JP11-360369 | 1999-12-20 | ||
JP36036999A JP4077128B2 (ja) | 1999-12-20 | 1999-12-20 | 文書検索装置、文書検索方法および記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10028624A1 true DE10028624A1 (de) | 2001-05-23 |
DE10028624B4 DE10028624B4 (de) | 2007-07-05 |
Family
ID=26487988
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10028624A Expired - Lifetime DE10028624B4 (de) | 1999-06-09 | 2000-06-09 | Verfahren und Vorrichtung zur Dokumentenbeschaffung |
Country Status (4)
Country | Link |
---|---|
US (1) | US6546383B1 (de) |
CN (1) | CN1156779C (de) |
DE (1) | DE10028624B4 (de) |
FR (1) | FR2797067B1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10048478A1 (de) * | 2000-09-29 | 2002-04-25 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen sowie zugehörige Speichereinheit |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7356604B1 (en) * | 2000-04-18 | 2008-04-08 | Claritech Corporation | Method and apparatus for comparing scores in a vector space retrieval process |
JP4342753B2 (ja) | 2001-08-10 | 2009-10-14 | 株式会社リコー | 文書検索装置、文書検索方法、プログラム及びコンピュータに読み取り可能な記憶媒体 |
JP4006239B2 (ja) * | 2002-02-21 | 2007-11-14 | 株式会社日立製作所 | 文書の検索方法および検索システム |
US7702666B2 (en) * | 2002-06-06 | 2010-04-20 | Ricoh Company, Ltd. | Full-text search device performing merge processing by using full-text index-for-registration/deletion storage part with performing registration/deletion processing by using other full-text index-for-registration/deletion storage part |
US7010522B1 (en) * | 2002-06-17 | 2006-03-07 | At&T Corp. | Method of performing approximate substring indexing |
JP4538449B2 (ja) * | 2003-03-03 | 2010-09-08 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 文字列検索の方法および設備 |
US7069037B2 (en) * | 2003-04-11 | 2006-06-27 | Qualcomm, Inc. | System and method for fluid power control of a reverse link communication |
JP2008146602A (ja) * | 2006-12-13 | 2008-06-26 | Canon Inc | 文書検索装置、文書検索方法、プログラム及び記憶媒体 |
CN102124459B (zh) * | 2007-06-14 | 2013-06-12 | 谷歌股份有限公司 | 词典词和短语确定 |
JP2009037359A (ja) * | 2007-07-31 | 2009-02-19 | Hitachi Ltd | データ登録検索方法、データ登録検索プログラムおよびデータベースシステム |
JP5177649B2 (ja) * | 2008-05-21 | 2013-04-03 | 株式会社リコー | 現像装置、プロセスユニット及び画像形成装置 |
US8543574B2 (en) * | 2009-06-05 | 2013-09-24 | Microsoft Corporation | Partial-matching for web searches |
JP5424269B2 (ja) * | 2010-09-10 | 2014-02-26 | 株式会社日立製作所 | 局所対応抽出装置及び局所対応抽出方法 |
US9043198B1 (en) * | 2012-04-13 | 2015-05-26 | Google Inc. | Text suggestion |
JP6026036B1 (ja) * | 2016-04-08 | 2016-11-16 | 株式会社Ubic | データ分析システム、その制御方法、プログラム、及び、記録媒体 |
Family Cites Families (24)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748953A (en) * | 1989-06-14 | 1998-05-05 | Hitachi, Ltd. | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols |
US5029223A (en) * | 1990-02-02 | 1991-07-02 | International Business Machines Corporation | Constraint driven-on line recognition of handwritten characters and symbols |
US5062143A (en) * | 1990-02-23 | 1991-10-29 | Harris Corporation | Trigram-based method of language identification |
JP3280045B2 (ja) * | 1991-06-21 | 2002-04-30 | 株式会社シマノ | 自転車用フロントデイレーラー |
US5371807A (en) * | 1992-03-20 | 1994-12-06 | Digital Equipment Corporation | Method and apparatus for text classification |
JPH05324726A (ja) * | 1992-05-25 | 1993-12-07 | Fujitsu Ltd | 文書データ分類装置及び文書分類機能構築装置 |
GB9220404D0 (en) * | 1992-08-20 | 1992-11-11 | Nat Security Agency | Method of identifying,retrieving and sorting documents |
US5369605A (en) * | 1993-07-07 | 1994-11-29 | Dell Usa, L.P. | Incremental search content addressable memory for increased data compression efficiency |
US5548507A (en) * | 1994-03-14 | 1996-08-20 | International Business Machines Corporation | Language identification process using coded language words |
US5752051A (en) * | 1994-07-19 | 1998-05-12 | The United States Of America As Represented By The Secretary Of Nsa | Language-independent method of generating index terms |
JP3647518B2 (ja) * | 1994-10-06 | 2005-05-11 | ゼロックス コーポレイション | コード化したワードトークンを使用して文書画像をハイライトで強調する装置 |
US6029195A (en) * | 1994-11-29 | 2000-02-22 | Herz; Frederick S. M. | System for customized electronic identification of desirable objects |
US5706365A (en) * | 1995-04-10 | 1998-01-06 | Rebus Technology, Inc. | System and method for portable document indexing using n-gram word decomposition |
WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
WO1997008604A2 (en) * | 1995-08-16 | 1997-03-06 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
US5717914A (en) * | 1995-09-15 | 1998-02-10 | Infonautics Corporation | Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query |
US5862259A (en) * | 1996-03-27 | 1999-01-19 | Caere Corporation | Pattern recognition employing arbitrary segmentation and compound probabilistic evaluation |
US5845049A (en) * | 1996-03-27 | 1998-12-01 | Board Of Regents, The University Of Texas System | Neural network system with N-gram term weighting method for molecular sequence classification and motif identification |
JP2001505330A (ja) * | 1996-08-22 | 2001-04-17 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | テキストストリーム中の単語の切れ目を与える方法及び装置 |
US6075470A (en) * | 1998-02-26 | 2000-06-13 | Research In Motion Limited | Block-wise adaptive statistical data compressor |
US6272456B1 (en) * | 1998-03-19 | 2001-08-07 | Microsoft Corporation | System and method for identifying the language of written text having a plurality of different length n-gram profiles |
US5991714A (en) * | 1998-04-22 | 1999-11-23 | The United States Of America As Represented By The National Security Agency | Method of identifying data type and locating in a file |
US6360010B1 (en) * | 1998-08-12 | 2002-03-19 | Lucent Technologies, Inc. | E-mail signature block segmentation |
US6292772B1 (en) * | 1998-12-01 | 2001-09-18 | Justsystem Corporation | Method for identifying the language of individual words |
-
2000
- 2000-06-09 CN CNB001225383A patent/CN1156779C/zh not_active Expired - Lifetime
- 2000-06-09 US US09/590,367 patent/US6546383B1/en not_active Expired - Lifetime
- 2000-06-09 DE DE10028624A patent/DE10028624B4/de not_active Expired - Lifetime
- 2000-06-09 FR FR0007418A patent/FR2797067B1/fr not_active Expired - Lifetime
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE10048478A1 (de) * | 2000-09-29 | 2002-04-25 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen sowie zugehörige Speichereinheit |
DE10048478C2 (de) * | 2000-09-29 | 2003-05-28 | Siemens Ag | Verfahren zum Zugriff auf eine Speichereinheit bei der Suche nach Teilzeichenfolgen |
Also Published As
Publication number | Publication date |
---|---|
CN1277398A (zh) | 2000-12-20 |
US6546383B1 (en) | 2003-04-08 |
FR2797067B1 (fr) | 2005-07-29 |
DE10028624B4 (de) | 2007-07-05 |
CN1156779C (zh) | 2004-07-07 |
FR2797067A1 (fr) | 2001-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69804495T2 (de) | Informationsmanagement und wiedergewinnung von schlüsselbegriffen | |
DE69811066T2 (de) | Datenzusammenfassungsgerät. | |
DE69834386T2 (de) | Textverarbeitungsverfahren und rückholsystem und verfahren | |
DE19952769B4 (de) | Suchmaschine und Verfahren zum Abrufen von Informationen mit Abfragen in natürlicher Sprache | |
DE69230814T2 (de) | Datenbankauffindungssystem zur Beantwortung natursprachlicher Fragen mit dazugehörigen Tabellen | |
DE69618089T2 (de) | Automatische Methode zur Erzeugung von Merkmalwahrscheinlichkeiten für automatische Extraktionszusammenfassung | |
DE60029845T2 (de) | System zum identifizieren der verhältnisse zwischen bestandteilen in aufgaben vom typ informations-wiederauffindung | |
DE69433165T2 (de) | Assoziatives textsuch- und wiederauffindungssystem | |
DE10028624A1 (de) | Verfahren und Vorrichtung zur Dokumentenbeschaffung | |
DE69731142T2 (de) | System zum Wiederauffinden von Dokumenten | |
DE69623082T2 (de) | Automatische Methode zur Extraktionszusammenfassung durch Gebrauch von Merkmal-Wahrscheinlichkeiten | |
DE69833238T2 (de) | System zur Schlüsselwortgewinnung und Textwiederauffingungssystem zu seiner Verwendung | |
DE69427848T2 (de) | Unterstützungssystem zur Herstellung von Wörterbüchern | |
DE10231161A1 (de) | Domain-spezifisches wissensbasiertes Metasuchsystem und Verfahren zum Verwenden desselben | |
DE60319586T2 (de) | Elektronisches wörterbuch mit beispielsätzen | |
DE19922974A1 (de) | Verfahren und Vorrichtung zur Bearbeitung eines Dokuments | |
DE112012003249T5 (de) | System, Verfahren und Programm zum Abrufen von Informationen | |
DE102005008803A1 (de) | Verfahren und Computereinheit zum Ermitteln von Computer-Servicenamen | |
WO2010078859A1 (de) | Verfahren und system zum ermitteln einer ähnlichkeit von dokumenten | |
DE112020003024T5 (de) | Informationsverarbeitungsvorrichtung, informationsverarbeitungsverfahren und programm | |
EP1412875B1 (de) | Verfahren zur verarbeitung von text in einer rechnereinheit und rechnereinheit | |
DE69231013T2 (de) | Verfahren und Anordnung zum Registrieren von Textdokumenten und zur Dokumentwiederauffindung | |
DE60119686T2 (de) | System und Methode zum rechnerbasierten Suchen nach relevanten Texten | |
DE69132678T2 (de) | Ein textverwaltungssystem | |
EP2423830A1 (de) | Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
R071 | Expiry of right |