DE19843450A1 - Electronic Thesaurus for internet search machine - Google Patents

Electronic Thesaurus for internet search machine

Info

Publication number
DE19843450A1
DE19843450A1 DE19843450A DE19843450A DE19843450A1 DE 19843450 A1 DE19843450 A1 DE 19843450A1 DE 19843450 A DE19843450 A DE 19843450A DE 19843450 A DE19843450 A DE 19843450A DE 19843450 A1 DE19843450 A1 DE 19843450A1
Authority
DE
Germany
Prior art keywords
electronic
term
sub
file
generic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE19843450A
Other languages
German (de)
Inventor
Ulrich Preiser
Anton Schmitt
Martin Oestreicher
Werner Striebel
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Siemens AG
Original Assignee
Siemens AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Siemens AG filed Critical Siemens AG
Priority to DE19843450A priority Critical patent/DE19843450A1/en
Publication of DE19843450A1 publication Critical patent/DE19843450A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The electronic Thesaurus contains lists which each have at least one main concept and at least one subsidiary concept which is associated with the main concept, each data information scanned to extract the subsidiary concepts, with the corresponding main concepts identified. A concept vector is provided for each electronic data information using vector components provided by the different identified main concepts, with the structural relationships between the electronic data information provided by the concept vectors.

Description

Die Erfindung betrifft die Ermittlung einer Struktur einer Vielzahl elektronischer Dateien hinsichtlich eines elektroni­ schen Thesaurus.The invention relates to the determination of a structure of a Variety of electronic files in terms of an electroni Thesaurus.

Aus [1] ist es bekannt, den Inhalt elektronischer Dateien miteinander zu vergleichen und eine Struktur der elektroni­ schen Dateien dahingehend darzustellen, daß eine inhaltliche Ähnlichkeit der Dateien in Form einer räumlichen Nähe in ei­ nem Informationsraum beschrieben wird.From [1] it is known the contents of electronic files compare with each other and a structure of the electroni represent a content-related file Similarity of the files in the form of a spatial proximity in ei is described in an information space.

Unter einer elektronischen Datei ist beispielsweise eine elektronische Textdatei zu verstehen.Under an electronic file is, for example, a to understand electronic text file.

Unter einem elektronischen Thesaurus ist im weiteren ein ge­ ordnetes elektronisches Wörterbuch von Begriffen und ihren Bezeichnungen (Referenzen) zu einem vorgebbaren strukturier­ ten Fachgebiet zu verstehen.Under an electronic thesaurus is in a further ge arranged electronic dictionary of terms and theirs Designations (References) to a predefinable strukturier th subject area.

Ein Beispiel für einen Thesaurus für den Bereich der Medizin ist aus [2] bekannt.An example of a thesaurus for the field of medicine is known from [2].

Die Begriffe sind bei dem elektronischen Thesaurus aus [2] in elektronische Listen aufgegliedert, wobei jede Liste einem Oberbegriff zugeordnet ist, und jede Liste eine vorgebbare Anzahl von Unterbegriffen aufweist, die ebenfalls dem jewei­ ligen Oberbegriff zugeordnet sind. Die Unterbegriffe sind beispielsweise Synonyme für den Oberbegriff oder auch Be­ griffe, die für den Oberbegriff charakteristisch sind.The terms are in the electronic thesaurus from [2] in electronic lists broken down, each list one Generic term is assigned, and each list is a predefinable Number of sub-terms has, which also the jewei associated with the generic term. The sub-concepts are For example, synonyms for the generic term or Be handles that are characteristic of the generic term.

Eine sogenannte Internet-Suchmaschine ist aus [3] bekannt. A so-called Internet search engine is known from [3].  

Der Erfindung liegt das Problem zugrunde, ein Verfahren sowie eine Anordnung zur Ermittlung einer Struktur einer Vielzahl elektronischer Dateien hinsichtlich eines elektronischen The­ saurus anzugeben, bei dem bzw. für die die Struktur eine ver­ besserte Verläßlichkeit hinsichtlich der Vergleichbarkeit der elektronischen Dateien untereinander erreicht wird.The invention is based on the problem, a method and an arrangement for determining a structure of a plurality electronic files regarding an electronic The saurus in which or for which the structure has a ver improved reliability in terms of comparability of electronic files with each other is achieved.

Das Problem wird durch das Verfahren gemäß Patentanspruch 1 sowie durch die Anordnung gemäß Patentanspruch 10 gelöst.The problem is solved by the method according to claim 1 and solved by the arrangement according to claim 10.

Bei dem Verfahren zur rechnergestützten Ermittlung einer Struktur einer Vielzahl elektronischer Dateien hinsichtlich eines elektronischen Thesaurus enthält der elektronische The­ saurus elektronische Listen, wobei eine Liste jeweils einem Oberbegriff zugeordnet ist und wobei eine Liste jeweils min­ destens einen Unterbegriff aufweist, der dem Oberbegriff zu­ geordnet ist. In jeder elektronischen Datei wird jeder Unter­ begriff des elektronischen Thesaurus ermittelt, welcher in der Datei enthalten ist. Für jede elektronische Datei wird jeder Unterbegriff abgebildet auf den Oberbegriff, dem der Unterbegriff zugeordnet ist und für jede elektronische Datei wird ein Oberbegriffsvektor bestimmt, in dem zumindest eine Angabe für zumindest einen Teil der Oberbegriffe enthalten ist, ob ein Oberbegriff dieses Teils in der jeweiligen elek­ tronischen Datei enthalten ist. Aus den Oberbegriffsvektoren wird die Struktur zwischen den elektronischen Dateien ermit­ telt.In the method for computer-aided determination of a Structure of a variety of electronic files regarding of an electronic thesaurus contains the electronic The saurus electronic lists, one list each one Generic term is assigned and wherein a list each min at least has a sub-concept to the preamble to is ordered. In every electronic file every sub is term of the electronic thesaurus determines which in the file is included. For every electronic file is each subclause is mapped to the generic term, the Sub-term is assigned and for each electronic file a generic term vector is determined in which at least one Specification for at least part of the generic terms included is whether a generic term of this part in the respective elek tronic file is included. From the generic terms the structure between the electronic files is obtained telt.

Die Anordnung weist einen Prozessor auf, der derart einge­ richtet ist, daß folgende Schritte durchführbar sind:
The arrangement has a processor which is set up in such a way that the following steps are feasible:

  • a) der elektronische Thesaurus enthält elektronische Listen, wobei eine Liste jeweils einem Oberbegriff zugeordnet ist und wobei eine Liste jeweils mindestens einen Unterbegriff aufweist, der dem Oberbegriff zugeordnet ist,a) the electronic thesaurus contains electronic lists, wherein a list is assigned to a generic term and wherein a list is at least one sub-term which is assigned to the preamble,
  • b) in jeder elektronischen Datei wird jeder Unterbegriff des elektronischen Thesaurus ermittelt, welcher in der Datei enthalten ist, b) in each electronic file, each subclause of the electronic thesaurus determines which in the file is included  
  • c) für jede elektronische Datei wird jeder Unterbegriff abge­ bildet auf den Oberbegriff, dem der Unterbegriff zugeord­ net ist,c) each sub-term is deducted for each electronic file forms on the generic term, to which the subordinate concept is assigned is net,
  • d) für jede elektronische Datei wird ein Oberbegriffsvektor bestimmt, in dem zumindest eine Angabe für zumindest einen Teil der Oberbegriffe enthalten ist, ob ein Oberbegriff dieses Teils in der jeweiligen elektronischen Dateient­ halten ist, undd) every electronic file becomes a generic term vector determined, in which at least one statement for at least one Part of the generic terms is included, whether a generic term this part in the respective electronic file hold, and
  • e) aus den Oberbegriffsvektoren wird die Struktur zwischen den elektronischen Dateien ermittelt.e) the structure is interposed between the generic vectors the electronic files.

Durch die Erfindung wird erreicht, daß jede elektronische Da­ tei sehr gut auf der Basis der Oberbegriffe mit den anderen elektronischen Dateien verglichen werden kann. Auf diese Wei­ se wird eine verbesserte Vergleichbarkeit und somit eine ver­ besserte Recherchierbarkeit der elektronischen Dateien ermög­ licht.By the invention it is achieved that each electronic Da Very good on the basis of the generic terms with the others electronic files can be compared. In this Wei se is an improved comparability and thus a ver improved searchability of electronic files enabled light.

Bevorzugte Weiterbildungen der Erfindung ergeben sich aus den abhängigen Ansprüchen.Preferred developments of the invention will become apparent from the dependent claims.

Es ist in einer Weiterbildung der Erfindung vorgesehen, daß der Oberbegriffsvektor jeweils die Anzahl eines in der jewei­ ligen elektronischen Datei enthaltenen Oberbegriffs aufweist.It is provided in a development of the invention that the generic term vector in each case the number one in the jewei has a single electronic file contained in the generic term.

Auf diese Weise wird auch die Häufigkeit der vorkommenden Oberbegriffe in einem elektronischen Dokument im Rahmen der Strukturermittlung berücksichtigt, was zu einem noch verläß­ licheren Vergleichsergebnis führt.In this way is also the frequency of occurring Generic terms in an electronic document in the context of Structural analysis takes into account what is left of you results in a more comparable result.

Die Erfindung ist sehr vorteilhaft in einem verteilten Re­ chennetz anwendbar, wobei die elektronischen Dateien auf ver­ schiedenen Rechnern, die über ein Rechnernetz miteinander verbunden sind, gespeichert sind. Das Rechnernetz kann bei­ spielsweisle das Internet sein. The invention is very advantageous in a distributed re network applicable, whereby the electronic files on ver different computers connected to each other via a computer network are stored. The computer network can at spielsweisle be the Internet.  

In diesem Fall werden die elektronischen Dateien von den ver­ schiedenen Rechnern ermittelt aufgrund einer vorgegebenen Be­ nutzeranfrage. Die elektronischen Dateien werden eingelesen und in dem Rechner gespeichert und dann gemäß der Erfindung weiterverarbeitet. Somit wird ein sehr verläßliches automati­ siertes Recherchewerkzeug in einem verteilten Rechnernetz ge­ schaffen.In this case, the electronic files of the ver different computers determined based on a given Be user request. The electronic files are read and stored in the computer and then according to the invention further processed. Thus, a very reliable automati based search tool in a distributed computer network ge create.

Es ist in einer weiteren Ausgestaltung vorgesehen, daß zu Be­ ginn des Verfahrens in jeder elektronischen Datei jedes Wort gelöscht wird, das nicht in dem elektronischen Thesaurus ent­ halten ist. Auf diese Weise wird die Durchführbarkeit des Verfahrens erheblich beschleunigt.It is provided in a further embodiment that Be Start the process in every electronic file every word that is not deleted in the electronic thesaurus hold is. In this way, the feasibility of the Process considerably accelerated.

Die Erfindung ist auf jedem beliebigen technischen Gebiet einsetzbar, d. h. der elektronische Thesaurus kann auf ein be­ liebiges vorgebbares Gebiet, beispielsweise der Medizin, spe­ zialisiert sein.The invention is in any technical field can be used, d. H. the electronic thesaurus can be on a be lovely definable area, for example medicine, spe be cialized.

Ein Ausführungsbeispiel der Erfindung ist in den Figuren dar­ gestellt und wird im weiteren näher erläutert.An embodiment of the invention is shown in the figures and will be explained in more detail below.

Es zeigenShow it

Fig. 1 ein Blockdiagramm, in dem ein Ausführungsbeispiel der Erfindung dargestellt ist; Fig. 1 is a block diagram showing an embodiment of the invention;

Fig. 2 eine Skizze eines Rechennetzes mit einer Vielzahl von Rechnern. Fig. 2 is a sketch of a computer network with a plurality of computers.

Fig. 2 zeigt in einer Skizze eine Vielzahl von Rechnern Ri (i = 2 . . . n) und einen ersten Rechner R1, die über ein Rech­ nernetz RN miteinander verbunden sind. Das Rechnernetz RN ist ein Rechnernetz RN, das gemäß den TCP/IP-Protokoll (Transport Control Protocol/Internet Protocol) die Übertragung digitaler Daten vornimmt. Fig. 2 shows in a sketch a plurality of computers Ri (i = 2... N) and a first calculator R1 nernetz a computing RN are connected together. The computer network RN is a computer network RN, which carries out the transmission of digital data in accordance with the TCP / IP protocol (Transport Control Protocol / Internet Protocol).

Ein Benutzer gibt eine Benutzeranfrage in den ersten Rechner R1 ein, die von dem ersten Rechner R1 als Suchanfrage A an die Vielzahl von Rechnern Ri übertragen wird.A user submits a user request to the first computer R1 on, from the first computer R1 as a query A on the plurality of computers Ri is transmitted.

In jedem Rechner Ri werden nach bekannten Suchverfahren elek­ tronische Dateien Dj (j = 1 bis m) ermittelt, deren Inhalt hinsichtlich der Anfrage A ähnlicher ist als eine vorgebbare erste Schwelle.In each computer Ri are elek according to known search tronic files Dj (j = 1 to m) determines their content with regard to the request A is more similar than a predefinable first threshold.

Eine solche Ermittlung erfolgt mit einer üblichen Internet- Suchmaschine, die in [3] beschrieben ist.Such a determination shall be made using a standard Internet Search engine described in [3].

Jeder Rechner Ri übersendet in einer Antwort PDi die elektro­ nischen Dateien Dj, die von dem jeweiligen Rechner Ri ermit­ telt wurden, an den ersten Rechner R1.Each computer Ri sends in an answer PDi the electro nical files Dj, which Ri ermit from the respective computer telt, to the first computer R1.

Von dem ersten Rechner R1 werden alle elektronischen Dateien Dj über eine Eingangs-/Ausgangsschnittstelle 201 eingelesen und in einem Speicher 202, der über einen Bus 203 mit der Eingangs-/Ausgangsschnittstelle 201 verbunden ist, gespei­ chert. In dem Speicher 202 ist ferner ein elektronischer The­ saurus 204 gespeichert.From the first computer R1 all electronic files Dj are read in via an input / output interface 201 and stored in a memory 202 , which is connected to the input / output interface 201 via a bus 203 . In the memory 202 , an electronic The saurus 204 is further stored.

Im folgenden wird angenommen, daß der elektronische Thesaurus 204 sechs elektronische Listen L1, L2, L3, L4, L5 und L6 auf­ weist.In the following it is assumed that the electronic thesaurus 204 six electronic lists L1, L2, L3, L4, L5 and L6 has.

Jede elektronische Liste weist einen Oberbegriff OB1, OB2, OB3, OB4, OB5, OB6 auf. Ferner weist jede elektronische Liste mindestens einen Unterbegriff auf. Jeder Unterbegriff einer elektronischen Liste ist dem jeweiligen Oberbegriff OB1, OB2, OB3, OB4, OB5, OB6 zugeordnet.Each electronic list has a generic term OB1, OB2, OB3, OB4, OB5, OB6. Furthermore, each electronic list at least one subclause. Each subclause of a electronic list is the respective generic term OB1, OB2, OB3, OB4, OB5, OB6 assigned.

Im folgenden wird als Inhalt des elektronischen Thesaurus 204 folgende Menge elektronischer Listen L1, L2, L3, L4, L5 und L6 angenommen: In the following, the following set of electronic lists L1, L2, L3, L4, L5 and L6 is assumed as the content of the electronic thesaurus 204 :

Erste Liste L1First list L1 Erster Oberbegriff OB1:First generic term OB1: AidsAIDS Erster Unterbegriff UB11:First sub-term UB11: HIV-1HIV-1 Zweiter Unterbegriff UB21:Second sub-term UB21: HIV-2HIV-2 Dritter Unterbegriff UB31:Third sub-term UB31: SIVSIV

Zweite Liste L2Second list L2 Zweiter Oberbegriff OB2:Second generic term OB2: Krankheitserregerpathogen Erster Unterbegriff UB12:First sub-term UB12: Virusvirus Zweiter Unterbegriff UB22:Second sub-term UB22: Bakteriebacterium Dritter Unterbegriff UB32:Third sub-term UB32: Mikrobemicrobe Vierter Unterbegriff UB42:Fourth sub-term UB42: Bazillusbacillus

Dritte Liste L3Third list L3 Dritter Oberbegriff OB3:Third generic term OB3: Pockensmallpox Erster Unterbegriff UB13:First sub-term UB13: Windpockenchickenpox Zweiter Unterbegriff UB23:Second sub-term UB23: Variolavariola Dritter Unterbegriff UB33:Third sub-term UB33: BlatternScroll

Vierte Liste L4Fourth list L4 Vierter Oberbegriff OB4:Fourth generic term OB4: Medikamentdrug Erster Unterbegriff UB14:First sub-term UB14: Arzneimitteldrug Zweiter Unterbegriff UB24:Second sub-term UB24: Medizinmedicine Dritter Unterbegriff UB34:Third sub-term UB34: PharmaconPharmacon Vierter Unterbegriff UB44:Fourth sub-term UB44: Präparatpreparation Fünfter Unterbegriff UB54:Fifth sub-term UB54: Arzneimedicine Sechster Unterbegriff UB64:Sixth sub-term UB64: Heilmittelremedy Siebter Unterbegriff UB74:Seventh sub-term UB74: Mittelmedium Achter Unterbegriff UB84:Eighth sub-term UB84: ParmaceutikumParmaceutikum

Fünfte Liste L5Fifth list L5 Fünfter Oberbegriff OB5:Fifth generic term OB5: Ärztedoctors Erster Unterbegriff UB15:First sub-term UB15: Arztdoctor Zweiter Unterbegriff UB25:Second sub-term UB25: Medizinerdoctor Dritter Unterbegriff UB35:Third sub-term UB35: Doktordoctor Vierter Unterbegriff UB45:Fourth sub-term UB45: Heilkundigerhealer Fünfter Unterbegriff UB55:Fifth sub-term UB55: Therapeuttherapist Sechster Unterbegriff UB65:Sixth sub-term UB65: Quacksalberquack

Sechste Liste L6Sixth list L6 Sechster Oberbegriff OB6:Sixth generic term OB6: Krankenhaushospital Erster Unterbegriff UB16:First sub-term UB16: Klinikclinic Zweiter Unterbegriff UB26:Second sub-term UB26: Hospitalhospital Dritter Unterbegriff UB36:Third sub-term UB36: Sanatoriumsanatorium Vierter Unterbegriff UB46:Fourth sub-term UB46: Spitalhospital Fünfter Unterbegriff UB56:Fifth sub-term UB56: Heilstättesanatorium Sechster Unterbegriff UB66:Sixth sub-term UB66: KrankenanstaltHospitals Siebter Unterbegriff UB76:Seventh sub-term UB76: Lazarett.Hospital.

Das im weiteren beschriebene Verfahren wird in einem Prozes­ sor 205, der ebenfalls über den Bus 203 mit der Eingangs-/Aus­ gangsschnittstelle 201 und dem Speicher 202 des ersten Rechners R1 verbunden ist, folgende Verfahrensschritte durch­ geführt (vgl. Fig. 1).The method described below is performed in a Prozes sensor 205 , which is also connected via the bus 203 to the input / output interface 201 and the memory 202 of the first computer R1, the following steps performed by (see Fig. 1).

Die elektronischen Dateien Dj werden in einem ersten Verfah­ rensschritt (Schritt 101) aus dem Speicher 202 ausgelesen und es werden alle Worte in jeder elektronischen Datei Dj ge­ löscht, die nicht in dem elektronischen Thesaurus 204 als Oberbegriff und/oder Unterbegriff enthalten sind. The electronic files Dj are read out of the memory 202 in a first procedural step (step 101 ) and all the words in each electronic file Dj are deleted which are not contained in the electronic thesaurus 204 as a generic term and / or sub-term.

Es werden somit m Zwischendateien ZDj gebildet. Jede Zwi­ schendatei ZDj enthält ausschließlich Worte, die in dem elek­ tronischen Thesaurus 204 enthalten sind.Thus, m intermediate files ZDj are formed. Each intermediate file ZDj contains only words contained in the electronic thesaurus 204 .

In einem weiteren Verfahrensschritt (Schritt 102) wird für jede Zwischendatei ZDj jeder Unterbegriff auf den Oberbegriff der elektronischen Liste abgebildet, dem der jeweilige Unter­ begriff zugeordnet ist.In a further method step (step 102 ), for each intermediate file ZDj each sub-concept is mapped to the generic term of the electronic list to which the respective sub-term is assigned.

In einem weiteren Schritt werden mehrfach vorkommende Oberbe­ griffe für eine Zwischendatei ZDj gelöscht, womit Oberbe­ griffsvektoren OBVj (ein Oberbegriffsvektoren OBVj ist je­ weils eine Datei für eine Zwischendatei ZDj) gebildet werden.In a further step, multiply occurring Oberbe Errors for an intermediate file ZDj deleted, whereby Oberbe handle vectors OBVj (a generic term OBVj is ever because a file for an intermediate file ZDj) are formed.

In jedem Oberbegriffsvektor OBVj ist somit eine Liste von Oberbegriffen enthalten, zu denen jeweils zumindest ein Un­ terbegriff in der zugehörigen Zwischendatei ZDj, d. h. auch der entsprechenden Datei Dj, enthalten ist.In each generic term vector OBVj is thus a list of Contain a generic term, to each of which at least one Un term term in the associated intermediate file ZDj, d. H. also the corresponding file Dj.

Aus den Oberbegriffsvektoren OBVj wird in einem dritten Schritt (Schritt 103) jeweils die Ähnlichkeit der Oberbe­ griffsvektoren OBVj untereinander ermittelt. Dies erfolgt durch paarweisen Vergleich der Oberbegriffsvektoren OBVj un­ tereinander gemäß dem aus [1] bekannten Verfahren.In a third step (step 103 ), the similarity of the upper-level vectors OBVj with one another is determined from the generic term vectors OBVj. This is done by pairwise comparison of the generic term vectors OBVj and one after another according to the method known from [1].

Es entsteht somit eine Struktur zwischen der Vielzahl elek­ tronischer Dateien Dj, die dem Benutzer auf einem Bildschirm 206, der mit dem ersten Rechner R1 verbunden ist, dargestellt wird.Thus, a structure arises between the plurality of electronic files Dj, which is displayed to the user on a screen 206 connected to the first computer R1.

Die Darstellung erfolgt derart, daß inhaltlich ähnliche Ober­ begriffsvektoren OBVj dazu führen, daß die entsprechenden Da­ teien Dj symbolisch räumlich nahe beieinander und nah bei dem jeweiligen Oberbegriff dargestellt werden. Details zu der Vorgehehsweise zur Transformation der entsprechenden Vorge­ hensweise zur Ermittlung der räumlichen Darstellung der Ähn­ lichkeit der Dateien Dj ist [1] zu entnehmen. The representation is made such that content similar upper term vectors OBVj cause the corresponding Da tej symbolically spatially close to each other and close to the dj respective generic term are shown. Details of the Vorgehehsweise to transform the corresponding Vorge method of determining the spatial representation of the ancestors The nature of the files Dj can be seen in [1].  

Im weiteren wird eine Alternative zu dem oben beschriebenen Ausführungsbeispiel dargestellt:
Es ist möglich, daß jeder Oberbegriffsvektor OBVj nicht die Oberbegriffe selbst, sondern eine Zahl enthält, die die Auf­ tretenshäufigkeit des jeweiligen Oberbegriffs in der elektro­ nischen Datei beschreibt.
An alternative to the embodiment described above is shown below:
It is possible that each generic term vector OBVj does not contain the generic terms themselves, but rather a number which describes the occurrence frequency of the respective generic term in the electronic file.

In diesem Dokument sind folgende Veröffentlichungen zitiert:
[1] T. Führing et al. Kontextgestaltgebung: Eine Metapher zur Visualisierung von und Interaktion mit komplexen Wissens­ beständen, W. Rauch et al (Herausgeber) Mehrwert von In­ formation - Professionalisierung der Informationsarbeit, Proc. des vierten Intern. Symp. für Informationswissen­ schaft, ISI 1994,
[2] DIN-Norm 1463
[3] O. Kyas, Internet professionell - Technologische Grundla­ gen & praktische Nutzung, ISBN 3-8266-4002-0, Internatio­ nal Thomson Publishing, Bonn, S. 513-523, 1996
This document cites the following publications:
[1] T. Führing et al. Contextual Design: A Metaphor for the Visualization of and Interaction with Complex Knowledge, W. Rauch et al (Editor) Added Value of Information - Professionalization of Information Work, Proc. of the fourth intern. Symp. For Information Science, ISI 1994,
[2] DIN standard 1463
[3] O. Kyas, Internet Professional - Technological Fundamentals & Practical Usage, ISBN 3-8266-4002-0, International Thomson Publishing, Bonn, pp. 513-523, 1996

Claims (18)

1. Verfahren zur rechnergestützten Ermittlung einer Struktur einer Vielzahl elektronischer Dateien hinsichtlich eines elektronischen Thesaurus,
  • a) bei dem der elektronische Thesaurus elektronische Listen enthält, wobei eine Liste jeweils einem Oberbegriff zuge­ ordnet ist und wobei eine Liste jeweils mindestens einen Unterbegriff aufweist, der dem Oberbegriff zugeordnet ist,
  • b) bei dem in jeder elektronischen Datei jeder Unterbegriff des elektronischen Thesaurus ermittelt wird, welcher in der Datei enthalten ist,
  • c) bei dem für jede elektronische Datei jeder Unterbegriff abgebildet wird auf den Oberbegriff, dem der Unterbegriff zugeordnet ist,
  • d) bei dem für jede elektronische Datei ein Oberbegriffsvek­ tor bestimmt wird, in dem zumindest eine Angabe für zumin­ dest einen Teil der Oberbegriffe enthalten ist, ob ein Oberbegriff dieses Teils in der jeweiligen elektronischen Datei enthalten ist, und
  • e) bei dem aus den Oberbegriffsvektoren die Struktur zwischen den elektronischen Dateien ermittelt wird.
1. A method for computer-aided determination of a structure of a plurality of electronic files with respect to an electronic thesaurus,
  • a) in which the electronic thesaurus contains electronic lists, wherein a list is assigned to each a generic term and wherein a list each has at least one sub-term, which is assigned to the preamble,
  • b) in which each sub-term of the electronic thesaurus is found in each electronic file, which is contained in the file,
  • c) in which, for each electronic file, each sub-term is mapped to the generic term to which the sub-term is assigned,
  • d) in which for each electronic file a Oberbegriffsvek gate is determined, in which at least an indication of at least a part of the generic terms is included, whether a generic term of this part is contained in the respective electronic file, and
  • e) in which the structure between the electronic files is determined from the generic vectors.
2. Verfahren nach Anspruch 1, bei dem zumindest ein Teil der Listen mehrere Unterbegriffe enthält.2. The method according to claim 1, in the at least part of the lists several sub-concepts contains. 3. Verfahren nach Anspruch 1 oder 2, bei dem der Oberbegriffsvektor jeweils die Anzahl eines in der jeweiligen elektronischen Datei enthaltenen Oberbegriffs aufweist.3. The method according to claim 1 or 2, in which the generic term vector in each case the number of an in the generic term contained in the respective electronic file having. 4. Verfahren nach einem der Ansprüche 1 bis 3, bei dem zumindest ein Teil der Unterbegriffe Synonyme des Oberbegriffs darstellen. 4. The method according to any one of claims 1 to 3, where at least a part of the subclauses synonyms of Represent generic term.   5. Verfahren nach einem der Ansprüche 1 bis 4,
  • 1. bei dem die elektronischen Dateien von verschiedenen, über ein Rechnernetz miteinander verbundenen Rechnern ermittelt werden aufgrund einer vorgegebenen Benutzeranfrage, und
  • 2. bei dem die elektronischen Dateien eingelesen und gespei­ chert werden.
5. The method according to any one of claims 1 to 4,
  • 1. in which the electronic files are determined by different, interconnected via a computer network computers due to a given user request, and
  • 2. in which the electronic files are read in and stored.
6. Verfahren nach einem der Ansprüche 1 bis 5, bei dem in jeder elektronischen Datei jedes Wort gelöscht wird, das nicht in dem elektronischen Thesaurus enthalten ist.6. The method according to any one of claims 1 to 5, every word deleted in every electronic file is not included in the electronic thesaurus is. 7. Verfahren nach einem der Ansprüche 1 bis 6, bei dem der elektronische Thesaurus nur Begriffe eines vorge­ gebenen technischen Gebiets aufweist.7. The method according to any one of claims 1 to 6, where the electronic thesaurus only terms of a pre technical area. 8. Verfahren nach Anspruch 7, bei dem das technische Gebiet Medizin ist.8. The method according to claim 7, where the technical field is medicine. 9. Verfahren nach einem der Ansprüche 5 bis 8, bei dem das Rechnernetz das Internet ist.9. The method according to any one of claims 5 to 8, where the computer network is the Internet. 10. Anordnung zur Ermittlung einer Struktur einer Vielzahl elektronischer Dateien hinsichtlich eines elektronischen The­ saurus,
mit einem Prozessor, der derart eingerichtet ist, daß folgen­ de Schritte durchführbar sind:
  • a) der elektronische Thesaurus enthält elektronische Listen, wobei eine Liste jeweils einem Oberbegriff zugeordnet ist und wobei eine Liste jeweils mindestens einen Unterbegriff aufweist, der dem Oberbegriff zugeordnet ist,
  • b) in jeder elektronischen Datei wird jeder Unterbegriff des elektronischen Thesaurus ermittelt, welcher in der Datei enthalten ist,
  • c) für jede elektronische Datei wird jeder Unterbegriff abge­ bildet auf den Oberbegriff, dem der Unterbegriff zugeord­ net ist,
  • d) für jede elektronische Datei wird ein Oberbegriffsvektor bestimmt, in dem zumindest eine Angabe für zumindest einen Teil der Oberbegriffe enthalten ist, ob ein Oberbegriff dieses Teils in der jeweiligen elektronischen Datei ent­ halten ist, und
  • e) aus den Oberbegriffsvektoren wird die Struktur zwischen den elektronischen Dateien ermittelt.
10. Arrangement for determining a structure of a plurality of electronic files with respect to an electronic The saurus,
with a processor arranged such that the following steps are feasible:
  • a) the electronic thesaurus contains electronic lists, a list being respectively assigned to a generic term and a list each having at least one sub-term associated with the generic term,
  • b) in each electronic file each sub-term of the electronic thesaurus is determined, which is contained in the file,
  • c) for each electronic file, each sub-term is derived from the generic term to which the sub-term is assigned,
  • d) for each electronic file, a generic term vector is determined, in which at least an indication is included for at least a part of the generic terms, whether a generic term of this part is contained in the respective electronic file, and
  • e) the structure between the electronic files is determined from the generic vectors.
11. Anordnung nach Anspruch 10, bei der der Prozessor derart eingerichtet ist, daß zumindest ein Teil der Listen mehrere Unterbegriffe enthält.11. Arrangement according to claim 10, wherein the processor is arranged such that at least some of the lists contain several sub-terms. 12. Anordnung nach Anspruch 10 oder 11, bei der der Prozessor derart eingerichtet ist, daß der Ober­ begriffsvektor jeweils die Anzahl eines in der jeweiligen elektronischen Datei enthaltenen Oberbegriffs aufweist.12. Arrangement according to claim 10 or 11, in which the processor is arranged such that the upper term vector in each case the number one in the respective has electronic file contained generic term. 13. Anordnung nach einem der Ansprüche 10 bis 12, bei der der Prozessor derart eingerichtet ist, daß zumindest ein Teil der Unterbegriffe Synonyme des Oberbegriffs darstel­ len.13. Arrangement according to one of claims 10 to 12, wherein the processor is arranged such that at least a part of the sub-terms synonyms of the generic term darstel len. 14. Anordnung nach einem der Ansprüche 10 bis 13, mit mehreren Rechnern, in denen jeweils mindestens eine elek­ tronische Datei gespeichert ist, wobei die Rechner über ein Rechnernetz miteinander sind,
bei der der Prozessor derart eingerichtet ist, daß
  • 1. von den Rechnern die elektronischen Dateien ermittelbar sind aufgrund einer vorgegebenen Benutzeranfrage, und
  • 2. bei dem die elektronischen Dateien eingelesen und gespei­ chert werden.
14. Arrangement according to one of claims 10 to 13, with a plurality of computers, in each of which at least one elec tronic file is stored, wherein the computer via a computer network with each other,
in which the processor is arranged such that
  • 1. the electronic files can be determined by the computers on the basis of a given user request, and
  • 2. in which the electronic files are read in and stored.
15. Anordnung nach einem der Ansprüche 10 bis 14, bei der der Prozessor derart eingerichtet ist, daß in jeder elektronischen Datei jedes Wort gelöscht wird, das nicht in dem elektronischen Thesaurus enthalten ist. 15. Arrangement according to one of claims 10 to 14, wherein the processor is arranged such that in each electronic file is deleted every word that is not in contained in the electronic thesaurus.   16. Anordnung nach einem der Ansprüche 10 bis 15, bei der der Prozessor derart eingerichtet ist, daß das elek­ tronische Thesaurus nur Begriffe eines vorgegebenen techni­ schen Gebiets aufweist.16. Arrangement according to one of claims 10 to 15, in which the processor is set up so that the elec tronic thesaurus only terms of a given techni area. 17. Anordnung nach Anspruch 16, bei der das technische Gebiet Medizin ist.17. Arrangement according to claim 16, where the technical field is medicine. 18. Anordnung nach einem der Ansprüche 14 bis 17, bei dem das Rechnernetz das Internet ist.18. Arrangement according to one of claims 14 to 17, where the computer network is the Internet.
DE19843450A 1998-09-22 1998-09-22 Electronic Thesaurus for internet search machine Withdrawn DE19843450A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE19843450A DE19843450A1 (en) 1998-09-22 1998-09-22 Electronic Thesaurus for internet search machine

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE19843450A DE19843450A1 (en) 1998-09-22 1998-09-22 Electronic Thesaurus for internet search machine

Publications (1)

Publication Number Publication Date
DE19843450A1 true DE19843450A1 (en) 2000-03-23

Family

ID=7881850

Family Applications (1)

Application Number Title Priority Date Filing Date
DE19843450A Withdrawn DE19843450A1 (en) 1998-09-22 1998-09-22 Electronic Thesaurus for internet search machine

Country Status (1)

Country Link
DE (1) DE19843450A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006119578A1 (en) * 2005-05-13 2006-11-16 Curtin University Of Technology Comparing text based documents

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19536204A1 (en) * 1995-07-26 1997-01-30 Mc Medical Card Systems Gmbh Patient-related data transmission and storage system for medical institutions - includes IC-card containing patient-specific, emergency-relevant data and medication data
DE19538240A1 (en) * 1995-10-13 1998-08-06 Annette Brueckner Information system and method for storing data in an information system

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19536204A1 (en) * 1995-07-26 1997-01-30 Mc Medical Card Systems Gmbh Patient-related data transmission and storage system for medical institutions - includes IC-card containing patient-specific, emergency-relevant data and medication data
DE19538240A1 (en) * 1995-10-13 1998-08-06 Annette Brueckner Information system and method for storing data in an information system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2006119578A1 (en) * 2005-05-13 2006-11-16 Curtin University Of Technology Comparing text based documents

Similar Documents

Publication Publication Date Title
DE602004003361T2 (en) SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS
DE19646624B4 (en) Method and computer system for identifying conformationally elastic molecules
DE112016005292T5 (en) Automatic deviation detection service on heterogeneous protocol streams
DE102013205737A1 (en) Method for automatically extracting and organizing information from data sources in e.g. web pages, involves producing combined representation of the equivalence classes in which the order for displayable representation is displayed
EP1975821A2 (en) Method for digital storing of data on a data storage device with limited available space
DE102019107591A1 (en) DISPLAY SYSTEM, PROGRAM AND STORAGE MEDIUM
DE69632835T2 (en) METHOD FOR AUTOMATIC PROCESSING INFORMATION ABOUT USER DATA
DE112020005268T5 (en) AUTOMATICALLY GENERATE SCHEMA ANNOTATION FILES TO CONVERT NATURAL LANGUAGE QUERIES TO STRUCTURED QUERY LANGUAGE
DE69627391T2 (en) METHOD AND SYSTEM FOR CARRYING OUT A BOOL'S OPERATION ON BIT CHAINS USING A MAXIMUM BIT DISC
DE10054001A1 (en) Automated interface generation method for computer programs, involves generating program interface for converting data between IMS-transfer and program in different program environment after scanning IMS transaction
EP1030254B1 (en) Method and system to manage documents
DE19843450A1 (en) Electronic Thesaurus for internet search machine
EP1754171A1 (en) Method and system for the automated generation of computer-based control and analysis devices
DE112020000598T5 (en) ALIGNMENT AID DEVICE, ALIGNMENT AID PROCEDURE, AND ALIGNMENT AID PROGRAM
DE3511920A1 (en) ELECTRONIC GUIDE
DE102018222156A1 (en) Method, arrangement and use for generating a response in response to a voice input information
DE112021007304T5 (en) INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD AND INFORMATION PROCESSING PROGRAM
DE4495111C2 (en) Method for determining a set of characteristic features in the context of object recognition
DE102022128157A1 (en) Computer-implemented method for standardizing part names
DE202023100303U1 (en) A face recognition and notification system with machine recognition and artificial intelligence
DE102023004764A1 (en) A method for asynchronously cataloging at least one execution status of at least one command executed by at least one microservice by an audit system, a method for operating a search platform of the audit system for displaying at least one execution status of a command for a motor vehicle executed by at least one microservice , a computer program product and a computer-readable storage medium
DE102020208884A1 (en) Hierarchizing a search on time-series data to speed it up
Bakry Towards a standard Arabic information processing vocabulary
DE102018104438A1 (en) Computer-implemented method for obtaining information
DE202022101222U1 (en) An automatically scalable system for optimized work recommendations

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8139 Disposal/non-payment of the annual fee