DE10110063A1 - Document management system has search system with hierarchical thesaurus whose term hierarchy is based on hierarchical structure of documented technical plant - Google Patents

Document management system has search system with hierarchical thesaurus whose term hierarchy is based on hierarchical structure of documented technical plant

Info

Publication number
DE10110063A1
DE10110063A1 DE10110063A DE10110063A DE10110063A1 DE 10110063 A1 DE10110063 A1 DE 10110063A1 DE 10110063 A DE10110063 A DE 10110063A DE 10110063 A DE10110063 A DE 10110063A DE 10110063 A1 DE10110063 A1 DE 10110063A1
Authority
DE
Germany
Prior art keywords
document
search
documents
vector
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE10110063A
Other languages
German (de)
Inventor
Peter Froehlich
Hans Werner Borchers
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ABB Research Ltd Switzerland
Original Assignee
ABB Research Ltd Switzerland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ABB Research Ltd Switzerland filed Critical ABB Research Ltd Switzerland
Priority to DE10110063A priority Critical patent/DE10110063A1/en
Publication of DE10110063A1 publication Critical patent/DE10110063A1/en
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The system has a data processing device with access to a database of stored documents and a search system for locating documents using search terms. The search system has a hierarchical thesaurus whose term hierarchy is based on the hierarchical structure of the technical plant and whose technical search terms are each associated with synonymous terms. AN Independent claim is also included for the following: a method of locating documents stored in a document management system.

Description

Die Erfindung betrifft ein Dokumentenverwaltungssystem für elektronische Doku­ mente einer technischen Anlage. Außerdem betrifft die Erfindung ein Verfahren zum Wiederfinden gespeicherter technischer Dokumente einer Anlagendokumentation. Das System und das Verfahren lassen sich für die technische Dokumentation unter­ schiedlicher Industrieanlagen bzw. Industrieverfahren anwenden. Zur Erläuterung der Erfindung wird auf die Kraftwerksdokumentation und das bekannte Kraftwerkskenn­ zeichnungssystem (KKS) Bezug genommen.The invention relates to a document management system for electronic documentation elements of a technical system. The invention also relates to a method for Retrieval of stored technical documents of a plant documentation. The system and the procedure can be used for the technical documentation different industrial plants or industrial processes. To explain the Invention is based on the power plant documentation and the known power plant characteristics drawing system (KKS).

Anlagendokumentation wird häufig noch in Papierform und in langen Reihen von Ordnern an Anlagenbetreiber ausgeliefert, teilweise aber auch schon in nicht editier­ barer elektronischer Form in Dokumentenverwaltungssystemen ("Document Mana­ gement Systems", DMS). Das Wiederfinden von Dokumenten wird dabei durch eine Verschlagwortung des Gesamtdokumentes unterstützt.Plant documentation is often still in paper form and in long rows of Folders delivered to plant operators, but sometimes already in non-editable electronic form in document management systems ("Document Mana gement Systems ", DMS). The retrieval of documents is supported by a Keywording of the entire document supported.

Der Benutzer kann ein Dokument wiederfinden, wenn er den Titel oder die Einord­ nung des Dokumentes innerhalb der Gesamtdokumentation oder ein genaues Schlagwort kennt, das dem Dokument zugeordnet wurde. Diese Schlagworte sind vom Ersteller der Dokumentation fest vorgegeben und entsprechen daher oft nicht den Anforderungen des Benutzers zur Formulierung seiner Suche.The user can find a document again if he has the title or the folder Documentation within the overall documentation or an exact Knows the keyword assigned to the document. These keywords are fixed by the creator of the documentation and therefore often do not correspond the requirements of the user to formulate his search.

Verbesserungen werden u. a. durch Anwendung von Methoden aus dem Gebiet "In­ formation Retrieval" erreicht. Solche Methoden sind z. B. beschrieben in C. J. von Rijsbergen, Information Retrieval, Second Edition, Butterworths, London, 1979. Sie ermöglichen die Suche nach beliebigen Worten oder Wortteilen sowie nach logi­ schen Verknüpfungen von Suchbegriffen. Der Einsatz derartiger Techniken ist bei­ spielsweise bekannt in Form der Suchmaschinen, die im INTERNET Anwendung finden.Improvements are u. a. by applying methods from the area "In formation retrieval ". Such methods are described, for example, in C. J. von  Rijsbergen, Information Retrieval, Second Edition, Butterworths, London, 1979. You enable the search for any words or parts of words as well as for logi links of search terms. The use of such techniques is in the known for example in the form of search engines that use the INTERNET Find.

Die bekannten Ansätze für Suchsysteme lösen das Problem der Informationssuche in technischen Dokumenten aber nur teilweise. Der Benutzer muß nämlich genau die Begriffe kennen, die im Dokument verwendet werden. Es gibt jedoch in der Regel verschiedene Möglichkeiten, ein technisches Konzept auszudrücken.The known approaches for search systems solve the problem of searching for information but only partially in technical documents. The user has to do just that Know terms used in the document. However, there are usually different ways to express a technical concept.

Auch statistische Ansätze, die in großen allgemeinen Sammlungen Synonyme ent­ decken und diese bei der Suche verwenden, wie z. B. in Mitra, Singhal, Buckley: Im­ proving Automatic Query Expansion. SIGIR '98, Melbourne, Australia, 1998, be­ schrieben, sind im Bereich der Anlagendokumentation nicht anwendbar: Zum einen ist die Textmenge in einer Anlagendokumentation (einige hundert Dokumente) relativ klein im Vergleich zu den Informationsmengen, die für die statistischen Ansätze er­ forderlich sind. Zum anderen besteht, wie in der genannten Veröffentlichung einge­ räumt, die Gefahr, den Fokus der Anfrage durch zufällige statistische Korrelationen ungewollt zu verschieben.Also statistical approaches that have synonyms in large general collections cover and use them in the search, such as B. in Mitra, Singhal, Buckley: Im proving Automatic Query Expansion. SIGIR '98, Melbourne, Australia, 1998, be are not applicable in the area of plant documentation: Firstly the amount of text in a system documentation (a few hundred documents) is relative small compared to the amount of information needed for statistical approaches are required. On the other hand, as stated in the publication mentioned concedes the risk of losing focus through random statistical correlations to move unintentionally.

Darüber hinaus beschreiben die Dokumente bekannter Dokumentationssysteme die Anlage auf unterschiedlichen Abstraktionsebenen. Ein Beispiel aus dem Kraftwerks­ bereich: Bei der Suche nach Dokumenten zu Fehlerzuständen in der Zwischenüber­ hitzung können auch Dokumente relevant sein, die den Kessel oder Teile des Zwi­ schenüberhitzers, wie zum Beispiel den Einspritzkühler beschreiben, obwohl der Be­ griff Zwischenüberhitzung darin nicht vorkommt.In addition, the documents of known documentation systems describe the Plant at different levels of abstraction. An example from the power plant area: When searching for documents on error states in the interim Heating documents can also be relevant, which the boiler or parts of the Zwi superheater, such as describe the desuperheater, although the Be handle reheat does not occur in it.

Der Anwender möchte in kritischen Situationen, also insbesondere beim Auftreten von Fehlerzuständen während des Anlagenbetriebs auch dann relevante Dokumente auffinden können, wenn er nicht genau die Begriffe verwendet, die in Dokumenten vorkommen. The user wants to be in critical situations, especially when they occur relevant documents of fault conditions during plant operation can find if he doesn't use exactly the terms used in documents occurrence.  

Der Erfindung liegt daher die Aufgabe zugrunde, verbesserte Möglichkeiten zum Auffinden technischer Dokumente einer Anlagendokumentation anzugeben.The invention is therefore based on the object, improved possibilities for Find technical documents of a plant documentation.

Diese Aufgabe wird durch ein Dokumentenverwaltungssystem gelöst, das die im An­ spruch 1 angegebenen Merkmale aufweist. Vorteilhafte Ausgestaltungen und ein Verfahren zum Auffinden von Dokumenten einer technischen Anlage sind in weiteren Ansprüchen angegeben.This task is solved by a document management system, which the in has given characteristics 1. Advantageous configurations and a Methods for finding documents of a technical system are in others Claims specified.

Eine weitere Beschreibung der Erfindung erfolgt nachstehend anhand von Ausfüh­ rungsbeispielen, die in Zeichnungsfiguren dargestellt sind.A further description of the invention is given below with reference to Ausfüh Example, which are shown in drawing figures.

Es zeigen:Show it:

Fig. 1 die Struktur eines Dokumentenverwaltungssystems, das ein Suchsystem enthält, Fig. 1 shows the structure of a document management system that includes a search system

Fig. 2 einen Ausschnitt aus einem hierarchischen Thesaurus zur Anlagenbe­ schreibung,Scription Fig. 2 is a detail of a hierarchical thesaurus is Anlagenbe,

Fig. 3 einen Suchvektor für eine bestimmte Anfrage, und Fig. 3 a search vector for a particular request, and

Fig. 4 eine Darstellung der Zuordnung von Begriffen eines Dokumentes zu Kon­ zepten der Anfrage. Fig. 4 shows the assignment of terms of a document to Kon concepts of the request.

Die bekannten Ansätze für Suchsysteme werden bei der erfindungsgemäßen Lösung erweitert durch die Einbeziehung vorgegebener Hierarchien einer technischen Anla­ ge, sowie durch Berücksichtigung von Besonderheiten des technischen Vokabulars. Für Kraftwerksanlagen werden Anlagen-Hierarchien beispielsweise standardmäßig mittels des KKS beschrieben [KKS Kraftwerkskennzeichnungssystem, Druckschrift Nr. D KW 613091 D, ABB Kraftwerke AG, Mannheim, 1991]. Für andere verfahren­ stechnische Anlagen gibt es vergleichbare Standards, etwa in der chemischen Indu­ strie.The known approaches for search systems are in the solution according to the invention extended by including predetermined hierarchies of a technical system ge, as well as taking into account special features of the technical vocabulary. For example, plant hierarchies become standard for power plants described by means of the KKS [KKS power plant identification system, publication D KW 613091 D, ABB Kraftwerke AG, Mannheim, 1991]. Proceed for others There are comparable standards in technical plants, for example in chemical indu stry.

Davon ausgehend liegt der Erfindung eine Vorgehensweise zugrunde, welche die Anlagendokumentation um einen hierarchischen Thesaurus auf Basis des Kenn­ zeichnungssystems ergänzt und diesen in die Suchfunktionalität einbezieht. Dieser Thesaurus enthält Synonyme zu jedem Begriff im hierarchischen Kennzeichnungs­ system, die bei der Suchanfrage berücksichtigt werden. Proceeding from this, the invention is based on a procedure which the Plant documentation around a hierarchical thesaurus based on the identification drawing system and includes this in the search functionality. This Thesaurus contains synonyms for each term in the hierarchical labeling system that are taken into account in the search query.  

Diese Vorgehensweise bewirkt eine erhebliche Verbesserung des Suchergebnisses bei Anfragen. Dadurch wird die Benutzerfreundlichkeit der Anlagendokumentation deutlich gesteigert und die Einsatzmöglichkeit in kritischen Situationen, z. B. bei der Fehlersuche überhaupt erst ermöglicht.This procedure results in a significant improvement in the search result for inquiries. This makes the system documentation user-friendly significantly increased and the possibility of use in critical situations, e.g. B. at the Debugging made possible in the first place.

In der untenstehenden schrittweisen Beschreibung des Suchverfahrens, also der Ar­ beitsweise des Suchsystems, wird auf die in den Fig. 2 bis 4 dargestellten Bei­ spiele Bezug genommen, sowie auf die in Fig. 1 gezeigte Struktur eines Dokumen­ tenverwaltungssystems, in dem das Suchverfahren implementiert ist.In the step-by-step description of the search method below, that is to say the mode of operation of the search system, reference is made to the examples shown in FIGS . 2 to 4 and to the structure of a document management system shown in FIG. 1 in which the search method is implemented ,

Fig. 1 zeigt die Struktur eines Dokumentenverwaltungssystems 1, das eine Daten­ verarbeitungseinrichtung 4 aufweist, die Zugriff auf eine Datenbank 3 hat, in der elektronische Dokumente 2 gespeichert sind. In der Datenverarbeitungseinrichtung 4 ist ein Suchsystem 5 implementiert, das einen hierarchischen Thesaurus 6 aufweist. Fig. 1 shows the structure of a document management system 1, the processing means a data having 4, the access to a database 3 has stored in the electronic Documents 2. A search system 5 , which has a hierarchical thesaurus 6 , is implemented in the data processing device 4 .

Die Schaffung eines erfindungsgemäßen Dokumentenverwaltungssystems kann in nachstehenden Schritten erfolgen, denen auch der Verfahrensablauf entnehmbar ist.The creation of a document management system according to the invention can be done in The following steps take place, from which the procedure can also be seen.

Schritt 1Step 1 Vorbereitung der InformationsstrukturenPreparation of information structures

Er werden gemäß der bekannten Vorgehensweisen des Information Retrieval [Ricar­ do Baeza-Yates und Berthier Ribeiro-Neto: Modern Information Retrieval. ACM Press und Addison-Wesley, 1999] die zur Indizierung und Suche notwendigen Strukturen und Merkmalsbeschreibungen aufgebaut:
They are carried out according to the known procedures of information retrieval [Ricar do Baeza-Yates and Berthier Ribeiro-Neto: Modern Information Retrieval. ACM Press and Addison-Wesley, 1999] set up the structures and feature descriptions necessary for indexing and search:

  • a) Erstellung der Anlagendokumentation unter Verwendung marktüblicher Werkzeu­ ge des Dokumentenmanagements.a) Creation of the system documentation using standard tools of document management.
  • b) Extraktion der verwendeten Begriffe aus den Dokumenten und Bildung eines so­ genannten Dokumentenvektors. Der Dokumentenvektor besteht aus n Kompo­ nenten, wobei n die Anzahl der Begriffe im hierarchischen Thesaurus ist. Der Eintrag für einen Begriff ist die relative Häufigkeit des Begriffes im Dokument (Häufigkeit des Auftretens/Anzahl m der Begriffe im Dokument mit Mehrfach­ heiten, d. h. Länge des Dokumentes). b) extraction of the terms used from the documents and formation of such a called document vector. The document vector consists of n compos nenten, where n is the number of terms in the hierarchical thesaurus. The An entry for a term is the relative frequency of the term in the document (Frequency of occurrence / number m of terms in the document with multiple units, d. H. Length of the document).  
  • c) Grundaufbau des Thesaurus unter Zuhilfenahme einer elektronischen Version des hierarchischen Kennzeichnungs-Systems.
    Beispiel: Anhand des Kraftwerkskennzeichnungssystems (KKS) kann ein Thesau­ rus aufgebaut werden, wie in Fig. 2 für ein Speisewassersystem (Kürzel "L") aus­ schnittweise dargestellt ist.
    c) Basic structure of the thesaurus with the help of an electronic version of the hierarchical labeling system.
    Example: Using the power plant identification system (KKS) a Thesau rus can be built up, as shown in Fig. 2 for a feed water system (abbreviation "L") in sections.
  • d) Verknüpfung des Thesaurus mit Dokumenten. Jeder Begriff aus dem Thesaurus wird mit den unterschiedlichen Formulierungen, die ihn in Dokumenten beschrei­ ben, assoziiert.
    Beispiel: In Fig. 2 wird der Speisewasserbehälter (LAA) mit den Begriffen SpWBeh (Abkürzung) und 01LAA50 (Kennzeichnung der Anlangenkomponente) assoziiert.
    d) Linking the thesaurus with documents. Each term from the thesaurus is associated with the different wording that describes it in documents.
    Example: In Fig. 2, the feed water tank (LAA) is associated with the terms SpWBeh (abbreviation) and 01LAA50 (identification of the plant component).
Schritt 2step 2 Erweiterung der InformationsstrukturenExpansion of information structures

Zur Auswertung von Suchanfragen wird ein neues Verfahren verwendet, welches das aus der Literatur weithin bekannte Cosinus-Retrieval [G. SALTON, The SMART Retrieval System - Experiment in Automatic Document Processing, Prentice-Hall, Englewood Cliffs, New Jersey, 1971] um die systematische Verwendung eines Schlüssels aus einem hierarchischen Kennzeichnungssystem erweitert:
A new method is used to evaluate search queries, which uses the cosine retrieval [G. SALTON, The SMART Retrieval System - Experiment in Automatic Document Processing, Prentice-Hall, Englewood Cliffs, New Jersey, 1971] extended by the systematic use of a key from a hierarchical identification system:

  • a) Zuerst wird die Suchanfrage in einen Suchvektor umgewandelt. Der Suchvektor besteht aus n Komponenten, wobei n die Anzahl der Begriffe im hierarchischen Thesaurus ist. Der Eintrag für einen Begriff hat den Wert 1/n, falls der Begriff in der Anfrage vorkommt, sonst hat er den Wert 0.
    Beispiel: In Fig. 3 ist der Suchvektor für die Anfrage FG HptKondSys, LCA und LA dargestellt.
    a) First, the search query is converted into a search vector. The search vector consists of n components, where n is the number of terms in the hierarchical thesaurus. The entry for a term has the value 1 / n if the term occurs in the query, otherwise it has the value 0.
    Example: The search vector for the query FG HptKondSys, LCA and LA is shown in FIG. 3.
  • b) Anschließend werden alle Dokumente der Anlagendokumentation auf ihre Rele­ vanz untersucht. Für jedes Dokument wird ein modifizierter Dokumentenvektor wie folgt gebildet:b) Then all documents of the system documentation are on their rele vanz examined. For each document there is a modified document vector formed as follows:
  • c) Jeder Begriff aus dem Dokument wird dem spezifischsten Oberbegriff aus der Anfrage zugewiesen, der ihn im Sinne der Hierarchie enthält.
    Beispiel: Der Term "SpWBeh" wird dem Oberbegriff LA der Anfrage zugewie­ sen, da der Speisewasserbehälter (SpWBeh) in der Hierarchie ein Teil des Speisewassersystems LA ist und LA Teil der Suchanfrage war.
    c) Each term from the document is assigned to the most specific generic term from the query, which contains it in the sense of the hierarchy.
    Example: The term "SpWBeh" is assigned to the generic term LA of the query, since the feed water tank (SpWBeh) is part of the feed water system LA in the hierarchy and LA was part of the search query.
  • d) Jedem Oberbegriff, der in der Suchanfrage vorkommt, wird nun die Summe aller Häufigkeiten der enthaltenen Begriffe zugeordnet.
    Ein Beispiel zeigt Fig. 4:
    LA: (SpWBeh + 01LAA50): 24 (= 10 + 14)
    LCA: (40LCA00DC + Hauptkondensatsystem): 50 (= 20 + 30)
    FG HptKondSys: 7
    Es ist zu beachten, daß in obiger Summenbildung für LCA der Begriff FG HauptKondSys nicht mitgezählt wird, da er einzeln in der Suchanfrage vor­ kommt und somit als eigenständiger Begriff einzeln berücksichtigt wird. Folgende Begriffe aus dem betrachteten Dokument kommen weder als Such­ begriff noch als Teilkonzept eines Suchbegriffes vor und werden daher in der Suchabfrage nicht mehr berücksichtigt:
    Kondensatsystem der Speisewasser-Vorwärmung
    LCH75, LCH, LC, L
    d) The sum of all frequencies of the contained terms is now assigned to each generic term that occurs in the search query.
    An example is shown in FIG. 4:
    LA: (SpWBeh + 01LAA50): 24 (= 10 + 14)
    LCA: (40LCA00DC + main condensate system): 50 (= 20 + 30)
    FG HptKondSys: 7
    It should be noted that the term FG HauptKondSys is not counted in the above totals for LCA, since it occurs individually in the search query and is therefore considered as an independent term. The following terms from the document considered do not appear as a search term or as a partial concept of a search term and are therefore no longer considered in the search query:
    Condensate system for feed water preheating
    LCH75, LCH, LC, L
  • e) Der modifizierte Dokumentenvektor besteht weiterhin aus n Komponenten. Die Einträge des modifizierten Dokumentenvektors ergeben sich für jeden Be­ griff als Quotient der soeben berechneten Zahl und der Zahl m der Begriffe im Dokument.
    Beispiel:
    LA: 24/99 ≈ 0.24
    LCA: 50/99 ≈ 0.50
    FG HptKondSys ≈ 0.07
    Es ergibt sich daher im Beispiel der modifizierte Dokumentenvektor (0, 0, 0, 0.07, 0, 0, 0, 0, 0.5, 0, 0.24, 0, 0)
    e) The modified document vector still consists of n components. The entries of the modified document vector result for each term as the quotient of the number just calculated and the number m of terms in the document.
    Example:
    LA: 24/99 ≈ 0.24
    LCA: 50/99 ≈ 0.50
    FG HptKondSys ≈ 0.07
    In the example, this results in the modified document vector (0, 0, 0, 0.07, 0, 0, 0, 0, 0.5, 0, 0.24, 0, 0)

Nach der Berechnung des Anfragevektors und des modifizierten Dokumentenvektors geht es gemäß dem Cosinus-Verfahren weiter. Es wird also für jedes Dokument die Ähnlichkeit zwischen Suchanfrage und Dokument durch Berechnung des Cosinus zwischen Suchvektor und diesem Dokumentenvektor ermittelt. After calculating the request vector and the modified document vector it continues according to the cosine method. So it will be the same for every document Similarity between search query and document by calculating the cosine determined between the search vector and this document vector.  

Als Ergebnis der Anfrage wird dem Benutzer eine sortierte Liste der Dokumente ge­ zeigt oder ausgegeben, die seiner Anfrage am ähnlichsten sind.As a result of the request, the user is given a sorted list of documents shows or outputs that are most similar to his query.

Statt in den Dokumentenvektor die relative Häufigkeit der Konzepte einzutragen, wie oben dargelegt, kann auch die "inverse document frequency" [C. Faloutsos and D. Oard, A Survey of Information Retrieval and Filtering Methods, Techn. Report, Uni­ versity of Maryland] der Konzepte verwendet werden. Dieses kann vom Benutzer spezifiziert werden.Instead of entering the relative frequency of the concepts in the document vector, such as set out above, the "inverse document frequency" [C. Faloutsos and D. Oard, A Survey of Information Retrieval and Filtering Methods, Technical Report, Uni versity of Maryland] of the concepts. This can be done by the user be specified.

Das Suchsystem wird in das Dokumentenmanagementsystem (DMS) integriert, in­ dem ein zusätzlicher Suchmodul zur Verfügung gestellt wird, wobei die Anforderun­ gen an die Implementation vom verwendeten DMS abhängen. Die Suche im DMS wird verbessert, indem die rein hierarchische Zugriffsweise bzw. die Suche nach Schlagworten durch eine anwendungsnahe, KKS-basierte Suche aufgrund des textli­ chen Inhaltes der Dokumente ersetzt wird.The search system is integrated into the document management system (DMS) in which an additional search module is made available, the requirements depend on the implementation of the DMS used. The search in the DMS is improved by the purely hierarchical access method or the search for Keywords through an application-oriented, KKS-based search based on the textli Chen content of the documents is replaced.

Claims (6)

1. Dokumentenverwaltungssystem (1) für Dokumente (2) einer technischen Anlage, wobei
die Dokumente (2) in elektronischer Form in einer Datenbank (3) gespeichert sind,
eine Datenverarbeitungseinrichtung (4) vorhanden ist, die auf die Datenbank (3) Zugriff hat,
die Datenverarbeitungseinrichtung (4) ein Suchsystem (5) zum Auffinden von Dokumenten (2) mittels Suchbegriffen enthält,
das Suchsystem (5) einen hierarchischen Thesaurus (6) enthält, dessen Be­ griffs-Hierarchie auf der hierarchischen Struktur der technischen Anlage basiert, und dessen technischen Suchbegriffen jeweils synonyme Begriffe zugeordnet sind,
das Suchsystem (5) dafür eingerichtet ist, Suchanfragen nach dem Cosinus- Retrieval-Verfahren auszuwerten, wobei die Suchanfrage als Suchvektor dar­ gestellt wird, ein modifizierter Dokumentenvektor gebildet wird, dessen Einträge auf der Hierarchie und Häufigkeit der Begriffe im Dokument basieren, und für jedes Dokument die Ähnlichkeit zwischen Suchanfrage und Dokument durch Berechnung des Cosinus zwischen Suchvektor und modifiziertem Dokumen­ tenvektor ermittelt wird, und eine sortierte Liste der Dokumente angezeigt oder ausgegeben wird, die der Anfrage am ähnlichsten sind.
1. Document management system ( 1 ) for documents ( 2 ) of a technical system, wherein
the documents ( 2 ) are stored in electronic form in a database ( 3 ),
there is a data processing device ( 4 ) which has access to the database ( 3 ),
the data processing device ( 4 ) contains a search system ( 5 ) for finding documents ( 2 ) by means of search terms,
the search system ( 5 ) contains a hierarchical thesaurus ( 6 ), the conceptual hierarchy of which is based on the hierarchical structure of the technical system, and the technical search terms are each assigned synonymous terms,
the search system ( 5 ) is set up to evaluate search queries using the cosine retrieval method, the search query being represented as a search vector, a modified document vector being formed, the entries of which are based on the hierarchy and frequency of the terms in the document, and for each Document the similarity between the search query and document is determined by calculating the cosine between the search vector and the modified document vector, and a sorted list of documents is displayed or output that are most similar to the query.
2. Dokumentenverwaltungssystem (1) nach Anspruch 1, dadurch gekenn­ zeichnet, daß die technische Anlage ein Kraftwerk oder ein Teilsystem eines Kraft­ werks ist, und die Begriffs-Hierarchie des Thesaurus (7) auf dem Kraftwerkskenn­ zeichnungssystem (KKS) basiert. 2. Document management system ( 1 ) according to claim 1, characterized in that the technical system is a power plant or a subsystem of a power plant, and the hierarchy of terms of the thesaurus ( 7 ) is based on the power plant identification system (KKS). 3. Dokumentenverwaltungssystem (1) nach Anspruch 1 oder 2, dadurch gekennzeichnet, daß der Dokumentenvektor jeweils nach der "Inverse Document Frequency"-Methode gebildet ist.3. Document management system ( 1 ) according to claim 1 or 2, characterized in that the document vector is formed in each case according to the "inverse document frequency" method. 4. Verfahren zum Auffinden von Dokumenten, die als elektronische Do­ kumente einer Anlagendokumentation in einem Dokumentenverwaltungssystem ge­ speichert sind, wobei
  • a) zunächst die zur Indizierung und Suche notwendigen Strukturen und Merkmals­ beschreibungen aufgebaut werden, indem ein hierarchischer Thesaurus aufge­ baut wird, eine Extraktion der verwendeten Begriffe aus den Dokumenten und Bildung eines Dokumentenvektors erfolgt, der eine Anzahl n Komponenten auf­ weist, die der Anzahl der Begriffe im Thesaurus entspricht, und der Eintrag für ei­ nen Begriff im Dokumentenvektor die relative Häufigkeit des Begriffes im Doku­ ment ist, und eine Verknüpfung des Thesaurus mit den Dokumenten erzeugt wird, wodurch jeder Begriff aus dem Thesaurus mit unterschiedlichen Formulierungen assoziiert wird, die ihn in Dokumenten beschreiben,
  • b) eine mittels Suchbegriffen formulierte Suchanfrage in einen Suchvektor umge­ wandelt wird, der ebenfalls die Anzahl n Komponenten aufweist, die der Anzahl der Begriffe im Thesaurus entspricht, wobei der Eintrag für den jeweiligen Such­ begriff im Suchvektor den Wert 1/n hat, wenn der Begriff in der Anfrage vor­ kommt, sonst den Wert 0 hat,
  • c) anschließend alle Dokumente auf ihre Relevanz bezüglich der Anfrage untersucht werden, wobei für jedes Dokument ein modifizierter Dokumentenvektor wie folgt gebildet wird:
    • 1. jeder Begriff aus dem jeweiligen Dokument wird dem im Sinne der Hierarchie spezifischsten Oberbegriff aus der Anfrage zugewiesen, der ihn enthält,
    • 2. jedem Oberbegriff, der in der Suchanfrage vorkommt, wird die Summe aller Häu­ figkeiten der enthaltenen Begriffe zugeordnet,
    • 3. die Einträge im modifizierten Dokumentenvektor, die die vorherigen Einträge er­ setzen, für jeden Begriff als Quotient der Summe aller Häufigkeiten und der An­ zahl m der Begriffe im jeweiligen Dokument gebildet werden, und
  • d) unter Anwendung des Cosinus-Retrieval-Verfahrens für jedes Dokument die Ähn­ lichkeit zwischen Suchanfrage und Dokument durch Berechnung des Cosinus zwischen Suchvektor und modifiziertem Dokumentenvektor ermittelt wird, und ei­ ne sortierte Liste der Dokumente angezeigt oder ausgegeben wird, die der Anfra­ ge am ähnlichsten sind.
4. A method for locating documents that are stored as electronic documents of a system documentation in a document management system
  • a) First, the structures and feature descriptions necessary for indexing and search are built up by building a hierarchical thesaurus, extracting the terms used from the documents and forming a document vector that has a number of n components that correspond to the number of Corresponds to terms in the thesaurus, and the entry for a term in the document vector is the relative frequency of the term in the document, and a link is created between the thesaurus and the documents, whereby each term from the thesaurus is associated with different formulations that it in Describe documents,
  • b) a search query formulated using search terms is converted into a search vector which also has the number n components, which corresponds to the number of terms in the thesaurus, the entry for the respective search term in the search vector having the value 1 / n if the Term occurs in the query, otherwise has the value 0,
  • c) all documents are then examined for their relevance with regard to the query, a modified document vector being formed for each document as follows:
    • 1. Each term from the respective document is assigned to the most specific generic term from the query, which contains it, in the sense of the hierarchy,
    • 2. the sum of all frequencies of the contained terms is assigned to each generic term that occurs in the search query,
    • 3. the entries in the modified document vector, which he put the previous entries, are formed for each term as a quotient of the sum of all frequencies and the number m of terms in the respective document, and
  • d) using the cosine retrieval method for each document, the similarity between the search query and the document is determined by calculating the cosine between the search vector and the modified document vector, and a sorted list of documents is displayed or output that is most similar to the query are.
5. Verfahren nach Anspruch 4, dadurch gekennzeichnet, daß die techni­ sche Anlage ein Kraftwerk oder ein Teilsystem eines Kraftwerks ist, und eine Be­ griffs-Hierarchie des Thesaurus verwendet wird, die auf dem Kraftwerkskennzeich­ nungssystem (KKS) basiert.5. The method according to claim 4, characterized in that the techni cal plant is a power plant or a subsystem of a power plant, and a Be Handle hierarchy of the thesaurus is used, which is based on the power station label system (KKS) based. 6. Verfahren nach Anspruch 4 oder 5, dadurch gekennzeichnet, daß der Dokumentenvektor jeweils nach der "Inverse Document Frequency"-Methode gebil­ det wird.6. The method according to claim 4 or 5, characterized in that the Document vector generated according to the "Inverse Document Frequency" method det.
DE10110063A 2001-03-02 2001-03-02 Document management system has search system with hierarchical thesaurus whose term hierarchy is based on hierarchical structure of documented technical plant Withdrawn DE10110063A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10110063A DE10110063A1 (en) 2001-03-02 2001-03-02 Document management system has search system with hierarchical thesaurus whose term hierarchy is based on hierarchical structure of documented technical plant

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10110063A DE10110063A1 (en) 2001-03-02 2001-03-02 Document management system has search system with hierarchical thesaurus whose term hierarchy is based on hierarchical structure of documented technical plant

Publications (1)

Publication Number Publication Date
DE10110063A1 true DE10110063A1 (en) 2002-11-28

Family

ID=7676064

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10110063A Withdrawn DE10110063A1 (en) 2001-03-02 2001-03-02 Document management system has search system with hierarchical thesaurus whose term hierarchy is based on hierarchical structure of documented technical plant

Country Status (1)

Country Link
DE (1) DE10110063A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004066054A2 (en) * 2003-01-20 2004-08-05 Siemens Aktiengesellschaft Method and device for processing data stored in different data memories

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2004066054A2 (en) * 2003-01-20 2004-08-05 Siemens Aktiengesellschaft Method and device for processing data stored in different data memories
WO2004066054A3 (en) * 2003-01-20 2005-07-21 Siemens Ag Method and device for processing data stored in different data memories

Similar Documents

Publication Publication Date Title
DE69837979T2 (en) System for extracting multilingual terminology
DE3854774T2 (en) Text search system
DE69932344T2 (en) ACCESS TO HIERARCHICAL DATA STORAGE VIA SQL ENTRY
DE69624985T2 (en) Method and device for generating search responses in a computer-aided document retrieval system
DE69900854T2 (en) A SEARCH SYSTEM AND METHOD FOR RETURNING DATA AND USE IN A SEARCHER
DE3788750T2 (en) Index key range estimator.
DE69911842T2 (en) Method and device for retrieving information and corresponding storage medium
DE60029732T2 (en) Phrase translation method and system
DE69917250T2 (en) CHARACTER TRANSMISSION OVER HYPERLINKS
DE69820343T2 (en) Linguistic search system
DE102006039484B4 (en) n-GRAM two-level index structure and indexing process
DE68926849T2 (en) Structure and method for arranging recursively derived data in a database
EP0010195A1 (en) Device for address translation in a computer
DE102019212421A1 (en) Method and device for identifying similar documents
DE10029644A1 (en) Hypertext documents evaluation method using search engine, involves calculating real relevance value for each document based on precalculated relevance value and cross references of document
DE112010002620T5 (en) ONTOLOGY USE FOR THE ORDER OF DATA RECORDS NACHRELEVANZ
DE69909360T2 (en) Process and system for retrieving documents via an electronic file
DE112012006749T5 (en) search method
EP1330740B1 (en) Method for accessing a storage unit during the search for substrings, and a corresponding storage unit
WO2010078859A1 (en) Method and system for detecting a similarity of documents
DE69104625T2 (en) SITE MANAGEMENT PROCEDURE WITH EXTENSION TABLES.
DE10110063A1 (en) Document management system has search system with hierarchical thesaurus whose term hierarchy is based on hierarchical structure of documented technical plant
DE4213533C2 (en) Method and computer system for decomposing compound words
DE10112587A1 (en) Computer-assisted determination of similarity between character strings by describing similarly in terms of conversion cost values
DE10160920B4 (en) Method and device for producing an extract of documents

Legal Events

Date Code Title Description
OR8 Request for search as to paragraph 43 lit. 1 sentence 1 patent law
8105 Search report available
8139 Disposal/non-payment of the annual fee