DE102009005271A1 - Suchmaschine mit mehreren Undheitsgraden - Google Patents

Suchmaschine mit mehreren Undheitsgraden Download PDF

Info

Publication number
DE102009005271A1
DE102009005271A1 DE102009005271A DE102009005271A DE102009005271A1 DE 102009005271 A1 DE102009005271 A1 DE 102009005271A1 DE 102009005271 A DE102009005271 A DE 102009005271A DE 102009005271 A DE102009005271 A DE 102009005271A DE 102009005271 A1 DE102009005271 A1 DE 102009005271A1
Authority
DE
Germany
Prior art keywords
search
entered
terms
search terms
search term
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102009005271A
Other languages
English (en)
Inventor
Benoit Bagot
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to DE102009005271A priority Critical patent/DE102009005271A1/de
Publication of DE102009005271A1 publication Critical patent/DE102009005271A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur Datensuche in Datenbanken, wobei die Suchfrage Suchbegriffe und mehrere Undheitsgrade beinhaltet, und wobei die Undheitsgrade mit Kennparameter der Suchergebnisse zur Erzeugung von neuen Kennparameter kombiniert werden, und wobei die neuen Kennparameter zur Darstellung der Suchergebnisse verwendet werden.

Description

  • Die Erfindung betrifft ein Verfahren zur Suche von Daten in Datenbanken oder im Internet nach dem Anspruch 1, bei dem mehrere Gewichtungen und mehrere Undheitsgrade verwendet werden. Eine Suchmaschine mit Eingabe eines Undheitsgrades nach der vorliegenden Erfindung ermöglicht eine präzisere Definition der Benutzerfrage, mit der die Suchmaschine eine entsprechende geeignete Ergebnisliste finden und darstellen kann.
  • Stand der Technik
  • Die gezielte Suche nach Informationen oder Dokumenten in großen elektronischen Datenbanken oder im Internet wird bei der wachsenden Menge von gespeicherten Daten immer schwieriger. Suchmaschinen können nach Eingabe von einem oder mehreren Suchbegriffe elektronisch gespeicherte Daten automatisch durchsuchen, auf deren Inhalt prüfen, und dem Anwender geeignete Antworten in Form von Ergebnislisten darstellen. Einzelne Ergebnisse werden als Links (URL-Adressen), als Text- oder Dokumentauszüge oder als Produktbezeichnungen mit Produktmerkmalen aufgelistet. Zusätzliche Suchparameter, insbesondere Boolesche Operatoren, werden oft bei der Eingabe von mindestens zwei Suchbegriffen verwendet. Da oft eine Vielzahl von Datensegmenten (Dokumente, Internetseiten, Datenbanksegmente) mit der Benutzerfrage zusammenpassen, müssen die Ergebnisse sortiert werden.
  • Das Ergebnis von Suchmaschinen, die im Internet oder in sonstigen großen Datenbanken nach Dateninhalte suchen, ist oft unbefriedigend, weil Hunderte, Tausende, Millionen und Abermillionen Einträge in eine Ergebnisliste vorgeschlagen werden. Dies geschieht insbesondere dann, wenn der Anwender zu wenige oder zu allgemeine Suchbegriffe für die Suche eingegeben hat. Eine Hilfe in solchen Fällen wird gegeben, indem der Anwender neue Suchbegriffe addiert, die die Ergebnisliste weiter einschränkt. Das Problem bei diesem Vorgehen ist, dass die Auswahl der neuen Suchbegriffe immer schwieriger wird. Wird ein im normalen Sprachgebrauch zu häufiges Wort gewählt, dann wird die zu reduzierende Ergebnisliste nicht wesentlich verändert. Wird ein sehr spezielles Wort hinzugefügt, dann werden möglicherweise Einträge ausgeschlossen, die den Anwender interessiert hätten und möglicherweise einen dem speziellen Wort verwandten Begriff beinhalten.
  • Um die Suchfrage präziser zu definieren, werden oft neben den Suchbegriffen zusätzlich Boolesche Operatoren „UND” oder „ODER” verwendet, wobei für eine Anzahl N von Suchbegriffen eine Anzahl N – 1 von Booleschen Operatoren verwendet wird und als ausreichend gilt.
  • Eine weitere Möglichkeit für eine präzisere Gestaltung der Suchfrage wurde vorgeschlagen, bei der jedem oder einigen der Suchbegriffe Gewichtungen zugeordnet werden.
  • Eine weitere Möglichkeit für eine präzisere Gestaltung der Suchfrage wurde vorgeschlagen, bei der Fuzzy-Werte jedem oder einigen der Suchbegriffe zugeordnet werden.
  • Oft werden Metadaten bei dem Suchverfahren verwendet. Metadaten sind Informationen, die in einem Dokument oder Datenbankabschnitt vorhanden sind, die aber dem Anwender im Normalfall nicht oder nur mit zusätzlichem Aufwand zugänglich sind.
  • Aufgabenstellung
  • Diese Möglichkeiten bei der Gestaltung der Suchfrage sind unzufriedenstellend. In ersteren Fällen, mit den Boolschen Operatoren und mit den Gewichtungen, wird die menschliche, intuitive und unscharfe Logik nicht gut genug abgebildet. Bei der Anwendung von Fuzzy-Werten ist es einem normalen Anwender schwer begreifbar, wie diese Fuzzy-Werte wirken.
  • Um dieses Problem zu lösen, wird bei der vorliegenden Erfindung eine präzisere Gestaltung der Suchfrage geschaffen, die der unscharfen menschlichen Logik nahe kommt und gleichzeitig leicht verständlich sind. Dabei werden vom Anwender des Verfahrens neben Suchbegriffen auch ein oder mehrere Undheitsgrade vorgegeben und einem oder mehreren Suchbegriffe zugeordnet. Die vom Anwender gegebenen Suchbegriffe und Undheitsgrade werden in weiteren Schritten verwendet, um die mit Kennzahlen dotierten Ergebnisse einer Suche zu sortieren und anschließend darzustellen. Ein Undheitsgrad α ist ein quantifizierbarer Wert, der den Ähnlichkeitsgrad des Operators zu einem logischen „UND” oder zu einem logischen „ODER” bezeichnet. Man kann zum Beispiel festlegen, dass für α = 1, der Operator einem booleschen UND gleicht, für α = 0 einem booleschen ODER gleicht, bei α = 0.5 einem gewichteten Mittelwert gleicht, während Zwischenwerte nur eine Ähnlichkeit zu dem UND (bei z. B. α = 0.8), zu dem ODER (bei z. B. α = 0.1) bzw. zu dem gewichteten Mittelwert (bei z. B. α = 0.55) zeigen.
  • Bei der vorliegenden Erfindung wählt der Anwender mindestens zwei Suchbegriffe und dazugehörige Undheitsgrade. Ein Undheitsgrad ist eine Zahl, insbesondere zwischen 0 und 1 oder zwischen a und b mit a > 0, b > 0, und a < b, die bei der logischen Verbindung von Mengen durch Aggregationsoperatoren benutzt wird. Ein Undheitsgrad kann auch symbolisch dargestellt werden, zum Beispiel mit Hilfe eines graphischen Schiebereglers oder Zeigeuhr oder durch weitere stufenweise diskret oder kontinuierlich einstellbare Symbole. Im nächsten Schritt wird eine Datenbank durchsucht, um zu der Suchfrage passende Datensegmente zu finden. Datensegmente sind insbesondere Dokumente, Auszüge von Dokumenten, Internetseiten, Multimediadaten wie Bilder, Video oder Musik, Metadaten zu Dokumenten wie Erstelldatum oder Autor. Jedem Datensegment werden ein oder mehrere Kennzahlen zugeordnet.
  • Beispiel einer Suchfrage mit Undheitsgrad zwischen 0 (ODER) und 1 (UND):
    • (Suchbegriff 0,9) (Begriff 0,7) (spezial 0,7) (Suchmaschine 1) (sortieren 0,4) (logik 0,5) (fuzzy 0,7) (unscharf 0,7)
  • Als Konvention kann festgelegt werden, dass der Undheitsgrad immer vor oder vorzugsweise immer nach dem Suchbegriff geschrieben wird. Mit dieser Konvention können die Klammern im oberen Beispiel entfallen.
  • Ein nicht vorhandener Undheitsgrad kann durch einen Defaultwert ersetzt werden, insbesondere durch den Wert 1 (UND).
  • Mehrere Suchbegriffe können zum Beispiel durch Klammern zu einer Begriffsgruppe verbunden werden. Dieser Gruppe kann ein übergeordneter Undheitsgrad zugeordnet werden.
  • Beispiel:
    • ((Schlüsselwort 0,9) (Begriff 0,7) (spezial 0,6)) 0,9 ((Suchmaschine 1) (sortieren 0,4)) 0,9 ((logik 0,5) (fuzzy 0,7) (unscharf 0,7)) 0,7
  • Neben den beschriebenen Undheitsgraden können zusätzlich Gewichtungsfaktoren definiert werden und jedem Begriff zugeordnet werden. In diesem Fall wird jedem neu hinzugefügten Begriff ein Undheitsgrad und eine Gewichtung vergeben.
  • Als Konvention kann festgelegt werden, dass der Undheitsgrad immer nach dem Suchbegriff geschrieben wird, und dass die Gewichtung vor dem Suchbegriff geschrieben wird.
  • Wir nennen Methodenbegriffe solche Begriffe, die verwendet werden, selbst wenn diese nicht vom Anwender gewählt worden sind. Zum Beispiel mit dem Begriff Zufall (random) wird das Ergebnis so geändert, dass die Kennzahlen durch einen Zufallswert beeinflusst werden. Mit dem Begriff Aktualität können die Kennzahlen und damit das Ergebnis insofern beeinflusst werden, dass vorzugsweise kürzlich geänderte Datenbankabschnitte dargestellt werden, während ältere Datenbankabschnitte nicht oder erst am Ende der Ergebnisliste dargestellt werden.
  • Ein besonderer Operator, bei dem mehrere Unheitsgraden definiert werden können, wird mit einer Implizitfunktion wie folgt geschrieben:
    Figure 00030001
    wobei X1 ... Xn die Eingangsdaten und Z das Ausgangsdatum des logischen Operators sind, wobei pi,j Skalare oder Funktionen sind und wobei
    Figure 00030002
  • In der 1 wird dieser Operator für N = 3: p0(X1 – Z)·(X2 – Z)·(X3 – Z) ... + p1·(X1 – Z)·(X2 – Z) + p2·(X1 – Z)·(X3 – Z) + p3·(X2 – Z)·(X3 – Z) ... + p4·(X1 – Z) + p5·(X2 – Z) + p6·(X3 – Z) = 0mit p0 = 1, p1 = f3, p2 = f2, p3 = f4, p4 = f2·f3, p5 = f1·f3, p6 = f2·f4 und mit f1 = 2.5, f2 = 2.5 f3 = –2.5 f4 = –2.5 durch die Isofläche Z = 8 dargestellt.
  • Jeder Punkt auf dieser Oberfläche hat einen Ausgangswert Z = 8. Dabei wird sichtbar, dass dieser Operator die Variablen X1 und X2 als unscharfes UND verbindet, das heißt mit einem Undheitsgrad α1 ∈ ]0.5, 1[ und gleichzeitig die Variablen X2 und X3 als unscharfes ODER, verbindet, das heißt mit einem Undheitsgrad α2 ∈ ]0, 0.5[, verbindet.

Claims (16)

  1. Verfahren zur Suche von Datensegmente in Datenbanken oder im Internet dadurch gekennzeichnet, dass ein Anwender – mindestens einen Suchbegriff auswählt – in dem Fall, dass zwei oder mehr Suchbegriffe eingegeben werden, mindestens ein Undheitsgrad mit mindestens einem Suchbegriff verbindet und dass die eingegebenen Suchbegriffe und Undheitsgrade zur Erzeugung und insbesondere zur Sortierung einer geordneten Liste von Suchergebnissen verwendet werden. – in dem Fall, dass N Suchbegriffe eingegeben wurden, mit N > 2, N – 1 oder N Undheitsgraden definiert werden und dass die eingegebenen Suchbegriffe und die N – 1 bzw. N Undheitsgrade zur Erzeugung und insbesondere zur Sortierung einer geordneten Liste von Suchergebnissen verwendet werden.
  2. Verfahren nach Anspruch 1 dadurch gekennzeichnet, dass eine Implizitfunktion zur Erzeugung und insbesondere zur Sortierung einer geordneten Liste von Suchergebnissen verwendet wird.
  3. Verfahren nach Anspruch 1 dadurch gekennzeichnet, dass folgende Implizitfunktion zur Erzeugung und insbesondere zur Sortierung einer geordneten Liste von Suchergebnissen verwendet wird:
    Figure 00040001
    wobei X1 ... Xn die Eingangsdaten und Z das Ausgangsdatum des logischen Operators sind, wobei pi,j Skalare oder Funktionen sind, wobei r = 0 oder r eine zu minimierende Menge ist, und wobei
    Figure 00040002
    und wobei μ0(Z) = Z oder wobei μ0(Z) eine Sigmoidfunktion oder Glockenfunktion ist, und wobei μn(Xn) = Xn oder wobei μn(Xn) Sigmoidfunktion oder Glockenfunktion sind.
  4. Verfahren nach Anspruch 1 bis 3 dadurch gekennzeichnet, dass zusätzlich zu den N – 1 bzw. N Undheitsgraden N – 1 bzw. N Gewichtungsfaktoren definiert werden.
  5. Verfahren nach einem der Ansprüche 1 bis 4 dadurch gekennzeichnet, dass ein Teil der Undheitsgrade, die nicht vom Benutzer beim Hinzufügen eines Suchbegriffes mit eingegeben wurden, als Defaultwert definiert werden.
  6. Verfahren nach einem der Ansprüche 1 bis 5 dadurch gekennzeichnet, dass ein Teil der Gewichtungsfaktoren, die nicht vom Benutzer beim Hinzufügen eines Suchbegriffes mit eingegeben wurden, als Defaultwert definiert werden.
  7. Verfahren nach einem der Ansprüche 1 bis 6 dadurch gekennzeichnet, dass der Defaultwert für nicht eingegebene Undheitsgrade abhängig von N definiert wird.
  8. Verfahren nach einem der Ansprüche 1 bis 7 dadurch gekennzeichnet, dass der Defaultwert für nicht eingegebene Gewichtungen abhängig von N definiert wird.
  9. Verfahren nach einem der Ansprüche 1 bis 8 dadurch gekennzeichnet, dass die Parameter pij = pij(a, b, X1 ... Xn, Z, g1, ... gn, d1, ... dn), wobei a eine untere Arbeitsbereichsgrenze des Operators und b eine obere Arbeitsbereichsgrenze des Operators ist, wobei g1 bis gN Skalare oder Funktionen zur Gewichtung der Eingangsdaten untereinander sind, wobei dn Skalare oder Funktionen zur Bestimmung eines jeweiligen Undheitsgrades sind.
  10. Verfahren nach Anspruch 1 bis 9 dadurch gekennzeichnet, dass nach der Eingabe der Suchfrage die Datenbank durchsucht wird und jedem passenden Ergebnis mindestens eine Kennzahl, vorzugsweise mindestens so viele Kennzahlen wie eingegebene Suchbegriffe, zugeordnet wird.
  11. Verfahren nach Anspruch 1 bis 10 dadurch gekennzeichnet, dass mit den Kennzahlen, mit den Undheitsgraden, gegebenenfalls mit den Gewichtungsfaktoren und mit einem Aggregationsoperator eine oder mehrere neue Kennzahlen berechnet werden.
  12. Verfahren nach Anspruch 1 bis 11 dadurch gekennzeichnet, dass die nach Anspruch 3 neu berechneten Kennzahlen zur Strukturierung oder Sortierung der Ergebnisse herangezogen werden.
  13. Verfahren nach Anspruch 1 bis 12 dadurch gekennzeichnet, dass die Suchbegriffe und Undheitsgraden in Gruppen strukturiert werden und dass diesen Gruppen übergeordnete Undheitsgraden zugeordnet werden.
  14. Verfahren nach Anspruch 1 bis 13 dadurch gekennzeichnet, dass die Suchbegriffe Wort-Trunkierungen sind.
  15. Verfahren nach Anspruch 1 bis 14 dadurch gekennzeichnet, dass neben den Suchbegriffen auch vorgeschlagene Methodenbegriffe mit Undheitsgraden und Gewichtungen versehen werden und dass den Methodenbegriffe zugeordneten Kennzahlen, Undheitsgrade und Gewichtungen ebenfalls das Ergebnis der Suche beeinflussen.
  16. Verfahren nach Anspruch 1 bis 15 dadurch gekennzeichnet, dass neben den Suchbegriffen auch bestimmte Metadaten mit Undheitsgraden und Gewichtungen versehen werden und dass den Metadaten zugeordneten Kennzahlen, Undheitsgrade und Gewichtungen ebenfalls das Ergebnis der Suche beeinflussen.
DE102009005271A 2009-01-20 2009-01-20 Suchmaschine mit mehreren Undheitsgraden Withdrawn DE102009005271A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102009005271A DE102009005271A1 (de) 2009-01-20 2009-01-20 Suchmaschine mit mehreren Undheitsgraden

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102009005271A DE102009005271A1 (de) 2009-01-20 2009-01-20 Suchmaschine mit mehreren Undheitsgraden

Publications (1)

Publication Number Publication Date
DE102009005271A1 true DE102009005271A1 (de) 2010-07-22

Family

ID=42262928

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102009005271A Withdrawn DE102009005271A1 (de) 2009-01-20 2009-01-20 Suchmaschine mit mehreren Undheitsgraden

Country Status (1)

Country Link
DE (1) DE102009005271A1 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012108187A1 (de) 2012-09-04 2014-03-06 Océ Printing Systems GmbH & Co. KG Verfahren zur Überprüfung einer an einem rotierenden Element angeordneten Reinigungseinheit auf Flüssigkeitsverlust bei einem elektrografischen Druckgerät

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012108187A1 (de) 2012-09-04 2014-03-06 Océ Printing Systems GmbH & Co. KG Verfahren zur Überprüfung einer an einem rotierenden Element angeordneten Reinigungseinheit auf Flüssigkeitsverlust bei einem elektrografischen Druckgerät

Similar Documents

Publication Publication Date Title
EP3744068B1 (de) Verfahren zur automatisierten erstellung eines an eine vorgegebene person gerichteten phishing-dokuments
DE602004003361T2 (de) System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen
DE102012009489A1 (de) Offene, nutzerbestimmte Web-Findeergebnisse
DE202012013725U1 (de) Kontextsensible Suche
EP1783633A1 (de) Suchmaschine für eine ortsbezogene suche
DE112010002620T5 (de) Ontologie-nutzung zum ordnen von datensätzen nachrelevanz
EP2567194A1 (de) Verfahren und vorrichtung zum betreiben einer nutzerschnittstelle
DE112007000051T5 (de) Dreiteiliges-Modell-basiertes Verfahren zur Informationsgewinnung und -verarbeitung
DE10034694B4 (de) Verfahren zum Vergleichen von Suchprofilen sowie dessen Verwendung
CH712988A1 (de) Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust.
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE102009005271A1 (de) Suchmaschine mit mehreren Undheitsgraden
DE10033548C2 (de) Verfahren zur Vorschau von Internetseiten
EP1285385B1 (de) Verfahren zum auffinden von objekten
DE102019219470A1 (de) System und verfahren für extraktion und abruf von informationen zur unterstützung bei automobilreparaturen
DE102014201540A1 (de) Verfahren und Vorrichtung zur Analyse von Texten
DE19859838A1 (de) Verfahren zum rechnergestützten Recherchieren nach Dokumenten in einer elektronischen Datenbank
DE10261839A1 (de) Verfahren und Einrichtung zur Durchführung einer elektronischen Recherche
DE10220094B4 (de) Datenverarbeitungssystem
EP2423830A1 (de) Verfahren zum Suchen in einer Vielzahl von Datensätzen und Suchmaschine
EP3076343A1 (de) Verfahren zur zuordnung sprachlicher eingaben
DE19842320A1 (de) Verfahren und Einrichtung zur inhaltsbezogenen Suche von elektronischen Dokumenten
DE102023205209A1 (de) Steuereinheit zur Zuordnung von mindestens einem Element einer Vielzahl von Dokumenten und Verfahren dafür
DE102006043158A1 (de) Verfahren zum Ermitteln von Elementen eines einer Suchanfrage zugeordneten Suchergebnisses in einer Reihenfolge und Suchmaschine
DE102014219383A1 (de) Verfahren zur rechnergestützten Verarbeitung von digitalen Dokumenten

Legal Events

Date Code Title Description
8122 Nonbinding interest in granting licences declared
R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee