DE102020109953A1

DE102020109953A1 - Verfahren und Computersystem zur Bestimmung der Relevanz eines Textes

Info

Publication number: DE102020109953A1
Application number: DE102020109953.3A
Authority: DE
Inventors: Thomas Nitsche; Oxana Nitsche; Antonia Düker; Raphael Nitsche Hahn; Maxim Nitsche Hahn
Original assignee: Contexon GmbH
Current assignee: CONTEXON GMBH, DE
Priority date: 2020-04-09
Filing date: 2020-04-09
Publication date: 2021-10-14
Also published as: US20230185837A1; EP4133384A1; WO2021204849A1

Abstract

Die Erfindung betrifft ein Verfahren und ein Computersystem zur Bestimmung der Relevanz eines Textes. Das Verfahren umfasst die folgenden Schritte: Bestimmung (201) der Ähnlichkeit des Textes (D1, D2) mit Texten (Di) eines Bestands, wobei der Text (D1, D2) mit jedem der Texte (Di) des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts (S), der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird; Zuordnen (202) des Ähnlichkeitswerts (S) zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde; und Berechnen eines Relevanzwerts (SRank) aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten (S), die dem Text (D1, D2) zugeordnet wurden.

Description

Die Erfindung betrifft ein Verfahren und ein Computersystem zur Bestimmung der Relevanz eines Textes.
Es ist bekannt, die Beurteilung der Relevanz eines Textes daran zu bemessen, in welchem Umfang der Text in anderen Texten bzw. Dokumenten zitiert wird. Insbesondere bei Online-Publikationen und anderen Informationen im Internet verhält es sich jedoch häufig so, dass von einem expliziten Referenzieren eines früheren Textes durch Zitieren oder Setzen eines Links abgesehen und dieser vielmehr ohne Zitat teilweise oder vollständig in einen neuen Text integriert wird. Dies gilt in besonderem Maße für Nachrichten (einschließlich Falsch-Nachrichten) über bestimmte Ereignisse oder Themen. Damit fehlt es insofern an einem Kriterium dafür, welche Relevanz ein betrachteter Text hat, als nicht erkennbar ist, ob es sich um einen originären Text oder einen nur abgeleiteten Text handelt. Auch ist es schwierig, Plagiate zu erkennen.
Der vorliegenden Erfindung liegt die Aufgabe zugrunde, ein Verfahren und ein Computersystem anzugeben, die es ermöglichen, in effizienter Weise die Relevanz eines Textes durch Vergleich mit anderen Texten zu bestimmen.
Diese Aufgabe wird durch ein Verfahren mit den Merkmalen des Patentanspruchs 1 und ein Computersystem mit den Merkmalen des Patentanspruchs 25 gelöst. Ausgestaltungen der Erfindung sind in den abhängigen Ansprüchen angegeben.
Danach betrachtet die vorliegende Erfindung in einem ersten Erfindungsaspekt ein Verfahren zur Bestimmung der Relevanz eines Textes. Das Verfahren sieht vor, dass zunächst die Ähnlichkeit des betrachteten Textes mit Texten eines Bestands bestimmt wird. Dazu wird der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts verglichen, wobei der Ähnlichkeitswert die Ähnlichkeit zwischen jeweils zwei Texten angibt. In einem weiteren Schritt wird der Ähnlichkeitswert des jeweils durchgeführten Einzelvergleichs zumindest demjenigen der beiden Texten zugeordnet, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Die auf diese Weise dem betrachteten Text bei den Einzelvergleichen zugeordneten Ähnlichkeitswerte bilden die Grundlage für eine Berechnung eines Relevanzwertes. Beispielsweise werden die Ähnlichkeitswerte zu einem Relevanzwert addiert oder multipliziert, wobei die Größe des Relevanzwertes die Relevanz des Textes angibt.
Die Relevanz eines Textes bzw. Dokuments wird somit berechnet auf der Grundlage von Ähnlichkeitswerten, die bei Einzelvergleichen zwischen dem betrachteten Text und den Texten eines Bestands ermittelt werden, wobei der Veröffentlichungszeitpunkt bzw. erstmalige Erfassungszeitpunkt der jeweiligen Texte bei der Bestimmung des Ähnlichkeitswerte berücksichtigt wird.
Die erfindungsgemäße Lösung ermöglicht es, die Texte eines Bestands mit einer Rangordnung (Ranking) zu versehen, wobei der Text mit dem höchsten Relevanzwert innerhalb des betrachteten Bestands in der Rangordnung oben steht. Hierdurch können ähnliche Texte transparent im Hinblick auf ihre Relevanz gewichtet werden. Auch erlaubt es die erfindungsgemäße Lösung, Ähnlichkeitsverhältnisse innerhalb eines Bestands von Texten zu erkennen.
Es wird darauf hingewiesen, dass das Merkmal, dass der Relevanzwert aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten ermittelt wird, eine Vielzahl mathematischer Operationen umfassen kann. Im einfachsten Fall werden die Ähnlichkeitswerte zu einem Relevanzwert addiert. Es können jedoch auch andere Arten der Ableitung des Relevanzwertes aus den Ähnlichkeitswerten vorgesehen sein. Beispielsweise kann der Relevanzwert alternativ aus einer Multiplikation der Ähnlichkeitswerte gebildet werden, oder aus einer Kombination von Addition und Multiplikation, oder aus einer beliebigen Formel, die die Ähnlichkeitswerte als Parameter aufweist.
Eine Ausgestaltung der Erfindung sieht vor, dass der Ähnlichkeitswert eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde. Hierdurch berücksichtigt der Ähnlichkeitswert die zeitliche Entwicklung in der Verwendung eines Textes und ähnlicher Texte und erhöht damit die Relevanz solcher Texte, die zeitlich vor anderen ähnlichen oder identischen Texten liegen.
Alternativ kann vorgesehen sein, dass der Ähnlichkeitswert eines Einzelvergleichs zwar beiden Texten des jeweiligen Einzelvergleichs zugeordnet wird, dabei der Ähnlichkeitswert dem Text des Einzelvergleichs, der zu einem späteren Zeitpunkt veröffentlicht oder erfasst wurde, jedoch mit einer geringeren Gewichtung zugeordnet wird. Auch bei dieser Variante wird, wenn auch etwas abgeschwächt, die Relevanz solcher Texte erhöht, die zeitlich vor anderen ähnlichen oder identischen Texten liegen.
Als Text im Sinne der vorliegenden Erfindung wird jede Abfolge von Wörtern verstanden, die durch ein oder mehrere Trennzeichen (Blank, Punkt, Komma, etc.) getrennt sind oder deren Separation (z.B. Chinesisch) sich aus dem Text-Sinn ergibt. Ein Beispiel lautet: „Alles wird gut“. Ein Text im Sinne der vorliegenden Erfindung kann ein Dokument oder ein Teil eines Dokuments sein.
Der Zeitpunkt, zu dem ein Text zuerst veröffentlicht oder erfasst wurde, ergibt sich beispielsweise aus mit dem Text abgespeicherten oder diesem zugeordneten entsprechenden Metadaten. Beispielsweise enthalten die im Rahmen eines RSS-Feed dargestellten Texte jeweils Datum und Uhrzeit. Datum und Uhrzeit können im Übrigen, wenn sie im Text oder dessen Metadaten nicht enthalten sind, z.B. darüber bestimmt werden, wann ein Text erstmalig über ein bevorzugt periodisch erfassendes System erfasst wurde.
Eine Ausgestaltung der Erfindung sieht vor, dass, sofern die Ähnlichkeit des Textes mit einem Text des Bestands, die im Rahmen eines Einzelvergleichs bestimmt wird, einen Schwellwert übersteigt, der Ähnlichkeitswert um einen Zusatzwert inkrementiert wird. Dabei wird der um den Zusatzwert inkrementierte Ähnlichkeitswert zumindest demjenigen der beiden Texte des durchgeführten Einzelvergleichs zugeordnet, der zu einem früheren Zeitpunkt veröffentlicht wurde. Dabei sind Ausführungsvarianten vorgesehen, dass nur der Ähnlichkeitswert des zeitlich früher veröffentlichten Dokuments inkrementiert wird oder dass der Ähnlichkeitswert des zeitlich früher veröffentlichten Dokuments stärker inkrementiert wird als der andere Ähnlichkeitswert. Weiter kann vorgesehen sein, dass eine höhere Ähnlichkeit ein höheres Inkrement ergibt.
Diese Ausgestaltung erhöht den Relevanzwert von Texten, die eine starke Ähnlichkeit mit anderen Texten aufweisen, während Texte mit einer geringen Ähnlichkeit weniger stark ins Gewicht fallen. Hierdurch wird ein Cluster relevanter Texte gebildet und es ist leichter möglich, bei einer großen Anzahl von Texten die relevanten Texte zu ermitteln und diese untereinander zu ranken.
Ein ähnliches Ergebnis kann erzielt werden, wenn, sofern die Ähnlichkeit des Textes mit einem Text des Bestands, die im Rahmen eines Einzelvergleichs bestimmt wird, einen Schwellwert unterschreitet, der Ähnlichkeitswert auf Null gesetzt wird, d. h. das Ergebnis dieses Einzelvergleichs in die Bestimmung des Relevanzwertes nicht mit einfließt. Dies sieht eine weitere Ausgestaltung der Erfindung vor.
Eine mögliche Anwendung besteht beispielsweise in der Rückverfolgung von Nachrichten, insbesondere sogenannter „Fake-News“ im Internet. Eine detektierte Clusterbildung kann dabei verdeutlichen, dass eine „Fake-News“ gegebenenfalls durch eine Gruppe von Nutzern in kurzer Zeit in verwandten Texten verbreitet wurde.
Das erfindungsgemäße Verfahren ist grundsätzlich transparent im Hinblick auf das Verfahren, mit dem die Ähnlichkeit zweier Texte bestimmt wird. Hierzu können grundsätzlich beliebige Verfahren eingesetzt werden.
Eine Ausgestaltung der Erfindung sieht vor, dass die Bestimmung der Ähnlichkeit des Textes mit einem Text des Bestands folgende Schritte umfasst:

- Ermitteln von Keywords des jeweiligen Textes,
- Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem jeweils betrachteten Text angibt, und
- Ableiten eines Ähnlichkeitswerts aus der Anzahl der in den beiden Texten übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword-Relevanz-Werte.

Es werden somit in den beiden Texten Keywords ermittelt, diese unter Bildung eines Keyword-Relevanz-Wertes gewichtet und ein Ähnlichkeitswert aus den übereinstimmenden Keywords und deren Gewichtungen abgeleitet.
Ein Keyword im Sinne der vorliegenden Erfindung kann dabei eine Vielzahl von Entitäten sein. Gemäß einer Ausgestaltung sind Keywords eines Textes die Namen und/oder die Substantive, die in dem Text enthalten sind. Es werden somit als Keywords beispielsweise die Namen und Substantive eines Textes ermittelt. Statt Namen und/oder Substantive können jedoch auch andere charakterisierende Worte eines Textes verwendet werden. Dabei kann vorgesehen sein, dass als Keywords die Wortstämme der jeweiligen Namen und Substantive oder anderer Keywords betrachtet werden, die nachfolgend auch als „Lemmas“ bezeichnet werden. Beispiele sind:

Beispiel Lemma1: Lemma(ging) = gehen
Beispiel Lemma2: Lemma(Häuser) = Haus
Beispiel Lemma3: Lemma(went) = go

Es werden gemäß dieser Ausführungsvariante somit die Lemmas als Keywords verwendet.
Gemäß einem weiteren Ausführungsbeispiel sind Keywords eines Textes n-Gramme des jeweiligen Textes. Ein n-Gramm ist eine Teil-Abfolge von Buchstaben eines Wortes oder mehrerer aufeinander folgender Wörter. Ein Beispiel ist: Das Wort „Schach‟ enthält die 3ern-Grams: „sch‟, „cha‟, „hac‟ und „ach‟. N-Gramme können dabei auch über Wortgrenzen hinweg laufen.
Weiter wird darauf hingewiesen, dass Keywords nicht notwendigerweise in dem betrachteten Text selbst vorkommen müssen. Wenn dies nicht der Fall ist, ist ein Keyword ein charakterisierende Merkmal des Textes, das aus diesem ableitbar bzw. diesem zuordenbar ist. Ein Beispiel für ein charakterisierendes Merkmal in diesem Sinne lautet wie folgt:

Beispiel Merkmal1: Ein Text über die Firma Apple kann mit dem Merkmal „Personal Computer‟ charakterisiert werden, obwohl dieser Begriff nicht in dem Text vorkommt.

Mit dieser Definition sind auch n-Gramme Merkmale in dem genannten Sinn.
Charakterisierende Merkmale sind beispielsweise zusammen mit Keywords oder Textteilen oder vollständigen Texten in einer Datenbank gespeichert, so dass sie einem Text eindeutig zugeordnet werden können.
Eine Ausgestaltung der Erfindung sieht vor, dass als Keyword-Relevanz die Häufigkeit der Keywords in dem jeweiligen Text bestimmt wird, wobei jedem Keyword als Keyword-Relevanz-Wert ein Häufigkeitswert zugeordnet wird. Dementsprechend wird für diesen Fall der Ähnlichkeitswert aus der Anzahl der in den beiden Texten übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten Häufigkeitswerten bestimmt.
Eine weitere Ausgestaltung sieht vor, dass als Keyword-Relevanz-Wert das tf-idf-Maß verwendet wird, wobei der Keyword-Relevanz-Wert gleich dem Produkt aus einem dem jeweiligen Keyword zugeordneten Häufigkeitswert mit der inversen Texthäufigkeit in den Texten des Bestandes ist. Das tf-idf-Maß ist grundsätzlich bekannt. Der Bestandteil „tf“ gibt die Suchwortdichte bzw. Vorkommenshäufigkeit in dem betrachteten Text an. Der Bestandteil „idf“ bezeichnet die inverse Dokumenthäufigkeit, die die Spezifität eines Keywords für die Gesamtmenge der betrachteten Texte des Bestands angibt. Dem liegt die Überlegung zugrunde, dass ein übereinstimmendes Vorkommen von seltenen Begriffen für die Relevanz aussagekräftiger ist und dementsprechend den Ähnlichkeitswert und damit den Relevanzwert stärker erhöht.
Eine weitere Ausgestaltung sieht vor, dass ein normiertes Profil des jeweiligen Textes gebildet wird, indem als Keyword-Relevanz-Werte normierte Keyword-Relevanz-Werte verwendet werden, die aus den Keyword-Relevanz-Werten durch Dividieren mit einem Normierungsfaktor erzeugt werden. Dabei ist beispielsweise vorgesehen, dass der Normierungsfaktor gleich dem in einem betrachteten Text maximal auftretenden Keyword-Relevanz-Wert (z.B. gleich dem größten Häufigkeitswert des Textes) ist. Es existieren zahlreiche Verfahren zur Normierung, die eingesetzt werden können.
Bei der Verwendung normierter Profile sieht eine Ausgestaltung vor, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten normierten Keyword-Relevanz-Werten abgeleitet wird, indem die Summe der Mittelwerte der normierten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird. Sofern die Keyword-Relevanz-Werte zum Beispiel Häufigkeitswerte sind, wird der Ähnlichkeitswert aus der Summe der Mittelwerte der normierten Häufigkeitswerte der übereinstimmenden Keywords bestimmt.
Eine weitere Ausführungsvariante sieht vor, dass aus dem normierten Profil des jeweiligen Textes ein gefiltertes Profil des jeweiligen Textes gebildet wird, indem als Keyword-Relevanz-Werte gefilterte Keyword-Relevanz-Werte verwendet werden, die aus den normierten Keyword-Relevanz-Werten gebildet werden, indem der normierte Keyword-Relevanz-Wert mit einem Schwellwert gefiltert wird. Dabei wird der normierte Keyword-Relevanz-Wert nur beibehalten, wenn er über dem Schwellwert liegt und anderenfalls auf Null gesetzt wird.
Bei der Verwendung normierter Profile sieht eine Ausgestaltung vor, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten gefilterten Keyword-Relevanz-Werten abgeleitet wird, indem die Summe der Mittelwerte der gefilterten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird. Da die gefilterten Keyword-Relevanz-Werte, sofern sie unter dem Schwellwert liegen, auf Null gesetzt sind, gehen dabei in den Ähnlichkeitswert nur solche Keywords ein, die in beiden Texten mit hoher Relevanz vorhanden sind.
Sofern ein Keyword ein charakterisierendes Merkmal eines Textes ist, das aus diesem ableitbar bzw. diesem zuordenbar ist, ohne in dem Text selbst vorzukommen, kann vorgesehen sein, dass die Relevanz dieses Keywords, d. h. sein Keyword-Relevanz-Wert extern bestimmt wird bzw. bestimmt worden ist. Die Relevanz kann sich beispielsweise nach der Wichtigkeit des Keywords richten. Wenn beispielsweise als charakterisierendes Merkmal eines Texts der Name dessen Autors als Keyword zugeordnet wird, so kann vorgesehen sein, dass dieses Keyword nach einer Normierung immer einen hohen Keyword-Relevanz-Wert von beispielsweise 1,0 oder 0,75 aufweist.
Eine weitere Ausgestaltung der Erfindung sieht vor, dass die Texte des Bestands in einer Datenbank hinterlegt sind, wobei zu jedem Text zumindest hinterlegt sind: Der Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, und ein Profil des Textes. Das Profil des Textes ist dabei entstanden durch Erfassen von Keywords des jeweiligen Textes und durch Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem Text angibt. Dies kann in der beschriebenen Weise erfolgen. Dementsprechend können als Keyword-Relevanz-Werte normierte Keyword-Relevanz-Werte und/oder gefilterte Keyword-Relevanz-Werte in der Datenbank gespeichert sein.
Zur Bestimmung der Ähnlichkeit zweier Texte wird das Profil aus dem Bestand abgerufen und ein Ähnlichkeitswert aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten Keyword-Relevanz-Werten gebildet. Dabei umfasst die vorliegende Erfindung sowohl Ausgestaltungen, bei denen der Text, dessen Relevanz zu bestimmen ist, Teil des Bestands von Texten ist, als auch Ausgestaltungen, bei denen der Text, dessen Relevanz zu bestimmen ist, nicht Teil des Bestands von Texten ist. In erstem Fall ist zu dem Text, dessen Relevanz zu bestimmen ist, dessen Profil bereits in der Datenbank hinterlegt, so dass es ebenso wie die Profile der anderen Texte des Bestands aus der Datenbank abgerufen werden kann. In zweitem Fall wird beispielsweise ein Profil dieses Textes erzeugt und zusammen mit dem Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, in der Datenbank hinterlegt.
Eine weitere Ausgestaltung sieht vor, dass das Verfahren auf sämtliche Texte des Bestands angewendet wird, wobei für jeden Text des Bestands ein Relevanzwert ermittelt wird. Die Relevanzwerte können zusammen mit den Texten in der Datenbank gespeichert werden, so dass sie unmittelbar abrufbar sind.
Wie erläutert wird als Text im Sinne der vorliegenden Erfindung jede Abfolge von Wörtern verstanden, die durch ein oder mehrere Trennzeichen (Blank, Punkt, Komma, etc.) getrennt sind oder deren Separation sich aus dem Text-Sinn ergibt. Damit kann ein Text im Sinne der vorliegenden Erfindung auch ein Textteil (ein Absatz oder ein Kapitel) eines umfangreicheren Dokuments, beispielsweise eines Aufsatzes oder eines Buches sein. Auch ein solcher Textteil ist ein Text im Sinne der vorliegenden Erfindung. Es ist dann möglich, dass zu mehreren Texten ein Relevanzwert ermittelt wird, die aus dem gleichen Dokument stammen. In einem solchen Fall kann vorgesehen sein, dass aus den einzelnen Relevanzwerten der Texte bzw. Textteile ein Gesamt-Relevanzwert des Dokuments berechnet wird, beispielsweise durch Addition der einzelnen Relevanzwerte. Ein solcher Gesamt-Relevanzwert gibt deutlicher an, falls mehrere Absätze oder Kapitel eines Dokumentes in jüngeren Texten verwendet werden, wie es beispielsweis bei einem Plagiatsfall der Fall ist.
Alternativ kann ein Relevanzwert von vornherein auf der Grundlage des gesamten Dokuments bestimmt werden, das mehrere Textteile umfasst. Dann ist das Gesamtdokument der Text in Sinne der Erfindung.
Gemäß einem weiteren Erfindungsaspekt betrifft die Erfindung ein Computerprogramm mit Programmcode zur Durchführung der Verfahrensschritte nach Anspruch 1, wenn das Computerprogramm in einem Computer ausgeführt wird. Die Computersoftware kann dahingehend weitergebildet sein, dass sie in Verbindung mit einem Prozessor bzw. Computer sämtliche Ausführungsvarianten der Erfindung gemäß den Ansprüchen 1 bis 22 realisiert.
Gemäß einem weiteren Erfindungsaspekt betrifft die Erfindung ein Verfahren zur Bestimmung der Relevanz eines Textes, das die Schritte aufweist:

- Senden eines Textes oder von Daten, die den Text identifizieren, von einem Kommunikations-Endsystem an ein Computersystem, das einen Bestand von Texten verwaltet, die in einer Datenbank des Computersystems gespeichert sind, wobei in der Datenbank zu jedem Text der Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, und ein Profil hinterlegt sind, wobei das Profil auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden ist,
- Veranlassen des Computersystems zu prüfen, ob der erhaltene Text in dem Bestand enthalten ist,
- sofern dies nicht der Fall ist, Anlegen durch das Computersystem eines Profils des Textes sowie Speichern des Profils und des Zeitpunkts, zu dem der Text zuerst veröffentlicht wurde, in der Datenbank,
- Veranlassen des Computersystems, die Ähnlichkeit des Textes mit Texten des Bestands zu bestimmen, wobei der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird,
- wobei zur Ermittlung des Ähnlichkeitswerts zweier Texte das in der Datenbank gespeicherte Profil abgerufen und ein Ähnlichkeitswert aus der Anzahl der übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword-Relevanz-Werten gebildet wird,
- wobei der ermittelte Ähnlichkeitswert zumindest demjenigen der beiden Texten des jeweils durchgeführten Einzelvergleichs zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde,
- Berechnen eines Relevanzwerts aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten, die dem Text zugeordnet wurden,
- Senden des ermittelten Relevanzwertes vom Computersystem an das oder ein anderes Kommunikations-Endsystem.

Ein weiterer Erfindungsaspekt betrifft ein Computersystem zur Bestimmung der Relevanz eines Textes, das aufweist:

- Mittel zur Bestimmung der Ähnlichkeit des Textes mit Texten eines Bestands, wobei der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird,
- Mittel zum Zuordnen des Ähnlichkeitswerts zu zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs, der zu einem früheren Zeitpunkt veröffentlicht wurde,
- Mittel zum Berechnen eines Relevanzwerts aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten, die dem Text zugeordnet wurden.

Die Mittel umfassen beispielsweise ein nichtflüchtiges computerlesbares Speichermedium, das Anweisungen zum Betrieb des Computersystems speichert, wobei die Anweisungen, wenn sie von einem oder mehreren Prozessoren des Computersystems ausgeführt werden, die einen oder mehreren Prozessoren dazu veranlassen, in dem Computersystem Operationen durchzuführen, die die von den genannten Mitteln bereitgestellten Funktionen erfüllen.
Dabei kann vorgesehen sein, dass das Computersystem mit einer Datenbank zusammenwirkt, die einen Bestand von Texten aufweist, zu denen jeweils mindestens ein Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, und ein Profil hinterlegt sind. Dabei ist das Profil auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden. Die Mittel zur Bestimmung der Ähnlichkeit des Textes mit Texten des Bestands bestimmen die Ähnlichkeit auf der Grundlage der in der Datenbank hinterlegten Profile.
Die Erfindung wird nachfolgend unter Bezugnahme auf die Figuren der Zeichnung anhand mehrerer Ausführungsbeispiele näher erläutert. Es zeigen:

1 eine Kommunikations-Infrastruktur, die zur Durchführung eines Verfahrens zur Bestimmung der Relevanz eines Textes geeignet ist;
2 ein Flussdiagramm eines Verfahrens zur Bestimmung der Relevanz eines Textes;
3 ein Ausführungsbeispiel eines Verfahrens zur Erstellung eines normiertes Profil eines Textes, indem wobei Keywords des Textes erfasst und jedem Keyword ein normierter und gefilterter Keyword-Relevanz-Wert zugeordnet wird; und
4 ein Ausführungsbeispiel eines Verfahrens zur Bestimmung der Ähnlichkeit zweier Texte, denen jeweils ein Profil gemäß 3 zugeordnet wurde, wobei ein Ähnlichkeitswert der beiden Texte bestimmt wird, indem die Summe der Mittelwerte der normierten und gefilterten Keyword-Relevanz-Werte der in beiden Texten übereinstimmenden Keywords bestimmt wird.

Die 1 zeigt eine Kommunikations-Infrastruktur, die eine Mehrzahl von Kommunikations-Endsystemen Ni, Nj und eine Recheneinheit Z1 aufweisen. Die Kommunikations-Endsystemen Ni, Nj sind durch nicht dargestellte Nutzer bedienbar und/oder agieren autonom. Sie sind über mindestens eine Kommunikationsverbindung, wie z.B. eine Telekommunikationsverbindung und/oder eine Computerverbindung, beispielsweise über das Internet oder ein Intranet mit der Recheneinheit Z1 verbindbar. Die Kommunikations-Endsysteme Ni, Nj sind beispielsweise als PC, Laptop, Tabletcomputer oder Smartphone ausgebildet.
Die Recheneinheit Z1 kann mit einer Vielzahl von Nutzern bzw. Kommunikations-Endsystemen Ni, Nj kommunizieren. Sie wird beispielsweise durch einen Server im Internet gebildet. Der Recheneinheit Z1 ist eine Speichereinheit S1 zugeordnet, die einen nichtflüchtigen Speicher umfasst.
Die Nutzer bzw. von diesen eingesetzte Kommunikationsendgeräte Ni, Nj erstellen oder identifizieren Texte bzw. Dokumente D1 und senden diese an die Recheneinheit Z1. Die Begriffe „Text“ und „Dokument“ werden im Folgenden als Synonyme verwendet (obgleich auch Situationen denkbar sind, in denen ein Text lediglich ein Teil eines Dokuments ist). Die Recheneinheit Z1 erstellt zu den empfangenen Texten D1 jeweils ein Profil und speichert dieses zusammen mit den Texten D1 in der Speichereinheit S1. Alternativ werden nur die Profile gespeichert. Alternativ oder ergänzend agiert die Recheneinheit Z1 als Webcrawler und durchsucht bzw. crawlt automatisch das Internet oder ein Intranet zur Suche und Identifikation von Texten. Dabei kann die Suche je nach Anwendung auf eine bestimmte Art von Texten beschränkt sein, z.B. Nachrichtentexte oder Texte zu einem bestimmten technischen oder wissenschaftlichen oder politischen Thema.
Die zu einem Text in der Speichereinheit S1 gespeicherten Informationen umfassen zumindest die folgenden Informationen: den Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, sowie ein Profil des Textes. Im Hinblick auf den Zeitpunkt der ersten Veröffentlichung oder Erfassung kann vorgesehen sein, dass die Dokumente D1 jeweils einen Zeitstempel aufweisen, der angibt, wann das Dokumente erstmals veröffentlicht oder von einem Erfassungssystem erfasst wurden. Der Zeitstempel kann den Dokumenten unmittelbar zugeordnet sein, etwa in Form von Metadaten des Dokuments, so dass diese Information für diesen Fall leicht erfassbar ist und in der Speichereinheit S1 eingetragen wird. Alternativ kann vorgesehen sein, dass zur Bestimmung des Zeitpunkts der ersten Veröffentlichung oder Erfassung die Recheneinheit Z1 automatisiert eine Recherche im Internet durchführt und Daten auswertet, aus denen sich der fragliche Zeitpunkt ergibt. Auch kann als Alternative vorgesehen sein, dass der Zeitpunkt über eine Kommunikationsschnittstelle durch einen Nutzer über ein Kommunikations-Endsystem Ni, Nj eingegeben wird.
Der Zeitpunkt kann das Datum und die Tageszeit an dem Datum umfassen, an dem der Text zuerst veröffentlicht oder erfasst wurde. Sofern die Tageszeit nicht ermittelbar ist, enthält der Zeitpunkt zumindest das Datum.
Das Profil des Textes umfasst Keywords des jeweiligen Textes, sowie Keyword-Relevanz-Werte zu den Keywords des Textes, wobei der Keyword-Relevanz-Wert die Relevanz des jeweiligen Keywords in dem jeweils betrachteten Text angibt, wie noch weitergehend erläutert wird. Das Profil kann darüber hinaus weitere Informationen zu dem jeweiligen Text umfassen, beispielsweise Autor, Herausgeber, etc.
Des Verfahren zur Bestimmung der Relevanz eines Textes D1 verläuft so, dass ein bestimmter Text D1 mit weiteren Texten Di verglichen wird, die bzw. deren Profile in der Speichereinheit S1 gespeichert sind. Der Text D1 kann dabei beispielsweise von einem Nutzer über ein Kommunikations-Endsystem Ni, Nj und ein Datenübertragungsverfahren an die Recheneinheit Z1 übertragen worden sein. Alternativ wird der Text durch den Nutzer nur identifiziert, ohne übersandt zu werden, wobei der Text einschließlich seines Profils bereits in der Speichereinheit S1 enthalten ist. Ebenso ist es denkbar, dass das Verfahren automatisiert für jeden Text durch die Recheneinheit Z1 durchgeführt wird, den die Recheneinheit Z1 erfasst oder crawlt.
Die Recheneinheit Z1 bestimmt durch Einzelvergleiche mit Texten Di eines Bestands, der in der Speichereinheit S1 gespeichert ist, einen Relevanzwert des Textes D1, der nachfolgend auch als SRank-Wert oder einfach als SRank bezeichnet wird. Das hierzu eingesetzte Verfahren wird nachfolgend schematisch unter Bezugnahme auf die 2 erläutert.
In einem ersten Schritt 201 wird die Ähnlichkeit des Textes mit Texten eines Bestands bestimmt. Hierzu wird der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird. Die Texte des Bestands sind in der Speichereinheit S1 gespeichert. Das Verfahren zur Ermittlung eines Ähnlichkeitswerts kann grundsätzlich in beliebiger Weise erfolgen. Ein Beispiel für ein solches Verfahren wird anhand der 4 erläutert.
In einem weiteren Schritt 202 wird der ermittelte Ähnlichkeitswert zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs zugeordnet, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Hierzu können gemäß Schritt 203 Ausführungsvarianten vorsehen, dass der Ähnlichkeitswert eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde. Dies kann bedeuten, dass, wenn der betrachtete Text später als ein Vergleichstext veröffentlicht oder erstmalig erfasst wurde, ihm kein Ähnlichkeitswert bzw. der Ähnlichkeitswert Null zugeordnet wird.
Eine Alternative sieht im Schritt 203 vor, dass der Ähnlichkeitswert eines Einzelvergleichs demjenigen Text, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, mit einem größeren Gewicht zugeordnet wird.
Gemäß Schritt 204 werden die bei den Einzelvergleichen ermittelten Ähnlichkeitswerte, die dem betrachteten Text zugeordnet wurden, zu einem Relevanzwert bzw. SRank addiert. Die Größe des Relevanzwertes gibt die Relevanz des Textes an. Eine Addition der Ähnlichkeitswerte zu einem Relevanzwert SRank ist dabei nur als Beispiel für eine Ableitung des Relevanzwertes aus den Ähnlichkeitswerten zu verstehen.
Erneut Bezug nehmend auf die 1 wird der ermittelte SRank des geprüften Textes D1 zusammen mit bzw. als Bestandteil des ermittelten Profils des Textes D1 in der Speichereinheit S1 gespeichert. Sofern das Profil des Textes D1 bereits in der Speichereinheit S1 enthalten war, wird lediglich zusätzlich der SRank als Teil des Profils gespeichert. Des Weiteren kann der SRank des betrachteten Dokuments D1 bei Bedarf an ein Kommunikations-Endsystem Ni, Ni übertragen werden, wie in der 1 dargestellt. Dies kann mit oder ohne das Dokument D1 erfolgen.
Dementsprechend sieht eine Ausführungsvariante vor, dass zunächst ein Text D1 von einem Kommunikations-Endsystem Ni, Nj an die Recheneinheit Z1 übersandt wird, wobei die Recheneinheit Z1 einen Bestand von profilierten Texten verwaltet, die in der Speichereinheit S1 gespeichert sind. Durch die ausgelöste Anfrage wird die Recheneinheit Z1 veranlasst zu prüfen, ob der erhaltene Text D1 in dem Bestand enthalten ist. Sofern dies nicht der Fall ist, wird zu dem Text D1 ein Profil angelegt und zusammen mit dem Zeitpunkt, zu dem der Text zuerst veröffentlicht oder zugänglich gemacht wurde, in der Speichereinheit S1 gespeichert. Anderenfalls kann auf die bereits hinterlegten Informationen zurückgegriffen werden. Die Recheneinheit Z1 wird nun (aufgrund der erfolgten Anfrage) veranlasst, die Ähnlichkeit des Textes mit Texten des Bestands zu bestimmen, wobei der Text D1 mit jedem der Texte Di des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts, der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, mit dem in Bezug auf die 2 erläuterten Verfahren verglichen wird.
Somit wird zu jeweils zwei Texten das ermittelte bzw. gespeicherte Profil abgerufen und ein Ähnlichkeitswert aus der Anzahl der übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword-Relevanz-Werten gebildet. Die bei den Einzelvergleichen ermittelten Ähnlichkeitswerte, die dem Text D1 zugeordnet wurden, werden zu einem Relevanzwert (dem SRank) addiert, dessen Größe die Relevanz des Textes D1 angibt. Der ermittelte Relevanzwert kann dem anfragenden oder einem anderen Kommunikations-Endsystem Ni, Nj bereitgestellt werden.
Dabei sind zahlreiche Modifikationen des Verfahrens möglich. Eine erste Modifikation sieht vor, dass nicht der Text D1, sondern Informationen, die diesen Text eindeutig identifizieren, an die Recheneinheit Z1 übertragen werden. Eine weitere Modifikation sieht vor, dass in der Speichereinheit S1 bereits zu sämtlichen Dokumenten die Relevanzwerte (SRanks) vorliegen bzw. bereits durch die Recheneinheit Z1 berechnet wurden, so dass auf eine Anfrage zur Relevanz eines Dokumentes lediglich der in der Speichereinheit S1 gespeicherte SRank mitgeteilt werden muss.
Die 3 zeigt beispielhaft auf, wie zu einem gegebenen Text ein Profil erstellt wird, das die Grundlage für die Bestimmung eines Ähnlichkeitswerts bei einem Vergleich des Textes mit einem anderen Text dient.
Dabei wird als Text/Dokument folgender Beispieltext D2 betrachtet:

„Apple hat den Tablett Computer iPad herausgebracht. Apple hat lange an dem iPad entwickelt. Das iPad ist ein vollwertiger Computer.“

Der Beispieltext D2 hat als relevanten Zeitpunkt das Datum des 10.04.2019.
In einem ersten Schritt 301 werden Keywords des Textes D2 identifiziert und extrahiert. Vorliegend werden als Keywords des Textes sämtliche Namen und Substantive betrachtet: Hierdurch entsteht ein Rohprofil E1. Dies besteht im betrachteten Beispiel aus den Wörtern „Apple, Tablett, Computer, iPad“.
In einem zweiten Schritt 302 werden die Häufigkeiten der im Text D2 enthaltenen Keywords ermittelt und dem Text als Relevanz zugeordnet. Hierdurch entsteht ein Rohprofil E2 mit Häufigkeiten, die Keyword-Relevanz-Werte darstellen: Profil mit Häufigkeiten: iPad - 3,0; Apple - 2,0; Computer - 2,0: Tablett - 1,0.
In einem dritten Schritt 303 werden die Keyword-Relevanz-Werte normiert. Es entsteht ein genormtes Profil E3 mit normierten Häufigkeiten, die normierte Keyword-Relevanz-Werte darstellen.
Normiertes Profil: iPad - 1: Apple - 0,67; Computer - 0,67; Tablett - 0,33.
In einem vierten Schritt 304 werden die normierten Keyword-Relevanz-Werte gefiltert. Es entsteht ein gefiltertes Profil E4. Die Filterung erfolgt durch einen Vergleich mit einem Schwellwert, der im betrachteten Beispiel bei 0,6 liegt. Normierte Keyword-Relevanz-Werte, die oberhalb des Schwellwertes liegen, fallen heraus.
Gefiltertes Profil: iPad - 1; Apple - 0,67; Computer - 0,67.
Es ist somit vorgesehen, dass Keywords des Textes die Häufigkeit, mit der sie in dem Text vorkommt, als Relevanz zugeordnet wird. Die entsprechenden Keyword-Relevanz-Werte werden normiert und mit einem Schwellwert gefiltert. Der in dem obigen Beispiel angegebene Schwellwert von 0,6 ist dabei nur beispielhaft zu verstehen. Grundsätzlich kann der Schwellwert an beliebiger Stelle in dem Bereich oberhalb 0 und unterhalb 1 liegen.
Nach Bestimmung des Profils ist nun ausgehend von dem Profil die Ähnlichkeit zwischen jeweils zwei Texten zu ermitteln. Ein Beispiel hierzu zeigt die 4. Danach ist ein erster Text D6 vorgesehen, aus dem in der in der 3 beschriebenen Weise ein normiertes und gefiltertes Profil A gebildet wurde, das folgende Keywords und Keyword-Relevanz-Werte aufweist: Keywords: iPad, Apple, Haus, Tisch. Zugeordnete Keyword-Relevanz-Werte: 1,0, 0,8, 0,8, 0,6. Des Weiteren ist ein zweiter Text D7 vorgesehen, aus dem in der in der 3 beschriebenen Weise ein genormtes und gefiltertes Profil B gebildet wurde, das folgende Keywords und Keyword-Relevanz-Werte aufweist: Keywords: Haus, Bett, Tür, iPad. Zugeordnete Keyword-Relevanz-Werte: 1,0, 0,8, 0,6, 0,4.
Die Ähnlichkeit bzw. der Ähnlichkeitswert wird aus den beiden Profilen A, B aus den übereinstimmenden Keywords und den den jeweiligen Keywords zugeordneten gefilterten Keyword-Relevanz-Werten ermittelt, indem die Summe der Mittelwerte der gefilterten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird.
Entsprechend werden in einem ersten Schritt 401 die in den beiden Profilen A, B enthaltenen gleichen Keywords bestimmt. Es sind dies in dem betrachteten Beispiel das Keyword „iPad“, dass im Text D6 mit einem gefilterten Keyword-Relevanz-Wert von 1,0 und im Text D7 mit einem Keyword-Relevanz-Wert von 0,4 enthalten ist, und das Keyword „Haus“, das im Text D6 mit einem gefilterten Keyword-Relevanz-Wert von 0,8 und im Text D7 mit einem gefilterten Keyword-Relevanz-Wert von 1,0 enthalten ist, siehe Zwischenergebnis M1 in 4, das die Profil-Matches angibt.
In Schritt 402 wird der Ähnlichkeitswert S bestimmt, indem zu diesen Keywords und Keyword-Relevanz-Werten die Summe der Mittelwerte der übereinstimmenden Keywords bestimmt wird, siehe Berechnung M2 in 4. Damit gibt sich im betrachteten Beispiel als Ähnlichkeitswert S der Wert 1.6.
Dabei kann vorgesehen sein, dass bei einem Vergleich ein Ähnlichkeitswert nur dem Dokument zugeordnet wird, das zu einem früheren Zeitpunkt veröffentlicht wurde oder zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Wenn beispielsweise das Dokument D7 in diesem Sinne jünger ist als das Dokument D6, so wird nur dem Dokument D6 ein Ähnlichkeitswert zugeordnet, der in die anschließend erfolgende Berechnung eines Relevanzwertes eingeht. Wenn dagegen das Dokument D6 jünger ist als das Dokument D7, so wird ihm lediglich der Ähnlichkeitswert Null zugeordnet.
Eine Alternative hierzu sieht vor, dass bei einem Vergleich ein Ähnlichkeitswert demjenigen Text des Einzelvergleichs mit einer stärkeren Gewichtung zugeordnet wird, das zu einem früheren Zeitpunkt veröffentlicht wurde oder zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde. Beispielweise wird der ermittelte Ähnlichkeitswert des Einzelvergleichs bei dem älteren Dokument mit dem Faktor 2 und bei dem jüngeren Dokument mit einem Faktor 0,5 gewichtet. Damit ergibt sich in dem oben betrachteten Beispiel für den Fall, dass das Dokument D6 früher veröffentlicht bzw. zugänglich gemacht wurde und somit das ältere Dokument darstellt, für das Dokument D6 ein Ähnlichkeitswert von 2*1,6 = 3.2 und für das jüngere Dokument D7 ein Ähnlichkeitswert von 0,5*1,6 = 0,8.
Eine weitere Ausführungsvariante hierzu sieht vor, dass der bei einem Einzelvergleichs ermittelte Ähnlichkeitswert mit einem Schwellwert verglichen und für den Fall, dass der Ähnlichkeitswert über dem Schwellwert liegt, der Ähnlichkeitswert um einen Zusatzwert inkrementiert wird. Dieser implementierte Ähnlichkeitswert wird dann zumindest dem älteren der beiden Texte zugeordnet. Die Inkrementierung kann um einen Faktor oder um einen Summanden erfolgen. Hierzu zwei Beispiele. In einem ersten Beispiel erfolgt eine Inkrementierung um den Faktor 3. Damit ergibt sich bei dem oben betrachteten Beispiel für den Fall, dass das Dokument D6 früher veröffentlicht bzw. zugänglich gemacht wurde, für das Dokument D6 ein Ähnlichkeitswert von 3*1,6 = 4,8. In einem zweiten Beispiel erfolgt eine Inkrementierung um einen festen Wert, beispielsweise den Wert 1.5. In diesem Fall ergibt sich in dem oben betrachteten Beispiel für den Fall, dass das Dokument D6 früher veröffentlicht bzw. zugänglich gemacht wurde, für das Dokument D6 ein Ähnlichkeitswert von 1,6 + 1,5 = 3,1.
Eine weitere Ausführungsvariante hierzu sieht vor, dass der bei einem Einzelvergleich ermittelte Ähnlichkeitswert mit einem Schwellwert verglichen und für den Fall, dass der Ähnlichkeitswert unter dem Schwellwert liegt, der Ähnlichkeitswert auf Null gesetzt wird. Hierdurch werden nochmals Dokumente herausgefiltert, bei denen der ermittelte Ähnlichkeitswert unter einer vordefinierten Schwelle von beispielsweise bei 0,5 liegt.
Zur Bestimmung des SRank eines Dokuments erfolgt wie in Bezug auf die 2 erläutert ein Einzelvergleich des betrachteten Textes, dessen SRank bestimmt werden soll, mit sämtlichen Texten des betrachteten Bestands. Die einem betrachteten Dokument dabei im Rahmen der jeweiligen Einzelvergleiche jeweils zugeordneten Ähnlichkeitswerte werden zum Relevanzwert bzw. SRank des Dokuments addiert.
Dies wird auf der Grundlage des Ausführungsbeispiels der 3 an einem Beispiel erläutert.
Es sei angenommen, dass neben dem Text D2 der 3 (veröffentlicht am 10.04.2019) noch drei weitere Texte D3, D4, D5 existieren, die zusammen die Texte eines betrachteten Bestands darstellen.
Für die weiteren Texte D3, D4, D5 wird jeweils ein Profil erstellt, das die Keywords und die normierten und gefilterten Keyword-Relevanz-Werte enthält.
Der Text D3, zuerst veröffentlicht am 12.4.2019, lautet: „Apple Computer hat das iPad herausgebracht. Das iPad ist ein Tablett Computer.“ Damit ergibt sich als Profil mit Häufigkeiten: iPad - 2; Computer - 2; Apple - 1; Tablett -1. Als normiertes Profil ergibt sich: iPad - 1; Computer - 1; Apple - 0,5; Tablett 0,5. Als gefiltertes Profil mit dem Schwellwert 0,6 ergibt sich: iPad - 1; Computer - 1.
Der Text D4, zuerst veröffentlicht am 13.4.2019, lautet: „Das iPad von Apple ist da. Das iPad ist ein innovatives Produkt.“ Damit ergibt sich als Profil mit Häufigkeiten: Apple - 1; iPad - 2; Apple - 1; Produkt - 1. Als normiertes Profil ergibt sich: iPad- 1; Apple - 0,5; Produkt - 0,5. Als gefiltertes Profil mit dem Schwellwert 0,6 ergibt sich: iPad - 1.
Der Text D5, zuerst veröffentlicht am 1.4.2019. lautet: „Microsoft ist eine Firma. Microsoft sitzt in Seattle.“ Damit ergibt sich als Profil mit Häufigkeiten: Microsoft - 2; Seattle - 1; Firma - 1. Das normierte Profil lautet: Microsoft - 1; Firma - 0,5; Seattle - 0,5. Das gefilterte Profil lautet: Microsoft - 1.
Es werden nun die Ähnlichkeitswerte zwischen den Dokumenten D2, D3, D4, D5 ermittelt, entsprechend der in der 4 erläuterten Vorgehensweise. Dabei ergibt sich:

(A) Ähnlichkeitswert Dokumente D2, D3: (iPad: (1 + 1) / 2) + (Computer: (1 + 0,67) / 2) -> 1,83
(B) Ähnlichkeitswert Dokumente D2, D4: (iPad: (1 + 1) / 2) -> 1
(C) Ähnlichkeitswert Dokumente D2, D5: (-) -> 0
(D) Ähnlichkeitswert Dokumente D3, D4: (iPad: (1 + 1) / 2) -> 1
(E) Ähnlichkeitswert Dokumente D3, D5: (-) -> 0
(F) Ähnlichkeitswert Dokumente D4, D5: (-) -> 0

Aus diesen Ähnlichkeitswerte wird nun der Relevanzwert bzw. SRank bestimmt, wobei er für sämtliche dieser Dokumente bestimmt werden kann. Es ergeben sich folgende SRanks.
Das Dokument D2 erhält den S-Rank aus der Summe von (A) und (B) -> 1,83 + 1 = 2,83. SRank (D2) = 2,83
Dokumente D3 und D4 erhalten aus der Ähnlichkeit zu Dokument D2 keinen Ähnlichkeitswert, da sie später veröffentlicht wurden.
Dokument D3 erhält einen S-Rank aus (D) -> 1. SRank (D3) = 1.
Dokument D4 erhält aus der Ähnlichkeit zu Dokument D3 keinen Wert, da es später veröffentlicht wurde: SRank (D4) = 0.
Das Dokument D5 hält keinerlei Ähnlichkeitswert, da es zu keinem der anderen Dokumente ähnlich ist. SRank (D5) = 0.
Die Bestimmungen der Ähnlichkeitswerte kann dabei wie in Bezug auf die 3 erläutert variiert werden, beispielsweise durch andere Schwellwerte bei der Filterung der Keyword-Relevanz-Werte, durch Vornahme einer bestimmten Gewichtung des älteren Dokuments, und/oder durch Inkrementierung eines Ähnlichkeitswerts, wenn er einen Schwellwert übersteigt.
Im Ergebnis weist das Dokument D2 einen deutlich höheren Relevanzwert als die Dokumente D3, D4 und D5 auf. Das Dokument D3 ist immer noch etwas relevanter als die Dokumente D4 und D5. Das Dokument D4 besitzt keine Relevanzwert, da es später als die anderen ähnlichen Dokumente erschien. Das Dokument D5 besitzt keinen Relevanzwert, da es zu keinem anderen Dokument ähnlich ist.
Bei der Bestimmung der Keywords können statt der Namen und Substantive auch die Wortstämme bzw. Lemmas der Namen und Substantive extrahiert werden. Auch können die Keywords grundsätzlich in anderer Weise als durch Namen und Substantive ermittelt werden, beispielsweise n-Gramme des Textes sein.
Abschließend wird auf eine weitere Verfahrensvariante eingegangen. Die Verfahrensvariante betrachtet die Einordnung eines neuen Dokuments in einen vorgegebenen Bestand mit sukzessiver SRank Bestimmung. Zu den Dokumenten des Bestandes existieren ein Index und ein inverser Index, wobei der Index einem Dokument bestimmte Keywords zuordnet und der inverse Index es erlaubt, die Dokumente zu identifizieren, die ein bestimmtes Keyword enthalten. Beispielsweise weist die Speichereinheit S1 der 1 einen Index und einen inversen Index der enthaltenen Dokumente auf. Weiter wird davon ausgegangen, dass jedes Dokument des Bestandes bereits einen SRank besitzt. Das neu einzuordnende Dokument besitzt dagegen noch keinen SRank.
Es werden folgende Schritte durchgeführt:

(1) Ermittle zu dem neu einzuordnenden Dokument N ein Profil mit Keywords und mit normierten und gefilterten Keyword-Relevanz-Werten;
(2) Führe auf der Grundlage der Keywords des neu einzuordnenden Dokument N und des inversen Index eine Suche auf den Bestand aus und erzeuge eine Treffermenge, wobei die Treffermenge die Dokumente des Bestands angibt, die mindestens ein Keyword aufweisen, das mit mindestens einem der Keywords des neu einzuordnenden Dokuments N übereinstimmt (hierzu kann eine Suche über den inversen Index zunächst für nur ein Keyword des neu einzuordnenden Dokuments und im weiteren für jeweils ein weiteres Keyword des neu einzuordnenden Dokuments erfolgen);
(3) Bestimme zu jedem Paar, welches sich aus jedem Dokument der Treffermenge und jeweils dem neu einzuordnende Dokument N ergibt, den Ähnlichkeitswert;
(4) Bestimme zu dem neu einzuordnenden Dokument N aus den Ähnlichkeitswerten den Relevanzwert SRank;
(5) Füge das Dokument N in den Bestand, den Index und den inversen Index ein;
(6) Sofern sich aufgrund des Einzelvergleichs mit dem neu einzuordnenden Dokument N der SRank der Dokumente des Bestands geändert hat, aktualisiere die SRanks der Dokumente des Bestands.

Dabei wird darauf hingewiesen, dass bei der Bestimmung des Relevanzwerts SRank des neu einzuordnenden Dokuments N in Ausführungsvarianten vorgesehen sein kann, dass nur solche bei den Einzelvergleichen ermittelten Ähnlichkeitswerte addiert werden bzw. zur Bestimmung des Ähnlichkeitswerts beitragen, bei denen der Ähnlichkeitswerte zwischen dem neu einzuordnenden Dokument N und dem Dokument des Bestands einen festgelegten Schwellwert übersteigt, beispielsweise einen Schwellwert von 0,5. Es liegt dann somit eine Treffermenge vor, auf deren Grundlage der SRank bestimmt wird. Der genannte Schwellwert kann einen zusätzlichen Schwellwert darstellen, der zusätzlich zu dem Schwellwert Verwendung findet, mit dem bei der Ermittlung des Ähnlichkeitswerts die normierten Keyword-Relevanz-Werte gefiltert werden.
Das anhand von Ausführungsbeispielen erläuterte Verfahren ermöglicht in effektiver Weise die Verarbeitung und den Vergleich normalsprachlicher Texte, wobei auch paraphrasierte Texte auf Ähnlichkeit miteinander verglichen werden können. Eine Ähnlichkeitsbestimmung zwischen zwei Texten kann dabei auch in unterschiedlich langen Texten durchgeführt werden. Beispielsweise können kurze Suchphrasen mit umfangreichen Texten verglichen werden. Da viele Texte Namen und Fachbezeichnungen beinhalten, kann die beschriebene Bestimmung von Ähnlichkeitswerten und eines Relevanzwertes auch sprachübergreifend erfolgen. Alternativ wird ein fremdsprachiger Text mittels einer Computerübersetzung zunächst in die Sprache des Textes, zu dem eine Ähnlichkeit bestimmt werden soll, übersetzt.
Eine beispielhafte Anwendung des beschriebenen Verfahrens betrifft die Ermittlung von Plagiaten. Eine weitere beispielhafte Anwendung betrifft das Ranken von Zeitungsartikeln im Hinblick auf ihre Relevanz, wobei hiermit implizit auch ein Ranking der dahinter stehenden Autoren und Herausgeber erfolgt.
Es versteht sich, dass die Erfindung nicht auf die oben beschriebenen Ausführungsformen beschränkt ist und verschiedene Modifikationen und Verbesserungen vorgenommen werden können, ohne von den hier beschriebenen Konzepten abzuweichen. Weiter wird darauf hingewiesen, dass beliebige der beschriebenen Merkmale separat oder in Kombination mit beliebigen anderen Merkmalen eingesetzt werden können, sofern sie sich nicht gegenseitig ausschließen. Die Offenbarung dehnt sich auf alle Kombinationen und Unterkombinationen eines oder mehrerer Merkmale aus, die hier beschrieben werden und umfasst diese. Sofern Bereiche definiert sind, so umfassen diese sämtliche Werte innerhalb dieser Bereiche sowie sämtliche Teilbereiche, die in einen Bereich fallen.

Claims

Verfahren zur Bestimmung der Relevanz eines Textes, das die Schritte aufweist: - Bestimmung (201) der Ähnlichkeit des Textes (D1, D2) mit Texten (Di) eines Bestands, wobei der Text (D1, D2) mit jedem der Texte (Di) des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts (S), der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird, - Zuordnen (202) des Ähnlichkeitswerts (S) zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde, und - Berechnen eines Relevanzwerts (SRank) aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten (S), die dem Text (D1, D2) zugeordnet wurden.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Ähnlichkeitswert (S) eines Einzelvergleichs nur dem Text zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde.
Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass der Ähnlichkeitswert (S) eines Einzelvergleichs beiden Texten des jeweiligen Einzelvergleichs zugeordnet wird, wobei der Ähnlichkeitswert dem Text des Einzelvergleichs, der zu einem späteren Zeitpunkt veröffentlicht oder erfasst wurde, jedoch mit einer geringeren Gewichtung zugeordnet wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass, sofern die Ähnlichkeit des Textes mit einem Text des Bestands, die im Rahmen eines Einzelvergleichs bestimmt wird, einen Schwellwert übersteigt, der Ähnlichkeitswert (S) um einen Zusatzwert inkrementiert wird, wobei der um den Zusatzwert inkrementierte Ähnlichkeitswert zumindest demjenigen der beiden Texte des durchgeführten Einzelvergleichs zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht wurde.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Bestimmung der Ähnlichkeit des Textes (D1, D2) mit einem Text des Bestands folgende Schritte umfasst: - Ermitteln von Keywords des jeweiligen Textes, - Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem jeweils betrachteten Text angibt, - Ableiten eines Ähnlichkeitswerts (S) aus der Anzahl der in den beiden Texten übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword-Relevanz-Werte.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass als Keywords eines Textes dessen Namen und/oder Substantive ermittelt werden.
Verfahren nach Anspruch 6, dadurch gekennzeichnet, dass als Keywords eines Textes Wortstämme der Keywords betrachtet werden.
Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass als Keywords eines Textes n-Gramme oder charakterisierende Merkmale des jeweiligen Textes betrachtet werden.
Verfahren nach einem der Ansprüche 5 bis 8, dadurch gekennzeichnet, dass die Häufigkeit der Keywords in dem jeweiligen Text bestimmt wird, wobei jedem Keyword als Keyword-Relevanz-Wert ein Häufigkeitswert zugeordnet wird.
Verfahren nach einem der Ansprüche 5 bis 9, dadurch gekennzeichnet, dass als Keyword-Relevanz-Wert das tf-idf-Maß verwendet wird, wobei der Keyword-Relevanz-Wert gleich dem Produkt aus einem dem jeweiligen Keyword zugeordneten Häufigkeitswert mit der inversen Texthäufigkeit in den Texten des Bestandes ist.
Verfahren nach einem der Ansprüche 5 bis 10, dadurch gekennzeichnet, dass ein normiertes Profil des jeweiligen Textes gebildet wird, indem als Keyword-Relevanz-Werte normierte Keyword-Relevanz-Werte verwendet werden, die aus den Keyword-Relevanz-Werten durch Dividieren mit einem Normierungsfaktor erzeugt werden.
Verfahren nach Anspruch 11, dadurch gekennzeichnet, dass der Normierungsfaktor gleich dem in einem betrachteten Text maximal auftretenden Keyword-Relevanz-Wert ist.
Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten normierten Keyword-Relevanz-Werten abgeleitet wird, indem die Summe der Mittelwerte der normierten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird.
Verfahren nach Anspruch 11 oder 12, dadurch gekennzeichnet, dass aus dem normierten Profil des jeweiligen Textes ein gefiltertes Profil des jeweiligen Textes gebildet wird, indem als Keyword-Relevanz-Werte gefilterte Keyword-Relevanz-Werte verwendet werden, die aus den normierten Keyword-Relevanz-Werten gebildet werden, indem der normierte Keyword-Relevanz-Wert mit einem Schwellwert gefiltert wird, wobei der normierte Keyword-Relevanz-Wert nur beibehalten wird, wenn er über dem Schwellwert liegt und anderenfalls auf Null gesetzt wird.
Verfahren nach Anspruch 14, dadurch gekennzeichnet, dass ein Ähnlichkeitswert zu zwei Texten eines Einzelvergleichs aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten gefilterten Keyword-Relevanz-Werten abgeleitet wird, indem die Summe der Mittelwerte der gefilterten Keyword-Relevanz-Werte der übereinstimmenden Keywords bestimmt wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass die Texte des Bestands (D2, D6, D7) in einer Datenbank (S1) hinterlegt sind, wobei zu jedem Text hinterlegt sind: - der Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, - ein Profil (E4, A, B) des Textes (D2, D6, D7), das entstanden ist durch: ◯ Erfassen von Keywords des jeweiligen Textes (D2, D6, D7), ◯ Bestimmen jeweils eines Keyword-Relevanz-Wertes zu den ermittelten Keywords, der die Relevanz des Keywords in dem jeweils betrachteten Text angibt.
Verfahren nach Anspruch 16, dadurch gekennzeichnet, zur als Keyword-Relevanz-Werte normierte Keyword-Relevanz-Werte und/oder gefilterte Keyword-Relevanz-Werte in der Datenbank gespeichert sind.
Verfahren nach Anspruch 16 oder 17, dadurch gekennzeichnet, zur Bestimmung der Ähnlichkeit zweier Texte das Profil (A, B) abgerufen und ein Ähnlichkeitswert (S) aus der Anzahl der übereinstimmenden Keywords und der den jeweiligen Keywords zugeordneten Keyword-Relevanz-Werten gebildet wird.
Verfahren nach einem der Ansprüche 16 bis 18, dadurch gekennzeichnet, dass der Text, dessen Relevanz zu bestimmen ist, Teil des Bestands von Texten ist.
Verfahren nach einem der Ansprüche 16 bis 18, dadurch gekennzeichnet, dass der Text, dessen Relevanz zu bestimmen ist, nicht Teil des Bestands von Texten ist, wobei für diesen Fall ein Profil dieses Textes erzeugt und zusammen mit dem Zeitpunkt, zu dem der Text zuerst veröffentlicht wurde, in der Datenbank hinterlegt wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren auf sämtliche Texte des Bestands angewendet wird, wobei für jeden Text des Bestands ein Relevanzwert ermittelt wird.
Verfahren nach den Ansprüchen 16 und 21, dadurch gekennzeichnet, dass der Relevanzwert der Texte in der Datenbank zusätzlich gespeichert wird.
Verfahren nach einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Verfahren für eine Mehrzahl von Texten eines Dokuments konsekutiv durchgeführt wird, wobei aus den Relevanzwerten, die sich für die einzelnen Texte ergeben, ein Gesamt-Relevanzwert berechnet wird.
Computerprogramm mit Programmcode zur Durchführung der Verfahrensschritte nach Anspruch 1, wenn das Computerprogramm in einem Computer ausgeführt wird.
Verfahren zur Bestimmung der Relevanz eines Textes, das die Schritte aufweist: - Senden eines Textes (D1) oder von Daten, die den Text (D1) identifizieren, von einem Kommunikations-Endsystem (Ni, Nj) an ein Computersystem (Z1), das einen Bestand von Texten (Di) verwaltet, die in einer Datenbank (S1) des Computersystems (Z1) gespeichert sind, wobei in der Datenbank (S1) zu jedem Text der Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, und ein Profil (E4, A, B) hinterlegt sind, wobei das Profil (E4, A, B) auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden ist, - Veranlassen des Computersystems (Z1) zu prüfen, ob der erhaltene Text (D1) in dem Bestand enthalten ist, - sofern dies nicht der Fall ist, Anlegen durch das Computersystem (Z1) eines Profils (E4, A, B) des Textes sowie Speichern des Profils und des Zeitpunkts, zu dem der Text zuerst veröffentlicht oder erstmalig erfasst wurde, in der Datenbank (S1), - Veranlassen des Computersystems (Z1), die Ähnlichkeit des Textes mit Texten des Bestands zu bestimmen, wobei der Text mit jedem der Texte des Bestands im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts (S), der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird, - wobei zur Ermittlung des Ähnlichkeitswerts (S) zweier Texte das in der Datenbank gespeicherte Profil (E4, A, B) abgerufen und ein Ähnlichkeitswert (S) aus der Anzahl der übereinstimmenden Keywords und der diesen Keywords zugeordneten Keyword-Relevanz-Werten gebildet wird, - wobei der ermittelte Ähnlichkeitswert (S) zumindest demjenigen der beiden Texten des jeweils durchgeführten Einzelvergleichs zugeordnet wird, der zu einem früheren Zeitpunkt veröffentlicht oder erfasst wurde, - Berechnen eines Relevanzwerts (SRank) aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten (S), die dem Text (D1, D2) zugeordnet wurden, - Senden des ermittelten Relevanzwertes (SRank) vom Computersystem (Z1) an das oder ein anderes Kommunikations-Endsystem (Ni, Nj).
Computersystem (Z1) zur Bestimmung der Relevanz eines Textes, das aufweist: - Mittel zur Bestimmung der Ähnlichkeit des Textes (D1, D2) mit Texten (Di) eines Bestands, wobei der Text (D1, D2) mit jedem der Texte des Bestands (Di) im Rahmen eines Einzelvergleichs unter Ermittlung eines Ähnlichkeitswerts (S), der die Ähnlichkeit zwischen den jeweils zwei Texten angibt, verglichen wird, - Mittel zum Zuordnen des Ähnlichkeitswerts (S) zu zumindest demjenigen der beiden Texte des jeweils durchgeführten Einzelvergleichs, der zu einem früheren Zeitpunkt veröffentlicht oder der zu einem früheren Zeitpunkt erstmalig von einem Erfassungssystem erfasst wurde, und - Mittel zum Berechnen eines Relevanzwerts (SRank) aus den bei den Einzelvergleichen ermittelten Ähnlichkeitswerten (S), die dem Text (D1, D2) zugeordnet wurden.
Computersystem nach Anspruch 25, dadurch gekennzeichnet, dass - das Computersystem (Z1) mit einer Datenbank (S1) zusammenwirkt, die einen Bestand von Texten aufweist, zu denen jeweils ein Zeitpunkt, zu dem der Text zuerst veröffentlicht oder erstmalig von einem Erfassungssystem erfasst wurde, und ein Profil hinterlegt sind, wobei das Profil auf der Basis von Keywords des jeweiligen Textes und diesen zugeordneten Keyword-Relevanz-Werten erstellt worden ist, - wobei die Mittel zur Bestimmung der Ähnlichkeit des Textes mit Texten des Bestands die Ähnlichkeit auf der Grundlage der in der Datenbank (S1) hinterlegten Profile bestimmen.