DE10139220A1 - Method for forming record-data bank e.g. for Internet application, involves adding new data record of data bank when similarity threshold value is not exceeded in all comparisons - Google Patents

Method for forming record-data bank e.g. for Internet application, involves adding new data record of data bank when similarity threshold value is not exceeded in all comparisons

Info

Publication number
DE10139220A1
DE10139220A1 DE10139220A DE10139220A DE10139220A1 DE 10139220 A1 DE10139220 A1 DE 10139220A1 DE 10139220 A DE10139220 A DE 10139220A DE 10139220 A DE10139220 A DE 10139220A DE 10139220 A1 DE10139220 A1 DE 10139220A1
Authority
DE
Germany
Prior art keywords
data
record
database
records
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE10139220A
Other languages
German (de)
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SCHOENFELD RUDOLF
Original Assignee
SCHOENFELD RUDOLF
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SCHOENFELD RUDOLF filed Critical SCHOENFELD RUDOLF
Priority to DE10139220A priority Critical patent/DE10139220A1/en
Publication of DE10139220A1 publication Critical patent/DE10139220A1/en
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Abstract

A method for forming a record-data bank in which between an input new data record between the inputted new record and records which are already stored in the record data bank a degree of similarity is established according to similarity criteria, and the new record is then assigned to the compared record and the record data bank, when a given degree of similarity is exceeded. The new record of the record data bank is added when in all comparisons the similarity threshold value is not exceeded. Independent claims are given for the following: (A) A programmable data processor for forming a record data bank; (B) A device for manufacturing a record data bank.

Description

Die vorliegende Erfindung betrifft ein Verfahren, ein Programm und eine Vorrichtung zum Herstellen einer Datenbank. The present invention relates to a method, a program and a Device for producing a database.

Insbesondere für den Anwendungsbereich des Internet ist es bekannt, Datenbanken mit Datensätzen zusammenzustellen, in denen häufig gestellte Fragen (frequently asked questions - FAQ) gesammelt werden. Die Datensätze repräsentieren dann in einer gesprochenen Sprache nach deren grammatikalischen Regeln formulierte (Frage-)Sätze. Verbreiteter Anwendungsbereich im Internet von solchen Datenbanken war zunächst der Service von Programm- oder Webpage-Anbietern, die deren Benutzern durch Zugriff auf die Datenbank mit den häufig gestellten Fragen und den dort auch bereitgestellten Antworten die Möglichkeit geben, eine Antwort auf eine Frage des Benutzers schnell zu finden, ohne dass der Benutzer sich z. B. per Telefon um Hilfe bemühen müßte. Vorteilhaft sind derartige bekannte Datenbanken also sowohl für den Benutzer, dem sie schnelle Hilfe bereitstellen, als auch für den Betreiber, der nicht für jede Anfrage eines Klienten teures Personal bereitstellen muss. It is known in particular for the area of application of the Internet Compile databases of records that contain frequently asked questions (frequently asked questions - FAQ). The records then represent in a spoken language according to its grammatical rules formulated (question) sentences. Widely used on the Internet of such Databases were initially the service of program or web page providers, which their users by accessing the database with the frequently asked Questions and the answers provided there also give the opportunity to Find an answer to a user's question quickly without the user z. B. would have to seek help by phone. Such known ones are advantageous Databases for both the user to whom they provide quick help and also for the operator who does not have expensive personnel for every request from a client must provide.

Bekanntlich werden solche Datenbanken durch statistische Auswertung von Benutzer-Anfragen erzeugt, die z. B. telefonisch oder per E-Mail bei einer Hotline oder einem Call-Center eingehen, durch Marktforschung und Kundenservice erhoben werden oder über Online Dialog-Systeme in Kunden-Datenbanken gesammelt werden. It is known that such databases are created by statistical analysis of Generated user requests that e.g. B. by phone or email at a hotline or a call center through market research and customer service collected or collected in customer databases via online dialogue systems become.

Typische automatische Verfahren finden in Interactive Voice Response Systemen (IVR) und CRM Systemen (Customer Relationship Management) Anwendung. Diese Systeme arbeiten mit automatischer Spracherkennung, über Fax oder E-Mail und leiten Anfragen von Kunden und Anwendern weiter an die entsprechenden Stellen, um von dort beantwortet zu werden. Typical automatic procedures are found in interactive voice response systems (IVR) and CRM systems (Customer Relationship Management) application. This Systems work with automatic speech recognition, via fax or email and forward inquiries from customers and users to the appropriate offices, to be answered from there.

Der vorliegenden Erfindung liegt demgegenüber die Aufgabe zugrunde, die Herstellung einer Datenbank aus Datensätzen einfacher und kostengünstiger zu ermöglichen. The present invention is based on the object that Making a database from records easier and cheaper too enable.

Diese Aufgabe wird erfindungsgemäß durch ein Verfahren gemäß Anspruch 1, ein Programm gemäß Anspruch 15 sowie eine Vorrichtung gemäß Anspruch 18 gelöst. Vorteilhafte Ausgestaltungen der Erfindung sind in den Unteransprüchen angegeben. According to the invention, this object is achieved by a method according to claim 1 Program according to claim 15 and an apparatus according to claim 18 solved. Advantageous embodiments of the invention are in the subclaims specified.

Die Erfindung gestattet gegenüber dem beschriebenen Stand der Technik z. B., dass Anwender selbst ihre Fragen und Anliegen bewerten, vergleichen und konkretisieren bzw. zuordnen. Sie bezieht den Informationssuchenden derart ein, dass er sich selbst über ein Matching-Verfahren mit den Bedürfnissen und Fragen anderer Anwender und deren Wünschen in der Masse vergleichen und sich ggf. einordnen, Verbindungen herstellen und so nicht nur in Sekunden Antworten auf seinen Informationsbedarf erhalten, sondern einen sofortigen Überblick über den aktuellen Wissensstand in seiner Interessen-Gesellschaft bekommen kann. The invention allows z. B. that Users evaluate, compare and answer their questions and concerns themselves specify or assign. It involves the information seeker in such a way that he even through a matching process with the needs and questions of others Compare users and their wishes in terms of quantity and classify them if necessary, Establish connections and not only respond to his in seconds Receive information needs, but an immediate overview of the current one Can get knowledge in his interest society.

Bei dem erfindungsgemäßen Verfahren zum Herstellen einer Datenbank mit Datensätzen wird zunächst zwischen einem eingegebenen neuen Datensatz und Datensätzen, die bereits in der Datenbank gespeichert sind, jeweils ein Grad der Ähnlichkeit festgestellt. Dies wird gemäß Ähnlichkeitskriterien vorgenommen, die entsprechend bevorzugten Ausgestaltungen der Erfindung verschieden ausgeprägt sein können. Anschließend wird entweder, wenn bei dem Vergleich ein bestimmter Ähnlichkeitsgrenzwert überschritten wird, der neue Datensatz dem Datensatz der Datenbank, mit dem er gerade verglichen wird, zugeordnet - d. h. der neue Datensatz kann bei dem verglichenen Datensatz in der Datenbank abgespeichert werden oder er kann an anderer Stelle abgespeichert werden mit einem Marker bei dem verglichenen Datensatz in der Datenbank, dass sich der neue Datensatz an dieser anderen Stelle befindet, oder es wird auch nur ein Häufigkeitszeiler, der z. B. bei dem verglichenen Datensatz in der Datenbank abgespeichert ist, um eins erhöht. Oder der neue Datensatz wird der Datenbank hinzugefügt, wenn in allen Vergleichen - also vorzugsweise bei den Vergleichen mit allen Datensätzen der Datenbank - der Ähnlichkeitsgrenzwert nicht überschritten wird. Der Ähnlichkeitsgrenzwert ist vorzugsweise einstellbar. In the method according to the invention for producing a database with Records are first entered between a new record and Records that are already stored in the database are each a degree of Similarity found. This is done according to similarity criteria that in accordance with preferred embodiments of the invention could be. Then either if a certain Similarity limit is exceeded, the new record is the record of the Database with which it is currently being compared - d. H. the new The data record can be saved in the database for the compared data record or it can be saved elsewhere with a marker on the compared record in the database that the new record is on this elsewhere, or it is even a frequency line z. B. at the compared data record is stored in the database increased by one. Or the new record is added to the database if in all Compare - preferably when comparing all data records in the database - the similarity limit is not exceeded. The similarity limit is preferably adjustable.

So funktioniert das erfindungsgemäße Verfahren auch, wenn in der Datenbank noch kein Datensatz enthalten ist, denn letztere Bedingung wird in diesem Fall erfüllt - dass nämlich der Ähnlichkeitsgrenzwert nicht überschritten wird - und der neu eingegebene Datensatz wird dann der Datenbank hinzugefügt und bildet somit deren ersten Datensatz. Auf diese Weise baut sich durch im Folgenden weitere eingegebene neue Datensätze die Datenbank selbsttätig auf. Vorzugsweise repräsentiert jeweils ein Datensatz einen gemäß einer Sprache aus Worten zusammengesetzten Satz, und zwar besonders bevorzugt einen Fragesatz. Ein mögliches Ähnlichkeitskriterium ist dann die Anzahl der übereinstimmenden Worte, die bei dem Vergleich jeweils festgestellt wird. The method according to the invention also works when in the database No record is yet included, because the latter condition is used in this case fulfilled - that the similarity limit is not exceeded - and the newly entered data record is then added to the database and thus forms their first record. In this way, the following builds up entered new records the database automatically. Preferably each record represents one according to a language of words compound sentence, and particularly preferably a question sentence. A possible one The similarity criterion is then the number of matching words that are used for the comparison is determined in each case.

Wird ein neuer Datensatz direkt in die Datenbank aufgenommen, kann vorzugsweise ein Test aktiviert werden. Für diesen Test werden "unerwünschte" Wörter, Wortanfänge oder Wortendungen definiert, die in keinem neuen Datensatz enthalten sein sollen, und zwar nach folgendem Prinzip: Ein Asterisc * (Sternchen) dient als Platzhalter für etwaige Wortanfänge oder -endungen. Das Wort "Porno" z. B. verbannt zunächst das Wort als solches, "*porn*" verbannt Wörter wie "Kinderporn-o" oder "porn*" verbannt Worte wie "Porn-ographie". If a new data record is added directly to the database, preferably a test can be activated. For this test, "unwanted" words, Word beginnings or word endings defined in no new record should be included, according to the following principle: An asterisk * (asterisk) is used as a placeholder for any word beginnings or endings. The word "porn" e.g. B. first banish the word as such, "* porn *" banish words like "Kinderporn-o" or "porn *" banishes words like "Porn-ographie".

Vorzugsweise können solche Datensätze zusätzlich an anderer Stelle gespeichert werden, zum Beispiel zum Zwecke der Verbannung von bestimmten Einsendern, die diese Datensätze wieder und wieder einzugeben versuchen. Such data records can preferably also be stored elsewhere for example for the purpose of banishing certain senders, who try to enter these records again and again.

Ob neue Datensätze direkt in die Datenbank oder an anderer Stelle abgespeichert werden, ist vorzugsweise einstellbar. Denkbar ist z. B. auch die Abspeicherung an anderer Stelle, damit der Datensatz geprüft werden kann, bevor er in die Datenbank aufgenommen wird. Whether new data records are saved directly in the database or elsewhere are preferably adjustable. It is conceivable, for. B. also the storage elsewhere so the record can be checked before entering the database is recorded.

Vorzugsweise wird die Übereinstimmung der Wörter mittels des Levenshtein- Algorithmus festgestellt. Der Levenshtein-Algorithmus ermittelt, wieviele Buchstaben ausgetauscht, hinzugefügt und gelöscht werden müssen, um das gegebene Wort zu bilden. Die Levenshtein-Differenz ist definiert als die minimale Anzahl an Zeichen, die ersetzt, eingefügt und gelöscht werden müssen, um eine erste Wortzeichenkette in eine zweite Wortzeichenkette umzusetzen. Mittels des Levenshtein- Algorithmus lässt sich ein normalisierter Ähnlichkeitswert zwischen Null und Eins ermitteln, der die Wortähnlichkeit ausdrückt. The match of the words is preferably determined by means of the Levensh Algorithm detected. The Levenshtein algorithm determines how many Letters have to be exchanged, added and deleted to match the given one To form word. The Levenshtein difference is defined as the minimum number of Characters that need to be replaced, inserted and deleted in order to get a first Convert word string into a second word string. By means of the Levenshtein Algorithm can be a normalized similarity value between zero and one which expresses the similarity of words.

Vorzugsweise werden die Vergleiche nicht an den Datensätzen selbst - also vorzugsweise den Datensätzen, welche die in der Sprache formulierten (Frage-)Sätze repräsentieren - durchgeführt. Sondern jedem Datensatz wird jeweils ein Vergleichs-Datensatz zugeordnet, und dieser wird in einer weiteren Vergleichs-Datenbank gespeichert. Ein Referenz-Marker bei dem Frage-Datensatz in der Datenbank weist auf die Stelle in der Vergleichs-Datenbank hin, an der sich der Vergleichs- Datensatz zu der entsprechenden Frage befindet. The comparisons are preferably not made on the data records themselves - that is preferably the data sets that contain the (question) sentences formulated in the language represent - performed. But each record is one Comparison record assigned, and this is in another Comparison database saved. A reference marker on the question record in the database indicates the point in the comparison database where the comparison Record for the corresponding question is located.

Aus diesen Vergleichs-Datensätzen werden vergleichs-irrelevante Daten, wie Satzzeichen und/oder Wörter beseitigt. So erhält man einen für die Bestimmung des Grades der Ähnlichkeit bereinigten Datensatz. Werden Datensätzen in der Datenbank weitere Datensätze hinzugeordnet, beispielsweise ein Antwort-Datensatz einem Frage-Datensatz, dann werden auch diese Antwort-Datensätze von vergleichsirrelevanten Daten bereinigt und bei dem Vergleichs-Datensatz in der Vergleichs-Datenbank abgespeichert und dadurch zugeordnet. From these comparison data sets, comparison-irrelevant data, such as Punctuation marks and / or words removed. So you get one for determining the Degree of similarity adjusted record. Are records in the Additional data records are assigned to the database, for example an answer data record a question record, then these answer records are also from Comparative irrelevant data cleaned up and in the comparison data set in the Comparison database saved and thus assigned.

So entsteht parallel zur (Fragen-)Datenbank eine Vergleichs-Datenbank mit bereinigten "Frage und-Antwort Sets", auf die für eine schnelle Bestimmung des Grades der Ähnlichkeit mit einem neuen Datensatz zugegriffen werden kann. In this way, a comparison database is created in parallel to the (question) database adjusted "question and answer sets" on those for quick grade determination similarity to a new record can be accessed.

Um festzustellen, ob Wörter für den Vergleich irrelevant sind, kann für jedes Wort ein Relevanz-Kennwert z. B. in Form der Häufigkeit, mit der das Wort in der Datenbank vorkommt, ermittelt werden - besonders häufig vorkommende Wörter sind z. B. Füllwörter, Artikel und in aller Regel nicht sinn- oder aussageträchtige Wörter, die also für die Ähnlichkeit irrelevant sind. Der erfindungsgemäße Vergleich zwischen dem neu eingegebenen Datensatz und den Datensätzen der Datenbank wird dann an den jeweiligen Vergleichs-Datensätzen durchgeführt. To determine whether words are irrelevant for comparison, you can use each word a relevance characteristic z. B. in the form of the frequency with which the word in the Database occurs, are determined - particularly common words are z. B. filler words, articles and generally not meaningful or meaningful words, which are irrelevant to the similarity. The comparison according to the invention between the newly entered data record and the data records of the database then performed on the respective comparison data sets.

Der beschriebene Relevanz-Kennwert kann erfindungsgemäß auch als Ahnlichkeitskriterium bei dem erfindungsgemäßen Vergleich Verwendung finden. Dazu wird die prozentuale Häufigkeit der in der Datenbank vorkommenden Wörter bestimmt und in einer Statistik-Datenbank gespeichert. Auf diese wird in dem erfindungsgemäßen Verfahren beim Feststellen des Grades der Ähnlichkeit zwischen dem neu eingegebenen Datensatz und den Datensätzen der Datenbank zugegriffen, und bei dem Feststellen des Grades der Ähnlichkeit werden diejenigen Wörter stärker gewichtet, deren Häufigkeit geringer ist. According to the invention, the relevance parameter described can also be used as Similarity criteria are used in the comparison according to the invention. For this, the percentage frequency of words in the database and stored in a statistics database. This is in the invention Procedure for determining the degree of similarity between the new entered record and the records of the database accessed, and at the Ascertaining the degree of similarity, those words are weighted more heavily, whose frequency is lower.

Diese bevorzugten Ausgestaltungen des erfindungsgemäßen Verfahrens beim Bestimmen des Grades der Ähnlichkeit zwischen den Datensätzen dienen insbesondere dazu, die Ähnlichkeit von Datensätzen, welche gemäß einer gesprochenen Sprache formulierte Sätze repräsentieren, bezüglich ihrer Aussage oder ihres Inhaltes auf Ähnlichkeit zu überprüfen, um so auch dann eine Ähnlichkeit zwischen zwei Datensätzen festzustellen, wenn sie zwar bezüglich ihrer Struktur - z. B. bei Verwendung eines Relativsatzes anstelle von Attributen - unterschiedlich formuliert sind, ihre Aussage jedoch gleich ist. These preferred embodiments of the method according to the invention Determine the degree of similarity between the records in particular, the similarity of data records, which according to a spoken Represent phrases formulated in terms of their message or yours Check the content for similarity, so that a similarity between determine two data records, if they regarding their structure - e.g. B. at Use of a relative clause instead of attributes - formulated differently are, but their statement is the same.

Bei Anwendung des erfindungsgemäßen Verfahrens zum Herstellen einer Datenbank von häufig gestellten Fragen können den Datensätzen der Datenbank Antwortdaten zugeordnet und abgespeichert werden. Die Häufigkeit der "häufig gestellten Fragen" kann erfindungsgemäß dadurch festgestellt werden, dass der eingangs beschriebene Häufigkeitszähler, der bei jeder Zuordnung bei Überschreiten des Ähnlichkeitsgrenzwertes um eins erhöht wird, dahingehend ausgewertet wird, eine Liste derjenigen Datensätze - respektive Fragen - zu erzeugen, die die größte Häufigkeit in der Datenbank aufweisen. Diese Liste wird vorzugsweise auf einem Display z. B. mittels eines Browsers auf einem Personal-Computer eines Benutzers angezeigt. When using the method according to the invention for producing a Database of frequently asked questions can be the database records Response data can be assigned and saved. The frequency of "frequent asked questions "can be determined according to the invention in that the Frequency counter described at the beginning, which is exceeded for each assignment when exceeded of the similarity limit is increased by one, is evaluated, generate a list of those records - or questions - that are the largest Have frequency in the database. This list is preferably on one Display z. B. using a browser on a user's personal computer displayed.

Das erfindungsgemäße Feststellen des Grades der Ähnlichkeit kann interaktiv dadurch unterstützt werden, dass bei mehrfachem Überschreiten des Ähnlichkeitsgrenzwertes während des Vergleichs eines neu eingegebenen Datensatzes mit den Datensätzen der Datenbank diejenigen Datensätze, bei denen der Ähnlichkeitsgrenzwert überschritten wurde, in eine nach dem Grad der Ähnlichkeit geordnete Liste sortiert werden. Diese wird dann vorzugsweise auf einem Display angezeigt, so dass z. B. ein Benutzer die Möglichkeit hat, aus den in der Liste aufgeführten Datensätzen denjenigen Satz nach eigenem Ermessen selbst auszuwählen, der seines Erachtens dem Inhalt seines eingegebenen Datensatzes am nächsten kommt. Dabei können gegebenenfalls auch die Antwortdaten der Datensätze angezeigt und/oder zur Anzeige angeboten werden, damit z. B. der Benutzer sich, falls er an der Antwort interessiert ist, diese anzeigen lassen kann. The determination of the degree of similarity according to the invention can be interactive are supported by the fact that when the Similarity limit during the comparison of a newly entered data record with the Database records those records for which the Similarity limit was exceeded in an order based on the degree of similarity List are sorted. This is then preferably shown on a display, so that e.g. B. a user has the option from those listed in the list Select the record at your own discretion that in his opinion the closest to the content of the entered data record comes. If necessary, the response data of the data records can also be used are displayed and / or offered for display, so that, for. B. the user himself, if he is interested in the answer, he can display it.

Erfindungsgemäß ist auch ein Programm für einen programmierbaren Datenverarbeitungsprozessor zum Herstellen einer Datenbank von Datensätzen, welches das hier beschriebene Verfahren durchführt. Ein erfindungsgemäßes Programm zum Herstellen einer Datenbank hat eine Schnittstelle zum Eingeben von Datensätzen und eine Schnittstelle zu der Datenbank. Es greift auf Ähnlichkeitskriterien zum Vergleichen von Datensätzen zu und ermittelt gemäß den Ähnlichkeitskriterien zwischen einem eingegebenen Datensatz und Datensätzen der Datenbank jeweils einen Grad der Ähnlichkeit. Wie schon bei dem erfindungsgemäßen Verfahren ordnet das Programm den eingegebenen Datensatz entweder bei Überschreiten eines bestimmten Ähnlichkeitsgrenzwertes dem verglichenen Datensatz zu, oder wenn in allen Vergleichen der Ähnlichkeitsgrenzwert nicht überschritten wird, fügt das Programm den eingegebenen Datensatz als neuen Datensatz der Datenbank hinzu. According to the invention is also a program for a programmable Data processing processor for producing a database of data records, which the carries out the procedure described here. An inventive program for Creating a database has an interface for entering records and an interface to the database. It uses similarity criteria Compare records to and determine according to the similarity criteria between an entered data record and data records of the database in each case a degree of similarity. As with the method according to the invention the program assigns the entered data record either when exceeded a certain similarity limit to the compared data set, or if in all comparisons the similarity limit is not exceeded, adds the program enters the entered data record as a new data record in the database added.

Die eingangs beschriebenen bevorzugten Ausgestaltungen des erfindungsgemäßen Verfahrens sind erfindungsgemäß auch für das Programm bevorzugt. Auch ein Datenträger mit dem erfindungsgemäßen Programm ist erfindungsgemäß. The preferred embodiments of the invention described at the outset According to the invention, methods are also preferred for the program. Also a Data carrier with the program according to the invention is according to the invention.

Erfindungsgemäß ist des weiteren auch eine Vorrichtung zum Herstellen einer Datenbank von Datensätzen zur Durchführung des erfindungsgemäßen Verfahrens sowie eine solche Vorrichtung mit einem Speicher für mindestens eine Datenbank, mit einer Schnittstelle zum Eingeben von Datensätzen, mit einem programmierbaren Prozessor in unmittelbarer oder mittelbarer Datenleitungsverbindung mit dem Datenbank-Speicher und der Eingabe-Schnittstelle, der zum Verarbeiten der Datensätze dient, sowie mit dem erfindungsgemäßen Programm. According to the invention is also a device for producing a Database of data records for carrying out the method according to the invention and such a device with a memory for at least one database, with an interface for entering data records, with a programmable Processor in direct or indirect data line connection with the Database storage and the input interface used to process the Data records is used, as well as with the program according to the invention.

Die Eingabeschnittstelle der erfindungsgemäßen Vorrichtung kommuniziert zum Empfangen eines Datensatzes vorzugsweise mit einem Web-Browser, einem Email- Server, einem Funktelefonnetz-Server und/oder einem Short-Message-System- Server. The input interface of the device according to the invention communicates with Receiving a data record, preferably with a web browser, an email Server, a radio telephone network server and / or a short message system Server.

Die vorliegende Erfindung wird im folgenden mit Bezug auf die beigefügte Figur beschrieben. The present invention will hereinafter be described with reference to the accompanying figure described.

Fig. 1 zeigt ein Display eines Internet-Browsers auf einem PC als Ein- und Ausgabevorrichtung zur Anwendung des erfindungsgemäßen Verfahrens, Fig. 1 shows a display of an Internet browser on a PC as an input and output device for applying the method according to the invention,

Fig. 2 zeigt ein Display zur Programmierung des erfindungsgemäßen Verfahrens auf einem PC und Fig. 2 shows a display for programming the inventive method on a PC and

Fig. 3 zeigt einen Ablaufplan einer bevorzugten Ausgestaltung des erfindungsgemäßen Verfahrens. Fig. 3 shows a flow diagram of a preferred embodiment of the method according to the invention.

Die Fig. 1 zeigt die für einen Benutzer eines Internet-Browsers sichtbare Oberfläche eines Programmes zur Durchführung eines Verfahrens zum Herstellen einer Datenbank mit Datensätzen. Die Datensätze repräsentieren jeweils einen gemäß der deutschen Sprache formulierten Fragesatz 2. Auf dem Display 4 wird eine Liste 6 angezeigt, in der die Fragen 2 der Datenbank aufgelistet sind, die von Benutzern am häufigsten gefragt wurden. Dazu haben die Benutzer auf der dargestellten Oberfläche eine Eingabemöglichkeit 8 für einen neuen Datensatz in Form einer von dem Benutzer neu formulierten Frage 10. Fig. 1 shows the visible to a user of an Internet browser surface of a program for implementing a method for producing a database of records. The data sets each represent a question set 2 formulated according to the German language. A display 6 is shown on the display 4 , in which the questions 2 of the database which are asked most frequently by users are listed. For this purpose, the user has an input option 8 on the surface shown for a new data record in the form of a question 10 newly formulated by the user.

Sollte in der Liste 6 der am häufigsten gestellten Fragen bereits die Frage enthalten sein, die der Benutzer stellen möchte, dann kann er diese auswählen und deren Häufigkeitszähler erhöht sich um eins. Dadurch erhöht sich die Wahrscheinlichkeit, bald eine Antwort zu erhalten, denn die am häufigsten gestellten Fragen können dann wegen des großen Interesses der Benutzer vom Betreiber als nächste beantwortet werden. Sollte der Benutzer auf dem Display 4 bereits auch schon eine Antwort auf die interessierende Frage finden, ist das Ziel der vorliegenden Erfindung, möglichst einfach Antwort auf häufig gestellte Fragen zu liefern, schon erfüllt, und der Benutzer kann entweder die Webpage verlassen oder sich einer neuen Frage widmen. If list 6 of the most frequently asked questions already contains the question that the user wants to ask, then he can select it and its frequency counter increases by one. This increases the likelihood of receiving an answer soon, because the most frequently asked questions can then be answered next by the operator due to the great interest of the users. If the user already finds an answer to the question of interest on the display 4 , the aim of the present invention to provide the answer to frequently asked questions as simply as possible has already been achieved, and the user can either leave the web page or look for a new one Dedicate question.

Sollte der Anwender in der Liste 6 unter den am häufigsten gestellten Fragen seine Frage 10 nicht finden, kann er sie mittels der Eingabemöglichkeit 8 formulieren und eingeben. Diese Frage wird dann inhaltlich mit den in der Datenbank enthaltenen Fragen automatisch auf inhaltliche Ähnlichkeit untersucht. Wenn dieser Ähnlichkeitstest genau eine ähnliche Frage liefert, wird dem Benutzer diese angezeigt, und er kann sich entscheiden, ob er diese als seine Frage akzeptieren möchte. Akzeptiert er sie, wird der Häufigkeitszähler zu dieser Frage um eins erhöht - und somit die Wahrscheinlichkeit, möglichst bald eine Antwort auf diese Frage zu erhalten. Wenn der Benutzer aber der Ansicht ist, die ausgewählte Frage entspreche nicht der von ihm gestellten, dann wird er durch die Anzeige 9 aufgefordert, seine Frage 10 umzuformulieren, um sie deutlicher von der als ähnlich befundenen abzugrenzen. Oder er kann wahlweise seine Frage über einen Link einsenden, wenn er glaubt, die Frage nicht mehr anders formulieren zu können. Eine solche Einsendung einer Frage, die bereits einen gewissen Grad an Ähnlichkeit zu Datensätzen aus der Datenbank vorweist, jedoch nach dem Empfinden des Fragenden den Sinn seiner Frage nicht ausreichend wiedergibt, hilft dem Betreiber des interaktiven Systems, die Gewichtungsparameter der verschiedenen Tests optimal zu programmieren und so das System für die Bestimmung des Grades der Ähnlichkeit für einen gegebenen Themenbereich zu justieren. If the user does not find his question 10 in the list 6 among the most frequently asked questions, he can formulate and enter it using the input option 8 . The content of this question is then automatically checked for similarity with the questions contained in the database. If this similarity test provides exactly a similar question, the user is shown this question and can decide whether to accept it as his question. If he accepts it, the frequency counter for this question is increased by one - and thus the probability of getting an answer to this question as soon as possible. If, however, the user is of the opinion that the selected question does not correspond to the question asked by him, then the display 9 prompts him to reformulate his question 10 in order to distinguish it more clearly from the question found to be similar. Or he can choose to send in his question via a link if he believes he can no longer formulate the question differently. Such a submission of a question that already shows a certain degree of similarity to data records from the database, but does not adequately reflect the meaning of the question after the perception of the questioner, helps the operator of the interactive system to optimally program the weighting parameters of the various tests and so to adjust the system for determining the degree of similarity for a given subject area.

Sollte der Ähnlichkeitstest Übereinstimmung mit mehreren Fragen der Datenbank ergeben, werden alle diese in einer Liste angezeigt, und der Benutzer hat wiederum die Möglichkeit, diejenige Frage auszuwählen, die der von ihm gestellten Frage 10 entspricht, oder aber seine Frage 10 zur Abgrenzung wiederum neu zu formulieren. If the similarity test matches several questions in the database, all of them are displayed in a list, and the user has the option of selecting the question that corresponds to question 10 he has asked, or re-selecting question 10 for delimitation formulate.

Sollte der Ähnlichkeitstest keinerlei Übereinstimmung mit einer in der Datenbank gespeicherten Frage feststellen, so wird dem Benutzer angeboten zu bestätigen, dass seine Frage in die Datenbank aufgenommen wird - alternativ kann dies auch ohne weitere Bestätigungsfrage geschehen. Und der Häufigkeitszähler dieser Frage wird auf eins gesetzt, um bei späteren Ähnlichkeitstests mit neu eingegebenen Fragen von Benutzern bei Übereinstimmung weiter aufsummiert zu werden und dann schließlich in der Häufigkeit im Vergleich mit den anderen Fragen der Datenbank möglicherweise soweit oben zu liegen, dass die Frage zu den am häufigsten gestellten Fragen gehört, damit in die entsprechende Liste aufgenommen wird und schließlich von den Betreibern der Datenbank beantwortet wird. The similarity test should not match any in the database determine saved question, so the user is offered to confirm that his question is included in the database - alternatively, this can also be done done without further confirmation question. And the frequency counter of this question is set to one to be entered in later similarity tests with newly entered Questions from users in the event of a match being further summed up and then finally in frequency compared to the other questions of the Database may be as far up as that the most common question asked questions to be included in the corresponding list and is finally answered by the operators of the database.

Liegt auf eine Frage eine Antwort bereits vor, so ist es bevorzugt, diese dem Benutzer auf dem Display 4 zunächst nur anzubieten, weil durch die Auswahl des Benutzers, diese Antwort lesen zu wollen, ein Häufigkeitszähler, der der Antwort zugeordnet abgespeichert ist, ähnlich dem oben beschriebenen Häufigkeitszähler der Frage um eins erhöht werden kann, wenn der Benutzer die Antwort lesen möchte, und dem Betreiber dadurch eine Information über das Interesse der Benutzer an dieser Antwort zu geben. Außerdem lassen sich bevorzugt so auch die Fragen, auf welche Antworten bereits gegeben sind, in einer Liste auflisten sortiert nach der Häufigkeit, mit der die Antworten gelesen wurden. If there is already an answer to a question, it is preferred to initially only offer this to the user on the display 4 because, by the choice of the user to want to read this answer, a frequency counter, which is assigned to the answer, is stored, similar to that frequency counter of the question described above can be increased by one if the user wants to read the answer, thereby giving the operator information about the interest of the users in this answer. In addition, the questions to which answers have already been given can preferably be listed in a list, sorted by the frequency with which the answers were read.

Bei dem Vergleich der neu eingegebenen Frage 10 mit den Fragen der Datenbank läuft das Verfahren zum Bestimmen des Grades der Ähnlichkeit im Hintergrund folgendermaßen ab: die vom Benutzer gestellte Frage 10 wird in einzelne Wörter aufgeteilt, und dabei werden Interpunktion und Sonderzeichen sowie Wörter, die wahlweise in einer Liste "nicht relevanter Wörter" definiert wurden und über einen Test identifiziert werden, ignoriert. Diese Zeichen und Wörter werden dann für die Bestimmung des Grades der Ähnlichkeit nicht berücksichtigt, also maskiert. Den einzelnen Wörtern werden gemäß einer Statistik-Datenbank Relevanz-Faktoren zugeordnet, wobei der Relevanz-Faktor desto geringer ist, je häufiger das Wort in der Satz-Datenbank vorkommt; dieser Relevanz-Faktor ist für jedes Wort in der Statistik-Datenbank abgespeichert. Vorzugsweise ist ein Wert einstellbar, der bestimmt, ab welchem Relevanz-Faktor ein Wort aus der Datenbank automatisch maskiert und damit beim Bestimmen des Grades der Ähnlichkeit nicht berücksichtigt werden soll. Jedem Substantiv wird dabei wegen seiner grundsätzlich größeren inhaltlichen Bedeutung der Relevanz-Faktor um einen (vorzugsweise programmierbaren) Betrag erhöht. When comparing the newly entered question 10 with the questions in the database, the procedure for determining the degree of similarity in the background is as follows: the question 10 asked by the user is divided into individual words, with punctuation and special characters and words that are optional were defined in a list of "irrelevant words" and identified by a test. These characters and words are then not taken into account for the determination of the degree of similarity, ie masked. According to a statistics database, the individual words are assigned relevance factors, the relevance factor being lower the more frequently the word appears in the sentence database; this relevance factor is stored in the statistics database for each word. A value can preferably be set which determines the relevance factor from which a word from the database is automatically masked and is therefore not to be taken into account when determining the degree of similarity. Each noun is increased by a (preferably programmable) amount because of its fundamentally greater importance in terms of content.

Die als relevant behaltenen Wörter werden zu einem Vergleichs-Datensatz aneinandergereiht und mit Datensätzen der Datenbank verglichen - und zwar dort entweder mit den jeweiligen Vergleichs-Datensätzen aus der Vergleichs-Datenbank, die bei den Frage-Datensätzen abgespeichert wurden, oder über einen Marker auf diese verweisen, oder, wenn auf deren Abspeicherung zum Sparen von Speicherplatz verzichtet würde, direkt mit den Frage-Daten selbst, die dann zwar wieder die Kommata und Sonderzeichen sowie irrelevante Füllwörter enthalten, jedoch aufgrund der "Bereinigung" dessen neu gebildeten Vergleichs-Datensatzes von solchen Zeichen und Wörtern nur zu einer etwas verlängerten Vergleichs-Prozedur führen. The words kept as relevant become a comparison data set lined up and compared with data records in the database - there either with the respective comparison data records from the comparison database, that were saved in the question records, or via a marker refer to these, or, if saving them to save Storage space would be dispensed directly with the question data itself, which would then return the data Contain commas and special characters as well as irrelevant filler words, however due to the "cleanup" of its newly formed comparison data set from such Signs and words only lead to a somewhat extended comparison procedure.

Der Vergleich findet dabei in mehreren aufeinanderfolgenden Tests statt, die jeweils einen auf einen Wert zwischen Null und Eins normierten Grad der Ähnlichkeit ergeben. Aus diesen kann ein - z. B. abhängig von der Aussagekraft des Tests wiederum gewichteter - Mittelwert gebildet werden. Ob der Wert dabei auf einen Wert zwischen Null und Eins normiert wird oder auf andere Weise, ist unerheblich. Hier liegt der Wert vorzugsweise zwischen Null und Eins. The comparison takes place in several successive tests, the each have a degree of normalized to a value between zero and one Resemblance. From these a - e.g. B. depending on the significance of Tests again weighted - average are formed. Whether the value is up a value between zero and one is normalized or otherwise irrelevant. Here the value is preferably between zero and one.

Ein erster Test I (siehe dazu auch den Ablaufplan des beschriebenen Verfahrens gemäß Fig. 3) ist der oben beschriebene Vergleich der Wörter mittels des Levenshtein-Algorithmus, der wie beschrieben, die Wortähnlichkeit ausdrückt. A first test I (see also the flowchart of the described method according to FIG. 3) is the above-described comparison of the words by means of the Levenshtein algorithm, which, as described, expresses the similarity of the words.

Im zweiten Test II wird das Fragewort auf 100%ige Übereinstimmung geprüft, wobei Groß-/Kleinschreibung beachtet wird. In the second test II, the question word is checked for 100% agreement, being case sensitive.

Im dritten Test III wird Test II wiederholt, ohne die Groß-/Kleinschreibung zu beachten. In the third test III, test II is repeated without being case sensitive note.

Ein vierter Test IV vergleicht die Anzahl der in den vorzugsweie vollständigen Datensätzen enthaltenen Worte. A fourth test IV compares the number of those which are preferably complete Words contained records.

Ein fünfter Test V vergleicht die Anzahl der in den vorzugsweise vollständigen Datensätzen enthaltenen Zeichen. A fifth test V compares the number of tests that are preferably complete Characters contained in records.

Alle Tests können mit den vollständigen Fragesätzen durchgeführt werden oder mit den bereinigten aus der Vergleichs-Datenbank. Der vierte und fünfte Test testen vorzugsweise mit den vollständigen Datensätzen. All tests can be done with the full set of questions or with the adjusted from the comparison database. Test the fourth and fifth test preferably with the complete data sets.

Ein sechster Test VI vergleicht in den Datensätzen Worte und Wortgruppen, die in einer Liste als "sinngleich" bestimmt wurden - z. B. "gibt es" und "wird es geben", "bekomme ich" und "kriege ich", oder "Anschrift", "Wohnort" und "Adresse" - und setzt diese vom Sinngehalt gleich. Dieser Test funktioniert also wie ein individuell dem Themengebiet angepasstes Synonyme-Lexikon. A sixth test VI compares words and phrases in the data sets a list was determined to be "equivalent" - e.g. B. "there is" and "there will be", "I get" and "I get", or "address", "place of residence" and "address" - and equates this with the meaning. So this test works like an individual synonyms dictionary adapted to the subject area.

Ein siebter Test VII prüft den Grad der Ähnlichkeit eines neuen Datensatzes mit einer Gruppe von synonymen Datensätzen in einer separaten Datenbank und stellt den neuen Datensatz mit einem zentralen Datensatz gleich, welcher den Sinngehalt im Kern wiedergibt. Das bewirkt, dass viele verschiedene Fragen zu einem gemeinsamen Thema mit einer ähnlichen Frage gematcht werden, die das gesamte Thema abdeckt und beantwortet. Z. B.: "Kriege ich ein Labtop?", "Bekomme ich ein Firmenhandy?", "Kriege ich einen Firmenwagen gestellt?", "Wie sieht's aus mit einem personal organizer?" usw. sollen alle auf die zentrale Frage gematcht werden: "Welche besonderen Arbeitshilfsmittel, wie PDA's, Labtop, Firmenfahrzeug oder ähnliches werden mir geboten?". Nur diese zentrale Frage wird als Zusammenfassung zu den "Hintergrund-Matchings aus einem Themengebiet" am Front-End für den User sichtbar ausgegeben. A seventh test VII checks the degree of similarity of a new data set a group of synonymous records in a separate database and provides the new data record with a central data record, which has the meaning essentially reflects. This causes many different questions about one common topic can be matched with a similar question covering the entire topic covers and answers. For example: "Do I get a labtop?", "I get one Company cell phone? "," Can I get a company car? "," How about a personal organizer? "etc. should all be matched to the central question are: "What special work tools, such as PDAs, lab tops, company vehicles or something similar is offered to me? ". Only this central question is considered Summary of the "background matches from a topic" at the front end output visible to the user.

Für das Matching mit dem zentralen Antwortsatz ist vorzugsweise ein weiterer separater Grenzwert bestimmbar, ab dem eine Frage als ähnlich genug mit dem zentralen Antwortsatz gematcht wird. Another one is preferably used for matching with the central answer set separate limit can be determined, from which a question is similar enough to the central answer set is matched.

Ein achter Test VIII prüft den neuen Datensatz auf bestimmte Key-Wörter oder Wortkombinationen, die ein "Muss-Match" hervorrufen würden, selbst wenn die tatsächliche Ähnlichkeit unter dem Grenzwert liegt. An eighth test VIII checks the new data record for certain key words or Word combinations that would create a "must-match" even if the actual similarity is below the limit.

Ein neunter Test IX prüft, ob "böse" oder "unerwünschte" Wörter in einem neuen Datensatz enthalten sind, und blockiert Datensätze mit solchen Wörtern von der Fragen-Datenbank. A ninth Test IX checks for "bad" or "unwanted" words in a new one Record are included, and blocks records with such words from the Questions database.

Ein zehnter Test X hilft nochmals, über die "Maskierung nicht relevanter Wörter", den Datensatz zu bereinigen. Hierbei werden Wörter maskiert, die nicht so häufig in der Wort-Statistik vorkommen, aber im Kontext des Wissens- oder Themengebietes des interaktiven Systems keine Relevanz für die Bestimmung des Grades der Ähnlichkeit haben sollen. A tenth test X helps again about "masking irrelevant words", to clean up the record. Words are masked here that are not as common occur in word statistics, but in the context of knowledge or Subject area of the interactive system is not relevant for determining the degree of Should have similarity.

In Fig. 2 ist erkennbar, wie vom Betreiber nach seinen Wünschen die Ergebnisse der Vergleichs-Tests zum Bestimmen des Grades der Ähnlichkeit durch Beeinflussung der Ähnlichkeitskriterien in Form von Gewichtungsfaktoren beeinflusst werden können. FIG. 2 shows how the operator can influence the results of the comparison tests to determine the degree of similarity by influencing the similarity criteria in the form of weighting factors.

Wählbar ist zunächst die Verwendung der Statistik-Datenbank, um wie beschrieben, den Worten abhängig von ihrer inhaltlichen Relevanz eine Gewichtung zu geben (11), und es kann eingestellt werden, ob neue Datensätze direkt und automatisch in die Fragen-Datenbank aufgenommen werden (12). You can first select the use of the statistics database, as described, to give the words a weight depending on their relevance in terms of content ( 11 ), and you can set whether new data records are automatically and directly included in the question database ( 12 ).

Weiter lassen sich die aufeinander folgend durchgeführten Ähnlichkeitstests wie erwähnt gegeneinander gewichten (13 bis 16). Darüber hinaus können Synonyme und Synonym-Gruppen (18) definiert und aktiviert werden. Furthermore, the consecutive similarity tests can be weighted against each other as mentioned ( 13 to 16 ). In addition, synonyms and synonym groups ( 18 ) can be defined and activated.

Nicht relevante Wörter aus der Statistik-Datenbank lassen sich "maskieren", also in dem Vergleich außer acht lassen (19) - in diesem Fall würde, wie dargestellt, der Vergleich anhand des beschriebenen Vergleichs-Datensatzes der neu eingegebenen Frage 10 und nicht anhand der neu eingegebenen Frage 10 selbst durchgeführt werden. Words from the statistics database that are not relevant can be "masked", ie disregarded in the comparison ( 19 ) - in this case, as shown, the comparison would be based on the described comparison data record of the newly entered question 10 and not on the basis of the newly entered question 10 itself.

Ein Maskierungsfaktor lässt sich zudem einstellen, über den festgelegt wird, ab welchem Relevanz-Faktor ein Wort aus der Statistik-Datenbank maskiert werden soll. Des weiteren lassen sich zusätzliche Wörter in einer Liste benennen, die grundsätzlich in dem Vergleich außer acht gelassen werden sollen (20). A masking factor can also be set, which is used to determine the relevance factor from which a word in the statistics database should be masked. Furthermore, additional words can be named in a list, which should basically be disregarded in the comparison ( 20 ).

Ist die direkte Aufnahme neuer Datensätze in die Fragen-Datenbank aktiviert (12), macht es Sinn, eine Liste von unerwünschten Wörtern zu benennen (21), die blockiert werden sollen. Fragen oder Datensätze, die solche Wörter enthalten, werden dann nicht direkt in die Fragen-Datenbank aufgenommen, sondern vorzugsweise an anderer Stelle gespeichert. If the direct inclusion of new data records in the question database is activated ( 12 ), it makes sense to name a list of unwanted words ( 21 ) that should be blocked. Questions or data records that contain such words are then not included directly in the question database, but are preferably stored elsewhere.

Um bei einem Test als Ergebnis "100%ige Übereinstimmung" zu ergeben, lässt sich der untere Grenzwert der Wort-Varianz als Ergebnis des Levenshtein-Algorhythmus einstellen (22), über dem die Übereinstimmung eben als "100%ig" gelten soll. Dies kann z. B. dazu dienen, dem Benutzer die oben beschriebene Auswahl, welche der als ähnlich erkannten Fragen nach seiner Auffassung mit der von ihm gestellten neuen Frage 10 übereinstimmen soll, nicht mehr anzubieten, sondern ihm die "100%ig" übereinstimmende Frage als "seine" Frage anzuzeigen. In order to give "100% agreement" as the result of a test, the lower limit of the word variance can be set as the result of the Levenshtein algorithm ( 22 ), above which the agreement is supposed to count as "100% agreement". This can e.g. B. serve to no longer offer the user the selection described above, which of the questions recognized as similar should, in his opinion, match the new question 10 he asked, but the "100%" matching question as "his" Display question.

Auch lässt sich für Wörter, die sich bei Verwendung der Statistik-Datenbank in dieser noch nicht befinden (weil sie insgesamt in den Fragen, die in der Satz- Datenbank gespeichert sind, noch nicht vorkommen) ein Relevanz-Faktor einstellen (23), der solchen neuen Worten zugeordnet wird, bis z. B. eine bestimmte Anzahl von weiteren, später folgenden Eingaben neuer Fragen darauf hindeutet, dass dieses Wort nicht nur zufällig so selten in der Datenbank existiert, sondern seine Seltenheit wirklich auf seine inhaltlich hohe Relevanz hindeutet und somit der beschriebene Algorithmus diesem Wort eine seiner geringen Häufigkeit entsprechende hohe Zahl des Relevanz-Kennwertes beimessen soll. You can also set a relevance factor ( 23 ) for words that are not yet in the statistics database when using them (because they do not yet appear overall in the questions stored in the sentence database) is assigned to such new words until e.g. B. a certain number of further, subsequent entries of new questions indicate that this word not only happens to be so rare in the database, but that its rarity really indicates its high relevance in terms of content, and thus the algorithm described this word its low frequency should attach a correspondingly high number of relevance parameters.

Auch lässt sich die Relevanz einer bereits vorliegenden Antwort auf eine Frage in der Fragen-Datenbank, respektive in der Vergleichs-Datenbank, mit den "bereinigten Frage-Antwort-Sets" gegenüber einer neuen Frage durch einen Gewichtungsfaktor (24) einstellen. The relevance of an already available answer to a question in the question database, or in the comparison database, can be adjusted with the "cleaned question-answer sets" compared to a new question by means of a weighting factor ( 24 ).

Vorzugsweise hat jede Frage oder jeder Datensatz in der Datenbank auch möglichst frühzeitig eine Antwort. Eine neu eingegebene Frage enthält oftmals Wörter, die in einer bereits gespeicherten Frage aus der Datenbank nicht vorkommen, aber in deren Antwort. Daher ist es auch sinnvoll, Wörter in den Antworten zu verwenden, die als Synonyme zu den Wörtern in der dazugehörigen Frage gelten. Preferably, every question or record in the database also has if possible an answer early. A newly entered question often contains words that begin with an already saved question from the database does not occur, but in their answer. So it makes sense to use words in the answers, which are considered synonyms for the words in the related question.

Schließlich lässt sich der Ähnlichkeits-Grenzwert (25) definieren, über dem das Ergebnis der Tests auf Übereinstimmung der verglichenen Datensätze hinweisen soll. Finally, the similarity limit ( 25 ) can be defined, above which the result of the tests should indicate the agreement of the compared data sets.

Zu Werbezwecken oder bei besonderen Themenbereichen lässt sich noch eine Liste von "must-matches" definieren (26). Sollten Wörter in einer neuen Frage auftauchen, die ebenfalls in dieser Liste vorkommen, so wird auf jeden Fall ein positives Match zu diesem Wort aus der "must-matches" Liste ausgegeben und dazugehörige Informationen angezeigt, ungeachtet des Grenzwertes (25). A list of "must-matches" can be defined for advertising purposes or for special subject areas ( 26 ). If words appear in a new question that also appear in this list, a positive match to this word from the "must-matches" list is output in any case and associated information is displayed, regardless of the limit ( 25 ).

In Kürze zusammengefasst wird das erfindungsgemäße Verfahren folglich vorzugsweise in folgenden Schritten ausgeführt. Erstens wird die Statistik-Datenbank generiert, in der alle Worte verzeichnet sind, die in den in der Satz-Datenbank verzeichneten Datensätzen vorkommen, und jedem Wort wird ein Relevanz-Kennwert wie beschrieben zugeordnet. Zweitens werden die beschriebenen Ähnlichkeitstests zwischen einer neu eingegebenen Frage und den Fragen, die in den Datensätzen der Satzdatenbank oder in den Datensätzen der Vergleichs-Datenbank gespeichert sind, durchgeführt. Drittens werden die Testergebnisse, wie zur Fig. 2 beschrieben, gewichtet, und viertens wird daraus das Testergebnis (zwischen Null und Eins) des Vergleichs gebildet. Schritt 2 bis 4 werden als Vergleich zwischen der neu eingegebenen Frage und den Datensätzen der Datenbank mit jedem einzelnen Datensatz der Datenbanken wiederholt. Und fünftens werden die besten Übereinstimmungen in der beschriebenen Liste ausgegeben. In brief, the method according to the invention is therefore preferably carried out in the following steps. First, the statistics database is generated, in which all the words are listed that occur in the data records recorded in the sentence database, and each word is assigned a relevance characteristic as described. Second, the described similarity tests are carried out between a newly entered question and the questions that are stored in the data records of the sentence database or in the data records of the comparison database. Thirdly, the test results are weighted as described for FIG. 2, and fourthly the test result (between zero and one) of the comparison is formed therefrom. Steps 2 through 4 are repeated as a comparison between the newly entered question and the data records of the database with each individual data record of the databases. And fifth, the best matches are given in the list described.

Das beschriebene Verfahren funktioniert in jeder (gesprochenen) Sprache. Abhängig von dem Idiom werden die Ergebnisse der Übereinstimmungstests unterschiedlich ausfallen - z. B. abhängig von deren Sprachregeln wie Groß- und Kleinschreibung oder auch abhängig von der durchschnittlichen Länge von Sätzen in dem Idiom. So werden in lateinischer Sprache Sätze mit gleichem Wortsinn um etwa ein Drittel kürzer als in der deutschen Sprache. Dies lässt sich durch Einstellung gemäß der Beschreibung zu Fig. 2 berücksichtigen. The described procedure works in every (spoken) language. Depending on the idiom, the results of the compliance tests will be different - e.g. B. depending on their language rules such as upper and lower case or depending on the average length of sentences in the idiom. In Latin, sentences with the same sense of the word are about a third shorter than in the German language. This can be taken into account by setting according to the description of FIG. 2.

Das beschriebene Verfahren ist in einem Ablaufplan gemäß Fig. 3 dargestellt. The described method is shown in a flow chart according to FIG. 3.

Claims (21)

1. Verfahren zum Herstellen einer Satz-Datenbank mit Datensätzen, dadurch gekennzeichnet, dass a) zwischen einem eingegebenen, neuen Datensatz und Datensätzen, die bereits in der Satz-Datenbank gespeichert sind, gemäß Ähnlichkeitskriterien jeweils ein Grad der Ähnlichkeit festgestellt wird, b) der neue Datensatz dem verglichenen Datensatz der Satz-Datenbank bei Überschreiten eines bestimmten Ähnlichkeitsgrenzwertes zugeordnet wird und c) der neue Datensatz der Satz-Datenbank hinzugefügt wird, wenn in allen Vergleichen der Ähnlichkeitsgrenzwert nicht überschritten wird. 1. Method for producing a set database with data records, characterized in that a) a degree of similarity is determined in each case according to similarity criteria between an entered new data record and data records that are already stored in the record database, b) the new data record is assigned to the compared data record of the record database when a certain similarity limit value is exceeded and c) the new data record is added to the record database if the comparability limit value is not exceeded in all comparisons. 2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass
jeweils ein Datensatz einen gemäß einer Sprache aus Worten zusammengesetzten Satz repräsentiert und dass
in Schritt a) der Grad der Ähnlichkeit durch Vergleich der Anzahl der übereinstimmenden Worte festgestellt wird.
2. The method according to claim 1, characterized in that
in each case a data record represents a sentence composed of words according to a language and that
in step a) the degree of similarity is determined by comparing the number of matching words.
3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass
den Datensätzen jeweils ein Vergleichs-Datensatz zugeordnet und gespeichert wird, aus dem Satzzeichen und/oder Wörter mit über einem bestimmten Relevanz-Grenzwert liegenden Häufigkeit zur Beseitigung von Vergleichsirrelevanten Daten gelöscht werden und dass
der Vergleich an den Vergleichs-Datensätzen durchgeführt wird.
3. The method according to claim 2, characterized in that
A comparison data record is assigned to each of the data records and stored, from which punctuation marks and / or words with a frequency above a certain relevance limit value are deleted in order to eliminate irrelevant data, and that
the comparison is carried out on the comparison data sets.
4. Verfahren nach einem der Ansprüche 2 oder 3, dadurch gekennzeichnet, dass die Übereinstimmung der Wörter mittels des Levenshtein-Algorithmus festgestellt wird. 4. The method according to any one of claims 2 or 3, characterized in that the match of the words by means of the Levenshtein algorithm is determined. 5. Verfahren nach einem der Ansprüche 2 bis 4, dadurch gekennzeichnet, dass
die prozentuale Häufigkeit der in der Satz-Datenbank vorkommenden Wörter bestimmt und in einer Statistik-Datenbank gespeichert wird, auf die in Schritt a) zugegriffen wird, und dass
bei dem Feststellen des Grades der Ähnlichkeit diejenigen Wörter stärker gewichtet werden, deren Häufigkeit geringer ist.
5. The method according to any one of claims 2 to 4, characterized in that
the percentage frequency of the words occurring in the sentence database is determined and stored in a statistics database which is accessed in step a), and that
when determining the degree of similarity, those words with a lower frequency are weighted more heavily.
6. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass jeweils ein Datensatz einen gemäß einer Sprache formulierten Fragesatz repräsentiert. 6. The method according to claim 1, characterized in that one data record each is a question sentence formulated according to a language represents. 7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Datensätzen der Satz-Datenbank Antwortdaten zugeordnet und abgespeichert werden. 7. The method according to any one of the preceding claims, characterized in that records of the record database response data assigned and saved. 8. Verfahren, nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass bei mehrfachem Überschreiten des Ähnlichkeitsgrenzwertes die Datensätze der Satz-Datenbank, bei denen der Ähnlichkeitsgrenzwert überschritten wurde, in eine nach dem Grad der Ähnlichkeit geordnete Liste sortiert werden. 8. The method according to any one of the preceding claims, characterized in that when the Similarity limit the records in the records database where the Similarity limit was exceeded in a list ordered by the degree of similarity be sorted. 9. Verfahren nach Anspruch 8, dadurch gekennzeichnet, dass die Liste auf einem Display angezeigt wird. 9. The method according to claim 8, characterized in that the list is shown on a display. 10. Verfahren nach Anspruch 7 und 9, dadurch gekennzeichnet, dass auch die Antwortdaten der Datensätze der Liste angezeigt und/oder zur Anzeige angeboten werden. 10. The method according to claim 7 and 9, characterized in that the response data of the records in the list displayed and / or offered for display. 11. Verfahren nach einem der Ansprüche 8 bis 10, dadurch gekennzeichnet, dass einem Benutzer die Möglichkeit gegeben wird, aus der Liste den Datensatz auszuwählen, der seinem eingegebenen Datensatz am ähnlichsten ist. 11. The method according to any one of claims 8 to 10, characterized in that a user is given the option of select the data record from the list that corresponds to the data record you entered most similar is. 12. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass in Schritt b) die Zuordnung ein Heraufsetzen eines Häufigkeitszählers des verglichenen Datensatzes bewirkt, der mit dem verglichenen Datensatz in der Satz-Datenbank gespeichert wird. 12. The method according to any one of the preceding claims, characterized in that in step b) the assignment is a step up Frequency counter of the compared data set causes that with the compared Record is stored in the records database. 13. Verfahren, nach Anspruch 12, dadurch gekennzeichnet, dass die Datensätze der Satz-Datenbank mit der größten Häufigkeit in eine nach der Häufigkeit geordnete Liste sortiert werden. 13. The method according to claim 12, characterized in that the records of the record database with the largest Frequency in a list sorted by frequency. 14. Verfahren nach Anspruch 13, dadurch gekennzeichnet, dass die Liste auf einem Display angezeigt wird. 14. The method according to claim 13, characterized in that the list is shown on a display. 15. Programm für einen programmierbaren Datenverarbeitungsprozessor zum Herstellen einer Satz-Datenbank von Datensätzen mit
einer Schnittstelle zum Eingeben von Datensätzen,
einer Schnittstelle zu einer Satz-Datenbank, dadurch gekennzeichnet, dass
das Programm auf Ähnlichkeitskriterien zum Vergleichen von Datensätzen zugreift,
gemäß den Ähnlichkeitskriterien mittels des Programms zwischen dem eingegebenen Datensatz und den Datensätzen der Satz-Datenbank jeweils einen Grad der Ähnlichkeit feststellt,
den eingegebenen Datensatz dem verglichenen Datensatz der Satz-Datenbank bei Überschreiten eines bestimmten Ähnlichkeitsgrenzwertes zuordnet und
den eingegebenen Datensatz der Satz-Datenbank hinzufügt, wenn in allen Vergleichen der Ähnlichkeitsgrenzwert nicht überschritten wird.
15. Program for a programmable data processing processor for producing a set database of data sets with
an interface for entering data records,
an interface to a sentence database, characterized in that
the program accesses similarity criteria for comparing data records,
determines a degree of similarity between the entered data record and the data records of the record database in accordance with the similarity criteria by means of the program,
assigns the entered data record to the compared data record of the record database when a certain similarity limit value is exceeded and
adds the entered data record to the records database if the comparability limit is not exceeded in all comparisons.
16. Programm für einen programmierbaren Datenverarbeitungsprozessor zum Herstellen einer Satz-Datenbank von Datensätzen zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 15. 16. Program for a programmable data processing processor for Establishing a set database of data sets for performing the method according to one of claims 1 to 15. 17. Datenträger mit dem Programm nach Anspruch 15 oder 16. 17. Data carrier with the program according to claim 15 or 16. 18. Vorrichtung zum Herstellen einer Satz-Datenbank von Datensätzen mit
einem Speicher für die Satz-Datenbank,
einer Schnittstelle zum Eingeben von Datensätzen,
einem programmierbaren Prozessor in unmittelbarer oder mittelbarer Datenleitungsverbindung mit dem Speicher und der Schnittstelle zum Verarbeiten der Datensätze,
und einem Programm des Prozessors,
dadurch gekennzeichnet, dass
das Programm auf Ähnlichkeitskriterien zum Vergleichen von Datensätzen zugreift,
der Prozessor gemäß den Ähnlichkeitskriterien mittels des Programms zwischen dem eingegebenen Datensatz und den Datensätzen der Satz-Datenbank jeweils einen Grad der Ähnlichkeit feststellt,
den eingegebenen Datensatz dem verglichenen Datensatz der Satz-Datenbank bei Überschreiten eines bestimmten Ähnlichkeitsgrenzwertes zuordnet und
den eingegebenen Datensatz der Satz-Datenbank hinzufügt, wenn in allen Vergleichen der Ähnlichkeitsgrenzwert nicht überschritten wird.
18. Device for producing a set database with data sets
a memory for the sentence database,
an interface for entering data records,
a programmable processor in direct or indirect data line connection with the memory and the interface for processing the data records,
and a program of the processor,
characterized in that
the program accesses similarity criteria for comparing data records,
the processor determines a degree of similarity between the entered data record and the data records of the record database in accordance with the similarity criteria by means of the program,
assigns the entered data record to the compared data record of the record database when a certain similarity limit value is exceeded and
adds the entered data record to the records database if the comparability limit is not exceeded in all comparisons.
19. Vorrichtung zur Durchführung des Verfahren nach einem der Ansprüche 1 bis 15. 19. Device for performing the method according to one of claims 1 to 15. 20. Vorrichtung zum Herstellen einer Satz-Datenbank von Datensätzen mit
einem Speicher für die Satz-Datenbank,
einer Schnittstelle zum Eingeben von Datensätzen,
einem programmierbaren Prozessor in unmittelbarer oder mittelbarer Datenleitungsverbindung mit dem Speicher und der Schnittstelle zum Verarbeiten der Datensätze,
und einem Programm nach einem der Ansprüche 15 bis 17 für den Prozessor.
20. Device for producing a set database with data sets
a memory for the sentence database,
an interface for entering data records,
a programmable processor in direct or indirect data line connection with the memory and the interface for processing the data records,
and a program according to any one of claims 15 to 17 for the processor.
21. Vorrichtung nach einem der Ansprüche 19 bis 21, dadurch gekennzeichnet, dass die Eingabeschnittstelle zum Empfangen eines Datensatzes mit einem Web-Browser, einem E-Mail-Server, einem Funktelefonnetz- Server und/oder einem Short-Message-System-Server kommuniziert. 21. Device according to one of claims 19 to 21, characterized in that the input interface for receiving a Data record with a web browser, an e-mail server, a radio telephone network Server and / or a short message system server communicates.
DE10139220A 2001-08-09 2001-08-09 Method for forming record-data bank e.g. for Internet application, involves adding new data record of data bank when similarity threshold value is not exceeded in all comparisons Ceased DE10139220A1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE10139220A DE10139220A1 (en) 2001-08-09 2001-08-09 Method for forming record-data bank e.g. for Internet application, involves adding new data record of data bank when similarity threshold value is not exceeded in all comparisons

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE10139220A DE10139220A1 (en) 2001-08-09 2001-08-09 Method for forming record-data bank e.g. for Internet application, involves adding new data record of data bank when similarity threshold value is not exceeded in all comparisons

Publications (1)

Publication Number Publication Date
DE10139220A1 true DE10139220A1 (en) 2003-02-27

Family

ID=7694957

Family Applications (1)

Application Number Title Priority Date Filing Date
DE10139220A Ceased DE10139220A1 (en) 2001-08-09 2001-08-09 Method for forming record-data bank e.g. for Internet application, involves adding new data record of data bank when similarity threshold value is not exceeded in all comparisons

Country Status (1)

Country Link
DE (1) DE10139220A1 (en)

Similar Documents

Publication Publication Date Title
EP1113420B1 (en) Method of speech recognition and of control of a speech synthesis unit or communication system
DE69433165T2 (en) ASSOCIATIVE TEXT SEARCH AND REINFORCEMENT SYSTEM
DE69818161T2 (en) Automated grouping of meaningful sentences
DE69731142T2 (en) System for retrieving documents
DE69933187T2 (en) Document Search and Service
DE102012224488A1 (en) System, method and program for extracting a non-topic part from a conversation
EP3652664A1 (en) Method for conducting dialog between human and computer
EP0702353B1 (en) System and method for outputting synthetic speech in response to input speech signals
DE10131193A1 (en) Age-oriented natural language document search based on histories according to sessions for answering a user's questions in a computer system hits keywords in a selection while performing an evaluation.
EP1926081A1 (en) Method for dialogue adaptation and dialogue system for this purpose
DE19922974A1 (en) Method and device for processing a document
DE10100725C1 (en) Automatic dialogue system for speech interrogation of databank entries uses speech recognition system assisted by speech model obtained before beginning of dialogue
DE102013101871A1 (en) Word-based speech analysis and speech analysis facility
DE10028624A1 (en) Method and device for obtaining documents
DE69909360T2 (en) Process and system for retrieving documents via an electronic file
DE19849855C1 (en) Method for using a computer system to generate a text expression automatically while retaining meaning determines a statistical model on a number of preset pairs of word meanings and associated expressions.
DE10060654C1 (en) Method and device for the automatic issuing of information by means of a search engine
EP1016077B1 (en) Method for determining the probability of the occurrence of a sequence of at least two words in a speech recognition process
DE10139220A1 (en) Method for forming record-data bank e.g. for Internet application, involves adding new data record of data bank when similarity threshold value is not exceeded in all comparisons
EP1783631A1 (en) Search result ranking by means of relevance feedback
DE10210553B4 (en) Method for automatically classifying text by a computer system
DE102022126561A1 (en) Database system for recording competencies existing within an organization
DE60119686T2 (en) System and method for computer-based searching for relevant texts
EP1242917B1 (en) Method for expanding a database that consists of data pairs of recognition and related response
DE102018104438A1 (en) Computer-implemented method for obtaining information

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection