DE10160920B4 - Method and device for producing an extract of documents - Google Patents
Method and device for producing an extract of documents Download PDFInfo
- Publication number
- DE10160920B4 DE10160920B4 DE10160920A DE10160920A DE10160920B4 DE 10160920 B4 DE10160920 B4 DE 10160920B4 DE 10160920 A DE10160920 A DE 10160920A DE 10160920 A DE10160920 A DE 10160920A DE 10160920 B4 DE10160920 B4 DE 10160920B4
- Authority
- DE
- Germany
- Prior art keywords
- document
- documents
- user
- extract
- collection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Verfahren
zur automatischen Erzeugung eines Extrakts für ein Dokument, wobei
– das Dokument
Bestandteil einer für
ein Informationsbeschaffungssystem elektronisch verfügbaren Dokumenten-Kollektion
ist,
– ein
Benutzer mit dem Informationsbeschaffungssystem interagiert, wobei
– das Informationsbeschaffungssystem
dem Benutzer bestimmte Dokumente aus der Kollektion anbietet und
– der Benutzer
unter den angebotenen Dokumenten bestimmte auswählt, um sie sich anzeigen zu
lassen,
– das
Informationsbeschaffungssystem als zeitliche Reihenfolge protokolliert,
welche Dokumente der Benutzer in welcher Reihenfolge ausgewählt hat,
– der Benutzer
das Dokument vorgibt, für
das das Extrakt erzeugt werden soll,
– dann, wenn jeweils zwei gemäß der protokollierten
zeitlichen Reihenfolge nacheinander ausgewählte Dokumente ein hohes Maß für die Ähnlichkeit
haben, das zeitlich frühere
Dokument als relevant bewertet wird,
– Dokumentteile der ausgewählten Dokumente
identifiziert werden,
– Bewertungen
der identifizierten Dokumentteile berechnet werden,
– wobei
die Bewertung mindestens eines Dokumentteils als Funktion eines
Maßes...A method for automatically generating an extract for a document, wherein
- the document is part of a document collection electronically available for an information procurement system,
A user interacts with the information gathering system, wherein
- the information procurement system offers the user certain documents from the collection and
The user selects certain of the offered documents to display them,
The information acquisition system logs in chronological order which documents the user has selected in which order,
- the user specifies the document for which the extract is to be generated,
If, in each case, two documents selected consecutively according to the chronological order in chronological order have a high degree of similarity, the earlier document is rated as relevant,
- document parts of the selected documents are identified,
- evaluations of the identified document parts are calculated,
- whereby the evaluation of at least one part of the document as a function of a measure ...
Description
Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur automatischen Erzeugung eines Extrakts für mindestens ein Dokument. Dieses Dokument ist Bestandteil einer Kollektion elektronischer Dokumente, die für ein Informationsbeschaffungssystem verfügbar sind.The The invention relates to a method and a device for automatic Generation of an extract for at least one document. This document is part of a collection electronic documents for an information procurement system is available.
„Dokument" ist im folgenden ein Oberbegriff für Texte, Graphiken mit Texten, Tabellen, Datensammlungen und ähnliches. Die Dokumente sind textlich in elektronischer Form gegeben. Ein Dokument der Kollektion ist beispielsweise von einem Textverarbeitungssystem oder einem Datenbanksystem oder durch Erfassen aller Bildpunkte eines papiergebundenen Dokuments erzeugt. Ein Dokument der Kollektion kann auch als Satz von HTML- oder XML-Seiten im Internet oder einem Intranet vorliegen. Der Begriff „Extrakt" wird im folgenden als Oberbegriff für eine Liste von Schlagworten oder für eine Zusammenfassung verwendet, die das Dokument oder die Dokumente beschreiben."Document" is below a generic term for Texts, graphics with texts, tables, data collections and the like. The documents are given in textual form in electronic form. One For example, the document in the collection is from a word processing system or a database system or by capturing all pixels a paper-based document. A document of the collection can also be used as a set of html or xml pages on the internet or a Intranet available. The term "extract" is used below as a generic term for a list of keywords or for a summary that uses the document or documents describe.
Ein Extrakt beschreibt das Dokument und hilft beispielsweise einem Benutzer zu entscheiden, ob das Dokument für ihn relevant ist oder nicht, wenn der Benutzer in einem Unternehmens-Intranet mit einer Dokumenten-Kollektion nach Informationen sucht und nicht die Zeit hat, jedes Dokument selber zu lesen. Ein Extrakt unterstützt z. B. eine Volltextsuche im Internet mit bekannten Suchmaschinen, die oft sehr viele Dokumente liefern. Ein Grund hierfür ist, daß der gleiche Begriff in verschiedenen Bedeutungen sowohl in relevanten als auch in nicht relevanten Dokumenten auftritt. Andererseits liefert eine einzige Suche mit einer bekannten Suchmaschine oft deshalb unbefriedigende Ergebnisse, weil für denselben Sachverhalt in verschiedenen Dokumenten unterschiedliche Begriffe verwendet werden, z. B. konjugierte Wortformen, Synonyme und Abkürzungen. Deshalb muß der Benutzer mehrere Suchen durchführen lassen.One Extract describes the document and helps a user, for example to decide whether the document is relevant to him or not, if the user is on a corporate intranet with a document collection looking for information and not having the time, every document itself to read. An extract supported z. B. a full-text search on the Internet with known search engines, which often deliver a lot of documents. One reason for this is that the same Term in different meanings both in relevant as well occurs in non-relevant documents. On the other hand delivers a single search with a well-known search engine often therefore unsatisfactory Results, because for same situation in different documents different Terms are used, eg. B. conjugated word forms, synonyms and abbreviations. Therefore, the must Users perform multiple searches to let.
In
In K. Zechner: „A Literature Survey on Information Extraction and Text Summarization" werden u. a. verschiedene Verfahren offenbart, um eine Zusammenfassung für ein einzelnes elektronisch verfügbares Dokument zu erzeugen. Aus J. G. Carbonell, J. Goldstein, The use of MMR, diversity-based reranking for reordering documents and producing summaries, Proceed. SIGIR '98, 1998, Melbourne, Australia, ist ein Verfahren bekannt, bei dem Dokumentteile, insbesondere Sätze, bewertet werden und die Zusammenfassung aus hoch bewerteten Sätzen zusammengesetzt wird. Hierfür werden Terme, insbesondere Worte oder Wortteile, mit statistischen Verfahren bewertet. Andere Verfahren, z. B. das in K. R. McKeown, J. Robin, K. Kukich: „Designing and evaluating a new revision-based model for summary generation", Information Processing and Management Vol. 31 No. 5, 1995, vorgestellte Verfahren, kombinieren Informations-Extraktion und Methoden zur Erzeugung von natürlichsprachigen Texten, um eine Zusammenfassung zu erzeugen.In K. Zechner: "A Literature Survey on Information Extraction and Text Summarization ", among others Procedure disclosed to a summary for a single electronic available Produce document. From J.G. Carbonell, J. Goldstein, The use of MMR, Diversity-Based Reranking for Reordering Documents and Producing summaries, Proceed. SIGIR '98, 1998, Melbourne, Australia, a method is known in which document parts, especially sentences, be evaluated and the abstract composed of highly rated sentences becomes. Therefor become terms, especially words or parts of words, with statistical Method evaluated. Other methods, e.g. In K. R. McKeown, J. Robin, K. Kukich: "Designing and Evaluating a new revision-based model for summary generation ", Information Processing and Management Vol. 5, 1995, presented methods Information extraction and methods for generating natural language Texts to create a summary.
Alle diese Verfahren berücksichtigen nur jeweils ein einziges Dokument, nämlich nur das Dokument, für das der Extrakt erzeugt werden soll. Daher können sie den Kontext des Dokuments nicht mit einbeziehen. Oft kann aber nur aus dem Kontext entschieden werden, welche Informationen wirklich im Extrakt enthalten sein müssen. Beispielsweise haben manche Worte unterschiedliche Bedeutungen in verschiedenen Kontexten, z. B. „Bank" oder „Programm". Wenn bei der Erzeugung eines Extrakts dieser Kontext nicht berücksichtigt wird, muß ein Benutzer des Informationsbeschaffungssystems aus dem Extrakt die ihn interessierenden Informationen herausfiltern.All consider these procedures only one document at a time, namely only the document for which the Extract should be produced. Therefore, they can change the context of the document do not involve. Often, however, can only be decided out of context which information is really contained in the extract have to. For example, some words have different meanings in different contexts, eg. Eg "bank" or "program". If in the production of an extract this context is not taken into account, has to be User of the information acquisition system from the extract the filter out information of interest.
Aus M.-R. Amini: „Interactive Learning for Text Summarization", Proceed. PKDD 2000, Workshop on Machine Learning and Textual Information Access, pp. 10–18, ist ein lernendes Verfahren bekannt, das Zusammenfassungen erzeugt und die Ergebnisse durch Benutzerabfragen verbessert. Im ersten Schritt des Verfahrens werden diejenigen Sätze eines Textes identifiziert, die die höchsten Bewertungen bezüglich der Benutzeranfrage erhalten. Die Bewertung von Sätzen wird automatisch mit einem tf/idf-Term-Gewichtungs-Verfahren durchgeführt. Dem Benutzer werden von jedem Dokument die r am höchsten bewerteten Sätze des Dokuments absteigend nach Bewertung sortiert angezeigt. Diese r Sätze bilden die Zusammenfassung des Dokuments. Im zweiten Schritt gibt der Benutzer eine Rückmeldung an das System, indem er die automatische Auswahl und Bewertung von Sätzen überprüft und bei Bedarf abändert. Die Rückmeldung des Benutzers wird verwendet, um die automatisch durchgeführte Bewertung zu verbessern.From M.-R. Amini: "Interactive Learning for Text Summarization," Proceed, PKDD 2000, Workshop on Machine Learning and Textual Information Access, pp. 10-18, teaches a learning method that generates summaries and improves results through user queries In the method, those sentences of a text are identified which receive the highest ratings on the user request.The rating of sentences is automatically performed using a tf / idf term weighting method.At each document, the user becomes the r highest rated sentences of the document In the second step, the user provides feedback to the system by checking the automatic selection and rating of sentences and modifying them as needed used to improve the automatic assessment.
Befriedigende Ergebnisse vermag dieses Verfahren höchstens bei zureichend vielen und guten Bewertungen des Benutzers zu treffen. Die Rückmeldung ist für den Benutzer mit erheblichem Aufwand verbunden. Die Notwendigkeit der Rückmeldungen kann zu fehlerhaften Ergebnissen führen.satisfactory At most, this method can produce sufficient results and to make good reviews of the user. The feedback is for connected the user with considerable effort. The need the feedback can lead to erroneous results.
Aus
J. Goldstein, V. Mittal, J. Carbonell, J. Callan:
„Creating
and Evaluating Multi-Document Sentence Extract Summaries", Proceed. ACM Conf.
Information and Knowledge Management (CIKM 2000), McLean (VA), 6.-11.
11. 2000, pp. 165–172,
ist ein Verfahren bekannt, um eine Zusammenfassung aus Sätzen mehrerer
Dokumente einer vorgegebenen Dokument-Kollektion zu erzeugen. Beispielsweise
führt der
Benutzer eine Suche im Internet durch, indem er mit Hilfe einer
Suchmaschine eine Anfrage mit Suchbegriffen abschickt, um Fundstellen
im Internet finden zu lassen. Die Dokument-Kollektion ist in diesem Beispiel das
von der Suchmaschine gelieferte Ergebnis der Benutzer-Anfrage an
das Internet.J. Goldstein, V. Mittal, J. Carbonell, J. Callan:
"Creating and Evaluating Multi-Document Sentence Extract Summaries," Proceed.ACM Conf., Information and Knowledge Management (CIKM 2000), McLean (VA), 6-11-11, 2000, pp. 165-172 discloses a method For example, to create a summary of sets of multiple documents from a given collection of documents, for example, the user performs a search on the Internet by using a search engine to submit a search query to find sites on the Internet In this example, the result of the user request to the Internet provided by the search engine is.
Gemäß dem in J. Goldstein et al. offenbarten Verfahren werden die Dokumente der Kollektion in Dokumentteile zerlegt. Die Dokumentteile können Sätze oder Satzteile sein. Zunächst werden diejenigen Dokumentteile identifiziert, die relevant bezüglich der Dokumenten-Kollektion und der Suchanfrage des Benutzers sind. Aus diesen relevanten Dokumentteilen werden einige wie folgt ausgewählt: Schrittweise wird für jedes relevante, aber noch nicht ausgewählte Dokumentteil eine Bewertung gemäß dem Verfahren „maximal marginal relevance-multi-document" (MMR-MD) durchgeführt. Das dabei am höchsten bewertete Dokumentteil wird zusätzlich ausgewählt. Ein solcher Auswahlschritt wird so oft wiederholt, bis ein Abbruchkriterium erfüllt ist, beispielsweise bis eine vorgegebene Anzahl relevanter Dokumentteile ausgewählt wurde. Die Zusammenfassung wird erzeugt, indem die ausgewählten Dokumentteile sortiert und zusammengesetzt werden.According to the in J. Goldstein et al. disclosed methods are the documents of the Collection disassembled into document parts. The document parts can be sentences or Be sentence parts. First those parts of the document are identified that are relevant to the Document collection and the user's search query. Out Some of these relevant document parts are selected as follows: Step by step is for every relevant, but not yet selected part of the document a rating according to the procedure "maximum marginal relevance-multi-document "(MMR-MD) the highest evaluated document part is additional selected. Such a selection step is repeated until a termination criterion Fulfills is, for example, up to a predetermined number of relevant document parts selected has been. The abstract is generated by the selected document parts sorted and put together.
Ein
Dokumentteil p wird hierbei gemäß der Rechenvorschrift
sim_2(p)
= max{sim_2(p, p_sel)|p_sel bereits ausgewählt} ist.A document part p is here according to the calculation rule
sim_2 (p) = max {sim_2 (p, p_sel) | p_sel already selected}.
Sim_1(p) ist um so höher, je ähnlicher das Dokumentteil p der Anfrage ist, je höher der Informationsgehalt von p ist und je neuer das Dokument ist, in dem p enthalten ist. Sim_2 ist um so höher, je ähnlicher p einem schon ausgewählten Dokumentteil ist. Dadurch, daß sim_2 subtrahiert wird, wird vermieden, daß mehrere ähnliche und damit redundante Dokumentteile in der Zusammenfassung auftreten.Sim_1 (p) is the higher the more similar the document part p of the request is the higher the information content of p and the newer is the document containing p. Sim_2 is the higher the more similar p already selected Document part is. Because sim_2 is subtracted, it is avoided that several similar and thus redundant Document parts in the abstract occur.
Das in J. Goldstein et al. offenbarte Verfahren ist insbesondere dann rechenaufwendig und damit zeitraubend, wenn die Kollektion umfangreich ist, beispielsweise wenn die Suchanfrage mehrere hundert Dokumente lieferte. Nicht automatisch berücksichtigt werden kann, welche dieser vielen Dokumente der Benutzer als relevant eingestuft hat und welche nicht.The in J. Goldstein et al. In particular, the method disclosed is time-consuming and thus time-consuming, if the collection is extensive is, for example, if the search query several hundred documents provided. Not automatically considered which of these many documents the user considers relevant has classified and which not.
Auch in J. G. Carbonell & J. Goldstein: „The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries", Proceed. 21St Annual Internat. ACM SIGIR Conf. Research and Development in Information Retrieval, Aug. 24th–28th, 1988, Melbourne, Australia, pp. 1–2, wird ein Verfahren offenbart, um ein Extrakt für ein Dokument, das zu einer Dokumenten-Kollektion gehört, zu erzeugen. Nacheinander wird aus der Dokumenten-Kollektion jeweils ein Dokument ermittelt, das einerseits möglichst ähnlich zu der Anfrage eines suchenden Benutzers ist, andererseits möglichst unähnlich zu den bereits zuvor ermittelten Dokumenten der Kollektion. Dies wird wiederholt, bis ein Abbruchkriterium erfüllt ist, und die ermittelten Dokumente werden dem Benutzer als Ergebnis seiner Suchanfrage präsentiert. Ein entsprechendes Ähnlichkeitsmaß wird offenbart. Um eine Zusammenfassung eines Dokuments zu erzeugen, werden die zur Benutzer-Anfrage passenden Dokumente in Dokumentteile zerlegt und die Dokumentteile entsprechend des Ähnlichkeitsmaßes bewertet.In JG Carbonell & J. Goldstein: "The Use of MMR, Diversity-Based reranking for reordering Documents and Producing Summaries" Proceed 21 St Annual boarding ACM SIGIR Conf Research and Development in Information Retrieval, Aug. 24 th -... 28 th , 1988, Melbourne, Australia, pp. 1-2, a method is disclosed for generating an extract for a document belonging to a document collection, one document at a time being determined from the document collection, on the one hand as similar as possible to the request of a searching user, on the other hand as dissimilar as possible to the previously determined documents of the collection This is repeated until a termination criterion is met, and the documents are presented to the user as a result of his query In order to generate a summary of a document, the documents matching the user request are included in the document part e decomposed and evaluated the document parts according to the similarity measure.
Wie die Bewertungen eines Benutzers in die Erzeugung des Extrakts einfließen, wird nicht beschrieben.As a user's evaluations are included in the production of the extract not described.
Der Erfindung liegt die Aufgabe zugrunde, ausgehend von J. Goldstein, V. Mittal et al. ein Verfahren der eingangs genannten Art zu schaffen, das bei der Erzeugung des Extrakts Dokumentteile bewertet und bei der Dokumentteil-Bewertung automatisch berücksichtigt, welche Dokumente der Kollektion der Benutzer als relevant eingestuft hat, ohne hierfür von ihm zusätzlichen Rückmeldungen oder sonstige Angaben zu verlangen.The invention is based on the object, starting from J. Goldstein, V. Mittal et al. to provide a method of the type mentioned above, which evaluates document parts in the generation of the extract and automatically takes into account in the document part evaluation, which documents of the collection of the user as relevant without requiring additional feedback or other information from it.
Die Aufgabe wird durch ein Verfahren nach dem Anspruch 1, eine Vorrichtung nach dem Anspruch 11 und einem Computerprogramm nach Anspruch 13 oder Anspruch 14 gelöst.The The object is achieved by a method according to claim 1, a device according to claim 11 and a computer program according to claim 13 or claim 14 solved.
Die Erfindung offenbart ein Verfahren zur automatischen Erzeugung eines Extrakts für ein Dokument. Das Dokument ist Bestandteil einer für ein Informationsbeschaffungssystem elektronisch verfügbaren Kollektion von Dokumenten. Ein Benutzer interagiert mit dem Informationsbeschaffungssystem. Bei dieser Interaktion bietet das Informationsbeschaffungssystem dem Benutzer bestimmte Dokumente aus der Kollektion an. Der Benutzer wählt unter den angebotenen Dokumenten bestimmte aus, um sie sich anzeigen zu lassen.The Invention discloses a method for automatically generating a Extract for a document. The document is part of an information procurement system electronically available Collection of documents. A user interacts with the information procurement system. In this interaction, the information procurement system provides to the user certain documents from the collection. The user choose the documents offered to them to view them to let.
Das Informationsbeschaffungssystem protokolliert eine zeitliche Reihenfolge. Diese protokollierte zeitliche Reihenfolge ist die Reihenfolge, in der der Benutzer Dokumente der Kollektion ausgewählt hat.The Information procurement system logs a chronological order. This logged chronological order is the order in which the user has selected documents of the collection.
Der Benutzer gibt das Dokument vor, für das das Extrakt erzeugt werden soll. Automatisch wird ermittelt, welche der Dokumente für den Benutzer relevant sind. Hierbei wird dann, wenn jeweils zwei gemäß der protokollierten zeitlichen Reihenfolge nacheinander ausgewählte Dokumente ein hohes Maß für die Ähnlichkeit haben, das zeitlich frühere Dokument als relevant bewertet wird.Of the User specifies the document for which the extract is generated should. Automatically determines which of the documents for the user are relevant. This is when, if any, two according to the logged sequential order selected documents a high degree of similarity have, earlier in time Document is considered relevant.
Dokumentteile der ausgewählten Dokumente werden identifiziert. Bewertungen der identifizierten Dokumentteile werden berechnet. Hierbei wird die Bewertung mindestens eines Dokumentteils als Funktion zweier Ähnlichkeitsmaße berechnet, nämlich
- – eines Maßes für die Ähnlichkeiten des Dokumentteils zu den relevanten unter den ausgewählten Dokumenten und
- – eines Maßes für die Ähnlichkeiten des Dokumentteils zu den nicht relevanten unter den ausgewählten Dokumenten.
- A measure of the similarities of the document part to the relevant ones among the selected documents and
- A measure of the similarities of the document part to the non-relevant ones among the selected documents.
In die Funktion gehen die Ähnlichkeiten zu den relevanten und die Ähnlichkeiten zu den nicht relevanten Dokumenten in verschiedener Weise ein.In the function goes the similarities to the relevant and the similarities to the non-relevant documents in various ways.
Dokumentteile werden in Abhängigkeit von ihren Bewertungen ausgewählt. Der Extrakt wird aus ausgewählten Dokumentteilen zusammengesetzt.document parts become dependent selected from their ratings. The extract is selected from Composed of document parts.
Das Verfahren sieht vor, Eingaben des Benutzers in das Informationsbeschaffungssystem zu protokollieren, die er bei der Suche nach Informationen ohnehin vornimmt, nämlich die Auswahl bestimmter Dokumente.The Method provides inputs of the user in the information procurement system to log him in the search for information anyway makes, namely the selection of specific documents.
Verfahren nach dem Stand der Technik erfragen vom Benutzer eine Rückmeldung z. B. in Form einer Bewertung der Suchergebnisse. Diese Befragung ist zeitaufwendig, wird von Benutzern oft als lästig und überflüssig empfunden und ist fehlerträchtig, weil Benutzer manchmal nicht zu benennen vermögen, was sie wirklich interessiert, insbesondere wenn sie im nachhinein befragt werden. Das erfindungsgemäße Verfahren spart diese Befragung ein, indem Eingaben des Benutzers in das Informationsbeschaffungssystem, die er ohnehin vornimmt, protokolliert und für die Ermittlung weiterer Dokumente ausgewertet werden. Zusätzliche Benutzereingaben erfordert das erfindungsgemäße Verfahren nicht. Der Benutzer braucht insbesondere nicht gefragt zu werden, welche Dokumente er als wie relevant bewertet und welche für ihn irrelevant sind. Diese Informationen werden vielmehr automatisch aus den Benutzereingaben gewonnen.method According to the prior art ask the user feedback z. In the form of an evaluation of the search results. This survey is time consuming, is often perceived by users as annoying and unnecessary and is error prone because Sometimes users can not name what they really care about especially if they are interviewed in retrospect. The inventive method Saves this survey by adding user input to the information gathering system, which he does anyway, logged and for the determination of further documents be evaluated. additional User input does not require the inventive method. The user In particular, he does not need to be asked which documents he wants assessed as relevant and irrelevant to him. These Rather, information is automatically extracted from user input won.
Durch das erfindungsgemäße Verfahren wird automatisch ein Extrakt erzeugt, der an den jeweiligen Benutzer und seine Interessen angepaßt ist. Dies wird erreicht, weil protokollierte Eingaben des jeweiligen Benutzers berücksichtigt werden. Das Verfahren kann also bei demselben Dokument und verschiedenen Benutzern unterschiedliche Ergebnisse liefern. Insbesondere werden dadurch automatisch unterschiedliche Bedeutungen von Worten unterschieden. Falls ein Benutzer sich beispielsweise für Dokumente über Finanzdienstleister interessiert, stellt das Verfahren sicher, daß Dokumente als relevant eingestuft werden, in dem das Wort „Bank" in der Bedeutung als Finanzdienstleister auftritt, aber keine Dokumente mit einer Bank in der Bedeutung als Sitzgelegenheit.By the inventive method An extract is generated automatically, which is sent to the respective user and its interests is. This is achieved because logged entries of the respective User considered become. The method can therefore be with the same document and different To give users different results. In particular, be thereby automatically distinguishing different meanings of words. For example, if a user is looking for financial services documents interested, the procedure ensures that documents are classified as relevant in which the word "bank" is meaningful as a financial services provider, but no documents with one Bank in meaning as a seat.
Möglich ist sogar, daß im erfindungsgemäß erzeugten Extrakt für das Dokument ein Schlüsselwort oder ein Satz oder Abschnitt auftritt, das bzw. der im Dokument selber gar nicht vorkommt.Is possible even that in the produced according to the invention Extract for the document a keyword or a phrase or phrase occurs in the document itself does not occur at all.
Die Verwendung der Benutzer-Eingaben hat den weiteren Vorteil, daß bevorzugt ausschließlich Informationen verwendet werden, die auf einem Netzwerk-Teilnehmerrechner (Client) verfügbar sind. Damit läßt sich das Verfahren unabhängig von einem bestimmten Internet-Diensteprogramm (Web Server) oder einem bestimmten Netzwerk-Zentralrechner (Server) realisieren. Die Benutzereingaben lassen sich darüber hinaus einem bestimmten Benutzer zuordnen, so daß dieser das erfindungsgemäße Verfahren von verschiedenen Netzwerk-Teilnehmerrechnern aus ausführen lassen kann. Das Internet-Diensteprogramm oder der Netzwerk-Zentralrechner können sogar ausgetauscht werden, ohne daß erneute Eingaben des Benutzers benötigt werden.The Use of the user inputs has the further advantage of being preferred exclusively Information to be used on a network subscriber computer (Client) available are. This can be the procedure independent from a specific internet service program (web server) or realize a specific network central computer (server). The User input can be about it Be assigned to a specific user, so that this method of the invention from different network subscriber computers run out of can let. The Internet service program or the network central computer can even be exchanged, without renewed Inputs of the user are needed.
Das erfindungsgemäße Verfahren berücksichtigt mehrere Dokumente, ist aber trotzdem wesentlich weniger rechenaufwendig als Verfahren nach dem Stand der Technik. Dieser Vorteil wird insbesondere dadurch erreicht, daß zuerst weitere Dokumente der Kollektion unter Verwendung der protokollierten Benutzereingaben ermittelt werden und nur die ausgewählten weiteren Dokumente anstelle aller Dokumente der Kollektion eingehend und mit erhöhtem Rechenaufwand untersucht werden. Oft umfaßt die Kollektion mehrere hundert Dokumente, als weitere Dokumente werden aber z. B. nur zehn oder zwanzig Dokumente ausgewählt.The inventive method considered multiple documents, but is still much less computationally as a method of the prior art. This advantage is particular achieved by first other documents of the collection using the logged User inputs are determined and only the selected others Documents in the place of all documents of collection in detail and with elevated Computational effort to be investigated. Often the collection includes several hundred Documents, as further documents but z. B. only ten or twenty documents selected.
Der Extrakt kann sich auf ein einziges Dokument beziehen. Dieses Dokument ist beispielsweise von einem Benutzer vorgegeben. Ein Benutzer kann auch mehrere Dokumente vorgeben, und der erzeugte Extrakt bezieht sich auf alle diese vorgegebenen Dokumente.Of the Extract can refer to a single document. This document is for example specified by a user. A user can also specify several documents, and the extract produced relates on all these given documents.
Möglich ist aber auch, daß ein einziger Extrakt für das Dokument und die ausgewählten weiteren Dokumente erzeugt wird (Anspruch 3). Eine Fortbildung sieht vor, daß das Dokument, für das der Extrakt erzeugt wird, nicht vorgegeben ist, sondern eines der ausgewählten weiteren Dokumente ist.Is possible but also that one only extract for the document and the selected ones additional documents is generated (claim 3). A training sees before that Document, for that the extract is produced is not predetermined, but one the selected one other documents.
Der Extrakt umfaßt beispielsweise eine Liste von Schlüsselworten (Anspruch 7), und mehrere oder alle der identifizierten und bewerteten Dokumentteile sind Worte, z. B. Worte der deutschen oder englischen Sprache oder kennzeichnende Abkürzungen. Als Schlüsselworte werden z. B. diejenigen Worte ausgewählt, deren Bewertung eine vorgegebene Schranke überstiegt, oder die s am höchsten bewerteten Worte, wobei s eine vorgegebene Anzahl ist. Eine Liste von Schlüsselworten ist kürzer und damit schneller zu erfassen als andere Formen eines Extrakts. Um das Dokument z. B. in einen elektronischen Katalog einzusortieren, werden Schlagworte benötigt.Of the Extract includes For example, a list of keywords (claim 7), and several or all of the identified and evaluated parts of the document are words, eg. B. words of the German or English language or distinctive abbreviations. As keywords be z. B. selected those words whose rating a predetermined Barrier crossed, or the s highest evaluated words, where s is a predetermined number. A list of keywords is shorter and thus to grasp faster than other forms of an extract. To the document z. B. to sort into an electronic catalog, keywords are needed.
Gemäß Anspruch 8 umfaßt der Extrakt eine Zusammenfassung, und zu den identifizierten und bewerteten Dokumentteilen gehören vollständige Sätze oder Abschnitte. Die Zusammenfassung wird beispielsweise aus den s am höchsten bewerteten Sätzen zusammengesetzt, wobei s eine vorgegebene Anzahl ist und die Reihenfolge der Sätze in der Zusammenfassung gleich der Reihenfolge in den Dokumenten der Kollektion ist. Eine derartige Zusammenfassung ist oft besser verständlich als eine bloße Auflistung von Schlüsselworten. Eine Fortbildung sieht vor, daß alle identifizierten und bewerteten Dokumentteile Abschnitte sind und die Zusammenfassung aus einem einzigen Abschnitt besteht.According to claim 8 includes the extract a summary, and to the identified and evaluated parts of the document full Sentences or Sections. The summary is for example from the s am highest rated sentences where s is a predetermined number and the order the sentences in the summary equal to the order in the documents the collection is. Such a summary is often better understandable as a mere Collection of keywords. A Training provides that all identified and evaluated document parts are sections and the abstract consists of a single section.
Um zu protokollieren, welche Dokumente der Benutzer bislang ausgewählt hat, wird vorzugsweise der Benutzer-Klickpfad bestimmt. Der Benutzer-Klickpfad besteht aus Verweisen auf die bislang vom Benutzer ausgewählten Dokumente der Kollektion, vorzugsweise in chronologischer Reihenfolge sortiert, oder aus geeigneten Repräsentationen dieser Dokumente.Around to record which documents the user has selected so far, Preferably, the user click path is determined. The user click path consists of references to the documents previously selected by the user the collection, preferably sorted in chronological order, or from suitable representations of these documents.
Vorzugsweise wird für die Erzeugung des Extrakts eine Suchanfrage von einem Netzwerk-Teilnehmerrechner an einen Netzwerk-Zentralrechner übermittelt. Die Suchanfrage umfaßt geeignete Repräsentationen der ausgewählten weiteren Dokumente oder Verweise auf die ausgewählten weiteren Dokumente (Anspruch 4). Beispielsweise in Datenspeichern des Netzwerk-Zentralrechners sind die Dokumente der Kollektion abgespeichert. Durch diese Ausgestaltung lassen sich bekannte Informationsbeschaffungssysteme wiederverwenden. Im Unterschied zu bekannten Informationsbeschaffungssystemen besteht die Suchanfrage aber nicht aus vom Benutzer eingegebenen Suchbegriffen, sondern aus einer automatisch erzeugten Suchanfrage. Die Suchanfrage läßt sich aus Informationen erzeugen, die auf dem Netzwerk-Teilnehmerrechner abgespeichert sind, so daß eine vorhergehende Informationsabfrage vom Netzwerk-Teilnehmerrechner an den Netzwerk-Zentralrechner nicht erforderlich ist. Diese Ausgestaltung erspart dem Benutzer Arbeitszeit und Wartezeit vor seinem Netzwerk-Teilnehmerrechner.Preferably is for the generation of the extract a query from a network subscriber computer transmitted to a network central computer. The search query comprises suitable representations of the chosen other documents or references to the selected further documents (claim 4). For example, in data stores of the network host the documents of the collection are stored. By this configuration it is possible to reuse known information acquisition systems. In contrast to known information procurement systems exists the search query does not come from search terms entered by the user, but from an automatically generated search query. The search query let yourself generate information stored on the network subscriber computer, so that one previous information request from the network subscriber computer to the network central computer is not required. This embodiment saves the user Working time and waiting time in front of his network participant computer.
Das erfindungsgemäße Verfahren sieht vor, daß das identifizierte Dokumentteil in Abhängigkeit von einem Maß für die Ähnlichkeit zwischen dem Dokumentteil und den ausgewählten weiteren Dokumenten automatisch bewertet wird.The inventive method Provides that identified part of the document depending on a measure of similarity between the document part and the selected further documents automatically Is evaluated.
Die Ausgestaltung nach Anspruch 5 sieht eine zusätzliche Einflußgröße auf die Bewertung des identifizierten Dokumentteils vor. Für die Berechnung der Dokumentteil-Bewertung werden zusätzlich Gewichtungen von denjenigen ausgewählten weiteren Dokumenten, in denen das Dokumentteil auftritt, berechnet und verwendet. Damit läßt sich automatisch eine Differenzierung unter den ausgewählten weiteren Dokumenten vornehmen, was die Aussagekraft des erzeugten Extrakts weiter erhöht.The Embodiment according to claim 5 provides an additional influence on the Evaluation of the identified document part. For the calculation the document part rating be additional Weightings of those selected further documents, in which the document part occurs, calculates and uses. In order to let yourself automatically a differentiation among the selected others Make documents, what the meaningfulness of the extract produced further increased.
Die Fortbildung dieser Ausgestaltung nach Anspruch 6 sieht vor, nicht nur zwischen ähnlichen und nicht ähnlichen Dokumenten zu unterscheiden, sondern zusätzlich ein Maß für die Ähnlichkeit zwischen dem Dokument und den ausgewählten weiteren Dokument zu berechnen. Dieses Maß wird für die Berechnung der Gewichtung eines ausgewählten weiteren Dokuments verwendet. Beispielsweise ist das Maß für die Ähnlichkeit eine Zahl zwischen 0 und 1, die direkt als Gewichtung verwendet wird.The Continuing education of this embodiment according to claim 6 provides, not only between similar and not similar Documents, but also a measure of similarity between the document and the selected additional document to calculate. This measure will for the Calculation of the weighting of a selected additional document used. For example, that's the measure of similarity a number between 0 and 1 that is used directly as a weight becomes.
Gemäß Anspruch 9 wird ein Extrakt erzeugt, das eine Zusammenfassung umfaßt. Hierfür werden Dokumentteile identifiziert, indem Dokumente der Kollektion in Sätze oder Abschnitte zerlegt werden. Eine Liste von Schlüsselworten wird erzeugt, beispielsweise durch ein Verfahren nach Anspruch 7. Die erzeugte Zusammenfassung umfaßt diejenigen identifizierten Dokumentteile, die mindestens ein Schlüsselwort enthalten. Die dergestalt erzeugte Zusammenfassung umfaßt weniger Sätze oder Absätze als eine auf andere Weise erzeugte Zusammenfassung, und die Sätze präsentieren Schlüsselworte in ihrem Kontext anstelle isoliert.According to claim 9, an extract is produced which comprises a summary. For this will be Document parts identified by adding documents of the collection in sentences or Sections are disassembled. A list of keywords is generated, for example by a method according to claim 7. The generated summary comprises those identified document parts that have at least one keyword contain. The summary thus produced comprises less Sentences or paragraphs as a summary produced in a different way, and present the sentences Keywords isolated in their context instead.
Bei der Ausgestaltung nach Anspruch 10 wird eine Zusammenfassung erzeugt, die aus Sätzen und/oder Abschnitten besteht. Das mindestens eine bewertete Dokumentteil ist ein Satz oder Abschnitt. Für die Berechnung von dessen Bewertung wird eine Bewertung mindestens eines Wortes, das im Satz bzw. Abschnitt enthalten ist, verwendet. Die Bewertung dieses Worts hängt von einem Maß für die Ähnlichkeit zwischen dem Wort und den ausgewählten weiteren Dokumenten ab.at the embodiment according to claim 10, a summary is generated, the sentences and / or Sections exists. The at least one evaluated document part is a sentence or section. For the Calculation of its rating will be a rating of at least one Word contained in the sentence or section. The Rating of this word depends from a measure of similarity between the word and the selected one from further documents.
Anspruch 11 sieht eine Vorrichtung zur Durchführung des Verfahrens nach einem der Ansprüche 1 bis 10 vor. Diese Vorrichtung umfaßt
- – Mittel zum Auswählen von weiteren Dokumenten der Kollektion,
- – Mittel zum Protokollieren von Benutzereingaben in das Informationsbeschaffungssystem,
- – Mittel zur Bewertung von Dokumentteilen in Abhängigkeit von den protokollierten Benutzereingaben,
- – Mittel zum Auswählen von Dokumentteilen in Abhängigkeit von ihren Bewertungen
- – und Mittel zum Zusammensetzen des Extrakts aus ausgewählten Dokumentteilen.
- - means for selecting further documents of the collection,
- Means for logging user input into the information procurement system,
- Means for evaluating document parts in dependence on the logged user input,
- - Means for selecting document parts depending on their ratings
- And means for assembling the extract from selected parts of the document.
Vorzugsweise ist die Vorrichtung Bestandteil einer Datenverarbeitungsanlage, die mindestens zeitweise als Netzwerk-Teilnehmerrechner mit mindestens einem Netzwerk-Zentralrechner verbunden ist (Anspruch 12). Dieser Netzwerk-Zentralrechner umfaßt Datenspeicher, in denen Dokumente der Kollektion abgespeichert sind. Der Netzwerk-Teilnehmerrechner ist bevorzugt über das Internet oder einem Inteanet mit dem Netzwerk-Zentralrechner oder den Netzwerk-Zentralrechnern verbunden.Preferably if the device is part of a data processing system, the at least temporarily as a network subscriber computer with at least a network central computer is connected (claim 12). This network central computer includes data storage in which Documents of the collection are stored. The network subscriber computer is preferred over the Internet or an Inteanet with the network central computer or the network central computers.
Anspruch 13 sieht ein Computerprogramm vor. Dieses Computerprogramm wird in einem Computer abgearbeitet und führt dabei ein Verfahren nach einem der Ansprüche 1 bis 10 aus.claim 13 provides for a computer program. This computer program will processed in a computer and thereby performs a method one of the claims 1 to 10 off.
Das Computerprogramm-Produkt nach Anspruch 14 ist auf einem von einem Computer lesbaren Medium gespeichert. Es umfaßt von einem Computer lesbare Programm-Mittel, die den Computer veranlassen, ein Verfahren nach einem der Ansprüche 1 bis 10 auszuführen.The The computer program product of claim 14 is on one of Computer readable medium stored. It includes readable by a computer Program means that cause the computer to follow a procedure one of the claims 1 to 10.
In der bevorzugten Ausführungsform läuft das erfindungsgemäße Verfahren auf einer Datenverarbeitungsanlage, z. B. einem PC, ab, der als Netzwerk-Teilnehmerrechner mit einem Netzwerk-Zentralrechner oder einer Menge von Netzwerk-Zentralrechnern verbunden ist. In Datenspeichern dieser Netzwerk-Zentralrechner sind Dokumente der Kollektion enthalten, so daß der Netzwerk-Teilnehmerrechner auf alle Dokumente zugreifen kann. Um den Netzwerk-Teilnehmerrechner mit dem Netzwerk-Zentralrechner oder den Netzwerk-Zentralrechnern zu verbunden, wird bevorzugt die Internet-Technologie mit mindestens einem Internet-Diensteprogramm, der auf den Netzwerk-Zentralrechnern abläuft, verwendet. Die Netzwerk-Zentralrechner gehören beispielsweise zum Internet oder zu einem Unternehmens-Intranet, sie können mit mehreren Netzwerk-Teilnehmerrechnern kommunizieren. Vorzugsweise werden für die Erzeugung des Extrakts ausschließlich Informationen verwendet, die auf dem Netzwerk-Teilnehmerrechner verfügbar sind. Damit arbeitet das Verfahren unabhängig von einem bestimmten Netzwerk-Zentralrechner.In the preferred embodiment is that going? inventive method on a data processing system, eg. As a PC from, as Network subscriber computer with a network central computer or a set of Network central computers is connected. In data stores this Network central computer are documents of the collection included, so that the network participant computer can access all documents. To the network participant computer with the network central computer or the network central computers Connected to, internet technology is preferred with at least an internet service program running on the network hosts expires used. The network central computer belong for example, to the Internet or to a corporate intranet, you can Communicate with multiple network subscriber computers. Preferably be for the extraction of the extract exclusively uses information the on the network participant computer available are. Thus, the method works independently of a particular network host.
Das Informationsbeschaffungssystem, in dem das erfindungsgemäße Verfahren abläuft, läuft auf dem oder den Netzwerk-Teilnehmerrechnern sowie dem oder den Netzwerk-Zentralrechnern ab. Ein Netzwerk-Teilnehmerrechner sendet Aufträge, z. B. Anfragen, an einen Netzwerk-Zentralrechner, und der beauftragte Netzwerk-Zentralrechner sendet Antworten, z. B. ein bestimmtes Dokument der Kollektion, an den Netzwerk-Teilnehmerrechner.The Information procurement system in which the inventive method expires runs on the network subscriber computers or the network central computer (s). A network subscriber computer sends jobs, eg. B. inquiries, to a Network central computer, and the commissioned network central computer sends answers, eg. Eg a specific document of the collection, to the network subscriber computer.
Ein Benutzer interagiert mit dem Informationsbeschaffungssystem. Dabei bietet das Informationsbeschaffungssystem bestimmte Dokumente aus der Kollektion dem Benutzer an, und der Benutzer wählt unter den ausgebotenen Dokumenten bestimmte aus, um sie sich anzeigen zu lassen. Protokolliert werden dabei wesentliche Eingaben des Benutzers, z. B. welche Dokumente er in welcher Reihenfolge ausgewählt hat. Auf Wunsch des Benutzers wird ein Extrakt von Dokumenten der Kollektion erzeugt. Vorzugsweise gibt er ein Dokument vor, für das ein Extrakt unter Berücksichtigung des bisherigen Benutzerverhaltens erzeugt wird. Dieses vorgegebene Dokument wird im folgenden als erstes Dokument D_0 bezeichnet. Möglich ist aber auch, daß der Benutzer mehrere Dokumente vorgibt oder daß überhaupt kein Dokument vorgegeben ist, sondern sich der Extrakt auf ermittelte weitere Dokumente bezieht.One User interacts with the information procurement system. there The information procurement system provides certain documents of the collection to the user, and the user chooses among the certain documents to be displayed. Essential entries of the user are logged, eg. B. which documents he has selected in which order. At the request of the user will be an extract of documents of the collection generated. Preferably, he specifies a document for which Extract under consideration of the previous user behavior is generated. This predetermined Document is referred to below as the first document D_0. Is possible but also that the User specifies multiple documents or that no document specified is, but the extract refers to additional documents.
Die
Dokumente der Kollektion werden vorzugsweise unter Verwendung eines
Vektorraum-Modells repräsentiert.
Vektorraum-Modelle sind aus C. D. Manning, H. Schütze:
„Foundations
of Statistical Natural Language Processing", MIT Press, Boston 1990, bekannt. Eine
Indexierungssprache, das ist eine Menge von M Zeichenfolgen, wird
vorgegeben. Die Zeichenfolgen der Indexierungssprache werden im
folgenden Indexierungsterme genannt.The documents of the collection are preferably represented using a vector space model. Vector space models are from CD Manning, H. Schütze:
"Foundations of Statistical Natural Language Processing", MIT Press, Boston, 1990. An indexing language, that is a set of M strings, is given, and the strings of the indexing language are called indexing terms in the following.
Die Indexierungssprache läßt sich aus folgenden Arten von Zeichenfolgen aufbauen:
- – Worte, vorzugsweise Worte in der Dokumenten-Kollektion. Da verschiedene Flexionsformen als unterschiedliche Zeichenfolgen behandelt werden, wird die Indexierungssprache groß, und die Übereinstimmung zwischen verschiedenen Flexionsformen eines Worts wird nicht oder nur mit zusätzlichem Rechenaufwand erkannt.
- – Wortstämme, die mittels linguistischer Regeln aus den Worten abgeleitet werden. Für jede Sprache, u. U. sogar für jeden Dialekt einer Sprache, sind erneut linguistische Regeln aufzustellen.
- – Zeichenfolgen der Länge n, sogenannte n-Gramme. In der Praxis werden Quadgramme, das sind Zeichenfolgen der Länge n = 4, und Trigramme, das sind Zeichenfolgen der Länge n = 3, verwendet. Diese Ausgestaltung hängt nicht von der Sprache ab und ist robust gegenüber Flexionsformen und Tippfehlern. Jedoch haben viele n-Gramme keine anschauliche Bedeutung für den Benutzer.
- – Phrasen, also feste Abfolgen von Worten. Die Menge von Phrasen muß bei dieser Ausgestaltung für jede Anwendung, z. B. jedes Themengebiet oder gar jede Kollektion, neu definiert werden.
- - Words, preferably words in the document collection. Since different inflectional forms are treated as different strings, the indexing language becomes large, and the match between different inflectional forms of a word is not recognized or only with additional computational effort.
- - Word stems derived from the words using linguistic rules. For every language, u. Even for each dialect of a language, again linguistic rules are set up.
- - strings of length n, so-called n-grams. In practice, quadgrammes, which are strings of length n = 4, and trigrams, that is, strings of length n = 3, are used. This embodiment does not depend on the language and is robust against inflectional forms and typos. However, many n-grams have no illustrative meaning to the user.
- - Phrases, ie fixed sequences of words. The set of phrases must in this embodiment for each application, for. For example, every topic or even every collection can be redefined.
Bevorzugt werden Worte, Quadgramme oder Trigramme als Zeichenfolgen der Indexierungssprache verwendet.Prefers Words, quadgrams or trigrams are used as strings of the indexing language.
Jedes Dokument wird gemäß dem Vektorraum-Modell durch einen Vektor der Länge M repräsentiert, wobei M die Anzahl der Indexierungsterme ist. Das j-te Element des Vektors V_i für das Dokument D_i gibt eine Gewichtung für die Bedeutung des Indexierungsterms j im Dokument D_i an. Beispielsweise ist die Gewichtung entweder 0 oder 1. Um Speicherplatz zu sparen, werden von einem Vektor für ein Dokument nur die Indizes und Einträge derjenigen Vektorelemente abgespeichert, die ungleich 0 sind.each Document becomes according to the vector space model by a vector of length M represents, where M is the number of indexing terms. The jth element of the vector V_i for the document D_i gives a weighting for the meaning of the indexing term j in document D_i. For example, the weighting is either 0 or 1. To save space, are used by a vector for a document only the indexes and entries those vector elements which are not equal to 0 are stored.
Als
Gewichtungen werden bevorzugt nicht nur die Werte 0 und 1 verwendet,
sondern Gewichtungen, die nach dem tf/idf-Verfahren bestimmt wurden. Die Gewichtung
G(t, i) einer Zeichenfolge t bezüglich
des Dokuments D_i wird beim tf/idf-Verfahren gemäß der Formel
Falls eine Zeichenfolge t in keinem Dokument der Kollektion auftritt, wird G(t, i) = 0 gesetzt.If a string t does not appear in any document in the collection, G (t, i) = 0 is set.
Worte, die häufig in einem Dokument auftreten und nichts über den Inhalt des Dokuments aussagen, werden Funktionsworte genannt. Zu den Funktionsworten zählen Pronomen, Artikel und Hilfsverben. Für Funktionsworte werden bevorzugt keine Gewichtungen bestimmt, und sie werden bei der Identifizierung und Bewertung von Dokumentteilen, insbesondere bei der Suche nach Schlüsselworten, außer Acht gelassen. Die automatisch ermittelten und nicht berücksichtigten Funktionsworte werden in einer sogenannten Stopwortliste zusammengefaßt.Words that occur frequently in a document and do not say anything about the content of the document are called function words. Function words include pronouns, articles, and auxiliary verbs. For Function words are preferably not weighted and are disregarded in identifying and evaluating parts of documents, especially keyword searches. The automatically determined and not taken into account function words are summarized in a so-called stop word list.
Aus C. J. van Rijsbergen: „Information Retrieval", Butterworth Press, London 1979, ist ein Verfahren zur automatischen Ermittlung der Stopwortliste bekannt. Dieses Verfahren wird bevorzugt auf die Kollektion von Dokumenten übertragen. Funktionsworte sind im Dokument annähernd Poisson-verteilt. Der Parameter λ = λ(w, i) = tf (w, i)/N der Poisson-Verteilung ist gleich der relativen Häufigkeit des Funktionswortes w in der Kollektion von Dokumenten wobei N die Anzahl der Dokumente in der Kollektion ist. Um zu entscheiden, ob ein Wort w ein Funktionswort ist, wird das Vorliegen einer Poisson-Verteilung geprüft.Out C. J. van Rijsbergen: "Information Retrieval, "Butterworth Press, London 1979, is a method of automatic detection the stop word list known. This method is preferred on the Transfer collection of documents. Function words are approximately Poisson-distributed in the document. Of the Parameter λ = λ (w, i) = tf (w, i) / N of the Poisson distribution is equal to the relative abundance of the function word w in the collection of documents where N is the Number of documents in the collection is. To decide if a word w is a function word becomes the existence of a Poisson distribution checked.
Erfindungsgemäß werden neben dem ersten Dokument D_0 weitere Dokumente der Kollektion ermittelt und ausgewertet, um einen Extrakt zu erzeugen. Eine Ausgestaltung der Erfindung sieht vor, hierbei nach Dokumenten der Kollektion zu suchen, die ähnlich zum ersten Dokument D_0 sind. Aus U. Bohnacker, L. Dehning, J. Franke, I. Renz, R. Schneider: „Weaving Intranet Relations – Managing Web Content", Proceed. RIAO 2000: Content-Based Multimedia Information Access, Paris, 12.–14. 4. 2000, pp. 1744–1751, ist ein Verfahren bekannt, um in einer vorgegebenen Kollektion Dokumente, die zu einem vorgegebenen Dokument ähnlich sind, zu ermitteln. Einmal vorab wird für jedes Paar von Dokumenten (D_1, D_2) der Kollektion die Ähnlichkeit zwischen D_1 und D_2 bewertet. Falls ein Benutzer ein Dokument D_l auswählt und nach zu D_1 ähnlichen Dokumenten der Kollektion suchen läßt, werden die als ähnlich bewerteten Dokumente der Kollektion ermittelt und ihm angezeigt. Die Benutzeranfrage wird besonders schnell beantwortet. Bevorzugt wird das aus U. Bohnacker et al. bekannte Verfahren angewendet, um automatisch nach zu D_0 ähnlichen Dokumenten zu suchen.According to the invention determined next to the first document D_0 more documents of the collection and evaluated to produce an extract. An embodiment The invention provides, in this case for documents of the collection to look the same to the first document D_0. From U. Bohnacker, L. Dehning, J. Franke, I. Renz, R. Schneider: "Weaving Intranet Relations - Managing Web Content, "Proceed. RIAO 2000: Content-Based Multimedia Information Access, Paris, 12.-14. 4th 2000, pp. 1744-1751, is a procedure known to provide in a given collection documents, which are similar to a given document to determine. Once in advance will be for every pair of documents (D_1, D_2) of the collection the similarity between D_1 and D_2 rated. If a user selects a document D_l and according to D_1 similar documents to search the collection as similar evaluated documents of the collection and displayed to him. The user request will be answered very quickly. Prefers For example, U. Bohnacker et al. applied known method to automatically look similar to D_0 To search documents.
Für jeden Indexierungsterm, also für jede Zeichenfolge der Indexierungssprache, wird wie oben beschriebene eine Gewichtung des Indexierungsterms bezüglich jedes ähnlichen Dokuments der Kollektion bestimmt und ausgewertet, vorzugsweise nach dem tf/idf-Verfahren. Die einzelnen Gewichtungen des Indexierungsterms werden zu einer Bewertung des Indexierungsterms bezüglich der Kollektion zusammengefaßt. Sei G(t, i) die Gewichtung des Indexierungsterms t bezüglich des Dokuments D_i. Sei B(t, Koll) die erfindungsgemäß bestimmte Bewertung des Indexierungsterms t bezüglich der Kollektion. Seien D_1,...For each Indexing term, that is for each string of the indexing language becomes as described above a weighting of the indexing term with respect to each similar one Document of the collection determined and evaluated, preferably according to the tf / idf method. The individual weights of the indexing term will be used to evaluate the indexing term in terms of Collection summarized. Let G (t, i) be the weighting of the indexing term t with respect to the Document D_i. Let B (t, Koll) be the evaluation of the indexing term determined according to the invention t regarding the collection. Be D_1, ...
D_k
die zum ersten Dokument D_0 ähnlichen
Dokumente der Kollektion. Die Bewertung B(t, Koll) wird entweder
durch die Vorschrift
B (t,
Koll)
B (t, coll)
Die Bewertung B(t, Koll) wird wie oben beschrieben für jeden Indexierungsterm bestimmt. Also werden M Bewertungen bestimmt, wobei M die Anzahl der Indexierungsterme ist. Dadurch wird ein Cluster-Indexierungsterme-Vektor der Länge M gebildet. Indexierungsterme, die in mehreren Dokumenten enthalten sind, erhalten in der Regel eine höhere Bewertung als solche, die nur in einem Dokument enthalten sind.The Rating B (t, Koll) is determined as described above for each indexing term. So M scores are determined, where M is the number of indexing terms is. This forms a cluster indexing term vector of length M. Indexing terms contained in multiple documents are preserved usually a higher one Valuation as such, which are contained only in one document.
Bevorzugt
wird mit Hilfe des Cluster-Indexierungsterme-Vektors ein Extrakt in Form einer Liste
von Schlüsselworten
erzeugt. Dies wird vorzugsweise auf eine der folgenden beiden Arten
durchgeführt:
Die
erste Art: Der Cluster-Indexierungsterme-Vektor wird absteigend
nach den Bewertungen B(t, Koll) der Indexierungsterme bezüglich der
Kollektion sortiert. Als Schlüsselworte
werden die am höchsten
bewerteten Indexierungsterme verwendet. Dieses Verfahren läßt sich
insbesondere dann anwenden, wenn als Indexierungsterme Worte verwendet
werden. Oder es werden als Schlüsselworte
die Worte von Dokumenten verwendet, die die am höchsten bewerteten Indexierungsterme
enthalten.Preferably, an extract in the form of a list of keywords is generated using the cluster indexing term vector. This is preferably done in one of the following two ways:
The first type: The cluster indexing term vector is sorted in descending order according to the evaluations B (t, Koll) of the indexing terms relative to the collection. Keywords are the highest ranked indexing terms used. This method can be used in particular when words are used as indexing terms. Or keywords used are the words of documents containing the highest-ranked indexing terms.
Die
zweite Art: Für
jedes Wort w des ersten Dokuments D_0 und werden die Bewertungen
B(t, Koll) bezüglich
der Kollektion aller Indexierungsterme, die im Wort w enthalten
sind, addiert. Die Worte der Stopwortliste werden hierbei außer Acht
gelassen. Sei w ein Wort in D_0, das nicht zur Stopwortliste gehört, und seien
t_1, ..., t_l die Indexierungsterme, die im Wort w auftreten. Dann
wird die Bewertung B(w, Koll) des Wortes w bezüglich der Kollektion gemäß der Vorschrift
Eine weitere Ausgestaltung der Erfindung sieht vor, den sogenannten Benutzer-Klickpfad aufzuzeichnen und für die Erzeugung des Extrakts zu verwenden. Im Benutzer-Klickpfad sind diejenigen Dokumente der Kollektion aufgelistet, die bislang der Benutzer zur Anzeige ausgewählt hat, z. B. nachdem sie ihm vom Informationsbeschaffungssystem zur Auswahl angeboten wurden. Diese Auflistung umfaßt z. B. Verweise auf die Dokumente oder Repräsentationen von Dokumenten gemäß dem Vektorraum-Modell. Der Benutzer-Klickpfad repräsentiert damit das Profil des Benutzers bei dessen Suche nach Dokumenten. Der Benutzer-Klickpfad ist bevorzugt nach der zeitlichen Reihenfolge sortiert, in der der Benutzer Dokumente ausgewählt hat, das als letztes ausgewählte Dokument ist das letzte des Benutzer-Klickpfades. Beispielsweise werden die Internet- oder Intranet-Adresse eines Dokuments in Form einer eindeutigen Kennung, z. B. eines sogenannten „Uniform Resource Locator" (URL), ermittelt und lokal im Netzwerk-Teilnehmerrechner abgespeichert, wodurch der Benutzer-Klickpfad auf einem Netzwerk-Teilnehmerrechner zur Verfügung steht. Der Benutzer-Klickpfad wird z. B. in sogenannten „Cookies" eines Internet-Zugriffsprogramms abgespeichert. Der Benutzer-Klickpfad umfaßt eine Auflistung der Kennungen aller vom Benutzer ausgewählten Dokumente. Vorzugsweise wird der Benutzer-Klickpfad als Suchanfrage von einem Netzwerk-Teilnehmerrechner an einen Netzwerk-Zentralrechner gesandt. Durch diese Ausgestaltung werden keine Informationen benötigt, die im Netzwerk-Zentralrechner abgespeichert sind. Vielmehr reicht es, den Benutzer-Klickpfad auf dem Netzwerk-Teilnehmerrechner zu protokollieren und abzuspeichern.A Further embodiment of the invention provides, the so-called user click path record and for to use the production of the extract. In the user click path are those documents of the collection listed so far the User selected for display has, for. For example, after being sent to him by the information procurement system Selection were offered. This listing includes z. B. References to the documents or representations of documents according to the vector space model. The user click path represents thus the profile of the user in his search for documents. The user click path is preferred in chronological order sorted in which the user has selected documents as the last selected document is the last of the user's click path. For example, the Internet or intranet address of a document in the form of a unique Identifier, e.g. As a so-called "Uniform Resource Locator" (URL) determined and locally stored in the network subscriber computer, whereby the User click path on a network subscriber machine is available. The user click path is z. B. in so-called "cookies" an Internet access program stored. The user click path includes a list of identifiers all of the user selected Documents. Preferably, the user's clickthrough path is called a query from a Network subscriber computer sent to a network central computer. By this configuration no information is needed which are stored in the network central computer. Rather enough it to log the user click path on the network participant machine and save.
Beispielhaft
wird im folgenden die Erzeugung einer Liste von Schlüsselworten
als dem Extrakt beschrieben. Seien D_1, ..., D_k die Dokumente des
Benutzer-Klickpfades. Eines dieser Dokumente kann in diesem Beispiel
gleich dem ersten Dokument D_0 sein, z. B. das letzte Dokument des
Benutzer-Klickpfades. Für die
Indexierungsterme wird wie oben beschrieben eine Gewichtung G(t,
i) des Indexierungsterms t bezüglich des
Dokuments D_i bestimmt. Aus diesen Gewichtungen werden Schlüsselworte
bevorzugt auf eine der beiden folgenden Weisen bestimmt:
Ausgestaltung
1: Eine Bewertung B(t, BKP) des Indexierungsterms t bezüglich des
Benutzer-Klickpfades BKP und des ersten Dokuments D 0 wird wie oben
beschrieben bestimmt. In diese Bewertung fließen die k Gewichtungen G(t,
D_1), ..., G(t, D_k) des Indexierungsterms t bezüglich der k Dokumente des Benutzer-Klickpfades ein,
die gemäß dem Vektorraum-Modell
erzeugt worden sind. Beispielsweise ist G(t, D_i) = tf(t, D_i)·idf (t),
und G(t, BKP) wird gemäß der Vorschrift bestimmt.By way of example, the generation of a list of keywords as the extract will be described below. Let D_1, ..., D_k be the documents of the user-click path. One of these documents may in this example be the same as the first document D_0, e.g. For example, the last document of the user click path. For the indexing terms, as described above, a weighting G (t, i) of the indexing term t with respect to the document D_i is determined. From these weights keywords are preferably determined in one of two ways:
Embodiment 1: A score B (t, BKP) of the indexing term t with respect to the user click path BKP and the first document D 0 is determined as described above. Included in this evaluation are the k weights G (t, D_1), ..., G (t, D_k) of the indexing term t with respect to the k documents of the user click path generated according to the vector space model. For example, G (t, D_i) = tf (t, D_i) * idf (t), and G (t, BKP) becomes according to the rule certainly.
Wie oben beschrieben wird anschließend aus den Bewertungen B(t_1, BKP), ..., B(t_l, BKP) von den in einem Wort w enthaltenen Indexierungsterme t_1, ..., t_l eine Bewertung B(w, BKP) des Worts w erzeugt. Die l Bewertungen der Indexierungsterme t_1, ..., t_l, die in einem Wort w enthalten sind, werden zu einer Bewertung B(w, BKP) zusammengefaßt. Die Bewertung B(w, BKP) wird vorzugsweise gemäß der Vorschrift bestimmt. Eine weitere Ausführungsform ist As described above, then, from the scores B (t_1, BKP), ..., B (t_l, BKP) of the indexing terms t_1, ..., t_l included in a word w, a score B (w, BKP) of the word w generated. The l ratings of the indexing terms t_1, ..., t_l contained in a word w are combined into a score B (w, BKP). The rating B (w, BKP) is preferably according to the regulation certainly. Another embodiment is
In beiden Berechnungsvorschriften ist n die Anzahl von Zeichen im Wort w. Wort-Bewertungen werden für Worte des ersten Dokuments D_0 und der Dokumente des Benutzer-Klickpfades durchgeführt. Die am höchsten bewerteten Worte werden als Schlüsselworte verwendet.In In both calculation rules, n is the number of characters in the word w. Word ratings are for Words of the first document D_0 and the documents of the user click path. The the highest rated words are considered keywords used.
Ausgestaltung 2: In einem ersten Schritt werden mit Hilfe der Gewichtungen G(t, D_i) jeweils getrennt Schlüsselworte für die Dokumente D_1, ..., D_k des Benutzer-Klickpfades berechnet, also ohne daß der komplette Benutzer-Klickpfad für diese Ermittlung von Schlüsselworten eines Dokuments verwendet wird. Für die Ermittlung der Schlüsselworte werden oben beschriebene Verfahren analog verwendet, z. B. indem für ein Wort w im Dokument D_i die im Wort w enthaltenen Indexierungsterme t_1, ..., t_l ermittelt werden und ihre Gewichtungen G(t_1, D_i), ..., G(t_l, D_i) zu einer Bewertung B(w, D_i) zusammengefaßt werden. Beispielsweise wird B(w, D_i) gemäß der Vorschrift berechnet, wobei n die Anzahl von Zeichen im Wort w ist.Embodiment 2: In a first step, the keywords G (t, D_i) are used to calculate separate keywords for the documents D_1,..., D_k of the user click path, ie without the complete user click path for this keyword determination a document is used. For the determination of the keywords above-described methods are used analogously, z. By determining, for a word w in the document D_i, the indexing terms t_1,..., T_l contained in the word w and assigning their weightings G (t_1, D_i),..., G (t_l, D_i) to a rating B (FIG. w, D_i). For example, B (w, D_i) becomes according to the rule where n is the number of characters in the word w.
Für jedes Dokument D_i (i = 1, ..., k) werden dadurch r_i Schlüsselworte bestimmt. Sei B(w, i) die Einzel-Bewertung eines Schlüsselwortes w bezüglich des Dokuments D_i (i = 1, ..., k). Aus den Einzel-Bewertungen der Schlüsselworte bezüglich der Dokumente werden Bewertungen der Schlüsselworte bezüglich der Kollektion bestimmt, indem die Einzel-Bewertungen addiert werden.For each Document D_i (i = 1, ..., k) become r_i keywords certainly. Let B (w, i) be the single evaluation of a keyword w respect of the document D_i (i = 1, ..., k). From the individual reviews of Keywords in terms of The documents will be reviews of keywords regarding the Collection determined by adding the individual ratings.
Ein
Beispiel für
die Ausgestaltung 2: Falls das Wort w ein Schlüsselwort für die Dokumente D_1, D_2 und
D_k ist (mit k > =
3), so ist die Gesamt-Bewertung B(w, BKP) = B(w, 1) + B(w, 2) +
B(w, k). Ein weiteres Beispiel:
Falls w nur für das Dokument
D_3 und für
kein anderes Dokument des Benutzer-Klickpfades Schlüsselwort
ist, so ist die Gesamt-Bewertung B(w, BKP) = B(w, 3).An example of Embodiment 2: If the word w is a keyword for the documents D_1, D_2 and D_k (with k> = 3), then the overall score is B (w, BKP) = B (w, 1) + B (w, 2) + B (w, k). Another example:
If w is keyword only for document D_3 and no other user path document, the overall score is B (w, BKP) = B (w, 3).
Diese Ausgestaltungen führen in der Regel ohne weitere Vorkehrung dazu, daß Worte hoch bewertet werden, die Themen beschreiben, die für den Benutzer relevant sind oder ihn interessieren. Denn viele Dokumente des Benutzer-Klickpfades beziehen sich auf Themen, die den Benutzer interessieren und/oder für ihn relevant sind. Wenn der Benutzer auf ein ihn interessierendes Dokument stößt, wird er oft nach ähnlichen Dokumente suchen oder suchen lassen. Worte in diesem Dokument erhalten daher eine hohe Bewertung, einige werden zu Schlüsselworten. Stößt er hingegen auf ein für ihn uninteressantes Dokument, so wird er kein ähnliches Dokument anfordern, und die nur im uninteressanten Dokument auftretenden Worte erhalten eine niedrige Bewertung.These Configurations lead usually with no further provision for words to be highly valued, Describe the topics for the user is relevant or interests him. Because many documents of the user's click path relate to topics that the user interested and / or for him are relevant. If the user is interested in a Document encounters will he often after similar Search or search documents. Words received in this document therefore a high rating, some become key words. On the other hand he hits on one for him uninteresting document, he will not request a similar document, and receive the words appearing only in the uninteresting document a low rating.
Die gerade beschriebenen Ausgestaltungen lassen sich verwenden, um Schlüsselworte für ein einzelnes erstes Dokument D_0 unter Berücksichtigung des Kontextes zu bestimmen. Es ist auch möglich, einen Satz von Schlüsselworten für mehrere Dokumente zu erzeugen, beispielsweise für die Dokumente des Benutzer-Klickpfades. Die erzeugten Schlüsselworte beschreiben den wesentlichen Inhalt der vom Benutzer ausgewählten Dokumente.The just described embodiments can be used to key words for a single first document D_0 considering the context to determine. It is also possible, a set of keywords for many Create documents, such as the user click path documents. The generated keywords describe the essential content of the documents selected by the user.
Eine Fortbildung der Erfindung sieht vor, die Bewertung eines Wortes so wie in den beiden vorigen Abschnitten beschrieben zu berechnen, aber zusätzlich Bewertungen der k Dokumente des Benutzer-Klickpfades zu bestimmen und bei der Berechnung der Wort-Bewertungen zu verwenden.A Training the invention provides the evaluation of a word as described in the previous two sections, but in addition To determine reviews of the k documents of the user click path and to use in the calculation of word scores.
Gemäß einer Ausgestaltung dieser Fortbildung wird ein Dokument um so höher bewertet, je später es in dem chronologisch sortierten Benutzer-Klickpfad auftritt. Das Dokument, das der Benutzer als erstes ausgewählt hat, erhält also die niedrigste Bewertung und das zuletzt ausgewählte die höchste.According to one Design of this training, the higher the value of a document, the later it occurs in the chronologically sorted user click path. The document that the user first selected will receive the lowest rating and the last one selected the highest.
In einer weiteren Ausgestaltung werden bei der Berechnung der Dokument-Bewertungen Dokumente hinsichtlich ihrer Relevanz für den Benutzer unterschiedlich bewertet. Dabei wird automatisch die Relevanz ermittelt, während bisher nur Verfahren bekannt sind, um die Relevanz durch Befragung des Benutzers und Auswertung seiner Rückmeldungen zu ermitteln. Vorzugsweise wird eine der beiden folgenden Methoden angewendet, um die Relevanz eines Dokuments des Benutzer-Klickpfades automatisch zu ermitteln:
- • Notiert wird, für welche Dokumente der Benutzer eine Suche nach ähnlichen Dokumenten forderte. Aus U: Bohnacker et al. ist bekannt, wie ein Informationsbeschaffungssystem automatisch eine Suche nach ähnlichen Dokumenten durchführt. Diese Dokumente werden als relevant eingestuft.
- • Die Ähnlichkeit zwischen jeweils zwei Dokumenten der Kollektion wird wie oben beschrieben vorab ermittelt, z. B. durch das aus U. Bohnacker et al. bekannte Verfahren. Wenn im Benutzer-Klickpfad zwei nacheinander folgende Dokumente D_i und D_j ähnlich sind, also ein hohes Maß für die Ähnlichkeit haben, so wird das zeitlich frühere Dokument D_i als relevant bewertet.
- • It is noted for which documents the user requested a search for similar documents. From U: Bohnacker et al. It is well known how an information retrieval system automatically performs a search for similar documents. These documents are considered relevant.
- • The similarity between every two documents in the collection is determined in advance as described above telt, z. B. by the U. Bohnacker et al. known method. If two consecutive documents D_i and D_j are similar in the user click path, ie have a high degree of similarity, the earlier document D_i is evaluated as relevant.
Wie automatisch Klassifikationen der ermittelten weiteren Dokumente in relevante und nicht relevante Dokumente verwendet werden, wird wieder am Beispiel eines Extrakts in Form einer Liste von Schlüsselworten beschrieben. Aufgrund ihrer Relevanz werden Bewertungen für die Dokumente des Benutzer-Klickpfades bestimmt und für die Berechnung von Wort-Bewertungen verwendet. Eine Ausgestaltung sieht vor, für ein Wort w des ersten Dokuments D_0 die l Indexierungsterme t_1, ..., t_l der Indexierungssprache zu ermitteln, die im Wort w enthalten sind. Für einen solchen Indexierungsterm t_j (j = 1, ..., l) werden wie oben beschrieben k Einzel-Bewertungen B(t_j, D_1), ..., B(t_j, D_k) des Indexierungsterms t_j bezüglich der k Dokumente D_1, ..., D_k des Benutzer-Klickpfades sowie eine Einzel-Bewertung B(t_j, D_0) bezüglich des ersten Dokuments D_0 bestimmt. Die Gesamt-Bewertung B(t_j, BKP) des Indexierungsterms t_j bezüglich des Benutzer-Klickpfades BKP und des ersten Dokuments wird gemäß der Formel bestimmt. Hierbei bezeichnen D[R] und D[N] die Menge der relevanten bzw. nicht relevanten Dokumente im Benutzer- Klickpfad und R bzw. N die Anzahl der Dokumente in D[R] bzw. D[N]. Aus den l Bewertungen B(t_j, D_l), ..., B(t_j, D_k) wird eine Bewertung B(w, BKP) des Worts w bestimmt. Hoch bewertete Worte werden wiederum als Schlüsselworte verwendet.The way in which classifications of the additional documents determined are automatically used in relevant and irrelevant documents is again described using the example of an extract in the form of a list of keywords. Because of their relevance, ratings for the user click path documents are determined and used to calculate word scores. An embodiment provides for a word w of the first document D_0 to determine the indexing terms t_1,..., T_l of the indexing language that are contained in the word w. For such an indexing term t_j (j = 1, ..., l), as described above, k individual scores B (t_j, D_1), ..., B (t_j, D_k) of the indexing term t_j with respect to the k documents D_1, ..., D_k of the user click path and a single score B (t_j, D_0) with respect to the first document D_0. The overall score B (t_j, BKP) of the indexing term t_j with respect to the user click path BKP and the first document is determined according to the formula certainly. Here, D [R] and D [N] denote the amount of relevant or irrelevant documents in the user click path and R and N respectively the number of documents in D [R] and D [N]. From the l judgments B (t_j, D_l), ..., B (t_j, D_k), a score B (w, BKP) of the word w is determined. Highly valued words are again used as keywords.
Nachdem erfindungsgemäß Schlüsselworte für das erste Dokument D_0 ermittelt wurden, lassen sich diese Schlüsselworte verwenden, um eine Zusammenfassung für das erste Dokument zu erzeugen. Bevorzugt werden hierfür folgende Schritte durchgeführt:
- 1. Das erste Dokument D_0 wird in Sätze zerlegt.
- 2. Die Sätze des ersten Dokuments werden bewertet. Um die Bewertung eines Satzes s zu berechnen, werden die Bewertungen von im Satz s enthaltenen Worten verwendet.
- 3. Aus den hoch bewerteten Sätzen wird eine Zusammenfassung des ersten Dokuments erzeugt.
- 1. The first document D_0 is decomposed into sentences.
- 2. The sentences of the first document are evaluated. To compute the score of a sentence s, the scores of words contained in the sentence s are used.
- 3. A summary of the first document is generated from the high-valued sentences.
Um den Schritt 1, nämlich die Zerlegung des ersten Dokuments in Sätzen, durchzuführen, werden bevorzugt die folgenden syntaktischen Regeln angewendet, die für viele Sprachen gelten:
- – Ein Satz endet mit einem Satztrennzeichen (!, ? und.).
- – Ein Satz beginnt am Textanfang oder nach einem Satzende-Zeichen.
- – Befindet sich vor einem Punkt eine Abkürzung, so markiert dieser Punkt nicht das Satzende.
- – Befindet sich ein Punkt unmittelbar nach einer Zahl zwischen 1 und 31, so markiert dieser Punkt ebenfalls kein Satzende.
- – Befindet sich ein Punkt direkt nach einer Ziffer und ist das nächste Zeichen, das kein Leerzeichen ist, ebenfalls eine Ziffer, dann markiert der Punkt ebenfalls kein Satzende.
- – Befinden sich mehrere Satztrennzeichen unmittelbar hintereinander, so wird nur das letzte Satztrennzeichen berücksichtigt.
- – Ein Satzende-Zeichen kennzeichnet dann das Ende eines Satzes, wenn darauf mindestens ein Leerzeichen gefolgt von einer Ziffer oder einem Großbuchstaben folgt.
- – Befindet sich ein Satzende-Zeichen am Ende des Textes, so kennzeichnet dieses auf jedem Fall das Ende eines Satzes.
- – Ein Satz muß mindestens drei Worte haben.
- – Ein Satz darf eine vorgegebene Anzahl von Worten oder Zeichen nicht überschreiten.
- - A sentence ends with a sentence delimiter (!,? And.).
- - A sentence starts at the beginning of the text or after the end of a sentence.
- - If there is an abbreviation before a point, this point does not mark the end of the sentence.
- - If a point is immediately after a number between 1 and 31, this point also does not mark a sentence end.
- - If a point is directly after a number and the next character, which is not a space, is also a number, the point also does not mark a sentence end.
- - If there are several record delimiters immediately after one another, only the last record delimiter is taken into account.
- - An end-of-sentence character marks the end of a sentence if it is followed by at least one space followed by a digit or a capital letter.
- - If an end-of-sentence character is at the end of the text, this always marks the end of a sentence.
- - A sentence must have at least three words.
- - A sentence may not exceed a given number of words or characters.
Diese Regeln werden auf das erste Dokument D_0 angewendet und liefern eine Auflistung der Sätze.These Rules are applied to the first document D_0 and deliver a list of sentences.
Für den Schritt 2, nämlich die Berechnung von Satz-Bewertungen, werden bevorzugt ausschließlich Schlüsselworte, die im ersten Dokument enthalten sind, herangezogen. Deren Bewertungen werden zu einer Satz-Bewertung zusammengefaßt. Sei s ein Satz des ersten Dokuments. Falls dieser Satz kein Schlüsselwort enthält, erhält er die niedrigste Bewertung, z. B. die Zahl 0. Seien ansonsten w_1, ..., w_k die k Schlüsselworte des Satzes s (k > = 1). Seien B(w_1), ..., B(w_k) die k Bewertungen dieser Schlüsselworte, die nach einer der oben beschriebenen Ausgestaltungen der Erfindung ermittelt wurden. Sei S je nach Ausgestaltung die Anzahl der Worte (Schlüsselworte und sonstige Worte) oder die Anzahl der Zeichen des Satzes s. Bevorzugt wird die Bewertung B(s) des Satzes s nach einer der folgenden Vorschriften bestimmt: For step 2, namely the calculation of sentence evaluations, preferably only keywords which are contained in the first document are used. Their ratings are combined into a sentence rating. Let's be a sentence of the first document. If this sentence does not contain a keyword, it receives the lowest score, e.g. For example, the number 0. Otherwise, w_1, ..., w_k are the k keywords of the sentence s (k> = 1). Let B (w_1), ..., B (w_k) be the k ratings of these keywords, which were determined according to one of the above-described embodiments of the invention. Depending on the configuration, let S be the number of words (keywords and other words) or the number of characters of the sentence s. Preferably, the score B (s) of the sentence s is determined according to one of the following rules:
Dadurch, daß in die Bewertung der Faktor k einfließt, also die Anzahl von Schlüsselworten im Satz, wird ein Satz mit mehreren Schlüsselworten in der Regel höher bewertet als einer mit nur einem Schlüsselwort, auch wenn dieses eine hohe Wort-Bewertung erhält.Thereby, that in the rating factor k, ie the number of keywords, is included In the sentence, a phrase with multiple keywords is usually rated higher as one with only one keyword, too if this gets a high word rating.
Beim Schritt 3, der Erzeugung der Zusammenfassung aus Sätzen, werden die Sätze des ersten Dokuments bevorzugt absteigend nach den in Schritt 2 berechneten Satz-Bewertungen sortiert. Die Zusammenfassung wird aus den m am höchsten bewerteten Sätzen des ersten Dokuments D_0 erzeugt. Die Reihenfolge der Sätze ist in der erzeugten Teil-Zusammenfassung die gleiche wie im ersten Dokument D_0. Vorzugsweise wird eine obere Schranke für die Anzahl der Zeichen der Zusammenfassung vorgegeben, z. B. maximal 500 Zeichen. Die Anzahl m der ausgewählten Sätze der Zusammenfassung wird so bestimmt, daß die m Sätze zusammen nicht mehr Zeichen als die vorgegebene Schranke haben. Eine andere Ausgestaltung sieht vor, direkt die Anzahl m der auszuwählenden Sätze vorzugeben.At the Step 3, generating the summary of sentences the sentences of the first document prefers descending to those in step 2 calculated sentence evaluations sorted. The summary will from the m highest rated sentences of the first document D_0. The order of the sentences is in the generated part summary the same as in the first one Document D_0. Preferably, an upper bound for the number given the character of the summary, z. For example, a maximum of 500 characters. The number m of the selected Sentences of Summary is determined so that the m sentences together no longer sign than the given limit. Another embodiment sees to directly specify the number m of sets to be selected.
Eine Fortbildung der Erfindung sieht vor, anstelle von Sätzen vielmehr Abschnitte des ersten Dokuments zu bewerten und die Zusammenfassung aus hoch bewerteten Abschnitten zusammenzusetzen. Die Zusammenfassung wird durch drei Schritte analog zu den oben beschriebenen drei Schritten erzeugt.A Training of the invention provides, instead of sentences rather Evaluate sections of the first document and the abstract composed of highly rated sections. The abstract becomes analogous to the three steps described above by three steps generated.
Um den Schritt 1, nämlich die Zerlegung des Dokuments in Abschnitte, durchzuführen, wird bevorzugt die Formatierung des ersten Dokuments berücksichtigt, z. B. indem nach Leerzeilen gesucht wird oder indem syntaktische Regeln angewendet werden. In Dokument-Beschreibungssprachen wie HTML oder XML werden Abschnitte durch bestimmte Zeichenfolgen gekennzeichnet, z. B. <P> und </P>. In Schritt 2 wird die Bewertung eines Abschnitts a bevorzugt gemäß der Formel berechnet. Der Abschnitt a enthält hierbei die k Schlüsselworte w_1, ..., w_k und insgesamt A Worte.In order to carry out step 1, namely the decomposition of the document into sections, the formatting of the first document is preferably taken into account, eg. By searching for empty lines or by applying syntactic rules. In document description languages, such as HTML or XML, sections are identified by specific strings, such as text strings. For example, <P> and </ P>. In step 2, the evaluation of a section a is preferred according to the formula calculated. The section a contains the k keywords w_1, ..., w_k and a total of A words.
Eine andere Ausgestaltung sieht vor, daß eine Zusammenfassung ausschließlich aus dem am höchsten bewerteten Abschnitt des Textes erzeugt wird. Hierfür wird eine obere Schranke für die Anzahl der Zeichen der Zusammenfassung vorgegeben. Das erste Dokument wird so in Abschnitte zerlegt, daß jeder Abschnitt aus vollständigen, im ersten Dokument aufeinander folgenden Sätzen besteht und jeder Abschnitt höchsten aus so vielen Zeichen wie die obere Schranke besitzt. Jeder Abschnitt wird nach einer der oben beschriebenen Ausgestaltungen bewertet, wofür die Bewertungen der im Abschnitt enthaltenen Schlüsselworte verwendet werden. Die Zusammenfassung ist gleich dem am höchsten bewerteten Abschnitt.A another embodiment provides that a summary exclusively from the highest evaluated section of the text is generated. For this is a upper barrier for the number of characters of the summary given. The first The document is divided into sections so that each section consists of complete, in the first document consists of successive sentences and each section highest has as many characters as the upper bound. Every section is evaluated according to one of the embodiments described above, for what Reviews of keywords included in the section can be used. The summary is equal to the highest rated section.
Eine weitere Ausgestaltung der Erfindung offenbart eine Methode, um mit Hilfe des Benutzer-Klickpfades direkt einen Extrakt in Form einer Zusammenfassung zu erzeugen, ohne zuvor Schlüsselworte zu ermitteln. Vorzugsweise wird wie oben beschrieben der Benutzer-Klickpfad als Suchanfrage als Suchanfrage von einem Netzwerk-Teilnehmerrechner an einen Netzwerk-Zentralrechner gesandt, um die weiteren Dokumente zu ermitteln. Eine Fortbildung sieht vor, nur diejenigen Dokumente des Benutzer-Klickpfades bei der Erzeugung einer Zusammenfassung zu berücksichtigen, die automatisch als relevant eingestuft worden sind, und zwar vorzugsweise nach einem der oben beschriebenen Ausgestaltungen. Die Zusammenfassung für das erste Dokument D_0 wird erzeugt, indem Bewertungen für die Sätze des ersten Dokuments berechnet werden. Die Zusammenfassung wird durch Zusammensetzen von hoch bewerteten Sätzen erzeugt.A Another embodiment of the invention discloses a method to with Help the user click path directly extract in the form of a Generate summary without first identifying keywords. Preferably As described above, the user's click path becomes a query as a query from a network subscriber to a network host sent to determine the other documents. A training provides only those documents of the user click path to consider the generation of a summary automatically have been classified as relevant, preferably after one of the embodiments described above. The abstract for the first document D_0 is generated by evaluating the sentences of the first document. The summary is through Composition of highly valued sentences generated.
Die Bewertung eines Satzes s wird mit Hilfe des Benutzer-Klickpfades – oder nur der relevanten Dokumente des Benutzer-Klickpfades – berechnet. Seien D_1, ..., D_k die für die Berechnung der Bewertung herangezogenen Dokumente des Benutzer-Klickpfades – entweder alle oder die als relevant ermittelten Dokumente –, die im folgenden als weitere ermittelte Dokumente verwendet werden. In die Bewertung des Satzes s fließen Bewertungen von Indexierungstermen ein, die sowohl im Satz s als auch den k Dokumenten D_1, ..., D_k der weiteren ermittelten Dokumente auftreten. Seien t_1, ..., t_l diese Indexierungsterme. Diese Indexierungsterme gehören zu einer vorgegebenen Indexierungssprache, vorzugsweise sind es Quadgramme, Trigramme, Worte oder Wortstämme.The evaluation of a sentence s is calculated using the user click path - or only the relevant documents of the user click path. Let D_1, ..., D_k be the documents of the user click path used for the calculation of the evaluation - either all or the documents determined to be relevant - which will be used as further determined documents in the following. In the evaluation of the sentence s, evaluations of indexing terms, which are contained in the sentence s as well as the k documents D_1,. D_k the other documents detected occur. Let t_1, ..., t_l be these indexing terms. These indexing terms belong to a given indexing language, preferably quadgrammes, trigrams, words or root words.
Eine Ausgestaltung sieht vor, daß Worte des Satzes, insbesondere Schlüsselworte, bewertet werden und hierbei Funktionsworte einer Stopwortliste nicht berücksichtigt werden. Eine Bewertung B(t_j, s, BKP) des Indexierungsterms D_j bezüglich des Satzes s und der weiteren ermittelten Dokumente des Benutzer-Klickpfades BKP wird bestimmt (j = 1, ..., l). Die Satz-Bewertung B(s, BKP) wird gemäß einer Ausführungsform aus diesen l Indexierungsterm-Bewertungen durch Aufaddieren bestimmt, also gemäß der Vorschrift An embodiment provides that words of the sentence, in particular keywords, are evaluated and function words of a stop word list are not taken into account. A score B (t_j, s, BKP) of the indexing term D_j with respect to the set s and the other identified documents of the user click path BKP is determined (j = 1, ..., l). The sentence score B (s, BKP) is determined according to an embodiment from these l Indexierungsterm evaluations by adding, ie according to the rule
Diese Vorschrift wird als Euklidisches Maß für die Ähnlichkeit zwischen dem Satz und der als Suchanfrage des Informationsbeschaffungssystems behandelten Benutzer-Klickpfades BKP bezeichnet.These Prescription is considered Euclidean measure of the similarity between the sentence and that treated as a search query of the information procurement system User Click path BKP designates.
Die
in der obigen Berechnungsvorschrift verwendete Bewertung B(t_j,
s, BKP) des Indexierungsterms t_j wird bevorzugt nach der Vorschrift
Die Gewichtungen G(t_j, s) und G(t_j, BKP) werden beide mit Hilfe einer Ausgestaltung des tf/idf-Verfahrens berechnet, nämlich gemäß den Vorschriften The weights G (t_j, s) and G (t_j, BKP) are both calculated using one embodiment of the tf / idf method, namely according to the rules
Hierbei geben die Term-Häufigkeiten tf(t_j) und tf(t_j, BKP) an, wie oft der Indexierungsterm t_j im Satz s bzw. in den k weiteren ermittelten Dokumenten D_1, ..., D_k auftritt, und df(t_j) ist die Anzahl von weiteren ermittelten, in denen der Indexierungsterm t_j mindestens einmal vorkommt. Der Faktor wird in dieser Ausgestaltung als inverse Dokumenthäufigkeit des tf/idf-Verfahrens verwendet.Here, the term frequencies tf (t_j) and tf (t_j, BKP) indicate how often the indexing term t_j occurs in the set s or in the k further determined documents D_1, ..., D_k, and df (t_j) determined the number of others in which the indexing term t_j occurs at least once. The factor is used in this embodiment as the inverse document frequency of the tf / idf method.
Gemäß einer bevorzugten Ausführungsform wird hingegen eine Normierung vorgenommen und als Ähnlichkeitsmaß zwischen dem Satz s und den ermittelten weiteren Dokumenten ein Cosinus-Maß verwendet. Die Satz-Bewertung wird dann nach der Vorschrift berechnet. Die Gewichtungen des Indexierungsterms t_j werden wie oben beschrieben berechnet.On the other hand, according to a preferred embodiment, a normalization is performed and a cosinus measure is used as a measure of similarity between the set s and the additional documents determined. The sentence rating will then be according to the regulation calculated. The weights of the indexing term t_j are calculated as described above.
Eine Weiterbildung dieser Ausgestaltung sieht vor, zunächst einen Extrakt in Form einer Zusammenfassung mit Sätzen oder Abschnitten zu erzeugen und anschließend Schlüsselworte in dieser Zusammenfassung zu ermitteln. Dadurch werden weniger Schlüsselworte als bei anderen Verfahren ermittelt, weil als Schlüsselworte nur Worte der Zusammenfassung in Betracht kommen. Als Schlüsselworte werden dabei bevorzugt diejenigen Worte der Zusammenfassung ermittelt, die zur Bewertung der für die Zusammenfassung ausgewählten Sätze am meisten beigetragen haben.A development of this embodiment provides to first generate an extract in the form of a summary with sentences or sections and then to identify keywords in this summary. As a result, fewer keywords than other methods are determined, because as Keywords only words of the summary come into consideration. The key words are preferably those words of the summary which have contributed most to the evaluation of the sentences selected for the abstract.
Vorzugsweise werden Bewertungen von Worten bezüglich der einzelnen Sätze der Zusammenfassung erzeugt und anschließend Gesamt-Bewertungen der Worte bezüglich der Zusammenfassung erzeugt. Beispielsweise wird die Gesamt-Bewertung B(w, s, BKP) eines Wortes w bezüglich des Satzes s der Zusammenfassung und bezüglich der weiteren ermittelten Dokumente D_1, ..., D_k des Benutzer-Klickpfades einschließlich des ersten Dokuments gemäß berechnet. Hierbei geben tf(w, s) und tf(w, BKP) an, wie oft das Wort w in dem Satz s bzw. in den k weiteren ermittelten Dokumenten auftritt. Die Anzahl von weiteren ermittelten Dokumenten, in denen das Wort w mindestens einmal vorkommt, wird mit df(w) bezeichnet.Preferably, evaluations of words are generated with respect to the individual sentences of the summary, and then aggregated evaluations of the words are generated. For example, the overall score B (w, s, BKP) of a word w with respect to the sentence s of the summary and with respect to the further determined documents D_1, ..., D_k of the user click path including the first document is determined according to FIG calculated. Here tf (w, s) and tf (w, BKP) indicate how often the word w occurs in the set s or in the k other documents found. The number of further detected documents in which the word w occurs at least once is denoted df (w).
Claims (14)
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10160920A DE10160920B4 (en) | 2000-12-14 | 2001-12-07 | Method and device for producing an extract of documents |
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
DE10062291 | 2000-12-14 | ||
DE10062291.7 | 2000-12-14 | ||
DE10160920A DE10160920B4 (en) | 2000-12-14 | 2001-12-07 | Method and device for producing an extract of documents |
Publications (2)
Publication Number | Publication Date |
---|---|
DE10160920A1 DE10160920A1 (en) | 2002-07-18 |
DE10160920B4 true DE10160920B4 (en) | 2006-07-06 |
Family
ID=7667104
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE10160920A Expired - Fee Related DE10160920B4 (en) | 2000-12-14 | 2001-12-07 | Method and device for producing an extract of documents |
Country Status (1)
Country | Link |
---|---|
DE (1) | DE10160920B4 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377750B (en) * | 2019-06-17 | 2022-05-27 | 北京百度网讯科技有限公司 | Comment generation method, comment generation device, comment generation model training device and storage medium |
-
2001
- 2001-12-07 DE DE10160920A patent/DE10160920B4/en not_active Expired - Fee Related
Non-Patent Citations (6)
Title |
---|
CARBONELL, J.G. et al.: The Use of MMR, Diversity- Based Reranking for Reordering Documents and Producing Summaries; In: Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, August 24-28, 1988, Melbourne, Australia, S. 1-2 |
CARBONELL, J.G. et al.: The Use of MMR, Diversity-Based Reranking for Reordering Documents and Producing Summaries * |
GOLDSTEIN, J. et al.: Creating and Evaluating Multi-Document Sentenca Extract Summaries * |
GOLDSTEIN, J. et al.: Creating and Evaluating Multi-Document Sentenca Extract Summaries; In Proceedings of the Ninth International Conference on Information and Knowledge Management, McLean (VA), Nov. 6-11, 2000, pp. 165-172, 2000 |
In Proceedings of the Ninth International Conference on Information and Knowledge Management, McLean (VA), Nov. 6-11, 2000, pp. 165-172, 2000 * |
In: Proceedings of the 21·st·Annual International ACM SIGIR Conference on Research and Development in Information Retrieval,August 24-28, 1988, Melbourne, Australia, S. 1-2 * |
Also Published As
Publication number | Publication date |
---|---|
DE10160920A1 (en) | 2002-07-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE69811066T2 (en) | DATA SUMMARY DEVICE. | |
DE69624985T2 (en) | Method and device for generating search responses in a computer-aided document retrieval system | |
DE69804495T2 (en) | INFORMATION MANAGEMENT AND RECOVERY OF KEY TERMS | |
DE69815898T2 (en) | IDENTIFYING THE MOST RELEVANT ANSWERS TO A CURRENT SEARCH REQUEST BASED ON ANSWERS ALREADY SELECTED FOR SIMILAR INQUIRIES | |
DE69230814T2 (en) | Database discovery system for answering natural language questions with associated tables | |
DE69424902T2 (en) | Device and method for adaptable non-literal text search | |
DE69433165T2 (en) | ASSOCIATIVE TEXT SEARCH AND REINFORCEMENT SYSTEM | |
DE69809263T2 (en) | METHODS AND SYSTEM FOR SELECTING DATA SETS | |
DE3650736T2 (en) | Information retrieval process | |
DE69829074T2 (en) | IDENTIFICATION OF LANGUAGE AND SYMBOLS FROM TEXT-REPRESENTATIVE DATA | |
DE69834386T2 (en) | TEXT PROCESSING METHOD AND RETENTION SYSTEM AND METHOD | |
DE69617515T2 (en) | Automatic method for generating thematic summaries | |
DE69432575T2 (en) | Document recognition system with improved effectiveness of document recognition | |
DE69606021T2 (en) | METHOD AND / OR DEVICE FOR ACCESSING INFORMATION | |
DE60304331T2 (en) | RETRIEVING CONFIRMATIVE DOCUMENTS BY POLLING IN A NATIONAL LANGUAGE | |
DE602004003361T2 (en) | SYSTEM AND METHOD FOR GENERATING REFINEMENT CATEGORIES FOR A GROUP OF SEARCH RESULTS | |
DE69933187T2 (en) | Document Search and Service | |
DE112015005839T5 (en) | Use of statistical flow data for machine translations between different languages | |
DE10231161A1 (en) | Domain-specific knowledge-based meta search system and method for using the same | |
DE10343228A1 (en) | Methods and systems for organizing electronic documents | |
DE69933123T2 (en) | ACCESS TO A SEMI-STRUCTURED DATABASE | |
DE10034694A1 (en) | Procedure for comparing search profiles | |
WO2010078859A1 (en) | Method and system for detecting a similarity of documents | |
DE10160920B4 (en) | Method and device for producing an extract of documents | |
EP1412875B1 (en) | Method for processing text in a computer and computer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
OP8 | Request for examination as to paragraph 44 patent law | ||
8364 | No opposition during term of opposition | ||
8327 | Change in the person/name/address of the patent owner |
Owner name: DAIMLERCHRYSLER AG, 70327 STUTTGART, DE |
|
8339 | Ceased/non-payment of the annual fee |