DE60316227T2 - Bewertung der Eigenartigkeit eines Dokuments - Google Patents

Bewertung der Eigenartigkeit eines Dokuments Download PDF

Info

Publication number
DE60316227T2
DE60316227T2 DE60316227T DE60316227T DE60316227T2 DE 60316227 T2 DE60316227 T2 DE 60316227T2 DE 60316227 T DE60316227 T DE 60316227T DE 60316227 T DE60316227 T DE 60316227T DE 60316227 T2 DE60316227 T2 DE 60316227T2
Authority
DE
Germany
Prior art keywords
document
diversity
segment
vector
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE60316227T
Other languages
English (en)
Other versions
DE60316227D1 (de
Inventor
Takahiko Kawatani
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hewlett Packard Development Co LP
Original Assignee
Hewlett Packard Development Co LP
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hewlett Packard Development Co LP filed Critical Hewlett Packard Development Co LP
Application granted granted Critical
Publication of DE60316227D1 publication Critical patent/DE60316227D1/de
Publication of DE60316227T2 publication Critical patent/DE60316227T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Business, Economics & Management (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Die vorliegende Erfindung bezieht sich auf eine Verarbeitung natürlicher Sprache, die eine Dokumentenzusammenfassung umfasst. Insbesondere bezieht sich die vorliegende Erfindung auf ein quantitatives Auswerten des Grads an Verschiedenartigkeit eines konstituierenden Elements (wie beispielsweise eines Satzes, Ausdrucks oder einer Phrase) von einem oder zwei Dokumenten oder Dokumentensätzen, die verglichen wurden, wodurch die Leistungsfähigkeit der Verarbeitung natürlicher Sprache verbessert wird.
  • Ein Prozess, bei dem zwei Dokumente oder Dokumentensätze verglichen werden, um die unterschiedlichen Teile zwischen denselben zu extrahieren, ist bei einer Mehrdokumentenzusammenfassung wichtig. Im Hinblick auf die folgende Erörterung wird das Dokument, aus dem die unterschiedlichen Teile extrahiert werden, das „Zieldokument" genannt, während das andere Dokument, mit dem das Zieldokument verglichen wird, das „Vergleichsdokument" genannt wird. Es war bisher eine übliche Praxis, sowohl das Zieldokument als auch das Vergleichsdokument in kleine Elemente zu teilen und die sich ergebenden Elemente zu kollationieren und die Elemente, die keine Entsprechung aufweisen, als die unterschiedlichen Teile zu identifizieren. Das Element kann ein Satz, ein Absatz und jeder einzelne Bereich sein, falls das Dokument an den Wechselpunkten von extrahierten Themen automatisch geteilt wurde. In einem derartigen Fall werden häufig Vektorraummodelle für die Kollationierung der Elemente eingesetzt. In einem Fall, in dem jedes Element durch ein Vektorraummodell dargestellt ist, entsprechen die Komponenten des Vektors einzelnen Ausdrücken, die in dem Dokument auftreten, und die Häufigkeit des entsprechenden Ausdrucks in dem Element oder eine Größe, die derselben zugeordnet ist, ist als der Wert für jede der Vektorkomponenten gegeben.
  • Die Kosinusähnlichkeit zwischen den Vektoren kann zum Beurteilen dessen eingesetzt werden, ob die Entsprechung zwischen den Elementen gut oder schlecht ist. Die Elemente werden als einander entsprechend beurteilt, wenn die Kosinusähnlichkeit höher als eine vorbestimmte Schwelle ist. Folglich wird ein Element des Zieldokuments, dessen Ähnlichkeiten mit allen Elementen des Vergleichsdokuments geringer als die Schwelle sind, als der unterschiedliche Teil betrachtet. Bei einem anderem bekannten Verfahren werden, nachdem beide Dokumente durch Graphen dargestellt worden sind, die entsprechenden Beziehungen von Graphenelementen herausgefunden, um die unterschiedlichen Teile aus den Graphenelementen zu erhalten, die keine Entsprechung aufweisen.
  • Es gibt zwei Techniken für die Extraktion der unterschiedlichen Teile:
    • (A) Extrahieren irgendeines Teils, in dem sich ausgedrückte Informationen unterscheiden.
    • (B) Extrahieren irgendeines Teils, der einen Unterschied von Konzepten wiederspiegelt, die durch beide Dokumente in den Dokumenten ausgedrückt sind.
  • Viele Verfahren einer Mehrdokumentenzusammenfassung des Stands der Technik basieren auf der Technik (A). Die unterschiedlichen Teile zwischen beiden Dokumenten werden extrahiert und es wird nicht die Bedeutsamkeit jedes unterschiedlichen Teils in dem Zieldokument ausgewertet. Folglich ist es möglich, dass ein Teil, der als Information nicht sehr bedeutsam ist, als der unterschiedliche Teil lediglich deshalb extrahiert wird, weil sich der Teil von dem Vergleichsdokument unterscheidet. Aus der Technik (B) macht die vorliegende Erfindung die Extraktion irgendeines unterschiedlichen Teils möglich, der die folgenden Bedingungen erfüllt:
    Der unterschiedliche Teil, der aus dem Zieldokument extrahiert wird, ist auch ein wichtiger Teil in dem Zieldokument. Das heißt, der Unterschied und die Bedeutsamkeit gleichen sich aus. Der unterschiedliche Teil, der diese Bedingung erfüllt, wird in dem Zieldokument zutreffender als ein „verschiedenartiger Teil" anstatt bloß der unterschiedliche Teil ausgedrückt. Deshalb wird ein unterschiedlicher Teil, der diese Bedingung erfüllt, hierin im Folgenden der „verschiedenartige Teil" genannt.
  • Es kann ein Evaluationswert hinsichtlich des Ausmaßes an Verschiedenartigkeit für jeden Satz des Zieldokuments berechnet werden.
  • Es kann ein Evaluationswert hinsichtlich der Grade an Verschiedenartigkeit von Ausdrücken oder Ausdrucksreihen für den extrahierten verschiedenartigen Teil berechnet werden, um zu identifizieren, welcher Ausdruck oder welche Ausdrucksreihe einen Hauptfaktor bildet. Die WO 2002/41557 offenbart ein Dokumentenpräsentations- und Analyseverfahren, bei dem eine Ähnlichkeit von zwei Dokumenten oder eine Extraktion von wichtigen Sätzen aus einem Dokument durchgeführt wird.
  • Gemäß einem Aspekt der vorliegenden Erfindung ist ein Verfahren gemäß Anspruch 1 vorgesehen. Gemäß einem anderen Aspekt der vorliegenden Erfindung ist ein Computersystem gemäß Anspruch 15 vorgesehen. Ein Verfahren zum Auswerten eines Grads an Verschiedenartigkeit eines Zieldokuments, das die oben angegebenen Bedingungen erfüllt, lautet wie folgt. Bei einem Ausführungsbeispiel werden sowohl das Zieldokument als auch ein Vergleichsdokument in Dokumentsegmente geteilt und wird ein Vektor jedes Dokumentsegments erhalten, dessen Komponenten die Häufigkeiten von Ausdrücken sind, die in dem Dokumentsegment auftreten. Da das natürlichste Dokumentsegment ein Satz ist, wird hierin im Folgenden angenommen, dass das Dokumentsegment ein Satz ist. Somit sind beide Dokumente als Sätze von Satzvektoren dargestellt. Nachfolgend wird eine Projektionsachse gefunden, die ein Verhältnis (Quadratsumme von projizierten Werten, die aus dem Zieldokument stammen)/(Quadratsumme von projizierten Werten, die aus dem Vergleichsdokument stammen) maximiert, wenn alle Satzvektoren beider Dokumente auf eine bestimmte Projektionsachse projiziert sind. Hinsichtlich einer derartigen Projektionsachse wird die Quadratsumme der projizierten Werte der Satzvektoren des Zieldokuments groß, während die Quadratsumme der projizierten Werte der Satzvektoren des Vergleichsdokuments klein wird. Deshalb werden Informationen wiedergespiegelt, die zu einem großen Ausmaß in dem Zieldokument bestehen und die in dem Vergleichsdokument kaum bestehen. Wenn folglich die Satzvektoren auf die Projektionsachse projiziert werden, werden die Absolutwerte der projizierten Werte in dem Zieldokument bei Sätzen groß, die sich in den Inhalten von dem Vergleichsdokument unterscheiden, und dieselben können als die Basis der Berechnung der Grade an Verschiedenartigkeit der einzelnen Sätze des Zieldokuments übernommen werden.
  • Bei einem anderen Ausführungsbeispiel werden Ausdrücke, die einen hohen Grad an Verschiedenartigkeit aufweisen, ausgewählt. Hinsichtlich derartiger Ausdrücke werden die Korrelationen zwischen den Häufigkeiten eines Zielausdrucks in einzelnen Sätzen und den Graden an Verschiedenartigkeit der jeweiligen Sätze berechnet und wird ein jeglicher Ausdruck mit einem hohen Korrelationswert ausgewählt. Da ein derartiger Ausdruck lediglich in Sätzen mit einem hohen Grad an Verschiedenartigkeit auftreten sollte, kann ein derartiger Ausdruck als ein verschiedenartiger Ausdruck betrachtet werden. Folglich wird der Grad an Verschiedenartigkeit des Ausdrucks auf der Basis des Korrelationswerts berechnet.
  • Die Grade an Verschiedenartigkeit von Ausdrucksreihen, wie beispielsweise Phrasen oder Mustern, die in dem Zieldokument auftreten, können durch ein Verfahren ausgewertet werden, das dem Verfahren ähnlich ist, das für Sätze oder Ausdrücke verwendet wird. Beispielsweise wird ein Vektor, bei dem die Komponenten desselben, die Ausdrücken entsprechen, die in einem Zielausdruck enthalten sind, einen Wert „1" annehmen, während die anderen Komponenten desselben einen Wert „0" annehmen, für jede Ausdrucksreihe erhalten und kann der Grad an Verschiedenartigkeit jeder Ausdrucksreihe durch das Verfahren berechnet werden, das zum Berechnen des Grads an Verschiedenartigkeit von Sätzen eingesetzt wird. Wenn alternativ die Häufigkeiten jeder Ausdrucksreihe in einzelnen Sätzen vorab berechnet werden, kann der Grad an Verschiedenartigkeit der Ausdruckreihe durch ein Ersetzen der Häufigkeiten jedes Ausdrucks mit diesen jeder Ausdrucksreihe bei dem Verfahren ausgewertet werden, das zum Berechnen des Grads an Verschiedenartigkeit von Ausdrücken eingesetzt wird.
  • Bei einem Ausführungsbeispiel wird angenommen, dass ein Satz ein Dokumentsegment ist. Die Verarbeitungsschritte bis zum Erhalten der Vektoren der Dokumentsegmente sind die gleichen wie bei dem oben angegebenen Ausführungsbeispiel. Danach werden eine Ähnlichkeit mit dem gesamten Zieldokument und eine Ähnlichkeit mit dem gesamten Vergleichsdokument für jeden Satz des Zieldokuments berechnet. Ein jeglicher bedeutsamer Satz in dem Zieldokument weist einen hohen Grad an Ähnlichkeit zu dem gesamten Zieldokument auf und ein jeglicher Satz mit einem Inhalt, der sich von diesem des Vergleichsdokuments unterscheidet, weist einen niedrigen Grad an Ähnlichkeit mit dem gesamten Vergleichsdokument auf. Deshalb kann ein Grad an Verschiedenartigkeit, bei dem Unterschied und Bedeutsamkeit gut ausgeglichen sind, durch ein Einsetzen eines Verhältnisses (Ähnlichkeit zu dem gesamten Zieldokument)/(Ähnlichkeit zu dem gesamten Vergleichsdokument) definiert sein. Ferner kann der Grad an Verschiedenartigkeit eines Ausdrucks durch ein Berechnen der Korrelationen zwischen den Graden an Verschiedenartigkeit einzelner Sätze und den Häufigkeiten des Ausdrucks in den jeweiligen Sätzen berechnet werden. Ferner kann der Grad an Verschiedenartigkeit jeder Ausdrucksreihe durch ein Erhalten eines Vektors aus der Ausdrucksreihe und ein anschließendes Berechnen der Ähnlichkeiten des Vektors zu dem gesamten Zieldokument und zu dem gesamten Vergleichsdokument berechnet werden, wie bei dem oben angegebenen Ausführungsbeispiel. Alternativ kann der Grad an Verschiedenartigkeit jeder Ausdrucksreihe aus den Korrelationen zwischen den Häufigkeiten der Ausdrucksreihe in einzelnen Sätzen und den Graden an Verschiedenartigkeit der jeweiligen Sätze berechnet werden.
  • Bei einem Ausführungsbeispiel können, wenn zwei Dokumente verglichen werden, die Grade an Verschiedenartigkeit für einzelne Sätze, Phrasen oder Wörter berechnet werden, die ein Zieldokument bilden, das eines der zwei Dokumente ist. In einem Fall, in dem ein Vergleichsdokument das andere Dokument ist und sowohl das Vergleichsdokument als auch das Zieldokument beispielsweise Zeitungsberichte sind, die einen identischen Fall darlegen, werden Sätze mit hohen Graden an Verschiedenartigkeit aus dem Zieldokument ausgewählt und können folglich Sätze identifiziert werden, die Themen darlegen, die sich von diesen des Vergleichsdokuments unterscheiden. In einem Fall beispielsweise, in dem hinsichtlich eines bestimmten Verkehrsunfalls der „Unfallhergang" und „Verursacher und Opfer" in dem Vergleichsdokument dargelegt sind, während die „Ansicht der Polizei", etc. zusätzlich zu dem „Unfallhergang" in dem Zieldokument dargelegt ist, sind die Grade an Verschiedenartigkeit von Sätzen bezüglich der „Ansicht der Polizei" in dem Zieldokument hoch und es kann ein Teil identifiziert werden, der der „Ansicht der Polizei" zugeordnet ist. Falls ein Benutzer das Vergleichsdokument bereits durchgesehen hat, ist ihm/ihr gestattet, lediglich den Teil der „Ansicht der Polizei" zu identifizieren und zu lesen, der ihm/ihr unbekannt ist. Somit kann die Effizienz der Informationsgewinnung verbessert werden. Wenn das Zieldokument und das Vergleichsdokument jeweilige Sätze von Antworten von einer bestimmten Einwohnerschaft und von einer anderen Einwohnerschaft in einer Umfrage sind, kann die Tendenz verschiedenartiger Antworten bei der Einwohnerschaft des Zieldokuments durch ein Anwenden eines Verfahrens gemäß einem Ausführungsbeispiel der vorliegenden Erfindung begriffen werden. Auf diese Weise können dank der Anwendung der vorliegenden Erfindung Informationen aus dem Zieldokument ohne weiteres identifiziert und analysiert werden.
  • 1 ist ein Blockdiagramm eines Computers, der Merkmale der vorliegenden Erfindung umfasst.
  • 2 ist ein Flussdiagramm von Operationen, die der in Verbindung mit 1 beschriebene Computer ansprechend auf ein Programm durchführt, das der Computer speichert, gemäß einem ersten Ausführungsbeispiel der vorliegenden Erfindung; das Flussdiagramm umfasst Schritte von der Zeit, zu der ein Dokument durch den Computer gelesen wird, bis der Computer einen Grad an Verschiedenartigkeit eines Dokumentsegments bestimmt.
  • 3 ist ein Flussdiagramm eines zweiten Ausführungsbeispiels von Computeroperationen gemäß der vorliegenden Erfindung, und dieses Flussdiagramm umfasst Schritte von der Zeit, zu der ein Dokument durch den Computer gelesen wird, bis der Computer einen Grad an Verschiedenartigkeit eines Ausdrucks bestimmt.
  • 4 ist ein Flussdiagramm eines dritten Ausführungsbeispiels von Computeroperationen gemäß der vorliegenden Erfindung; das Flussdiagramm umfasst Schritte von der Zeit, zu der ein Dokument durch den Computer gelesen wird, bis der Computer jeweilige Grade an Verschiedenartigkeit eines Dokumentsegments und eines Ausdrucks bestimmt.
  • 5A bis 5D sind Diagramme, die bei einem Beschreiben hilfreich sind, wie der Computer von 1 programmiert ist, um Satzvektoren eines Zieldokuments und eines Vergleichsdokuments zu manipulieren.
  • 1 ist ein Blockdiagramm eines Computers, der eine Dokumentlesevorrichtung 110 zum Lesen sowohl eines Vergleichsdokuments als auch eines Zieldokuments umfasst. Ein Datenprozessor 120 empfängt eine Ausgabe von der Dokumentlesevorrichtung 110 und führt eine Ausdruckserfassung, eine morphologische Analyse, eine Dokumentsegmentierung, etc. der eingegebenen Dokumente, etc. durch. Der Prozessor 120 führt die erfassten, analysierten und segmentierten Dokumente einem Auswahldatenverarbeitungsblock bis zu einer Auswahlmaschine 130 zu, die ein Dokumentsegment mit einem hohen Grad an Verschiedenartigkeit oder einen Ausdruck mit einem hohen Grad an Verschiedenartigkeit aus dem Zieldokument auswählt. Die Maschine 130 leitet das ausgewählte Dokumentsegment an eine Vorrichtung 140, beispielsweise eine Computeranzeige oder einen Drucker, die bzw. der das ausgewählte verschiedenartige Dokumentsegment oder den verschiedenartigen Ausdruck ausgibt. Der Computer von 1 kann ein Universalcomputer oder ein Computer sein, der zweckgebunden ist, um die in Verbindung mit 2-5 beschriebenen Operationen durchzuführen.
  • Das Folgende ist eine Beschreibung eines Verfahrens, das der Computer von 1 ansprechend auf ein Programm durchführt, das der Computer speichert, um irgendein Dokumentsegment mit einem hohen Grad an Verschiedenartigkeit aus einem Zieldokument zu extrahieren. 2 ist ein Flussdiagramm der Operationen, die der Computer von 1 in Folge zum Auswerten des Grads an Verschiedenartigkeit eines Dokumentsegments durchführt. Dieses Verfahren kann in einer derartigen Weise praktiziert werden, dass ein Programm, in dem das Ausführungsbeispiel enthalten ist, auf einem Universalcomputer ausgeführt wird. Mit Bezug auf 2 bezeichnet Bezugszeichen 11 einen Vergleichs-/Zieldokumenteingabeschritt, der durch die Dokumentlesevorrichtung 110 durchgeführt wird, bezeichnet Bezugszeichen 12 einen Begriffserfassungsschritt, der durch den Datenprozessor 120 durchgeführt wird, bezeichnet Bezugszeichen 13 einen Morphologieanalyseschritt und bezeichnet Bezugszeichen 14 einen Dokumentsegmentierungsschritt, der ebenfalls durch den Datenprozessor 120 durchgeführt wird. Ferner bezeichnet Bezugszeichen 15 einen Dokumentsegmentvektoraufbauschritt, bezeichnet Bezugszeichen 16 einen Themenunterschiedsfaktoranalyseschritt, bezeichnet Bezugszeichen 17 einen Dokumentsegmentvektorprojektionsschritt, bezeichnet Bezugszeichen 18 eine Dokumentsegmentverschiedenartigkeitsberechnung für jede Ordnung des Themenunterschiedsfaktorschritts, bezeichnet Bezugszeichen 19 einen Berechnungsschritt eines Gesamtdokumentsegmentverschiedenartigkeitsgrades und bezeichnet Bezugszeichen 20 einen Auswahlschritt eines verschiedenartigen Dokumentsegments. Die Auswahlmaschine 130 führt jeden der Schritte 15-20 durch. Die folgende Beschreibung dessen, wie der Computer von 1 wirksam ist, um die Schritte von 2 durchzuführen, verwendet als ein Beispiel Dokumente in englischer Sprache.
  • Zuerst werden ein Zieldokument und ein Vergleichsdokument in dem Vergleichs-/Zieldokumenteingabeschritt 11 eingegeben. Bei dem Ausdruckserfassungsschritt 12 erfasst der Prozessor 120 Wörter, Formeln, eine Reihe von Symbolen, etc. aus beiden Dokumenten. Hierin werden im Folgenden alle Wörter, die Reihen von Symbolen, etc. allgemein als „Ausdrücke" bezeichnet. In dem Fall einer englischsprachigen Schreibung wurde die Schreibweise etabliert, bei der die Ausdrücke beabstandet sind, so dass die Erfassung der Ausdrücke einfach ist. Nachfolgend werden sowohl das Vergleichs- als auch das Zieldokument morphologisch in dem Morphologieanalyseschritt 13 analysiert, beispielsweise wird eine Kennung, die den Sprachteil angibt, zu jedem Ausdruck hinzugefügt. Bei dem Dokumentsegmentierungsschritt 14 werden beide Dokumente in Dokumentsegmente geteilt. Die grundlegendste Einheit der Dokumentsegmente ist ein Satz. Im Fall der englischsprachigen Schreibung lässt sich ein Satz ohne weiteres extrahieren, da ein Satz mit einem Punkt gefolgt von einem Leerzeichen endet. Andere Dokumentsegmentierungsverfahren umfassen (1) ein Trennen eines komplexen Satzes in einen Hauptsatz und einen Nebensatz, (2) ein kollektives Teilen einer Mehrzahl von Sätzen in Dokumentsegmente, um eine im Wesentlichen gleiche Anzahl an Ausdrücken aufzuweisen, und (3) ein Teilen eines Dokuments von dem Beginn desselben an in Segmente mit der gleichen Anzahl von Ausdrücken, ungeachtet von Sätzen, und so weiter.
  • Bei dem Dokumentsegmentvektoraufbauschritt 15 bestimmt die Auswahlmaschine 130 (1) die Anzahl von Dimensionen eines Vektors, der aus den Ausdrücken aufgebaut werden soll, die in dem gesamten Dokument auftreten, und (2) die Entsprechung zwischen den jeweiligen Dimensionen und den einzelnen Ausdrücken. Die Komponenten des Vektors müssen nicht allen Arten von auftretenden Ausdrücken entsprechen, sondern vielmehr ist der Vektor durch ein Nutzen der Sprachteilkennungsergebnisse von Schritt 13 aus lediglich ausgewählten Ausdrücken aufgebaut, beispielsweise Nomen und Verben. Bei Schritt 15 baut die Auswahlmaschine 130 den Dokumentsegmentvektor durch ein Erhalten der Arten von Ausdrücken, die in jedem Dokumentsegment auftreten, und der Häufigkeiten derselben auf und bestimmt die Werte der entsprechenden Vektorkomponenten durch ein Multiplizieren der Häufigkeiten mit Gewichtungen. Die Gewichtungen können unter Verwendung bekannter Techniken des Stands der Technik ausgewählt werden.
  • Bei dem Themenunterschiedsfaktoranalyseschritt 16 findet die Auswahlmaschine 130 eine Projektionsachse, die das Verhältnis des Vergleichs- und des Zieldokuments maximiert, durch ein Verwenden der Quadratsummen der projizierten Werte aller Dokumentsegmentvektoren. Im Folgenden wird hierin angenommen, dass ein Satz das Dokumentsegment ist. Man betrachte Dokumente D und T, für die der Satz der auftretenden Ausdrücke gegeben ist durch {w1, ..., wJ} und die aus M bzw. N Sätzen gebildet sind. Das Dokument D ist das Zieldokument, während das Dokument T das Vergleichsdokument ist. Die jeweiligen Dokumente sind durch Sätze von Satzvektoren dargestellt und die Satzvektoren der k-ten Sätze der jeweiligen Dokumente sind durch dk = (dk1, ..., dkJ)T und tk = (tk1, ..., tkJ)T angegeben, wobei die Hochstellung T eine Transposition des Vektors bezeichnet. 5A-5D zeigen Konzeptdiagramme, wenn das Dokumentsegment ein Satz ist. Das Zieldokument D ist aus M Sätzen gebildet (5A), und der Satzvektor dk ist aus dem k-ten Satz aufgebaut (5B). Die Komponente des Vektors dk, die dem Ausdruck wj entspricht, ist als dk angegeben. Da die Komponente dkj die Häufigkeit des Ausdrucks wj in dem k-ten Satz ausdrückt, nimmt dieselbe jeden beispielhaften Wert an. 5C und 5D beziehen sich auf das Vergleichsdokument. Das Symbol α bezeichne eine Projektionsachse, die gefunden werden soll. Es sei angenommen, dass ∥α∥ = 1, wobei ∥α∥ die Norm von α bezeichnet. Wenn PD und PT die Quadratsummen der projizierten Werte bezeichnen, wenn alle der Satzvektoren der Dokumente D bzw. T auf die Achse α projiziert werden, ist somit die Projektionsachse, die gefunden werden soll, als α gegeben, was das Verhältnis oder Kriterium J(α) = PD/PT maximiert. Die Quadratsummen PD und PT sind wie folgt ausgedrückt:
    Figure 00110001
  • Daher kann das Kriterium J(α) geschrieben werden als:
    Figure 00110002
  • Die Achse α, die das Kriterium J(α) maximiert, das durch Gleichung 5 gegeben ist, kann erhalten werden, derart, dass ein Wert, der durch ein Differenzieren von J(α) mit Bezug auf α erhalten wird, gleich 0 (Null) gemacht wird. Diese Achse ist als der Eigenvektor eines verallgemeinerten Eigenwertproblems gegeben, das angegeben ist durch: SDα = λSTα. Gleichung 6
  • Diese Operationen entsprechen einem Erhalten einer Projektionsachse, die das Verhältnis (Quadratsumme der projizierten Werte, die von dem Zieldokument stammen)/(Quadratsumme der projizierten Werte, die von dem Vergleichsdokument stammen) maximiert, wenn alle Satzvektoren beider Dokumente auf eine bestimmte Projektionsachse projiziert sind. Hinsichtlich einer derartigen Projektionsachse wird die Quadratsumme der projizierten Werte der Satzvektoren des Zieldokuments groß, während die Quadratsumme der projizierten Werte der Satzvektoren des Vergleichsdokuments klein wird. Deshalb werden Informationen wiedergespiegelt, die in dem Zieldokument vorherrschend sind und in dem Vergleichsdokument nicht vorherrschend sind. Im Allgemeinen kann eine Mehrzahl von Werten als jeweils der Eigenwert und Eigenvektor von Gleichung 6 berechnet werden. Der Eigenwert und Eigenvektor i-ter Ordnung sind jeweils durch λi und αi bezeichnet. Der Eigenvektor i-ter Ordnung kann als einen i-ten Faktor ausdrückend betrachtet werden, der Informationen wiederspiegelt, die in dem Zieldokument D vorliegen und in dem Vergleichsdokument T nicht vorliegen. Folglich soll der Eigenvektor αi i-ter Ordnung der „Themenunterschiedsfaktorvrktor i-ter Ordnung" des Zieldokuments D genannt werden. Die Auswahlmaschine 130 berechnet diesen Themenunterschiedsfaktorvektor in dem Schritt 16 (Themenunterschiedsfaktoranalyse). Da λi= αj TSDαii TSTαi, ist λi der Wert des Kriteriums, wenn αi verwendet wird.
  • Folglich unterschieden sich die Ausmaße der Unterschiede zwischen beiden Dokumenten, die in den Themenunterschiedsfaktorvektoren jeweiliger Ordnungen wiedergespiegelt sind, von einander. Deshalb werden die Themenunterschiedsfaktorvektoren der jeweiligen Ordnungen vorzugsweise gemäß den Ausmaßen der Unterschiede gewichtet. Das Gewichten wird durch ein Bestimmen der Norm des Eigenvektors i-ter Ordnung αi durchgeführt, um wie folgt zu lauten: αi TSTαi = I Gleichung 7
  • Dann gilt αi TSDαi = λi Gleichung 8
  • Die Quadratsumme der inneren Produkte zwischen den Eigenvektoren αi und den jeweiligen Satzvektoren des Zieldokuments D wird gleich λi. In dem Fall von Gleichung 6 muss eine Matrix ST eine regelmäßige Matrix sein, damit der Eigenvektor berechnet werden kann. Tatsächlich jedoch kann die Matrix ST nicht als eine regelmäßige Matrix erhalten werden, wenn die Anzahl von Sätzen kleiner als die Anzahl von Ausdrücken in dem Vergleichsdokument ist oder wenn spezifizierte Ausdrücke stets in Paaren gemeinsam auftreten. In einem derartigen Fall kann der Eigenvektor durch ein Regelmäßigmachen der Matrix ST gemäß der folgenden Gleichung berechnet werden:
    Figure 00130001
    wobei β2 einen Parameter bezeichnet und I die Identitätsmatrix bezeichnet.
  • In dem Fall von Gleichung 7 wird das Kriterium J(α) äquivalent wie folgt reduziert: ∫(α) = PD/(PT + β2) Gleichung 10
  • Bei dem Schritt 17, während dessen die Auswahlmaschine 130 die Dokumentsegmentvektorprojektion bestimmt, wird jeder Satzvektor des Zieldokuments auf den Themenunterschiedsfaktorvektor jeder Ordnung projiziert, um einen entsprechenden projizierten Wert zu berechnen. Der projizierte Wert des Satzvektors dk des Satzes k des Zieldokuments an dem Themenunterschiedsfaktorvektor i-ter Ordnung αi ist durch yki bezeichnet und wird durch die Maschine 130 unter Verwendung der folgenden Gleichung berechnet: yki = αi Td k. Gleichung 11
  • Da jedoch der so definierte projizierte Wert dazu neigt, bei einem längeren Satz größer zu werden, kann eine Normierung des projizierten Werts basierend auf ∥dk∥ durchgeführt werden, um den projizierten Wert von der Länge des Satzes unabhängig zu machen. In diesem Fall ist der projizierte Wert yki gegeben durch: yki = αi Tdk/∥dk∥. Gleichung 12
  • Bei einem Schritt 18 berechnet die Maschine 130 die Dokumentsegmentverschiedenartigkeit für jede Ordnung des Themenunterschiedsfaktors, der Grad an Verschiedenartigkeit i-ter Ordnung distinc(dk,i) des Satzvektors dk wird auf der Basis des projizierten Werts yki berechnet. Im Allgemeinen nimmt der projizierte Wert yki einen Plus- oder Minuswert an. Der absolute Wert des projizierten Werts yki erhöht sich, wenn der Inhalt des Satzes k diesem des Zieldokuments D näher kommt und sich von diesem des Vergleichsdokuments T stärker unterscheidet. Deshalb kann der Verschiedenartigkeitsgrad distinc(dk,i) definiert werden als: distinc(dk,i) = yki 2 Gleichung 13 distinc(dk,i) = λyki∥. Gleichung 14
  • Die Maschine 130 berechnet den Verschiedenartigkeitsgrad i-ter Ordnung, der durch Gleichung 13 angegeben ist, unter Verwendung lediglich des i-ten Faktors. Die Maschine 130 berechnet die Grade an Verschiedenartigkeit basierend auf einer Mehrzahl von Faktoren, um die Verschiedenartigkeit des Satzes k genau auszudrücken. Zu diesem Zweck berechnet die Maschine 130 bei einem Schritt 19 den Gesamtgrad an Verschiedenartigkeit des Dokumentsegments des Satzes k konform mit:
    Figure 00150001
  • Die Variable L gibt die Anzahl von Themenunterschiedsfaktorvektoren an, die bei der Berechnung der Satzverschiedenartigkeit verwendet werden, und es muss ein geeigneter Wert experimentell bestimmt werden. Der maximale Wert von L ist die Anzahl von Eigenwerten, deren Werte größer oder gleich 1 (Eins) werden.
  • Bei einem Schritt 20 der Auswahl verschiedenartiger Dokumentsegmente wählt die Maschine 130 irgendeinen verschiedenartigen Satz in dem Zieldokument auf der Basis des Grads an Verschiedenartigkeit der jeweiligen Ordnungen und des Gesamtgrads an Verschiedenartigkeit aus, der vorhergehend berechet wurde. Die Auswahl geht weiter, wie es unten beschrieben ist. Bei dem einfachsten Verfahren wählt die Maschine 130 irgendeinen Satz mit einem Gesamtgrad an Verschiedenartigkeit gleich oder über einem vorbestimmten Wert aus.
  • Ein komplexeres Verfahren setzt den Themenunterschiedsfaktorvektor einer spezifizierten Ordnung ein. Die Maschine 130 klassifiziert anfänglich einzelne Sätze in eine Listengruppe, in der die projizierten Werte der jeweiligen Satzvektoren auf den Themenunterschiedsfaktorvektoren positiv werden, und eine zweite Gruppe, in der dieselben negativ werden. Nachfolgend werden irgendwelche Sätze, deren Grade an Verschiedenartigkeit jeder Ordnung größer oder gleich dem vorbestimmten Wert sind, aus den jeweiligen Gruppen ausgewählt. Diese Operationen werden für alle Themenunterschiedsfaktorvektoren bis zu der vorbestimmten Ordnung L ausgeführt und doppelte Sätze werden ausgeschlossen, wodurch die verschiedenartigen Sätze ausgewählt werden. Die Maschine 130 kann verschiedenartige Sätze entweder durch das einfache oder das komplexe Verfahren auswählen.
  • Gemäß dem Programm von 2 werden zudem nicht nur die Grade an Verschiedenartigkeit der Dokumentsegmente, sondern auch diese der Kombinationen von Ausdrücken, wie beispielsweise Phrasen, Ausdrucksgruppen unter Abhängigkeitsbeziehungen oder Ausdrucksreihenmuster, ausgewertet, wie es unten angegeben ist. In einer Wendung „Fußballspiel gespielt in Yokohama" beispielsweise modifiziert „Fußball" das Nomen „Spiel" und somit wird „Fußballspiel" zu einer Nomenphrase. Ferner modifiziert „gespielt in Yokohama" die Nomenphrase „Fußballspiel", und daher wird die obige Wendung insgesamt zu einer Nomenphrase. Genauer gesagt modifiziert „in Yokohama" das Verb „gespielt", und somit wird „gespielt in Yokohama" eine Ausdrucksgruppe unter Abhängigkeitsbeziehung. In einem Fall, in dem Wendungen „Fußballspiel gespielt in xx" wiederholt auftreten, wird zudem, da verschiedene Ortsnamen als xx enthalten sind, „Fußballspiel gespielt in" zu einem Ausdrucksreihenmuster.
  • Bei dem Schritt 13 extrahiert der Prozessor 120 die Kombinationen von Ausdrücken, die ausgewertet werden sollen, zusätzlich zu der Ausführung der morphologischen Analyse. Phrasen, oder Ausdrucksgruppen unter Abhängigkeitsbeziehungen werden durch ein Ausführen einer syntaktischen Analyse extrahiert. Es wurden bereits verschiedene Verfahren für die Extraktion von Ausdrucksreihenmustern entwickelt, die häufig auftreten, und dieselben können ohne Probleme eingesetzt werden. Bei dem Schritt 15 wird ein Vektor p = (p1, ..., pj)T für jede Kombination von Ausdrücken aufgebaut, die ausgewertet werden sollen, zusätzlich zu den Dokumentsegmentvektoren, die bei dem Schritt 16 verwendet werden. Der Vektor p ist ein Vektor, dessen Komponenten, die Ausdrücken entsprechen, die in der Kombination von Ausdrücken enthalten sind, einen Wert „1" annehmen, während die anderen Komponenten desselben einen Wert „0" annehmen. Ein praktisches Beispiel des Vektors p lässt sich wie folgt erläutern. In dem Fall des Ausdrucks „Fußballspiel gespielt in Yokohama" wird der Vektor p zu einem Vektor, bei dem lediglich die Komponenten, die den Ausdrücken „Yokohama", „gespielt", „Fußball" und „Spiel" entsprechen, einen Wert „1" annehmen, während die anderen Komponenten einen Wert „0" annehmen. Unter Verwendung eines derartigen Vektors p an Stelle des Satzvektors dk bei den Schritten 17, 18 und 19 berechnet die Maschine 130 die Grade an Verschiedenartigkeit der Kombination von Ausdrücken, die ausgewertet werden sollen. Bei dem Schritt 20 wählt folglich die Maschine 130 in den verschiedenartigen Sätzen gleichermaßen verschiedenartige Kombinationen von Ausdrücken aus.
  • Als ein zweites Ausführungsbeispiel wird ein Verfahren zum Auswählen irgendeines Ausdrucks mit einem hohen Grad an Verschiedenartigkeit aus einem Zieldokument beschrieben. Hinsichtlich Ausdrücken werden die Korrelationen zwischen den Häufigkeiten eines Zielausdrucks in einzelnen Sätzen und den Graden an Verschiedenartigkeit der jeweiligen Sätze berechnet und es wird ein jeglicher Ausdruck ausgewählt, der einen hohen Korrelationswert aufweist. Der Grad an Verschiedenartigkeit des Ausdrucks wird auf der Basis des Korrelationswerts berechnet. 3 ist ein Flussdiagramm eines zweiten Ausführungsbeispiels gemäß der vorliegenden Erfindung zum Auswerten des Grads an Verschiedenartigkeit eines Ausdrucks. Dieses Verfahren kann auf eine derartige Weise praktiziert werden, dass ein Programm, in dem das Ausführungsbeispiel der vorliegenden Erfindung enthalten ist, auf einem Universalcomputer ausgeführt wird. Mit Bezug auf das Flussdiagramm von 3 bezeichnet Bezugszeichen 11 den Schritt einer Vergleichs-/Zieldokumenteingabe, bezeichnet Bezugszeichen 12 den Schritt einer Ausdruckserfassung, bezeichnet Bezugszeichen 13 den Schritt einer morphologischen Analyse und bezeichnet Bezugszeichen 14 den Schritt einer Dokumentsegmentierung. Ferner bezeichnet Bezugszeichen 15 den Schritt eines Dokumentsegmentvektoraufbaus und bezeichnet Bezugszeichen 16 den Schritt einer Themenunterschiedsfaktoranalyse. Noch ferner bezeichnet Bezugszeichen 27 den Schritt einer Dokumentsegmentvektorprojektion, bezeichnet Bezugszeichen 28 den Schritt einer Berechnung eines Grades an Verschiedenartigkeit eines Ausdrucks für jede Ordnung eines Themenunterschiedsfaktors, bezeichnet Bezugszeichen 29 den Schritt einer Berechnung eines Gesamtgrades an Verschiedenartigkeit und bezeichnet Bezugszeichen 30 den Schritt einer Auswahl eines verschiedenartigen Ausdrucks. Unter den obigen Schritten sind die Elemente 11-16 die gleichen wie diese, die in 2 gezeigt sind.
  • Ein Beispiel, bei dem angenommen wird, dass ein Dokumentsegment ein Satz ist, wird wie bei dem Fall von 2 beschrieben. Bei dem Dokumentsegmentvektorprojektionsschritt 27 werden alle Satzvektoren des Vergleichsdokuments T zusätzlich zu der Projektion des Satzvektors des Zieldokuments D bei dem Schritt 17 in 2 projiziert. Der projizierte Wert des Satzvektors tk des Vergleichsdokuments T an dem Themenunterschiedsfaktorvektor i-ter Ordnung αi, der durch zki bezeichnet ist, wird berechnet durch: zki = αi Ttk Gleichung 16oder zki = αi Ttk/∥tk∥. Gleichung 17
  • Bei dem Schritt 28 der Berechnung des Grades an Verschiedenartigkeit des Ausdrucks für jede Ordnung des Themenunterschiedsfaktors wird zuerst die Korrelation zwischen den projizierten Werten einzelner Sätze und Ausdruckshäufigkeiten in den jeweiligen Sätzen berechnet. Hier bezeichnet correl(wj,i) den Korrelationskoeffizienten zwischen den Werten dieser Komponenten von Satzvektoren in dem Zieldokument und dem Vergleichsdokument, die einem j-ten Ausdruck wj entsprechen, und den projizierten Werten der jeweiligen Satzvektoren an dem Themenunterschiedsfaktorvektor i-ter Ordnung αi. Die j-ten Komponenten der Satzvektoren dk und tk lauten dkj und tkj, und die projizierten Werte derselben auf dem Vektor αi lauten yki bzw. zki, so dass der Korrelationskoeffizient berechnet werden kann durch:
    Figure 00190001
  • Der Korrelationskoeffizient erhöht sich für den Ausdruck wj, wenn eine proportionale Beziehung zwischen dem Wert der Komponente, die dem Ausdruck wj in dem Satzvektor dk oder tk und dem projizierten Wert des Satzvektors an dem Themenun terschiedsfaktorvektor αi gilt. Das heißt, der Korrelationskoeffizient erhöht sich, wenn der Grad an Verschiedenartigkeit i-ter Ordnung des Satzes groß wird, wenn der Ausdruck wj auftritt, und wird klein, wenn der Ausdruck wj nicht auftritt. In einem derartigen Fall kann der Ausdruck wj als ein verschiedenartiger Ausdruck betrachtet werden, der den Grad an Verschiedenartigkeit i-ter Ordnung jedes Satzes beherrscht. Folglich kann der Grad an Verschiedenartigkeit i-ter Ordnung des Ausdrucks, der durch distinc(wj,i) bezeichnet ist, in dem Schritt 28 berechnet werden durch: distinc(wj,i) = correl(wj,i)2 Gleichung 19oder distinc(wj,i) = |correl(wj,i)|. Gleichung 20
  • Bei dem Schritt 29 der Berechnung des Gesamtgrades an Verschiedenartigkeit des Ausdrucks wird ein Gesamtgrad an Verschiedenartigkeit für jeden Ausdruck durch ein Kombinieren einer Mehrzahl von Faktoren wie in dem Fall von 2 berechnet. Der Gesamtgrad an Verschiedenartigkeit des Ausdrucks wj, der durch distinc(wj) bezeichnet ist, kann bei dem Schritt 29 berechnet werden durch: distinc(wj) = Σi-1 Ldistinc(wj,i). Gleichung 21
  • Bei dem Schritt 30 der Auswahl eines verschiedenartigen Ausdrucks wird ein jeglicher Ausdruck, der in dem Zieldokument verschiedenartig ist, auf der Basis der Grade von Verschiedenartigkeit der jeweiligen Ordnungen und des Gesamtgrades an Verschiedenartigkeit ausgewählt, die berechnet wurden. Die Auswahl kann weitergehen, wie es unten angegeben ist. Das einfachste Verfahren ist ein Verfahren, bei dem ein jeglicher Ausdruck mit einem Gesamtgrad an Verschiedenartigkeit größer oder gleich einem vorbestimmten Wert ausgewählt wird. Ferner ist das folgende Verfahren möglich. Erstens werden hinsichtlich des Themenunterschiedsfaktorvektors einer spezifizierten Ordnung einzelne Ausdrücke in eine Gruppe, in der die Korrelationskoeffizienten zwischen den projizierten Werten der jeweiligen Satzvektoren auf den Themenunterschiedsfaktorvektor und den Häufigkeiten der jeweiligen Ausdrücke positiv werden, und eine Gruppe klassifiziert, in der dieselben negativ werden. Nachfolgend werden jegliche Ausdrücke, deren Grade an Verschiedenartigkeit jeder Ordnung größer oder gleich dem vorbestimmten Wert sind, aus den jeweiligen Gruppen ausgewählt. Diese Operationen werden für alle Themenunterschiedsfaktorvektoren bis zu der vorbestimmten Ordnung L ausgeführt und doppelte Ausdrücke werden ausgeschlossen, wodurch die verschiedenartigen Ausdrücke ausgewählt werden. Die verschiedenartigen Ausdrücke können durch beide Verfahren ausgewählt werden.
  • Gemäß dem zweiten Ausführungsbeispiel gemäß der vorliegenden Erfindung können zudem nicht nur die Grade an Verschiedenartigkeit der Ausdrücke, sondern auch diese der Kombinationen von Ausdrücken, wie beispielsweise Phrasen, Ausdrucksgruppen unter Abhängigkeitsbeziehungen oder Ausdrucksreihenmuster, ausgewertet werden, wie es unten angegeben ist. Wie bei dem ersten Ausführungsbeispiel werden in Schritt 13 zusätzlich zu der Ausführung der morphologischen Analyse die Kombinationen von Ausdrücken, die ausgewertet werden sollen, extrahiert. Phrasen oder Ausdrucksgruppen unter Abhängigkeitsbeziehungen können durch ein Ausführen einer syntaktischen Analyse extrahiert werden. Es wurden bereits verschiedene Verfahren für die Extraktion von Ausdrucksreihenmustern entwickelt, die häufig auftreten, und dieselben können ohne Probleme eingesetzt werden. Bei dem Schritt 15 werden Häufigkeiten, mit denen jede Kombination von Ausdrücken, die ausgewertet werden sollen, in den jeweiligen Dokumentsegmenten auftritt, zusätzlich zu dem Aufbau der Dokumentsegmentvektoren für eine Verwendung bei dem Schritt 16 berechnet. Hier bezeichnet pDk die Häufigkeit in dem Satz k des Zieldokuments D und bezeichnet PTk die Häufigkeit in dem Satz k des Vergleichsdokuments T. Der Grad an Verschiedenartigkeit der Kombination von Ausdrücken, die ausgewertet werden sollen, kann an Stelle von dieser des Ausdrucks wj berechnet werden, indem in den Schritten 28 und 29 dkj mit pDk ersetzt wird und tki mit pTk ersetzt wird. Folglich können bei dem Schritt 30 verschiedenartige Kombinationen von Ausdrücken ähnlich den verschiedenartigen Ausdrücken ausgewählt werden.
  • Um die Verschiedenartigkeit eines Zieldokuments auszuwerten, ist als nächstes ein drittes Ausführungsbeispiel gemäß der vorliegenden Erfindung wie folgt wirksam. Die Schritte der Vergleichs-/Zieldokumenteingabe 11 bis zu dem Dokumentsegmentvektoraufbau 15 des dritten Ausführungsbeispiels sind diesen des ersten und des zweiten Ausführungsbeispiels gemeinsam. Danach werden eine Ähnlichkeit mit dem gesamten Zieldokument und eine Ähnlichkeit mit dem gesamten Vergleichsdokument für jeden Satz des Zieldokuments berechnet. 4 ist ein Flussdiagramm, das das dritte Ausführungsbeispiel der vorliegenden Erfindung zum Auswerten der Grade an Verschiedenartigkeit eines Dokumentsegments und eines Ausdrucks zeigt. Dieses Verfahren kann auf eine derartige Weise praktiziert werden, dass ein Programm, in dem das Ausführungsbeispiel enthalten ist, auf einem Universalcomputer ausgeführt wird.
  • Mit Bezug auf das Flussdiagramm von 4 bezeichnet Bezugszeichen 11 den Schritt einer Vergleichs-/Zieldokumenteingabe, bezeichnet Bezugszeichen 12 den Schritt einer Ausdruckserfassung, bezeichnet Bezugszeichen 13 den Schritt einer morphologischen Analyse und bezeichnet Bezugszeichen 14 den Schritt einer Dokumentsegmentierung. Ferner bezeich net Bezugszeichen 15 den Schritt eines Dokumentsegmentvektoraufbaus, bezeichnet Bezugszeichen 36 den Schritt einer Ähnlichkeitsberechnung, bezeichnet Bezugszeichen 37 den Schritt einer Berechnung eines Grades an Verschiedenartigkeit eines Dokumentsegments und bezeichnet Bezugszeichen 38 den Schritt einer Berechnung eines Grades an Verschiedenartigkeit eines Ausdrucks. Noch ferner bezeichnet Bezugszeichen 39 den Schritt einer Auswahl eines verschiedenartigen Dokumentsegments und bezeichnet Bezugszeichen 40 den Schritt einer Auswahl eines verschiedenartigen Ausdrucks. Die Schritte 11-15 sind die gleichen wie diese, die in 2 gezeigt sind.
  • Die Maschine 130 berechnet bei dem Ähnlichkeitsberechnungsschritt 36 die Ähnlichkeiten zwischen den einzelnen Satzvektoren des Ziel-/Vergleichsdokuments und des gesamten Ziel-/Vergleichsdokuments. Wenn sim(D,dk) die Ähnlichkeit des Satzvektors dk des Zieldokuments zu dem gesamten Zieldokument bezeichnet und sim(T,dk) die Ähnlichkeit desselben mit dem gesamten Vergleichsdokument bezeichnet, können sim(D,dk) und sim(T,dk) auf der Basis der Quadratsummen der inneren Produkte zwischen dem Satzvektor dk und aller Satzvektoren des Zieldokuments und des Vergleichsdokuments wie folgt berechnet werden:
    Figure 00230001
  • Alternativ können die obigen Ähnlichkeiten, wenn d und t die durchschnittlichen Satzvektoren des Zieldokuments und des Vergleichsdokuments bezeichnen, jeweils wie folgt berechnet werden:
    Figure 00240001
  • Nebenbei werden bei dem Ähnlichkeitsberechnungsschritt 36 Ähnlichkeiten mit dem gesamten Zieldokument und dem gesamten Vergleichsdokument ebenfalls für alle Satzvektoren des Vergleichsdokuments in Vorbereitung für die Berechnung des Grades an Verschiedenartigkeit des Ausdrucks von Schritt 38 berechnet. Bei dem Schritt 37 der Berechnung eines Grads an Verschiedenartigkeit eines Dokumentsegments berechnet die Maschine 130 Grade an Verschiedenartigkeit für alle Satzvektoren des Zieldokuments. Ein jeglicher Satz, der in dem Zieldokument bedeutsam ist, weist eine hohe Ähnlichkeit mit dem gesamten Zieldokument auf, und ein jeglicher Satz, der einen Inhalt aufweist, der sich von diesem des Vergleichsdokuments unterscheidet, weist eine geringe Ähnlichkeit mit dem gesamten Vergleichsdokument auf. Deshalb kann ein Grad an Verschiedenartigkeit, bei dem Unterschied und Bedeutsamkeit gut ausgeglichen sind, durch ein Einsetzen eines Verhältnisses (Ähnlichkeit mit dem gesamten Zieldokument)/(Ähnlichkeit mit dem gesamten Vergleichsdokument) definiert werden. Folglich berechnet die Maschine 130 bei dem Schritt 37 den Grad an Verschiedenartigkeit distic(dk) des Satzes k des Zieldokuments D wie folgt: distinc(dk) = sin(D,dk)/sin(T,dk). Gleichung 26
  • Der Grad an Verschiedenartigkeit des Satzes k, der somit berechnet wurde, wird in einem Fall groß, in dem der Satz k eine hohe Ähnlichkeit mit dem Zieldokument und eine geringe Ähnlichkeit mit dem Vergleichsdokument aufweist. Nebenbei werden bei dem Schritt 37 der Berechnung des Grades an Verschiedenartigkeit des Dokumentsegments die Grade an Verschiedenartigkeit eines Satzes des Vergleichsdokuments T ebenfalls in Vorbereitung auf den nächsten Schritt 38 der Berechnung der Verschiedenartigkeit des Ausdrucks berechnet. Der Grad an Verschiedenartigkeit des Satzes k des Vergleichsdokuments T sei durch distinc(tk) bezeichnet.
  • Bei dem Schritt 38 führt die Maschine 130 die Berechnung des Grads an Verschiedenartigkeit des Ausdrucks aus den Korrelationskoeffizienten zwischen den Graden an Verschiedenartigkeit einzelner Sätze und Ausdruckshäufigkeiten in den jeweiligen Sätzen durch. Bei dem Schritt 38 berechnet die Maschine 130 den Grad an Verschiedenartigkeit eines Ausdrucks wj, der durch distinc(wj) bezeichnet ist, gemäß:
    Figure 00250001
  • Der Korrelationskoeffizient wird für den Ausdruck wj hoch, wenn ein proportionales Verhältnis zwischen dem Wert der Komponente, die dem Ausdruck wj in dem Satzvektor dk oder tk entspricht, und dem Grad an Verschiedenartigkeit des Satzes gilt. Das heißt, der Korrelationskoeffizient erhöht sich, wenn der Grad an Verschiedenartigkeit des Satzes groß wird, wenn der Ausdruck wj auftritt, und der Grad an Verschiedenartigkeit des Satzes wird klein, wenn der Ausdruck wj nicht auftritt. In einem derartigen Fall kann der Ausdruck wj als ein verschiedenartiger Ausdruck betrachtet werden, der den Grad an Verschiedenartigkeit jedes Satzes beherrscht.
  • Bei den Schritten 39 und 40 wählt die Maschine 130 das verschiedenartige Dokumentsegment bzw. den verschiedenartigen Ausdruck aus, derart, dass ein jeglicher Satz, dessen Grad an Satzverschiedenartigkeit größer oder gleich einem vorbestimmten Wert ist, und ein jeglicher Ausdruck, dessen Grad an Ausdrucksverschiedenartigkeit größer oder gleich einem vorbestimmten Wert ist, ausgewählt werden. Dadurch können verschiedenartige Sätze und Ausdrücke erhalten werden.
  • Gemäß 4 können sowohl die Grade an Verschiedenartigkeit der Dokumentsegmente und der Ausdrücke, aber die Grade an Verschiedenartigkeit der Kombinationen von Ausdrücken, wie beispielsweise Phrasen, Ausdrucksgruppen unter Abhängigkeitsbeziehungen oder Ausdrucksreihenmuster, ausgewertet werden, wie es unten angegeben ist. Bei dem Schritt 13 werden zusätzlich zu der Ausführung der morphologischen Analyse die Kombinationen von Ausdrücken, die ausgewertet werden sollen, extrahiert. Phrasen, oder Ausdrucksgruppen unter Abhängigkeitsbeziehungen, können durch ein Ausführen einer syntaktischen Analyse extrahiert werden. Es wurden bereits verschiedene Verfahren für die Extraktion von Ausdrucksreihenmustern, die häufig auftreten, entwickelt, und dieselben können ohne Probleme eingesetzt werden. Bei dem Schritt 15 wird ein Vektor p = p1, ..., pJ)T für jede Kombination von Ausdrücken, die ausgewertet werden sollen, zusätzlich zu den Dokumentsegmentvektoren für eine Verwendung bei dem Schritt 16 aufgebaut. Der Vektor p ist ein Vektor, bei dem Komponenten, die Ausdrücken entsprechen, die in der Kombination von Ausdrücken enthalten sind, die ausgewertet werden sollen, einen Wert „1" annehmen, und bei dem die anderen Komponenten desselben einen Wert „0" annehmen. Nachfolgend werden bei den Schritten 36 und 37 die Ähnlichkeit sim(D,p) zwischen einem derartigen Vektor p und dem Zieldokument D und die Ähnlichkeit sim(T,p) zwischen dem Vektor p und dem Vergleichsdokument T durch ein Ersetzen des Satzvektors dk mit dem Vektor p berechnet. Wie bei den Gleichungen 20 und 21 können diese Ähnlichkeiten wie folgt definiert sein:
    Figure 00270001
  • Alternativ können wie bei den Gleichungen 22 und 23 die Ähnlichkeiten auch wie folgt definiert sein:
    Figure 00270002
  • Unter Verwendung der Ähnlichkeiten kann der Grad an Verschiedenartigkeit der Kombination von Ausdrücken, die ausgewertet werden sollen, wie folgt berechnet werden: distinc(p) = sim(D,p)/sim(T,p). Gleichung 32
  • Bei dem Schritt 40 werden diese Kombinationen von Ausdrücken, deren Grade an Verschiedenartigkeit größer oder gleich einem vorbestimmten Wert sind, als verschiedenartige Kombinationen von Ausdrücken ausgewählt.
  • Bei diesem Ausführungsbeispiel können ferner die Grade an Verschiedenartigkeit von Phrasen, Ausdrucksgruppen unter Abhängigkeitsbeziehungen oder Ausdrucksreihenmustern, die jeweils aus einer Mehrzahl von Ausdrücken gebildet sind, berechnet werden, wie es unten angegeben ist. Bei dem Schritt 15 werden Häufigkeiten, mit denen jede Kombination von Ausdrücken, die ausgewertet werden sollen, in den jeweiligen Dokumentsegmenten auftritt, zusätzlich zu dem Aufbau der Dokumentsegmentvektoren für eine Verwendung bei dem Schritt 16 berechnet. Hier bezeichnet pDk die Häufigkeit des Satzes k des Zieldokument D und bezeichnet pTk die Häufigkeit in dem Satz k des Vergleichsdokuments T. Der Grad an Verschiedenartigkeit der Kombinationen von Ausdrücken, die ausgewertet werden sollen, kann an Stelle des Grads an Verschiedenartigkeit des Ausdrucks wj berechnet werden, indem bei dem Schritt 38 dkj mit pDk ersetzt wird und indem tki mit pTk ersetzt wird. Bei dem Schritt 39 werden diese Kombinationen von Ausdrücken, deren Grade an Verschiedenartigkeit größer oder gleich einem vorbestimmten Wert sind, als verschiedenartige Kombinationen von Ausdrücken ausgewählt.
  • Die Ergebnisse eines Experiments unter Verwendung von Gleichung 13 folgen in Reihenfolge, um die bestimmten Merkmale der vorliegenden Erfindung darzulegen. Als Daten, die bei dem Experiment verwendet wurden, wurden zwei Dokumente unter den Kriterien geeigneter Längen und einer hohen Ähnlichkeit aus der ersten Kategorie „acq" eines Text kategorisierenden Korpus „Reuters-21578" ausgewählt. Die „id"s dieser Dokumente lauteten 1836 und 2375. Die Kosinusähnlichkeit zwischen den Dokumenten betrug 0,955. Das Dokument 1836 war aus 43 Sätzen gebildet, während das Dokument 2375 aus 32 Sätzen gebildet war. Die Dokumente waren Nachrichten an einem identischen Tag. Das Dokument 2375, das später gesendet worden sein soll, wurde als das Zieldokument D festgelegt und das Dokument 1836 als das Vergleichsdokument T, um verschiedenartige Sätze, etc. aus dem Zieldokument D zu extrahieren. Die Inhalte der Dokumen te beziehen sich auf die Übernahme einer US-Fluggesellschaft „USAir" durch eine US-Fluggesellschaft „TWA". Die Sätze D-1 bis D-4 fassen Nachrichten zusammen, die Sätze D-5 bis D-24 geben die Einzelheiten eines Übernahmedramas an und die Sätze D-25 und folgende geben eine Analyse über die Firma „TWA" an. Viele Informationselemente, die in dem Dokument T nicht vorliegen, sind in einigen der Sätze D-1 bis D-4 und D-5 bis D-24 und in den Sätzen D-25 und folgende enthalten. Die gesamten Texte der Dokumente werden als „experimentelle Dokumentdaten" am Ende dieser Beschreibung angegeben.
  • Das Experiment wurde gemäß dem ersten Ausführungsbeispiel der vorliegenden Erfindung durchgeführt. Folglich wurden acht Sätze D-1, D-8, D-11, D-24, D-25, D-27, D-28 und D-30 als Sätze hoher Grade an Verschiedenartigkeit ausgewählt. Auch bei einem Menschenlesevergleichsexperiment wurden diese Sätze als Sätze erkannt, die schwach mit dem Vergleichsdokument verwandt waren und in dem Zieldokument verschiedenartig waren.
  • Die Ergebnisse, die durch ein Auswählen von Wörtern hoher Grade an Verschiedenartigkeit gemäß Gleichung 19 erhalten wurden, sind unten aufgelistet. Für jedes der zehn Wörter mit den höchsten Graden an Verschiedenartigkeit ist der Grad an Verschiedenartigkeit des Wortes, die auftretende Häufigkeit desselben in dem Zieldokument D und die auftretende Häufigkeit desselben in dem Vergleichsdokument T angegeben.
    Ausgewähltes Wort Grad an Verschiedenartigkeit Auftretende Häufigkeit in Zieldokument D Auftretende Häufigkeit in Vergleichsdokument T
    Gelingen 85,7 3 0
    Arbeit 85,3 2 0
    Kosten 85,2 2 0
    Überleben 81,6 2 0
    Klar 80,4 3 0
    Firma 71,0 5 1
    Fallen 67,3 2 0
    Arbitrageur 67,0 5 1
    Angebot 62,4 5 1
    Fusionieren 61,9 3 1
  • Angesichts dieser Ergebnisse konnten die Wörter, deren auftretende Häufigkeiten in dem Vergleichsdokument T gering und in dem Zieldokument D hoch waren, ausgewählt werden.
  • Als eine Anwendung eines derartigen Experiments wird das folgende Beispiel betrachtet. Wenn ein bestimmter Nachrichtenartikel früher gelesen wurde, kann, um den Inhalt desselben zu erfassen, irgendein Schlüsselwort, dessen Inhalt nicht in dem früheren Nachrichtenartikel angegeben ist, aus einem Nachrichtenartikel extrahiert werden, der später ankam. Folglich kann eine Bestimmung dahingehend vorgenommen werden, ob der spätere Nachrichtenartikel detailliert gelesen werden muss. Unterschiedliche Grade an Verschiedenartigkeit können sogar für zwei Ausdrücke erhalten werden, wie beispielsweise die Wörter „gelingen" und „klar", die oben erwähnt sind, und die ziemlich die gleichen Häufigkeiten in dem Zieldokument und in dem Vergleichsdokument aufweisen, und Dank der vorliegenden Erfindung kann beurteilt werden, welches verschiedenartiger ist.
  • Experimentelle Dokumentdaten
  • Die bei der vorliegenden Erfindung verwendeten Dokumente sind unten angegeben.
  • Vergleichsdokument T (Reuter-id1836)
  • Trans World Airlines Inc. hat die Angebotsabgabe für Piedmont Aviation Inc. dadurch verkompliziert, anzubieten, entweder die an Piedmont interessierte USAir Group zu kaufen oder alternativ mit Piedmont und USAir zu fusionieren. Piedmonts Führungsgremium kam heute zusammen und an der Wall Street wird spekuliert, dass das Gremium eine Ablehnung der Angebote von Norfolk Southern Corp. und USAir erörterte. Das Angebot von TWA wurde bekannt gegeben, kurz nachdem die Sitzung des Piedmont-Führungsgremiums planmäßig beginnen sollte. TWA bot für den Kauf von USAir 52 Dollar pro Aktie an. Man sei der größte Teilhaber an USAir, verkündete das Unternehmen und drohte damit, mit einem Angebot für 51 der Aktion zu einem niedrigeren Preis direkt an USAir-Aktionäre heranzutreten. TWA ließ ferner verlauten, man sei der Meinung, das eigene Angebot sei ein besseres Geschäft für USAir-Aktionäre als ein Kauf von Piedmont, aber sagte auch, dass man alternativ eine Dreierkombination der Fluggesellschaften erörtere. In Marktkreisen und unter Analysten wurde spekuliert, TWA-Chef Carl Icahn habe das Angebot gemacht, um seine eigene Fluggesellschaft auf die Übernahmebühne zu hieven. Man fragt sich nur, ob er nicht nur versucht, TWA ins Spiel zu bringen.
  • Es gibt Spekulationen auf der Straße, dass er nur etwas anderes angehen will, sagte ein Arbitrageur. Wir sind der Ansicht, dass TWA eventuell nur einen Versuchsballon startet. Analysten sagten, das Angebot müsse von USAir ernst genommen werden, aber die Fluggesellschaft es wahrscheinlich ausschlagen werde, weil der Preis verglichen mit anderen Fluggesellschaftsgeschäften relativ niedrig sei. Sie sagten ferner, Icahn müsse sein Angebot durch Offenle gung von Finanzierungseinzelheiten glaubhaft machen. Sie müssten ihr Engagement und ihre Finanzierungsfähigkeit zeigen. Ich bin der Ansicht, dass es sich um ein glaubwürdiges Angebot handelt, sagte Timothy Pettee, ein Analyst bei Bear Stearns. Ich denke, es bewegt sich sicherlich am unteren Ende von relativen Werten von Fluggesellschaftsgeschäften, sagte Pettee. Nach Pettees Schätzung lägen 58 Dollar in einem vernünftigeren Bereich, basierend auf anderen Fluggesellschaftsfusionen. Die Aktienkurse von USAir stiegen stark an, nachdem TWA ihr Angebot veröffentlich hatte.
  • Ein USAir-Sprecher lehnte Kommentare ab und sagte, USAir habe ihr Angebot für Piedmont nicht verändert. USAir hat angeboten, 50 % der Aktien dieser Fluggesellschaft zu 71 Dollar pro Aktie und den Rest zu 73 Dollar pro Aktie in USAir-Aktien zu kaufen. USAir stieg um 5 3/8 und schloss mit 49 1/8 bei einem Volumen von 1,9 Millionen Aktien. Piedmont, um 1/2 gefallen und geschlossen bei 69 5/8, hüllte sich bezüglich der TWA-Angelegenheit ebenfalls in Schweigen. Piedmont hat ein ausstehendes Angebot von Norfolk Southern Corp. in Höhe von 65 Dollar pro Aktie. Norfolk Southern lehnte Kommentare ab, aber sagte, man bleibe bei dem Angebot für Piedmont. Norfolk hält etwa 20 % an Piedmont und eröffnete die Angebotsabgabe, als sie verlauten ließ, eine Übernahme von Piedmont vorzuschlagen. Einige Analysten gaben an, Icahn könne versuchen, USAir zu erwerben, um seine eigene Fluggesellschaft zu einem attraktiveren Übernahmeziel zu machen. Ich denke, Icahn wollte seine Fluggesellschaft verkaufen und es gab keine Abnehmer. Ich denke, die Strategie verlangte danach, seine Investition attraktiver zu gestalten.
  • Eine Möglichkeit, dieses spezielle Ziel zu erreichen, besteht darin, hinauszugehen und andere Fluggesellschaften zu erwerben, sagte Andrew Kim von Eberstadt Fleming. Ich weiß nicht, wer sie kaufen wird, aber auf diese Weise wird sie zumindest zu einem viel brauchbareren Paket, sagte Kim. Aber Icahns Finanzierungsfähigkeit für eine derartige Transaktion bleibt zweifelhaft, zum Teil auf Grund TWAs schwerer Schuldenlast. Von der Wall Street verlautete, TWA habe Geld, um das Angebot zu machen. Die Quellen gaben an, Icahn habe keine externen Finanzberater aufgestellt und plane seine eigenen Vereinbarungen zu treffen. Früher in diesem Jahr nahm Icahn von Plänen Abstand, USX Corp. <X> zu kaufen, und hält immer noch 11 % der Aktien an dieser Firma. Einige Quellen an der Wall Street meinten, dass der Plan des Finanziers USX von der dunklen Wolke beeinflusst wurde, die auf Grund des Insiderhandelsskandals an der Wall Street über dessen Berater, Drexel Burnham Lambert Inc., hängt. Branchenkreise sagten ferner voraus, USAir könne das TWA-Angebot eventuell aus Preis- und Finanzierungsbesorgnissen ablehnen. Überall lauern unvorhergesehene Ausgaben und es gibt keine Finanzierungsvereinbarungen, sagte ein leitender Angestellter einer anderen größeren Fluggesellschaft. Aber der leitende Angestellte gestand ein, dass eine fusionierte TWA USAir ein starker Konkurrent um USAirs Ostküstenliniensystem und die geplante Westküstenpräsenz von PSA wäre. USAir könnte als Zubringer für die internationalen Flüge von TWA dienen, die eine Präsenz im Mittleren Westen mit dem Drehkreuz St. Louis hat. Wenn Piedmont hinzukommt, die in Südosten dominant ist, würde sich eine noch stärkere Schlagkraft entwickeln. Die kombinierte Einheit hätte auch das PARS-Reservierungssystem von TWA. Eine derartige Fusion wäre komplex und Analysten sind der Ansicht, sie würde zu einer Fluggesellschaft mit 18 % Marktanteil führen.
  • Zieldokument D (Reuter-id2375)
    • D-1 Carl Icahns mutiges Übernahmeangebot für USAir Group <U> hat sich wie ein Schatten über das Schicksal von Piedmont Aviation Inc. gelegt, an der USAir Interesse bekundet hatte.
    • D-2 Gestern legte Icahns Transworld Airlines Inc. <TWA> ein Angebot in Höhe von 1,4 Milliarden Dollar für die USAir Group vor.
    • D-3 Der Schritt hat ein Übernahmeangebot von USAir für Piedmont verkompliziert, die kurz davor gestanden haben soll, das Angebot anzunehmen.
    • D-4 Heute lehnte USAir Icahns Angebot von 52 Dollar pro Aktie ab und ließ verlauten, das Gebot sei eine Bemühung in letzter Minute, die Übernahme von Piedmont zu stören.
    • D-5 Icahn stand für ein Gespräch nicht zur Verfügung.
    • D-6 Piedmont gab um einen Punkt nach auf 68 5/8 bei einem Volumen von 963000.
    • D-7 TWA gab um 3/8 nach auf 31 1/2.
    • D-8 USAir fiel um 1 3/8 auf 47 3/4, als Zweifel an einer Übernahme laut wurden.
    • D-9 Analysten und Marktkreise sehen das TWA-Gebot als einen Versuch, entweder ein Gegenangebot von USAir auszulösen oder einen Interessenten anzuziehen, der beide Fluggesellschaften möchte, sobald dieselben fusioniert sind.
    • D-10 Ein Arbitrageur spekulierte, die nächste Handlung bestünde entweder darin, dass Icahn ein Zahlungsangebot mache, oder Piedmont und USAir das Geschäft machen.
    • D-11 Einige Arbitrageure sagten, es gebe nun ein gewisses Risiko bei dem aktuellen Kurs von Piedmont, da nicht klar sei, dass das Gebot von USAir erfolgreich sein werde.
    • D-12 Piedmonts größter Anteilseigner und anderer Interessent, Norfolk Southern Corp. <NSC>, bot 65 Dollar pro Aktie für die Firma.
    • D-13 USAir bot 71 Dollar pro Aktie für die Hälfte der Anteile an Piedmont und 73 Dollar pro Aktie in Aktien für den Rest.
    • D-14 Einige Arbitrageure glauben jedoch, der niedrige Kurs von Piedmont biete eine Kaufgelegenheit, da die Fluggesellschaft auf jeden Fall von jemandem erworben wird.
    • D-15 USAir, so sagten sie, werde aller Wahrscheinlichkeit nach nicht gekauft.
    • D-16 Icahn, der lange über eine weitere Konsolidierung in der Luftfahrtbranche gesprochen hatte, bot USAir auch die Alternative einer dreifachen Fluggesellschaftskombination einschließlich TWA und Piedmont.
    • D-17 Aber die Wall Street schenkt Icahns Angebot wenig Glauben, dem es an Finanzierung fehle und das von unvorhergesehnen Ausgaben geplagt sein.
    • D-18 Dennoch sei es ihm geglückt, eine Fusion zweier Fluggesellschaften aufzuhalten, die beide gut zu TWA passen würden, so Analysten.
    • D-19 Ein Arbitrageur sagte, man könne ihn nicht unberücksichtigt lassen.
    • D-20 Analysten jedoch sagten, Icahn werde belegen müssen, dass er es ernst meine, indem er seine Drohungen wahr macht oder ein neues Angebot unterbreitet.
    • D-21 Im Rahmen des Angebots für USAir drohte Icahn damit, für 51 % der Aktien zu einem niedrigeren Preis direkt auf Anteilseigner zuzugehen, sollte USAir sein Angebot ablehnen.
    • D-22 Es ist klar, dass Icahn verkaufen will und blufft, sagte ein Arbitrageur.
    • D-23 Analysten sagten, das Angebot von 52 Dollar pro Aktie sei um etwa 6 Dollar pro Aktie zu niedrig.
    • D-24 Einige Analysten glauben, Icahns vorgeschlagene Dreierfluggesellschaftskombination könne vor unüberwindlichen Regulierungshürden stehen, aber andere sind der Ansicht, diese könnten umgangen werden, falls die Firmen getrennt erworben werden.
    • D-25 TWA müsse die überlebende Firma sein, damit das Geschäft funktioniere, sagte ein Analyst.
    • D-26 Analysten sagten, eine derartige Fusion sei kostspielig und kompliziert.
    • D-27 TWA weist die beste Kostenstruktur auf, da Icahn seinen Gewerkschaften Zugeständnisse abringen konnte.
    • D-28 Damit die anderen Fluggesellschaften bei einer Fusion sich auf TWAs Lohnniveau begeben, müsse TWA die überlebende Einheit sein, sagten Analysten.
    • D-29 Ein derartiges Vorgehen befreit Icahn nicht zwangsläufig von TWA, sagten sie.
    • D-30 Sie sagten, er habe sich beim Reduzieren der Kosten von Ozark Airlines als geschickt erwiesen, als er sie im letzten Jahr der TWA einverleibte, und er könne unabdingbar sein, damit eine Fusion funktioniert.
    • D-31 Andere Analysten jedoch spekulierten, dass das Management von Piedmont sowie USAir Icahn nicht als Chef einer neuen Firma dulden werde.
    • D-32 Sie sagten, ein Erwerb der USAir von TWA könne eine Möglichkeit für ihn darstellen, aus der Firma auszuscheiden, falls die Fluggesellschaft USAir dann in die TWA fusioniert ist.

Claims (17)

  1. Ein Verfahren zum Auswerten eines Grads an Verschiedenartigkeit jedes Dokumentsegments, das in einem Zieldokument enthalten ist, das zumindest ein Dokumentsegment umfasst, mit Bezug auf ein Vergleichsdokument, das zumindest ein Dokumentsegment umfasst, wobei das Verfahren folgende Schritte aufweist: (a) Identifizieren eines jeweiligen Dokumentsegmentvektors (15) für jedes Dokumentsegment, das in dem Vergleichsdokument und dem Zieldokument enthalten ist, wobei jeder Dokumentsegmentvektor Komponentenwerte aufweist, die auftretenden Häufigkeiten von Ausdrücken zugeordnet sind, die in dem jeweiligen Dokumentsegment desselben auftreten; (b) Berechnen von Quadratsummenmatrizen, die dem Vergleichsdokument bzw. dem Zieldokument entsprechen, aus den Dokumentsegmentvektoren; gekennzeichnet durch: (c) Berechnen einer vorbestimmten Anzahl von Ordnungen von Themenunterschiedsfaktorvektoren (16, 17) des Zieldokuments, die aus einer Projektionsachse berechnet werden, die ein Verhältnis von Werten aus den Quadratsummenmatrizen entsprechend dem Vergleichsdokument zu diesen aus dem Zieldokument maximiert, wenn die Dokumentsegmentvektoren an einer vorbestimmten Projektionsachse projiziert sind; und (d) Berechnen jeweiliger Grade an Verschiedenartigkeit (18, 19) der jeweiligen Ordnungen und eines Gesamtgrads an Verschiedenartigkeit für jedes Dokumentsegment des Zieldokuments aus dem entsprechenden Dokumentsegmentvektor und den Themenunterschiedsfaktorvektoren der jeweiligen Ordnungen.
  2. Das Verfahren gemäß Anspruch 1, das ferner folgende Schritte aufweist: Berechnen der Quadratsummenmatrix des Zieldokuments durch ein Definieren von J als einer größeren der Anzahlen von Typen von Ausdrücken, die in dem Zieldokument und dem Vergleichsdokument auftreten, und ein Definieren von M als die Anzahl von Dokumentsegmenten in dem Zieldokument und ein Definieren eines k-ten Dokumentsegmentvektors, um dk = (dk1, ..., dkj)T (k = 1, M) zu betragen, wobei T eine Transposition des Vektors bezeichnet und dk einen Wert bezeichnet, der der auftretenden Häufigkeit eines j-ten Ausdrucks zugeordnet ist, der in dem Dokumentsegment auftritt, und Berechnen der Quadratsummenmatrix des Zieldokuments gemäß der folgenden Gleichung: SD = ΣMk=1 dkdk T,und Berechnen der Quadratsummenmatrix des Vergleichsdokuments durch ein Definieren von N als der Anzahl von Dokumentsegmenten in dem Vergleichsdokument und ein Definieren eines n-ten Dokumentsegmentvektors, um tk = (tk1, ..., tkj)T (k = 1, ..., N) zu betragen, wobei T eine Transposition des Vektors bezeichnet und tkj den Wert bezeichnet, der der auftretenden Häufigkeit eines j-ten Ausdrucks zugeordnet ist, der in dem Dokumentsegment auftritt, und Berechnen der Quadratsummenmatrix des Vergleichsdokuments gemäß der folgenden Gleichung: ST = ΣMk=1 tktk T.
  3. Das Verfahren gemäß Anspruch 2, das ferner ein Berechnen eines Themenunterschiedsfaktorvektors i-ter Ordnung des Zieldokuments gemäß einem Eigenvektor αi i-ter Ordnung eines verallgemeinerten Eigenwertproblems gemäß der folgenden Gleichung aufweist: SDα = λSTα.
  4. Das Verfahren gemäß einem der vorhergehenden Ansprüche, das ferner ein Berechnen des Grads an Verschiedenartigkeit jeder Ordnung für jedes Dokumentsegment des Zieldokuments durch einen Absolutwert oder einen Quadratwert eines inneren Produkts zwischen dem entsprechenden Dokumentsegmentvektor und dem Themenunterschiedsfaktorvektor jeder Ordnung oder durch ein Normieren des Grads an Verschiedenartigkeit jeder Ordnung für jedes Dokumentsegment durch eine Norm des Dokumentsegmentvektors und ein Berechnen des Gesamtgrads an Verschiedenartigkeit durch ein Addieren einer vorbestimmten Anzahl von Graden an Verschiedenartigkeit der jeweiligen Ordnungen aufweist.
  5. Ein Verfahren gemäß Anspruch 1, 2, 3 oder 4, das ferner folgenden Schritt aufweist: (e) Identifizieren eines verschiedenartigen Dokumentsegments in dem Zieldokument (20) auf der Basis der Grade an Verschiedenartigkeit der jeweiligen Ordnungen oder auf der Basis des Gesamtgrads an Verschiedenartigkeit derselben.
  6. Ein Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem jedes Dokumentsegment des Zieldokuments eine Kombination von Ausdrücken umfasst, wobei das Verfahren ferner folgende Schritte aufweist: nach dem Schritt (c) und vor dem Schritt (d), Berechnen eines Ausdruckkombinationsvektors für jede Kombination von Ausdrücken in dem Zieldokument, wobei jeder Ausdruckkombinationsvektor Komponenten aufweist, die den Ausdrücken entsprechen, die in der Kombination von Ausdrücken enthalten sind, denen Werte gegeben sind, die durch auftretende Anzahlen der Ausdrücke in der Kombination von Ausdrücken bestimmt sind, und andere Komponenten gleich „0" aufweist; wobei der Schritt (d) ein Berechnen von Graden an Verschiedenartigkeit der jeweiligen Ordnungen und eines Gesamtgrads an Verschiedenartigkeit für jede Kombination von Ausdrücken in dem Zieldokument aus dem entsprechenden Ausdruckkombinationsvektor und den Themenunterschiedsfaktorvektoren der jeweiligen Ordnungen aufweist.
  7. Ein Verfahren gemäß einem der Ansprüche 1 bis 3, bei dem jedes Dokumentsegment des Zieldokuments zumindest einen Ausdruck umfasst, wobei das Verfahren folgende Schritte aufweist: nach dem Schritt (c) und vor dem Schritt (d), Berechnen von Werten innerer Produkte für jedes der Dokumentsegmente des Zieldokuments und des Vergleichsdokuments, wobei die Werte der inneren Produkte zwischen dem entsprechenden Dokumentsegmentvektor und den Themenunterschiedsfaktorvektoren der jeweiligen Ordnungen berechnet werden; wobei der Schritt (d) ein Berechnen von Graden an Verschiedenartigkeit der jeweiligen Ordnungen und eines Gesamtgrads an Verschiedenartigkeit für jeden Ausdruck, der in dem Zieldokument enthalten ist, auf der Basis von Korrelationskoeffizienten zwischen Haufigkeiten jedes Ausdrucks in den jeweiligen Dokumentsegmenten und den Werten der inneren Produkte aufweist.
  8. Ein Verfahren gemäß Anspruch 7, das ferner folgenden Schritt aufweist: (e) Identifizieren eines verschiedenartigen Ausdrucks in dem Zieldokument auf der Basis der Grade an Verschiedenartigkeit der jeweiligen Ordnungen oder des Gesamtgrads an Verschiedenartigkeit derselben.
  9. Das Verfahren gemäß Anspruch 8, das ferner ein Berechnen des Grads an Verschiedenartigkeit jeder Ordnung für jeden Ausdruck, der in dem Zieldokument enthalten ist, durch einen Absolutwert oder einen Quadratwert der Korrelationskoeffizienten zwischen den Häufigkeiten jedes Ausdrucks in den jeweiligen Dokumentsegmenten und den Innenproduktwerten des entsprechenden Dokumentsegmentvektors und der Themenunterschiedsfaktorvektoren der jeweiligen Ordnungen und ein Berechnen des Gesamtgrads an Verschiedenartigkeit durch ein Addieren einer vorbestimmten Anzahl von Graden an Verschiedenartigkeit der jeweiligen Ordnungen aufweist.
  10. Ein Verfahren gemäß Anspruch 1, 2 oder 3, bei dem jedes Dokumentsegment des Zieldokuments eine Kombination von Ausdrücken umfasst, wobei das Verfahren ferner folgende Schritte aufweist: nach dem Schritt (c) und vor dem Schritt (d), Berechnen von Werten innerer Produkte für jedes der Dokumentsegmente des Zieldokuments und des Vergleichsdokuments, wobei die Werte der inneren Produkte zwischen dem entsprechenden Dokumentsegmentvektor und den Themenunterschiedsfaktorvektoren der jeweiligen Ordnungen berechnet werden; wobei der Schritt (d) ein Berechnen von Graden an Verschiedenartigkeit der jeweiligen Ordnungen und eines Gesamtgrads an Verschiedenartigkeit für jede Kom bination von Ausdrücken, die in dem Zieldokument enthalten sind, auf der Basis von Korrelationskoeffizienten zwischen Häufigkeiten jeder Kombination von Ausdrücken in den jeweiligen Dokumentsegmenten und den Werten der inneren Produkte aufweist.
  11. Ein Verfahren gemäß Anspruch 6 oder 10, das ferner folgenden Schritt aufweist: (e) Identifizieren einer verschiedenartigen Kombination von Ausdrücken in dem Zieldokument auf der Basis der Grade an Verschiedenartigkeit der jeweiligen Ordnungen oder des Gesamtgrads an Verschiedenartigkeit derselben.
  12. Das Verfahren gemäß Anspruch 11, das ferner ein Berechnen des Grads an Verschiedenartigkeit jeder Ordnung für jede Kombination von Ausdrücken, die in dem Zieldokument enthalten ist, durch einen Absolutwert oder einen Quadratwert der Korrelationskoeffizienten zwischen den Häufigkeiten jeder Kombination von Ausdrücken in den jeweiligen Dokumentsegmenten und Werten der inneren Produkte und Berechnen des Gesamtgrads an Verschiedenartigkeit durch ein Addieren einer vorbestimmten Anzahl von Graden an Verschiedenartigkeit der jeweiligen Ordnungen aufweist.
  13. Ein Computerprogramm, das eine Computerprogrammcodeeinrichtung zum Durchführen aller Schritte von irgendeinem der vorhergehenden Ansprüche aufweist, wenn das Programm auf einem Computer abläuft.
  14. Ein Computerprogramm gemäß Anspruch 13, das auf einem computerlesbaren Medium ausgeführt ist.
  15. Ein Computersystem, das eine Auswahlmaschine (130) umfasst, wobei die Auswahlmaschine (130) angeordnet ist, um ein Vergleichsdokument und ein Zieldokument zu empfangen, und wirksam ist, um die Schritte von irgendeinem der Ansprüche 1 bis 12 an dem Vergleichsdokument und dem Zieldokument durchzuführen.
  16. Ein Computersystem gemäß Anspruch 15, das ferner einen Datenprozessor (120) aufweist, der angeordnet ist, um das Vergleichsdokument und das Zieldokument zu empfangen, um das Vergleichsdokument und das Zieldokument in Abhängigkeit von zumindest einem Dokumentsegment in jedem jeweiligen Dokument zu identifizieren und zu segmentieren und um die segmentierten Dokumente an die Auswahlmaschine (130) zu übertragen.
  17. Ein Computersystem gemäß Anspruch 16, das ferner einen Dokumentenleser (110) aufweist, der angeordnet ist, um das Vergleichsdokument und das Zieldokument zu lesen und das gelesene Zieldokument und Vergleichsdokument an den Datenprozessor (120) auszugeben.
DE60316227T 2002-07-04 2003-07-03 Bewertung der Eigenartigkeit eines Dokuments Expired - Fee Related DE60316227T2 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2002195375 2002-07-04
JP2002195375A JP4452012B2 (ja) 2002-07-04 2002-07-04 文書の特有性評価方法

Publications (2)

Publication Number Publication Date
DE60316227D1 DE60316227D1 (de) 2007-10-25
DE60316227T2 true DE60316227T2 (de) 2008-06-05

Family

ID=29720287

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60316227T Expired - Fee Related DE60316227T2 (de) 2002-07-04 2003-07-03 Bewertung der Eigenartigkeit eines Dokuments

Country Status (5)

Country Link
US (1) US7200802B2 (de)
EP (1) EP1378838B1 (de)
JP (1) JP4452012B2 (de)
CN (1) CN1495644B (de)
DE (1) DE60316227T2 (de)

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348706A (ja) * 2003-04-30 2004-12-09 Canon Inc 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
US8954420B1 (en) 2003-12-31 2015-02-10 Google Inc. Methods and systems for improving a search ranking using article information
US7293019B2 (en) * 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US8099407B2 (en) 2004-03-31 2012-01-17 Google Inc. Methods and systems for processing media files
US8275839B2 (en) * 2004-03-31 2012-09-25 Google Inc. Methods and systems for processing email messages
US7333976B1 (en) 2004-03-31 2008-02-19 Google Inc. Methods and systems for processing contact information
US20050234929A1 (en) * 2004-03-31 2005-10-20 Ionescu Mihai F Methods and systems for interfacing applications with a search engine
US8346777B1 (en) 2004-03-31 2013-01-01 Google Inc. Systems and methods for selectively storing event data
US8386728B1 (en) 2004-03-31 2013-02-26 Google Inc. Methods and systems for prioritizing a crawl
US8631076B1 (en) 2004-03-31 2014-01-14 Google Inc. Methods and systems for associating instant messenger events
US7680888B1 (en) 2004-03-31 2010-03-16 Google Inc. Methods and systems for processing instant messenger messages
US7725508B2 (en) * 2004-03-31 2010-05-25 Google Inc. Methods and systems for information capture and retrieval
US8161053B1 (en) 2004-03-31 2012-04-17 Google Inc. Methods and systems for eliminating duplicate events
US7941439B1 (en) * 2004-03-31 2011-05-10 Google Inc. Methods and systems for information capture
US7580921B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7536408B2 (en) 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7567959B2 (en) * 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
US7567895B2 (en) * 2004-08-31 2009-07-28 Microsoft Corporation Method and system for prioritizing communications based on sentence classifications
CN101189878B (zh) * 2005-05-31 2010-10-27 三叉微系统(远东)有限公司 计算用于图像处理的变换参数
US20110219003A1 (en) * 2005-10-20 2011-09-08 Jiandong Bi Determination of passages and formation of indexes based on paragraphs
US20070112908A1 (en) * 2005-10-20 2007-05-17 Jiandong Bi Determination of passages and formation of indexes based on paragraphs
US9262446B1 (en) 2005-12-29 2016-02-16 Google Inc. Dynamically ranking entries in a personal data book
US20070282812A1 (en) * 2006-03-08 2007-12-06 Superior Edge, Inc. Process execution support system
US8676802B2 (en) 2006-11-30 2014-03-18 Oracle Otc Subsidiary Llc Method and system for information retrieval with clustering
US20110106720A1 (en) * 2009-11-05 2011-05-05 Jerome Dale Johnson Expert system for gap analysis
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8935249B2 (en) 2007-06-26 2015-01-13 Oracle Otc Subsidiary Llc Visualization of concepts within a collection of information
US8005643B2 (en) * 2007-06-26 2011-08-23 Endeca Technologies, Inc. System and method for measuring the quality of document sets
US20090063470A1 (en) * 2007-08-28 2009-03-05 Nogacom Ltd. Document management using business objects
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
JP5264136B2 (ja) * 2007-09-27 2013-08-14 キヤノン株式会社 医用診断支援装置及びその制御方法、ならびにコンピュータプログラム及び記憶媒体
US8196030B1 (en) 2008-06-02 2012-06-05 Pricewaterhousecoopers Llp System and method for comparing and reviewing documents
JP5036636B2 (ja) * 2008-06-12 2012-09-26 キヤノン株式会社 画像処理装置、方法、及び、プログラム
TW201025035A (en) * 2008-12-18 2010-07-01 Univ Nat Taiwan Analysis algorithm of time series word summary and story plot evolution
US8694454B2 (en) 2011-02-17 2014-04-08 Superior Edge, Inc. Methods, apparatus and systems for generating, updating and executing a vegetation control plan
US20130159346A1 (en) * 2011-12-15 2013-06-20 Kas Kasravi Combinatorial document matching
US9113590B2 (en) 2012-08-06 2015-08-25 Superior Edge, Inc. Methods, apparatus, and systems for determining in-season crop status in an agricultural crop and alerting users
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
US9928295B2 (en) * 2014-01-31 2018-03-27 Vortext Analytics, Inc. Document relationship analysis system
US9489576B2 (en) 2014-03-26 2016-11-08 F12 Solutions, LLC. Crop stand analysis
US10025773B2 (en) 2015-07-24 2018-07-17 International Business Machines Corporation System and method for natural language processing using synthetic text
EP3193265A1 (de) * 2016-01-18 2017-07-19 Wipro Limited System und verfahren zur klassifizierung und lösung von software-zwischenfalltickets
CN107870927B (zh) * 2016-09-26 2021-08-13 博彦泓智科技(上海)有限公司 文件评估方法和装置
US10402473B2 (en) * 2016-10-16 2019-09-03 Richard Salisbury Comparing, and generating revision markings with respect to, an arbitrary number of text segments
US10460035B1 (en) * 2016-12-26 2019-10-29 Cerner Innovation, Inc. Determining adequacy of documentation using perplexity and probabilistic coherence
US10915707B2 (en) * 2017-10-20 2021-02-09 MachineVantage, Inc. Word replaceability through word vectors
JP2021152696A (ja) * 2020-03-24 2021-09-30 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
US5857179A (en) * 1996-09-09 1999-01-05 Digital Equipment Corporation Computer method and apparatus for clustering documents and automatic generation of cluster keywords
US5943670A (en) * 1997-11-21 1999-08-24 International Business Machines Corporation System and method for categorizing objects in combined categories
JP3598211B2 (ja) * 1998-01-13 2004-12-08 富士通株式会社 関連語抽出装置および関連語抽出方法および関連語抽出プログラムが記録されたコンピュータ読取可能な記録媒体
JP3855551B2 (ja) * 1999-08-25 2006-12-13 株式会社日立製作所 検索方法及び検索システム
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
JP2002169834A (ja) * 2000-11-20 2002-06-14 Hewlett Packard Co <Hp> 文書のベクトル解析を行うコンピュータおよび方法
JP2002197083A (ja) * 2000-12-12 2002-07-12 Hewlett Packard Co <Hp> 文書分割方法

Also Published As

Publication number Publication date
CN1495644A (zh) 2004-05-12
EP1378838A3 (de) 2005-10-26
CN1495644B (zh) 2010-05-26
EP1378838B1 (de) 2007-09-12
JP2004038606A (ja) 2004-02-05
JP4452012B2 (ja) 2010-04-21
US7200802B2 (en) 2007-04-03
US20040006736A1 (en) 2004-01-08
DE60316227D1 (de) 2007-10-25
EP1378838A2 (de) 2004-01-07

Similar Documents

Publication Publication Date Title
DE60316227T2 (de) Bewertung der Eigenartigkeit eines Dokuments
DE60208223T2 (de) Anordnung und verfahren zur gesichtserkennung unter verwendung von teilen des gelernten modells
DE10134899A1 (de) Themenbezogenes System und Verfahren zur Klassifizierung von Dokumentationseinheiten
DE112017006166T5 (de) Verfahren und system zur erzeugung eines multi-relevanten labels
DE10035043A1 (de) Mehrdimensionale Indexierungsstruktur zur Verwendung mit linearen Optimierungsanfragen
DE4232507A1 (de) Verfahren zum Kennzeichnen, Wiederauffinden und Sortieren von Dokumenten
DE112011104487T5 (de) Verfahren und System zur prädiktiven Modellierung
DE112013006650T5 (de) Multi-Layer System zur Symbol-Speicher basierten Kompression von Mustern
DE102006010607A1 (de) Wahrscheinlichkeitstheoretischer Verstärkungsbaum-Rahmen zum Lernen von Unterscheidungsmodellen
DE10062120A1 (de) Vorrichtung und Verfahren zur Bewertung von Finanzderivaten mit Hilfe von dünnen Gittern
CN101763431A (zh) 基于海量网络舆情信息的pl聚类处理方法
DE2844156A1 (de) Verfahren zum verifizieren eines sprechers
DE112013002654T5 (de) Verfahren zum Klassifizieren von Text
DE10394036T5 (de) System und Verfahren zum Ausführen einer Risikoanalyse
DE60033580T2 (de) Verfahren und gerät zur klassifizierung eines bildes
DE10008502A1 (de) Anapher-Analysevorrichtung mit Vorgängerkandidaten zurückweisungseinrichtung unter Verwendung eines Kandidatenzurückweisungsentscheidungsbaums
EP1008067B1 (de) Verfahren und system zur rechnergestützten ermittlung einer relevanz eines elektronischen dokuments für ein vorgebbares suchprofil
DE102012025349B4 (de) Bestimmung eines Ähnlichkeitsmaßes und Verarbeitung von Dokumenten
DE10034694A1 (de) Verfahren zum Vergleichen von Suchprofilen
EP1190373B1 (de) Verfahren zum adresslesen
DE69734507T2 (de) Verfahren zur optimierung eines erkennungswörterbuchs, so das ähnliche muster besser unterschieden werden können
EP3905097A1 (de) Vorrichtung und verfahren zum bestimmen eines knowledge graph
Becirovic et al. Influence of frontier capital markets interdependence and efficiency on shaping investment strategy under the financial crisis conditions
DE10043442C2 (de) Elektronische Marktplattform
DE10160920B4 (de) Verfahren und Vorrichtung zur Erzeugung eines Extrakts von Dokumenten

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee