DE112013000981T5

DE112013000981T5 - Einheit, Programm und Verfahren zum Analysieren von Textdokumenten

Info

Publication number: DE112013000981T5
Application number: DE112013000981.1T
Authority: DE
Inventors: c/o Toyosu site IBM Japan Ltd. Murakami Takuma; c/o Toyosu site IBM Japan Ltd Kikuchi Hiroaki; c/o Toyosu site IBM Japan Lt Terui Fumihiko; c/o Toyosu site IBM Japan Ltd. Komedani Masaki
Original assignee: International Business Machines Corp
Current assignee: Doordash Inc San Francisco Us
Priority date: 2012-02-16
Filing date: 2013-01-11
Publication date: 2014-11-27
Also published as: US20130218555A1; GB2511015A; GB201410245D0; WO2013121810A1; US9164964B2

Abstract

Bei der vorliegenden Erfindung wird berechnet, mit welcher Häufigkeit und in welchem Kontext einer Zeichengruppe (eines Satzes) ein Zielwort auftritt, und eine Analyseeinheit zum Analysieren eines Textdokumentes bereitgestellt, die eine Kontextspeichereinheit zum Speichern von Kontextinformationen, die die Position einer Zeichengruppe mit einem vorbestimmten Kontext im Dokument zeigen, eine Indexspeichereinheit zum Speichern von Indexinformationen, die für jedes Wort einer Vielzahl von im Dokument enthaltenen Wörtern die Position eines Wortes im Dokument zeigen, eine Eingabeeinheit zum Eingeben eines Zielwortes, eine Positionserkennungseinheit zum Erkennen der Position des im Dokument enthaltenen Zielwortes und eine Häufigkeitserkennungseinheit zum Erkennen der Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der Positionen des Zielwortes und der Kontextinformationen enthält.

Description

Technisches Gebiet
Diese Erfindung betrifft eine Analyseeinheit, ein Programm und ein Analyseverfahren, die Textdokumente analysieren.
Stand der Technik
Analyseeinheiten, die Textdokumente analysieren, sind bereits bekannt. (Siehe beispielsweise Patentschrift 1 und Patentschrift 2.)
Liste der Entgegenhaltungen
Patentschriften

Patentschrift 1: Japanische Patentanmeldungsschrift Nr. 2006-4098
Patentschrift 2: Japanische Patentanmeldungsschrift Nr. 2005-115468

Kurzdarstellung der Erfindung
Technisches Problem
Es gibt Fälle, in denen es wünschenswert ist, mit Hilfe eines Computers herauszufinden, mit welcher Häufigkeit und in welchem Satzkontext (z. B. mit einer bestimmten Nuance) ein Zielwort in einem Dokument erscheint. Beispielsweise gibt es bei einem Dokument, in dem eine Restaurantbewertung verfasst ist, Fälle, in denen es wünschenswert ist, ein bestimmtes Gericht des Restaurants objektiv zu beurteilen, indem untersucht wird, ob das vom Restaurant angebotene bestimmte Gericht in einem Satz mit einem bestimmten Kontext enthalten ist.
In einer solchen Situation empfängt der Computer zuerst vom Benutzer eine Bezeichnung des Zielgerichts. Daran anknüpfend extrahiert der Computer aus dem Zieldokument alle Sätze, die die Bezeichnung des Zielgerichts enthalten. Anschließend analysiert der Computer den Kontext für jeden der extrahierten Sätze und erkennt, ob jeder Satz einen Satz mit einem affirmativ nuancierten Kontext oder einen Satz mit einem negativ nuancierten Kontext darstellt.
Der Computer berechnet dann eine Auftrittshäufigkeit von Sätzen mit einem affirmativ nuancierten Kontext und eine Auftrittshäufigkeit von Sätzen mit einem negativ nuancierten Kontext und gibt die berechneten Auftrittshäufigkeiten als Werte aus, die den Ruf des Restaurants ausdrücken. Jedoch wird bei einer solchen Verarbeitung die Analysezeit lang, wenn die Menge der Zieldokumente groß ist.
Zusätzlich gibt es Fälle, in denen der Benutzer, nachdem er den Ruf eines bestimmten einzelnen Gerichts des Restaurants untersucht hat, vielleicht auch den Ruf eines vom Restaurant angebotenen anderen Gerichts untersuchen möchte. In einem solchen Fall muss der Computer die identische Verarbeitung für das andere Gericht wiederholen. Entsprechend kommt es bei einer Untersuchung durch Angeben einer Vielzahl zu untersuchenden Wörter zu hohen Rechenkosten des Computers.
Lösung für das Problem
Gemäß einem ersten Aspekt dieser Erfindung wird eine Analyseeinheit bereitgestellt, die ein Textdokument analysiert und die eine Kontextspeichereinheit zum Speichern von Kontextinformationen, die die Position einer Zeichengruppe mit einem vorbestimmten Kontext im Dokument zeigen, eine Indexspeichereinheit zum Speichern von Indexinformationen, die für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern die Position eines Wortes im Dokument zeigen, eine Eingabeeinheit zum Eingeben eines Zielwortes, eine Positionserkennungseinheit zum Erkennen der Position des im Dokument enthaltenen Zielwortes aus den Indexinformationen und eine Häufigkeitserkennungseinheit zum Erkennen der Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der Positionen des Zielwortes und der Kontextinformationen enthält.
Die obige Kurzdarstellung der Erfindung ist keine Aufzählung aller erforderlichen Merkmale der Erfindung. Diese Erfindung ergibt sich durch Teilkombinationen dieser Merkmalsgruppen.
Kurzbeschreibung der Zeichnungen
1 stellt die Struktur der Analyseeinheit 10 gemäß der Ausführungsform der Erfindung dar.
2 zeigt einen Ablaufplan der Verarbeitung, die von der Analyseeinheit 10 gemäß der Ausführungsform verwendet wird.
3 stellt ein Beispiel für ein Dokument und ein Beispiel für die Kontextinformationen dar, die aus dem Dokument erzeugt werden.
4 stellt ein Beispiel für die Kontextinformationen dar, die gemäß der Ausführungsform in der Kontextspeichereinheit 28 zu speichern sind.
5 stellt ein Beispiel für die Indexinformationen dar, die gemäß der Ausführungsform in der Indexspeichereinheit 30 zu speichern sind.
6 stellt ein erstes Beispiel für ein in die Analyseeinheit 10 einzugebendes Zielwort sowie die Ausgabeinformationen gemäß der Ausführungsform der Erfindung dar.
7 stellt ein zweites Beispiel für ein in die Analyseeinheit 10 einzugebendes Zielwort sowie die Ausgabeinformationen gemäß der Ausführungsform der Erfindung dar.
8 zeigt ein Beispiel für die Hardware-Struktur eines Computers 1900 gemäß der Ausführungsform.
Beschreibung von Ausführungsformen
Der folgende Abschnitt beschreibt diese Erfindung anhand der Ausführungsformen der Erfindung, jedoch schränken die folgenden Ausführungsformen die anspruchsgemäße Erfindung nicht ein. Außerdem sind nicht alle Kombinationen von Merkmalen, die in Bezug auf die Ausführungsformen erläutert werden, wesentlich für die Lösung dieser Erfindung.
1 stellt die Struktur der Analyseeinheit 10 gemäß der Ausführungsform dar. Die Analyseeinheit 10 analysiert ein Textdokument. Insbesondere analysiert die Analyseeinheit 10 die Häufigkeit, mit der ein angegebenes Zielwort in einer Menge von Zeichen (einem Satz) mit einem vorbestimmten Kontext in einem Zieldokument enthalten ist.
Die Analyseeinheit 10 enthält eine Dokumentenerfassungseinheit 22, eine Kontextbildungseinheit 24, eine Indexbildungseinheit 26, eine Kontextspeichereinheit 28, eine Indexspeichereinheit 30, eine Eingabeeinheit 32, eine Positionserkennungseinheit 34, eine Häufigkeitserkennungseinheit 36 und eine Ausgabeeinheit 38. Die Analyseeinheit 10 wird durch Verwendung eines Computers zum Ausführen eines Programms implementiert.
Die Dokumentenerfassungseinheit 22 erfasst ein einzelnes Textdokument oder eine Vielzahl von Textdokumenten aus einer externen Quelle (z. B. einer Speichereinheit außerhalb der Analyseeinheit 10 oder einem Server in einem Netzwerk). Die Dokumentenerfassungseinheit 22 erfasst beispielsweise ein Dokument, das von einem Benutzer eingegeben wurde. Die Dokumentenerfassungseinheit 22 kann außerdem ein Dokument durch periodisches Zugreifen auf einen Server mit einer vorbestimmten Adresse erfassen.
Die Kontextbildungseinheit 24 analysiert das von der Dokumentenerfassungseinheit 22 erfasste einzelne Dokument bzw. jedes der von ihr erfassten Vielzahl von Dokumenten und bildet für diese erfassten Dokumente Kontextinformationen, die die Positionen der Sätze mit einem vorbestimmten Kontext zeigen. Dann speichert die Kontextbildungseinheit 24 die gebildeten Kontextinformationen in der Kontextspeichereinheit 28.
Hier bei dieser Ausführungsform bezieht sich der Kontext eines Satzes auf eine Eigenschaft, die im Satz erscheint. Beispielsweise drückt der Satzkontext vielleicht die Nuance des Satzes, den Gedankengang, die Sprache des Satzes, den Inhalt des Satzes, den Verfasser oder Sprecher des Satzes oder den Zeitrahmen, den Ort, den Hintergrund oder die Situation aus, in der der Satz aufgezeichnet wurde.
Die Kontextbildungseinheit 24 analysiert beispielsweise für jeden Satz, ob der Satz aus einem Kontext, der eine affirmative Nuance ausdrückt, oder aus einem Kontext stammt, der eine negative Nuance ausdrückt. Weiterhin beispielhaft analysiert die Kontextbildungseinheit 24 für jeden Satz, ob der Satz aus einem Kontext, in dem die Sprache Japanisch ist, oder aus einem Kontext stammt, in dem die Sprache Englisch ist.
Bei einem weiteren Beispiel analysiert die Kontextbildungseinheit 24 für jeden Satz, ob der Satz aus einem Kontext, in dem der Inhalt eine Frage ist, oder aus einem Kontext stammt, in dem der Inhalt eine Antwort ist. Bei einem weiteren Beispiel analysiert die Kontextbildungseinheit 24 für jeden Satz, ob der Satz aus einem Kontext stammt, in dem der Verfasser oder Sprecher eine bestimmte Person ist. Nachdem die Kontextbildungseinheit 24 jeden Satz analysiert hat und falls sie entschieden hat, dass ein Kontext des Satzes vorliegt, erzeugt sie die Kontextinformationen und speichert diese Informationen in der Kontextspeichereinheit 28.
Ferner ist ein Satz bei dieser Ausführungsform eine organisierte Zeichengruppe im Dokument. Beispielsweise kann ein Satz eine Zeichenkette ab einem auf ein Satzzeichen folgenden Zeichen bis zum nächsten Satzzeichen oder ein Absatz im Dokument sein. Außerdem muss ein Satz nicht in Bezug zu Satzzeichen oder Absätzen stehen, sondern kann eine Zeichengruppe jeder Zeile, jeder Zelle mit Tabellendaten oder jedes Bereichs auf der Fläche einer Seite sein.
Entsprechend kann die Kontextbildungseinheit 24 beim Segmentieren des Textes eines Dokumentes nach Sätzen jeden beliebigen Segmentierungsalgorithmus anwenden. Beispielsweise kann die Kontextbildungseinheit 24 den Inhalt ab einem auf ein Satzzeichen folgenden Zeichen bis zum nächsten Satzzeichen als einzelnen Satz oder einen Absatz als einzelnen Satz segmentieren. Die Kontextbildungseinheit 24 kann auch jede Zeile, jede Zelle mit Tabellendaten oder jeden Bereich auf der Fläche einer Seite als einen Satz segmentieren.
Die Indexbildungseinheit 26 analysiert das von der Dokumentenerfassungseinheit 22 erfasste Dokument und bildet für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern Indexinformationen, die die Position des Wortes zeigen. Die Indexbildungseinheit 26 speichert die gebildeten Indexinformationen in der Indexspeichereinheit 30.
Die Kontextspeichereinheit 28 speichert die von der Kontextbildungseinheit 24 gebildeten Kontextinformationen. Die Indexspeichereinheit 30 speichert die von der Indexbildungseinheit 26 gebildeten Indexinformationen.
Die Eingabeeinheit 32 gibt entsprechend einer Operation beispielsweise durch einen Benutzer ein Zielwort ein. Zusätzlich dazu kann die Eingabeeinheit 32 Informationen eingeben, die ein zu analysierendes Dokument angeben. Ferner kann die Eingabeeinheit 32 Informationen eingeben, die einen zu analysierenden Kontext angeben.
Als Reaktion auf die Eingabe eines Zielwortes durch die Eingabeeinheit 32 erkennt die Positionserkennungseinheit 34 die Position des im Dokument enthaltenen Zielwortes durch Suchen nach Indexinformationen zum Zielwort, die in der Indexspeichereinheit 30 gespeichert sind. Wenn die Eingabeeinheit 32 Informationen eingegeben hat, die ein zu analysierendes Dokument angeben, erkennt die Positionserkennungseinheit 34 darüber hinaus die Position des im angegebenen Dokument enthaltenen Zielwortes, indem sie für das angegebene Dokument nach Indexinformationen zum Zielwort sucht.
Als Reaktion auf die Eingabe des Zielwortes durch die Eingabeeinheit 32 erkennt die Häufigkeitserkennungseinheit 36 die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der Position des Zielwortes und der in der Kontextspeichereinheit 28 gespeicherten Kontextinformationen. Wenn die Eingabeeinheit 32 Informationen eingegeben hat, die ein zu analysierendes Dokument angeben, erkennt die Häufigkeitserkennungseinheit 36 ferner die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im angegebenen Dokument. Wenn die Eingabeeinheit 32 Informationen eingegeben hat, die einen zu analysierenden Kontext angeben, erkennt die Häufigkeitserkennungseinheit 36 die Auftrittshäufigkeit des Zielwortes nur im angegebenen Kontext.
Die Ausgabeeinheit 38 gibt die von der Häufigkeitserkennungseinheit 36 erkannte Auftrittshäufigkeit des Zielwortes für jede Art von Kontext aus. Beispielsweise zeigt die Ausgabeeinheit 38 auf einem Bildschirm die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an.
2 zeigt einen Ablaufplan der Verarbeitung durch die Analyseeinheit 10 gemäß der Ausführungsform. Die Analyseeinheit 10 wiederholt für jedes außerhalb erfasste Dokument die Verarbeitung in Schritt S12 und Schritt S13 (Schleifenverarbeitung von Schritt S11 bis Schritt S14).
Zuerst analysiert die Kontextbildungseinheit 24 in Schritt S12 das erfasste Dokument und bildet Kontextinformationen für das erfasste Dokument. Beispielsweise segmentiert die Kontextbildungseinheit 24 den Text, der im von der Dokumentenerfassungseinheit 22 erfassten Dokument enthalten ist, durch einen vorbestimmten Algorithmus in Sätze. Dann analysiert die Kontextbildungseinheit 24 den Kontext eines einzelnen Satzes oder jedes einer Vielzahl von Sätzen, die im Dokument enthalten sind.
Beispielsweise beurteilt die Kontextbildungseinheit 24 für jeden der Vielzahl von Sätzen, ob ein bestimmtes Wort oder eine bestimmte Formulierung enthalten ist, das/die eine affirmative Nuance charakterisiert, und analysiert dadurch, ob ein Satz einen affirmativ nuancierten Kontext aufweist. Außerdem beurteilt die Kontextbildungseinheit 24 für jeden der Vielzahl von Sätzen, ob ein bestimmtes Wort oder eine bestimmte Formulierung enthalten ist, das/die eine negative Nuance charakterisiert, und analysiert dadurch, ob ein Satz einen negativ nuancierten Kontext aufweist.
Weiterhin beispielhaft beurteilt die Kontextbildungseinheit 24 für jeden der Vielzahl von Sätzen, ob ein enthaltenes Wort ein japanisches Wort ist, und analysiert dadurch, ob ein Satz einen Kontext in japanischer Sprache aufweist. Außerdem beurteilt die Kontextbildungseinheit 24 für jeden der Vielzahl von Sätzen, ob ein enthaltenes Wort ein englisches Wort ist, und analysiert dadurch, ob ein Satz einen Kontext in englischer Sprache aufweist.
Weiterhin beispielhaft beurteilt die Kontextbildungseinheit 24 für jeden der Vielzahl von Sätzen, ob ein Wort enthalten ist, das eine Frage charakterisiert, und analysiert dadurch, ob der Inhalt in einem Satz mit einem Fragekontext steht. Außerdem beurteilt die Kontextbildungseinheit 24 für jeden der Vielzahl von Sätzen, ob ein Wort enthalten ist, das eine Antwort charakterisiert, und analysiert dadurch, ob der Inhalt in einem Satz mit einem Antwortkontext steht. Bei einem weiteren Beispiel bezieht sich die Kontextbildungseinheit 24 für jeden der Vielzahl von Sätzen auf angehängte Informationen und analysiert dadurch, ob der Satz einen Kontext aufweist, in dem ausgedrückt wird, dass der Verfasser oder Sprecher eine bestimmte Person ist.
Bei einem Satz, bei dem als Ergebnis einer Analyse entschieden wurde, dass er in einem vorbestimmten Kontext auftritt, bildet die Kontextbildungseinheit 24 Informationen, die die Art des Kontextes sowie die Kontextinformationen kennzeichnen, die einen Positionssatz für den Satz ausdrücken. Beispielsweise bildet die Kontextbildungseinheit 24 eine Kennnummer zum Kennzeichnen des Kontextes sowie einen Satz, der die Position des ersten Zeichens und die Position des letzten Zeichens des Satzes im Dokument aufweist. Dann speichert die Kontextbildungseinheit 24 die gebildeten Kontextinformationen in der Kontextspeichereinheit 28.
Es ist auch akzeptabel, dass die Kontextbildungseinheit 24 beurteilt, ob eine Vielzahl von Kontexten auf einen einzelnen Satz zutreffen. Beispielsweise kann die Kontextbildungseinheit 24 beurteilen, ob ein einzelner Satz einen affirmativ nuancierten Kontext und einen Kontext in japanischer Sprache aufweist.
Wenn die Kontextbildungseinheit 24 den Text eines Dokumentes in eine Vielzahl von Sätzen segmentiert, kann sie außerdem anhand von Positionen segmentieren, die sich nach Art des Kontextes unterscheiden. Es ist auch akzeptabel, dass die Kontextbildungseinheit 24 die Kontextinformationen für jeden der Vielzahl von Sätzen bildet, deren Positionen sich gegenseitig überlappen. Beispielsweise kann die Kontextbildungseinheit 24 die Nuance des Satzes analysieren, indem sie den Inhalt ab einem auf ein Satzzeichen folgenden Zeichen bis zum nächsten Satzzeichen als einen einzelnen Satz segmentiert, und sie kann die Sprache des Satzes analysieren, indem sie den Absatz als einen einzelnen Satz segmentiert.
Als Nächstes analysiert die Indexbildungseinheit 26 in Schritt S13 das erfasste Dokument und bildet die Indexinformationen für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern. Die Indexbildungseinheit 26 erkennt beispielsweise alle Wörter, die in einem von der Dokumentenerfassungseinheit 22 erfassten Dokument enthalten sind. Anschließend erkennt die Indexbildungseinheit 26 beispielsweise für jedes erkannte Wort, an welchen Zeichen im Text des Dokumentes das Wort auftritt. Ferner bildet die Indexbildungseinheit 26 beispielsweise für jedes erkannte Wort Indexinformationen, die ausdrücken, an welcher Position im Dokument das Wort auftritt.
Wenn ein Zielwort andererseits durch eine Benutzeroperation eingegeben wird, bringt die Analyseeinheit den Prozess nacheinander von Schritt S15 bis S18 voran. Zuerst gibt die Eingabeeinheit 32 in Schritt S15 das Zielwort ein. Ferner gibt die Eingabeeinheit 32 Informationen, die das zu analysierende Dokument angeben, sowie Informationen ein, die den zu analysierenden Kontext angeben.
Als Nächstes erkennt die Positionserkennungseinheit 34 in Schritt S16 die Position des Zielwortes im Dokument, indem sie sich auf die in Schritt S13 gebildeten Indexinformationen bezieht. In diesem Fall erkennt die Positionserkennungseinheit 34 die Position des Zielwortes im angegebenen Dokument, indem sie sich auf die Indexinformationen zum angegebenen Dokument bezieht.
In Schritt S17 erkennt die Häufigkeitserkennungseinheit 36 auf der Grundlage der Position des in Schritt S16 erkannten Zielwortes und der in Schritt S12 gebildeten Kontextinformationen die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument. Insbesondere extrahiert die Häufigkeitserkennungseinheit 36 alle Kontextinformationen für die Sätze, die das Zielwort enthalten, indem sie die Positionsinformationen, die in jedem Element der in Schritt S12 gebildeten Kontextinformationen enthalten sind, mit der in Schritt S16 erkannten Position des Zielwortes vergleicht.
Dann zählt die Häufigkeitserkennungseinheit 36 für jede Art von Kontext die Menge der extrahierten Vorkommen von Kontextinformationen und ermittelt den Zählwert für die Auftrittshäufigkeit des Zielwortes. In diesem Fall zählt die Häufigkeitserkennungseinheit 36 die Vorkommen von Kontextinformationen für jede Art von Kontext für das als zu analysierendes Dokument angegebene Dokument.
Beispielsweise zählt die Häufigkeitserkennungseinheit 36 die Vorkommensmenge von Kontextinformationen, die einen affirmativ nuancierten Kontext aufweisen. Wenn ein Kontext mit einer negativen Nuance angegeben wurde, zählt die Häufigkeitserkennungseinheit 36 die Vorkommensmenge von Kontextinformationen, die einen negativ nuancierten Kontext aufweisen.
Wenn bei einem weiteren Beispiel der angegebene Kontext in japanischer Sprache ist, zählt die Häufigkeitserkennungseinheit 36 die Vorkommensmenge von Kontextinformationen, die einen Kontext in japanischer Sprache aufweisen. Wenn der angegebene Kontext in englischer Sprache ist, zählt die Häufigkeitserkennungseinheit 36 die Vorkommensmenge von Kontextinformationen, die einen Kontext in englischer Sprache aufweisen. Wenn ein Kontext angegeben wurde, bei dem der Verfasser oder Sprecher eine bestimmte Person ist, zählt die Häufigkeitserkennungseinheit 36, ferner die Vorkommensmenge von Kontextinformationen, die einen Kontext aufweisen, in dem der Verfasser oder Sprecher die bestimmte Person ist. Die Häufigkeitserkennungseinheit 36 ermittelt einen Zählwert aus der Häufigkeit, mit der das Zielwort in Sätzen des angegebenen Kontextes auftritt.
Als Nächstes gibt die Ausgabeeinheit 38 in Schritt S18 eine in Schritt S17 erkannte Auftrittshäufigkeit des Zielwortes für jede in Schritt S17 erkannte Art von Kontext an. Die Ausgabeeinheit 38 zeigt beispielsweise auf einem Bildschirm die Zählergebnisse für jede Art von Kontext in den extrahierten Kontextinformationen als Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an.
Wie oben erläutert, bildet die Analyseeinheit 10 gemäß dieser Ausführungsform für jedes der erfassten Dokumente Kontextinformationen, die die Position eines Satzes mit einem vorbestimmten Kontext zeigen, und speichert sie vorab. Dann nutzt die Analyseeinheit 10 die vorbestimmten Kontextinformationen zum Ausführen einer Analyse des Dokumentes.
Auf diese Weise ist es durch die Analyseeinheit 10 möglich, als Reaktion auf die Eingabe eines Zielwortes innerhalb eines kurzen Zeitraums zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext das Zielwort auftritt. Auch wenn das Zielwort wiederholt eingegeben wurde, ist es durch die Analyseeinheit 10 ferner möglich,, mit minimalen Rechenkosten zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext das Zielwort auftritt.
3 stellt ein Beispiel für ein Dokument und ein Beispiel für die Kontextinformationen dar, die aus diesem Dokument gebildet wurden. Beispielsweise verwendet die Kontextbildungseinheit, wie in 3 dargestellt, jedes Satzzeichen, um den Text des Dokumentes in Sätze zu segmentieren (Dokumentennummer = #001). Dann analysiert die Kontextbildungseinheit 24 für jeden Satz, ob der Satz eine affirmative Nuance oder eine negative Nuance aufweist.
Im Beispiel von 3 enthält der Satz in der ersten Zeile („I think their curry is delicious.” auf Englisch) ein charakterisierendes Wort mit einer affirmativen Nuance. Entsprechend entscheidet die Kontextbildungseinheit 24, dass der Satz der ersten Zeile einen Satz mit einem Kontext mit affirmativer Nuance darstellt. In diesem Fall bildet die Kontextbildungseinheit 24 zum Satz der ersten Zeile einen Satz von Kontextinformationen, die angeben, dass der Satz einen Kontext mit affirmativer Nuance aufweist, und nimmt Positionsinformationen darin auf, die die Position der ersten Zeile zeigen (Zeichen 1~14 (die erste Zeile enthält vierzehn japanische Zeichen)).
Außerdem enthält der Satz der zweiten Zeile („Last time I tried their ramen.” auf Englisch) weder ein charakterisierendes Wort mit einer affirmativen Nuance noch ein charakterisierendes Wort mit einer negativen Nuance. Entsprechend entscheidet die Kontextbildungseinheit 24, dass der Satz der zweiten Zeile weder einen Satz mit einem Kontext mit affirmativer Nuance noch einen Satz mit einem negativ nuancierten Kontext darstellt. In diesem Fall erzeugt die Kontextbildungseinheit 24 keine Kontextinformationen für den Satz der zweiten Zeile.
Der Satz der dritten Zeile („But their ramen was not so good.” auf Englisch) enthält ein charakterisierendes Wort mit einer negativen Nuance. Entsprechend entscheidet die Kontextbildungseinheit 24, dass der Satz der dritten Zeile einen Satz mit einem negativ nuancierten Kontext darstellt. In diesem Fall bildet die Kontextbildungseinheit 24 zum Satz der dritten Zeile einen Satz von Kontextinformationen, die angeben, dass der Satz einen negativ nuancierten Kontext aufweist, und nimmt Positionsinformationen darin auf, die die Position der dritten Zeile zeigen (Zeichen 31~45 (die dritte Zeile enthält fünfzehn japanische Zeichen)).
Ferner enthält der Satz der vierten Zeile („Evidently, their curry is best.” auf Englisch) ein charakterisierendes Wort mit einer affirmativen Nuance im Wort „best”. Entsprechend entscheidet die Kontextbildungseinheit 24, dass der Satz der vierten Zeile einen Satz mit einem Kontext mit affirmativer Nuance darstellt. In diesem Fall bildet die Kontextbildungseinheit 24 für den Satz der vierten Zeile einen Satz von Kontextinformationen, die angeben, dass der Satz einen Kontext mit affirmativer Nuance aufweist, und nimmt Positionsinformationen darin auf, die die Position der vierten Zeile zeigen (Zeichen 46~59 (die vierte Zeile enthält fünfzehn japanische Zeichen)).
Dann segmentiert die Kontextbildungseinheit 24 wie in 3 dargestellt den Text des Dokumentes (Dokumentennummer = #001) für jeden Absatz in Sätze. Für jeden Satz analysiert die Kontexteinheit 24, ob die Sprache des Kontextes Japanisch oder Englisch ist. Der Text dieses Dokumentes enthält nur einen Absatz, und alle Wörter sind japanisch. Entsprechend bildet in diesem Fall die Kontextbildungseinheit 24 für die Sätze des ersten Absatzes einen Satz von Kontextinformationen, die angeben, dass der Kontext japanisch ist, und nimmt die Position des ersten Absatzes darin auf (Zeichen 1~59 (der erste Absatz enthält 59 japanische Zeichen)).
4 stellt ein Beispiel für die Kontextinformationen dar, die gemäß dieser Ausführungsform in der Kontextspeichereinheit 28 gespeichert wurden. Die Kontextspeichereinheit 28 speichert die von der Kontextbildungseinheit 24 gebildeten Kontextinformationen. Beispielsweise speichert die Kontexteinheit 28 als Satz von Kontextinformationen eine Indexnummer, eine Art von Kontext, eine Dokumentennummer des Dokumentes, das den Satz enthält, und die Zeichenpositionen des Satzes.
Im Beispiel von 4 speichert die Kontextspeichereinheit 28 als Kontextinformationen für das Element mit der Indexnummer 001, dass der Satz einen Kontext mit affirmativer Nuance aufweist, die Dokumentennummer #001 lautet und der Satz an der Position der Zeichen 1 bis 14 steht. Bei einem weiteren Beispiel von 4 speichert die Kontextspeichereinheit 28 als Kontextinformationen für das Element mit der Indexnummer 002, dass der Satz einen negativ nuancierten Kontext aufweist, die Dokumentennummer #002 lautet und der Satz an der Position der Zeichen 31 bis 45 steht.
Im Beispiel von 4 speichert die Kontextspeichereinheit 28 als Kontextinformationen für das Element mit der Indexnummer 003, dass der Satz einen Kontext mit affirmativer Nuance aufweist, die Dokumentennummer #001 lautet und der Satz an der Position der Zeichen 46 bis 59 steht. Außerdem speichert im Beispiel von 4 die Kontextspeichereinheit 28 als Kontextinformationen für das Element mit der Indexnummer 004, dass der Satz einen japanischen Kontext aufweist und an der Position der Zeichen 1 bis 59 steht.
Ferner kann die Kontextspeichereinheit 28 die Vielzahl von Kontextinformationen nach der Art des Kontextes sortiert speichern. Ferner kann die Kontextspeichereinheit 28 die Vielzahl von Kontextinformationen nach der Dokumentenreihenfolge sortiert speichern. Auf diese Weise kann die Kontextspeichereinheit 28 die Suche und Zählung einfach ausführen.
5 stellt ein Beispiel für die Indexinformationen dar, die gemäß der Ausführungsform in der Indexspeichereinheit 30 gespeichert sind. Beispielsweise speichert die Indexspeichereinheit 30 Indexinformationen für jedes Wort. Beispielsweise speichert die Indexspeichereinheit 30 als Satz von Indexinformationen eine Indexnummer, ein Wort, eine Dokumentennummer eines Dokumentes, in dem das Wort enthalten ist, und die Zeichenpositionen des Wortes. Ferner speichert die Indexspeichereinheit 30 für ein Wort, das in einem einzelnen Dokument in einer Vielzahl auftritt, die Indexinformationen, die die Vielzahl von Zeichenpositionen des einzelnen Wortes enthält.
Bei dem Beispiel von 5 speichert die Indexspeichereinheit 30 als Indexinformationen für die Indexnummer 001, dass das Wort „curry” und die Dokumentennummer #001 lautet und dass das Wort an den Zeichen 1 bis 3 und an den Zeichen 50 bis 52 positioniert ist. Bei einem weiteren Beispiel von 5 speichert die Indexspeichereinheit 30 als Indexinformationen für die Indexnummer 002, dass das Wort „ramen” und die Dokumentennummer #001 lautet und dass das Wort an den Zeichen 18 bis 21 und an den Zeichen 33 bis 36 positioniert ist. Bei dem Beispiel von 5 speichert die Indexspeichereinheit 30 als Indexinformationen für die Indexnummer 003 auch, dass das Wort „delicious” und die Dokumentennummer #001 lautet und dass das Wort an den Zeichen 5 bis 8 positioniert ist.
Ferner kann die Indexspeichereinheit 32 die Vielzahl von Indexinformationen nach der Reihenfolge der Dokumentennummer sortiert speichern. Ferner kann die Indexspeichereinheit 32 die Vielzahl von Indexinformationen nach der Reihenfolge der Zeichen der Wörter sortiert speichern. Auf diese Weise kann die Indexspeichereinheit 30 die Suche einfach ausführen.
6 stellt ein erstes Ausgabebeispiel für die Situation dar, in der das in 3 dargestellte Dokument von der Analyseeinheit 10 analysiert wurde. Wenn es beispielsweise wünschenswert ist, den Ruf von „curry” zu analysieren, das im Dokument von 3 (Dokumentennummer = #001) verzeichnet ist, gibt der Benutzer in die Analyseeinheit 10 die Dokumentennummer #001 als Analyseziel und „curry” als Zielwort ein.
Wenn das Zielwort angegeben wurde, erkennt die Analyseeinheit 10 die Position, an der „curry” im Dokument mit der Dokumentennummer #001 auftritt, indem sie sich auf die in der Indexspeichereinheit 30 gespeicherten Indexinformationen bezieht. Bei diesem Beispiel, wie in 5 dargestellt, erkennt die Analyseeinheit 10 die Zeichenpositionen an zwei Stellen, den Zeichen 1 bis 3 und den Zeichen 50 bis 52.
Dann zählt die Analyseeinheit 10 für jede Art von Kontext die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten, indem sie sich auf die in der Kontextspeichereinheit 28 gespeicherten Kontextinformationen bezieht.
Wie in 4 dargestellt enthalten bei diesem Beispiel die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten (Zeichen 1 bis 3 und Zeichen 50 bis 52), die Kontextinformationen für die Indexnummer 001, die Kontextinformationen für die Indexnummer 003 und die Kontextinformationen für die Indexnummer 004. Auf der Grundlage dieser Kontextinformationen erkennt die Analyseeinheit 10, dass das Wort „curry” in zwei Sätzen eines Kontextes mit affirmativer Nuance und in einem Satz mit japanischem Kontext enthalten ist.
Dann gibt die Analyseeinheit 10 das Zählergebnis für die Kontextinformationen für jede Art von Kontext als Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an. Bei diesem Beispiel gibt die Analyseeinheit 10 aus, dass die Häufigkeit, mit der das Wort „curry” in einem Satz mit einem Kontext mit affirmativer Nuance auftritt, zweimal und die Häufigkeit, mit der das Wort „curry” in einem Satz mit einem japanischen Kontext auftritt, einmal ist. Auf diese Weise kann die Analyseeinheit 10 dem Benutzer melden, dass zu „curry” in der Dokumentennummer #001 eine positive Bewertung auf Japanisch verzeichnet ist.
Wie oben beschrieben, führt die Analyseeinheit 10 gemäß der Ausführungsform eine Analyse durch, indem sie sich auf zuvor gebildete und gespeicherte Kontextinformationen bezieht. Auf diese Weise ist es durch die Analyseeinheit 10 möglich, als Reaktion auf eine Eingabe eines Zielwortes innerhalb eines kurzen Zeitraums zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext das Zielwort auftritt.
7 stellt ein zweites Beispiel für ein in die Analyseeinheit 10 eingegebenes Zielwort sowie die resultierenden Ausgabeinformationen gemäß der Ausführungsform der Erfindung dar. Nach der Analyse des Rufes von „curry”, das im Dokument von 3 verzeichnet ist (Dokumentennummer = #001), möchte der Benutzer den Ruf von „ramen” analysieren, das im Dokument von 3 verzeichnet ist (Dokumentennummer = #001). In diesem Fall gibt der Benutzer in der Analyseeinheit 10 die Dokumentennummer #001 als Analyseziel und „ramen” als Zielwort ein.
Wenn das Zielwort angegeben wurde, erkennt die Analyseeinheit 10 die Position, an der „ramen” im Dokument mit der Dokumentennummer #001 auftritt, indem sie sich auf die in der Indexspeichereinheit 30 gespeicherten Indexinformationen bezieht. Wie in 5 dargestellt erkennt, bei diesem Beispiel die Analyseeinheit 10 zwei Zeichenpositionen, die Zeichen 8 bis 21 und die Zeichen 33 bis 36.
Dann zählt die Analyseeinheit 10 für jede Art von Kontext die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten, indem sie sich auf die in der Kontextspeichereinheit 28 gespeicherten Kontextinformationen bezieht.
Wie in 4 dargestellt, enthalten bei diesem Beispiel die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten (Zeichen 8 bis 21 und Zeichen 33 bis 36) die Kontextinformationen für die Indexnummer 002 und die Kontextinformationen für die Indexnummer 004. Auf der Grundlage dieser Kontextinformationen erkennt die Analyseeinheit 10, dass das Wort „ramen” in einem Satz mit einem negativ nuancierten Kontext und in einem Satz mit einem japanischen Kontext enthalten ist.
Dann gibt die Analyseeinheit 10 das Zählergebnis für die Kontextinformationen für jede Art von Kontext als Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an. Bei diesem Beispiel gibt die Analyseeinheit 10 aus, dass die Häufigkeit, mit der das Wort „ramen” in einem Satz mit einem negativ nuancierten Kontext auftritt, einmal und die Häufigkeit, mit der das Wort „ramen” in einem Satz mit einem japanischen Kontext auftritt, einmal ist. Auf diese Weise kann die Analyseeinheit 10 dem Benutzer melden, dass zu „ramen” in der Dokumentennummer #001 eine schlechte Bewertung auf Japanisch verzeichnet ist.
Wie oben beschrieben, führt die Analyseeinheit 10 gemäß der Ausführungsform eine Analyse durch, indem sie sich auf die zuvor gebildeten und gespeicherten Kontextinformationen bezieht. Auf diese Weise ist es durch die Analyseeinheit 10 möglich, auch wenn ein Zielwort wiederholt eingegeben wurde, mit minimalen Rechenkosten zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext ein Zielwort auftritt.
8 zeigt ein Beispiel für die Hardware-Struktur eines Computers 1900 gemäß der Ausführungsform. Gemäß der Ausführungsform enthält der Computer 1900 einen CPU-Peripherie-Bereich mit einer CPU 2000, einem RAM 2020, einer Grafik-Steuereinheit 2075 und einer Anzeigeeinheit 2080, die durch eine Host-Steuereinheit 2082 miteinander verbunden sind, einen Eingabe-Ausgabe-Bereich mit einer Datenübertragungsschnittstelle 2030, einem Festplattenlaufwerk 2040 und einem CD-ROM-Laufwerk 2060, die durch die Eingabe-Ausgabe-Steuereinheit 2084 mit der Host-Steuereinheit 2082 verbunden sind, und einen Eingabe-Ausgabe-Bereich für Altdaten mit einem ROM 2010, ein Laufwerk für flexible Speicherplatten 2050 und einen Eingabe-Ausgabe-Chip 2070, die mit der Eingabe-Ausgabe-Steuereinheit 2084 verbunden sind.
Die Host-Steuereinheit 2082 verbindet den RAM 2020 mit der CPU 2000, die mit einer hohen Übertragungsgeschwindigkeit auf den RAM 2020 zugreift, und mit der Grafik-Steuereinheit 2075. Die CPU 2000 arbeitet auf der Grundlage von Programmen, die im ROM 2010 und im RAM 2020 gespeichert sind, und führt die Steuerung jeder Einheit aus. Die Grafik-Steuereinheit 2075 erfasst Bilddaten, die die CPU 2000 in einem im RAM 2020 eingerichteten Bildspeicher gebildet hat, und zeigt die Daten in der Anzeigeeinheit 2080 an. Alternativ kann die Grafik-Steuereinheit 2075 intern einen Bildspeicher enthalten, der die von der CPU 2000 angelegten Bilddaten speichert.
Die Eingabe-Ausgabe-Steuereinheit 2084 verbindet die Host-Steuereinheit 2082 mit der Datenübertragungsschnittstelle 2030, die eine Eingabe-Ausgabe-Einheit mit vergleichsweise hoher Geschwindigkeit ist, und mit dem Festplattenlaufwerk 2040 und dem CD-ROM-Laufwerk 2060. Die Datenübertragungsschnittstelle 2030 tauscht über ein Netzwerk Daten mit anderen Einheiten aus. Das Festplattenlaufwerk 2040 speichert Programme und Daten, die von der CPU 2000 im Computer 1900 verwendet werden. Das CD-ROM-Laufwerk 2060 liest ein Programm oder Daten von der CD-ROM 2095 und stellt diese über den RAM 2020 für das Festplattenlaufwerk 2040 bereit.
Ebenfalls an die Eingabe-Ausgabe-Steuereinheit 2084 angeschlossen sind der ROM 2010 und Eingabe-Ausgabe-Einheiten mit relativ niedriger Geschwindigkeit wie z. B. das Laufwerk für flexible Speicherplatten 2050 und der Eingabe-Ausgabe-Chip 2070. Der ROM 2010 speichert ein Boot-Programm, das der Computer 1900 beim Starten ausführt, und/oder Programme je nach der Hardware des Computers 1900. Das Laufwerk für flexible Speicherplatten 2050 liest ein Programm oder Daten von der flexiblen Speicherplatte 2090 und stellt diese über den RAM 2020 für das Festplattenlaufwerk 2040 bereit. Der Eingabe-Ausgabe-Chip 2070 verbindet das Laufwerk für flexible Speicherplatten 2050 mit der Eingabe-Ausgabe-Steuereinheit 2040 und verbindet z. B. verschiedene Arten von Eingabe-Ausgabe-Einheiten über einen parallelen Anschluss, einen seriellen Anschluss, einen Tastaturanschluss, einen Mausanschluss oder Ähnliches mit der Eingabe-Ausgabe-Steuereinheit 2084.
Ein Programm, das über den RAM 2020 für das Festplattenlaufwerk 2040 bereitgestellt wird, ist auf einem Aufzeichnungsmedium wie z. B. einer flexiblen Speicherplatte 2090, einer CD-ROM 2095 oder einer IC-Karte gespeichert und wird vom Benutzer gestellt. Das Programm wird von den Aufzeichnungsmedien, die im Festplattenlaufwerk 2040 des Computers 1900 installiert sind, durch den RAM 2020 eingelesen und durch die CPU 2000 ausgeführt.
Das Programm, das auf dem Computer 1900 installiert ist, um zu bewirken, dass der Computer 1900 als Analyseeinheit 10 funktioniert, stellt ein Dokumentenerfassungsmodul, ein Kontextbildungsmodul, ein Indexbildungsmodul, ein Kontextspeichermodul, ein Indexspeichermodul, ein Eingabemodul, ein Positionserkennungsmodul, ein Häufigkeitserkennungsmodul und ein Ausgabemodul bereit. Diese Programme oder Module werden von der CPU 2000 ausgeführt und bewirken, dass der Computer 1900 als Dokumentenerfassungseinheit 22, Kontextbildungseinheit 24, Indexbildungseinheit 26, Kontextspeichereinheit 28, Indexspeichereinheit 30, Eingabeeinheit 32, Positionserkennungseinheit 34, Häufigkeitserkennungseinheit 36 bzw. Ausgabeeinheit 38 funktioniert.
Durch Einlesen in den Computer 1900 stellt die durch diese Programme implementierte Informationsverarbeitung bestimmte Mittel bereit, die als Dokumentenerfassungseinheit 22, Kontextbildungseinheit 24, Indexbildungseinheit 26, Kontextspeichereinheit 28, Indexspeichereinheit 30, Eingabeeinheit 32, Positionserkennungseinheit 34, Häufigkeitserkennungseinheit 36 und Ausgabeeinheit 38 funktionieren, die durch die Zusammenwirken der Software mit jeder oben beschriebenen Art der Hardware-Ressourcen implementiert werden. So kann eine bestimmte Analyseeinheit 10 entsprechend dem Verwendungszweck aufgebaut werden, indem ein Berechnen und Verarbeiten von Informationen entsprechend dem Verwendungszweck des Computers 1900 in der Ausführungsform durch diese bestimmten Mittel realisiert werden.
Wenn die CPU beispielsweise Datenübertragungen zwischen dem Computer 1900 und einer externen Einheit ausführt, führt sie ein Datenübertragungsprogramm aus, das in den RAM 2020 geladen wurde, und auf der Grundlage des vom Datenübertragungsprogramm beschriebenen Verarbeitungsinhalts erhält die Datenübertragungsschnittstelle 2030 Anweisungen für eine Datenübertragungsverarbeitung. Die Datenübertragungsschnittstelle 2030 wird von der CPU 2000 gesteuert, um Übertragungsdaten auszulesen, die in einem Datenübertragungsspeicherbereich in einer Speichereinheit wie z. B. dem Festplattenlaufwerk 2040, der flexiblen Speicherplatte 2090 oder der CD-ROM 2095 gespeichert sind, und sendet diese Daten an das Netzwerk oder schreibt vom Netzwerk empfangene Daten in einen Empfangsspeicherbereich in der Speichereinheit. Auf diese Weise kann die Datenübertragungsschnittstelle 2030 mit Hilfe eines direkten Speicherzugriffs (direct memory access DMA) solche Übertragungs/Empfangs-Daten von der bzw. an die Speichereinheit übertragen oder die CPU 2000 kann alternativ die Daten von einer Speichereinheit oder von der Datenübertragungsschnittstelle 2030 lesen, bei der es sich um die Übertragungsquelle handelt, und dann die Daten in die Datenübertragungsschnittstelle 2020 oder die Speichereinheit schreiben, die das Übertragungsziel ist, so dass die Übertragungs/Empfangs-Daten übertragen werden können.
Außerdem verwendet die CPU 2000 eine DMA-Übertragung, um eine Datenbank oder Dateien, die auf einer externen Speichereinheit wie dem Festplattenlaufwerk 2040, dem CD-ROM-Laufwerk 2060 (CD-ROM 2095) oder dem Laufwerk für flexible Speicherplatten 2050 (flexible Speicherplatte 2090) gespeichert sind, insgesamt oder teilweise in den RAM 2020 einzulesen, und führt jede Art von Verarbeitung für die Daten im RAM 2020 aus. Dann schreibt die CPU 2000 mit Hilfe der DMA-Übertragung die verarbeiteten Daten zurück in die externe Speichereinheit. Bei einer solchen Verarbeitung bewahrt der RAM 2020 den Inhalt der externen Speichereinheit vorübergehend, und deshalb können der RAM 2020 und die externe Speichereinheit bei dieser Ausführungsform als Arbeitsspeicher oder Speichereinheit bezeichnet werden. Bei dieser Ausführungsform werden alle Arten von Informationen wie z. B. Programme, Daten, Tabellen oder eine Datenbank in einer solchen Speichereinheit gespeichert, und sie werden zum Ziel der Informationsverarbeitung. Ferner bewahrt die CPU 2000 einen Teil des RAM 2020 in einem Zwischenspeicher, was ein Auslesen oder Beschreiben des Zwischenspeichers ermöglicht. In einem solchen Modus übernimmt der Zwischenspeicher einen Teil der Funktionen des RAM 2020, und bei dieser Ausführungsform kann der Zwischenspeicher auch wie der RAM 2020, ein Arbeitsspeicher und/oder eine Speichereinheit behandelt werden.
Außerdem führt die CPU 2000 in Bezug auf vom RAM 2020 ausgelesene Daten jede Art von Verarbeitung durch, die durch eine Anweisungsfolge im Programm festgelegt wird, wobei die Verarbeitung bei dieser Ausführung, darunter jede Art von Berechnung, Informationsverarbeitung, bedingte Entscheidungen und Suchen und Ersetzen von Informationen, und schreibt die Daten zurück in den RAM 2020. Beispielsweise vergleicht die CPU 2000 beim Ausführen von bedingten Entscheidungen jede Art von bei der Ausführungsform dargestellten Variablen mit einer anderen Variablen oder Konstanten und beurteilt, ob die Bedingung erfüllt ist, z. B. größer, kleiner, höher, niedriger, gleich, und wenn die Bedingung erfüllt ist (oder wenn die Bedingung nicht erfüllt ist), zweigt sie in eine andere Anweisungsfolge ab oder liest eine Subroutine.
Außerdem ist die CPU 2000 in der Lage, in einer Datei oder Datenbank, die in der Speichereinheit gespeichert sind, nach Informationen zu suchen. Wenn beispielsweise eine Vielzahl von Einträgen, bei denen Attributwerte eines ersten Attributs jeweils mit Attributwerten eines zweiten Attributs verbunden sind, in der Speichereinheit gespeichert sind, sucht die CPU 2000 aus der Vielzahl der in der Speichereinheit gespeicherten Einträge einen Eintrag mit dem Attributwert des ersten Attributs, der der angegebenen Bedingung entspricht, und liest den Attributwert des in diesem Eintrag gespeicherten zweiten Attributs, so dass der Attributwert des zweiten Attributs, der mit dem ersten Attribut verbunden ist, die vorbestimmte Bedingung erfüllt.
Das oben beschriebene Programm oder Modul kann in einem externen Aufzeichnungsmedium gespeichert sein. Als Aufzeichnungsmedium können beispielsweise die flexible Speicherplatte 2090, die CD-ROM 2095, ein optisches Aufzeichnungsmedium wie z. B. eine DVD oder CD, ein elektromagnetisches Aufzeichnungsmedium wie eine MO-Speicherplatte, ein Bandmedium oder ein Halbleiterspeicher wie z. B. eine IC-Karte verwendet werden. Außerdem kann eine Speichereinheit wie z. B. eine Festplatte oder ein RAM, die in einem an ein dediziertes Datenübertragungsnetzwerk oder das Internet angeschlossenen Serversystem bereitgestellt werden, als Aufzeichnungsmedium verwendet werden, und Programme können über das Netzwerk für den Computer 1900 bereitgestellt werden.
Die Erfindung wurde zwar unter Bezugnahme auf die Ausführungsform beschrieben, aber der technische Umfang der Erfindung ist nicht auf die eine oben beschriebene Ausführungsform beschränkt. Einem Fachmann ist klar, dass es möglich ist, der oben beschriebenen Ausführungsform verschiedene Modifikationen oder Verbesserungen hinzuzufügen. Aus den Ansprüchen ist ersichtlich, dass eine solche modifizierte oder verbesserte Ausführungsform in den technischen Umfang der Erfindung eingeschlossen werden kann.
Es ist anzumerken, dass die Ausführungsfolge jedes der Prozesse wie z. B. die Operationen, Prozeduren, Schritte und Phasen in der Einheit, im System, im Programm und im Verfahren, die in den Ansprüchen, der Beschreibung und den Zeichnungen dargestellt sind, nicht mit einer bestimmten Bedingung wie z. B. „vor” oder „vorhergehend” beschrieben worden sind und in jeder Reihenfolge implementiert werden können, mit Ausnahme des Falls, in dem eine Ausgabe eines bestimmten Prozesses von einem späteren Prozess verwendet wird. Auch wenn eine Beschreibung unter Verwendung eines Ausdrucks wie z. B. „erste(r/s)”, „nächste(r/s)” oder Ähnliches in Bezug auf den funktionsmäßigen Ablauf in den Ansprüchen, der Beschreibung und den Zeichnungen gegeben wird, bedeutet dies keine Notwendigkeit der Ausführung in dieser Reihenfolge.
Bezugszeichenliste

10: Analyseeinheit
22: Dokumentenerfassungseinheit
24: Kontextbildungseinheit
26: Indexbildungseinheit
28: Kontextspeichereinheit
30: Indexspeichereinheit
32: Eingabeeinheit
34: Positionserkennungseinheit
36: Häufigkeitserkennungseinheit
38: Ausgabeeinheit
1900: Computer
2000: CPU
2010: ROM
2020: RAM
2030: Datenübertragungsschnittstelle
2040: Festplattenlaufwerk
2050: Laufwerk für flexible Speicherplatten
2060: CD-ROM-Laufwerk
2070: Eingabe-Ausgabe-Chip
2075: Grafik-Steuereinheit
2080: Anzeigeeinheit
2082: Host-Steuereinheit
2084: Eingabe-Ausgabe-Steuereinheit
2090: Flexible Speicherplatte
2095: CD-ROM

Claims

Analyseeinheit, die ein Textdokument analysiert, wobei die Analyseeinheit aufweist: eine Kontextspeichereinheit zum Speichern von Kontextinformationen, die die Position eine Zeichengruppe mit einem vorbestimmten Kontext im Dokument zeigen; eine Indexspeichereinheit zum Speichern von Indexinformationen, die für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern die Position eines Wortes im Dokument zeigt, eine Eingabeeinheit zum Eingeben eines Zielwortes; eine Positionserkennungseinheit zum Erkennen der Position des im Dokument enthaltenen Zielwortes aus den Indexinformationen; und eine Häufigkeitserkennungseinheit zum Erkennen der Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der Positionen des Zielwortes und der Kontextinformationen.
Analyseeinheit nach Anspruch 1, die ferner aufweist: eine Dokumentenerfassungseinheit zum Erfassen eines Dokumentes von außerhalb; und eine Kontextbildungseinheit zum Bilden von Kontextinformationen durch Analysieren des von der Dokumentenerfassungseinheit erfassten Dokumentes und zum Speichern der gebildeten Kontextinformationen in der Kontextspeichereinheit.
Analyseeinheit nach Anspruch 2, die ferner eine Indexbildungseinheit zum Analysieren des von der Dokumentenerfassungseinheit erfassten Dokumentes aufweist, die Indexinformationen für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern bildet und die gebildeten Indexinformationen in der Indexspeichereinheit speichert.
Analyseeinheit nach Anspruch 2 oder Anspruch 3, wobei die Kontextbildungseinheit die Kontextinformationen für eine Vielzahl vorbestimmter Kontexte bildet.
Analyseeinheit nach Anspruch 4, wobei die Kontextbildungseinheit Kontextinformationen bildet, die Abschnitte enthält, deren Auftrittspositionen sich gegenseitig überlappen.
Programm zum Bewirken, dass ein Computer als die Analyseeinheit nach Anspruch 1 funktioniert.
Analyseverfahren zum Analysieren eines Textdokumentes durch einen Computer, wobei der Computer in einer Kontextspeichereinheit Kontextinformationen speichert, die die Position einer Zeichengruppe mit einem vorbestimmten Kontext im Dokument zeigen, in einer Indexspeichereinheit Indexinformationen speichert, die für jedes Wort einer Vielzahl von im Dokument enthaltenen Wörtern die Position eines Wortes im Dokument zeigen, ein Zielwort eingibt, aus den Indexinformationen, die aus der Indexspeichereinheit ausgelesen werden, die Position des im Dokument enthaltenen Zielwortes erkennt, und die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der aus der Kontextspeichereinheit ausgelesenen Positionen des Zielwortes und der Kontextinformationen erkennt.