DE112013000981T5 - Einheit, Programm und Verfahren zum Analysieren von Textdokumenten - Google Patents
Einheit, Programm und Verfahren zum Analysieren von Textdokumenten Download PDFInfo
- Publication number
- DE112013000981T5 DE112013000981T5 DE112013000981.1T DE112013000981T DE112013000981T5 DE 112013000981 T5 DE112013000981 T5 DE 112013000981T5 DE 112013000981 T DE112013000981 T DE 112013000981T DE 112013000981 T5 DE112013000981 T5 DE 112013000981T5
- Authority
- DE
- Germany
- Prior art keywords
- context
- unit
- document
- word
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Ceased
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/253—Grammatical analysis; Style critique
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
Description
- Technisches Gebiet
- Diese Erfindung betrifft eine Analyseeinheit, ein Programm und ein Analyseverfahren, die Textdokumente analysieren.
- Stand der Technik
- Analyseeinheiten, die Textdokumente analysieren, sind bereits bekannt. (Siehe beispielsweise Patentschrift 1 und Patentschrift 2.)
- Liste der Entgegenhaltungen
- Patentschriften
-
- Patentschrift 1:
Japanische Patentanmeldungsschrift Nr. 2006-4098 - Patentschrift 2:
Japanische Patentanmeldungsschrift Nr. 2005-115468 - Kurzdarstellung der Erfindung
- Technisches Problem
- Es gibt Fälle, in denen es wünschenswert ist, mit Hilfe eines Computers herauszufinden, mit welcher Häufigkeit und in welchem Satzkontext (z. B. mit einer bestimmten Nuance) ein Zielwort in einem Dokument erscheint. Beispielsweise gibt es bei einem Dokument, in dem eine Restaurantbewertung verfasst ist, Fälle, in denen es wünschenswert ist, ein bestimmtes Gericht des Restaurants objektiv zu beurteilen, indem untersucht wird, ob das vom Restaurant angebotene bestimmte Gericht in einem Satz mit einem bestimmten Kontext enthalten ist.
- In einer solchen Situation empfängt der Computer zuerst vom Benutzer eine Bezeichnung des Zielgerichts. Daran anknüpfend extrahiert der Computer aus dem Zieldokument alle Sätze, die die Bezeichnung des Zielgerichts enthalten. Anschließend analysiert der Computer den Kontext für jeden der extrahierten Sätze und erkennt, ob jeder Satz einen Satz mit einem affirmativ nuancierten Kontext oder einen Satz mit einem negativ nuancierten Kontext darstellt.
- Der Computer berechnet dann eine Auftrittshäufigkeit von Sätzen mit einem affirmativ nuancierten Kontext und eine Auftrittshäufigkeit von Sätzen mit einem negativ nuancierten Kontext und gibt die berechneten Auftrittshäufigkeiten als Werte aus, die den Ruf des Restaurants ausdrücken. Jedoch wird bei einer solchen Verarbeitung die Analysezeit lang, wenn die Menge der Zieldokumente groß ist.
- Zusätzlich gibt es Fälle, in denen der Benutzer, nachdem er den Ruf eines bestimmten einzelnen Gerichts des Restaurants untersucht hat, vielleicht auch den Ruf eines vom Restaurant angebotenen anderen Gerichts untersuchen möchte. In einem solchen Fall muss der Computer die identische Verarbeitung für das andere Gericht wiederholen. Entsprechend kommt es bei einer Untersuchung durch Angeben einer Vielzahl zu untersuchenden Wörter zu hohen Rechenkosten des Computers.
- Lösung für das Problem
- Gemäß einem ersten Aspekt dieser Erfindung wird eine Analyseeinheit bereitgestellt, die ein Textdokument analysiert und die eine Kontextspeichereinheit zum Speichern von Kontextinformationen, die die Position einer Zeichengruppe mit einem vorbestimmten Kontext im Dokument zeigen, eine Indexspeichereinheit zum Speichern von Indexinformationen, die für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern die Position eines Wortes im Dokument zeigen, eine Eingabeeinheit zum Eingeben eines Zielwortes, eine Positionserkennungseinheit zum Erkennen der Position des im Dokument enthaltenen Zielwortes aus den Indexinformationen und eine Häufigkeitserkennungseinheit zum Erkennen der Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der Positionen des Zielwortes und der Kontextinformationen enthält.
- Die obige Kurzdarstellung der Erfindung ist keine Aufzählung aller erforderlichen Merkmale der Erfindung. Diese Erfindung ergibt sich durch Teilkombinationen dieser Merkmalsgruppen.
- Kurzbeschreibung der Zeichnungen
-
1 stellt die Struktur der Analyseeinheit10 gemäß der Ausführungsform der Erfindung dar. -
2 zeigt einen Ablaufplan der Verarbeitung, die von der Analyseeinheit10 gemäß der Ausführungsform verwendet wird. -
3 stellt ein Beispiel für ein Dokument und ein Beispiel für die Kontextinformationen dar, die aus dem Dokument erzeugt werden. -
4 stellt ein Beispiel für die Kontextinformationen dar, die gemäß der Ausführungsform in der Kontextspeichereinheit28 zu speichern sind. -
5 stellt ein Beispiel für die Indexinformationen dar, die gemäß der Ausführungsform in der Indexspeichereinheit30 zu speichern sind. -
6 stellt ein erstes Beispiel für ein in die Analyseeinheit10 einzugebendes Zielwort sowie die Ausgabeinformationen gemäß der Ausführungsform der Erfindung dar. -
7 stellt ein zweites Beispiel für ein in die Analyseeinheit10 einzugebendes Zielwort sowie die Ausgabeinformationen gemäß der Ausführungsform der Erfindung dar. -
8 zeigt ein Beispiel für die Hardware-Struktur eines Computers1900 gemäß der Ausführungsform. - Beschreibung von Ausführungsformen
- Der folgende Abschnitt beschreibt diese Erfindung anhand der Ausführungsformen der Erfindung, jedoch schränken die folgenden Ausführungsformen die anspruchsgemäße Erfindung nicht ein. Außerdem sind nicht alle Kombinationen von Merkmalen, die in Bezug auf die Ausführungsformen erläutert werden, wesentlich für die Lösung dieser Erfindung.
-
1 stellt die Struktur der Analyseeinheit10 gemäß der Ausführungsform dar. Die Analyseeinheit10 analysiert ein Textdokument. Insbesondere analysiert die Analyseeinheit10 die Häufigkeit, mit der ein angegebenes Zielwort in einer Menge von Zeichen (einem Satz) mit einem vorbestimmten Kontext in einem Zieldokument enthalten ist. - Die Analyseeinheit
10 enthält eine Dokumentenerfassungseinheit22 , eine Kontextbildungseinheit24 , eine Indexbildungseinheit26 , eine Kontextspeichereinheit28 , eine Indexspeichereinheit30 , eine Eingabeeinheit32 , eine Positionserkennungseinheit34 , eine Häufigkeitserkennungseinheit36 und eine Ausgabeeinheit38 . Die Analyseeinheit10 wird durch Verwendung eines Computers zum Ausführen eines Programms implementiert. - Die Dokumentenerfassungseinheit
22 erfasst ein einzelnes Textdokument oder eine Vielzahl von Textdokumenten aus einer externen Quelle (z. B. einer Speichereinheit außerhalb der Analyseeinheit10 oder einem Server in einem Netzwerk). Die Dokumentenerfassungseinheit22 erfasst beispielsweise ein Dokument, das von einem Benutzer eingegeben wurde. Die Dokumentenerfassungseinheit22 kann außerdem ein Dokument durch periodisches Zugreifen auf einen Server mit einer vorbestimmten Adresse erfassen. - Die Kontextbildungseinheit
24 analysiert das von der Dokumentenerfassungseinheit22 erfasste einzelne Dokument bzw. jedes der von ihr erfassten Vielzahl von Dokumenten und bildet für diese erfassten Dokumente Kontextinformationen, die die Positionen der Sätze mit einem vorbestimmten Kontext zeigen. Dann speichert die Kontextbildungseinheit24 die gebildeten Kontextinformationen in der Kontextspeichereinheit28 . - Hier bei dieser Ausführungsform bezieht sich der Kontext eines Satzes auf eine Eigenschaft, die im Satz erscheint. Beispielsweise drückt der Satzkontext vielleicht die Nuance des Satzes, den Gedankengang, die Sprache des Satzes, den Inhalt des Satzes, den Verfasser oder Sprecher des Satzes oder den Zeitrahmen, den Ort, den Hintergrund oder die Situation aus, in der der Satz aufgezeichnet wurde.
- Die Kontextbildungseinheit
24 analysiert beispielsweise für jeden Satz, ob der Satz aus einem Kontext, der eine affirmative Nuance ausdrückt, oder aus einem Kontext stammt, der eine negative Nuance ausdrückt. Weiterhin beispielhaft analysiert die Kontextbildungseinheit24 für jeden Satz, ob der Satz aus einem Kontext, in dem die Sprache Japanisch ist, oder aus einem Kontext stammt, in dem die Sprache Englisch ist. - Bei einem weiteren Beispiel analysiert die Kontextbildungseinheit
24 für jeden Satz, ob der Satz aus einem Kontext, in dem der Inhalt eine Frage ist, oder aus einem Kontext stammt, in dem der Inhalt eine Antwort ist. Bei einem weiteren Beispiel analysiert die Kontextbildungseinheit24 für jeden Satz, ob der Satz aus einem Kontext stammt, in dem der Verfasser oder Sprecher eine bestimmte Person ist. Nachdem die Kontextbildungseinheit24 jeden Satz analysiert hat und falls sie entschieden hat, dass ein Kontext des Satzes vorliegt, erzeugt sie die Kontextinformationen und speichert diese Informationen in der Kontextspeichereinheit28 . - Ferner ist ein Satz bei dieser Ausführungsform eine organisierte Zeichengruppe im Dokument. Beispielsweise kann ein Satz eine Zeichenkette ab einem auf ein Satzzeichen folgenden Zeichen bis zum nächsten Satzzeichen oder ein Absatz im Dokument sein. Außerdem muss ein Satz nicht in Bezug zu Satzzeichen oder Absätzen stehen, sondern kann eine Zeichengruppe jeder Zeile, jeder Zelle mit Tabellendaten oder jedes Bereichs auf der Fläche einer Seite sein.
- Entsprechend kann die Kontextbildungseinheit
24 beim Segmentieren des Textes eines Dokumentes nach Sätzen jeden beliebigen Segmentierungsalgorithmus anwenden. Beispielsweise kann die Kontextbildungseinheit24 den Inhalt ab einem auf ein Satzzeichen folgenden Zeichen bis zum nächsten Satzzeichen als einzelnen Satz oder einen Absatz als einzelnen Satz segmentieren. Die Kontextbildungseinheit24 kann auch jede Zeile, jede Zelle mit Tabellendaten oder jeden Bereich auf der Fläche einer Seite als einen Satz segmentieren. - Die Indexbildungseinheit
26 analysiert das von der Dokumentenerfassungseinheit22 erfasste Dokument und bildet für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern Indexinformationen, die die Position des Wortes zeigen. Die Indexbildungseinheit26 speichert die gebildeten Indexinformationen in der Indexspeichereinheit30 . - Die Kontextspeichereinheit
28 speichert die von der Kontextbildungseinheit24 gebildeten Kontextinformationen. Die Indexspeichereinheit30 speichert die von der Indexbildungseinheit26 gebildeten Indexinformationen. - Die Eingabeeinheit
32 gibt entsprechend einer Operation beispielsweise durch einen Benutzer ein Zielwort ein. Zusätzlich dazu kann die Eingabeeinheit32 Informationen eingeben, die ein zu analysierendes Dokument angeben. Ferner kann die Eingabeeinheit32 Informationen eingeben, die einen zu analysierenden Kontext angeben. - Als Reaktion auf die Eingabe eines Zielwortes durch die Eingabeeinheit
32 erkennt die Positionserkennungseinheit34 die Position des im Dokument enthaltenen Zielwortes durch Suchen nach Indexinformationen zum Zielwort, die in der Indexspeichereinheit30 gespeichert sind. Wenn die Eingabeeinheit32 Informationen eingegeben hat, die ein zu analysierendes Dokument angeben, erkennt die Positionserkennungseinheit34 darüber hinaus die Position des im angegebenen Dokument enthaltenen Zielwortes, indem sie für das angegebene Dokument nach Indexinformationen zum Zielwort sucht. - Als Reaktion auf die Eingabe des Zielwortes durch die Eingabeeinheit
32 erkennt die Häufigkeitserkennungseinheit36 die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der Position des Zielwortes und der in der Kontextspeichereinheit28 gespeicherten Kontextinformationen. Wenn die Eingabeeinheit32 Informationen eingegeben hat, die ein zu analysierendes Dokument angeben, erkennt die Häufigkeitserkennungseinheit36 ferner die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im angegebenen Dokument. Wenn die Eingabeeinheit32 Informationen eingegeben hat, die einen zu analysierenden Kontext angeben, erkennt die Häufigkeitserkennungseinheit36 die Auftrittshäufigkeit des Zielwortes nur im angegebenen Kontext. - Die Ausgabeeinheit
38 gibt die von der Häufigkeitserkennungseinheit36 erkannte Auftrittshäufigkeit des Zielwortes für jede Art von Kontext aus. Beispielsweise zeigt die Ausgabeeinheit38 auf einem Bildschirm die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an. -
2 zeigt einen Ablaufplan der Verarbeitung durch die Analyseeinheit10 gemäß der Ausführungsform. Die Analyseeinheit10 wiederholt für jedes außerhalb erfasste Dokument die Verarbeitung in Schritt S12 und Schritt S13 (Schleifenverarbeitung von Schritt S11 bis Schritt S14). - Zuerst analysiert die Kontextbildungseinheit
24 in Schritt S12 das erfasste Dokument und bildet Kontextinformationen für das erfasste Dokument. Beispielsweise segmentiert die Kontextbildungseinheit24 den Text, der im von der Dokumentenerfassungseinheit22 erfassten Dokument enthalten ist, durch einen vorbestimmten Algorithmus in Sätze. Dann analysiert die Kontextbildungseinheit24 den Kontext eines einzelnen Satzes oder jedes einer Vielzahl von Sätzen, die im Dokument enthalten sind. - Beispielsweise beurteilt die Kontextbildungseinheit
24 für jeden der Vielzahl von Sätzen, ob ein bestimmtes Wort oder eine bestimmte Formulierung enthalten ist, das/die eine affirmative Nuance charakterisiert, und analysiert dadurch, ob ein Satz einen affirmativ nuancierten Kontext aufweist. Außerdem beurteilt die Kontextbildungseinheit24 für jeden der Vielzahl von Sätzen, ob ein bestimmtes Wort oder eine bestimmte Formulierung enthalten ist, das/die eine negative Nuance charakterisiert, und analysiert dadurch, ob ein Satz einen negativ nuancierten Kontext aufweist. - Weiterhin beispielhaft beurteilt die Kontextbildungseinheit
24 für jeden der Vielzahl von Sätzen, ob ein enthaltenes Wort ein japanisches Wort ist, und analysiert dadurch, ob ein Satz einen Kontext in japanischer Sprache aufweist. Außerdem beurteilt die Kontextbildungseinheit24 für jeden der Vielzahl von Sätzen, ob ein enthaltenes Wort ein englisches Wort ist, und analysiert dadurch, ob ein Satz einen Kontext in englischer Sprache aufweist. - Weiterhin beispielhaft beurteilt die Kontextbildungseinheit
24 für jeden der Vielzahl von Sätzen, ob ein Wort enthalten ist, das eine Frage charakterisiert, und analysiert dadurch, ob der Inhalt in einem Satz mit einem Fragekontext steht. Außerdem beurteilt die Kontextbildungseinheit24 für jeden der Vielzahl von Sätzen, ob ein Wort enthalten ist, das eine Antwort charakterisiert, und analysiert dadurch, ob der Inhalt in einem Satz mit einem Antwortkontext steht. Bei einem weiteren Beispiel bezieht sich die Kontextbildungseinheit24 für jeden der Vielzahl von Sätzen auf angehängte Informationen und analysiert dadurch, ob der Satz einen Kontext aufweist, in dem ausgedrückt wird, dass der Verfasser oder Sprecher eine bestimmte Person ist. - Bei einem Satz, bei dem als Ergebnis einer Analyse entschieden wurde, dass er in einem vorbestimmten Kontext auftritt, bildet die Kontextbildungseinheit
24 Informationen, die die Art des Kontextes sowie die Kontextinformationen kennzeichnen, die einen Positionssatz für den Satz ausdrücken. Beispielsweise bildet die Kontextbildungseinheit24 eine Kennnummer zum Kennzeichnen des Kontextes sowie einen Satz, der die Position des ersten Zeichens und die Position des letzten Zeichens des Satzes im Dokument aufweist. Dann speichert die Kontextbildungseinheit24 die gebildeten Kontextinformationen in der Kontextspeichereinheit28 . - Es ist auch akzeptabel, dass die Kontextbildungseinheit
24 beurteilt, ob eine Vielzahl von Kontexten auf einen einzelnen Satz zutreffen. Beispielsweise kann die Kontextbildungseinheit24 beurteilen, ob ein einzelner Satz einen affirmativ nuancierten Kontext und einen Kontext in japanischer Sprache aufweist. - Wenn die Kontextbildungseinheit
24 den Text eines Dokumentes in eine Vielzahl von Sätzen segmentiert, kann sie außerdem anhand von Positionen segmentieren, die sich nach Art des Kontextes unterscheiden. Es ist auch akzeptabel, dass die Kontextbildungseinheit24 die Kontextinformationen für jeden der Vielzahl von Sätzen bildet, deren Positionen sich gegenseitig überlappen. Beispielsweise kann die Kontextbildungseinheit24 die Nuance des Satzes analysieren, indem sie den Inhalt ab einem auf ein Satzzeichen folgenden Zeichen bis zum nächsten Satzzeichen als einen einzelnen Satz segmentiert, und sie kann die Sprache des Satzes analysieren, indem sie den Absatz als einen einzelnen Satz segmentiert. - Als Nächstes analysiert die Indexbildungseinheit
26 in Schritt S13 das erfasste Dokument und bildet die Indexinformationen für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern. Die Indexbildungseinheit26 erkennt beispielsweise alle Wörter, die in einem von der Dokumentenerfassungseinheit22 erfassten Dokument enthalten sind. Anschließend erkennt die Indexbildungseinheit26 beispielsweise für jedes erkannte Wort, an welchen Zeichen im Text des Dokumentes das Wort auftritt. Ferner bildet die Indexbildungseinheit26 beispielsweise für jedes erkannte Wort Indexinformationen, die ausdrücken, an welcher Position im Dokument das Wort auftritt. - Wenn ein Zielwort andererseits durch eine Benutzeroperation eingegeben wird, bringt die Analyseeinheit den Prozess nacheinander von Schritt S15 bis S18 voran. Zuerst gibt die Eingabeeinheit
32 in Schritt S15 das Zielwort ein. Ferner gibt die Eingabeeinheit32 Informationen, die das zu analysierende Dokument angeben, sowie Informationen ein, die den zu analysierenden Kontext angeben. - Als Nächstes erkennt die Positionserkennungseinheit
34 in Schritt S16 die Position des Zielwortes im Dokument, indem sie sich auf die in Schritt S13 gebildeten Indexinformationen bezieht. In diesem Fall erkennt die Positionserkennungseinheit34 die Position des Zielwortes im angegebenen Dokument, indem sie sich auf die Indexinformationen zum angegebenen Dokument bezieht. - In Schritt S17 erkennt die Häufigkeitserkennungseinheit
36 auf der Grundlage der Position des in Schritt S16 erkannten Zielwortes und der in Schritt S12 gebildeten Kontextinformationen die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument. Insbesondere extrahiert die Häufigkeitserkennungseinheit36 alle Kontextinformationen für die Sätze, die das Zielwort enthalten, indem sie die Positionsinformationen, die in jedem Element der in Schritt S12 gebildeten Kontextinformationen enthalten sind, mit der in Schritt S16 erkannten Position des Zielwortes vergleicht. - Dann zählt die Häufigkeitserkennungseinheit
36 für jede Art von Kontext die Menge der extrahierten Vorkommen von Kontextinformationen und ermittelt den Zählwert für die Auftrittshäufigkeit des Zielwortes. In diesem Fall zählt die Häufigkeitserkennungseinheit36 die Vorkommen von Kontextinformationen für jede Art von Kontext für das als zu analysierendes Dokument angegebene Dokument. - Beispielsweise zählt die Häufigkeitserkennungseinheit
36 die Vorkommensmenge von Kontextinformationen, die einen affirmativ nuancierten Kontext aufweisen. Wenn ein Kontext mit einer negativen Nuance angegeben wurde, zählt die Häufigkeitserkennungseinheit36 die Vorkommensmenge von Kontextinformationen, die einen negativ nuancierten Kontext aufweisen. - Wenn bei einem weiteren Beispiel der angegebene Kontext in japanischer Sprache ist, zählt die Häufigkeitserkennungseinheit
36 die Vorkommensmenge von Kontextinformationen, die einen Kontext in japanischer Sprache aufweisen. Wenn der angegebene Kontext in englischer Sprache ist, zählt die Häufigkeitserkennungseinheit36 die Vorkommensmenge von Kontextinformationen, die einen Kontext in englischer Sprache aufweisen. Wenn ein Kontext angegeben wurde, bei dem der Verfasser oder Sprecher eine bestimmte Person ist, zählt die Häufigkeitserkennungseinheit36 , ferner die Vorkommensmenge von Kontextinformationen, die einen Kontext aufweisen, in dem der Verfasser oder Sprecher die bestimmte Person ist. Die Häufigkeitserkennungseinheit36 ermittelt einen Zählwert aus der Häufigkeit, mit der das Zielwort in Sätzen des angegebenen Kontextes auftritt. - Als Nächstes gibt die Ausgabeeinheit
38 in Schritt S18 eine in Schritt S17 erkannte Auftrittshäufigkeit des Zielwortes für jede in Schritt S17 erkannte Art von Kontext an. Die Ausgabeeinheit38 zeigt beispielsweise auf einem Bildschirm die Zählergebnisse für jede Art von Kontext in den extrahierten Kontextinformationen als Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an. - Wie oben erläutert, bildet die Analyseeinheit
10 gemäß dieser Ausführungsform für jedes der erfassten Dokumente Kontextinformationen, die die Position eines Satzes mit einem vorbestimmten Kontext zeigen, und speichert sie vorab. Dann nutzt die Analyseeinheit10 die vorbestimmten Kontextinformationen zum Ausführen einer Analyse des Dokumentes. - Auf diese Weise ist es durch die Analyseeinheit
10 möglich, als Reaktion auf die Eingabe eines Zielwortes innerhalb eines kurzen Zeitraums zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext das Zielwort auftritt. Auch wenn das Zielwort wiederholt eingegeben wurde, ist es durch die Analyseeinheit10 ferner möglich,, mit minimalen Rechenkosten zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext das Zielwort auftritt. -
3 stellt ein Beispiel für ein Dokument und ein Beispiel für die Kontextinformationen dar, die aus diesem Dokument gebildet wurden. Beispielsweise verwendet die Kontextbildungseinheit, wie in3 dargestellt, jedes Satzzeichen, um den Text des Dokumentes in Sätze zu segmentieren (Dokumentennummer = #001). Dann analysiert die Kontextbildungseinheit24 für jeden Satz, ob der Satz eine affirmative Nuance oder eine negative Nuance aufweist. - Im Beispiel von
3 enthält der Satz in der ersten Zeile („I think their curry is delicious.” auf Englisch) ein charakterisierendes Wort mit einer affirmativen Nuance. Entsprechend entscheidet die Kontextbildungseinheit24 , dass der Satz der ersten Zeile einen Satz mit einem Kontext mit affirmativer Nuance darstellt. In diesem Fall bildet die Kontextbildungseinheit24 zum Satz der ersten Zeile einen Satz von Kontextinformationen, die angeben, dass der Satz einen Kontext mit affirmativer Nuance aufweist, und nimmt Positionsinformationen darin auf, die die Position der ersten Zeile zeigen (Zeichen 1~14 (die erste Zeile enthält vierzehn japanische Zeichen)). - Außerdem enthält der Satz der zweiten Zeile („Last time I tried their ramen.” auf Englisch) weder ein charakterisierendes Wort mit einer affirmativen Nuance noch ein charakterisierendes Wort mit einer negativen Nuance. Entsprechend entscheidet die Kontextbildungseinheit
24 , dass der Satz der zweiten Zeile weder einen Satz mit einem Kontext mit affirmativer Nuance noch einen Satz mit einem negativ nuancierten Kontext darstellt. In diesem Fall erzeugt die Kontextbildungseinheit24 keine Kontextinformationen für den Satz der zweiten Zeile. - Der Satz der dritten Zeile („But their ramen was not so good.” auf Englisch) enthält ein charakterisierendes Wort mit einer negativen Nuance. Entsprechend entscheidet die Kontextbildungseinheit
24 , dass der Satz der dritten Zeile einen Satz mit einem negativ nuancierten Kontext darstellt. In diesem Fall bildet die Kontextbildungseinheit24 zum Satz der dritten Zeile einen Satz von Kontextinformationen, die angeben, dass der Satz einen negativ nuancierten Kontext aufweist, und nimmt Positionsinformationen darin auf, die die Position der dritten Zeile zeigen (Zeichen 31~45 (die dritte Zeile enthält fünfzehn japanische Zeichen)). - Ferner enthält der Satz der vierten Zeile („Evidently, their curry is best.” auf Englisch) ein charakterisierendes Wort mit einer affirmativen Nuance im Wort „best”. Entsprechend entscheidet die Kontextbildungseinheit
24 , dass der Satz der vierten Zeile einen Satz mit einem Kontext mit affirmativer Nuance darstellt. In diesem Fall bildet die Kontextbildungseinheit24 für den Satz der vierten Zeile einen Satz von Kontextinformationen, die angeben, dass der Satz einen Kontext mit affirmativer Nuance aufweist, und nimmt Positionsinformationen darin auf, die die Position der vierten Zeile zeigen (Zeichen 46~59 (die vierte Zeile enthält fünfzehn japanische Zeichen)). - Dann segmentiert die Kontextbildungseinheit
24 wie in3 dargestellt den Text des Dokumentes (Dokumentennummer = #001) für jeden Absatz in Sätze. Für jeden Satz analysiert die Kontexteinheit24 , ob die Sprache des Kontextes Japanisch oder Englisch ist. Der Text dieses Dokumentes enthält nur einen Absatz, und alle Wörter sind japanisch. Entsprechend bildet in diesem Fall die Kontextbildungseinheit24 für die Sätze des ersten Absatzes einen Satz von Kontextinformationen, die angeben, dass der Kontext japanisch ist, und nimmt die Position des ersten Absatzes darin auf (Zeichen 1~59 (der erste Absatz enthält 59 japanische Zeichen)). -
4 stellt ein Beispiel für die Kontextinformationen dar, die gemäß dieser Ausführungsform in der Kontextspeichereinheit28 gespeichert wurden. Die Kontextspeichereinheit28 speichert die von der Kontextbildungseinheit24 gebildeten Kontextinformationen. Beispielsweise speichert die Kontexteinheit28 als Satz von Kontextinformationen eine Indexnummer, eine Art von Kontext, eine Dokumentennummer des Dokumentes, das den Satz enthält, und die Zeichenpositionen des Satzes. - Im Beispiel von
4 speichert die Kontextspeichereinheit28 als Kontextinformationen für das Element mit der Indexnummer 001, dass der Satz einen Kontext mit affirmativer Nuance aufweist, die Dokumentennummer #001 lautet und der Satz an der Position der Zeichen 1 bis 14 steht. Bei einem weiteren Beispiel von4 speichert die Kontextspeichereinheit28 als Kontextinformationen für das Element mit der Indexnummer 002, dass der Satz einen negativ nuancierten Kontext aufweist, die Dokumentennummer #002 lautet und der Satz an der Position der Zeichen 31 bis 45 steht. - Im Beispiel von
4 speichert die Kontextspeichereinheit28 als Kontextinformationen für das Element mit der Indexnummer 003, dass der Satz einen Kontext mit affirmativer Nuance aufweist, die Dokumentennummer #001 lautet und der Satz an der Position der Zeichen 46 bis 59 steht. Außerdem speichert im Beispiel von4 die Kontextspeichereinheit28 als Kontextinformationen für das Element mit der Indexnummer 004, dass der Satz einen japanischen Kontext aufweist und an der Position der Zeichen 1 bis 59 steht. - Ferner kann die Kontextspeichereinheit
28 die Vielzahl von Kontextinformationen nach der Art des Kontextes sortiert speichern. Ferner kann die Kontextspeichereinheit28 die Vielzahl von Kontextinformationen nach der Dokumentenreihenfolge sortiert speichern. Auf diese Weise kann die Kontextspeichereinheit28 die Suche und Zählung einfach ausführen. -
5 stellt ein Beispiel für die Indexinformationen dar, die gemäß der Ausführungsform in der Indexspeichereinheit30 gespeichert sind. Beispielsweise speichert die Indexspeichereinheit30 Indexinformationen für jedes Wort. Beispielsweise speichert die Indexspeichereinheit30 als Satz von Indexinformationen eine Indexnummer, ein Wort, eine Dokumentennummer eines Dokumentes, in dem das Wort enthalten ist, und die Zeichenpositionen des Wortes. Ferner speichert die Indexspeichereinheit30 für ein Wort, das in einem einzelnen Dokument in einer Vielzahl auftritt, die Indexinformationen, die die Vielzahl von Zeichenpositionen des einzelnen Wortes enthält. - Bei dem Beispiel von
5 speichert die Indexspeichereinheit30 als Indexinformationen für die Indexnummer 001, dass das Wort „curry” und die Dokumentennummer #001 lautet und dass das Wort an den Zeichen 1 bis 3 und an den Zeichen 50 bis 52 positioniert ist. Bei einem weiteren Beispiel von5 speichert die Indexspeichereinheit30 als Indexinformationen für die Indexnummer 002, dass das Wort „ramen” und die Dokumentennummer #001 lautet und dass das Wort an den Zeichen 18 bis 21 und an den Zeichen 33 bis 36 positioniert ist. Bei dem Beispiel von5 speichert die Indexspeichereinheit30 als Indexinformationen für die Indexnummer 003 auch, dass das Wort „delicious” und die Dokumentennummer #001 lautet und dass das Wort an den Zeichen 5 bis 8 positioniert ist. - Ferner kann die Indexspeichereinheit
32 die Vielzahl von Indexinformationen nach der Reihenfolge der Dokumentennummer sortiert speichern. Ferner kann die Indexspeichereinheit32 die Vielzahl von Indexinformationen nach der Reihenfolge der Zeichen der Wörter sortiert speichern. Auf diese Weise kann die Indexspeichereinheit30 die Suche einfach ausführen. -
6 stellt ein erstes Ausgabebeispiel für die Situation dar, in der das in3 dargestellte Dokument von der Analyseeinheit10 analysiert wurde. Wenn es beispielsweise wünschenswert ist, den Ruf von „curry” zu analysieren, das im Dokument von3 (Dokumentennummer = #001) verzeichnet ist, gibt der Benutzer in die Analyseeinheit10 die Dokumentennummer #001 als Analyseziel und „curry” als Zielwort ein. - Wenn das Zielwort angegeben wurde, erkennt die Analyseeinheit
10 die Position, an der „curry” im Dokument mit der Dokumentennummer #001 auftritt, indem sie sich auf die in der Indexspeichereinheit30 gespeicherten Indexinformationen bezieht. Bei diesem Beispiel, wie in5 dargestellt, erkennt die Analyseeinheit10 die Zeichenpositionen an zwei Stellen, den Zeichen 1 bis 3 und den Zeichen 50 bis 52. - Dann zählt die Analyseeinheit
10 für jede Art von Kontext die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten, indem sie sich auf die in der Kontextspeichereinheit28 gespeicherten Kontextinformationen bezieht. - Wie in
4 dargestellt enthalten bei diesem Beispiel die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten (Zeichen 1 bis 3 und Zeichen 50 bis 52), die Kontextinformationen für die Indexnummer 001, die Kontextinformationen für die Indexnummer 003 und die Kontextinformationen für die Indexnummer 004. Auf der Grundlage dieser Kontextinformationen erkennt die Analyseeinheit10 , dass das Wort „curry” in zwei Sätzen eines Kontextes mit affirmativer Nuance und in einem Satz mit japanischem Kontext enthalten ist. - Dann gibt die Analyseeinheit
10 das Zählergebnis für die Kontextinformationen für jede Art von Kontext als Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an. Bei diesem Beispiel gibt die Analyseeinheit10 aus, dass die Häufigkeit, mit der das Wort „curry” in einem Satz mit einem Kontext mit affirmativer Nuance auftritt, zweimal und die Häufigkeit, mit der das Wort „curry” in einem Satz mit einem japanischen Kontext auftritt, einmal ist. Auf diese Weise kann die Analyseeinheit10 dem Benutzer melden, dass zu „curry” in der Dokumentennummer #001 eine positive Bewertung auf Japanisch verzeichnet ist. - Wie oben beschrieben, führt die Analyseeinheit
10 gemäß der Ausführungsform eine Analyse durch, indem sie sich auf zuvor gebildete und gespeicherte Kontextinformationen bezieht. Auf diese Weise ist es durch die Analyseeinheit10 möglich, als Reaktion auf eine Eingabe eines Zielwortes innerhalb eines kurzen Zeitraums zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext das Zielwort auftritt. -
7 stellt ein zweites Beispiel für ein in die Analyseeinheit10 eingegebenes Zielwort sowie die resultierenden Ausgabeinformationen gemäß der Ausführungsform der Erfindung dar. Nach der Analyse des Rufes von „curry”, das im Dokument von3 verzeichnet ist (Dokumentennummer = #001), möchte der Benutzer den Ruf von „ramen” analysieren, das im Dokument von3 verzeichnet ist (Dokumentennummer = #001). In diesem Fall gibt der Benutzer in der Analyseeinheit10 die Dokumentennummer #001 als Analyseziel und „ramen” als Zielwort ein. - Wenn das Zielwort angegeben wurde, erkennt die Analyseeinheit
10 die Position, an der „ramen” im Dokument mit der Dokumentennummer #001 auftritt, indem sie sich auf die in der Indexspeichereinheit30 gespeicherten Indexinformationen bezieht. Wie in5 dargestellt erkennt, bei diesem Beispiel die Analyseeinheit10 zwei Zeichenpositionen, die Zeichen 8 bis 21 und die Zeichen 33 bis 36. - Dann zählt die Analyseeinheit
10 für jede Art von Kontext die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten, indem sie sich auf die in der Kontextspeichereinheit28 gespeicherten Kontextinformationen bezieht. - Wie in
4 dargestellt, enthalten bei diesem Beispiel die Kontextinformationen von Sätzen, die die erkannten Zeichenpositionen enthalten (Zeichen 8 bis 21 und Zeichen 33 bis 36) die Kontextinformationen für die Indexnummer 002 und die Kontextinformationen für die Indexnummer 004. Auf der Grundlage dieser Kontextinformationen erkennt die Analyseeinheit10 , dass das Wort „ramen” in einem Satz mit einem negativ nuancierten Kontext und in einem Satz mit einem japanischen Kontext enthalten ist. - Dann gibt die Analyseeinheit
10 das Zählergebnis für die Kontextinformationen für jede Art von Kontext als Auftrittshäufigkeit des Zielwortes für jede Art von Kontext an. Bei diesem Beispiel gibt die Analyseeinheit10 aus, dass die Häufigkeit, mit der das Wort „ramen” in einem Satz mit einem negativ nuancierten Kontext auftritt, einmal und die Häufigkeit, mit der das Wort „ramen” in einem Satz mit einem japanischen Kontext auftritt, einmal ist. Auf diese Weise kann die Analyseeinheit10 dem Benutzer melden, dass zu „ramen” in der Dokumentennummer #001 eine schlechte Bewertung auf Japanisch verzeichnet ist. - Wie oben beschrieben, führt die Analyseeinheit
10 gemäß der Ausführungsform eine Analyse durch, indem sie sich auf die zuvor gebildeten und gespeicherten Kontextinformationen bezieht. Auf diese Weise ist es durch die Analyseeinheit10 möglich, auch wenn ein Zielwort wiederholt eingegeben wurde, mit minimalen Rechenkosten zu berechnen, mit welcher Häufigkeit und in welchem Satzkontext ein Zielwort auftritt. -
8 zeigt ein Beispiel für die Hardware-Struktur eines Computers1900 gemäß der Ausführungsform. Gemäß der Ausführungsform enthält der Computer1900 einen CPU-Peripherie-Bereich mit einer CPU2000 , einem RAM2020 , einer Grafik-Steuereinheit2075 und einer Anzeigeeinheit2080 , die durch eine Host-Steuereinheit2082 miteinander verbunden sind, einen Eingabe-Ausgabe-Bereich mit einer Datenübertragungsschnittstelle2030 , einem Festplattenlaufwerk2040 und einem CD-ROM-Laufwerk2060 , die durch die Eingabe-Ausgabe-Steuereinheit2084 mit der Host-Steuereinheit2082 verbunden sind, und einen Eingabe-Ausgabe-Bereich für Altdaten mit einem ROM2010 , ein Laufwerk für flexible Speicherplatten2050 und einen Eingabe-Ausgabe-Chip2070 , die mit der Eingabe-Ausgabe-Steuereinheit2084 verbunden sind. - Die Host-Steuereinheit
2082 verbindet den RAM2020 mit der CPU2000 , die mit einer hohen Übertragungsgeschwindigkeit auf den RAM2020 zugreift, und mit der Grafik-Steuereinheit2075 . Die CPU2000 arbeitet auf der Grundlage von Programmen, die im ROM2010 und im RAM2020 gespeichert sind, und führt die Steuerung jeder Einheit aus. Die Grafik-Steuereinheit2075 erfasst Bilddaten, die die CPU2000 in einem im RAM2020 eingerichteten Bildspeicher gebildet hat, und zeigt die Daten in der Anzeigeeinheit2080 an. Alternativ kann die Grafik-Steuereinheit2075 intern einen Bildspeicher enthalten, der die von der CPU2000 angelegten Bilddaten speichert. - Die Eingabe-Ausgabe-Steuereinheit
2084 verbindet die Host-Steuereinheit2082 mit der Datenübertragungsschnittstelle2030 , die eine Eingabe-Ausgabe-Einheit mit vergleichsweise hoher Geschwindigkeit ist, und mit dem Festplattenlaufwerk2040 und dem CD-ROM-Laufwerk2060 . Die Datenübertragungsschnittstelle2030 tauscht über ein Netzwerk Daten mit anderen Einheiten aus. Das Festplattenlaufwerk2040 speichert Programme und Daten, die von der CPU2000 im Computer1900 verwendet werden. Das CD-ROM-Laufwerk2060 liest ein Programm oder Daten von der CD-ROM2095 und stellt diese über den RAM2020 für das Festplattenlaufwerk2040 bereit. - Ebenfalls an die Eingabe-Ausgabe-Steuereinheit
2084 angeschlossen sind der ROM2010 und Eingabe-Ausgabe-Einheiten mit relativ niedriger Geschwindigkeit wie z. B. das Laufwerk für flexible Speicherplatten2050 und der Eingabe-Ausgabe-Chip2070 . Der ROM2010 speichert ein Boot-Programm, das der Computer1900 beim Starten ausführt, und/oder Programme je nach der Hardware des Computers1900 . Das Laufwerk für flexible Speicherplatten2050 liest ein Programm oder Daten von der flexiblen Speicherplatte2090 und stellt diese über den RAM2020 für das Festplattenlaufwerk2040 bereit. Der Eingabe-Ausgabe-Chip2070 verbindet das Laufwerk für flexible Speicherplatten2050 mit der Eingabe-Ausgabe-Steuereinheit2040 und verbindet z. B. verschiedene Arten von Eingabe-Ausgabe-Einheiten über einen parallelen Anschluss, einen seriellen Anschluss, einen Tastaturanschluss, einen Mausanschluss oder Ähnliches mit der Eingabe-Ausgabe-Steuereinheit2084 . - Ein Programm, das über den RAM
2020 für das Festplattenlaufwerk2040 bereitgestellt wird, ist auf einem Aufzeichnungsmedium wie z. B. einer flexiblen Speicherplatte2090 , einer CD-ROM2095 oder einer IC-Karte gespeichert und wird vom Benutzer gestellt. Das Programm wird von den Aufzeichnungsmedien, die im Festplattenlaufwerk2040 des Computers1900 installiert sind, durch den RAM2020 eingelesen und durch die CPU2000 ausgeführt. - Das Programm, das auf dem Computer
1900 installiert ist, um zu bewirken, dass der Computer1900 als Analyseeinheit10 funktioniert, stellt ein Dokumentenerfassungsmodul, ein Kontextbildungsmodul, ein Indexbildungsmodul, ein Kontextspeichermodul, ein Indexspeichermodul, ein Eingabemodul, ein Positionserkennungsmodul, ein Häufigkeitserkennungsmodul und ein Ausgabemodul bereit. Diese Programme oder Module werden von der CPU2000 ausgeführt und bewirken, dass der Computer1900 als Dokumentenerfassungseinheit22 , Kontextbildungseinheit24 , Indexbildungseinheit26 , Kontextspeichereinheit28 , Indexspeichereinheit30 , Eingabeeinheit32 , Positionserkennungseinheit34 , Häufigkeitserkennungseinheit36 bzw. Ausgabeeinheit38 funktioniert. - Durch Einlesen in den Computer
1900 stellt die durch diese Programme implementierte Informationsverarbeitung bestimmte Mittel bereit, die als Dokumentenerfassungseinheit22 , Kontextbildungseinheit24 , Indexbildungseinheit26 , Kontextspeichereinheit28 , Indexspeichereinheit30 , Eingabeeinheit32 , Positionserkennungseinheit34 , Häufigkeitserkennungseinheit36 und Ausgabeeinheit38 funktionieren, die durch die Zusammenwirken der Software mit jeder oben beschriebenen Art der Hardware-Ressourcen implementiert werden. So kann eine bestimmte Analyseeinheit10 entsprechend dem Verwendungszweck aufgebaut werden, indem ein Berechnen und Verarbeiten von Informationen entsprechend dem Verwendungszweck des Computers1900 in der Ausführungsform durch diese bestimmten Mittel realisiert werden. - Wenn die CPU beispielsweise Datenübertragungen zwischen dem Computer
1900 und einer externen Einheit ausführt, führt sie ein Datenübertragungsprogramm aus, das in den RAM2020 geladen wurde, und auf der Grundlage des vom Datenübertragungsprogramm beschriebenen Verarbeitungsinhalts erhält die Datenübertragungsschnittstelle2030 Anweisungen für eine Datenübertragungsverarbeitung. Die Datenübertragungsschnittstelle2030 wird von der CPU2000 gesteuert, um Übertragungsdaten auszulesen, die in einem Datenübertragungsspeicherbereich in einer Speichereinheit wie z. B. dem Festplattenlaufwerk2040 , der flexiblen Speicherplatte2090 oder der CD-ROM2095 gespeichert sind, und sendet diese Daten an das Netzwerk oder schreibt vom Netzwerk empfangene Daten in einen Empfangsspeicherbereich in der Speichereinheit. Auf diese Weise kann die Datenübertragungsschnittstelle2030 mit Hilfe eines direkten Speicherzugriffs (direct memory access DMA) solche Übertragungs/Empfangs-Daten von der bzw. an die Speichereinheit übertragen oder die CPU2000 kann alternativ die Daten von einer Speichereinheit oder von der Datenübertragungsschnittstelle2030 lesen, bei der es sich um die Übertragungsquelle handelt, und dann die Daten in die Datenübertragungsschnittstelle2020 oder die Speichereinheit schreiben, die das Übertragungsziel ist, so dass die Übertragungs/Empfangs-Daten übertragen werden können. - Außerdem verwendet die CPU
2000 eine DMA-Übertragung, um eine Datenbank oder Dateien, die auf einer externen Speichereinheit wie dem Festplattenlaufwerk2040 , dem CD-ROM-Laufwerk2060 (CD-ROM2095 ) oder dem Laufwerk für flexible Speicherplatten2050 (flexible Speicherplatte2090 ) gespeichert sind, insgesamt oder teilweise in den RAM2020 einzulesen, und führt jede Art von Verarbeitung für die Daten im RAM2020 aus. Dann schreibt die CPU2000 mit Hilfe der DMA-Übertragung die verarbeiteten Daten zurück in die externe Speichereinheit. Bei einer solchen Verarbeitung bewahrt der RAM2020 den Inhalt der externen Speichereinheit vorübergehend, und deshalb können der RAM2020 und die externe Speichereinheit bei dieser Ausführungsform als Arbeitsspeicher oder Speichereinheit bezeichnet werden. Bei dieser Ausführungsform werden alle Arten von Informationen wie z. B. Programme, Daten, Tabellen oder eine Datenbank in einer solchen Speichereinheit gespeichert, und sie werden zum Ziel der Informationsverarbeitung. Ferner bewahrt die CPU2000 einen Teil des RAM2020 in einem Zwischenspeicher, was ein Auslesen oder Beschreiben des Zwischenspeichers ermöglicht. In einem solchen Modus übernimmt der Zwischenspeicher einen Teil der Funktionen des RAM2020 , und bei dieser Ausführungsform kann der Zwischenspeicher auch wie der RAM2020 , ein Arbeitsspeicher und/oder eine Speichereinheit behandelt werden. - Außerdem führt die CPU
2000 in Bezug auf vom RAM2020 ausgelesene Daten jede Art von Verarbeitung durch, die durch eine Anweisungsfolge im Programm festgelegt wird, wobei die Verarbeitung bei dieser Ausführung, darunter jede Art von Berechnung, Informationsverarbeitung, bedingte Entscheidungen und Suchen und Ersetzen von Informationen, und schreibt die Daten zurück in den RAM2020 . Beispielsweise vergleicht die CPU2000 beim Ausführen von bedingten Entscheidungen jede Art von bei der Ausführungsform dargestellten Variablen mit einer anderen Variablen oder Konstanten und beurteilt, ob die Bedingung erfüllt ist, z. B. größer, kleiner, höher, niedriger, gleich, und wenn die Bedingung erfüllt ist (oder wenn die Bedingung nicht erfüllt ist), zweigt sie in eine andere Anweisungsfolge ab oder liest eine Subroutine. - Außerdem ist die CPU
2000 in der Lage, in einer Datei oder Datenbank, die in der Speichereinheit gespeichert sind, nach Informationen zu suchen. Wenn beispielsweise eine Vielzahl von Einträgen, bei denen Attributwerte eines ersten Attributs jeweils mit Attributwerten eines zweiten Attributs verbunden sind, in der Speichereinheit gespeichert sind, sucht die CPU2000 aus der Vielzahl der in der Speichereinheit gespeicherten Einträge einen Eintrag mit dem Attributwert des ersten Attributs, der der angegebenen Bedingung entspricht, und liest den Attributwert des in diesem Eintrag gespeicherten zweiten Attributs, so dass der Attributwert des zweiten Attributs, der mit dem ersten Attribut verbunden ist, die vorbestimmte Bedingung erfüllt. - Das oben beschriebene Programm oder Modul kann in einem externen Aufzeichnungsmedium gespeichert sein. Als Aufzeichnungsmedium können beispielsweise die flexible Speicherplatte
2090 , die CD-ROM2095 , ein optisches Aufzeichnungsmedium wie z. B. eine DVD oder CD, ein elektromagnetisches Aufzeichnungsmedium wie eine MO-Speicherplatte, ein Bandmedium oder ein Halbleiterspeicher wie z. B. eine IC-Karte verwendet werden. Außerdem kann eine Speichereinheit wie z. B. eine Festplatte oder ein RAM, die in einem an ein dediziertes Datenübertragungsnetzwerk oder das Internet angeschlossenen Serversystem bereitgestellt werden, als Aufzeichnungsmedium verwendet werden, und Programme können über das Netzwerk für den Computer1900 bereitgestellt werden. - Die Erfindung wurde zwar unter Bezugnahme auf die Ausführungsform beschrieben, aber der technische Umfang der Erfindung ist nicht auf die eine oben beschriebene Ausführungsform beschränkt. Einem Fachmann ist klar, dass es möglich ist, der oben beschriebenen Ausführungsform verschiedene Modifikationen oder Verbesserungen hinzuzufügen. Aus den Ansprüchen ist ersichtlich, dass eine solche modifizierte oder verbesserte Ausführungsform in den technischen Umfang der Erfindung eingeschlossen werden kann.
- Es ist anzumerken, dass die Ausführungsfolge jedes der Prozesse wie z. B. die Operationen, Prozeduren, Schritte und Phasen in der Einheit, im System, im Programm und im Verfahren, die in den Ansprüchen, der Beschreibung und den Zeichnungen dargestellt sind, nicht mit einer bestimmten Bedingung wie z. B. „vor” oder „vorhergehend” beschrieben worden sind und in jeder Reihenfolge implementiert werden können, mit Ausnahme des Falls, in dem eine Ausgabe eines bestimmten Prozesses von einem späteren Prozess verwendet wird. Auch wenn eine Beschreibung unter Verwendung eines Ausdrucks wie z. B. „erste(r/s)”, „nächste(r/s)” oder Ähnliches in Bezug auf den funktionsmäßigen Ablauf in den Ansprüchen, der Beschreibung und den Zeichnungen gegeben wird, bedeutet dies keine Notwendigkeit der Ausführung in dieser Reihenfolge.
- Bezugszeichenliste
-
- 10
- Analyseeinheit
- 22
- Dokumentenerfassungseinheit
- 24
- Kontextbildungseinheit
- 26
- Indexbildungseinheit
- 28
- Kontextspeichereinheit
- 30
- Indexspeichereinheit
- 32
- Eingabeeinheit
- 34
- Positionserkennungseinheit
- 36
- Häufigkeitserkennungseinheit
- 38
- Ausgabeeinheit
- 1900
- Computer
- 2000
- CPU
- 2010
- ROM
- 2020
- RAM
- 2030
- Datenübertragungsschnittstelle
- 2040
- Festplattenlaufwerk
- 2050
- Laufwerk für flexible Speicherplatten
- 2060
- CD-ROM-Laufwerk
- 2070
- Eingabe-Ausgabe-Chip
- 2075
- Grafik-Steuereinheit
- 2080
- Anzeigeeinheit
- 2082
- Host-Steuereinheit
- 2084
- Eingabe-Ausgabe-Steuereinheit
- 2090
- Flexible Speicherplatte
- 2095
- CD-ROM
Claims (7)
- Analyseeinheit, die ein Textdokument analysiert, wobei die Analyseeinheit aufweist: eine Kontextspeichereinheit zum Speichern von Kontextinformationen, die die Position eine Zeichengruppe mit einem vorbestimmten Kontext im Dokument zeigen; eine Indexspeichereinheit zum Speichern von Indexinformationen, die für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern die Position eines Wortes im Dokument zeigt, eine Eingabeeinheit zum Eingeben eines Zielwortes; eine Positionserkennungseinheit zum Erkennen der Position des im Dokument enthaltenen Zielwortes aus den Indexinformationen; und eine Häufigkeitserkennungseinheit zum Erkennen der Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der Positionen des Zielwortes und der Kontextinformationen.
- Analyseeinheit nach Anspruch 1, die ferner aufweist: eine Dokumentenerfassungseinheit zum Erfassen eines Dokumentes von außerhalb; und eine Kontextbildungseinheit zum Bilden von Kontextinformationen durch Analysieren des von der Dokumentenerfassungseinheit erfassten Dokumentes und zum Speichern der gebildeten Kontextinformationen in der Kontextspeichereinheit.
- Analyseeinheit nach Anspruch 2, die ferner eine Indexbildungseinheit zum Analysieren des von der Dokumentenerfassungseinheit erfassten Dokumentes aufweist, die Indexinformationen für jedes Wort der Vielzahl von im Dokument enthaltenen Wörtern bildet und die gebildeten Indexinformationen in der Indexspeichereinheit speichert.
- Analyseeinheit nach Anspruch 2 oder Anspruch 3, wobei die Kontextbildungseinheit die Kontextinformationen für eine Vielzahl vorbestimmter Kontexte bildet.
- Analyseeinheit nach Anspruch 4, wobei die Kontextbildungseinheit Kontextinformationen bildet, die Abschnitte enthält, deren Auftrittspositionen sich gegenseitig überlappen.
- Programm zum Bewirken, dass ein Computer als die Analyseeinheit nach Anspruch 1 funktioniert.
- Analyseverfahren zum Analysieren eines Textdokumentes durch einen Computer, wobei der Computer in einer Kontextspeichereinheit Kontextinformationen speichert, die die Position einer Zeichengruppe mit einem vorbestimmten Kontext im Dokument zeigen, in einer Indexspeichereinheit Indexinformationen speichert, die für jedes Wort einer Vielzahl von im Dokument enthaltenen Wörtern die Position eines Wortes im Dokument zeigen, ein Zielwort eingibt, aus den Indexinformationen, die aus der Indexspeichereinheit ausgelesen werden, die Position des im Dokument enthaltenen Zielwortes erkennt, und die Auftrittshäufigkeit des Zielwortes für jede Art von Kontext im Dokument auf der Grundlage der aus der Kontextspeichereinheit ausgelesenen Positionen des Zielwortes und der Kontextinformationen erkennt.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012032067 | 2012-02-16 | ||
JP2012-032067 | 2012-02-16 | ||
PCT/JP2013/050487 WO2013121810A1 (ja) | 2012-02-16 | 2013-01-11 | テキストの文書を解析する装置、プログラムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
DE112013000981T5 true DE112013000981T5 (de) | 2014-11-27 |
Family
ID=48982942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE112013000981.1T Ceased DE112013000981T5 (de) | 2012-02-16 | 2013-01-11 | Einheit, Programm und Verfahren zum Analysieren von Textdokumenten |
Country Status (4)
Country | Link |
---|---|
US (1) | US9164964B2 (de) |
DE (1) | DE112013000981T5 (de) |
GB (1) | GB2511015A (de) |
WO (1) | WO2013121810A1 (de) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11520987B2 (en) * | 2015-08-28 | 2022-12-06 | Freedom Solutions Group, Llc | Automated document analysis comprising a user interface based on content types |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5972425B1 (ja) * | 2015-05-08 | 2016-08-17 | 株式会社エルプランニング | 風評被害リスクレポート作成システム、プログラム及び方法 |
JP6657769B2 (ja) * | 2015-10-23 | 2020-03-04 | 株式会社Jvcケンウッド | 送信装置、送信方法 |
US10062222B2 (en) * | 2015-11-23 | 2018-08-28 | GM Global Technology Operations LLC | Analyzing multilingual diagnostic records |
US20170235720A1 (en) * | 2016-02-11 | 2017-08-17 | GM Global Technology Operations LLC | Multilingual term extraction from diagnostic text |
CN109933795B (zh) * | 2019-03-19 | 2023-07-28 | 上海交通大学 | 基于上下文-情感词向量的文本情感分析系统 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5748953A (en) * | 1989-06-14 | 1998-05-05 | Hitachi, Ltd. | Document search method wherein stored documents and search queries comprise segmented text data of spaced, nonconsecutive text elements and words segmented by predetermined symbols |
JP3636941B2 (ja) * | 1999-07-19 | 2005-04-06 | 松下電器産業株式会社 | 情報検索方法と情報検索装置 |
US8874431B2 (en) * | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
JP2003157271A (ja) * | 2001-11-20 | 2003-05-30 | Mitsubishi Electric Corp | テキストマイニング装置および方法 |
JP4423004B2 (ja) | 2003-10-03 | 2010-03-03 | 三菱電機株式会社 | テキストマイニング装置、テキストマイニング方法およびテキストマイニングプログラム |
JP2006004098A (ja) | 2004-06-16 | 2006-01-05 | Internatl Business Mach Corp <Ibm> | 評価情報生成装置、評価情報生成方法、及びプログラム |
US8171029B2 (en) * | 2007-10-05 | 2012-05-01 | Fujitsu Limited | Automatic generation of ontologies using word affinities |
JP2012027724A (ja) * | 2010-07-23 | 2012-02-09 | Sony Corp | 情報処理装置、情報処理方法及び情報処理プログラム |
-
2013
- 2013-01-11 DE DE112013000981.1T patent/DE112013000981T5/de not_active Ceased
- 2013-01-11 WO PCT/JP2013/050487 patent/WO2013121810A1/ja active Application Filing
- 2013-01-11 GB GB1410245.3A patent/GB2511015A/en not_active Withdrawn
- 2013-01-16 US US13/742,473 patent/US9164964B2/en active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11520987B2 (en) * | 2015-08-28 | 2022-12-06 | Freedom Solutions Group, Llc | Automated document analysis comprising a user interface based on content types |
US11983499B2 (en) | 2015-08-28 | 2024-05-14 | Freedom Solutions Group, Llc | Automated document analysis comprising a user interface based on content types |
Also Published As
Publication number | Publication date |
---|---|
US20130218555A1 (en) | 2013-08-22 |
GB2511015A (en) | 2014-08-20 |
GB201410245D0 (en) | 2014-07-23 |
WO2013121810A1 (ja) | 2013-08-22 |
US9164964B2 (en) | 2015-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE60209572T2 (de) | Verfahren und vorrichtung zur automatischen erkennung von datentypen für die datentypenabhängige verarbeitung | |
DE112013000981T5 (de) | Einheit, Programm und Verfahren zum Analysieren von Textdokumenten | |
DE102018007060A1 (de) | Hervorheben von Schlüsselabschnitten eines Texts innerhalb eines Dokuments | |
DE60315506T2 (de) | Identifizierung von kritischen merkmalen in einem geordneten skala-raum | |
US8762873B2 (en) | Graphical user interface component identification | |
DE602004003361T2 (de) | System und verfahren zur erzeugung von verfeinerungskategorien für eine gruppe von suchergebnissen | |
DE102017008430A1 (de) | Verfahren und Systeme zum Erzeugen von virtuelle Realität-Umgebungen aus elektronischen Dokumenten | |
US9720912B2 (en) | Document management system, document management method, and document management program | |
DE102014204827A1 (de) | Auflösen ähnlicher Entitäten aus einer Transaktionsdatenbank | |
DE202012013725U1 (de) | Kontextsensible Suche | |
DE102013202365A1 (de) | Herausziehen von informationen aus krankenakten | |
DE112020000227T5 (de) | Maschinelles lernen eines computermodells auf grundlage von korrelationenvon trainingsdaten mit leistungstrends | |
DE102017220140A1 (de) | Abrufvorrichtung, Abrufverfahren und Abrufprogramm | |
DE112018002047T5 (de) | Dokumentenanalyse mit mehreren faktoren | |
DE102005051617A1 (de) | Automatisches, computerbasiertes Ähnlichkeitsberechnungssystem zur Quantifizierung der Ähnlichkeit von Textausdrücken | |
DE112013002654T5 (de) | Verfahren zum Klassifizieren von Text | |
DE112014003591T5 (de) | Detektionseinheit, Detektionsverfahren und Programm | |
KR102421904B1 (ko) | 재난사고 원인분석의 고도화 방법 | |
DE112016002275T5 (de) | Koordinierte benutzerwortauswahl zum übersetzen und erhalten von kontextinformtionen für das ausgewählte wort | |
DE112010004914B4 (de) | Indexieren von Dokumenten | |
DE112017006445T5 (de) | Verfahren und Geräte zur Identifizierung eines Zählwerts von N-Grammen, die in einem Korpus vorkommen | |
DE102018007024A1 (de) | Dokumentdurchsuchen mittels grammatischer einheiten | |
CH712988A1 (de) | Verfahren zum Durchsuchen von Daten zur Verhinderung von Datenverlust. | |
DE102015122762A1 (de) | In frage kommende handschriftliche wörter unter verwendung von optischer zeichenerkennung und rechtschreibprüfung | |
CN108021595A (zh) | 检验知识库三元组的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
R012 | Request for examination validly filed | ||
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017300000 Ipc: G06F0017270000 |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017300000 Ipc: G06F0017270000 Effective date: 20150216 |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0017270000 Ipc: G06F0040200000 |
|
R079 | Amendment of ipc main class |
Free format text: PREVIOUS MAIN CLASS: G06F0040200000 Ipc: G06F0016310000 |
|
R016 | Response to examination communication | ||
R081 | Change of applicant/patentee |
Owner name: DOORDASH, INC., SAN FRANCISCO, US Free format text: FORMER OWNER: INTERNATIONAL BUSINESS MACHINES CORPORATION, ARMONK, NY, US |
|
R002 | Refusal decision in examination/registration proceedings | ||
R003 | Refusal decision now final |