DE3782447T2 - Dokumentverarbeitungsapparat. - Google Patents

Dokumentverarbeitungsapparat.

Info

Publication number
DE3782447T2
DE3782447T2 DE8787101133T DE3782447T DE3782447T2 DE 3782447 T2 DE3782447 T2 DE 3782447T2 DE 8787101133 T DE8787101133 T DE 8787101133T DE 3782447 T DE3782447 T DE 3782447T DE 3782447 T2 DE3782447 T2 DE 3782447T2
Authority
DE
Germany
Prior art keywords
title
document
rule
architecture
document architecture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
DE8787101133T
Other languages
English (en)
Other versions
DE3782447D1 (de
Inventor
Miwako Doi
Isamu Iwai
Toshio Okamoto
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of DE3782447D1 publication Critical patent/DE3782447D1/de
Application granted granted Critical
Publication of DE3782447T2 publication Critical patent/DE3782447T2/de
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Description

  • Die vorliegende Erfindung betrifft ganz allgemein einen Dokumentverarbeitungsapparat, und insbesondere einen Dokumentverarbeitungsapparat, der eine logische Dokumentarchitektur bezüglich der Kapitel, einzelnen Aussagen, Paragraphen etc. eines Dokumentes bilden kann.
  • Im allgemeinen ist ein Dokument in eine Vielzahl von Blöcken unterteilt, und Titel werden den jeweiligen Blöcken zugeordnet, um ein Lesen des Dokumentes zu erleichtern. Außerdem ist jeder Block in untergeordnete Blöcke unterteilt und Untertitel werden den jeweiligen untergeordneten Blöcken zugeordnet. Die Titel und Untertitel sind aus kurzen Sätzen zusammengebaut und oft werden zusätzlich Titelsymbole an diese Einleitungsabschnitte, beispielsweise "Kapitel 1" bzw. "Abschnitt 3" angefügt. Wenn Dokumente mit der oben beschriebenen hierarchischen Struktur von einem Computer verarbeitet werden, tritt das folgende Problem auf:
  • Nachdem Dokumentdaten in Einheiten von Feldern auf der Anzeige oder von Seiten von Druckblättern verarbeitet werden, sollten in den herkömmlichen Dokumentverarbeitungssystemen sowohl die Start- als auch Endpositionen der an eine andere Stelle zu bewegenden Dokumentdaten von dem Anzeiger (im folgenden als Cursor bezeichnet) markiert werden, wenn ein bestimmtes Kapitel durch ein anderes ersetzt werden muß. Wenn die Dokumentdaten irgendeines bestimmten Kapitels lang sind, ist es erforderlich, den Anzeigeschirm von der Startposition zu der zu markierenden Endposition laufen zu lassen. Das obige Schirmablaufen (im folgenden als Scrolling bezeichnet) ist mühsam und weist eine Tendenz auf, betriebsmäßige Fehler zur Folge zu haben.
  • Wenn ein Benutzer ein Dokument entwirft, wünscht er oft die vorangegangenen Sätze zu sehen, um zum Beispiel die Inhalte der vorangegangenen Sätze und die Arten der vorangegangenen Titelsymbole zu überprüfen. In diesem Fall muß er die Seite und die Position der Zeile, die den erforderlichen Satz und das zu überprüfende Titelsymbol enthält, erraten und muß danach den gewünschten Satz und Titelsymbol suchen. Die obigen Suchoperation ist mühsam und somit wird die Dokumententwurfseffizienz wesentlich herabgesetzt.
  • Um das oben erwähnte Problem zu lösen, ist ein Verarbeitungsapparat in Erwägung gezogen worden, der eine
  • Dokument-Dateneingabeeinrichtung, eine
  • Titellexikoneinrichtung, eine
  • Titelregellexikoneinrichtung, eine
  • Titelbestimmungseinrichtung, eine
  • Dokumentarchitektur-Regellexikoneinrichtung und eine
  • Dokumentarchitektur-Bestimmungseinrichtung umfaßt.
  • Der obige Dokumentverarbeitungsapparat kann eine logische Dokumenthierarchiearchitekturliste durch Behandlung von Dokumenten in Einheiten von Einzelaufstellungen erstellen, so daß der Benutzer jeden vorgegebenen Titel, einzelne Aufstellungen und Paragraphen zur einfachen Dokumentaufbereitung bzw. Editieren leicht kennzeichnen kann.
  • Nachdem jedoch eine Dokumentarchitektur nur entsprechend dem Dokumentarchitekturlexikon bestimmt wird, besteht in dem obigen Dokumentverarbeitungsapparat ein Problem derart, daß ein Titel fehlerhaft bestimmt wird. Zum Beispiel kan ein Titel "2.2 Klassenübung" als eine Hinzufügung von "2.2" (Titelsymbol) und "Klassenübung" (Titelwort) oder von "2" (Titelsymbol) und "2 Klassenübung" (Titelwort) bestimmt werden. Wenn einzelne Aufstellungen bzw. einzelne Aussagen von "1 ... ", "2 ... ", "3 ... " und "4 ..." unter einem Kapiteltitel "4 ... " existieren und außerdem "5 ... " folgt, kann außerdem die "5 ... " als ein Kapiteltitel oder ein einzelner Titel bestimmt werden.
  • Wenn sich die von dem Computer eindeutig bestimmte Dokumentarchitektur von der von dem Benutzer beabsichtigten unterscheidet, sollte der Benutzer somit die Dokumentarchitektur in eine Beabsichtigte modifizieren, welches eine schlechte Betriebsamkeit zur Folge hat.
  • In Anbetracht dieser Probleme ist es somit die Hauptaufgabe der vorliegenden Erfindung, den Dokumentverarbeitungsapparat mit einer zusätzlichen Funktion so auszustatten, daß eine Vielzahl von Dokumentarchitekturkandidaten bestimmt werden kann und der Benutzer irgendeinen gewünschten Kandidaten zur Schaffung einer besseren Funktionsfähigkeit leicht wählen kann.
  • Um die obige Aufgabe zu lösen, umfaßt der Dokumentverarbeitungsapparat entsprechend der vorliegenden Erfindung:
  • eine Prozessoreinrichtung zum Steuern von Dokumentverarbeitungsoperationen;
  • eine mit der prozessoreinrichtung verbundene Eingabeeinrichtung zum Eingeben von Dokumentdaten;
  • eine Titellexikon-Speichereinrichtung zum Speichern von häufig als Titel verwendeten Wörtern und Ausdrücken angeordnet in einer Spaltenrichtung;
  • eine Titelkandidaten-Extraktionseinrichtung, die mit der Prozessoreinrichtung und der Titellexikon-Speichereinrichtung verbunden ist, um aus der Dokumentdateneingabe in der Eingabeeinrichtung einen einer Vielzahl von Wörtern und Ausdrücken als Titelkandidaten zu extrahieren, der einer der in der Titellexikon-Speichereinrichtung gespeicherten Titel entspricht;
  • eine Titelregel-Lexikoneinrichtung zum Speichern von zum Bestimmen der Titel verwendeten Regeln;
  • eine Titelbestimmungseinrichtung, die mit der Prozessoreinrichtung und der Titelregel-Lexikoneinrichtung verbunden ist, zum Überprüfen, ob entsprechend den Titelregeln, die in der Titelregel-Lexikoneinrichtung gespeichert sind der von der Titelkandidat-Extraktionseinrichtung extrahierte Titelkandidat ein Titel oder kein Titel ist;
  • eine Dokumentarchitekturregel-Lexikoneinrichtung zum Speichern von mit logischen Dokumentarchitekturen assoziierten Regeln;
  • eine Dokumentarchitektur-Bestimmungseinrichtung, die mit der Prozessoreinrichtung und der Dokumentarchitekturregel-Lexikoneinrichtung verbunden ist, zum Bestimmen von logischen Dokumentarchitekturkandidaten des Titels entsprechend den in der Dokumentarchitekturregel-Lexikoneinrichtung gespeicherten Dokumentarchitekturregeln durch Überprüfen, ob der von der Titelbestimmungseinrichtung bestimmte Titel oder der Nicht-Titel ein Kapiteltitel, ein Abschnittstitel oder ein Paragraph ist, ; und
  • eine Dokumentarchitekturwähl- und Anzeigeeinrichtung, um einem Benutzer zu erlauben, wenigstens eine gewünschte Dokumentarchitektur zu wählen, wenn die Dokumentarchitektur-Bestimmungseinrichtung eine Vielzahl von Dokumentarchitekturkandidaten entsprechend von Dokumentarchitekturregeln bestimmt,
  • wobei die Dokumentarchitekturwähl- und Anzeigeeinrichtung umfaßt:
  • (a) eine Regelanwendungs-Bestimmungseinrichtung, auf die die Dokumentarchitekturregel-Lexikoneinrichtung zugreifen kann, wenn mehrere logische Dokumentarchitekturkandidaten von der Dokumentarchitektur-Bestimmungseinrichtung bestimmt werden, zum Überprüfen eines Regelnamens-Anforderungskandidatenabschnitt, um von einer Tabelle für Anwendungsregeln Flaggen entsprechend dem Regelnamen zurückzugewinnen; und
  • (b) eine Kandidatenwähl- und Anzeigeeinrichtung, die auf eine Kandidatwähltaste anspricht, der in der Dokumenteingabeeinrichtung vorgesehen ist, um dem Benutzer zu erlauben, durch Wählen wenigstens einer gewünschten Dokumentarchitektur durch die Kandidatwähltaste Flaggen zu aktualisieren, wobei die Dokumentarchitekturregel-Lexikoneinrichtung Regelanwendungs-Registrierungsinformation speichert, die vergangene Regelanwendungssituationen anzeigt und die Dokumentarchitektur-Bestimmungseinrichtung bezüglich der gespeicherten Regelanwendungs-Registrierungsinformation eine anzuwendende Dokumentarchitekturregel bestimmt, um eine Dokumentarchitekturwahl in Abhängigkeit von einer Lernfunktion zu erleichtern.
  • In den Zeichnungen zeigt:
  • Fig. 1 ein Blockschaltbild des Dokumentverarbeitungsapparates entsprechend der vorliegenden Erfindung;
  • Fig. 2 ein Beispiel von Dokumenten;
  • Fig. 3 ein Beispiel eines Titelwortlexikons;
  • Fig. 4A bis 4D ein Beispiel eines Titelregellexikons;
  • Fig. 5 ein Flußdiagramm, das die Betriebsprozedur des in Fig. 1 gezeigten Apparates zeigt;
  • Fig. 6A bis 6F ein Beispiel einer Abfolge von logischen Dokumentarchitekturlisten, die in dem logischen Architekturspeicher gespeichert sind;
  • Fig. 7A bis 7C einige Beispiele von einer Anwendung von in den Fig. 4A bis 4P gezeigten Titelregeln auf das in Fig. 2 dargestellte Dokument;
  • Fig. 8 ein Beispiel von gespeicherten Regeltabellen einschließlich von Flaggen, die Regelnamen entsprechen; und
  • Fig. 9 ein Flußdiagramm, das eine Prozedur des Betriebs des Bestimmungsabschnitts für Regelanwendung zeigt.
  • Unter Bezugnahme auf die beiliegenden Zeichnungen wird im folgenden der Dokumentverarbeitungsapparat entsprechend der vorliegenden Erfindung ausführlich beschrieben.
  • Unter Bezugnahme auf Fig. 1 ist ein Dokumentprozessor 1 an eine Eingabeeinrichtung 2 mit einer Tastatur angeschlossen, um eine zentralisierte Behandlung und Verarbeitung von Eingabedokumenten zu erreichen. Der Dokumentprozessor 1 ist außerdem verbunden mit einem Originaldokumentenspeicher 3 zum Speichern von Eingabeoriginaldokumenten und mit einer Anzeige-Steuereinrichtung 4, um eine Anzeige 5 zu veranlassen, das Eingabeoriginaldokumenten-Auslesen von dem Speicher 3 anzuzeigen. Der Dokumentprozessor 1 ist außerdem mit einer Titelextraktionseinrichtung 6, einem Titelbestimmungsabschnitt 8, einem Dokumentarchitektur-Bestimmungsabschnitt 9 und einem logischen Architekturspeicher 10 verbunden. Die Titelextraktionseinrichtung 6 ist mit einem Titelwortlexikon 7 zum Speichern von vielerlei Arten von Titel darstellenden Wörtern verbunden. Der Titelbestimmungsabschnitt 8 enthält ein Titelregellexikon 8a. Der Dokumentarchitektur-Bestimmungsabschnitt 9 enthält ein Dokumentarchitekturregel-Lexikon 9a.
  • Der Dokumentprozessor 1 erfaßt aufeinanderfolgend Datensegmentierungscodes, die in dem Originaldokumentspeicher 3 gespeichert sind, wie zum Beispiel einem Zeilenrücksprungcodes und extrahiert von dem Segmentierungscodes segmentierte Sätze. In diesem Fall mißt der Dokumentprozessor 1 jede Satzlänge. Die extrahierten Sätze werden aufeinanderfolgend an die Titel-Extraktionseinrichtung 6 gesendet. Die Titel-Extraktionseinrichtung 6 bestimmt das Titelwort durch Vergleich des eingegebenen Satzes mit in dem Titelwort-Lexikon 7 gespeicherten Titelwörtern und die Satzlänge.
  • Das Titelwort-Lexikon 7 speichert häufig verwendete Wörter, Ausdrücke und Symbole, die alle als Titelwörter definiert sind. Die Wörter, Ausdrücke und Symbole werden in Kategorien klassifiziert, wie in Fig. 3 gezeigt, und werden vorher in dem Lexikon 7 registriert. Wörter, wie zum Beispiel "Einleitung" und "Zusammenfassung", werden in einer Kategorie von "reserviertes Titelwort" registriert. Zusätzlich werden auch häufig verwendete Ziffern und Symbole als Titelwörter registriert, die in die jeweiligen Kategorien klassifiziert werden.
  • Die Titel-Extraktionseinrichtung 6 bestimmt, ob die Anzahl von Zeichen eines extrahierten Satzes kleiner als eine vorgegebene Anzahl ist. Das heißt, die Extraktionseinrichtung 6 bestimmt, ob ein extrahiertes Titelwort (ein Wort und/oder Ausdruck, und/oder Ziffer, und/oder Symbol, die als eine Codekette dargestellt sind) einem Wort der in dem Lexikon 7 registrierten Wörtern entspricht. Wenn eine Entsprechung erfaßt wird, wird das extrahierte Wort als das entsprechende Titelwort erkannt.
  • Die von der Extraktionseinrichtung 6 als das Titelwort bestimmten extrahierten Wörter werden eines nach dem anderen dem Titelbestimmungsabschnitt 8 unter der Steuerung des Prozessors 1 eingegeben. Der Titelbestimmungsabschnitt 8 bestimmt entsprechend den in dem Lexikon 8a gespeicherten Titelregeln (Fig. 4A bis 4D), ob das erkannte Titelwort ein Titelwort oder ein anderes Wort ist.
  • Das von dem Titelbestimmungsabschnitt 8 als das Titelwort oder als irgendein anderes Wort bestimmte Wort wird unter der Steuerung des Prozessors 1 dem Dokumentarchitekturbestimmungsabschnitt 9 eingegeben. Der Architekturbestimmungsabschnitt 9 bestimmt, ob der von dem Titelbestimmungsabschnitt 8 gesendete Satz oder Wort ein Kapiteltitel, ein Abschnittstitel oder ein Paragraph ist, entsprechend den in dem Dokumentarchitekturregellexikon 9a gespeicherten Dokumentarchitekturregeln (wie unten dargestellt): Tabelle 1 Regeln für Titel Bedingung 1: Ein reserviertes Wort ist nicht enthalten. Bedingung 1-1: Ein Titelwort ist enthalten. Bedingung 1-1-1: Ein reserviertes Titelwort ist enthalten. Bedingung 1-1-1-1: Ein Kapiteltitel ist in dem vorangegangenen Teil nicht enthalten. (Ergebnis) Zeigt einen Kapiteltitel an. Ein Symbolabschnitt, ein alphanumerischer Abschnitt, ein Interpunktionsabschnitt oder ein Schwanzsymbol ist als ein Haupttitelmuster definiert. Bedingung 1-1-2: Ein reserviertes Titelwort ist nicht enthalten. Bedingung 1-1-2-2: Ein Kapiteltitel liegt in dem vorangegangenen Teil vor. Bedingung 1-1-2-2-1: Übereinstimmen mit einem Kapiteltitelmuster ist erfolgreich. (Ergebnis) Zeigt einen Kapiteltitel an. Der Rang des Kapiteltitelmusters wird um Eins inkrementiert. Bedingung 1-1-2-2-2: Dieses Titelmuster stimmt nicht mit dem vorangegangenen Kapitelttitel überein. Bedingung 1-1-2-2-2-1: Ein Einzelmuster liegt in dem vorangegangenen Teil nicht vor. (Ergebnis) Zeigt einen Einzelmusterkandidaten an. Bedingung 1-1-2-2-2-2: Ein Einzelmuster liegt in dem vorangegangenen Teil vor. Bedingung 1-1-2-2-2-2-1: Das Titelmuster stimmt mit dem Einzelmusterkandidaten überein. (Ergebnis) Zeigt ein Einzelmuster an. Der Rang des Einzelmusters wird um Eins inkrementiert. Tabelle 2 Regeln zum Übereinstimmen mit Titelmustern Bedingung 1-1: Ein alphanumerischer Abschnitt ist enthalten. Bedingung 2-1: Alphanumerische Abschnitte sind von derselben Art. Bedingung 3-1: Der Rang des alphanumerischen Abschnittes ist um Eins höher als derjenige eines Titelmusters. Bedingung 4-1: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol, und das Vorliegen/Fehlen von Klammern in dem Titelwort sind dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 4-2: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind dieselben innerhalb des Bereichs der Fehlermusterregeln. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 4-3: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein Fehlübereinstimmen an. Bedingung 3-2: Der Rang des alphanumerischen Abschnittes ist gleich oder um zwei von dem Rang des Titelmusters inkrementiert. Bedindung 4-1: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, in Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind dieselben innerhalb des Bereichs der Fehlermusterregeln. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 4-2: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol, und das Vorliegen/Fehlen von Klarnern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein Fehlübereinstimmen an. Bedingung 1-2: Ein alphanumerisches Muster ist nicht enthalten. Bedingung 2-1: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 2-2: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. Tabelle 3 Paragraph-assoziiertes Format Bedingung 1-1: Ein Titel ist nicht enthalten. (Ergebnis) Zeigt einen Paragraph an. Tabelle 4 Zusammenbau-assoziiertes Format Bedingung 1-1: Ein Paragraph. Greife auf Regel- Anwendungsbestimmungsabschnitt zu. Bedingung 2-1: Angewendete Flaggeninformation ist X1. (Ergebnis d&sub1;) Setze das Niveau des gegenwärtigen Titels auf dasselbe wie dasjenige des vorangegangenen Titels. Bedingung 2-2: Angewendete Flaggeninformation ist X2. (Ergebnis d&sub2;) Setze das Niveau des gegenwärtigen Titels auf dasselbe wie dasjenige des vorangegangenen Kapiteltitels.
  • Die logische Architektur eines Satzes oder Wortes wie es von dem Dokumentarchitektur-Bestimmungsabschnitt 9 entsprechend der obigen Regeln bestimmt ist, wird in dem logischen Architekturspeicher 10 gespeichert.
  • Die Anzeige-Steuereinrichtung 4 steuert die Anzeige 5 zum Anzeigen der Dokumentdaten entsprechend der in dem logischen Architekturspeicher 10 gespeicherten logischen Dokumentarchitektur.
  • Im folgenden wird nun der Betrieb des Dokumentverarbeitungsapparates unter Bezugnahme auf das in Fig. 5 gezeigte Flußdiagramm beschrieben. Wenn der Eingabeeinrichtung 2 Dokumentdaten eingegeben werden (Schritt a), werden die eingegebenen Dokumentdaten aufeinanderfolgend in dem Originaldokumentenspeicher 3 gespeichert. Gleichzeitig werden die eingegebenen Dokumentdaten von dem Dokumentprozessor 1 wie in Fig. 2 gezeigt in eine Vielzahl von Blöcken segmentiert. In dieser Segmentierungsverarbeitung werden Zeilenrücksprungcodes etc. als Segmentierungscodes bestimmt. Die eingegebenen Dokumentdaten werden in Einheiten von Blöcken bei den Segmentierungscode segmentiert. Dabei wird die Segmentierungs-Satzlänge durch Zählen von Zeichen gemessen. Wenn der gemessene Wert innerhalb eines vorgegebenen Wertes (zum Beispiel 40 Zeichen) fällt, wird bestimmt, daß eine Möglichkeit besteht, daß der Satz ein Titelsatz ist.
  • Falls entsprechend der gemessenen Anzahl von Zeichen bestimmt wird, daß eine Möglichkeit vorliegt, daß der segmentierte Satz ein Titelsatz ist, bestimmt die Titelextraktionseinrichtung 6, ob eine Zeichenkette (Wörter, Ausdrücke, oder Symbole), aus der der segmentierte Satz besteht, in dem Titelwort-Lexikon 7 registriert ist (Schritt b). Wenn ein Satz "1. Einführung" in den eingegebenen Dokumentdaten extrahiert wird, wird zum Beispiel überprüft, ob es in dem Titel-Lexikon 7 registriert ist. In diesem Fall werden aus dem Titel-Lexikon 7 "1", "." und "Einleitung" zurückgewonnen und es wird bestimmt, daß der Satz ein Titelkandidat A ist (Schritt c).
  • Wenn eine Titelkandidat-Bestimmung durchgeführt wird, greift der Titelbestimmungsabschnitt 8 auf das Titelregel-Lexikon 8a zu, um zu bestimmen, ob der Kandidat A ein Titelwort (Schritt d) ist. Falls der Kandidat A durch irgendeine der in Fig. 4A bis 4D gezeigten Regeln definiert ist, wird bestimmt, daß der Kandidat A Titelwort B ist (Schritt e). In diesem Fall wird die Art von Titelwort entsprechend der angewendeten Titelregel bestimmt.
  • Falls der von dem Dokumentprozessor 1 segmentierte Satz nicht irgendeinem in dem Lexikon 7 registriertem Titelwort entspricht, oder falls der segmentierte Satz nicht mit irgendeiner Titelregel übereinstimmt, obwohl bestimmt wird, daß es ein Titelwortkandidat ist, wird bestimmt, daß der segmentierte Satz ein Satz ist, der nicht in den Titelwortregeln enthalten ist (Schritt f).
  • Der als Titelwort bestimmte Satz und der als kein Titelwort bestimmte Satz werden dem Dokumentarchitektur-Bestimmungsabschnitt 9 eingegeben, um ihre Dokumentarchitektur zu bestimmen. Wenn die Dokumentarchitekturen bestimmt werden, bestimmt der Bestimmungsabschnitt 9, ob die Satzarchitekturen in dem Regel-Lexikon 9a gespeicherten Dokumentarchitekturregeln (Tabellen 1 bis 4) entsprechen (Schritt g). Falls die Architektur des eingegebenen Dokumentes durch eine der Dokumentarchitekturregeln definiert ist, werden die Dokumentarchitekturdaten entsprechend zu dem bestimmten Regeln in dem Speicher 10 gespeichert (Schritt h und i).
  • Unter Bezugnahme auf das Beispiel von segmentierten Sätzen wie in Fig. 2 gezeigt wird das obige Verfahren von Bestimmen der Dokumentarchitektur in weiteren Einzelheiten beschrieben. In den segmentierten Sätzen in Fig. 2 werden der Satz der ersten Zeile, zum Beispiel "Dokument verstehendes System", und der Satz der zweiten Zeile, zum Beispiel "Okawa Tara" nicht in dem Lexikon 7 gespeichert. Die Extraktionseinrichtung 6 bestimmt, daß diese Sätze keine Titelwörter sind. Jedoch ist der Satz der ersten Zeile durch eine Regel definiert, die einen am Kopf des Dokumentes erscheinenden Hauptwortausdruck darstellt, und der Bestimmungsabschnitt 9 bestimmt, daß "Dokument verstehendes System" ein Titel ist. Der Satz der zweiten Zeile "Okawa Taro" ist ein richtiges Hauptwort, das einen männlichen Namen repräsentiert. Nachdem der männliche Name dem Titel folgt, wird entschieden, daß der Name der Name des Autors ist.
  • Die von der Dokumentarchitekturbestimmung, wie oben beschrieben, erhaltenen Ergebnisse werden in einer Form wie in Fig. 6A gezeigt in einem logischen Architekturspeicher 10 gespeichert.
  • In dem Satz der dritten Zeile, das heißt "1. Einleitung", werden drei Wörter, das heißt "1", "." und "Einleitung" in dem Lexikon 7 gespeichert. Somit wird entschieden, daß dieser Satz ein Titelkandidatsatz A1 ist (sh. Fig. 7A). Zugleich werden die diesen Satz darstellenden Kategorien als ein numerischer Abschnitt, ein Interpunktionsabschnitt bzw. als ein Titelkandidatwort erkannt.
  • Der Titelbestimmungsabschnitt 8 greift auf das Titelregel-Lexikon 8a zu, um zu bestimmen, ob der als Titelkandidat A1 bestimmte Satz durch die Titel regeln definiert ist. In diesem Fall wird der Rang der das Kandidatwort A1 darstellenden Kategorien analysiert. Der Bestimmungsabschnitt 8 bestimmt, ob der Rang irgendeine der in den Fig. 4A bis 4D gezeigten Bedingung erfüllt. Die erste Ziffer "1" wird durch die in Fig. 4D gezeigte Regel d definiert. Die Ziffer "1" und Interpunktionsabschnitt "." werden durch die in Fig. 4B gezeigte Regel b definiert. Somit wird bestimmt, daß "1." ein Titelsymbol entsprechend der in Fig. 4B gezeigten Regel b ist. "Einleitung" ist durch die in Fig. 4C gezeigte Regel c definiert und wird als ein Titelwort bestimmt. Die Beziehung zwischen dem Titelsymbol und dem Titelwort wird durch die in Fig. 4A gezeigte Regel a definiert. Somit wird der Titelkandidat A1 als Titel B1 bestimmt. Der obige Bestimmungsprozess ist in Fig. 7A dargestellt.
  • Wenn in dem obigen Bestimmungsprozess die Kategorien nicht durch die Fig. 4A bis 4D gezeigte Regeln A, B, C definiert sind, wird entschieden, daß der Titelkandidat A1 kein Titelwort ist.
  • Der Dokumentarchitektur-Bestimmungsabschnitt bestimmt die Dokumentarchitektur von Titel B1 entsprechend der Regeln in Tabelle 1 bis 4. In diesem Fall wird die logische Architektur des analysierten Satzes in dem Speicher 10 wie in Fig. 6A gezeigt gespeichert. In den gespeicherten logischen Architekturen wird kein Kapiteltitel angezeigt. Titel B1, das heißt "1. Einführung" wird durch die Bedingungen (1), (1-1), (1-1-1), und (1-1-1-1) in Tabelle 1 so definiert, daß bestimmt wird, daß "1. Einleitung" Kapiteltitel C1 wie in Fig. 7A gezeigt, darstellt. Entsprechend dieser Bestimmung wird die den Kapiteltitel enthaltende logische Architektur in dem logischen Architekturspeicher 10 wie in Fig. 6B gespeichert.
  • Nachdem die Anzahl von Zeichen des Satzes der vierten und fünften Zeilen wie in Fig. 2 gezeigt die Zahl zur Bestimmung, daß eine Möglichkeit besteht, daß ein Satz ein Titelwort ist, überschreitet, wird somit entschieden, daß dieser Satz anders als ein Titel ist. Wie durch die Regeln in Tabelle 3 definiert, wird bestimmt, daß der Satz der vierten und fünften Zeilen ein einen Paragraph darstellender Satz ist.
  • Der Satz der sechsten Zeile "2. Merkmale des Systems" wird als Titelkandidat A2 in denselben Prozeduren wie für Titelkandidat A1 erkannt. In diesem Fall wird der Satz der sechsten Zeile durch die Schritte in Fig. 7B analysiert und als ein Titel B2 bestimmt. Der Titel B2 wird mit den Regeln in Tabelle 2 verglichen, um zu bestimmen, ob es mit irgendeiner spezifischen der Regeln übereinstimmt. Der Titel B2 wird durch Bedingungen (1-1), (2-1), (3-1) und (4-1) definiert und es wird bestimmt, daß er eine Möglichkeit aufweist, von demselben Niveau wie derjenige von Kapiteltitel C1 "1. Einleitung" zu sein. In dieser Art und Weise wird bestimmt, ob der Titel B2 durch die Regel in Tabelle 1 definiert ist. Mit anderen Worten "2. Merkmale des Systems" erfüllt die Bedingungen (1), (1-1), (1-1-2) und (1-1-2-2-1) und somit wird bestimmt, daß das Titelwort B2 den Kapiteltitel C2 darstellt. Die sich ergebenden logischen Architekturdaten werden in dem Speicher 10 wie in Fig. 6C gezeigt gespeichert.
  • Die gleiche Verarbeitung wie oben beschrieben wird für die Sätze der siebten und darauffolgenden Zeilen durchgeführt und die Dokumentarchitekturen dieser Sätze werden in dem Speicher 10 wie in den Fig. 6D bis 6E gezeigt gespeichert. Insbesondere wird für den Satz der siebten Zeile Titelkandidat A3 wie in Fig. 7C gezeigt analysiert und wird dann als Titel B3 entsprechend den in den Fig. 4A bis 4G gezeigten Regeln bestimmt.
  • In dem Dokumentarchitektur-Bestimmungsabschnitt 9 wird der Titel B3 mit den Regeln der Tabelle 2 verglichen. Nachdem das Muster von Titel B2 vorher nicht erscheint, ist ein Übereinstimmen nicht erfolgreich. Als Folge davon wird entschieden, daß Titel B3 ein Titel mit einem Niveau ist, das sich von demjenigen der vorangegangenen Titel unterscheidet. Titel B3 wird entsprechend von Dokumentarchitekturregeln in Tabelle 1 überprüft und es wird festgestellt, daß er mit Bedingungen (1), (1-1), (1-1-2), (1-1-2-2) und (1-1-2-2-2-1) übereinstimmt. Somit wird entschieden, daß Titel B3 ein Einzeltitel C3 ist.
  • Nachdem der Satz der achten Zeile Bedingungen (1-1), (2-1), (3-1) und (4-1) erfüllt, wird in einer ähnlichen Art und Weise entschieden, daß das Niveau des dem Satz der achten Zeile entsprechenden Titels möglicherweise dasselbe ist, wie dasjenige von dem Einzeltitel der siebten Zeile. Es wird bestimmt, daß der Satz der achten Zeile die Bedingungen (1), (1-1), (1-1-2), (1-1-2-2), (1-1-2-2-2), (1-1-2-2-2-2) und (1-1-2-2-2-2-1) in Tabelle 1 erfüllt und wird somit als ein Einzeltitel bestimmt, der wie in Fig. 6D gezeigt gespeichert wird.
  • Bezüglich der neunten Zeile "Dieses System ist ... " ist es möglich, diesen Paragraph so anzusehen, wie wenn er zwei Fälle oder zwei Kandidaten besitzt. Das heißt, der erste Fall ist, daß die neunte Zeile ein Teil des Einzeltitels der achten Zeile ist oder "(2). hohe Erkennungsrate", während der zweite Fall ist, daß die neunte Zeile ein Paragraph mit demselben Niveau wie dasjenige des Kapiteltitels der sechsten Zeile oder "2. Merkmal des Systems" ist.
  • Deswegen ist in dem Apparat entsprechend der vorliegenden Erfindung der Apparat ausgelegt, um einem Benutzer zu erlauben, irgendeinen der Kandidaten zu wählen.
  • Um die obige Aufgabe zu lösen, umfaßt der Apparat außerdem einen Regelanwendungs-Bestimmungsabschnitt 12 und einen Kandidatwählanzeigeabschnitt 14, wie in Fig. 1 dargestellt.
  • Das Dokumentarchitektur-Regellexikon 9a kann auf den Regelanwendungs-Bestimmungsabschnitt 12 zugreifen, um eine Regelnamen-Anforderungs-Kandidatwahl zu überprüfen und um Flaggen entsprechend dem Regelnamen von einer (nicht gezeigten) Tabelle zurückzugewinnen, wenn zwei oder mehrere Kandidaten bestimmt werden. Eine in der Dokumenteingabeeinrichtung 2 angeordneter (nicht gezeigter) Kandidatwähltaste kann auf den Kandidatwähl- und Anzeigeabschnitt 14 zugreifen, um Flaggen zu aktualisieren, so daß irgendeine gewünschte Dokumentarchitektur gewählt werden kann.
  • Wenn in Fig. 5 ein bestimmter Kandidat nicht mit einer einzelnen Dokumentarchitekturregel übereinstimmt oder wenn mehrere Kandidaten erzeugt werden (im Schritt g), erlaubt die Steuerung, daß das Dokumentarchitektur-Regellexikon 9a auf den Regelanwendungs-Bestimmungsabschnitt 12 zugreifen kann.
  • Die oben erwähnte Kandidatwählfunktion ist das Merkmal der vorliegenden Erfindung.
  • Wie schon erklärt, entscheidet der Dokumentarchitektur-Bestimmungsabschnitt 9, ob die Satzarchitekturen den Dokumentarchitekturregeln (Tabellen 1 bis 4) entsprechen, die in dem Dokumentarchitektur-Regellexikon 9a gespeichert sind. In diesem Fall liegt der Fall vor, bei dem das bestimmte Titelkandidatwort mit einer Vielzahl von Regeln übereinstimmt und somit ist es unmöglich, die Dokumentarchitektur eindeutig zu bestimmen. In diesem Fall werden eine Vielzahl von Architekturkandidaten in den logischen Architekturspeicher 10 unter der Steuerung des Dokumentprozessors 1 geschrieben und irgendeiner der Kandidaten wird durch den Kandidatwählanzeigeabschnitt 14 gewählt und auf der Anzeigeeinheit 5 unter der Steuerung der Anzeigesteuerungseinrichtung 4 angezeigt.
  • Das schon beschriebene Beispiel der in Fig. 2 gezeigten neunten Zeile wird nun in weiteren Einzelheiten beschrieben. Die zwei Architekturkandidaten sind der Fall, bei dem "das System ist ... " als ein Teil des Einzeltitels "2. hohe Erkennungsrate" bestimmt wird und der Fall, bei dem derselbe Paragraph in der neunten Zeile als ein Paragraph mit demselben Niveau wie dasjenige des Kapiteltitels "2. Merkmale des Systems" bestimmt wird. Nachdem in dem Titelregel-Lexikon wie in Fig. 4 gezeigt keine derartige Regel wie oben beschrieben existiert, werden die beiden obigen Sätze als "Paragraph" entsprechend der in Tabelle 4 gezeigten Dokumentarchitekturregeln erkannt. Irgendeiner der beiden Paragraphen wird in den logischen Architekturspeicher 10 wie in den Fig. 6E oder 6F gezeigt entsprechend dem in Fig. 9 gezeigten Flußdiagramm geschrieben.
  • Insbesondere stimmt in diesem Fall die Bedingung 1-1 in Tabelle 4 überein, so daß die Steuerung den Regelanwendungs-Bestimmungsabschnitt 12 veranlaßt, eine Information for angewendete Flaggen zu setzen, welches Ergebnis, d&sub1; oder d², ausgeführt werden soll. Im Ansprechen auf eine Anforderung des Setzens von angewendeter Flaggeninformation überprüft der Abschnitt 12, von welcher Regel die Anforderung erzeugt wird (Schritt 91). Nachdem die Anforderung von der Regel (d) erzeugt wird, gewinnt die Steuerung in diesem Fall angewendete Flaggen entsprechend dem obigen Regelnamen d von einer Anwendungsregel-Bestimmungstabelle, wie in Fig. 8 gezeigt, zurück (Schritt 92), und zeigt die Tabelle auf der Anzeigeeinheit 5 an, so daß die angewendeten Flaggen entsprechend dem Bedingungsnamen überprüft werden können (Schritt 93). Falls es erforderlich ist, daß Regel 2-1 bestimmt wird (Schritt 94), setzt hierbei der Benutzer die Flaggeninformation X&sub1; auf EIN (Schritt 95) und die Flaggeninformation X&sub2; auf AUS (Schritt 96).
  • Dadurch wird die Bedingung (2-1) von Tabelle 4 gewählt, um das Ergebnis d1 auszuführen, so daß das Niveau des gegenwärtigen "Paragraph" der neunten Zeile als ein Teil des Einzeltitels der achten Zeile bestimmt wird, der in den Speicher 10 wie in Fig. 6E gezeigt geschrieben wird.
  • Die obige von dem Benutzer bestimmte Dokumentarchitektur kann durch Verwendung einer Kandidatwähltaste, die in der Eingabeeinrichtung 2 angeordnet ist, geändert werden. Das heißt, falls die Kandidatwähltaste in der Eingabeeinrichtung 2 gedrückt ist, dekodiert der Dokumentprozessor 1 die Inhalte der Taste und sendet die Information an den Kandidatwählanzeigeabschnitt 14. Dieser Abschnitt 14 aktualisiert die angewendete Flagge derart, daß die Flagge in der in dem Regelanwendungs-Bestimmungsabschnitt 12 gespeicherten Regelanwendungstabelle in Bedingung 2-1 AUS ist, aber in Bedingung 2-2 EIN ist. Somit wird die angewendete Flaggeninformation X&sub2; in dem Regelanwendungs-Bestimmungsabschnitt 12 auf EIN gesetzt (Schritt 97) und die angewendete Flaggeninformation X&sub1; auf AUS gesetzt (Schritt 98), um die Bedingungen 2-2 anzuwenden, so daß das Ergebnis d&sub2; ausgeführt wird und es wird bestimmt, daß der "Paragraph" der neunten Zeile der "Paragraph" mit demselben Niveau wie derjenige des Kapitaltitels der sechsten Zeile wie in Fig. 2 gezeigt ist. Dementsprechend wird wie in Fig. 6F gezeigt in dem logischen Architekturspeicher 10 die Dokumentarchitektur neu geschrieben.
  • Wie oben beschrieben kann durch Ändern der Anwendungsflagge die anzuwendende Regel geschaltet werden. In dem obigen Ausführungsbeispiel wird irgendeiner der zwei Kandidaten gewählt. Jedoch ist es in dem Fall des Vorliegenes von mehreren Kandidaten möglich, den Apparat so zu steuern, daß Anwendungsflaggen aufeinanderfolgend durch wiederholtes Drücken der Kandidatwähltaste eingeschaltet werden.
  • Zusätzlich wird in der vorliegenden Erfindung Regelanwendungs-Registrierungsinformation y&sub1;, y&sub2;, ..., die vergangene Regelanwendungssituationen anzeigt, in die in Fig. 8 gezeigte Anwendungsregeltabelle hinzugefügt. Das heißt, wenn eine Regel von dem Benutzer gewählt wird, wird die Regelanwendungs-Registrierungsinformation (einschließlich der Anzahl der Anwendung einer Regel und des Zustandes, wenn eine Regel angewendet wird) aktualisiert, und außerdem werden die gewählten Regeln in der Tabelle in der Reihenfolge von häufigeren Informationen angeordnet, damit sie in dieser Reihenfolge anwendbar sind. Somit ist es für den Fall von mehreren Architekturkandidaten möglich, die Regeln in der Reihenfolge von Häufigkeit oder Priorität durch die Verwendung der Kandidatwähltaste abzugeben, wobei die obige Funktion als eine Lernfunktion bezeichnet wird.
  • In der obigen Beschreibung wird entsprechend der Benutzeranforderung nur eine einzelne Architekturregel mit mehreren Kandidaten gewählt. Jedoch ist es möglich, eine Konfiguration des Systems zu schaffen, um mehrere Dokumentarchitekturkandidaten für mehrere Architekturregeln zu erzeugen. In diesem Fall wird die Tabelle für angewendete Regeln mit einem Bedingungsnamen, angewendeten Flaggen und der Regelanwendungsregistrierungsinformation, klassifiziert in jede der Regeln gebildet. Wie das Verfahren von Benutzerauswählen einer anderen logischen Architektur durch die Kandidatwähltaste, ist es außerdem möglich, einen Kandidatensatz durch eine Cursor oder auf Grundlage von verschiedenen Anzeigen, wie zum Beispiel Anzeigeinvertierung, Leuchthervorhebung, Unterstreichen etc. anzuzeigen.
  • Außerdem kann die Dokumentarchitektur entsprechend anderer Formen, die sich von den in Fig. 6 gezeigten unterscheiden, klassifiziert werden.
  • Ohne auf die hierarchische Klassifizierung von Dokumenttiteln beschränkt zu sein, ist es außerdem möglich, die vorliegende Erfindung von dem formalen Standpunkt auf andere Daten mit einer hierarchischen Architektur wie zum Beispiel durch Modifizieren der Titelbestimmungsregeln und der Dokumentarchitektur-Bestimmungsregeln auf ein Organisationsdiagramm und der damit zusammenhängenden Daten anzuwenden.
  • Außerdem behandelt das obige System in dem obigen Ausführungsbeispiel ein japanisches Dokument. Ohne jedoch darauf beschränkt zu sein, ist es möglich, die vorliegende Erfindung auf das System anzuwenden, das andere fremdsprachige Dokumente behandelt, indem die Bestimmungsregeln und die Architekturbestimmungsregeln modifiziert werden, um der Sprache zu entsprechen.
  • Entsprechend der vorliegenden Erfindung wie oben beschrieben werden die eingegebenen Dokumentdaten in Einheiten von Sätzen segmentiert und es wird bestimmt, ob jeder Satz eine Titel darstellt. Zugleich wird die Dokumentregel jedes Satzes bestimmt. Somit können die Eingabedokumentendaten entsprechend der logischen Dokumentarchitekturen effektiv verarbeitet werden.
  • Die oben beschriebene Dokumentverarbeitung wird effektiv durchgeführt. Mit anderen Worten werden entsprechend der eingegebenen Dokumentdaten effektiv der Titel, das Niveau (hierarchisches Niveau) des Titels in dem Dokument, und die Dokumentarchitektur, beispielsweise die Paragraphen, denen der Titel vorangeht, effektiv erhalten. Es ist somit möglich, das Dokument in Einheiten von Kapiteln oder Abschnitten entsprechend der logischen Architekturen zu verarbeiten, wodurch das Dokumentverarbeiten wesentlich verbessert und vereinfacht wird.
  • Nachdem das System einige Architekturkandidaten anzeigen kann und der Benutzer einen von diesen wählen kann, ist es zusätzlich für den Benutzer nicht notwendig, die Dokumentarchitektur durch Verwendung von Editierungsfunktionen durch Aufbereitungsoperationen zu ändern.
  • Nachdem die Information über die Häufigkeit zu jedem der gewählten Architekturkandidaten hinzugefügt ist, um eine Lernfunktion zu schaffen, ist es außerdem möglich, die Möglichkeit eines Bestimmens irgendeiner gewünschten Dokumentarchitektur zu verbessern.
  • Wenn außerdem die Regelanwendungs-Registrierungsinformation der anzuwendenden Regel vorher auf einen höheren Prioritätswert gesetzt ist, ist es möglich, zunächst den am meisten gewünschten Architekturkandidaten zu bestimmen, insbesondere in dem Fall, bei dem das Dokument eine spezifische Dokumentarchitektur wie in einem Aufsatz besitzt.
  • Deswegen kann das System entsprechend der vorliegenden Erfindung effizient eine Dokumentarchitektur bilden und somit die Dokumentbildungseffizienz verbessern.

Claims (3)

1. Dokumentverarbeitungsapparat, umfassend:
eine Prozessoreinrichtung (1) zum Steuern von Dokumentverarbeitungsoperationen;
eine Eingabeeinrichtung (2), die mit der Prozessoreinrichtung (1) verbunden ist, zum Eingeben von Dokumentdaten;
eine Titellexikon-Speichereinrichtung (7) zum Speichern von häufig als Titel verwendeten Wörtern und Ausdrücken in einer Spaltenrichtung;
eine Titelkandidat-Extraktionseinrichtung (6), die mit der Prozessoreinrichtung (1) und der Titellexikon-Speichereinrichtung (7) verbunden ist, um aus der Dokumentdateneingabe in der Eingabeeinrichtung einen einer Vielzahl von Wörtern und Ausdrücken als einen Titelkandidat zu extrahieren, der einem der in der Titellexikon-Speichereinrichtung (7) gespeicherten Titeln entspricht;
eine Titelregel-Lexikoneinrichtung (8a) zum Speichern von bei Bestimmen der Titel verwendeten Regeln;
eine Titelbestimmungseinrichtung (8), die mit der Prozessoreinrichtung (1) und der Titelregel-Lexikoneinrichtung (8a) verbunden ist, zum Überprüfen, ob der von der Titelkandidat-Extraktionseinrichtung (6) extrahierte Titelkandidat ein Titel oder kein Titel ist, entsprechend den in der Titelregel-Lexikoneinrichtung (7) gespeicherten Titelregeln;
eine Dokumentarchitektur-Regellexikoneinrichtung (9a) zum Speichern von mit logischen Dokumentarchitekturen assoziierten Regeln;
eine Dokumentarchitektur-Bestimmungseinrichtung (9), die mit der Prozessoreinrichtung (1) und der Dokumentarchitektur-Regellexikoneinrichtung (9a) verbunden ist, zum Bestimmen von logischen Dokumentarchitekturkandidaten des Titels durch Überprüfen, ob der durch die Titelbestimmungseinrichtung (9) bestimmte Titel und der Nicht-Titel ein Kapiteltitel, ein Abschnittstitel oder ein Paragraph ist, entsprechend den in der Dokumentarchitektur-Regellexikoneinrichtung (9a) gespeicherten Dokumentarchitekturregeln; und
eine Dokumentarchitekturwähl- und Anzeigeeinrichtung, um einem Benutzer zu erlauben, wenigstens eine gewünschte Dokumentarchitektur zu wählen, wenn die Dokumentarchitektur- Bestimmungseinrichtung (9) eine Vielzahl von Dokumentarchitekturkandidaten entsprechend von Dokumentarchitekturregeln bestimmt,
wobei die Dokumentarchitekturwähl- und Anzeigeeinrichtung umfaßt:
(a) eine Regelanwendungs-Bestimmungseinrichtung (12), auf die die Dokumentarchitekturregel- Lexikoneinrichtung (9a) zugreifen kann, wenn mehrere logische Dokumentarchitekturkandidaten von der Dokumentarchitektureinrichtung (9) bestimmt werden, um einen Regelnamen- Anforderungskandidatabschnitt zu überprüfen, um Flaggen entsprechend dem Regelnamen von einer Tabelle für Anwendungsregeln zurückzugewinnen; und
(b) eine Kandidatwähl- und Anzeigeeinrichtung (14) ansprechend auf eine Kandidatwähltaste, die in der Dokumenteingabeeinrichtung (2) vorgesehen ist, um dem Benutzer zu erlauben, die Flaggen durch Wählen wenigstens einer gewünschten Dokumentarchitektur durch die Kandidatwähltaste zu aktualisieren, wobei die Dokumentarchitektur-Regellexikoneinrichtung (9a) Regelanwendungs-Aufzeichnungsinformation speichert, die vergangene Regelanwendungssituationen anzeigt, und die Dokumentarchitektur-Bestimmungseinrichtung (9) eine Dokumentarchitekturregel bestimmt, die bezüglich der gespeicherten Regelanwendungs- Registrierungsinformation angewendet werden soll, um eine Dokumentarchitekturwahl in Abhängigkeit einer Lernfunktion zu erleichtern.
2. Dokumentverarbeitungsapparat nach Anspruch 1, dadurch gekennzeichnet, daß die Dokumentarchitektur-Bestimmungseinrichtung (9) die Regelanwendungs-Registrierungsinformation aktualisiert.
3. Dokumentverarbeitungsapparat nach Anspruch 1, dadurch gekennzeichnet, daß die Regelanwendungs-Registrierungsinformation die Anzahl enthält, wie oft eine Regel angewendet wird und feststellt, wenn eine Regel angewendet wird.
DE8787101133T 1986-04-18 1987-01-28 Dokumentverarbeitungsapparat. Expired - Fee Related DE3782447T2 (de)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP61088065A JPH0776969B2 (ja) 1986-04-18 1986-04-18 文書処理装置

Publications (2)

Publication Number Publication Date
DE3782447D1 DE3782447D1 (de) 1992-12-10
DE3782447T2 true DE3782447T2 (de) 1993-04-15

Family

ID=13932449

Family Applications (1)

Application Number Title Priority Date Filing Date
DE8787101133T Expired - Fee Related DE3782447T2 (de) 1986-04-18 1987-01-28 Dokumentverarbeitungsapparat.

Country Status (4)

Country Link
US (1) US4876665A (de)
EP (1) EP0241646B1 (de)
JP (1) JPH0776969B2 (de)
DE (1) DE3782447T2 (de)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2516387Y2 (ja) * 1987-08-19 1996-11-06 三洋電機株式会社 情報ファイル装置
JPH0776958B2 (ja) * 1988-01-11 1995-08-16 株式会社東芝 文書整形装置
JPH01205260A (ja) * 1988-02-12 1989-08-17 Toshiba Corp 文書整形装置
US5130924A (en) * 1988-06-30 1992-07-14 International Business Machines Corporation System for defining relationships among document elements including logical relationships of elements in a multi-dimensional tabular specification
US5101345A (en) * 1988-11-29 1992-03-31 International Business Machines Inc. Method of filing stapled documents with a staple relationship involving one or more application programs
US5179718A (en) * 1988-11-29 1993-01-12 International Business Machines Corporation Method of filing having a directed relationship through defining a staple relationship within the context of a folder document
JPH03177964A (ja) * 1989-12-07 1991-08-01 Toshiba Corp 文書整形装置
JP2862626B2 (ja) * 1990-03-22 1999-03-03 株式会社東芝 電子辞書及び情報検索方法
CA2048039A1 (en) * 1991-07-19 1993-01-20 Steven Derose Data processing system and method for generating a representation for and random access rendering of electronic documents
JPH05101052A (ja) * 1991-10-04 1993-04-23 Fuji Xerox Co Ltd 文書作成支援装置
JPH05108641A (ja) * 1991-10-17 1993-04-30 Fuji Xerox Co Ltd 文書スタイル設計支援装置
GB2264186A (en) * 1992-02-04 1993-08-18 Inishashe Limited Database correction and conversion.
AU4532093A (en) * 1992-06-11 1994-01-04 Emil Moffa An automated method for checking patent applications
JP2618832B2 (ja) * 1994-06-16 1997-06-11 日本アイ・ビー・エム株式会社 文書の論理構造の解析方法及びシステム
US5640581A (en) * 1994-08-12 1997-06-17 Masashi Saraki CD-ROM information editing apparatus
US5671427A (en) * 1994-10-12 1997-09-23 Kabushiki Kaisha Toshiba Document editing apparatus using a table to link document portions
JPH08137842A (ja) * 1994-11-08 1996-05-31 Canon Inc 言語情報処理システム及びその方法
US6546406B1 (en) 1995-11-03 2003-04-08 Enigma Information Systems Ltd. Client-server computer system for large document retrieval on networked computer system
US6167409A (en) * 1996-03-01 2000-12-26 Enigma Information Systems Ltd. Computer system and method for customizing context information sent with document fragments across a computer network
US5893109A (en) * 1996-03-15 1999-04-06 Inso Providence Corporation Generation of chunks of a long document for an electronic book system
US6006242A (en) * 1996-04-05 1999-12-21 Bankers Systems, Inc. Apparatus and method for dynamically creating a document
JP2004145375A (ja) * 2000-09-12 2004-05-20 Media Vision:Kk 構造化文書の作成、閲覧装置
JP4843867B2 (ja) * 2001-05-10 2011-12-21 ソニー株式会社 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
US20050278340A1 (en) * 2004-05-28 2005-12-15 Rehberg Charles P Problem solving assistant
GB2419715A (en) * 2004-10-29 2006-05-03 Hewlett Packard Development Co Processing data variants
JP4640591B2 (ja) * 2005-06-09 2011-03-02 富士ゼロックス株式会社 文書検索装置
US20080126075A1 (en) * 2006-11-27 2008-05-29 Sony Ericsson Mobile Communications Ab Input prediction
WO2009087996A1 (ja) * 2008-01-07 2009-07-16 Nec Corporation 情報抽出装置及び情報抽出システム
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
WO2013110286A1 (en) * 2012-01-23 2013-08-01 Microsoft Corporation Paragraph property detection and style reconstruction engine
WO2014005609A1 (en) 2012-07-06 2014-01-09 Microsoft Corporation Paragraph alignment detection and region-based section reconstruction

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4193119A (en) * 1977-03-25 1980-03-11 Xerox Corporation Apparatus for assisting in the transposition of foreign language text
GB2043311B (en) * 1979-03-02 1982-06-23 Ibm Text processing
US4358824A (en) * 1979-12-28 1982-11-09 International Business Machines Corporation Office correspondence storage and retrieval system
JPS57201958A (en) * 1981-06-05 1982-12-10 Hitachi Ltd Device and method for interpretation between natural languages
US4429372A (en) * 1981-06-16 1984-01-31 International Business Machines Corporation Method for integrating structured data and string data on a text processing system
JPS5836089A (ja) * 1981-08-27 1983-03-02 Sony Corp 画像表示装置
BE891911A (fr) * 1982-01-27 1982-05-17 Europ Agence Spatiale Dispositif numerique pour commander la representation graphique de caracteres
US4503515A (en) * 1982-05-17 1985-03-05 International Business Machines Corporation Footnote assembly management
JPS5995645A (ja) * 1982-11-24 1984-06-01 Toshiba Corp 情報整理装置
US4539653A (en) * 1983-04-11 1985-09-03 International Business Machines Corporation Formatting text/graphics using plural independent formatting mechanisms
US4580218A (en) * 1983-09-08 1986-04-01 At&T Bell Laboratories Indexing subject-locating method
US4633430A (en) * 1983-10-03 1986-12-30 Wang Laboratories, Inc. Control structure for a document processing system
KR930009761B1 (ko) * 1984-05-31 1993-10-09 쏘니 가부시기가이샤 워드프로세서
US4610025A (en) * 1984-06-22 1986-09-02 Champollion Incorporated Cryptographic analysis system
US4723209A (en) * 1984-08-30 1988-02-02 International Business Machines Corp. Flow attribute for text objects
US4713754A (en) * 1984-10-09 1987-12-15 Wang Laboratories, Inc. Data structure for a document processing system
US4663615A (en) * 1984-12-26 1987-05-05 International Business Machines Corporation Document creation
US4710885A (en) * 1985-07-02 1987-12-01 International Business Machines Corp. Generating figures in a document formatter directly from a declarative tag

Also Published As

Publication number Publication date
US4876665A (en) 1989-10-24
DE3782447D1 (de) 1992-12-10
EP0241646B1 (de) 1992-11-04
JPH0776969B2 (ja) 1995-08-16
JPS62245367A (ja) 1987-10-26
EP0241646A2 (de) 1987-10-21
EP0241646A3 (en) 1989-02-01

Similar Documents

Publication Publication Date Title
DE3782447T2 (de) Dokumentverarbeitungsapparat.
DE68926845T2 (de) Maschinenübersetzungssystem
DE69028592T2 (de) Gerät zur automatischen Generierung eines Index
DE69400869T2 (de) System zum transkribieren von texteingaben
DE69322741T2 (de) Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen Corpora
DE68929038T2 (de) Verfahren zur Verarbeitung von digitalen Textdaten
DE3853894T2 (de) Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen.
DE69400207T2 (de) Sprachabhängiges textvergleichssystem
DE69726339T2 (de) Verfahren und Apparat zur Sprachübersetzung
DE3650417T2 (de) Informationsaufzeichnungs- und Wiederauffindungssystem.
DE69427848T2 (de) Unterstützungssystem zur Herstellung von Wörterbüchern
DE69838763T2 (de) Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten
DE69033042T2 (de) Datenverarbeitung
DE69730930T2 (de) Verfahren und Gerät zur Zeichenerkennung
DE69426714T2 (de) Dokumentverarbeitungsverfahren und Gerät
DE69428868T2 (de) Verfahren und System zum Aufzeigen von Alternativen zur Auswahl durch Gebrauch von adaptiven Lernen
DE3587993T2 (de) Verfahren und Gerät zur Natursprachenverarbeitung.
DE69317863T2 (de) Übersetzungssystem Gebärdensprache/Wort
DE69625759T2 (de) Vorrichtung und Verfahren zum Abspeichern und zum Wiederauffinden von Daten
DE3852341T2 (de) Zeichenverarbeitungssystem mit Funktion zur Prüfung von Rechtschreibung.
DE69033471T2 (de) Natürliche Sprache verarbeitendes Gerät
DE69026885T2 (de) Dynamische Selektion von Datenformaten für rekursiv geschachtelte logische Elemente
DE3789073T2 (de) System zur maschinellen Übersetzung.
DE60319586T2 (de) Elektronisches wörterbuch mit beispielsätzen
DE69226106T2 (de) Datenbankherstellungsverfahren und Gerät

Legal Events

Date Code Title Description
8364 No opposition during term of opposition
8339 Ceased/non-payment of the annual fee