DE3782447T2 - Dokumentverarbeitungsapparat. - Google Patents
Dokumentverarbeitungsapparat.Info
- Publication number
- DE3782447T2 DE3782447T2 DE8787101133T DE3782447T DE3782447T2 DE 3782447 T2 DE3782447 T2 DE 3782447T2 DE 8787101133 T DE8787101133 T DE 8787101133T DE 3782447 T DE3782447 T DE 3782447T DE 3782447 T2 DE3782447 T2 DE 3782447T2
- Authority
- DE
- Germany
- Prior art keywords
- title
- document
- rule
- architecture
- document architecture
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000012545 processing Methods 0.000 title claims description 22
- 230000006870 function Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 238000000605 extraction Methods 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 3
- 238000000034 method Methods 0.000 description 7
- 230000011218 segmentation Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 3
- GNFTZDOKVXKIBK-UHFFFAOYSA-N 3-(2-methoxyethoxy)benzohydrazide Chemical compound COCCOC1=CC=CC(C(=O)NN)=C1 GNFTZDOKVXKIBK-UHFFFAOYSA-N 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- FGUUSXIOTUKUDN-IBGZPJMESA-N C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 Chemical compound C1(=CC=CC=C1)N1C2=C(NC([C@H](C1)NC=1OC(=NN=1)C1=CC=CC=C1)=O)C=CC=C2 FGUUSXIOTUKUDN-IBGZPJMESA-N 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000011017 operating method Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/103—Formatting, i.e. changing of presentation of documents
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/258—Heading extraction; Automatic titling; Numbering
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Description
- Die vorliegende Erfindung betrifft ganz allgemein einen Dokumentverarbeitungsapparat, und insbesondere einen Dokumentverarbeitungsapparat, der eine logische Dokumentarchitektur bezüglich der Kapitel, einzelnen Aussagen, Paragraphen etc. eines Dokumentes bilden kann.
- Im allgemeinen ist ein Dokument in eine Vielzahl von Blöcken unterteilt, und Titel werden den jeweiligen Blöcken zugeordnet, um ein Lesen des Dokumentes zu erleichtern. Außerdem ist jeder Block in untergeordnete Blöcke unterteilt und Untertitel werden den jeweiligen untergeordneten Blöcken zugeordnet. Die Titel und Untertitel sind aus kurzen Sätzen zusammengebaut und oft werden zusätzlich Titelsymbole an diese Einleitungsabschnitte, beispielsweise "Kapitel 1" bzw. "Abschnitt 3" angefügt. Wenn Dokumente mit der oben beschriebenen hierarchischen Struktur von einem Computer verarbeitet werden, tritt das folgende Problem auf:
- Nachdem Dokumentdaten in Einheiten von Feldern auf der Anzeige oder von Seiten von Druckblättern verarbeitet werden, sollten in den herkömmlichen Dokumentverarbeitungssystemen sowohl die Start- als auch Endpositionen der an eine andere Stelle zu bewegenden Dokumentdaten von dem Anzeiger (im folgenden als Cursor bezeichnet) markiert werden, wenn ein bestimmtes Kapitel durch ein anderes ersetzt werden muß. Wenn die Dokumentdaten irgendeines bestimmten Kapitels lang sind, ist es erforderlich, den Anzeigeschirm von der Startposition zu der zu markierenden Endposition laufen zu lassen. Das obige Schirmablaufen (im folgenden als Scrolling bezeichnet) ist mühsam und weist eine Tendenz auf, betriebsmäßige Fehler zur Folge zu haben.
- Wenn ein Benutzer ein Dokument entwirft, wünscht er oft die vorangegangenen Sätze zu sehen, um zum Beispiel die Inhalte der vorangegangenen Sätze und die Arten der vorangegangenen Titelsymbole zu überprüfen. In diesem Fall muß er die Seite und die Position der Zeile, die den erforderlichen Satz und das zu überprüfende Titelsymbol enthält, erraten und muß danach den gewünschten Satz und Titelsymbol suchen. Die obigen Suchoperation ist mühsam und somit wird die Dokumententwurfseffizienz wesentlich herabgesetzt.
- Um das oben erwähnte Problem zu lösen, ist ein Verarbeitungsapparat in Erwägung gezogen worden, der eine
- Dokument-Dateneingabeeinrichtung, eine
- Titellexikoneinrichtung, eine
- Titelregellexikoneinrichtung, eine
- Titelbestimmungseinrichtung, eine
- Dokumentarchitektur-Regellexikoneinrichtung und eine
- Dokumentarchitektur-Bestimmungseinrichtung umfaßt.
- Der obige Dokumentverarbeitungsapparat kann eine logische Dokumenthierarchiearchitekturliste durch Behandlung von Dokumenten in Einheiten von Einzelaufstellungen erstellen, so daß der Benutzer jeden vorgegebenen Titel, einzelne Aufstellungen und Paragraphen zur einfachen Dokumentaufbereitung bzw. Editieren leicht kennzeichnen kann.
- Nachdem jedoch eine Dokumentarchitektur nur entsprechend dem Dokumentarchitekturlexikon bestimmt wird, besteht in dem obigen Dokumentverarbeitungsapparat ein Problem derart, daß ein Titel fehlerhaft bestimmt wird. Zum Beispiel kan ein Titel "2.2 Klassenübung" als eine Hinzufügung von "2.2" (Titelsymbol) und "Klassenübung" (Titelwort) oder von "2" (Titelsymbol) und "2 Klassenübung" (Titelwort) bestimmt werden. Wenn einzelne Aufstellungen bzw. einzelne Aussagen von "1 ... ", "2 ... ", "3 ... " und "4 ..." unter einem Kapiteltitel "4 ... " existieren und außerdem "5 ... " folgt, kann außerdem die "5 ... " als ein Kapiteltitel oder ein einzelner Titel bestimmt werden.
- Wenn sich die von dem Computer eindeutig bestimmte Dokumentarchitektur von der von dem Benutzer beabsichtigten unterscheidet, sollte der Benutzer somit die Dokumentarchitektur in eine Beabsichtigte modifizieren, welches eine schlechte Betriebsamkeit zur Folge hat.
- In Anbetracht dieser Probleme ist es somit die Hauptaufgabe der vorliegenden Erfindung, den Dokumentverarbeitungsapparat mit einer zusätzlichen Funktion so auszustatten, daß eine Vielzahl von Dokumentarchitekturkandidaten bestimmt werden kann und der Benutzer irgendeinen gewünschten Kandidaten zur Schaffung einer besseren Funktionsfähigkeit leicht wählen kann.
- Um die obige Aufgabe zu lösen, umfaßt der Dokumentverarbeitungsapparat entsprechend der vorliegenden Erfindung:
- eine Prozessoreinrichtung zum Steuern von Dokumentverarbeitungsoperationen;
- eine mit der prozessoreinrichtung verbundene Eingabeeinrichtung zum Eingeben von Dokumentdaten;
- eine Titellexikon-Speichereinrichtung zum Speichern von häufig als Titel verwendeten Wörtern und Ausdrücken angeordnet in einer Spaltenrichtung;
- eine Titelkandidaten-Extraktionseinrichtung, die mit der Prozessoreinrichtung und der Titellexikon-Speichereinrichtung verbunden ist, um aus der Dokumentdateneingabe in der Eingabeeinrichtung einen einer Vielzahl von Wörtern und Ausdrücken als Titelkandidaten zu extrahieren, der einer der in der Titellexikon-Speichereinrichtung gespeicherten Titel entspricht;
- eine Titelregel-Lexikoneinrichtung zum Speichern von zum Bestimmen der Titel verwendeten Regeln;
- eine Titelbestimmungseinrichtung, die mit der Prozessoreinrichtung und der Titelregel-Lexikoneinrichtung verbunden ist, zum Überprüfen, ob entsprechend den Titelregeln, die in der Titelregel-Lexikoneinrichtung gespeichert sind der von der Titelkandidat-Extraktionseinrichtung extrahierte Titelkandidat ein Titel oder kein Titel ist;
- eine Dokumentarchitekturregel-Lexikoneinrichtung zum Speichern von mit logischen Dokumentarchitekturen assoziierten Regeln;
- eine Dokumentarchitektur-Bestimmungseinrichtung, die mit der Prozessoreinrichtung und der Dokumentarchitekturregel-Lexikoneinrichtung verbunden ist, zum Bestimmen von logischen Dokumentarchitekturkandidaten des Titels entsprechend den in der Dokumentarchitekturregel-Lexikoneinrichtung gespeicherten Dokumentarchitekturregeln durch Überprüfen, ob der von der Titelbestimmungseinrichtung bestimmte Titel oder der Nicht-Titel ein Kapiteltitel, ein Abschnittstitel oder ein Paragraph ist, ; und
- eine Dokumentarchitekturwähl- und Anzeigeeinrichtung, um einem Benutzer zu erlauben, wenigstens eine gewünschte Dokumentarchitektur zu wählen, wenn die Dokumentarchitektur-Bestimmungseinrichtung eine Vielzahl von Dokumentarchitekturkandidaten entsprechend von Dokumentarchitekturregeln bestimmt,
- wobei die Dokumentarchitekturwähl- und Anzeigeeinrichtung umfaßt:
- (a) eine Regelanwendungs-Bestimmungseinrichtung, auf die die Dokumentarchitekturregel-Lexikoneinrichtung zugreifen kann, wenn mehrere logische Dokumentarchitekturkandidaten von der Dokumentarchitektur-Bestimmungseinrichtung bestimmt werden, zum Überprüfen eines Regelnamens-Anforderungskandidatenabschnitt, um von einer Tabelle für Anwendungsregeln Flaggen entsprechend dem Regelnamen zurückzugewinnen; und
- (b) eine Kandidatenwähl- und Anzeigeeinrichtung, die auf eine Kandidatwähltaste anspricht, der in der Dokumenteingabeeinrichtung vorgesehen ist, um dem Benutzer zu erlauben, durch Wählen wenigstens einer gewünschten Dokumentarchitektur durch die Kandidatwähltaste Flaggen zu aktualisieren, wobei die Dokumentarchitekturregel-Lexikoneinrichtung Regelanwendungs-Registrierungsinformation speichert, die vergangene Regelanwendungssituationen anzeigt und die Dokumentarchitektur-Bestimmungseinrichtung bezüglich der gespeicherten Regelanwendungs-Registrierungsinformation eine anzuwendende Dokumentarchitekturregel bestimmt, um eine Dokumentarchitekturwahl in Abhängigkeit von einer Lernfunktion zu erleichtern.
- In den Zeichnungen zeigt:
- Fig. 1 ein Blockschaltbild des Dokumentverarbeitungsapparates entsprechend der vorliegenden Erfindung;
- Fig. 2 ein Beispiel von Dokumenten;
- Fig. 3 ein Beispiel eines Titelwortlexikons;
- Fig. 4A bis 4D ein Beispiel eines Titelregellexikons;
- Fig. 5 ein Flußdiagramm, das die Betriebsprozedur des in Fig. 1 gezeigten Apparates zeigt;
- Fig. 6A bis 6F ein Beispiel einer Abfolge von logischen Dokumentarchitekturlisten, die in dem logischen Architekturspeicher gespeichert sind;
- Fig. 7A bis 7C einige Beispiele von einer Anwendung von in den Fig. 4A bis 4P gezeigten Titelregeln auf das in Fig. 2 dargestellte Dokument;
- Fig. 8 ein Beispiel von gespeicherten Regeltabellen einschließlich von Flaggen, die Regelnamen entsprechen; und
- Fig. 9 ein Flußdiagramm, das eine Prozedur des Betriebs des Bestimmungsabschnitts für Regelanwendung zeigt.
- Unter Bezugnahme auf die beiliegenden Zeichnungen wird im folgenden der Dokumentverarbeitungsapparat entsprechend der vorliegenden Erfindung ausführlich beschrieben.
- Unter Bezugnahme auf Fig. 1 ist ein Dokumentprozessor 1 an eine Eingabeeinrichtung 2 mit einer Tastatur angeschlossen, um eine zentralisierte Behandlung und Verarbeitung von Eingabedokumenten zu erreichen. Der Dokumentprozessor 1 ist außerdem verbunden mit einem Originaldokumentenspeicher 3 zum Speichern von Eingabeoriginaldokumenten und mit einer Anzeige-Steuereinrichtung 4, um eine Anzeige 5 zu veranlassen, das Eingabeoriginaldokumenten-Auslesen von dem Speicher 3 anzuzeigen. Der Dokumentprozessor 1 ist außerdem mit einer Titelextraktionseinrichtung 6, einem Titelbestimmungsabschnitt 8, einem Dokumentarchitektur-Bestimmungsabschnitt 9 und einem logischen Architekturspeicher 10 verbunden. Die Titelextraktionseinrichtung 6 ist mit einem Titelwortlexikon 7 zum Speichern von vielerlei Arten von Titel darstellenden Wörtern verbunden. Der Titelbestimmungsabschnitt 8 enthält ein Titelregellexikon 8a. Der Dokumentarchitektur-Bestimmungsabschnitt 9 enthält ein Dokumentarchitekturregel-Lexikon 9a.
- Der Dokumentprozessor 1 erfaßt aufeinanderfolgend Datensegmentierungscodes, die in dem Originaldokumentspeicher 3 gespeichert sind, wie zum Beispiel einem Zeilenrücksprungcodes und extrahiert von dem Segmentierungscodes segmentierte Sätze. In diesem Fall mißt der Dokumentprozessor 1 jede Satzlänge. Die extrahierten Sätze werden aufeinanderfolgend an die Titel-Extraktionseinrichtung 6 gesendet. Die Titel-Extraktionseinrichtung 6 bestimmt das Titelwort durch Vergleich des eingegebenen Satzes mit in dem Titelwort-Lexikon 7 gespeicherten Titelwörtern und die Satzlänge.
- Das Titelwort-Lexikon 7 speichert häufig verwendete Wörter, Ausdrücke und Symbole, die alle als Titelwörter definiert sind. Die Wörter, Ausdrücke und Symbole werden in Kategorien klassifiziert, wie in Fig. 3 gezeigt, und werden vorher in dem Lexikon 7 registriert. Wörter, wie zum Beispiel "Einleitung" und "Zusammenfassung", werden in einer Kategorie von "reserviertes Titelwort" registriert. Zusätzlich werden auch häufig verwendete Ziffern und Symbole als Titelwörter registriert, die in die jeweiligen Kategorien klassifiziert werden.
- Die Titel-Extraktionseinrichtung 6 bestimmt, ob die Anzahl von Zeichen eines extrahierten Satzes kleiner als eine vorgegebene Anzahl ist. Das heißt, die Extraktionseinrichtung 6 bestimmt, ob ein extrahiertes Titelwort (ein Wort und/oder Ausdruck, und/oder Ziffer, und/oder Symbol, die als eine Codekette dargestellt sind) einem Wort der in dem Lexikon 7 registrierten Wörtern entspricht. Wenn eine Entsprechung erfaßt wird, wird das extrahierte Wort als das entsprechende Titelwort erkannt.
- Die von der Extraktionseinrichtung 6 als das Titelwort bestimmten extrahierten Wörter werden eines nach dem anderen dem Titelbestimmungsabschnitt 8 unter der Steuerung des Prozessors 1 eingegeben. Der Titelbestimmungsabschnitt 8 bestimmt entsprechend den in dem Lexikon 8a gespeicherten Titelregeln (Fig. 4A bis 4D), ob das erkannte Titelwort ein Titelwort oder ein anderes Wort ist.
- Das von dem Titelbestimmungsabschnitt 8 als das Titelwort oder als irgendein anderes Wort bestimmte Wort wird unter der Steuerung des Prozessors 1 dem Dokumentarchitekturbestimmungsabschnitt 9 eingegeben. Der Architekturbestimmungsabschnitt 9 bestimmt, ob der von dem Titelbestimmungsabschnitt 8 gesendete Satz oder Wort ein Kapiteltitel, ein Abschnittstitel oder ein Paragraph ist, entsprechend den in dem Dokumentarchitekturregellexikon 9a gespeicherten Dokumentarchitekturregeln (wie unten dargestellt): Tabelle 1 Regeln für Titel Bedingung 1: Ein reserviertes Wort ist nicht enthalten. Bedingung 1-1: Ein Titelwort ist enthalten. Bedingung 1-1-1: Ein reserviertes Titelwort ist enthalten. Bedingung 1-1-1-1: Ein Kapiteltitel ist in dem vorangegangenen Teil nicht enthalten. (Ergebnis) Zeigt einen Kapiteltitel an. Ein Symbolabschnitt, ein alphanumerischer Abschnitt, ein Interpunktionsabschnitt oder ein Schwanzsymbol ist als ein Haupttitelmuster definiert. Bedingung 1-1-2: Ein reserviertes Titelwort ist nicht enthalten. Bedingung 1-1-2-2: Ein Kapiteltitel liegt in dem vorangegangenen Teil vor. Bedingung 1-1-2-2-1: Übereinstimmen mit einem Kapiteltitelmuster ist erfolgreich. (Ergebnis) Zeigt einen Kapiteltitel an. Der Rang des Kapiteltitelmusters wird um Eins inkrementiert. Bedingung 1-1-2-2-2: Dieses Titelmuster stimmt nicht mit dem vorangegangenen Kapitelttitel überein. Bedingung 1-1-2-2-2-1: Ein Einzelmuster liegt in dem vorangegangenen Teil nicht vor. (Ergebnis) Zeigt einen Einzelmusterkandidaten an. Bedingung 1-1-2-2-2-2: Ein Einzelmuster liegt in dem vorangegangenen Teil vor. Bedingung 1-1-2-2-2-2-1: Das Titelmuster stimmt mit dem Einzelmusterkandidaten überein. (Ergebnis) Zeigt ein Einzelmuster an. Der Rang des Einzelmusters wird um Eins inkrementiert. Tabelle 2 Regeln zum Übereinstimmen mit Titelmustern Bedingung 1-1: Ein alphanumerischer Abschnitt ist enthalten. Bedingung 2-1: Alphanumerische Abschnitte sind von derselben Art. Bedingung 3-1: Der Rang des alphanumerischen Abschnittes ist um Eins höher als derjenige eines Titelmusters. Bedingung 4-1: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol, und das Vorliegen/Fehlen von Klammern in dem Titelwort sind dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 4-2: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind dieselben innerhalb des Bereichs der Fehlermusterregeln. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 4-3: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein Fehlübereinstimmen an. Bedingung 3-2: Der Rang des alphanumerischen Abschnittes ist gleich oder um zwei von dem Rang des Titelmusters inkrementiert. Bedindung 4-1: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, in Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind dieselben innerhalb des Bereichs der Fehlermusterregeln. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 4-2: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol, und das Vorliegen/Fehlen von Klarnern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein Fehlübereinstimmen an. Bedingung 1-2: Ein alphanumerisches Muster ist nicht enthalten. Bedingung 2-1: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. (Ergebnis) Zeigt ein erfolgreiches Übereinstimmen an. Bedingung 2-2: Ein Symbolabschnitt, Faktoren ausschließlich des Rangs eines alphanumerischen Abschnittes, ein Interpunktionsabschnitt, ein Schwanzsymbol und das Vorliegen/Fehlen von Klammern in dem Titelwort sind nicht dieselben wie diejenigen des Titelmusters. Tabelle 3 Paragraph-assoziiertes Format Bedingung 1-1: Ein Titel ist nicht enthalten. (Ergebnis) Zeigt einen Paragraph an. Tabelle 4 Zusammenbau-assoziiertes Format Bedingung 1-1: Ein Paragraph. Greife auf Regel- Anwendungsbestimmungsabschnitt zu. Bedingung 2-1: Angewendete Flaggeninformation ist X1. (Ergebnis d&sub1;) Setze das Niveau des gegenwärtigen Titels auf dasselbe wie dasjenige des vorangegangenen Titels. Bedingung 2-2: Angewendete Flaggeninformation ist X2. (Ergebnis d&sub2;) Setze das Niveau des gegenwärtigen Titels auf dasselbe wie dasjenige des vorangegangenen Kapiteltitels.
- Die logische Architektur eines Satzes oder Wortes wie es von dem Dokumentarchitektur-Bestimmungsabschnitt 9 entsprechend der obigen Regeln bestimmt ist, wird in dem logischen Architekturspeicher 10 gespeichert.
- Die Anzeige-Steuereinrichtung 4 steuert die Anzeige 5 zum Anzeigen der Dokumentdaten entsprechend der in dem logischen Architekturspeicher 10 gespeicherten logischen Dokumentarchitektur.
- Im folgenden wird nun der Betrieb des Dokumentverarbeitungsapparates unter Bezugnahme auf das in Fig. 5 gezeigte Flußdiagramm beschrieben. Wenn der Eingabeeinrichtung 2 Dokumentdaten eingegeben werden (Schritt a), werden die eingegebenen Dokumentdaten aufeinanderfolgend in dem Originaldokumentenspeicher 3 gespeichert. Gleichzeitig werden die eingegebenen Dokumentdaten von dem Dokumentprozessor 1 wie in Fig. 2 gezeigt in eine Vielzahl von Blöcken segmentiert. In dieser Segmentierungsverarbeitung werden Zeilenrücksprungcodes etc. als Segmentierungscodes bestimmt. Die eingegebenen Dokumentdaten werden in Einheiten von Blöcken bei den Segmentierungscode segmentiert. Dabei wird die Segmentierungs-Satzlänge durch Zählen von Zeichen gemessen. Wenn der gemessene Wert innerhalb eines vorgegebenen Wertes (zum Beispiel 40 Zeichen) fällt, wird bestimmt, daß eine Möglichkeit besteht, daß der Satz ein Titelsatz ist.
- Falls entsprechend der gemessenen Anzahl von Zeichen bestimmt wird, daß eine Möglichkeit vorliegt, daß der segmentierte Satz ein Titelsatz ist, bestimmt die Titelextraktionseinrichtung 6, ob eine Zeichenkette (Wörter, Ausdrücke, oder Symbole), aus der der segmentierte Satz besteht, in dem Titelwort-Lexikon 7 registriert ist (Schritt b). Wenn ein Satz "1. Einführung" in den eingegebenen Dokumentdaten extrahiert wird, wird zum Beispiel überprüft, ob es in dem Titel-Lexikon 7 registriert ist. In diesem Fall werden aus dem Titel-Lexikon 7 "1", "." und "Einleitung" zurückgewonnen und es wird bestimmt, daß der Satz ein Titelkandidat A ist (Schritt c).
- Wenn eine Titelkandidat-Bestimmung durchgeführt wird, greift der Titelbestimmungsabschnitt 8 auf das Titelregel-Lexikon 8a zu, um zu bestimmen, ob der Kandidat A ein Titelwort (Schritt d) ist. Falls der Kandidat A durch irgendeine der in Fig. 4A bis 4D gezeigten Regeln definiert ist, wird bestimmt, daß der Kandidat A Titelwort B ist (Schritt e). In diesem Fall wird die Art von Titelwort entsprechend der angewendeten Titelregel bestimmt.
- Falls der von dem Dokumentprozessor 1 segmentierte Satz nicht irgendeinem in dem Lexikon 7 registriertem Titelwort entspricht, oder falls der segmentierte Satz nicht mit irgendeiner Titelregel übereinstimmt, obwohl bestimmt wird, daß es ein Titelwortkandidat ist, wird bestimmt, daß der segmentierte Satz ein Satz ist, der nicht in den Titelwortregeln enthalten ist (Schritt f).
- Der als Titelwort bestimmte Satz und der als kein Titelwort bestimmte Satz werden dem Dokumentarchitektur-Bestimmungsabschnitt 9 eingegeben, um ihre Dokumentarchitektur zu bestimmen. Wenn die Dokumentarchitekturen bestimmt werden, bestimmt der Bestimmungsabschnitt 9, ob die Satzarchitekturen in dem Regel-Lexikon 9a gespeicherten Dokumentarchitekturregeln (Tabellen 1 bis 4) entsprechen (Schritt g). Falls die Architektur des eingegebenen Dokumentes durch eine der Dokumentarchitekturregeln definiert ist, werden die Dokumentarchitekturdaten entsprechend zu dem bestimmten Regeln in dem Speicher 10 gespeichert (Schritt h und i).
- Unter Bezugnahme auf das Beispiel von segmentierten Sätzen wie in Fig. 2 gezeigt wird das obige Verfahren von Bestimmen der Dokumentarchitektur in weiteren Einzelheiten beschrieben. In den segmentierten Sätzen in Fig. 2 werden der Satz der ersten Zeile, zum Beispiel "Dokument verstehendes System", und der Satz der zweiten Zeile, zum Beispiel "Okawa Tara" nicht in dem Lexikon 7 gespeichert. Die Extraktionseinrichtung 6 bestimmt, daß diese Sätze keine Titelwörter sind. Jedoch ist der Satz der ersten Zeile durch eine Regel definiert, die einen am Kopf des Dokumentes erscheinenden Hauptwortausdruck darstellt, und der Bestimmungsabschnitt 9 bestimmt, daß "Dokument verstehendes System" ein Titel ist. Der Satz der zweiten Zeile "Okawa Taro" ist ein richtiges Hauptwort, das einen männlichen Namen repräsentiert. Nachdem der männliche Name dem Titel folgt, wird entschieden, daß der Name der Name des Autors ist.
- Die von der Dokumentarchitekturbestimmung, wie oben beschrieben, erhaltenen Ergebnisse werden in einer Form wie in Fig. 6A gezeigt in einem logischen Architekturspeicher 10 gespeichert.
- In dem Satz der dritten Zeile, das heißt "1. Einleitung", werden drei Wörter, das heißt "1", "." und "Einleitung" in dem Lexikon 7 gespeichert. Somit wird entschieden, daß dieser Satz ein Titelkandidatsatz A1 ist (sh. Fig. 7A). Zugleich werden die diesen Satz darstellenden Kategorien als ein numerischer Abschnitt, ein Interpunktionsabschnitt bzw. als ein Titelkandidatwort erkannt.
- Der Titelbestimmungsabschnitt 8 greift auf das Titelregel-Lexikon 8a zu, um zu bestimmen, ob der als Titelkandidat A1 bestimmte Satz durch die Titel regeln definiert ist. In diesem Fall wird der Rang der das Kandidatwort A1 darstellenden Kategorien analysiert. Der Bestimmungsabschnitt 8 bestimmt, ob der Rang irgendeine der in den Fig. 4A bis 4D gezeigten Bedingung erfüllt. Die erste Ziffer "1" wird durch die in Fig. 4D gezeigte Regel d definiert. Die Ziffer "1" und Interpunktionsabschnitt "." werden durch die in Fig. 4B gezeigte Regel b definiert. Somit wird bestimmt, daß "1." ein Titelsymbol entsprechend der in Fig. 4B gezeigten Regel b ist. "Einleitung" ist durch die in Fig. 4C gezeigte Regel c definiert und wird als ein Titelwort bestimmt. Die Beziehung zwischen dem Titelsymbol und dem Titelwort wird durch die in Fig. 4A gezeigte Regel a definiert. Somit wird der Titelkandidat A1 als Titel B1 bestimmt. Der obige Bestimmungsprozess ist in Fig. 7A dargestellt.
- Wenn in dem obigen Bestimmungsprozess die Kategorien nicht durch die Fig. 4A bis 4D gezeigte Regeln A, B, C definiert sind, wird entschieden, daß der Titelkandidat A1 kein Titelwort ist.
- Der Dokumentarchitektur-Bestimmungsabschnitt bestimmt die Dokumentarchitektur von Titel B1 entsprechend der Regeln in Tabelle 1 bis 4. In diesem Fall wird die logische Architektur des analysierten Satzes in dem Speicher 10 wie in Fig. 6A gezeigt gespeichert. In den gespeicherten logischen Architekturen wird kein Kapiteltitel angezeigt. Titel B1, das heißt "1. Einführung" wird durch die Bedingungen (1), (1-1), (1-1-1), und (1-1-1-1) in Tabelle 1 so definiert, daß bestimmt wird, daß "1. Einleitung" Kapiteltitel C1 wie in Fig. 7A gezeigt, darstellt. Entsprechend dieser Bestimmung wird die den Kapiteltitel enthaltende logische Architektur in dem logischen Architekturspeicher 10 wie in Fig. 6B gespeichert.
- Nachdem die Anzahl von Zeichen des Satzes der vierten und fünften Zeilen wie in Fig. 2 gezeigt die Zahl zur Bestimmung, daß eine Möglichkeit besteht, daß ein Satz ein Titelwort ist, überschreitet, wird somit entschieden, daß dieser Satz anders als ein Titel ist. Wie durch die Regeln in Tabelle 3 definiert, wird bestimmt, daß der Satz der vierten und fünften Zeilen ein einen Paragraph darstellender Satz ist.
- Der Satz der sechsten Zeile "2. Merkmale des Systems" wird als Titelkandidat A2 in denselben Prozeduren wie für Titelkandidat A1 erkannt. In diesem Fall wird der Satz der sechsten Zeile durch die Schritte in Fig. 7B analysiert und als ein Titel B2 bestimmt. Der Titel B2 wird mit den Regeln in Tabelle 2 verglichen, um zu bestimmen, ob es mit irgendeiner spezifischen der Regeln übereinstimmt. Der Titel B2 wird durch Bedingungen (1-1), (2-1), (3-1) und (4-1) definiert und es wird bestimmt, daß er eine Möglichkeit aufweist, von demselben Niveau wie derjenige von Kapiteltitel C1 "1. Einleitung" zu sein. In dieser Art und Weise wird bestimmt, ob der Titel B2 durch die Regel in Tabelle 1 definiert ist. Mit anderen Worten "2. Merkmale des Systems" erfüllt die Bedingungen (1), (1-1), (1-1-2) und (1-1-2-2-1) und somit wird bestimmt, daß das Titelwort B2 den Kapiteltitel C2 darstellt. Die sich ergebenden logischen Architekturdaten werden in dem Speicher 10 wie in Fig. 6C gezeigt gespeichert.
- Die gleiche Verarbeitung wie oben beschrieben wird für die Sätze der siebten und darauffolgenden Zeilen durchgeführt und die Dokumentarchitekturen dieser Sätze werden in dem Speicher 10 wie in den Fig. 6D bis 6E gezeigt gespeichert. Insbesondere wird für den Satz der siebten Zeile Titelkandidat A3 wie in Fig. 7C gezeigt analysiert und wird dann als Titel B3 entsprechend den in den Fig. 4A bis 4G gezeigten Regeln bestimmt.
- In dem Dokumentarchitektur-Bestimmungsabschnitt 9 wird der Titel B3 mit den Regeln der Tabelle 2 verglichen. Nachdem das Muster von Titel B2 vorher nicht erscheint, ist ein Übereinstimmen nicht erfolgreich. Als Folge davon wird entschieden, daß Titel B3 ein Titel mit einem Niveau ist, das sich von demjenigen der vorangegangenen Titel unterscheidet. Titel B3 wird entsprechend von Dokumentarchitekturregeln in Tabelle 1 überprüft und es wird festgestellt, daß er mit Bedingungen (1), (1-1), (1-1-2), (1-1-2-2) und (1-1-2-2-2-1) übereinstimmt. Somit wird entschieden, daß Titel B3 ein Einzeltitel C3 ist.
- Nachdem der Satz der achten Zeile Bedingungen (1-1), (2-1), (3-1) und (4-1) erfüllt, wird in einer ähnlichen Art und Weise entschieden, daß das Niveau des dem Satz der achten Zeile entsprechenden Titels möglicherweise dasselbe ist, wie dasjenige von dem Einzeltitel der siebten Zeile. Es wird bestimmt, daß der Satz der achten Zeile die Bedingungen (1), (1-1), (1-1-2), (1-1-2-2), (1-1-2-2-2), (1-1-2-2-2-2) und (1-1-2-2-2-2-1) in Tabelle 1 erfüllt und wird somit als ein Einzeltitel bestimmt, der wie in Fig. 6D gezeigt gespeichert wird.
- Bezüglich der neunten Zeile "Dieses System ist ... " ist es möglich, diesen Paragraph so anzusehen, wie wenn er zwei Fälle oder zwei Kandidaten besitzt. Das heißt, der erste Fall ist, daß die neunte Zeile ein Teil des Einzeltitels der achten Zeile ist oder "(2). hohe Erkennungsrate", während der zweite Fall ist, daß die neunte Zeile ein Paragraph mit demselben Niveau wie dasjenige des Kapiteltitels der sechsten Zeile oder "2. Merkmal des Systems" ist.
- Deswegen ist in dem Apparat entsprechend der vorliegenden Erfindung der Apparat ausgelegt, um einem Benutzer zu erlauben, irgendeinen der Kandidaten zu wählen.
- Um die obige Aufgabe zu lösen, umfaßt der Apparat außerdem einen Regelanwendungs-Bestimmungsabschnitt 12 und einen Kandidatwählanzeigeabschnitt 14, wie in Fig. 1 dargestellt.
- Das Dokumentarchitektur-Regellexikon 9a kann auf den Regelanwendungs-Bestimmungsabschnitt 12 zugreifen, um eine Regelnamen-Anforderungs-Kandidatwahl zu überprüfen und um Flaggen entsprechend dem Regelnamen von einer (nicht gezeigten) Tabelle zurückzugewinnen, wenn zwei oder mehrere Kandidaten bestimmt werden. Eine in der Dokumenteingabeeinrichtung 2 angeordneter (nicht gezeigter) Kandidatwähltaste kann auf den Kandidatwähl- und Anzeigeabschnitt 14 zugreifen, um Flaggen zu aktualisieren, so daß irgendeine gewünschte Dokumentarchitektur gewählt werden kann.
- Wenn in Fig. 5 ein bestimmter Kandidat nicht mit einer einzelnen Dokumentarchitekturregel übereinstimmt oder wenn mehrere Kandidaten erzeugt werden (im Schritt g), erlaubt die Steuerung, daß das Dokumentarchitektur-Regellexikon 9a auf den Regelanwendungs-Bestimmungsabschnitt 12 zugreifen kann.
- Die oben erwähnte Kandidatwählfunktion ist das Merkmal der vorliegenden Erfindung.
- Wie schon erklärt, entscheidet der Dokumentarchitektur-Bestimmungsabschnitt 9, ob die Satzarchitekturen den Dokumentarchitekturregeln (Tabellen 1 bis 4) entsprechen, die in dem Dokumentarchitektur-Regellexikon 9a gespeichert sind. In diesem Fall liegt der Fall vor, bei dem das bestimmte Titelkandidatwort mit einer Vielzahl von Regeln übereinstimmt und somit ist es unmöglich, die Dokumentarchitektur eindeutig zu bestimmen. In diesem Fall werden eine Vielzahl von Architekturkandidaten in den logischen Architekturspeicher 10 unter der Steuerung des Dokumentprozessors 1 geschrieben und irgendeiner der Kandidaten wird durch den Kandidatwählanzeigeabschnitt 14 gewählt und auf der Anzeigeeinheit 5 unter der Steuerung der Anzeigesteuerungseinrichtung 4 angezeigt.
- Das schon beschriebene Beispiel der in Fig. 2 gezeigten neunten Zeile wird nun in weiteren Einzelheiten beschrieben. Die zwei Architekturkandidaten sind der Fall, bei dem "das System ist ... " als ein Teil des Einzeltitels "2. hohe Erkennungsrate" bestimmt wird und der Fall, bei dem derselbe Paragraph in der neunten Zeile als ein Paragraph mit demselben Niveau wie dasjenige des Kapiteltitels "2. Merkmale des Systems" bestimmt wird. Nachdem in dem Titelregel-Lexikon wie in Fig. 4 gezeigt keine derartige Regel wie oben beschrieben existiert, werden die beiden obigen Sätze als "Paragraph" entsprechend der in Tabelle 4 gezeigten Dokumentarchitekturregeln erkannt. Irgendeiner der beiden Paragraphen wird in den logischen Architekturspeicher 10 wie in den Fig. 6E oder 6F gezeigt entsprechend dem in Fig. 9 gezeigten Flußdiagramm geschrieben.
- Insbesondere stimmt in diesem Fall die Bedingung 1-1 in Tabelle 4 überein, so daß die Steuerung den Regelanwendungs-Bestimmungsabschnitt 12 veranlaßt, eine Information for angewendete Flaggen zu setzen, welches Ergebnis, d&sub1; oder d², ausgeführt werden soll. Im Ansprechen auf eine Anforderung des Setzens von angewendeter Flaggeninformation überprüft der Abschnitt 12, von welcher Regel die Anforderung erzeugt wird (Schritt 91). Nachdem die Anforderung von der Regel (d) erzeugt wird, gewinnt die Steuerung in diesem Fall angewendete Flaggen entsprechend dem obigen Regelnamen d von einer Anwendungsregel-Bestimmungstabelle, wie in Fig. 8 gezeigt, zurück (Schritt 92), und zeigt die Tabelle auf der Anzeigeeinheit 5 an, so daß die angewendeten Flaggen entsprechend dem Bedingungsnamen überprüft werden können (Schritt 93). Falls es erforderlich ist, daß Regel 2-1 bestimmt wird (Schritt 94), setzt hierbei der Benutzer die Flaggeninformation X&sub1; auf EIN (Schritt 95) und die Flaggeninformation X&sub2; auf AUS (Schritt 96).
- Dadurch wird die Bedingung (2-1) von Tabelle 4 gewählt, um das Ergebnis d1 auszuführen, so daß das Niveau des gegenwärtigen "Paragraph" der neunten Zeile als ein Teil des Einzeltitels der achten Zeile bestimmt wird, der in den Speicher 10 wie in Fig. 6E gezeigt geschrieben wird.
- Die obige von dem Benutzer bestimmte Dokumentarchitektur kann durch Verwendung einer Kandidatwähltaste, die in der Eingabeeinrichtung 2 angeordnet ist, geändert werden. Das heißt, falls die Kandidatwähltaste in der Eingabeeinrichtung 2 gedrückt ist, dekodiert der Dokumentprozessor 1 die Inhalte der Taste und sendet die Information an den Kandidatwählanzeigeabschnitt 14. Dieser Abschnitt 14 aktualisiert die angewendete Flagge derart, daß die Flagge in der in dem Regelanwendungs-Bestimmungsabschnitt 12 gespeicherten Regelanwendungstabelle in Bedingung 2-1 AUS ist, aber in Bedingung 2-2 EIN ist. Somit wird die angewendete Flaggeninformation X&sub2; in dem Regelanwendungs-Bestimmungsabschnitt 12 auf EIN gesetzt (Schritt 97) und die angewendete Flaggeninformation X&sub1; auf AUS gesetzt (Schritt 98), um die Bedingungen 2-2 anzuwenden, so daß das Ergebnis d&sub2; ausgeführt wird und es wird bestimmt, daß der "Paragraph" der neunten Zeile der "Paragraph" mit demselben Niveau wie derjenige des Kapitaltitels der sechsten Zeile wie in Fig. 2 gezeigt ist. Dementsprechend wird wie in Fig. 6F gezeigt in dem logischen Architekturspeicher 10 die Dokumentarchitektur neu geschrieben.
- Wie oben beschrieben kann durch Ändern der Anwendungsflagge die anzuwendende Regel geschaltet werden. In dem obigen Ausführungsbeispiel wird irgendeiner der zwei Kandidaten gewählt. Jedoch ist es in dem Fall des Vorliegenes von mehreren Kandidaten möglich, den Apparat so zu steuern, daß Anwendungsflaggen aufeinanderfolgend durch wiederholtes Drücken der Kandidatwähltaste eingeschaltet werden.
- Zusätzlich wird in der vorliegenden Erfindung Regelanwendungs-Registrierungsinformation y&sub1;, y&sub2;, ..., die vergangene Regelanwendungssituationen anzeigt, in die in Fig. 8 gezeigte Anwendungsregeltabelle hinzugefügt. Das heißt, wenn eine Regel von dem Benutzer gewählt wird, wird die Regelanwendungs-Registrierungsinformation (einschließlich der Anzahl der Anwendung einer Regel und des Zustandes, wenn eine Regel angewendet wird) aktualisiert, und außerdem werden die gewählten Regeln in der Tabelle in der Reihenfolge von häufigeren Informationen angeordnet, damit sie in dieser Reihenfolge anwendbar sind. Somit ist es für den Fall von mehreren Architekturkandidaten möglich, die Regeln in der Reihenfolge von Häufigkeit oder Priorität durch die Verwendung der Kandidatwähltaste abzugeben, wobei die obige Funktion als eine Lernfunktion bezeichnet wird.
- In der obigen Beschreibung wird entsprechend der Benutzeranforderung nur eine einzelne Architekturregel mit mehreren Kandidaten gewählt. Jedoch ist es möglich, eine Konfiguration des Systems zu schaffen, um mehrere Dokumentarchitekturkandidaten für mehrere Architekturregeln zu erzeugen. In diesem Fall wird die Tabelle für angewendete Regeln mit einem Bedingungsnamen, angewendeten Flaggen und der Regelanwendungsregistrierungsinformation, klassifiziert in jede der Regeln gebildet. Wie das Verfahren von Benutzerauswählen einer anderen logischen Architektur durch die Kandidatwähltaste, ist es außerdem möglich, einen Kandidatensatz durch eine Cursor oder auf Grundlage von verschiedenen Anzeigen, wie zum Beispiel Anzeigeinvertierung, Leuchthervorhebung, Unterstreichen etc. anzuzeigen.
- Außerdem kann die Dokumentarchitektur entsprechend anderer Formen, die sich von den in Fig. 6 gezeigten unterscheiden, klassifiziert werden.
- Ohne auf die hierarchische Klassifizierung von Dokumenttiteln beschränkt zu sein, ist es außerdem möglich, die vorliegende Erfindung von dem formalen Standpunkt auf andere Daten mit einer hierarchischen Architektur wie zum Beispiel durch Modifizieren der Titelbestimmungsregeln und der Dokumentarchitektur-Bestimmungsregeln auf ein Organisationsdiagramm und der damit zusammenhängenden Daten anzuwenden.
- Außerdem behandelt das obige System in dem obigen Ausführungsbeispiel ein japanisches Dokument. Ohne jedoch darauf beschränkt zu sein, ist es möglich, die vorliegende Erfindung auf das System anzuwenden, das andere fremdsprachige Dokumente behandelt, indem die Bestimmungsregeln und die Architekturbestimmungsregeln modifiziert werden, um der Sprache zu entsprechen.
- Entsprechend der vorliegenden Erfindung wie oben beschrieben werden die eingegebenen Dokumentdaten in Einheiten von Sätzen segmentiert und es wird bestimmt, ob jeder Satz eine Titel darstellt. Zugleich wird die Dokumentregel jedes Satzes bestimmt. Somit können die Eingabedokumentendaten entsprechend der logischen Dokumentarchitekturen effektiv verarbeitet werden.
- Die oben beschriebene Dokumentverarbeitung wird effektiv durchgeführt. Mit anderen Worten werden entsprechend der eingegebenen Dokumentdaten effektiv der Titel, das Niveau (hierarchisches Niveau) des Titels in dem Dokument, und die Dokumentarchitektur, beispielsweise die Paragraphen, denen der Titel vorangeht, effektiv erhalten. Es ist somit möglich, das Dokument in Einheiten von Kapiteln oder Abschnitten entsprechend der logischen Architekturen zu verarbeiten, wodurch das Dokumentverarbeiten wesentlich verbessert und vereinfacht wird.
- Nachdem das System einige Architekturkandidaten anzeigen kann und der Benutzer einen von diesen wählen kann, ist es zusätzlich für den Benutzer nicht notwendig, die Dokumentarchitektur durch Verwendung von Editierungsfunktionen durch Aufbereitungsoperationen zu ändern.
- Nachdem die Information über die Häufigkeit zu jedem der gewählten Architekturkandidaten hinzugefügt ist, um eine Lernfunktion zu schaffen, ist es außerdem möglich, die Möglichkeit eines Bestimmens irgendeiner gewünschten Dokumentarchitektur zu verbessern.
- Wenn außerdem die Regelanwendungs-Registrierungsinformation der anzuwendenden Regel vorher auf einen höheren Prioritätswert gesetzt ist, ist es möglich, zunächst den am meisten gewünschten Architekturkandidaten zu bestimmen, insbesondere in dem Fall, bei dem das Dokument eine spezifische Dokumentarchitektur wie in einem Aufsatz besitzt.
- Deswegen kann das System entsprechend der vorliegenden Erfindung effizient eine Dokumentarchitektur bilden und somit die Dokumentbildungseffizienz verbessern.
Claims (3)
1. Dokumentverarbeitungsapparat, umfassend:
eine Prozessoreinrichtung (1) zum Steuern von
Dokumentverarbeitungsoperationen;
eine Eingabeeinrichtung (2), die mit der
Prozessoreinrichtung (1) verbunden ist, zum Eingeben
von Dokumentdaten;
eine Titellexikon-Speichereinrichtung (7) zum
Speichern von häufig als Titel verwendeten Wörtern
und Ausdrücken in einer Spaltenrichtung;
eine Titelkandidat-Extraktionseinrichtung (6), die
mit der Prozessoreinrichtung (1) und der
Titellexikon-Speichereinrichtung (7) verbunden ist,
um aus der Dokumentdateneingabe in der
Eingabeeinrichtung einen einer Vielzahl von Wörtern
und Ausdrücken als einen Titelkandidat zu
extrahieren, der einem der in der
Titellexikon-Speichereinrichtung (7) gespeicherten
Titeln entspricht;
eine Titelregel-Lexikoneinrichtung (8a) zum Speichern
von bei Bestimmen der Titel verwendeten Regeln;
eine Titelbestimmungseinrichtung (8), die mit der
Prozessoreinrichtung (1) und der
Titelregel-Lexikoneinrichtung (8a) verbunden ist, zum
Überprüfen, ob der von der
Titelkandidat-Extraktionseinrichtung (6) extrahierte
Titelkandidat ein Titel oder kein Titel ist,
entsprechend den in der Titelregel-Lexikoneinrichtung
(7) gespeicherten Titelregeln;
eine Dokumentarchitektur-Regellexikoneinrichtung (9a)
zum Speichern von mit logischen Dokumentarchitekturen
assoziierten Regeln;
eine Dokumentarchitektur-Bestimmungseinrichtung (9),
die mit der Prozessoreinrichtung (1) und der
Dokumentarchitektur-Regellexikoneinrichtung (9a)
verbunden ist, zum Bestimmen von logischen
Dokumentarchitekturkandidaten des Titels durch
Überprüfen, ob der durch die
Titelbestimmungseinrichtung (9) bestimmte Titel und
der Nicht-Titel ein Kapiteltitel, ein Abschnittstitel
oder ein Paragraph ist, entsprechend den in der
Dokumentarchitektur-Regellexikoneinrichtung (9a)
gespeicherten Dokumentarchitekturregeln; und
eine Dokumentarchitekturwähl- und Anzeigeeinrichtung,
um einem Benutzer zu erlauben, wenigstens eine
gewünschte Dokumentarchitektur zu wählen, wenn die
Dokumentarchitektur- Bestimmungseinrichtung (9) eine
Vielzahl von Dokumentarchitekturkandidaten
entsprechend von Dokumentarchitekturregeln bestimmt,
wobei die Dokumentarchitekturwähl- und
Anzeigeeinrichtung umfaßt:
(a) eine Regelanwendungs-Bestimmungseinrichtung (12),
auf die die Dokumentarchitekturregel-
Lexikoneinrichtung (9a) zugreifen kann, wenn
mehrere logische Dokumentarchitekturkandidaten
von der Dokumentarchitektureinrichtung (9)
bestimmt werden, um einen Regelnamen-
Anforderungskandidatabschnitt zu überprüfen, um
Flaggen entsprechend dem Regelnamen von einer
Tabelle für Anwendungsregeln zurückzugewinnen;
und
(b) eine Kandidatwähl- und Anzeigeeinrichtung (14)
ansprechend auf eine Kandidatwähltaste, die in
der Dokumenteingabeeinrichtung (2) vorgesehen
ist, um dem Benutzer zu erlauben, die Flaggen
durch Wählen wenigstens einer gewünschten
Dokumentarchitektur durch die Kandidatwähltaste
zu aktualisieren, wobei die
Dokumentarchitektur-Regellexikoneinrichtung (9a)
Regelanwendungs-Aufzeichnungsinformation
speichert, die vergangene
Regelanwendungssituationen anzeigt, und die
Dokumentarchitektur-Bestimmungseinrichtung (9)
eine Dokumentarchitekturregel bestimmt, die
bezüglich der gespeicherten Regelanwendungs-
Registrierungsinformation angewendet werden soll,
um eine Dokumentarchitekturwahl in Abhängigkeit
einer Lernfunktion zu erleichtern.
2. Dokumentverarbeitungsapparat nach Anspruch 1,
dadurch gekennzeichnet, daß die
Dokumentarchitektur-Bestimmungseinrichtung (9) die
Regelanwendungs-Registrierungsinformation
aktualisiert.
3. Dokumentverarbeitungsapparat nach Anspruch 1,
dadurch gekennzeichnet, daß die
Regelanwendungs-Registrierungsinformation die Anzahl
enthält, wie oft eine Regel angewendet wird und
feststellt, wenn eine Regel angewendet wird.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP61088065A JPH0776969B2 (ja) | 1986-04-18 | 1986-04-18 | 文書処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
DE3782447D1 DE3782447D1 (de) | 1992-12-10 |
DE3782447T2 true DE3782447T2 (de) | 1993-04-15 |
Family
ID=13932449
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
DE8787101133T Expired - Fee Related DE3782447T2 (de) | 1986-04-18 | 1987-01-28 | Dokumentverarbeitungsapparat. |
Country Status (4)
Country | Link |
---|---|
US (1) | US4876665A (de) |
EP (1) | EP0241646B1 (de) |
JP (1) | JPH0776969B2 (de) |
DE (1) | DE3782447T2 (de) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2516387Y2 (ja) * | 1987-08-19 | 1996-11-06 | 三洋電機株式会社 | 情報ファイル装置 |
JPH0776958B2 (ja) * | 1988-01-11 | 1995-08-16 | 株式会社東芝 | 文書整形装置 |
JPH01205260A (ja) * | 1988-02-12 | 1989-08-17 | Toshiba Corp | 文書整形装置 |
US5130924A (en) * | 1988-06-30 | 1992-07-14 | International Business Machines Corporation | System for defining relationships among document elements including logical relationships of elements in a multi-dimensional tabular specification |
US5101345A (en) * | 1988-11-29 | 1992-03-31 | International Business Machines Inc. | Method of filing stapled documents with a staple relationship involving one or more application programs |
US5179718A (en) * | 1988-11-29 | 1993-01-12 | International Business Machines Corporation | Method of filing having a directed relationship through defining a staple relationship within the context of a folder document |
JPH03177964A (ja) * | 1989-12-07 | 1991-08-01 | Toshiba Corp | 文書整形装置 |
JP2862626B2 (ja) * | 1990-03-22 | 1999-03-03 | 株式会社東芝 | 電子辞書及び情報検索方法 |
CA2048039A1 (en) * | 1991-07-19 | 1993-01-20 | Steven Derose | Data processing system and method for generating a representation for and random access rendering of electronic documents |
JPH05101052A (ja) * | 1991-10-04 | 1993-04-23 | Fuji Xerox Co Ltd | 文書作成支援装置 |
JPH05108641A (ja) * | 1991-10-17 | 1993-04-30 | Fuji Xerox Co Ltd | 文書スタイル設計支援装置 |
GB2264186A (en) * | 1992-02-04 | 1993-08-18 | Inishashe Limited | Database correction and conversion. |
AU4532093A (en) * | 1992-06-11 | 1994-01-04 | Emil Moffa | An automated method for checking patent applications |
JP2618832B2 (ja) * | 1994-06-16 | 1997-06-11 | 日本アイ・ビー・エム株式会社 | 文書の論理構造の解析方法及びシステム |
US5640581A (en) * | 1994-08-12 | 1997-06-17 | Masashi Saraki | CD-ROM information editing apparatus |
US5671427A (en) * | 1994-10-12 | 1997-09-23 | Kabushiki Kaisha Toshiba | Document editing apparatus using a table to link document portions |
JPH08137842A (ja) * | 1994-11-08 | 1996-05-31 | Canon Inc | 言語情報処理システム及びその方法 |
US6546406B1 (en) | 1995-11-03 | 2003-04-08 | Enigma Information Systems Ltd. | Client-server computer system for large document retrieval on networked computer system |
US6167409A (en) * | 1996-03-01 | 2000-12-26 | Enigma Information Systems Ltd. | Computer system and method for customizing context information sent with document fragments across a computer network |
US5893109A (en) * | 1996-03-15 | 1999-04-06 | Inso Providence Corporation | Generation of chunks of a long document for an electronic book system |
US6006242A (en) * | 1996-04-05 | 1999-12-21 | Bankers Systems, Inc. | Apparatus and method for dynamically creating a document |
JP2004145375A (ja) * | 2000-09-12 | 2004-05-20 | Media Vision:Kk | 構造化文書の作成、閲覧装置 |
JP4843867B2 (ja) * | 2001-05-10 | 2011-12-21 | ソニー株式会社 | 文書処理装置、文書処理方法および文書処理プログラム、ならびに、記録媒体 |
US20030042319A1 (en) * | 2001-08-31 | 2003-03-06 | Xerox Corporation | Automatic and semi-automatic index generation for raster documents |
US20050278340A1 (en) * | 2004-05-28 | 2005-12-15 | Rehberg Charles P | Problem solving assistant |
GB2419715A (en) * | 2004-10-29 | 2006-05-03 | Hewlett Packard Development Co | Processing data variants |
JP4640591B2 (ja) * | 2005-06-09 | 2011-03-02 | 富士ゼロックス株式会社 | 文書検索装置 |
US20080126075A1 (en) * | 2006-11-27 | 2008-05-29 | Sony Ericsson Mobile Communications Ab | Input prediction |
WO2009087996A1 (ja) * | 2008-01-07 | 2009-07-16 | Nec Corporation | 情報抽出装置及び情報抽出システム |
JP5412903B2 (ja) * | 2009-03-17 | 2014-02-12 | コニカミノルタ株式会社 | 文書画像処理装置、文書画像処理方法および文書画像処理プログラム |
WO2013110286A1 (en) * | 2012-01-23 | 2013-08-01 | Microsoft Corporation | Paragraph property detection and style reconstruction engine |
WO2014005609A1 (en) | 2012-07-06 | 2014-01-09 | Microsoft Corporation | Paragraph alignment detection and region-based section reconstruction |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4193119A (en) * | 1977-03-25 | 1980-03-11 | Xerox Corporation | Apparatus for assisting in the transposition of foreign language text |
GB2043311B (en) * | 1979-03-02 | 1982-06-23 | Ibm | Text processing |
US4358824A (en) * | 1979-12-28 | 1982-11-09 | International Business Machines Corporation | Office correspondence storage and retrieval system |
JPS57201958A (en) * | 1981-06-05 | 1982-12-10 | Hitachi Ltd | Device and method for interpretation between natural languages |
US4429372A (en) * | 1981-06-16 | 1984-01-31 | International Business Machines Corporation | Method for integrating structured data and string data on a text processing system |
JPS5836089A (ja) * | 1981-08-27 | 1983-03-02 | Sony Corp | 画像表示装置 |
BE891911A (fr) * | 1982-01-27 | 1982-05-17 | Europ Agence Spatiale | Dispositif numerique pour commander la representation graphique de caracteres |
US4503515A (en) * | 1982-05-17 | 1985-03-05 | International Business Machines Corporation | Footnote assembly management |
JPS5995645A (ja) * | 1982-11-24 | 1984-06-01 | Toshiba Corp | 情報整理装置 |
US4539653A (en) * | 1983-04-11 | 1985-09-03 | International Business Machines Corporation | Formatting text/graphics using plural independent formatting mechanisms |
US4580218A (en) * | 1983-09-08 | 1986-04-01 | At&T Bell Laboratories | Indexing subject-locating method |
US4633430A (en) * | 1983-10-03 | 1986-12-30 | Wang Laboratories, Inc. | Control structure for a document processing system |
KR930009761B1 (ko) * | 1984-05-31 | 1993-10-09 | 쏘니 가부시기가이샤 | 워드프로세서 |
US4610025A (en) * | 1984-06-22 | 1986-09-02 | Champollion Incorporated | Cryptographic analysis system |
US4723209A (en) * | 1984-08-30 | 1988-02-02 | International Business Machines Corp. | Flow attribute for text objects |
US4713754A (en) * | 1984-10-09 | 1987-12-15 | Wang Laboratories, Inc. | Data structure for a document processing system |
US4663615A (en) * | 1984-12-26 | 1987-05-05 | International Business Machines Corporation | Document creation |
US4710885A (en) * | 1985-07-02 | 1987-12-01 | International Business Machines Corp. | Generating figures in a document formatter directly from a declarative tag |
-
1986
- 1986-04-18 JP JP61088065A patent/JPH0776969B2/ja not_active Expired - Lifetime
- 1986-12-29 US US06/947,091 patent/US4876665A/en not_active Expired - Fee Related
-
1987
- 1987-01-28 DE DE8787101133T patent/DE3782447T2/de not_active Expired - Fee Related
- 1987-01-28 EP EP87101133A patent/EP0241646B1/de not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
US4876665A (en) | 1989-10-24 |
DE3782447D1 (de) | 1992-12-10 |
EP0241646B1 (de) | 1992-11-04 |
JPH0776969B2 (ja) | 1995-08-16 |
JPS62245367A (ja) | 1987-10-26 |
EP0241646A2 (de) | 1987-10-21 |
EP0241646A3 (en) | 1989-02-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
DE3782447T2 (de) | Dokumentverarbeitungsapparat. | |
DE68926845T2 (de) | Maschinenübersetzungssystem | |
DE69028592T2 (de) | Gerät zur automatischen Generierung eines Index | |
DE69400869T2 (de) | System zum transkribieren von texteingaben | |
DE69322741T2 (de) | Vorrichtung und Methode zur Verwendung im Ausrichten von zweisprachigen Corpora | |
DE68929038T2 (de) | Verfahren zur Verarbeitung von digitalen Textdaten | |
DE3853894T2 (de) | Auf Paradigmen basierende morphologische Textanalyse für natürliche Sprachen. | |
DE69400207T2 (de) | Sprachabhängiges textvergleichssystem | |
DE69726339T2 (de) | Verfahren und Apparat zur Sprachübersetzung | |
DE3650417T2 (de) | Informationsaufzeichnungs- und Wiederauffindungssystem. | |
DE69427848T2 (de) | Unterstützungssystem zur Herstellung von Wörterbüchern | |
DE69838763T2 (de) | Identifizierung der sprache und des zeichensatzes aus text-repräsentierenden daten | |
DE69033042T2 (de) | Datenverarbeitung | |
DE69730930T2 (de) | Verfahren und Gerät zur Zeichenerkennung | |
DE69426714T2 (de) | Dokumentverarbeitungsverfahren und Gerät | |
DE69428868T2 (de) | Verfahren und System zum Aufzeigen von Alternativen zur Auswahl durch Gebrauch von adaptiven Lernen | |
DE3587993T2 (de) | Verfahren und Gerät zur Natursprachenverarbeitung. | |
DE69317863T2 (de) | Übersetzungssystem Gebärdensprache/Wort | |
DE69625759T2 (de) | Vorrichtung und Verfahren zum Abspeichern und zum Wiederauffinden von Daten | |
DE3852341T2 (de) | Zeichenverarbeitungssystem mit Funktion zur Prüfung von Rechtschreibung. | |
DE69033471T2 (de) | Natürliche Sprache verarbeitendes Gerät | |
DE69026885T2 (de) | Dynamische Selektion von Datenformaten für rekursiv geschachtelte logische Elemente | |
DE3789073T2 (de) | System zur maschinellen Übersetzung. | |
DE60319586T2 (de) | Elektronisches wörterbuch mit beispielsätzen | |
DE69226106T2 (de) | Datenbankherstellungsverfahren und Gerät |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
8364 | No opposition during term of opposition | ||
8339 | Ceased/non-payment of the annual fee |