DE69633639T2

DE69633639T2 - Rufsystem mit automatischer Zusammenfassung von Texten

Info

Publication number: DE69633639T2
Application number: DE69633639T
Authority: DE
Inventors: Edward M. Batchelder
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1995-08-14
Filing date: 1996-08-14
Publication date: 2005-10-20
Anticipated expiration: 2016-08-15
Also published as: EP0786116A2; EP0915438B1; US5691708A; KR970707499A; DE69626271T2; ATE233003T1; EP0786116B1; EP0915438A3; KR100530709B1; EP0915438A2; WO1997007469A2; ATE279752T1; DE69633639D1; DE69626271D1; WO1997007469A3

Description

GEBIET DER ERFINDUNG
Die vorliegende Erfindung betrifft allgemein Textverarbeitungssysteme und insbesondere die Verarbeitung von Mitteilungen zur Verwendung zum Beispiel in Funk-Pagingsystemen.
HINTERGRUND DER ERFINDUNG
Es gibt heute viele System zur Verarbeitung von Textmitteilungen. Funk-Pagingsysteme stellen hierfür ein spezielles Beispiel dar. Funk-Pagingsysteme sind gut bekannt und werden in großem Umfang eingesetzt. Ein bei Pagingsystemen verwendetes spezielles Format ist die Textübertragung. Bei diesen Systemen wird eine aus einer Zeichenfolge bestehende Mitteilung an einen Pagingempfänger übertragen, um sie dort auf einem Anzeigebildschirm anzuzeigen. Viele Pagingempfänger weisen jedoch den bedauerlichen Nachteil auf, dass sie nur eine Mitteilung von begrenzter Länge anzeigen können. Zum Beispiel sind viele gegenwärtig verwendete Pagingempfänger insofern beschränkt, als sie nur eine Mitteilung anzeigen können, die nicht mehr als 240 Textzeichen umfasst. Wenn also ein Benutzer eine Mitteilung mit mehr als 240 Zeichen an einen solchen Pagingempfänger übertragen will, kann nicht die komplette Mitteilung angezeigt werden. Darauf kann der Pagingempfänger so reagieren, dass er überhaupt keine Mitteilung anzeigt. Meist wird jedoch eine Mitteilung, welche die Maximallänge überschreitet, bei Erreichen der Maximallänge abgeschnitten, wodurch das Ende der Mitteilung verloren geht. Es ist leicht einzusehen, dass eine solche Situation nicht wünschenswert ist, da eine gekürzte Mitteilung für den Leser unverständlich sein kann und/oder in ihr wichtige Informationen fehlen können.
In der US-Patentschrift 5 396 228 werden Verfahren und eine Vorrichtung zum Komprimieren und Dekomprimieren von Pagingdaten beschrieben. In einem Wörterbuch aufgefundene Wörter werden mittels eines Komprimierungscodes komprimiert. Ein Kopfdatensatz (Header) dient zur Kennzeichnung des verwendeten Wörterbuchs. Wenn eine Telefonnummer oder eine ganze Zahl vorkommen werden außerdem ein Kopfdatensatz und ein Komprimierungsformat verwendet, das für Telefonnummern oder ganze Zahlen optimiert ist.
Die europäische Patentanmeldung Nr. 0 361 464 legt ein Verfahren und eine Vorrichtung zum Herstellen einer Zusammenfassung eines Dokuments offen. Bei einer Ausführungsart des Verfahrens wird eine Liste vorher ausgewählter Hinweiswörter eingegeben, die auf wichtige Ausdrücke in dem Dokument verweisen, und ein Teil des Textes, dem gegenüber anderen Textteilen für dasselbe Hinweiswort eine höhere Priorität zugewiesen werden soll, wird einem oder mehreren der eingegebenen Hinweiswörter zugeordnet. Dann werden alle Sätze des Dokuments, die ein Hinweiswort enthalten, aus dem Dokument entnommen und einer Sprachanalyseeinrichtung zugeführt, die einem Wort, das mit dem zugeordneten Textteil übereinstimmt, fünf Punkte, aber Hinweiswörtern, die einem anderen als dem zugeordneten Textteil entsprechen, einen Punkt zuordnet. Dann werden aus den Sätzen, die ein Hinweiswort enthalten, Sätze mit mehr als einer Mindestpunktzahl ausgewählt. Abschließend wird eine Zusammenfassung erstellt, indem durch Ändern der Hinweiswörter der ausgewählten Sätze, die dem zugeordneten Textteil entsprechen, neue Sätze erzeugt werden.
ÜBERBLICK ÜBER DIE ERFINDUNG
Angesichts des oben Gesagten besteht eine Aufgabe der vorliegenden Erfindung darin, diese sowie weitere Nachteile in heutigen Textverarbeitungssystemen zu beseitigen.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, die Textdaten vor dem Senden und/oder Speichern zu komprimieren.
Eine andere Aufgabe der vorliegenden Erfindung besteht darin, eine flexible Steuerung der Textzusammenfassung durch einen Satz von Befehlen bereitzustellen, die einem Systemadministrator oder einer anderen berechtigten Person zugänglich sind.
Eine weitere Aufgabe der vorliegenden Erfindung besteht darin, ein System und ein Verfahren zum Senden von Textmitteilungen in der Weise bereitzustellen, dass alle wichtigen Informationen zum gewählten Empfänger auf einen Pagingempfänger übertragen werden können.
Noch eine weitere Aufgabe der vorliegenden Erfindung besteht darin, einen Mitteilungstext so zusammenzufassen, dass der wesentliche Gehalt des Mitteilungstextes zu einer Empfangseinheit mit einem Pagingempfänger übertragen werden kann, der nicht in der Lage ist, einen Mitteilungstext über die vorgegebene maximale Zeichenzahl hinaus anzuzeigen.
Zum Lösen der obigen sowie weiterer Probleme stellt die vorliegende Erfindung ein Pagingsystem nach Anspruch 1 bereit.
Weitere Merkmale, Aufgaben und Vorteile der vorliegenden Erfindung werden aus der folgenden detaillierten Beschreibung in Verbindung mit den beiliegenden Zeichnungen klar.
KURZBESCHREIBUNG DER ZEICHNUNGEN
1 ist ein Blockschaltbild der bevorzugten Ausführungsart eines Pagingsystems, das ein System zur Textzusammenfassung gemäß den Lehren der vorliegenden Erfindung;
2 ist ein Blockschaltbild eines Pagingempfängers gemäß einer bevorzugten Ausführungsart der vorliegenden Erfindung;
3 ist ein Flussdiagramm, das den Prozess der Textzusammenfassung gemäß einer bevorzugten Ausführungsart der vorliegenden Erfindung beschreibt;
4(a), 4(b) und 4(c) sind Flussdiagramme, die die Verarbeitung eines bestimmten Befehlssatzes während des Zusammenfassungsprozesses der bevorzugten Ausführungsart der vorliegenden Erfindung beschreiben.
DETAILLIERTE BESCHREIBUNG DER ERFINDUNG
1 ist ein Blockschaltbild des Paging-Steuersystems 50 der vorliegenden Erfindung. Das in 1 dargestellte Paging- Steuersystem 50 enthält sämtliche erforderlichen Funktionalitäten zum Empfangen einer Textmitteilung zum Übertragen und zum Zusammenfassen der Mitteilung sowie zum Übertragen der zusammengefassten Mitteilung zum Anzeigen auf einem Pagingempfänger. Der Pagingempfänger zum Empfangen der zusammengefassten Mitteilung ist in 2 veranschaulicht und kann auf das Anzeigen einer bestimmten maximalen Anzahl von Zeichen beschränkt sein.
Bei dem in 1 dargestellten Paging-Steuersystem 50 wird von einer externen Eingabequelle 10 eine Textmitteilung an das Paging-Steuersystem 50 übertragen. Die externe Eingabequelle 10 kann beliebig viele aus einer Vielzahl gut bekannter Eingabequellen umfassen, wie sie gegenwärtig bei Pagingsystemen verwendet werden. Zum Beispiel kann die externe Eingabequelle 10 einen Telefonapparat umfassen, wobei der Telefonapparat über ein Telefonnetz mit dem Paging-Steuersystem 50 verbunden ist. In diesem Fall kann sich eine Person, die eine Mitteilung zu übertragen wünscht, über die Telefontastatur einwählen, wobei eine Reihe von Ziffern beispielsweise eine Telefonnummer darstellt, unter der eine Person erreicht werden kann.
Um die Übertragung einer Textmitteilung zu ermöglichen, ist üblicherweise außer einer einfachen sieben- oder zehnstelligen Telefonnummer die Verwendung einer anderen Eingabequelle als des Telefonapparates erforderlich. Textmitteilungen, die bis zu 240 Zeichen umfassen, können zu einem Pagingempfänger übertragen werden, wenn sie in speziell aufgebauten Eingabequellen erzeugt werden. Zum Beispiel kann als Eingabequelle 10 ein tragbares „Terminal" (Endgerät) bereitgestellt werden, in das der Benutzer den zu übertragenden Text eintippen kann. Dieses Terminal ist mit einem herkömmlichen Modem zur Übertragung zu dem Paging-Steuersystem 50 verbunden, um so die Funkübertragung zu dem Pagingempfänger 110 zu gewährleisten. Alternativ kann ein Benutzer eine Mitteilung per Telefon auch einer Vermittlungsperson übermitteln, welche die per Telefon übermittelte Mitteilung dann in ein solches Terminal eintippt. Die durch die Vermittlungsperson eingetippte Mitteilung wird dann zum Paging-Steuersystem 50 übermittelt und schließlich zum Pagingempfänger 110 übertragen. Die vorliegende Erfindung konzentriert sich in erster Linie auf die Übertragung längerer Mitteilungen (d. h. solcher Mitteilungen, die über ein „Terminal" eingegeben wurden), kann jedoch auch die Übertragung von Kurzmitteilungen umfassen (d. h. Telefonnummern, die über eine Telefontastatur eingegeben wurden).
Das in 1 gezeigte Paging-Steuersystem 50 umfasst ferner einen Speicher 40 und eine Paging-Schnittstellensteuereinheit 70. Im Speicher 40 wird die von der Eingabequelle 10 empfangene Textmitteilung gespeichert. Die Paging-Schnittstellensteuereinheit 70 tauscht Daten mit der Textzusammenfassungseinheit 90, dem Befehlsterminal 45, dem Speicher 40 und der Funkübertragungseinheit 80 aus, um die Gesamtfunktion des Paging-Steuersystems 50 zu steuern. Die Aufgabe der Textzusammenfassungseinheit 90 besteht darin, die von der Eingabequelle 10 empfangene Textmitteilung so zu bearbeiten, dass sie im Rahmen der durch den Pagingempfänger 110 auferlegten Einschränkungen ohne Verlust von wichtigen Informationen übertragen werden kann. Die Funktionsweise der Textzusammenfassungseinheit 90 wird im Folgenden eingehend erörtert. Der Puffer 25 enthält, wie ebenfalls im Folgenden erörtert wird, den zusammengefassten Text als Ergebnis der Verarbeitung durch die Textzusammenfassungseinheit 90. Es ist möglich, dass der Puffer 25 und der Speicher 70 denselben Speicher umfassen. Die Funkübertragungseinheit 80 liest aus dem Puffer 25 den zusammengefassten Text und sendet die zusammengefasste Textmitteilung zum Pagingempfänger 110. vor der Übertragung kann die Funkübertragungseinheit 80 ferner die Daten der zusammengefassten Mitteilung mittels verschiedener in der Technik bekannter Verfahren codieren oder bearbeiten. Das Befehlsterminal 45 steht auch für die Eingabe diverser Befehle zur Verfügung, darunter Befehle zur Steuerung der Funktion der Textzusammenfassungseinheit 90.
Man beachte, dass sich die vorliegende Erfindung nicht allein auf die in 1 veranschaulichte spezielle Struktur des Paging-Steuersystems beschränkt. Beispielsweise kann eine alternative Ausführungsart eines Paging-Steuersystems eine in einem lokalen Netzwerk befindliche Anwendung umfassen, durch welche Benutzer unter ihrer jeweiligen Addresse in einem solchen lokalen Netzwerk elektronische Mitteilungen (E-Mails) empfangen können. In diesem Fall kann die E-Mail gemäß den Lehren der vorliegenden Erfindung zusammengefasst und dann durch das Netzwerk zu einer Funkübertragungseinheit innerhalb oder außerhalb dieses Netzwerkes weitergeleitet werden. Dadurch könnten zum Beispiel Internetmitteilungen automatisch einem Benutzer auf dessen Pager weitergeleitet werden, wenn sich dieser gerade nicht im Netzwerk befindet. Dem Fachmann ist klar, dass die Lehren der vorliegenden Erfindung nicht nur auf Pager, sondern auch auf andere Geräte zutreffen. Die vorliegende Erfindung kann, wie deutlich wird, immer dann angewendet werden, wenn es erforderlich ist, Text in einer kompakten Form zu übertragen oder zu speichern.
2 veranschaulicht einen Pager, der in dem durch die vorliegende Erfindung beschriebenen Pagingsystem verwendet werden kann. Der Pagercontroller 140 dient der Steuerung der Gesamtfunktion des Funk-Pagingempfängers 110. Der Pagercontroller 140 kann einen handelsüblichen Mikroprozessor wie beispielsweise einen von der Intel Corporation hergestellten i486^TM Mikroprozessor umfassen. Der Funk-Pagingempfänger 110 umfasst vorzugsweise einen Standard-Funk-Pagingempfänger, der einen Pager-Anzeigebildschirm 160 enthält. Üblicherweise ist der Pager-Anzeigebildschirm 160 eine Flüssigkristallanzeige (liquid crystal display, LCD), die Textinformationen anzeigen kann. Der Funk-Pagingempfänger 110 kann durch Rundfunk (HF) übertragene Pagingsignale empfangen, die Textinformationen beinhalten. Die durch das Paging-Steuersystem 50 übertragenen Textinformationen können in einer Vielzahl von in der Technik gut bekannten Formaten und/oder Codierschemata dargestellt werden. Die Form der durch den Funk-Pagingempfänger 110 empfangenen Textinformationen ist für die vorliegende Erfindung nicht entscheidend, da der Funk-Pagingempfänger 110 beliebige Formen von Funksignalen zur Verarbeitung gemäß den Lehren der vorliegenden Erfindung empfangen kann. Die Funk-Pagingsignale werden durch den Funkempfänger 130 empfangen, der mit einer zu dem Funk-Pagingempfänger 110 gehörenden Außen- oder Innenantenne verbunden sein kann. Nach dem Empfang werden die Pagingsignale erforderlichenfalls durch den Decodierer 120 beispielsweise in normale ASCII-Textdaten decodiert und vorübergehend im Mitteilungs-RAM 190 gespeichert. Alternativ kann der Decodierer dazu dienen, die Pagingmitteilung in einer durch den Anzeigetreiber 170 erkennbaren und darstellbaren Form auf den Pager-Anzeigebildschirm 160 zu bringen.
Im Folgenden wird die Funktion der in dem Paging-Steuersystem 50 enthaltenen Textzusammenfassungseinheit 90 in Verbindung mit 3 genauer beschrieben. Die Textzusammenfassungseinheit 90 empfängt allgemein gesagt, als Eingabe eine oder mehrere zusammenzufassende Textmitteilungen, einen Befehlssatz, der anzeigt, wie die Zusammenfassung zu erfolgen hat, und einen Wert für die maximal zulässige Länge des zusammengefassten Textes. Die folgende Beschreibung geht davon aus, dass die zusammenzufassende und zu übertragende Mitteilung eine E-Mail-Mitteilung ist. Die Funktion der Textzusammenfassungseinheit und damit der vorliegenden Erfindung ist jedoch nicht darauf beschränkt. Die Textzusammenfassungseinheit kann beliebige Formen von Textinformationen wie beispielsweise Dokumente, Briefe, Bücher, Artikel oder Telefaxe verarbeiten.
Der erste Schritt des Zusammenfassungsprozesses besteht darin, die Textmitteilung in Blöcke einzuteilen. Die verbreitetste und bevorzugte Form eines Blocks ist ein Satz, obwohl andere Formen von Blöcken, wie beispielsweise Wörter oder Absätze, verwendet werden können. Jeder Block wird als einer von drei Typen markiert: MAIL HEADER (SENDEKOPF), TEXT (TEXT) oder PUNCTUATION (INTERPUNKTION). Außer bei E-Mails können sich diese Typen von Mitteilungen insoweit unterscheiden, wie es der Form der Textinformation angemessen ist. Ungeachtet dessen werden in der E-Mail-Umgebung MAIL HEADER-Daten ferner als SIGNIFICANT (WESENTLICH) oder INSIGNIFICANT (UNWESENTLICH) klassifiziert. Eine solche weitergehende Klassifizierung wird als Klassifizierung in „Untertypen" bezeichnet. TEXT-Typen werden ferner entsprechend ihrer Stellung in einem Absatz nach den Untertypen FIRST (ZUERST), LAST (ZULETZT), ONLY (LEDIGLICH) oder OTHER (SONSTIGE) klassifiziert. Wenn also beispielsweise ein einzelner Satz (Block) einen Absatz bildet, wird dieser Satz (Block) durch den Typ TEXT und den Untertyp ONLY markiert. Wenn der Satz (Block) der erste Satz eines mehrere Sätze (Blöcke) enthaltenden Absatzes ist, wird der Satz durch den Typ TEXT und den Untertyp FIRST markiert. PUNCTUATION-Blöcke sind Blöcke, die keine Buchstaben oder Ziffern enthalten. Bei der bevorzugten Ausführungsart gibt es für den Typ PUNCTUATION keine Untertypen.
MAIL HEADER-Typen werden durch die Textzusammenfassungseinheit 90 vorzugsweise über eine Liste von Sendekopfnamen wie beispielsweise „Betreff", „Von", „An" usw. erkannt, die aus einer externen Datei gelesen werden. Diese externe Datei kann so erstellt werden, dass sie beliebige Schlüsselwörter enthält, die zum Feststellen von MAIL HEADER-Daten wünschenswert sind und durch einen Benutzer oder Systemadministrator vorgegeben werden. Bei der bevorzugten Ausführungsart heißt diese Datei header.txt. Mit einem Stern (oder ein anderes Markierungszeichen) endende Wörter in der Datei header.txt werden als wichtige Kopfdaten angesehen und lösen die Klassifizierung durch den Untertyp MAIL HEADER SIGNIFICANT aus.
Bei einer bevorzugten Ausführungsart der vorliegenden Erfindung nimmt die Textzusammenfassungseinheit 90 an, dass Wörter in einer „Betreff"-Zeile eines MAIL HEADERs SIGNIFICANT sind, ungeachtet der Tatsache, dass die Wörter ansonsten durch die Datei header.txt als INSIGNIFICANT eingestuft würden. Dadurch erhält der Empfänger der Mitteilung mit Sicherheit die komplette im MAIL HEADER enthaltene Betreffzeile. Ferner kann das System so eingerichtet (oder durch einen Benutzer oder Systemadministrator konfiguriert) werden, dass dieses den Empfängernamen (der nach der Kennung „An:" angegeben wird) unabhängig davon als wichtig ansieht, ob der Name in der Datei header.txt als INSIGNIFICANT erscheint. Außerdem kann das System so eingerichtet werden, dass es Zahlen (und Uhrzeiten und Daten) als wichtig einstuft, unabhängig davon, ob sie im MAIL HEADER oder im TEXT-Teil vorkommen. Es können zahlreiche dem Fachmann leicht verständliche Kombinationen gewählt werden, um bestimmte Zeichenfolgen (z. B. Wörter und Zahlen) entweder als SIGNIFICANT oder INSIGNIFICANT einzustufen.
Man beachte, dass bei einer bevorzugten Ausführungsart der Erfindung die Textzusammenfassungseinheit 90 so vorgehen kann, dass in einem einzigen Dokument mehrere MAIL HEADER gemäß einem definierten Kriterium verarbeitet werden können. Das tritt üblicherweise bei einer Antwort-Mail auf, wenn ein Empfänger dem ursprünglichen Absender antwortet oder wenn eine Mitteilung an einen dritten Teilnehmer weitergeleitet wird. Bei vielen gegenwärtig gebräuchlichen E-Mail-Umgebungen lässt sich die ursprüngliche Mitteilung (einschließlich des ursprünglichen MAIL HEADERs) in die Antwort- bzw. die weitergeleitete Mitteilung einbinden. In solchen Fällen kommen in einem einzigen Dokument mehrere MAIL HEADER vor. Die Textzusammenfassungseinheit 90 kann so konfiguriert werden, dass sämtliche Informationen in allen MAIL HEADERn außer dem ersten MAIL HEADER ignoriert werden. Dann werden alle Informationen (d. h. Wörter, Zahlen und Zeichen) in der Mailmitteilung außer der ersten Mailmitteilung als unwichtig behandelt.
Alternativ kann die Textzusammenfassungseinheit 90 den ersten MAIL HEADER aufteilen, um den(die) Namen Der erste Schritt des Zusammenfassungsprozesses besteht darin, die Textmitteilung in Blöcke einzuteilen. Die verbreitetste und bevorzugte Form eines Blocks ist ein Satz, obwohl andere Formen von Blöcken, wie beispielsweise Wörter oder Absätze, verwendet werden können. Jeder Block wird als einer von drei Typen markiert: MAIL HEADER (SENDEKOPF), TEXT (TEXT) oder PUNCTUATION (INTERPUNKTION). Außer bei E-Mails können sich diese Typen von Mitteilungen insoweit unterscheiden, wie es der Form der Textinformation angemessen ist. Ungeachtet dessen werden in der E-Mail-Umgebung MAIL HEADER-Daten ferner als SIGNIFICANT (WESENTLICH) oder INSIGNIFICANT (UNWESENTLICH) klassifiziert. Eine solche weitergehende Klassifizierung wird als Klassifizierung in „Untertypen" bezeichnet. TEXT-Typen werden ferner entsprechend ihrer Stellung in einem Absatz nach den Untertypen FIRST (ZUERST), LAST (ZULETZT), ONLY (LEDIGLICH) oder OTHER (SONSTIGE) klassifiziert. Wenn also beispielsweise ein einzelner Satz (Block) einen Absatz bildet, wird dieser Satz (Block) durch den Typ TEXT und den Untertyp ONLY markiert. Wenn der Satz (Block) der erste Satz eines mehrere Sätze (Blöcke) enthaltenden Absatzes ist, wird der Satz durch den Typ TEXT und den Untertyp FIRST markiert. PUNCTUATION-Blöcke sind Blöcke, die keine Buchstaben oder Ziffern enthalten. Bei der bevorzugten Ausführungsart gibt es für den Typ PUNCTUATION keine Untertypen.
MAIL HEADER-Typen werden durch die Textzusammenfassungseinheit 90 vorzugsweise über eine Liste von Sendekopfnamen wie beispielsweise „Betreff", „Von", „An" usw. erkannt, die aus einer externen Datei gelesen werden. Diese externe Datei kann so erstellt werden, dass sie beliebige Schlüsselwörter enthält, die zum Feststellen von MAIL HEADER-Daten wünschenswert sind und durch einen Benutzer oder Systemadministrator vorgegeben werden. Bei der bevorzugten Ausführungsart heißt diese Datei header.txt. Mit einem Stern (oder ein anderes Markierungszeichen) endende Wörter in der Datei header.txt werden als wichtige Kopfdaten angesehen und lösen die Klassifizierung durch den Untertyp MAIL HEADER SIGNIFICANT aus.
Bei einer bevorzugten Ausführungsart der vorliegenden Erfindung nimmt die Textzusammenfassungseinheit 90 an, dass Wörter in einer „Betreff"-Zeile eines MAIL HEADERs SIGNIFICANT sind, ungeachtet der Tatsache, dass die Wörter ansonsten durch die Datei header.txt als INSIGNIFICANT eingestuft würden. Dadurch erhält der Empfänger der Mitteilung mit Sicherheit die komplette im MAIL HEADER enthaltene Betreffzeile. Ferner kann das System so eingerichtet (oder durch einen Benutzer oder Systemadministrator konfiguriert) werden, dass dieses den Empfängernamen (der nach der Kennung „An:" angegeben wird) unabhängig davon als wichtig ansieht, ob der Name in der Datei header.txt als INSIGNIFICANT erscheint. Außerdem kann das System so eingerichtet werden, dass es Zahlen (und Uhrzeiten und Daten) als wichtig einstuft, unabhängig davon, ob sie im MAIL HEADER oder im TEXT-Teil vorkommen. Es können zahlreiche dem Fachmann leicht verständliche Kombinationen gewählt werden, um bestimmte Zeichenfolgen (z. B. Wörter und Zahlen) entweder als SIGNIFICANT oder INSIGNIFICANT einzustufen.
Man beachte, dass bei einer bevorzugten Ausführungsart der Erfindung die Textzusammenfassungseinheit 90 so vorgehen kann, dass in einem einzigen Dokument mehrere MAIL HEADER gemäß einem definierten Kriterium verarbeitet werden können. Das tritt üblicherweise bei einer Antwort-Mail auf, wenn ein Empfänger dem ursprünglichen Absender antwortet oder wenn eine Mitteilung an einen dritten Teilnehmer weitergeleitet wird. Bei vielen gegenwärtig gebräuchlichen E-Mail-Umgebungen lässt sich die ursprüngliche Mitteilung (einschließlich des ursprünglichen MAIL HEADERs) in die Antwort- bzw. die weitergeleitete Mitteilung einbinden. In solchen Fällen kommen in einem einzigen Dokument mehrere MAIL HEADER vor. Die Textzusammenfassungseinheit 90 kann so konfiguriert werden, dass sämtliche Informationen in allen MAIL HEADERn außer dem ersten MAIL HEADER ignoriert werden. Dann werden alle Informationen (d. h. Wörter, Zahlen und Zeichen) in der Mailmitteilung außer der ersten Mailmitteilung als unwichtig behandelt.
Alternativ kann die Textzusammenfassungseinheit 90 den ersten MAIL HEADER aufteilen, um den(die) Namen der Empfängerseite der Mitteilung (d. h. des Teilnehmers „An:") zu ermitteln. Die Textzusammenfassungseinheit 90 kann dann alle weiteren Wörter in MAIL HEADERn, die den Namen des Teilnehmers „An:" (und eventuell den darauf folgenden TEXT) enthalten, als unwichtig klassifizieren. Diese Operation beruht auf der Annahme, dass der Empfänger der vorliegenden zusammengefassten Mitteilung die vorige Mitteilung (als Absender oder Empfänger) zuvor bereits gesehen hat, da sein Name in einem „Sekundär"-MAIL HEADER erscheint. Bei verschiedenen alternativen Ausführungsarten kann der Name des Teilnehmers „Von:" eine Anzeige auslösen, dass die folgenden Wörter unwichtig sind, oder das Vorliegen eines Teilnehmers „Von:" oder „An:" in einem Sekundär-MAIL HEADER kann zu der Festlegung verwendet werden, dass alle Wörter in einem MAIL HEADER und/oder in dem darauf folgenden TEXT unwichtig sind. Die Behandlung unwichtiger Wörter wird im Folgenden eingehend erörtert.
Nachdem die Mitteilung in dem Prozess in Blöcke aufgeteilt worden ist und die Blöcke nach ihrem Typ und Untertyp markiert wurden, führt die Textzusammenfassungseinheit 90 seriell die ihr zur Verfügung stehenden Befehle aus. Befehle können der Textzusammenfassungseinheit 90 interaktiv erteilt werden oder zur Ausführung im Stapelbetrieb in einer Datei enthalten sein. Befehle bestehen aus Einzelwörtern, die durch ein Leerzeichen voneinander getrennt sind. Parameterzuordnungen bestehen aus einem Namen und einem Wert, die durch ein Gleichheitszeichen voneinander getrennt sind. Zum Beispiel zeigt der Befehl:
ChunkBegin = A*
einen Einzelbefehl an, der dem Zeichenfolgenparameter ChunkBegin den Wert A* zuordnet. Bei einer bevorzugten Ausführungsart sind alle Befehle und Parameternamen fallunabhängig, wobei dies auf die Parameterwerte jedoch nicht zutrifft. Booleschen Parametern können die Werte „wahr", „falsch", „ja", „nein", „0" oder „1" zugewiesen werden. Wenn ein Boolescher Parameter einen Namen, aber keinen Wert zugewiesen erhält, entspricht dies dem Wert „wahr".
Nachdem alle Befehle ausgeführt worden sind oder (durch einen Befehl TRYFIT (GRÖSSE PRÜFEN), siehe unten) festgestellt wurde, dass die Mitteilung beim derzeitigen Verarbeitungsstand die Bedingung der Maximallänge erfüllt, wird der zusammengefasste Text in den Puffer 25 geschrieben. Zuerst wird der Wert des Zeichenfolgenparameters ChunkBegin in den Puffer 25 geschrieben. Der Parameter ChunkBegin zeigt den Anfang eines Blocks an, wie er im Puffer 25 erscheint. Bei einer bevorzugten Ausführungsart kann der Parameter ChunkBegin in der der Textzusammenfassungseinheit 90 zur Verfügung stehenden Befehlsfolge geändert werden, so dass der Empfänger der Mitteilung erfährt, wie stark und auf welche Weise das ursprüngliche Dokument zusammengefasst wurde. Wenn festgestellt wird, dass die Blöcke so verarbeitet worden sind, dass sie für die Ausgabe bereit sind, wird jeder Block mit dem Wert des zwischen je zwei Blöcken geschriebenen Zeichenfolgenparameters ChunkSep in den Puffer 25 geschrieben. Bei einer bevorzugten Ausführungsart wird für das ChunkSep-Zeichen ein Leerzeichen („ ") gesetzt. Alternativ können andere Zeichen verwendet oder der Wert durch den Benutzer gesetzt werden. Nachdem alle Blöcke in den Puffer 25 geschrieben worden sind, wird abschließend der Zeichenfolgeparameter ChunkEnd geschrieben. Der Parameter ChunkEnd zeigt das Ende der in dem Puffer 25 erscheinenden Mitteilung an.
Bei der bevorzugten Ausführungsart werden sowohl für ChunkBegin als auch für ChunkEnd leere Zeichenfolgen als Standardwerte vorgegeben. Der Standardwert für ChunkSep ist ein einzelnes Leerzeichen. Durch Befehle kann diesen Variablen ein beliebiger Zeichenfolgenwert zugewiesen werden, da der Wert jedoch durch Leerzeichen begrenzt wird, darf er kein Leerzeichen enthalten. Der Zeichenfolgenparameter ChunkSep wird einer speziellen Behandlung unterworfen: Die Werte „Leerzeichen", „lf" und „crlf" können zum Anzeigen eines einzelnen Leerzeichens, eines Zeilenvorschubs bzw. eines Zeilenvorschubs mit gleichzeitigem Rücklauf verwendet werden.
Die Textzusammenfassungseinheit 90 fungiert wie oben beschrieben gemäß einer Liste von Befehlen, die sie entweder interaktiv über das Befehlsterminal 45 oder über eine Stapeldatei erhält. Die Lehren der vorliegenden Erfindung werden dem Fachmann durch die Beschreibung der einzelnen für die Funktion der Textzusammenfassungseinheit 90 verfügbaren Befehle verständlich. Eine solche Auflistung und Beschreibung der bei der bevorzugten Ausführungsart der vorliegenden Erfindung verfügbaren Befehle folgt nun.
Befehl: TEXTONLY (NURTEXT)
Dieser Befehl löscht alle Nicht-TEXT-Blöcke aus dem Dokument. Daraus folgt, dass alle nachfolgenden durch die Textzusammenfassungseinheit 90 ausgeführten Operationen mit der Mitteilung nur die verbleibenden TEXT-Blöcke betreffen.
Befehl: COUNTWORDS (WÖRTERZÄHLEN)
Die Wörter in dem Dokument werden gezählt und die Wichtigkeit jedes Wortes ermittelt. Die Wichtigkeit eines Wortes hängt von einer Anzahl im Folgenden beschriebener Faktoren ab.
Befehl: SAVE (SPEICHERN)
Dieser Befehl kann zum Speichern des aktuellen Status der Textzusammenfassungseinheit 90 verwendet werden. Die gespeicherte Information beinhaltet die gesamte zusammenzufassende Textinformation (d. h. das Dokument) und die Werte aller gewählten Parameter sowie die Anzahl der Wörter im Text. Außerdem können Wörterverzeichnisse gespeichert werden, die STOP-Wörter (HALT) und/oder INSIGNIFICANT-Wörter anzeigen. Die Information wird gespeichert, indem sie in einem vorbestimmten Format auf einen Stapel geschoben wird. Die Statusinformation SAVEd (GESPEICHERT) kann mittels des nachfolgenden Befehls „RESTORE" (WIEDERHERSTELLEN) wiederhergestellt werden.
Befehl: RESTORE (WIEDERHERSTELLEN)
Dieser Befehl bewirkt das Löschen des aktuellen Status der Textzusammenfassungseinheit 90 und stellt den Status SAVEd (GESPEICHERT) am oberen Stapelende wieder her. Bei einer bevorzugten Ausführungsart wird der Stapel geöffnet, wenn RESTORE aktiviert wird. Somit kann ein Status SAVEd nur einmal wiederhergestellt werden, obwohl nach dem RESTORE sofort wieder GESPEICHERT werden kann. Wenn der Stapel leer ist, ist der Befehl RESTORE wirkungslos.
Befehl: TRYFIT (GRÖSSEPRÜFEN)
Dieser Befehl ermittelt, ob das Dokument beim derzeitigen Verarbeitungsstand in den maximal zugewiesenen Speicherplatz passt. Wenn dies der Fall ist, wird das gesamte Dokument in den Ausgabepuffer 25 geschrieben. Zu diesem Zeitpunkt werden alle übrigen Befehle ignoriert. Außerdem kann der zusammengefasste Text nach der Speicherung im Ausgabepuffer 25 durch die Funkübertragungseinheit 80 übertragen werden.
Beim Ermitteln, ob das Dokument in den maximal zugewiesenen Speicherplatz passt, berücksichtigt TRYFIT die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd. Als Beispiel werde angenommen, dass der Pagerspeicher ebenso wie der Ausgabepuffer 25 80 Zeichen enthält. Da die Mitteilung bei der Übertragung die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd enthält, darf der eigentliche Text zusammen mit diesen Zeichenfolgen den Umfang von 80 Zeichen nicht übersteigen. Wenn also beispielsweise eine zusammengefasste Mitteilung eine Zeichenfolge ChunkBegin und 5 Zeichenfolgen ChunkSep enthält, die jeweils ein Einzelzeichen umfassen, verbleiben für den eigentlichen Mitteilungstext nur noch 74 Zeichen. In diesem Fall begrenzt der Befehl TRYFIT den Text auf 74 Zeichen.
Befehl: ABBREV (ABKÜRZEN)
Dieser Befehl dient dem Abkürzen des Dokumenttextes. Der Prozess wird durch fünf im Folgenden erörterte Parameter gesteuert.
Befehl: SORTCHUNKS (BLÖCKESORTIEREN)
Wenn dieser Befehl ausgeführt wird, werden die Blöcke des Dokuments entsprechend ihrer Wichtigkeit sortiert. Die Wichtigkeit eines Blocks basiert auf einer Reihe von Faktoren, darunter die Wichtigkeit der Wörter in dem Block, die Anzahl von Wörtern in dem Block sowie die Art und die Position des Blocks. Die Ausführung dieses Befehls wird im Folgenden eingehend beschrieben.
Befehl: NOSTOPLIST (KEINEHALTLISTE)
Dieser Befehl setzt die Verwendung der STOP-Liste außer Kraft, welche diejenigen Wörter enthält, die durch einen Benutzer oder den Systemadministrator als ständig INSIGNIFICANT eingestuft wurden. Diese Wörter sind von der Berechnung der Wichtigkeit ausgeschlossen, wie im Folgenden erklärt wird. Zu den in der STOP-Liste enthaltenen Wörtern gehören beispielsweise „der", „und" und „von". Die STOP-Liste wird aus einer Datei (vorzugsweise aus der Datei stoplist.txt) gelesen, die eine formlose Liste von STOP-Wörtern enthält.
Befehl: NOSIGLIST (KEINEWICHTIGKEITSLISTE)
Dieser Befehl setzt die Verwendung der Liste wichtiger Wörter (SIGNIFICANT) außer Kraft, welche diejenigen Wörter enthält, die als ständig wichtig (SIGNIFICANT) angesehen werden. Zu solchen Wörtern gehören beispielsweise „dringend", „wichtig" und „Vorrang". Die Wortliste SIGNIFICANT dient standardmäßig dazu, während der Berechnung der Wichtigkeit die Wichtigkeit dieser Wörter hervorzuheben. Die Wortliste SIGNIFICANT ist vorzugsweise in einer Datei mit der Bezeichnung siglist.txt enthalten, welche eine formlose Liste durch einen Benutzer oder einen Systemadministrator gewählter wichtiger Wörter darstellt.
Nachdem die Bedeutung der obigen Befehle bekannt ist, wird nun die Textzusammenfassungseinheit 90 gemäß einer bevorzugten Ausführungsart der vorliegenden Erfindung beschrieben.
Zuerst wird wie oben beschrieben ein Dokument verarbeitet, indem es in Blöcke eingeteilt wird. Nach dem Einteilen in Blöcke kann ein Befehl COUNTWORDS (WÖRTERZÄHLEN) ausgeführt werden. Es gibt sechs Kombinationen von Blocktyp/-untertyp, in denen Wörter auftreten können:

1) MAIL HEADER/INSIGNIFICANT
2) MAIL HEADER/INSIGNIFICANT
3) TEXT/FIRST
4) TEXT/LAST
5) TEXT/ONLY
6) TEXT/OTHER

Diese Kombinationen stellen alle Blocktypen und -untertypen außer dem Blocktyp PUNCTUATION dar. Somit würde ein Befehl COUNTWORDS alle Blöcke mit einer der obigen sechs Kombinationen von Blocktyp/-untertyp aufteilen. Bei einer bevorzugten Ausführungsart ist ein Befehl TEXTONLY (NURTEXT) enthalten, so dass alle PUNCTUATION-Daten sofort entfernt werden. Da die Blöcke als Reaktion auf den Befehl COUNTWORDS aufgeteilt werden, wird für jedes in dem Dokument auftauchende Wort dessen Wichtigkeit ermittelt. Dies ist, wie später erörtert wird, sowohl für das Ordnen der Blöcke als auch für das Entfernen bestimmter Wörter aus der Mitteilung vor der Übertragung erforderlich.
Die Wichtigkeit der Wörter wird anhand der folgenden sechs Parameter ermittelt:

1) cw-FirstInPar;
2) cw-LastInPar;
3) cw-OnlyInPar;
4) cw-OtherInPar;
5) cw-Header; und
6) cw-SigHeader.

Jedem der Parameter wird ein Standardwert zugewiesen, obwohl dieser Wert durch einen Benutzer und/oder Systemadministrator geändert werden kann. Bei der bevorzugten Ausführungsart werden die folgenden Standardwerte verwendet:
cw-FirstInPar = 2;
cw-LastInPar = 2;
cw-OnlyInPar = 2;
cw-OtherInPar = 1;
cw-Header = 0; und
cw-SigHeader = 3.
Jedes Mal, wenn ein bestimmtes Wort an einer Stelle erscheint, die einem der obigen Parameter entspricht, werden diesem Wort auf Basis des zugeordneten Parameterwerts „Punkte" zugeordnet. Zum Beispiel erhält jedes Mal, wenn das Wort „FOOTBALL" (FUSSBALL) in einem Block erscheint, der der erste Block in einem Absatz ist (FirstInPar), das Wort „FOOTBALL" zwei Punkte (ausgehend von den obigen Standardwerten). Jedes weitere Auftreten des Wortes „FOOTBALL" führt auf Basis seiner Stellung in einem anderen Block zu einigen weiteren Punkten. Der Parameter cw-OtherInPar entspricht Wörtern, die in TEXT-Blöcken vorkommen, welche weder die ersten noch die letzten Sätze in einem Absatz sind. Der Parameter cw-OnlyInPar entspricht Wörtern, die in Blöcken vorkommen, welche den einzigen Satz eines bestimmten Absatzes ausmachen. Der Parameter cw-Header entspricht Wörtern, die in MAIL HEADER/INSIGNIFICANT-Blöcken (SENDEKOPF/UNWESENTLICH) vorkommen. Und schließlich entspricht der Parameter cw-SigHeader Wörtern, die in MAIL HEADER/SIGNIFICANT-Blöcken (SENDEKOPF/WESENTLICH) vorkommen.
Nach Summieren aller auf Basis dieser Parameter für ein Wort erhaltenen Punkte wird dieser Gesamtwert mit dem Parameter cw-MinPoints verglichen. Bei der bevorzugten Ausführungsart beträgt der Standardwert für cw-MinPoints 3, obwohl dieser Wert durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen Standardwert gesetzt werden kann. Wenn das Wort den Schwellenwert cw-MinPoints nicht erreicht, wird seiner Wichtigkeit der wert von cw-InfreqSig zugewiesen. Bei der bevorzugten Ausführungsart ist der Standardwert von cw-InfrequSig gleich 0, obwohl dieser Wert durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen Standardwert gesetzt werden kann. Wenn die Mindestpunktzahl erreicht wurde, wird die den Mindestwert übersteigende Punktzahl mit dem Wert cw-Factor multipliziert und das Ergebnis zu dem wert cw-BaseValue addiert. Bei der bevorzugten Ausführungsart ist der Standardwert von cw-Factor gleich 1 und der Standardwert von cw-BaseValue gleich 0, obwohl diese Werte durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen Standardwert gesetzt werden können. Der sich aus den obigen Berechnungen ergebende Wert ergibt die Wichtigkeit für dieses Wort.
Man beachte, dass der obige Prozess mit einem Wort nicht durchgeführt wird, wenn sich dieses bestimmte Wort in der STOP-Liste (ständig INSIGNIFICANT) befindet und der Befehl NOSTOPLIST nicht aktiv ist. Wenn der Befehl NOSTOPLIST nicht aktiv ist und ein Wort in der STOP-Liste enthalten ist, wird dem Wort sofort ein Wichtigkeitswert von cw-StopSig zugewiesen. Der Standardwert von cw-StopSig ist vorzugsweise gleich null.
Als Nächstes wird der Befehl ABBREV (ABKÜRZEN) erörtert. Dieser Befehl bewirkt wie oben beschrieben, dass der Dokumenttext vor dem Speichern im Puffer 25 abgekürzt wird. Der Prozess wird durch fünf Parameter gesteuert. Der erste Parameter ist ab-UseDict. Wenn dieser Parameter wahr ist (Standardeinstellung), wird aus einer vorzugsweise abbrev.txt genannten Datei eine Abkürzungstabelle gelesen. Jedes Wort des Dokumentes, das in dieser Abkürzungstabelle vorkommt, wird durch die entsprechende in der Tabelle enthaltene Abkürzung ersetzt. Bei einer bevorzugten Ausführungsart enthält jede Zeile von abbrev.txt zwei Wörter. Das erste Wort ist das ursprüngliche Wort und das zweite Wort dessen entsprechende Abkürzung. Bei einer bevorzugten Ausführungsart ersetzt die Textzusammenfassungseinheit 90, wenn der Ersatz vorgenommen wird, das ursprüngliche, nicht abgekürzte Wort durch das Ersatzwort.
Ein weiteres wünschenswertes Merkmal der Funktion ABBREV besteht darin, dass Ausdrücke abgekürzt werden können (d. h., eine Abkürzung ersetzt mehr als ein Wort). Zum Beispiel können in der Datei abbrev.txt verschiedene Ausdrücke wie beispielsweise „New York" mit der entsprechenden Abkürzung „NY" enthalten sein.
Der zweite Parameter ist ab-DropVowels (Vokale weglassen). Wenn dieser Parameter wahr (nicht der Standardwert) ist, wird jedes Wort, das in der Datei abbrev.txt nicht für eine Abkürzung vorgesehen ist, in der zusammengefassten Mitteilung dadurch abgekürzt, dass alle Vokale aus dem Wort entfernt werden. Der dritte Parameter ist ab-DropFirstVowels (erste Vokale weglassen). Wenn dieser Parameter wahr (nicht der Standardwert) ist, werden Vokale auch dann weggelassen, wenn sie der erste Buchstabe in einem Wort sind, ansonsten bleiben sie erhalten.
Der vierte Parameter ist ab-TrimWhite (Leerzeichen reduzieren). Wenn dieser Parameter wahr (der Standardwert) ist, werden mehrere Leerzeichen durch ein einziges Leerzeichen ersetzt. Und schließlich ist der letzte Parameter ab-TrimPunct (Interpunktionsleerzeichen reduzieren). Wenn dieser Parameter wahr (nicht der Standardwert) ist, werden alle Leerzeichen neben Interpunktionszeichen entfernt.
Als Nächstes wird der Befehl SORTCHUNKS (Blöcke ordnen) erörtert. Bei einer bevorzugten Ausführungsart werden wie oben erörtert die Blöcke in dem zusammengefassten Dokument gegenüber dem ursprünglichen Dokument nach ihrer Wichtigkeit neu geordnet. Bei einer bevorzugten Ausführungsart wird das zusammengefasste Dokument so geordnet, dass die wichtigsten Blöcke zuerst erscheinen. Die Wichtigkeit der Blöcke wird aus der Gesamtwichtigkeit der in dem Block enthaltenen Wörter, der Anzahl der Wörter in dem Block sowie dem Typ und dem Untertyp des Blocks ermittelt. Wenn ein Block weniger Wörter als sc-MinLength besitzt, wird seine Wichtigkeit auf sc-ShortSig gesetzt. Der bevorzugte Standardwert für sc-MinLength ist 4, und der Standardwert für sc-ShortSig ist 0.
Nimmt man an, dass ein Block den Schwellenwert sc-MinLength erreicht, wird seine Wichtigkeit ausgehend von einem Wichtigkeitsgrundwert ermittelt. Der zugewiesene Wichtigkeitsgrundwert wird anhand der Blockposition ermittelt. Der Parameter sc-FirstInPar zeigt einen Block an, der der erste Satz in einem Absatz ist, der Parameter sc-LastInPar zeigt einen Block an, der der letzte Satz in einem Absatz ist, der Parameter sc-OnlyInPar zeigt einen Block an, der der einzige Satz eines Absatzes ist, und der Parameter sc-OtherInPar zeigt einen Block an, der ein „mittlerer" Block in einem Absatz ist. Die Standardwerte für jeden dieser Parameter sind:
sc-FirstInPar = 0;
sc-LastInPar = 0;
sc-OnlyInPar = 0; und
sc-OtherInPar = 0.
Wenn der Befehl COUNTWORDS zuvor ausgeführt worden ist, wird außerdem die Summe der Wichtigkeiten der in dem Block enthaltenen Wörter gebildet und zu dem Wichtigkeitsgrundwert für den Block addiert, um den Wichtigkeitsgesamtwert für den Block zu erhalten. Jeder der Blöcke kann dann in der Reihenfolge der Wichtigkeiten in den Ausgabepuffer 25 verschoben werden.
Ein weiteres Merkmal, das im Zusammenfassungsprozess wünschenswert ist, ist die Fähigkeit, bestimmte Wörter ganz zu entfernen (OMIT WORDS). In diesem Fall erscheinen die in einer Datei (z. B. omitwds.txt) enthaltenen zu entfernenden Wörter überhaupt nicht in dem zusammengefassten Text, selbst wenn sie in einem Block vorkommen, der ansonsten wichtig genug ist, dass er in den Ausgabepuffer 25 verschoben wird. Durch Entfernen dieser Wörter kann in dem Ausgabepuffer 25 zusätzlicher Platz für weniger wichtige Blöcke geschaffen werden, die sonst nicht in den Ausgabepuffer 25 kämen.
Ein weiteres Merkmal, das in der Textzusammenfassungseinheit 90 realisiert werden kann, sind Klammerausdrücke. Solche Ausdrücke lassen sich verarbeiten, indem man den Gesamtwert für den Block ermittelt, in dem der Klammerausdruck enthalten ist. Dies wird wie oben erörtert erreicht, indem man die Gesamtwichtigkeit aller in dem Block enthaltenen Wörter einschließlich der in dem Klammerausdruck enthaltenen Wörter ermittelt. Dann wird die Gesamtwichtigkeit des Blocks ohne die Wörter in dem Klammerausdruck ermittelt. Es wird ein Differenzschwellenwert festgelegt, und wenn die einzelnen Wichtigkeiten kleiner als der Schwellenwert sind, kann der Klammerausdruck im zusammengefassten Text weggelassen werden, da sich dann kein großer Unterschied ergibt. Wenn jedoch die Differenz der Wichtigkeiten den Schwellenwert erreicht oder übersteigt, bleibt der Klammerausdruck erhalten.
In den 4(a), 4(b) und 4(c) sind Beispiele von Befehlssätzen angegeben, und die durch die Textzusammenfassungseinheit auf Basis der Befehlssätze ausgeführte Verarbeitung wird beschrieben.
Der Befehl TEXTONLY (NURTEXT) wird zum Entfernen aller Sendeköpfe und Interpunktionszeilen verwendet. Nach dessen Ausführung ermittelt der Befehl TRYFIT, ob das Dokument kurz genug ist. Man beachte, dass es keine Rolle spielt, ob das Dokument bereits mit den Sendeköpfen kurz genug war; die Länge wird erst nach dem Entfernen der Sendeköpfe geprüft. Als Nächstes werden die Parameter ab-trimwhite und ab-trimpunct auf wahr gesetzt, um die Vorbereitung für den späteren Befehl ABBREV zu treffen.
Der Befehl SAVE speichert alle Statusinformationen bis zum nächsten Befehl RESTORE. Er wird hier verwendet, da es wünschenswert ist zu versuchen, das Dokument abzukürzen, bevor die Blöcke anhand deren Wichtigkeit neu geordnet werden. Die Befehle SAVE und RESTORE ermöglichen, das Dokument abzukürzen und dennoch in den nicht abgekürzten Zustand zurückzukehren, wenn sich herausstellt, dass das Dokument trotz des Abkürzens nicht in den erforderlichen Speicherplatz passt. Man kann nicht ohne Verwendung der Befehle SAVE und RESTORE abkürzen und die Wichtigkeiten berechnen, da die abgekürzten Wörter wahrscheinlich nicht richtig erkannt werden, wenn die Berechnung der Wichtigkeit erneut durchgeführt wird.
ChunkBegin wird auf a* (für „nur abgekürzt") gesetzt, so dass der übertragene Text als Zeichen für den Empfänger des Dokuments am Anfang durch ein „a*" markiert wird, wenn das Abkürzen ausreicht, dass das Dokument in den Speicherplatz passt. Wenn das Abkürzen allein nicht ausreicht, wird ChunkBegin später auf „s*" gesetzt, um anzuzeigen, dass der Text entsprechend der Wichtigkeit geordnet und ausgewählt wurde. Wenn man mit den wichtigsten Blöcken beginnt und mit den weniger wichtigen Blöcken fortfährt, kann es somit vorkommen, dass einige der weniger wichtigen Blöcke von der Übertragung ausgeschlossen werden, wenn der Puffer 25 mit wichtigeren Blöcken gefüllt wird.
Der Befehl ABBREV kürzt dann den Text ab, und der Befehl TRYFIT prüft, ob das Dokument jetzt kurz genug ist. Wenn dies der Fall ist, schreibt die Textzusammenfassungseinheit 90 den Text in den Puffer 25, und die Mitteilung wird durch die Funkübertragungseinheit 80 übertragen. Ansonsten setzt die Textzusammenfassungseinheit 90 ihre Arbeit mit dem Befehl RESTORE fort, der auf den früheren Status SAVE, das heißt vor dem Abkürzen, zurücksetzt.
ChunkBegin wird auf „s*" gesetzt, um anzuzeigen, dass das Ordnen und Auswählen erfolgt ist, und ChunkSep wird in eine Befehlskette eingebunden, um dem Empfänger der Mitteilung ferner anzuzeigen, dass Teile der Mitteilung neu geordnet worden sind. Dann wird der Befehl COUNTWORDS ausgeführt, um die Wichtigkeit der Wörter und Blöcke zu berechnen, und dann wird der Text anhand der Wichtigkeit der Blöcke neu geordnet. Abschließend wird der Text durch den Befehl ABBREV ein wenig verkleinert, und die Ausführung der Befehle wird abgeschlossen. Die Textzusammenfassungseinheit 90 schreibt dann den Text, sofern er für die Übertragung durch die Funkübertragungseinheit 80 geeignet ist, in den Puffer 25.
Durch eine alternative bevorzugte Ausführungsart ist auch eine noch weitere Komprimierung des Dokumentgröße möglich. Bei einer solchen alternativen bevorzugten Ausführungsart werden alle oben beschriebenen Verarbeitungsschritte durchgeführt. Insbesondere können das Abkürzen, das Neuordnen der Blöcke und das Entfernen der Sendeköpfe durchgeführt werden. Außerdem wird bei dieser alternativen bevorzugten Ausführungsart eine zusätzliche Komprimierung des Dokuments erreicht, indem ausgewählte Wörter aus dem Dokument entfernt werden. Dies kann entweder vor oder nach dem obigen Prozess geschehen. Zum Beispiel können vor dem Abkürzungsschritt und/oder vor dem Neuordnen der Blöcke relativ unbedeutende Wörter entfernt werden. Alternativ können nach dem Abkürzungsschritt und/oder vor dem Neuordnen der Blöcke relativ unbedeutende Wörter entfernt werden.
Bei dieser Ausführungsart wird der Befehl COUNTWORDS zu einem wünschenswerten Zeitpunkt innerhalb des Befehlsscripts ausgeführt. Die Ausführung des Befehls COUNTWORDS hat so zu erfolgen, dass jedem Wort in dem Dokument ein Wichtigkeitswert zugewiesen werden kann. wenn dies erfolgt ist, können Wörter mit einem Wichtigkeitswert unterhalb eines bestimmten vorgegebenen Schwellenwertes aus der zusammengefassten Mitteilung entfernt werden. Wenn das Neuordnen der Blöcke vor dem Entfernen von Wörtern erfolgt, können Wörter während der Entfernungsphase auf Basis ihrer relativ hohen Wichtigkeit ausgewählt werden, damit sie in der zusammengefassten Mitteilung verbleiben. Wenn zum Beispiel der verfügbar Speicherplatz 80 Zeichen umfasst und nach dem Neuordnen der Blöcke (und eventuell nach dem Abkürzungsschritt) alle Wörter 90 Zeichen umfassen, können anstelle des unwichtigsten Blocks Wörter bis zu einem Umfang von insgesamt zehn Zeichen aus der Mitteilung entfernt werden. Die entfernten Wörter können von mehreren Blöcken stammen. Durch Entfernen der unwichtigen Wörter kann es sich erübrigen, den unwichtigsten Block insgesamt zu entfernen.
Die Erfindung ist in Verbindung mit den bevorzugten Ausführungsarten eingehend beschrieben worden. Diese Ausführungsarten stellen jedoch lediglich ein Beispiel dar, und die Erfindung ist nicht darauf beschränkt. Dem Fachmann ist klar, dass im Rahmen des durch die beigefügten Ansprüche definierten Geltungsbereichs der vorliegenden Erfindung weitere Abwandlungen und Änderungen einfach vorgenommen werden können.
der Empfängerseite der Mitteilung (d. h. des Teilnehmers „An:") zu ermitteln. Die Textzusammenfassungseinheit 90 kann dann alle weiteren Wörter in MAIL HERDERn, die den Namen des Teilnehmers „An:" (und eventuell den darauf folgenden TEXT) enthalten, als unwichtig klassifizieren. Diese Operation beruht auf der Annahme, dass der Empfänger der vorliegenden zusammengefassten Mitteilung die vorige Mitteilung (als Absender oder Empfänger) zuvor bereits gesehen hat, da sein Name in einem „Sekundär"-MAIL HEADER erscheint. Bei verschiedenen alternativen Ausführungsarten kann der Name des Teilnehmers „Von:" eine Anzeige auslösen, dass die folgenden Wörter unwichtig sind, oder das Vorliegen eines Teilnehmers „Von:" oder „An:" in einem Sekundär-MAIL HEADER kann zu der Festlegung verwendet werden, dass alle Wörter in einem MAIL HEADER und/oder in dem darauf folgenden TEXT unwichtig sind. Die Behandlung unwichtiger Wörter wird im Folgenden eingehend erörtert.
Nachdem die Mitteilung in dem Prozess in Blöcke aufgeteilt worden ist und die Blöcke nach ihrem Typ und Untertyp markiert wurden, führt die Textzusammenfassungseinheit 90 seriell die ihr zur Verfügung stehenden Befehle aus. Befehle können der Textzusammenfassungseinheit 90 interaktiv erteilt werden oder zur Ausführung im Stapelbetrieb in einer Datei enthalten sein. Befehle bestehen aus Einzelwörtern, die durch ein Leerzeichen voneinander getrennt sind. Parameterzuordnungen bestehen aus einem Namen und einem Wert, die durch ein Gleichheitszeichen voneinander getrennt sind. Zum Beispiel zeigt der Befehl:
ChunkBegin = A*
einen Einzelbefehl an, der dem Zeichenfolgenparameter ChunkBegin den Wert A* zuordnet. Bei einer bevorzugten Ausführungsart sind alle Befehle und Parameternamen fallunabhängig, wobei dies auf die Parameterwerte jedoch nicht zutrifft. Boolesche Parametern können die Werte „wahr", „falsch", „ja", „nein", „0" oder „1" zugewiesen werden. Wenn ein Boolescher Parameter einen Namen, aber keinen Wert zugewiesen erhält, entspricht dies dem Wert „wahr".
Nachdem alle Befehle ausgeführt worden sind oder (durch einen Befehl TRYFIT (GRÖSSE PRÜFEN), siehe unten) festgestellt wurde, dass die Mitteilung beim derzeitigen Verarbeitungsstand die Bedingung der Maximallänge erfüllt, wird der zusammengefasste Text in den Puffer 25 geschrieben. Zuerst wird der wert des Zeichenfolgenparameters ChunkBegin in den Puffer 25 geschrieben. Der Parameter ChunkBegin zeigt den Anfang eines Blocks an, wie er im Puffer 25 erscheint. Bei einer bevorzugten Ausführungsart kann der Parameter ChunkBegin in der der Textzusammenfassungseinheit 90 zur Verfügung stehenden Befehlsfolge geändert werden, so dass der Empfänger der Mitteilung erfährt, wie stark und auf welche Weise das ursprüngliche Dokument zusammengefasst wurde. Wenn festgestellt wird, dass die Blöcke so verarbeitet worden sind, dass sie für die Ausgabe bereit sind, wird jeder Block mit dem Wert des zwischen je zwei Blöcken geschriebenen Zeichenfolgenparameters ChunkSep in den Puffer 25 geschrieben. Bei einer bevorzugten Ausführungsart wird für das ChunkSep-Zeichen ein Leerzeichen („ ") gesetzt. Alternativ können andere Zeichen verwendet oder der Wert durch den Benutzer gesetzt werden. Nachdem alle Blöcke in den Puffer 25 geschrieben worden sind, wird abschließend der Zeichenfolgeparameter ChunkEnd geschrieben. Der Parameter ChunkEnd zeigt das Ende der in dem Puffer 25 erscheinenden Mitteilung an.
Bei der bevorzugten Ausführungsart werden sowohl für ChunkBegin als auch für ChunkEnd leere Zeichenfolgen als Standardwerte vorgegeben. Der Standardwert für ChunkSep ist ein einzelnes Leerzeichen. Durch Befehle kann diesen Variablen ein beliebiger Zeichenfolgenwert zugewiesen werden, da der wert jedoch durch Leerzeichen begrenzt wird, darf er kein Leerzeichen enthalten. Der Zeichenfolgenparameter ChunkSep wird einer speziellen Behandlung unterworfen: Die Werte „Leerzeichen", „lf" und „crlf" können zum Anzeigen eines einzelnen Leerzeichens, eines Zeilenvorschubs bzw. eines Zeilenvorschubs mit gleichzeitigem Rücklauf verwendet werden.
Die Textzusammenfassungseinheit 90 fungiert wie oben beschrieben gemäß einer Liste von Befehlen, die sie entweder interaktiv über das Befehlsterminal 45 oder über eine Stapeldatei erhält. Die Lehren der vorliegenden Erfindung werden dem Fachmann durch die Beschreibung der einzelnen für die Funktion der Textzusammenfassungseinheit 90 verfügbaren Befehle verständlich. Eine solche Auslistung und Beschreibung der bei der bevorzugten Ausführungsart der vorliegenden Erfindung verfügbaren Befehle folgt nun.
Befehl: TEXTONLY (NURTEXT)
Dieser Befehl löscht alle Nicht-TEXT-Blöcke aus dem Dokument. Daraus folgt, dass alle nachfolgenden durch die Textzusammenfassungseinheit 90 ausgeführten Operationen mit der Mitteilung nur die verbleibenden TEXT-Blöcke betreffen.
Befehl: COUNTWORDS (WÖRTERZÄHLEN)
Die Wörter in dem Dokument werden gezählt und die Wichtigkeit jedes Wortes ermittelt. Die Wichtigkeit eines Wortes hängt von einer Anzahl im Folgenden beschriebener Faktoren ab.
Befehl: SAVE (SPEICHERN)
Dieser Befehl kann zum Speichern des aktuellen Status der Textzusammenfassungseinheit 90 verwendet werden. Die gespeicherte Information beinhaltet die gesamte zusammenzufassende Textinformation (d. h. das Dokument) und die Werte aller gewählten Parameter sowie die Anzahl der Wörter im Text. Außerdem können Wörterverzeichnisse gespeichert werden, die STOP-Wörter (HALT) und/oder INSIGNIFICANT-Wörter anzeigen. Die Information wird gespeichert, indem sie in einem vorbestimmten Format auf einen Stapel geschoben wird. Die Statusinformation SAVEd (GESPEICHERT) kann mittels des nachfolgenden Befehls „RESTORE" (WIEDERHERSTELLEN) wiederhergestellt werden.
Befehl: RESTORE (WIEDERHERSTELLEN)
Dieser Befehl bewirkt das Löschen des aktuellen Status der Textzusammenfassungseinheit 90 und stellt den Status SAVEd (GESPEICHERT) am oberen Stapelende wieder her. Bei einer bevorzugten Ausführungsart wird der Stapel geöffnet, wenn RESTORE aktiviert wird. Somit kann ein Status SAVEd nur einmal wiederhergestellt werden, obwohl nach dem RESTORE sofort wieder GESPEICHERT werden kann. Wenn der Stapel leer ist, ist der Befehl RESTORE wirkungslos.
Befehl: TRYFIT (GRÖSSEPRÜFEN)
Dieser Befehl ermittelt, ob das Dokument beim derzeitigen Verarbeitungsstand in den maximal zugewiesenen Speicherplatz passt. Wenn dies der Fall ist, wird das gesamte Dokument in den Ausgabepuffer 25 geschrieben. Zu diesem Zeitpunkt werden alle übrigen Befehle ignoriert. Außerdem kann der zusammengefasste Text nach der Speicherung im Ausgabepuffer 25 durch die Funkübertragungseinheit 80 übertragen werden.
Beim Ermitteln, ob das Dokument in den maximal zugewiesenen Speicherplatz passt, berücksichtigt TRYFIT die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd. Als Beispiel werde angenommen, dass der Pagerspeicher ebenso wie der Ausgabepuffer 25 80 Zeichen enthält. Da die Mitteilung bei der Übertragung die Zeichenfolgen ChunkBegin, ChunkSep und ChunkEnd enthält, darf der eigentliche Text zusammen mit diesen Zeichenfolgen den Umfang von 80 Zeichen nicht übersteigen. Wenn also beispielsweise eine zusammengefasste Mitteilung eine Zeichenfolge ChunkBegin und 5 Zeichenfolgen ChunkSep enthält, die jeweils ein Einzelzeichen umfassen, verbleiben für den eigentlichen Mitteilungstext nur noch 74 Zeichen. In diesem Fall begrenzt der Befehl TRYFIT den Text auf 74 Zeichen.
Befehl: ABBREV (ABKÜRZEN)
Dieser Befehl dient dem Abkürzen des Dokumenttextes. Der Prozess wird durch fünf im Folgenden erörterter Parameter gesteuert.
Befehl: SORTCHUNKS (BLÖCKESORTIEREN)
Wenn dieser Befehl ausgeführt wird, werden die Blöcke des Dokuments entsprechend ihrer Wichtigkeit sortiert. Die Wichtigkeit eines Blocks basiert auf einer Reihe von Faktoren, darunter die Wichtigkeit der Wörter in dem Block, die Anzahl von Wörtern in dem Block sowie die Art und die Position des Blocks. Die Ausführung dieses Befehls wird im Folgenden eingehend beschrieben.
Befehl: NOSTOPLIST (KEINEHALTLISTE)
Dieser Befehl setzt die Verwendung der STOP-Liste außer Kraft, welche diejenigen Wörter enthält, die durch einen Benutzer oder den Systemadministrator als ständig INSIGNIFICANT eingestuft wurden. Diese Wörter sind von der Berechnung der Wichtigkeit ausgeschlossen, wie im Folgenden erklärt wird. Zu den in der STOP-Liste enthaltenen Wörtern gehören beispielsweise „der", „und" und „von". Die STOP-Liste wird aus einer Datei (vorzugsweise aus der Datei stoplist.txt) gelesen, die eine formlose Liste von STOP-Wörtern enthält.
Befehl: NOSIGLIST (KEINEWICHTIGKEITSLISTE)
Dieser Befehl setzt die Verwendung der Liste wichtiger Wörter (SIGNIFICANT) außer Kraft, welche diejenigen Wörter enthält, die als ständig wichtig (SIGNIFICANT) angesehen werden. Zu solchen Wörtern gehören beispielsweise „dringend", „wichtig" und „Vorrang". Die Wortliste SIGNIFICANT dient standardmäßig dazu, während der Berechnung der Wichtigkeit die Wichtigkeit dieser Wörter hervorzuheben. Die Wortliste SIGNIFICANT ist vorzugsweise in einer Datei mit der Bezeichnung siglist.txt enthalten, welche eine formlose Liste durch einen Benutzer oder einen Systemadministrator gewählter wichtiger Wörter darstellt.
Nachdem die Bedeutung der obigen Befehle bekannt ist, wird nun die Textzusammenfassungseinheit 90 gemäß einer bevorzugten Ausführungsart der vorliegenden Erfindung beschrieben.
Zuerst wird wie oben beschrieben ein Dokument verarbeitet, indem es in Blöcke eingeteilt wird. Nach dem Einteilen in Blöcke kann ein Befehl COUNTWORDS (WÖRTERZÄHLEN) ausgeführt werden. Es gibt sechs Kombinationen von Blocktyp/-untertyp, in denen Wörter auftreten können:

Jedem der Parameter wird ein Standardwert zugewiesen, obwohl dieser Wert durch einen Benutzer und/oder Systemadministrator geändert werden kann. Bei der bevorzugten Ausführungsart werden die folgenden Standardwerte verwendet:
cw-FirstInPar = 2;
cw-LastInPar = 2;
cw-OnlyInPar = 2;
cw-OtherInPar = 1;
cw-Header = 0; und
cw-SigHeader = 3.
Jedes Mal, wenn ein bestimmtes Wort an einer Stelle erscheint, die einem der obigen Parameter entspricht, werden diesem Wort auf Basis des zugeordneten Parameterwerts „Punkte" zugeordnet. Zum Beispiel erhält jedes Mal, wenn das Wort „FOOTBALL" (FUSSBALL) in einem Block erscheint, der der erste Block in einem Absatz ist (FirstInPar), das Wort „FOOTBALL" zwei Punkte (ausgehend von den obigen Standardwerten). Jedes weitere Auftreten des Wortes „FOOTBALL" führt auf Basis seiner Stellung in einem anderen Block zu einigen weiteren Punkten. Der Parameter cw-OtherInPar entspricht Wörtern, die in TEXT-Blöcken vorkommen, welche weder die ersten noch die letzten Sätze in einem Absatz sind. Der Parameter cw-OnlyInPar entspricht Wörtern, die in Blöcken vorkommen, welche den einzigen Satz eines bestimmten Absatzes ausmachen. Der Parameter cw-Header entspricht Wörtern, die in MAIL HEADER/INSIGNIFICANT-Blöcken (SENDEKOPF/UNWESENTLICH) vorkommen. Und schließlich entspricht der Parameter cw-SigHeader Wörtern, die in MAIL HEADER/SIGNIFICANT-Blöcken (SENDEKOPF/WESENTLICH) vorkommen.
Nach Summieren aller auf Basis dieser Parameter für ein Wort erhaltenen Punkte wird dieser Gesamtwert mit dem Parameter cw-MinPoints verglichen. Bei der bevorzugten Ausführungsart beträgt der Standardwert für cw-MinPoints 3, obwohl dieser Wert durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen Standardwert gesetzt werden kann. Wenn das Wort den Schwellenwert cw-MinPoints nicht erreicht, wird seiner Wichtigkeit der Wert von cw-InfreqSig zugewiesen. Bei der bevorzugten Ausführungsart ist der Standardwert von cw-InfrequSig gleich 0, obwohl dieser Wert durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen Standardwert gesetzt werden kann. Wenn die Mindestpunktzahl erreicht wurde, wird die den Mindestwert übersteigende Punktzahl mit dem Wert cw-Factor multipliziert und das Ergebnis zu dem Wert cw-BaseValue addiert. Bei der bevorzugten Ausführungsart ist der Standardwert von cw-Factor gleich 1 und der Standardwert von cw-BaseValue gleich 0, obwohl diese Werte durch einen Benutzer oder Systemadministrator geändert oder auf einen anderen Standardwert gesetzt werden können. Der sich aus den obigen Berechnungen ergebende Wert ergibt die Wichtigkeit für dieses Wort.
Man beachte, dass der obige Prozess mit diesem Wort nicht durchgeführt wird, wenn sich ein bestimmtes Wort in der STOP-Liste (ständig INSIGNIFICANT) befindet und der Befehl NOSTOPLIST nicht aktiv ist. Wenn der Befehl NOSTOPLIST nicht aktiv ist und ein Wort in der STOP-Liste enthalten ist, wird dem Wort sofort ein Wichtigkeitswert von cw-StopSig zugewiesen. Der Standardwert von cw-StopSig ist vorzugsweise gleich null.
Als Nächstes wird der Befehl ABBREV (ABKÜRZEN) erörtert. Dieser Befehl bewirkt wie oben beschrieben, dass der Dokumenttext vor dem Speichern im Puffer 25 abgekürzt wird. Der Prozess wird durch fünf Parameter gesteuert. Der erste Parameter ist ab-UseDict. Wenn dieser Parameter wahr ist (Standardeinstellung), wird aus einer vorzugsweise abbrev.txt genannten Datei eine Abkürzungstabelle gelesen. Jedes Wort des Dokumentes, das in dieser Abkürzungstabelle vorkommt, wird durch die entsprechende in der Tabelle enthaltene Abkürzung ersetzt. Bei einer bevorzugten Ausführungsart enthält jede Zeile von abbrev.txt zwei Wörter. Das erste Wort ist das ursprüngliche Wort und das zweite Wort dessen entsprechende Abkürzung. Bei einer bevorzugten Ausführungsart ersetzt die Textzusammenfassungseinheit 90, wenn der Ersatz vorgenommen wird, das ursprüngliche, nicht abgekürzte Wort durch das Ersatzwort.
Ein weiteres wünschenswertes Merkmal der Funktion ABBREV besteht darin, dass Ausdrücke abgekürzt werden können (d. h., eine Abkürzung ersetzt mehr als ein Wort). Zum Beispiel können in der Datei abbrev.txt verschiedene Ausdrücke wie beispielsweise „New York" mit der entsprechenden Abkürzung „NY" enthalten sein.
Der zweite Parameter ist ab-DropVowels (Vokale weglassen). Wenn dieser Parameter wahr (nicht der Standardwert) ist, wird jedes Wort, das in der Datei abbrev.txt nicht für eine Abkürzung vorgesehen ist, in der zusammengefassten Mitteilung dadurch abgekürzt, dass alle Vokale aus dem Wort entfernt werden. Der dritte Parameter ist ab-DropFirstVowels (erste Vokale weglassen). Wenn dieser Parameter wahr (nicht der Standardwert) ist, werden Vokale auch dann weggelassen, wenn sie der erste Buchstabe in einem Wort sind, ansonsten bleiben sie erhalten.
Der vierte Parameter ist ab-TrimWhite (Leerzeichen reduzieren). Wenn dieser Parameter wahr (der Standardwert) ist, werden mehrere Leerzeichen durch ein einziges Leerzeichen ersetzt. Und schließlich ist der letzte Parameter ab-TrimPunct (Interpunktionsleerzeichen reduzieren). Wenn dieser Parameter wahr (nicht der Standardwert) ist, werden alle Leerzeichen neben Interpunktionszeichen entfernt.
Als Nächstes wird der Befehl SORTCHUNKS (Blöcke ordnen) erörtert. Bei einer bevorzugten Ausführungsart werden wie oben erörtert die Blöcke in dem zusammengefassten Dokument gegenüber dem ursprünglichen Dokument nach ihrer Wichtigkeit neu geordnet. Bei einer bevorzugten Ausführungsart wird das zusammengefasste Dokument so geordnet, dass die wichtigsten Blöcke zuerst erscheinen. Die Wichtigkeit der Blöcke wird aus der Gesamtwichtigkeit der in dem Block enthaltenen Wörter, der Anzahl der Wörter in dem Block sowie dem Typ und dem Untertyp des Blocks ermittelt. Wenn ein Block weniger Wörter als sc-MinLength besitzt, wird seine Wichtigkeit auf sc-ShortSig gesetzt. Der bevorzugte Standardwert für sc-MinLength ist 4, und der Standardwert für sc-ShortSig ist 0.
Nimmt man an, dass ein Block den Schwellenwert sc-MinLength erreicht, wird seine Wichtigkeit ausgehend von einem Wichtigkeitsgrundwert ermittelt. Der zugewiesene Wichtigkeitsgrundwert wird anhand der Blockposition ermittelt. Der Parameter sc-FirstInPar zeigt einen Block an, der der erste Satz in einem Absatz ist, der Parameter sc-LastInPar zeigt einen Block an, der der letzte Satz in einem Absatz ist, der Parameter sc-OnlyInPar zeigt einen Block an, der der einzige Satz eines Absatzes ist, und der Parameter sc-OtherInPar zeigt einen Block an, der ein „mittlerer" Block in einem Absatz ist. Die Standardwerte für jeden dieser Parameter sind:
sc-FirstInPar = 0;
sc-LastInPar = 0;
sc-OnlyInPar = 0; und
sc-OtherInPar = 0.
Wenn der Befehl COUNTWORDS zuvor ausgeführt worden ist, wird außerdem die Summe der Wichtigkeiten der in dem Block enthaltenen Wörter gebildet und zu dem Wichtigkeitsgrundwert für den Block addiert, um den Wichtigkeitsgesamtwert für den Block zu erhalten. Jeder der Blöcke kann dann in der Reihenfolge der Wichtigkeiten in den Ausgabepuffer 25 verschoben werden.
Ein weiteres Merkmal, das im Zusammenfassungsprozess wünschenswert ist, ist die Fähigkeit, bestimmte Wörter ganz zu entfernen (OMIT WORDS). In diesem Fall erscheinen die in einer Datei (z. B. omitwds.txt) enthaltenen zu entfernenden Wörter überhaupt nicht in dem zusammengefassten Text, selbst wenn sie in einem Block vorkommen, der ansonsten wichtig genug ist, dass er in den Ausgabepuffer 25 verschoben wird. Durch Entfernen dieser Wörter kann in dem Ausgabepuffer 25 zusätzlicher Platz für weniger wichtige Blöcke geschaffen werden, die sonst nicht in den Ausgabepuffer 25 kämen.
Ein weiteres Merkmal, das in der Textzusammenfassungseinheit 90 realisiert werden kann, sind Klammerausdrücke. Solche Ausdrücke lassen sich verarbeiten, indem man den Gesamtwert für den Block ermittelt, in dem der Klammerausdruck enthalten ist. Dies wird wie oben erörtert erreicht, indem man die Gesamtwichtigkeit aller in dem Block enthaltenen Wörter einschließlich der in dem Klammerausdruck enthaltenen Wörter ermittelt. Dann wird die Gesamtwichtigkeit des Blocks ohne die Wörter in dem Klammerausdruck ermittelt. Es wird ein Differenzschwellenwert festgelegt, und wenn die einzelnen Wichtigkeiten kleiner als der Schwellenwert sind, kann der Klammerausdruck im zusammengefassten Text weggelassen werden, da sich dann kein großer Unterschied ergibt. Wenn jedoch die Differenz der Wichtigkeiten den Schwellenwert erreicht oder übersteigt, bleibt der Klammerausdruck erhalten.
In den 4(a), 4(b) und 4(c) sind Beispiele von Befehlssätzen angegeben, und die durch die Textzusammenfassungseinheit auf Basis der Befehlssätze ausgeführte Verarbeitung wird beschrieben.
Der Befehl TEXTONLY (NURTEXT) wird zum Entfernen aller Sendeköpfe und Interpunktionszeilen verwendet. Nach dessen Ausführung ermittelt der Befehl TRYFIT, ob das Dokument kurz genug ist. Man beachte, dass es keine Rolle spielt, ob das Dokument bereits mit den Sendeköpfen kurz genug war; die Länge wird erst nach dem Entfernen der Sendeköpfe geprüft. Als Nächstes werden die Parameter ab-trimwhite und ab-trimpunct auf wahr gesetzt, um die Vorbereitung für den späteren Befehl ABBREV zu treffen.
Der Befehl SAVE speichert alle Statusinformationen bis zum nächsten Befehl RESTORE. Er wird hier verwendet, da es wünschenswert ist zu versuchen, das Dokument abzukürzen, bevor die Blöcke anhand deren Wichtigkeit neu geordnet werden. Die Befehle SAVE und RESTORE ermöglichen, das Dokument abzukürzen und dennoch in den nicht abgekürzten Zustand zurückzukehren, wenn sich herausstellt, dass das Dokument trotz des Abkürzens nicht in den erforderlichen Speicherplatz passt. Man kann nicht ohne Verwendung der Befehle SAVE und RESTORE abkürzen und die Wichtigkeiten berechnen, da die abgekürzten Wörter wahrscheinlich nicht richtig erkannt werden, wenn die Berechnung der Wichtigkeit erneut durchgeführt wird.
ChunkBegin wird auf a* (für „nur abgekürzt") gesetzt, so dass der übertragene Text als Zeichen für den Empfänger des Dokuments am Anfang durch ein „a*" markiert wird, wenn das Abkürzen ausreicht, dass das Dokument in den Speicherplatz passt. Wenn das Abkürzen allein nicht ausreicht, wird ChunkBegin später auf „s*" gesetzt, um anzuzeigen, dass der Text entsprechend der Wichtigkeit geordnet und ausgewählt wurde. Wenn man mit den wichtigsten Blöcken beginnt und mit den weniger wichtigen Blöcken fortfährt, kann es somit vorkommen, dass einige der weniger wichtigen Blöcke von der Übertragung ausgeschlossen werden, wenn der Puffer 25 mit wichtigeren Blöcken gefüllt wird.
Der Befehl ABBREV kürzt dann den Text ab, und der Befehl TRYFIT prüft, ob das Dokument jetzt kurz genug ist. Wenn dies der Fall ist, schreibt die Textzusammenfassungseinheit 90 den Text in den Puffer 25, und die Mitteilung wird durch die Funkübertragungseinheit 80 übertragen. Ansonsten setzt die Textzusammenfassungseinheit 90 ihre Arbeit mit dem Befehl RESTORE fort, der auf den früheren Status SAVE, das heißt vor dem Abkürzen, zurücksetzt.
ChunkBegin wird auf „s*" gesetzt, um anzuzeigen, dass das Ordnen und Auswählen erfolgt ist, und ChunkSep wird in eine Befehlskette eingebunden, um dem Empfänger der Mitteilung ferner anzuzeigen, dass Teile der Mitteilung neu geordnet worden sind. Dann wird der Befehl COUNTWORDS ausgeführt, um die Wichtigkeit der Wörter und Blöcke zu berechnen, und dann wird der Text anhand der Wichtigkeit der Blöcke neu geordnet. Abschließend wird der Text durch den Befehl ABBREV ein wenig verkleinert, und die Ausführung der Befehle wird abgeschlossen. Die Textzusammenfassungseinheit 90 schreibt dann den Text, sofern er für die Übertragung durch die Funkübertragungseinheit 80 geeignet ist, in den Puffer 25.
Durch eine alternative bevorzugte Ausführungsart ist auch eine noch weitere Komprimierung des Dokumentgröße möglich. Bei einer solchen alternativen bevorzugten Ausführungsart werden alle oben beschriebenen Verarbeitungsschritte durchgeführt. Insbesondere können das Abkürzen, das Neuordnen der Blöcke und das Entfernen der Sendeköpfe durchgeführt werden. Außerdem wird bei dieser alternativen bevorzugten Ausführungsart eine zusätzliche Komprimierung des Dokuments erreicht, indem ausgewählte Wörter aus dem Dokument entfernt werden. Dies kann entweder vor oder nach dem obigen Prozess geschehen. Zum Beispiel können vor dem Abkürzungsschritt und/oder vor dem Neuordnen der Blöcke relativ unbedeutende Wörter entfernt werden. Alternativ können nach dem Abkürzungsschritt und/oder vor dem Neuordnen der Blöcke relativ unbedeutende Wörter entfernt werden.
Bei dieser Ausführungsart wird der Befehl COUNTWORDS zu einem wünschenswerten Zeitpunkt innerhalb des Befehlsscripts ausgeführt. Die Ausführung des Befehls COUNTWORDS hat so zu erfolgen, dass jedem Wort in dem Dokument ein Wichtigkeitswert zugewiesen werden kann. Wenn dies erfolgt ist, können Wörter mit einem Wichtigkeitswert unterhalb eines bestimmten vorgegebenen Schwellenwertes aus der zusammengefassten Mitteilung entfernt werden. Wenn das Neuordnen der Blöcke vor dem Entfernen von Wörtern erfolgt, können Wörter während der Entfernungsphase auf Basis ihrer relativ hohen Wichtigkeit ausgewählt werden, damit sie in der zusammengefassten Mitteilung verbleiben. Wenn zum Beispiel der verfügbare Speicherplatz 80 Zeichen umfasst und nach dem Neuordnen der Blöcke (und eventuell nach dem Abkürzungsschritt) alle Wörter 90 Zeichen umfassen, können anstelle des unwichtigsten Blocks Wörter bis zu einem Umfang von insgesamt zehn Zeichen aus der Mitteilung entfernt werden. Die entfernten Wörter können von mehreren Blöcken stammen. Durch Entfernen der unwichtigen Wörter kann es sich erübrigen, den unwichtigsten Block insgesamt zu entfernen.
Die Erfindung ist in Verbindung mit den bevorzugten Ausführungsarten eingehend beschrieben worden. Diese Ausführungsarten stellen jedoch lediglich ein Beispiel dar, und die Erfindung ist nicht darauf beschränkt. Dem Fachmann ist klar, dass im Rahmen des durch die beigefügten Ansprüche definierten Geltungsbereichs der vorliegenden Erfindung weitere Abwandlungen und Änderungen einfach vorgenommen werden können.

Claims

Pagingsystem (50), welches Folgendes umfasst: eine Eingabequelle (10) zum Empfangen von Textinformationen, wobei die Textinformationen eine Vielzahl von Wörtern enthalten; einen funktionell mit der Eingabequelle (10) verbundenen Speicher (40) zum Speichern der empfangenen Textinformationen; dadurch gekennzeichnet, dass das Pagingsystem ferner Folgendes umfasst: eine mit dem Speicher und einem Textzusammenfassungsmittel (90) kommunizierende Steuereinheit (70) zur Steuerung der Funktion des Pagingsystems; einen Ausgabepuffer (25) zum Speichern der zusammengefassten Textinformationen; ein Textzusammenfassungsmittel zum Zusammenfassen der empfangenen Textinformationen, wobei dieses Textzusammenfassungsmittel ferner Folgendes umfasst: ein Teilungsmittel zum Aufteilen der empfangenen Textinformationen in Blöcke; ein Mittel zum Klassifizieren jedes Blocks nach einer oder mehreren Klassifikationen entsprechend der Stellung dieses Blocks innerhalb der empfangenen Textinformationen; ein Mittel zum Zuweisen eines Wichtigkeitswertes für jedes Wort entsprechend der Klassifikation des ein solches Wort enthaltenden Blocks; ein Mittel zum Zuweisen eines Wichtigkeitswertes für jedes der Wörter entsprechend dem Klassifikationswert des jedes der Wörter enthaltenden Blocks; ein Mittel zum Zuweisen eines Wichtigkeitswertes für jeden der Blöcke entsprechend den gemeinsamen Wichtigkeitswerten der in jedem der Blöcke enthaltenen Wörter; ein Auswahlmittel zum Auswählen der Blöcke in der Reihenfolge der den Blöcken zugewiesenen Wichtigkeitswerte, wobei die Blöcke beginnend bei dem Block mit dem höchsten Wichtigkeitswert bis zu dem Block mit dem niedrigsten Wichtigkeitswert so lange zum Speichern im Ausgabepuffer ausgewählt werden, bis man eine Textinformation einer vorgegebenen maximalen Länge erhält; und ein Mittel zum Schreiben der ausgewählten Blöcke in den Ausgabepufferspeicher.
Pagingsystem (50) nach Anspruch 1, welches ferner eine HF-Sendeeinheit (80) zum Senden der zusammengefassten Textinformationen und einen Pagingempfänger (130) zum Empfangen der zusammengefassten Textinformationen umfasst.
Pagingsystem (50) nach Anspruch 1 oder 2, bei welchem der Wichtigkeitswert jedes Blocks ferner entsprechend der Stellung dieses Blocks in der jeweils empfangenen Textinformation ermittelt wird.