JPH11191105A - 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体 - Google Patents

文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体

Info

Publication number
JPH11191105A
JPH11191105A JP10283432A JP28343298A JPH11191105A JP H11191105 A JPH11191105 A JP H11191105A JP 10283432 A JP10283432 A JP 10283432A JP 28343298 A JP28343298 A JP 28343298A JP H11191105 A JPH11191105 A JP H11191105A
Authority
JP
Japan
Prior art keywords
paragraph
logical
code
character
format
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10283432A
Other languages
English (en)
Inventor
Yumiko Oonishi
由実子 大西
Masaki Tsujii
雅樹 辻井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP10283432A priority Critical patent/JPH11191105A/ja
Publication of JPH11191105A publication Critical patent/JPH11191105A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 文書データ中に含まれている文章構成上不要
な空白文字コード及び改行コードを適切・確実に削除し
て、論理的に連続する段落を生成する。 【解決手段】 文書データの改行コードによって形式的
に区切られる一連の文字コード列を形式段落とし、その
各段落種別の判定に必要な情報を段落情報設定手段21
によって設定する。その各形式段落の段落情報によっ
て、段落種別判定手段22が段落種別を判定して各形式
段落に段落種別情報を付与する。論理段落生成手段が、
連続する複数の形式段落の段落種別情報及び段落情報を
参照して、各形式段落の段落種別を順次確定し、その段
落種別に応じて各段落内の不要な空白文字コード及び改
行コードを削除して、論理的に連続する論理段落を生成
し、その情報を論理段落情報格納手段24に格納する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、ワードプロセッ
サやパーソナルコンピュータの文書作成機能等を用いて
作成された文書データ(テキストデータ)を、校正する
ための自動文書チェック、自動翻訳、単語検索等を行な
うのに適した状態に変換処理する文書データ処理方法、
およびそれを実行するための文書データ処理装置と、そ
の文書データ処理プログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】ワードプロセッサやパーソナルコンピュ
ータ等に、その文書作成機能を用いて作成された文書デ
ータを容易に校正できるように、誤字・脱字や同音異義
語のチェック、仮名使いや文法的な誤りのチェック、英
単語のスペルチェックなどを自動的に行なう機能を持た
せることが実現している。また、作成した文書データを
自動翻訳したり、文書中の特定の単語を検索したりする
機能を持つものもある。
【0003】しかし、作成された文書データには、文書
の体裁を整えるために行の先頭などに空白を表す文字
(スペース)を入れたり、行頭が揃うようにタブを使用
したり、行の途中で改行して、1行の文字数を揃えたり
している場合が多い。このような文書の体裁を整えるた
めに挿入されるスペースやタブ、改行などは、論理的に
は意味がないものであり、そのために論理的・意味的に
連続する語句や文章が分断されてしまうことがしばしば
ある。
【0004】特に、一つの単語や文節がスペースや改行
によって分断されると、その単語を検索したり辞書に登
録されている単語と照合したり、文節を文法的にチェッ
クしようとしてもできず、誤記と判断してしまうことに
なるという問題がある。例えば、「今日は天気がよ
い。」という文章に「□□今日は天□□気がよい。」の
ようにスペースが入っていると、これを校正するための
自動チェックを行なう際に、「天気」が「天□□気」と
なっているため、辞書に登録されている「天気」と一致
しないので、誤記あるいはエラー(の可能性が高い)と
指摘してしまうことになる。
【0005】このように、文書データにその体裁を整え
るために、意味のない空白文字(スペース又はタブ)コ
ードが入っていたり、単語や文節の途中に改行コードが
入っていたりすると、文書校正機能による誤記チェック
や、単語検索、自動翻訳などの処理を正確に能率よく行
なうことができないという問題がある。
【0006】このような問題を解決するため、例えば特
開平3−233670号公報に見られるように、空白文
字コード及び改行コードを含む各種文字コードが順に配
列されたテキストデータ(文書データ)から、不要な空
白文字コードと不要な改行コードを削除して、内容的に
連続するテキストデータを抽出するテキストデータ変換
方式が提案されている。
【0007】このテキストデータ変換方式では、テキス
トデータを1行毎にバッファに格納し、先頭に空白文字
コードが存在(連続する複数の空白文字コードを含む)
すると、その空白文字コードを削除する。また、前後の
行の文字数を比較して、文字数に差がない場合はテキス
トの行途中で改行することによって1行中の文字数を揃
えたものとして、前行末の改行コードを削除している。
【0008】これに対して、前行の方が文字数が少ない
場合は、前行は文の最後の部分を含む行であると判別し
て、その行末の改行コードを削除しない。また、前行の
方が文字数が多い場合は、その前行の最後が句点コード
であるか否かを判別し、句点コードであれば文の最後の
部分を含む行であると判別して、その行末の改行コード
は削除しないようにしている。
【0009】
【発明が解決しようとする課題】しかしながら、このよ
うなテキストデータの変換処理では、行頭以外の位置に
不要な空白文字コードが挿入されていても、それを削除
することができない。また、行末の改行位置がきれいに
揃っておらず、単語や文節の切れ目などで適宜改行して
いるような文書データの場合には、不要な改行コードの
削除を確実に行なうことができない。
【0010】さらに、見出しや箇条書きがある文書デー
タ、複数の行にまたがる括弧書きがある文書データなど
に対して、不要な空白文字コード及び改行コードを適切
に削除できないことがあった。
【0011】この発明は、このような問題を解決し、上
述のような複雑な文書データであっても、その中に含ま
れている文章構成上不要な空白文字コード(スペースコ
ード又はタブコード)及び不要な改行コードを適切に削
除して論理的に連続する段落を抽出し、文書校正のため
の自動チェックや単語検索、あるいは自動翻訳などの処
理を正確に能率よく行なえるようにすることを目的とす
る。
【0012】
【課題を解決するための手段】この発明は上記の目的を
達成するため、空白文字(スペース又はタブ)コードを
含む各種文字コードと段落を形成する改行コードが配列
された文書データから、文章構成上不要な空白文字コー
ド及び不要な改行コードを削除するための、次のような
文書データ処理方法を提案する。
【0013】文書データにおける改行コードによって形
式的に区切られる一連の文字コード列を形式段落とし、
その形式段落中の文字コードが空白文字コードのみから
なる場合は空白段落、その形式段落が見出し又は箇条書
きとして使われている場合は見出し・箇条書き段落、そ
の形式段落が独立した文章を構成している場合は完全段
落、その形式段落が独立した文章の一部となっている場
合は不完全段落として、各形式段落の段落種別を判定す
る。
【0014】その判定した空白段落に対しては該段落内
の全ての空白文字コードを削除して1論理段落とするか
あるいは該段落全体を削除し、見出し・箇条書き段落に
対しては処理を加えずに1形式段落を1論理段落とし、
完全段落に対しては不要な空白文字コードを削除して1
形式段落を1論理段落とし、不完全段落に対しては不要
な空白文字コードを削除すると共に、連続する不完全段
落の終端の直前の段落までの各段落の改行コードを削除
し、その連続する複数の不完全段落を結合して1論理段
落とすることにより、論理段落を生成する。
【0015】上記段落種別の判定において、上記形式段
落が次の(a)及び(b)のいずれかの条件を満たすと
きに、見出し・箇条書き段落と判定することができる。 (a)段落の空白以外の文字開始位置から連続する所定
数と文字終了位置に連続する所定数の各文字コードが特
定の記号コードである、(b)段落の空白以外の文字開
始位置から1又は複数の文字コードが、開き括弧と文字
又は数字と閉じ括弧のコードの組み合わせ、文字又は数
字と閉じ括弧又は点のコードの組み合わせ、もしくは記
号コードのいずれかである、
【0016】また、上記段落種別の判定において、上記
形式段落が完全段落か不完全段落かの判定、および不完
全段落の場合に終端の段落か否かの判定を、段落の空白
以外の文字の開始位置、文字列の長さ、空白以外の最後
の文字が句点か否か、開き括弧があった後の閉じ括弧の
有無に基づいて行なうとよい。
【0017】上記完全段落又は不完全段落に対して不要
な空白文字コードを削除する際、英数字コードの直後の
空白文字コード及び文字開始位置から予め設定した文字
数以内に存在する連続する空白文字コードのうちの1個
は、必要な空白文字コードとして削除しないことが望ま
しい。
【0018】この発明はまた、上記文書データ処理方法
を実行するため、次の(1)乃至(3)の各手段を備え
た文書データ処理装置を提供する。
【0019】(1)文書データにおける改行コードによ
って形式的に区切られる一連の文字コード列を形式段落
とし、その形式段落中の文字コードが空白文字コードの
みからなる場合は空白段落、その形式段落が見出し又は
箇条書きとして使われている場合は見出し・箇条書き段
落、その形式段落が独立した文章を構成している場合は
完全段落、その形式段落が独立した文章の一部となって
いる場合は不完全段落として、各形式段落の段落種別を
判定する段落種別判定手段、
【0020】(2)段落種別判定手段によって判定され
た空白段落に対しては該段落内の全ての空白文字コード
を削除して1論理段落とするかあるいは該段落全体を削
除し、見出し・箇条書き段落に対しては処理を加えずに
1形式段落を1論理段落とし、完全段落に対しては不要
な空白文字コードを削除して1形式段落を1論理段落と
し、不完全段落に対しては不要な空白文字コードを削除
すると共に、連続する不完全段落の終端の直前の段落ま
での各段落の改行コードを削除し、その連続する複数の
不完全段落を結合して1論理段落とすることにより、論
理段落を生成する論理段落生成手段、
【0021】(3)論理段落生成手段によって生成され
る論理段落の情報を格納する論理段落情報格納手段、
【0022】上記文書データ処理装置において、上記段
落種別判定手段が、形式段落の段落種別を判定できたと
きには該形式段落の情報に段落種別情報を付与する手段
を有するようにし、上記論理段落生成手段を次の(A)
乃至(C)の各手段によって構成するとよい。
【0023】(A)上記段落種別判定手段によって段落
種別情報が付与された場合にはその情報を含む各形式段
落の情報を、文書先頭側から1形式段落分ずつ順送りに
所定段落数分格納する所定数のバッファ記憶部、(B)
その先頭のバッファ記憶部に格納された形式段落の情報
に対して、上記所定数の各バッファ記憶部にそれぞれ格
納された形式段落の情報及びそれに付与されている段落
種別情報を参照してその段落種別を確定し、その確定し
た段落種別に応じて論理段落を生成する処理を行なっ
て、その情報を前記論理段落情報格納手段に格納する手
段、
【0024】(C)該手段によって上記先頭のバッファ
記憶部に格納された形式段落の情報に対する論理段落の
生成処理が終了すると、他の前記バッファ記憶部に格納
されている形式段落の情報を前記先頭のバッファ記憶部
側へ順送りし、最後のバッファ記憶部に次の形式段落の
情報を格納させる手段、
【0025】上記段落種別判定手段が、形式段落が次の
(a)及び(b)のいずれかの条件を満たすときに、該
形式段落を見出し・箇条書き段落と判定する手段を有す
るとよい。 (a)段落の空白以外の文字開始位置から連続する所定
数と文字終了位置に連続する所定数の各文字コードが特
定の記号コードである、(b)段落の空白以外の文字開
始位置から1又は複数の文字コードが、開き括弧と文字
又は数字と閉じ括弧のコードの組み合わせ、文字又は数
字と閉じ括弧又は点のコードの組み合わせ、もしくは記
号コードのいずれかである、
【0026】さらに、上記段落種別判定手段が、形式段
落が完全段落か不完全段落かの判定を、段落の空白以外
の文字の開始位置、文字列の長さ、空白以外の最後の文
字が句点か否か、開き括弧があった後の閉じ括弧の有無
に基づいて行なう手段を有するとよい。
【0027】また、上記論理段落生成手段が、段落種別
が完全段落又は不完全段落であると確定した段落の情報
に対して不要な空白文字コードを削除する際、英数字コ
ードの直後の空白文字コード及び文字開始位置から予め
設定した文字数以内に存在する連続する空白文字コード
のうちの1個は、必要な空白文字コードとして削除しな
いようにする手段を有するのが望ましい。
【0028】この発明はさらに、次の(1)及び(2)
の機能をパーソナルコンピュータ等のコンピュータに実
現させるためのプログラムを、該コンピュータによって
読み取り可能に記録したフロッピディスク,光ディスク
等の記録媒体も提供する。
【0029】(1)空白文字コードを含む各種文字コー
ドと段落を形成する改行コードが配列された文書データ
に対して、前記改行コードによって形式的に区切られる
一連の文字コード列を形式段落とし、その形式段落中の
文字コードが空白文字コードのみからなる場合は空白段
落、その形式段落が見出し又は箇条書きとして使われて
いる場合は見出し・箇条書き段落、その形式段落が独立
した文章を構成している場合は完全段落、その形式段落
が独立した文章の一部となっている場合は不完全段落と
して、各形式段落の段落種別を判定する機能、
【0030】(2)該機能によって判定した前記空白段
落に対しては該段落内の全ての空白文字コードを削除し
て1論理段落とするかあるいは該落段落全体を削除し、
見出し・箇条書き段落に対しては処理を加えずに1形式
段落を1論理段落とし、前記完全段落に対しては不要な
空白文字コードを削除して1形式段落を1論理段落と
し、前記不完全段落に対しては不要な空白文字コードを
削除すると共に、連続する不完全段落の終端の直前の段
落までの各段落の改行コードを削除し、その連続する複
数の不完全段落を結合して1論理段落とすることによ
り、論理段落を生成する機能、
【0031】なお、上記文書データ処理方法及び処理装
置ならびに記録媒体における論理段落の生成において
は、空白段落に対しては該段落内の全ての空白文字コー
ドを削除して1論理段落とするかあるいは該段落全体を
削除し、見出し・箇条書き段落に対しては処理を加えず
に1形式段落を1論理段落としたが、レイアウト(文字
位置等)を記憶して復元することを考慮する場合には、
空白段落に対しても1形式段落を1論理段落として残す
方がよい。また、見出し・箇条書き段落に対しては、該
段落内に連続する空白文字コードがあれば、それぞれ1
個ずつを残して他の空白文字コードは削除するようにし
てもよい。
【0032】
【発明の実施の形態】以下、添付図面を参照してこの発
明の実施の形態を説明する。まず、図2はワードプロセ
ッサあるいはパーソナルコンピュータ等の情報処理装置
の概略構成を示すブロック図である。この情報処理装置
は、この発明による文書データ処理方法を実施する文書
データ処理機能、新規文書の文書作成あるいは作成済み
文書の編集等を行なうワープロ機能、作成あるいは編集
した文書を校正するための自動チェック機能等を備える
か、それらのアプリケーションプログラムをロードする
ことによって、それらの機能を有するようになるもので
ある。
【0033】この図2において、CPU1はこの発明に
よる文書データ処理を含む各種の処理を行なう中央処理
装置である。ROM2は、CPU1が実行する各種の制
御プログラムや固定データを記憶しているプログラムメ
モリである。
【0034】RAM3は大容量のデータメモリであり、
CPU1による各種の処理実行時にワーキングエリアと
して使用されると共に、ハードディスク装置(HDD)
4から必要なプログラムや辞書データ等をロードした
り、処理前および処理後の文書データを記憶したりする
ためにも使用される。
【0035】また、パーソナルコンピュータなどの汎用
装置の場合には、外部からハードディスク装置4にロー
ドされた各種のアプリケーションプログラム(この発明
を実行するための文書データ処理プログラムも含む)
を、実際の使用時にロードするためにも使用される。ハ
ードディスク装置(HDD)4は、記憶媒体として磁気
ディスクを用いた大容量の不揮発性記憶装置である。
【0036】キーボード5は、多数のキーを備え、マウ
ス等のポインティングデバイス6を接続し、オペレータ
の操作により各種のデータやコマンドを入力する入力手
段である。この情報処理装置が文書作成・編集/校正機
能も備えている場合には、このキーボードから各種の文
字,記号等を入力して、文書を作成し、編集あるいは校
正することができる。
【0037】表示器6は、CRTやLCDなどによる表
示手段であり、作成中あるいは作成された処理対象の文
書データ等を表示すると共に、処理結果や各種メッセー
ジなども表示する。ODD7は光デイスク装置であり、
記録媒体である光ディスク8に記録された各種のアプリ
ケーションプログラムやデータを読み込んで、ハードデ
ィスク装置4にロードすることができる。
【0038】FDD9はフロッピーディスク装置であ
り、記録媒体であるフロッピーディスク10に記録され
た各種のアプリケーションプログラムや文書データを読
み込んで、ハードディスク装置4あるいはRAM3にロ
ードしたり、作成した文書データをフロッピーディスク
10に記録(格納)したりすることができる。そして、
上述の各部はバス11によって相互に接続されている。
なお各インタフェース回路は図示を省略している。
【0039】次に、この発明による文書データ処理機能
について具体的に説明する。この発明による文書データ
の処理は、ワープロ機能によって作成された文書データ
(一般に空白文字コードを含む各種文字コードと段落を
形成する改行コードが配列されているテキストデータ)
から、文章構成上不要な空白文字コード及び不要な改行
コードを削除して、論理的に連続する論理段落を生成す
る処理である。
【0040】例えば、図3の(A)に示すような文書デ
ータを、その文章構成上不要な空白文字コード(□で示
すスペース又はタブ)及び改行コード(↓を□で囲んだ
記号で示す)を削除して、同図(B)に示す1論理段落
の文書データに変換する。その際、文章構成上不要な空
白文字コードと不要な改行コードのみを判別して確実に
削除する必要がある。
【0041】そのため、この発明の実施形態としての文
書データ処理方法を実施する情報処理装置は、図1に機
能ブロック図で示すように、段落情報設定手段21、段
落種別判定手段22、論理段落生成手段23、及び論理
段落情報格納手段24とを備えている。段落情報設定手
段21は、作成された文書データを順次取り込んで、改
行コードによって形式的に区切られる一連の文字コード
列を形式段落として分割し、その各形式段落の情報をチ
ェックして、後述する段落種別の判定に必要な各種の段
落情報を設定する。
【0042】この段落情報としては、段落連接情報(後
で説明する)、段落の文字開始位置(空白以外の文字が
始まる位置)、文字列の長さ(スペートとタブはカウン
トしない。全角文字は2バイト、半角文字は1バイトと
してカウントする)、句点(。)の有無、読点(、)の
有無、文字終了位置(空白以外の最後の文字の位置)、
文字終了位置が句点であるか否か、文字終了位置が読点
であるか否か、閉じ括弧の不足(前に開き括弧があるの
に閉じ括弧がない:以下「括弧不足」という)があるか
否か、先頭記号(後で説明する)の有無、文字開始位置
が論理段落の先頭となり得ない文字(「っ」「ゃ」
「ょ」「ッ」「ョ」「ャ」等の小文字の平仮名又は片仮
名あるいは長音「ー」などの文字)であるか否か、削除
しない空白の指定(後で説明する)などがある。
【0043】ここで、段落連接情報について説明する。
この情報は段落情報設定手段21によって文書データが
形式段落に分割される時にセットされる情報であり、そ
れをそのまま段落情報として設定する。この情報は前又
は後の形式段落と連接可能か否かを示す情報で、例えば
図4に示すように前連接(前)と後ろ連接(後)の二つ
のフラグとして持っており、その各フラグにビットが立
っていれば連接可を示す。
【0044】図4の(A)の各フラグは“0”“0”で
あり、「連接不可」を示し、具体例としてはヘッダ・フ
ッタの文字列がある。(B)の各フラグは“1”“0”
であり、「前連接可」(後ろ連接不可)を示し、具体例
としては枠内の最終段落がある。(C)の各フラグは
“0”“1”であり、「後ろ連接可」(前連接不可)を
示し、具体例としては枠内の先頭段落がある。(D)の
各フラグは“1”“1”であり、「両連接可」を示し、
以上以外の段落が該当する。
【0045】先頭記号は、段落の空白以外の文字開始位
置からの1又は複数の文字コードで、段落の区切りとし
て利用できる(特に箇条書き段落の判定に重要な)文字
又は文字列のことであり、次のような文字あるいは文字
列がある。 「開き括弧+任意の1文字+閉じ括弧」 :例 (あ),(A) 「開き括弧+1又は複数の数字+閉じ括弧」:例 (1),(13) 「任意の1文字+閉じ括弧又は点」 :例 イ),B. 「1又は複数の数字+閉じ括弧又は点」 :例 12),12. 「記号」 :例 * ,☆ ,●
【0046】これらをまとめると、開き括弧と文字又は
数字と閉じ括弧のコードの組み合わせ、文字又は数字と
閉じ括弧又は点のコードの組み合わせ、もしくは記号コ
ードのいずれかである。この場合、箇条書きの段落であ
る可能性が高い。削除しない空白の指定については、英
数字(アルファベット及び数字)の直後の空白、と文字
開始位置から予め設定した文字数(例えば10文字)以
内に存在する連続する空白(1個の場合も含む)のうち
の1個を削除しない空白として指定する。
【0047】前者は、「ワープロ8 office edition の
開発は」のような段落中の数字及び英単語(英語以外のア
ルファベットを使用する単語でも同じ)の連結を防ぐた
めであり、後者は、「状況 ワープロオフィスの開発
状況は………」のような段落において、「状況」は見出
し的に使われている可能性が高いので、その後の空白の
少なくとも1個は削除せずに残しておくためである。
【0048】段落種別判定手段22は、各形式段落につ
いてその段落情報に基づいて段落種別を判定し、判定で
きたときには該形式段落の情報に判定した段落種別情報
を付与する。その際、単独の形式段落の段落情報だけで
は段落種別を確定できない場合が多いが、その場合は連
続する複数の形式段落の段落情報あるいは判定できた形
式段落の段落種別情報も参照して順次段落種別を確定す
る。
【0049】判定する段落種別は次の4種類とする。 (a)空白段落……形式段落中の文字コードが空白文字
(スペース又はタブ)コードのみからなる形式段落であ
る。 (b)見出し・箇条書き段落……見出し又は箇条書きと
して使われている形式段落であるが、他の段落との連接
が禁止されている形式段落もこれに該当する。 (c)完全段落……独立した文章を構成している形式段
落である。 (d)不完全段落……独立した文章の一部となっている
形式段落である。そのうち、後述する論理段落の終端と
なる不完全段落には、それを示す情報も付与される。
【0050】これらの段落種別のうち、見出し・箇条書
き段落について、形式段落が例えば「 ***見出し
***↓」(↓は改行コードとする)のように、段落の
空白以外の文字開始位置から連続する所定数(この例で
は3個)と文字終了位置に連続する所定数の各文字コー
ドが特定の記号(この例ではアスタリスクマーク)コー
ドであるときは、単一の形式段落だけで「見出し」であ
る可能性が高いことが判る。なお、上記「所定数」をカ
ウントする際には、空白文字コードはカウントしない。
そこで、このような形式段落に関しては、図1における
段落情報設定手段21において、上述した各種の段落情
報を設定する際に「見出し・箇条書き段落」と判定し
て、その段落種別情報(確定ではない)を当該形式段落
の情報に付与するようにしてもよい。
【0051】罫線を含む段落も「見出し・箇条書き段
落」の種別を付与するようにしてもよいが、表などの罫
線を含む文書データの形式段落の種別は正確には判定で
きないので、この発明による処理対象から除外してもよ
い。空白段落についても、単一の形式段落だけで空白以
外の文字がなければ、文字開始位置がないため「空白段
落」であると判定できるので、段落情報設定手段21に
おいてこれを判定して、その段落種別情報を付与するこ
とができる。
【0052】それ以外の段落種別に関しては、一般に単
一の形式段落の段落情報だけでは正確に判定できないの
で、図1の段落種別判定手段22が連続する複数の形式
段落を取り込んで、その各段落情報を参照して、その複
数の形式段落の段落種別を判定し、そのうち最先の形式
段落の段落種別を、他の形式段落の判定結果及び段落情
報を参照して確定する。
【0053】論理段落生成手段23は、段落種別判定手
段によって判定された段落種別に応じて、各形式段落の
情報に対して、空白段落に対しては該段落内の全ての空
白文字コードを削除して1論理段落とするかあるいはそ
の段落全体を削除し、見出し・箇条書き段落に対しては
処理を加えずに1形式段落を1論理段落とし、完全段落
に対しては不要な空白文字コードを削除して1形式段落
を1論理段落とし、不完全段落に対しては不要な空白文
字コードを削除すると共に、連続する不完全段落の終端
の直前の段落までの各段落の改行コードを削除し、その
連続する複数の不完全段落を結合して1論理段落とする
ことにより、論理段落を生成する。
【0054】論理段落情報格納手段24は、論理段落生
成手段23によって生成される論理段落の情報を格納す
るバッファメモリであり、その各論理段落の情報を順次
文書校正処理手段に読み出させる。
【0055】なお、段落種別の確定は、この論理段落生
成手段23で行なうようにしてもよい。また、段落情報
設定手段21は段落種別判定手段22に含めてもよい。
したがって、これらの段落情報設定手段21と段落種別
判定手段22と論理段落生成手段23は、説明を判り易
くするために区別して示したが、実際には渾然としてい
て、明確に区別しにくいものである。
【0056】これらの機能を実行する装置の他の構成例
を図5に示す。この図5において図1と対応する部分に
は同一符号を付してある。この機能構成において、25
は段落種別判定・論理段落生成手段であり、図1に示し
た段落種別判定手段22と論理段落生成手段23の機能
を兼ねている。
【0057】そして、この段落種別判定・論理段落生成
手段25は、フロントからリアまで5個のバッフア記憶
部を有するバッファメモリ26を備え、段落情報設定手
段21によって段落情報が設定され、一部の段落種別情
報が付与されている場合もある各形式段落の情報を、文
書先頭側から1形式段落分ずつ順送りに5段落分、各バ
ッファ記憶部に格納する。
【0058】そして、その先頭のバッファ記憶部である
フロントに格納された形式段落の情報PFに対して、そ
れに続く各バッファ記憶部に格納された形式段落の情報
PN1,PN2,PN3,PRを参照してその段落種別
を確定し、その確定した段落種別に応じて前述した論理
段落を生成する処理を行なって、その情報をバッファメ
モリである論理段落情報格納手段24に格納する。
【0059】形式段落情報シフト手段27は、段落種別
判定・論理段落生成手段25によって先頭のバッファ記
憶部に格納された形式段落の情報PFに対する論理段落
の生成処理が終了して、それが論理段落情報格納手段2
4に格納されると、先頭のバッファ記憶部の情報PFを
消去して、バッファメモリ26の他の各バッファ記憶部
に格納されている形式段落の情報PN1〜PRを先頭の
バッファ記憶部側へ順送りし、最後のバッファ記憶部に
次の形式段落の情報をPRとして格納させる手段であ
る。
【0060】次に、この図5に示す段落種別判定・論理
段落生成手段25による段落種別の判定処理に適用する
判定ルールを以下に示す。この判定ルールは、判定ルー
ル1から順に適用され、PFの段落種別が確定された時
点で処理を終了し、論理段落生成(段落結合)処理へ移
行する。
【0061】<判定ルール1>PFに段落終了情報がセ
ットされているとき(処理すべき形式段落がなくなって
ダミー段落の情報が格納されたとき)、段落種別判定処
理および論理段落生成処理を終了する。 <判定ルール2>PFに段落情報がない(処理開始直後
でまだPFに段落情報が格納されていない)とき、段落
種別判定処理を行なわない。
【0062】<判定ルール3>PFの段落種別が強制連
接指定されているときは、それに従ってPFの段落属性
を指定する。これは、文字列を置換した場合など、もう
一度PRからPFへの遷移をやり直すことがあるが、そ
の際文字列長の変化等により段落種別が変わることを避
けるために、前回と同様の段落種別を確定するように指
定することである。
【0063】<判定ルール4>PFの段落種別が「見出
し・箇条書き」又は「空白段落」であるとき、PFの種
別をそのまま確定する。 <判定ルール5>PFの段落種別が未定で、括弧不足が
なく、段落の文字終了位置の文字が句点であるとき、P
Fの種別を「完全段落」と確定する。
【0064】<判定ルール6>PFの段落種別が未定
で、PFに先頭記号があり、句読点がない場合、PFの
種別を「見出し・箇条書き」と確定する。 <判定ルール7>PFの段落種別が未定で、PFに先頭
記号があり、後述する「条件ルールB」を満たす場合、
PFの種別を「見出し・箇条書き」と確定する。
【0065】<判定ルール8>PFの段落種別が未定
で、後述する「条件ルールA」を満たす場合、PFの種
別を「見出し・箇条書き」と確定する。 <判定ルール9>PFが「不完全段落」であり、括弧不
足なしで、PFからPRまでに不完全段落の終端(終端
とそれ以外の不完全段落とは別フラグで区別される)が
ある場合、PFの種別を「不完全段落」と確定する。
【0066】<判定ルール10>PFからPRの方向に
以下の条件を満たす段落(PNX)を検索していく。 (1)段落の文字終了位置の文字が句点。 (2)条件ルールAを満たす。 (3)条件ルールBを満たす。 (4)後続3段落に句読点が全くない。
【0067】※PFに括弧不足があり、それに対応する
括弧が見つかっていないとき、(2)のみをチェックす
る。 ※検索対象となっている段落の次の段落が先頭不可の段
落の時は、(3)と(4) のチェックは行なわない。
【0068】・PNXがPFで且つ「不完全段落」でな
い時、PFを「完全段落」として確定する。このときは
他の段落に属性付与はしない。 ・PNXがあり、そのPNXの次の段落の属性が「不完
全段落」であるとき、PN1〜PNXまでに「不完全段
落」の属性を付与し、PFの属性を「不完全段落」と確
定する。
【0069】・PNXがあり、そのPNXの次の段落の
属性が「不完全段落」以外であるときPN1〜PNXま
でに「不完全段落」の属性を付与し、且つPRには末端
である旨を示すフラグ「末」を立てるとともに、PFの
属性を「不完全段落」と確定する。 ・PNXがないとき、PN1〜PRに「不完全段落」の
属性を付与し、PFの属性を「不完全段落」と確定す
る。
【0070】<条件ルールA> = 以下の(1)〜
(5)のうちの一つを満たす。 (1)後ろ連接不可の情報が付与されている。 (2)次の段落がない。 (3)次の段落の属性が「見出し・箇条書き」又は「空
白段落」である。 (4)次の段落に前連接不可の情報が付与されている。 (5)段落の長さが基準値(例えば1024バイト)を
超える。
【0071】<条件ルールB> = 以下の(1)〜
(6)のうちの一つを満たす。 (1)次の段落に先頭記号がある。 (2)段落の長さが基準値(例えば48バイト)未満で
ある。 (3)次段落との文字開始位置の差が基準値(例えば6
バイト)を超える。 (4)次段落の方が長く、長さの差が基準値(例えば1
0バイト)を超える。 (5)次段落の方が短く、長さの差が基準値(例えば1
0バイト)を超える。 (6)次段落の長さが最低基準値(例えば48バイト)
を下回る。
【0072】※段落の文字終了位置の文字が読点である
場合と、次段落が段落頭不可であるとき、(2)〜
(6)のチェックは行なわない。 ※次段落の文字終了位置の文字が句点のとき、(5)と
(6)のチェックは行なわない。
【0073】ここで、図5に示す段落種別判定・論理段
落生成手段25によって、上述の判定ルール1〜10及
び条件ルールA,Bに基づいて、文書データの各形式段
落の段落種別を判定(確定)し、その判定結果に応じて
論理段落を生成する処理の実例を、図6乃至図17によ
って説明する。
【0074】図6はワープロ機能によって作成された文
書データの一例であり、□は空白文字コード(以下単に
「空白」という)を、↓は改行コード(以下単に「改
行」という)を示す。この文書データを文書校正処理部
へ渡す前に、図5に示したこの発明による文書データ処
理部によって、論理段落の生成処理を行なう。
【0075】まず、段落情報設定手段21によって、こ
の文書データの改行から改行までを形式段落として、そ
の各形式段落毎に上述した段落種別の判定に必要な各種
の段落情報を設定し、特定の「見出し・箇条書き段落」
および「空白段落」等、単独の形式段落で段落種別が判
別できる場合にはその段落種別情報も付与して、文書の
先頭の形式段落から順次、段落種別判定・論理段落生成
手段25のバッファメモリ26の一番後ろの記憶位置
(=リアPR)に送り込む。
【0076】バッファメモリ26のリアPRに次の段落
のデータが入ってくると、前の段落のデータはPN3の
位置に送られ、次々と各段落のデータが順次前の位置へ
送られていき、一番前の位置(=フロントPF)まで来
たとき、その形式段落の段落種別を確定し、その種別に
応じて空白・改行削除等の必要な処理を加えて、論理段
落を生成する。その論理段落の情報を論理段落情報格納
手段24に一時的に格納する。不完全段落の場合は、こ
の論理段落情報格納手段24において、論理段落の合成
が行なわれる。
【0077】図7から図17において、左側の枠は段落
種別判定・論理段落生成手段25のバッファメモリ26
の各位置の5個のバッフア記憶部PF,PN1,PN
2,PN3,PRの形式段落のデータを途中を省略して
示しており、右側の枠はその時の論理段落情報格納手段
24(バッファメモリ)に格納された論理段落の情報を
示している。
【0078】図6に示す文書データの最初の形式段落
は、「*****はじめに*****」であり、文字
開始位置から3文字と文字終了位置に連続する3文字が
特定の記号(*)であるため、バッファメモリ26に入
る前に「見出し・箇条書き」属性が付与される。
【0079】図7は、バッファメモリ26の図6の文書
データの2行目の形式段落のデータまでが送り込まれた
状態を示し、PN3の右欄外にある「見出し」は「見出
し・箇条書き」属性が付与されていることを示し、「未
定」は段落種別の属性が付与されていないことを示す。
この状態では、まだフロントPFに形式段落のデータが
ないので、判定ルール2により段落種別の判定を行わな
い。したがって、論理段落情報格納手段24には何も格
納されていない。
【0080】図8に示すように、文書データの先頭の形
式段落のデータ「*****はじめに*****」が
フロントPFに入った時点で処理を開始する。このと
き、フロントPFには「見出し・箇条書き」属性が付与
されているので、判定ルール4により「見出し・箇条書
き」として確定し、そのままこの1形式段落を1論理段
落として、そのデータを図9に示すように論理段落情報
格納手段24に格納する。
【0081】そして、文書データの6行目の形式段落の
データ「□解析の前に、…………」がリアPRに入る
と、バッファメモリ26内の段落データは図9に示すよ
うになり、フロントPFについて判定ルール1から順に
適用してゆき、判定ルール10まで来てPNXの検索に
入る。
【0082】PFからPRに向かって順にPNXの条件
を満たすかどうかを調べてゆき、最初にPNXが見つか
った時点で検索を終了する。 PF:PFに括弧不足はなく、PN1(=PNXか否か
の判断対象となっている次の段落)が先頭不可でもない
ので、(1)〜(4)のすべての条件で調べるが、PF
はそのいずれにも当てはまらない。
【0083】PN1:PFに括弧不足はなく、PN2が
先頭不可でもないので(1)〜(4)のすべての条件で
調べるが、PN1はいずれにも当てはまらない。 PN2:PFに括弧不足がなく、PN3が先頭不可でも
ないので(1)〜(4)のすべての条件で調べると、P
N2が(1)の段落末句点の条件に該当するため、PN
Xとして検出される。
【0084】PN3(=PNXの次の段落)の属性が未
定のため、PN1からPN2(=PNX)までに「不完
全段落」属性を付与し、且つPN2にはその末端である
旨のフラグ「末」をたてるとともに、PFを「不完全段
落」として確定し、そのデータ中の空白と改行の削除を
行って(但し英数字の直後の空白は削除しない)、その
データを論理段落情報格納手段24に格納する。図10
は、図9に示した状態からこれらの処理を完了した後、
バッファメモリ26内の各段落データがフロントPF側
へ順送りされ、リアPRに新たな形式段落のデータが格
納された状態を示している。
【0085】次に、文書データの7行目の形式段落のデ
ータ「□と、いう疑問…………」がリアPRに入った図
10に示す状態で、PFに対して判定ルール1から順に
適用してゆくと、括弧不足があるため判定ルール9には
かからず、判定ルール10でPNXの検索に入る。 PF:PFに括弧不足があるので、判定ルール10の
(2)のみで調べるが、PFはこの条件には当てはまら
ない。 PN1:同上。 PN2:同上。
【0086】PN3:PFの開き括弧に対応する閉じ括
弧が見つかるので、これ以降PNXの検索条件が変わ
り、判定ルール10の(1)〜(4)のいずれかの条件
に当てはまるかどうかを調べる(判断対象の次の段落が
先頭不可である場合は(1)(2)のみ)。図10の場
合には、PN3はPNXには該当しない。 PR:(1)の段落末が句点の条件に当てはまるため、
PRがPNXとして検出される。
【0087】PNXの次の段落の属性が未定のため、P
N1からPR(=PNX)までに「不完全段落」の属性
を付与し、且つPRにはその末端である旨のフラグ
「末」をたてるとともに、PFを「不完全段落」として
確定し、不要な空白・改行を削除して、そのデータを論
理段落情報格納手段24に格納する。図11は、図10
に示した状態からこれらの処理を完了した後、バッファ
メモリ26内の各段落データがフロントPF側へ順送り
され、リアPRに新たな形式段落のデータが格納された
状態を示している。
【0088】図10の状態で、不完全段落の末尾が、一
旦「□つながりを判定することなどできるのか。」で
あるとされたのを、ここで「□と、いう疑問を抱かせる
ことになると思います。」の位置まで修正している。
すなわち「□つながりを…」は段落末が句点のため、こ
こで論理段落の切れる可能性が高いが、PFに括弧不足
のある段落が来た時点で、この句点が開き括弧と閉じ括
弧との間(=括弧内)に位置することが分かるため、判
断を改めて論理段落の区切りとはしないのである。
【0089】次に、図11に示すように、文書データの
8行目の形式段落のデータ「□以下では、…………」が
リアPRに入った状態で、フロントPFに対して判定ル
ールを判定ルール1から順に適用していき、判定ルール
9によりPFを「不完全段落」として確定し、不要な空
白・改行を削除して、そのデータを論理段落情報格納手
段24に格納する。そして、バッファメモリ26内の各
段落データをフロントPF側へ順送して、リアPRに新
たな形式段落のデータを格納すると図12に示す状態に
なる。
【0090】次いで、文書データの最後の行の形式段落
のデータ「(1)インターフェース」がリアPRに入
った図12に示す状態で、フロントPFに対して判定ル
ール1がら順に適用して、先の段落の場合と同様な処理
を行ない、そのデータを論理段落情報格納手段24に格
納すると、図13に示すようになる。もう新たな形式段
落のデータの格納はないが、以後はダミーの段落のデー
タが送られてくる。この「ダミーの段落」とは、具体的
には段落終了のフラグが立てられた段落のことであり、
文字列の部分には、初期化が行なわれていれば何も入っ
ておらず、初期化が行なわれていなければゴミのデータ
が入っている。この図13の状態でも、フロントPFに
対して同様の処理を行なって、図14に示す状態にな
る。
【0091】この図14に示す状態で、フロントPFに
対して判定ルール1から順に適用していき、判定ルール
9によりPFを「不完全段落」として確定し、不要な空
白を削除して、そのデータを論理段落情報格納手段24
に格納すると図15に示すようになる。このとき、PF
は不完全段落であっても末端であるため改行は削除しな
い。これによって、6つの形式段落の結合による「ワー
プロ…………思います。」の一連の論理段落が完成す
る。
【0092】この図15に示す状態で、さらにフロント
PFに対して判定ルール1から順に適用していき、判定
ルール5によりPFを「完全段落」として確定し、不要
な空白のみを削除して、そのデータを論理段落情報格納
手段24に格納すると、図16に示すようになる。
【0093】さらに、この図16に示す状態で、フロン
トPFに対して判定ルール1から順に適用していき、判
定ルール6によりPFを「見出し・箇条書き」として確
定し、そのPFのデータをそのまま論理段落情報格納手
段24に格納すると、図17に示すようになる。そし
て、この図17に示す状態では、PFの位置にはダミー
の段落のデータしかないので、判定ルール1により処理
を終了する。
【0094】上述の説明では、図1に示した論理段落生
成手段23によって生成された論理段落情報は、全て論
理段落情報格納手段24に格納されて一文書分蓄積され
るように説明したが、この生成された論理段落情報をど
のタイミングで校正処理のモジュール等の利用手段へ送
出するかは、必要に応じて任意に設定できる。 したが
って、例えば、一つの論理段落が生成されて論理段落情
報格納手段(合成バッファ)24に格納される都度、そ
のデータを他のモジュールへ転送して、格納した内容は
クリアするようにしてもよい。
【0095】この発明による図1又は図5に示した実施
形態における各手段の機能を、図2に示したパーソナル
コンピュータのような情報処理装置によって実行できる
ようにするために、段落種別判定機能および論理段落生
成機能等を内蔵のマイクロコンピュータに実現させるた
めのプログラムを、記録媒体である光ディスク8あるい
はフロッピディスク10に、CPU1を含むマイクロコ
ンピュータによって読み取り可能に記録して提供する。
【0096】このような前述の判定ルール1から10に
従う段落種別判定、および論理段落生成機能をパーソナ
ルコンピュータによって実行するためのプログラムの概
要を、図18および図19にフローチャートで示す。こ
のフローチャートは一連の処理の流れを示すが、図示の
都合で2つの図に分割して示している。
【0097】上述の各実施形態では、この発明による文
書データ処理を行なって生成した論理段落のデータを文
書校正処理に使用する例について述べたが、このデータ
を自動翻訳や単語検索等の処理に使用しても、それらの
処理を迅速・的確に行なうことが可能になる。
【0098】
【発明の効果】以上説明してきたように、この発明によ
る文書データ処理方法あるいは処理装置によれば、複雑
な構成の文書データであっても、その中に含まれている
文章構成上不要な空白文字コード(スペースコード又は
タブコード)及び不要な改行コードを適切に削除して論
理的に連続する段落を抽出し、文書校正のための自動チ
ェックや単語検索、あるいは自動翻訳などの処理を正確
に能率よく行なえるようにすることができる。
【0099】また、この発明による記録媒体を用いれ
ば、パーソナルコンピュータ等の汎用の情報処理装置に
この記録媒体に記録されているプログラムを読み込んで
内部のメモリにロードさせれば、この発明による文書デ
ータ処理を実行できる装置として使用できるようにな
る。
【図面の簡単な説明】
【図1】この発明による文書データ処理装置の一実施形
態を示す機能ブロック図である。
【図2】この発明による文書データ処理方法を実施する
文書データ処理機能を有するワードプロセッサあるいは
パーソナルコンピュータ等の情報処理装置の概略構成を
示すブロック図である。
【図3】この発明による文書データ処理の一例を示す説
明図である。
【図4】段落連接情報の説明図である。
【図5】この発明による文書データ処理装置の他の実施
形態を示す機能ブロック図である。
【図6】図5に示した手段によって処理する具体的文書
データの一例を示す図である。
【図7】その文書データ処理例を説明するための図5に
おけるバッファメモリ26と論理段落情報格納手段24
内のデータを示す図である。
【図8】同じくその次の状態を示す図である。
【図9】同じくその次の状態を示す図である。
【図10】同じくその次の状態を示す図である。
【図11】同じくその次の状態を示す図である。
【図12】同じくその次の状態を示す図である。
【図13】同じくその次の状態を示す図である。
【図14】同じくその次の状態を示す図である。
【図15】同じくその次の状態を示す図である。
【図16】同じくその次の状態を示す図である。
【図17】同じくその処理終了状態を示す図である。
【図18】この発明による段落種別判定および論理段落
生成機能をパーソナルコンピュータによって実行するた
めのプログラムの概要を示すフロー図である。
【図19】同じくその続きのフロー図である。
【符号の説明】
1:CPU 2:ROM 3:RAM 4:ハードディスク装置(HDD) 5:キーボード 6:ポインティングデバイス 7:光ディスク装置 8:光ディスク(記録媒体) 9:フロッピディスク装置 10:フロッピディスク(記録媒体) 11:バス 21:段落情報設定手段 22:段落種別判定手段 23:論理段落生成手段 24:論理段落情報格納手
段 25:段落種別判定・論理段落生成手段 26:バッファメモリ 27:形式段落情報シフト手

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 空白文字コードを含む各種文字コードと
    段落を形成する改行コードが配列された文書データか
    ら、文章構成上不要な空白文字コード及び不要な改行コ
    ードを削除する文書データ処理方法であって、 前記文書データにおける前記改行コードによって形式的
    に区切られる一連の文字コード列を形式段落とし、その
    形式段落中の文字コードが空白文字コードのみからなる
    場合は空白段落、その形式段落が見出し又は箇条書きと
    して使われている場合は見出し・箇条書き段落、その形
    式段落が独立した文章を構成している場合は完全段落、
    その形式段落が独立した文章の一部となっている場合は
    不完全段落として、各形式段落の段落種別を判定し、 前記空白段落に対しては該段落内の全ての空白文字コー
    ドを削除して1論理段落とするかあるいは該段落全体を
    削除し、 前記見出し・箇条書き段落に対しては処理を加えずに1
    形式段落を1論理段落とし、 前記完全段落に対しては不要な空白文字コードを削除し
    て1形式段落を1論理段落とし、 前記不完全段落に対しては不要な空白文字コードを削除
    すると共に、連続する不完全段落の終端の直前の段落ま
    での各段落の改行コードを削除し、その連続する複数の
    不完全段落を結合して1論理段落とすることにより、論
    理段落を生成することを特徴とする文書データ処理方
    法。
  2. 【請求項2】 請求項1記載の文書データ処理方法にお
    いて、 前記形式段落が次の(a)及び(b)のいずれかの条件
    を満たすときに、見出し・箇条書き段落と判定すること
    を特徴とする文書データ処理方法。 (a)段落の空白以外の文字開始位置から連続する所定
    数と文字終了位置に連続する所定数の各文字コードが特
    定の記号コードである、(b)段落の空白以外の文字開
    始位置から1又は複数の文字コードが、開き括弧と文字
    又は数字と閉じ括弧のコードの組み合わせ、文字又は数
    字と閉じ括弧又は点のコードの組み合わせ、もしくは記
    号コードのいずれかである、
  3. 【請求項3】 請求項1又は2記載の文書データ処理方
    法において、 前記形式段落が完全段落か不完全段落かの判定、および
    不完全段落の場合に終端の段落か否かの判定を、段落の
    空白以外の文字の開始位置、文字列の長さ、空白以外の
    最後の文字が句点か否か、開き括弧があった後の閉じ括
    弧の有無に基づいて行なうことを特徴とする文書データ
    処理方法。
  4. 【請求項4】 請求項1乃至3のいずれか一項に記載の
    文書データ処理方法において、 前記完全段落又は不完全段落に対して不要な空白文字コ
    ードを削除する際、英数字コードの直後の空白文字コー
    ド及び文字開始位置から予め設定した文字数以内に存在
    する連続する空白文字コードのうちの1個は、必要な空
    白文字コードとして削除しないことを特徴とする文書デ
    ータ処理方法。
  5. 【請求項5】 空白文字コードを含む各種文字コードと
    段落を形成する改行コードが配列された文書データか
    ら、文章構成上不要な空白文字コード及び不要な改行コ
    ードを削除する文書データ処理装置であって、 前記文書データにおける前記改行コードによって形式的
    に区切られる一連の文字コード列を形式段落とし、その
    形式段落中の文字コードが空白文字コードのみからなる
    場合は空白段落、その形式段落が見出し又は箇条書きと
    して使われている場合は見出し・箇条書き段落、その形
    式段落が独立した文章を構成している場合は完全段落、
    その形式段落が独立した文章の一部となっている場合は
    不完全段落として、各形式段落の段落種別を判定する段
    落種別判定手段と、 該手段によって判定された前記空白段落に対しては該段
    落内の全ての空白文字コードを削除して1論理段落とす
    るかあるいは該段落全体を削除し、前記見出し・箇条書
    き段落に対しては処理を加えずに1形式段落を1論理段
    落とし、前記完全段落に対しては不要な空白文字コード
    を削除して1形式段落を1論理段落とし、前記不完全段
    落に対しては不要な空白文字コードを削除すると共に、
    連続する不完全段落の終端の直前の段落までの各段落の
    改行コードを削除し、その連続する複数の不完全段落を
    結合して1論理段落とすることにより、論理段落を生成
    する論理段落生成手段と、 該手段によって生成される論理段落の情報を格納する論
    理段落情報格納手段とを備えたことを特徴とする文書デ
    ータ処理装置。
  6. 【請求項6】 請求項5記載の文書データ処理装置にお
    いて、 前記段落種別判定手段が、前記形式段落の段落種別を判
    定できたときには該形式段落の情報に段落種別情報を付
    与する手段を有し、 前記論理段落生成手段が、 前記段落種別判定手段によって段落種別情報が付与され
    た場合にはその情報を含む各形式段落の情報を、文書先
    頭側から1形式段落分ずつ順送りに所定段落数分格納す
    る所定数のバッファ記憶部と、 その先頭のバッファ記憶部に格納された形式段落の情報
    に対して、前記所定数の各バッファ記憶部にそれぞれ格
    納された形式段落の情報及びそれに付与されている段落
    種別情報を参照してその段落種別を確定し、その確定し
    た段落種別に応じて前記論理段落を生成する処理を行な
    って、その情報を前記論理段落情報格納手段に格納する
    手段と、 該手段によって前記先頭のバッファ記憶部に格納された
    形式段落の情報に対する論理段落の生成処理が終了する
    と、他の前記バッファ記憶部に格納されている形式段落
    の情報を前記先頭のバッファ記憶部側へ順送りし、最後
    のバッファ記憶部に次の形式段落の情報を格納させる手
    段とからなることを特徴とする文書データ処理装置。
  7. 【請求項7】 請求項5又は6記載の文書データ処理装
    置において、 前記段落種別判定手段が、前記形式段落が次の(a)及
    び(b)のいずれかの条件を満たすときに、該形式段落
    を見出し・箇条書き段落と判定する手段を有することを
    特徴とする文書データ処理装置。 (a)段落の空白以外の文字開始位置から連続する所定
    数と文字終了位置に連続する所定数の各文字コードが特
    定の記号コードである、(b)段落の空白以外の文字開
    始位置から1又は複数の文字コードが、開き括弧と文字
    又は数字と閉じ括弧のコードの組み合わせ、文字又は数
    字と閉じ括弧又は点のコードの組み合わせ、もしくは記
    号コードのいずれかである、
  8. 【請求項8】 請求項5乃至7のいずれ一項に記載の文
    書データ処理装置において、 前記段落種別判定手段が、前記形式段落が完全段落か不
    完全段落かの判定を、段落の空白以外の文字の開始位
    置、文字列の長さ、空白以外の最後の文字が句点か否
    か、開き括弧があった後の閉じ括弧の有無に基づいて行
    なう手段を有することを特徴とする文書データ処理装
    置。
  9. 【請求項9】 請求項5乃至8のいずれか一項に記載の
    文書データ処理装置において、 前記論理段落生成手段が、段落種別が完全段落又は不完
    全段落であると確定した段落の情報に対して不要な空白
    文字コードを削除する際、英数字コードの直後の空白文
    字コード及び文字開始位置から予め設定した文字数以内
    に存在する連続する空白文字コードのうちの1個は、必
    要な空白文字コードとして削除しないようにする手段を
    有することを特徴とする文書データ処理装置。
  10. 【請求項10】 空白文字コードを含む各種文字コード
    と段落を形成する改行コードが配列された文書データに
    対して、前記改行コードによって形式的に区切られる一
    連の文字コード列を形式段落とし、その形式段落中の文
    字コードが空白文字コードのみからなる場合は空白段
    落、その形式段落が見出し又は箇条書きとして使われて
    いる場合は見出し・箇条書き段落、その形式段落が独立
    した文章を構成している場合は完全段落、その形式段落
    が独立した文章の一部となっている場合は不完全段落と
    して、各形式段落の段落種別を判定する機能と、 該機能によって判定した前記空白段落に対しては該段落
    内の全ての空白文字コードを削除して1論理段落とする
    かあるいは該段落全体を削除し、見出し・箇条書き段落
    に対しては処理を加えずに1形式段落を1論理段落と
    し、前記完全段落に対しては不要な空白文字コードを削
    除して1形式段落を1論理段落とし、前記不完全段落に
    対しては不要な空白文字コードを削除すると共に、連続
    する不完全段落の終端の直前の段落までの各段落の改行
    コードを削除し、その連続する複数の不完全段落を結合
    して1論理段落とすることにより、論理段落を生成する
    機能とを、 コンピュータに実現させるためのプログラムをコンピュ
    ータによって読み取り可能に記録した記録媒体。
JP10283432A 1997-09-18 1998-09-18 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体 Pending JPH11191105A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10283432A JPH11191105A (ja) 1997-09-18 1998-09-18 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP9-272187 1997-09-18
JP27218797 1997-09-18
JP10283432A JPH11191105A (ja) 1997-09-18 1998-09-18 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JPH11191105A true JPH11191105A (ja) 1999-07-13

Family

ID=26550075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10283432A Pending JPH11191105A (ja) 1997-09-18 1998-09-18 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JPH11191105A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013074609A (ja) * 2011-09-29 2013-04-22 Konica Minolta Business Technologies Inc ファイル名作成装置およびファイル名作成プログラム
JP2013544043A (ja) * 2010-10-21 2013-12-09 ブラックベリー リミテッド サポートに基づいて文字および画像を表示すること

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62249269A (ja) * 1986-04-23 1987-10-30 Toshiba Corp 文書処理装置
JPH03233670A (ja) * 1990-02-09 1991-10-17 Toshiba Corp テキストデータ変換方式
JPH04167052A (ja) * 1990-10-31 1992-06-15 Toshiba Corp 文書編集装置
JPH04259058A (ja) * 1991-02-14 1992-09-14 Sharp Corp スペース削除機能付文書処理装置
JPH0573548A (ja) * 1990-12-18 1993-03-26 Casio Comput Co Ltd 文書整形装置
JPH0589164A (ja) * 1991-09-30 1993-04-09 Sharp Corp 文書変換装置
JPH0749851A (ja) * 1994-07-20 1995-02-21 Casio Comput Co Ltd 文書整形装置
JPH07225761A (ja) * 1994-02-08 1995-08-22 Hitachi Ltd 文書データの一致検証方式

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62249269A (ja) * 1986-04-23 1987-10-30 Toshiba Corp 文書処理装置
JPH03233670A (ja) * 1990-02-09 1991-10-17 Toshiba Corp テキストデータ変換方式
JPH04167052A (ja) * 1990-10-31 1992-06-15 Toshiba Corp 文書編集装置
JPH0573548A (ja) * 1990-12-18 1993-03-26 Casio Comput Co Ltd 文書整形装置
JPH04259058A (ja) * 1991-02-14 1992-09-14 Sharp Corp スペース削除機能付文書処理装置
JPH0589164A (ja) * 1991-09-30 1993-04-09 Sharp Corp 文書変換装置
JPH07225761A (ja) * 1994-02-08 1995-08-22 Hitachi Ltd 文書データの一致検証方式
JPH0749851A (ja) * 1994-07-20 1995-02-21 Casio Comput Co Ltd 文書整形装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013544043A (ja) * 2010-10-21 2013-12-09 ブラックベリー リミテッド サポートに基づいて文字および画像を表示すること
JP2013074609A (ja) * 2011-09-29 2013-04-22 Konica Minolta Business Technologies Inc ファイル名作成装置およびファイル名作成プログラム
US9659018B2 (en) 2011-09-29 2017-05-23 Konica Minolta Business Technologies, Inc. File name producing apparatus that produces file name of image

Similar Documents

Publication Publication Date Title
US7293229B2 (en) Ensuring proper rendering order of bidirectionally rendered text
EP0098959B1 (en) Method for producing right margin justified text data in a text processing system
CA2007414C (en) Method for manipulating elements within a structured document using active intent interpretations
JPH0793335A (ja) テキストの言語機能を提供する方法
JPH1153384A (ja) キーワード抽出装置及びキーワード抽出方法並びにキーワード抽出プログラムを格納したコンピュータ読み取り可能な記録媒体
JPS6231467A (ja) 文章作成装置
US6125377A (en) Method and apparatus for proofreading a document using a computer system which detects inconsistencies in style
JPH0211934B2 (ja)
JP4760043B2 (ja) 言語解析方法およびプログラム
EP0449322B1 (en) Text processing apparatus with formatting of text
JPH067385B2 (ja) キ−ワ−ド自動抽出方式
US5689723A (en) Method for allowing single-byte character set and double-byte character set fonts in a double-byte character set code page
JPH11191105A (ja) 文書データ処理方法及び処理装置とその処理プログラムを記録した記録媒体
US6668355B1 (en) Text editing system
JPH0883280A (ja) 文書処理装置
US5640581A (en) CD-ROM information editing apparatus
JP4189040B2 (ja) 文章校正装置および文章校正方法
JP3377942B2 (ja) 電子辞書検索装置および電子辞書検索装置制御用プログラムを記憶したコンピュータ読取可能な記憶媒体
JP3329476B2 (ja) かな漢字変換装置
JP2575947B2 (ja) 文節切出し装置
JP3792060B2 (ja) 改行評価方法及び改行評価処理装置
JP3393162B2 (ja) 文章編集装置
JP2007316834A (ja) 日本語文章修正装置、日本語文章修正方法および日本語文章修正のためのプログラム
JPH06290209A (ja) 文切り装置
JP3206600B2 (ja) 文書生成装置