JPH09305704A - 文書処理装置 - Google Patents

文書処理装置

Info

Publication number
JPH09305704A
JPH09305704A JP8124454A JP12445496A JPH09305704A JP H09305704 A JPH09305704 A JP H09305704A JP 8124454 A JP8124454 A JP 8124454A JP 12445496 A JP12445496 A JP 12445496A JP H09305704 A JPH09305704 A JP H09305704A
Authority
JP
Japan
Prior art keywords
area
article
image data
character
ruled line
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8124454A
Other languages
English (en)
Inventor
Iwao Tanaka
巖 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP8124454A priority Critical patent/JPH09305704A/ja
Publication of JPH09305704A publication Critical patent/JPH09305704A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)
  • Processing Or Creating Images (AREA)

Abstract

(57)【要約】 【課題】 表示された画像データ上で切り出したい記事
の少なくとも1文字を指定すれば、記事の文頭と文末を
設定し画像データから指定記事を切り出す。 【解決手段】 新聞/雑誌等の紙面に印刷された記事及
び罫線等からなる画像データを記憶する画像データ記憶
手段と、記憶された画像データを画面に表示する表示手
段と、表示された画像データのうち切り出したい記事の
少なくとも1文字を指定する指定手段と、新聞/雑誌等
の記事特有の文章配置法則を記憶した文章配置法則テー
ブルと、画像データを区切る領域及び段を形成する罫線
の位置及び種類を認識する罫線認識手段と、前記指定手
段から指定された文字を受け、前記文章配置法則テーブ
ルと罫線の位置及び種類情報を参照して指定された文字
を含む記事の領域及び段を判定して画像データから指定
記事を切り出す記事切り出し手段とを備えている。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は文書処理装置に関
し、特に、新聞、雑誌等の紙面に印刷された画像データ
から記事を自動的に切り出して記録する文書処理装置に
関する。
【0002】
【従来の技術】近年、情報の電子化、ペーパーレス化が
叫ばれ、新聞、雑誌等の印刷物からの情報の収集、整理
の電子化も電子ファイル等の出現により、従来の新聞、
雑誌等から関連する記事をハサミ等で切り取ってノート
等にスクラップするといった方法から、切り取った記事
を画像データとして光磁気ディスク等の大容量の記憶メ
ディアにインデックスを付けて記録するといった方法に
変わってきた。
【0003】また、最近では、新聞、雑誌等の紙面に印
刷された画像データを光学的に読み取り、読み取った画
像データ内の指定記事を画面で確かめながら手作業で切
り出し編集処理する方法があるが、手作業による切り出
しの非効率さを改善するため、光学的に読み取った画像
データ内の指定記事を罫線情報により自動的に切り出す
ことができる画像情報の処理方式が提案されている(特
開昭62−76969号公報参照)。
【0004】
【発明が解決しようとする課題】しかしながら、特開昭
62−76969号公報に記載の画像情報の処理方式に
おいて、画像データから記事領域の横罫線と縦罫線を抽
出し、抽出した横罫線と縦罫線との関係から所望の指定
記事を自動的に切り出すことが記載されているが、一般
的な縦・横罫線の区画情報による複数領域から所望の指
定記事を自動的に切り出す機能は、現実の複雑な新聞等
のレイアウトに対して、十分に機能しない。
【0005】図26は従来技術の画像データの切り出し
処理を示す説明図である。図26に示すように、光学的
に読み取られた画像データから縦・横罫線が抽出され、
画面データが複数の領域に区切られている。この画像デ
ータ中に区切られた記事領域a、b、c、dが複数存在
する場合、複数の記事領域に跨がる指定記事の接続に関
して判別する問題が発生する。特開昭62−76969
号公報に記載の画像情報の処理方式では、例えば、aの
記事領域から次のb、c、dの記事領域のうち、どの記
事領域と接続するか自動判別しないので、操作者が判別
して手作業で切り出しする必要が発生する。従って、さ
らに作業性の改善が要求される。
【0006】また、従来技術の画像情報の処理方式で
は、文頭・文末が正確な位置に設定されていない場合、
切り出した記事の画像データが操作者の意図しない範囲
で切り出されてしまうことがあり、操作者は、自らが意
図した通りの画像データを得るためには、切り出したい
記事の文頭・文末を正確に指定しなければならない。ま
た、文頭・文末の文字位置の指定にもかかわらず、指定
した領域ごと切り出した場合、領域内の、操作者が必要
と認めない範囲も一緒に切り出してしまう。また、複数
の段に跨がらない見出し欄の検知は、従来の処理方式で
は不可能であり、見出し欄は、操作者の意図にかかわら
ず、記事と同時に切り出されてしまう。
【0007】本発明は以上の事情を考慮してなされたも
のであり、新聞/雑誌等の紙面に印刷された記事及び罫
線を光学的に読み取って表示した画像データから、文頭
・文末の文字、または任意の1文字を指定すれば、新聞
/雑誌等の記事特有の文章配置法則に従って指定された
文字に含まれる記事と同一の指定記事を判定して自動的
に切り出し、ファイリング等の作業の操作性の向上、処
理時間の短縮を実現する文書処理装置を提供することに
ある。
【0008】
【課題を解決するための手段】本発明は、新聞/雑誌等
の紙面に印刷された記事及び罫線等からなる画像データ
を記憶する画像データ記憶手段と、記憶された画像デー
タを画面に表示する表示手段と、表示された画像データ
のうち切り出したい記事の少なくとも1文字を指定する
指定手段と、新聞/雑誌等の記事特有の文章配置法則を
記憶した文章配置法則テーブルと、画像データを区切る
領域及び段を形成する罫線の位置及び種類を認識する罫
線認識手段と、前記指定手段から指定された文字を受
け、前記文章配置法則テーブルと罫線の位置及び種類情
報を参照して指定された文字を含む記事の領域及び段を
判定して画像データから指定記事を切り出す記事切り出
し手段とを備えてなる文書処理装置である。
【0009】従って、前記構成によれば、表示された画
像データのうち切り出したい記事の少なくとも1文字を
指定すれば、指定された文字を含む記事の領域及び段を
判定して画像データから指定記事を切り出すことによ
り、ファイリング等の作業の操作性の向上、処理時間の
短縮を実現する。
【0010】前記指定手段が前記表示された画像データ
のうち切り出したい記事の文頭と文末の2文字を指定し
た際、前記記事切り出し手段は、文章配置法則テーブル
と罫線の位置及び種類情報とを参照して指定された文頭
と文末の2文字間に含まれる記事の範囲を設定し画像デ
ータから指定記事を切り出すよう構成されることが好ま
しい。従って、前記構成によれば、画面に表示された画
像データ上で切り出したい記事の文頭と文末の2文字を
指定すれば、前記2文字間に含まれる記事を自動的に切
り出すことができる。
【0011】前記指定手段は前記表示された画像データ
のうち切り出したい記事の文頭または文末のいずれか1
文字を指定した際、前記記事切り出し手段は、文章配置
法則テーブルと罫線の位置及び種類情報とを参照して指
定された1文字からもう一方の文頭または文末の1文字
を検索して文頭と文末の2文字間に含まれる記事の範囲
を設定し画像データから指定記事を切り出すよう構成さ
れることが好ましい。従って、前記構成によれば、画面
に表示された画像データ上で切り出したい記事の文頭ま
たは文末の1文字を指定すれば、もう一方の文頭または
文末の1文字を検索して文頭と文末の2文字間に含まれ
る記事を自動的に切り出すことができる。
【0012】前記指定手段は前記表示された画像データ
のうち切り出したい記事の任意の1文字を指定した際、
前記記事切り出し手段は、文章配置法則テーブルと罫線
の位置及び種類情報とを参照して指定された1文字から
文頭と文末の2文字を検索してその2文字間に含まれる
記事の範囲を設定し画像データから指定記事を切り出す
よう構成されることが好ましい。従って、前記構成によ
れば、画面に表示された画像データ上で切り出したい記
事の任意の1文字を指定すれば、文頭と文末の2文字を
検索してその2文字間に含まれる記事を自動的に切り出
すことができる。
【0013】前記罫線認識手段は領域及び段を形成する
縦・横罫線の位置情報からその配置状態を認識した際、
前記記事切り出し手段は、認識された縦・横罫線の配置
状態に基づいて領域及び段に含まれる記事の文頭及び文
末の文字を検索して画像データから指定記事を切り出す
よう構成されることが好ましい。従って、前記構成によ
れば、領域及び段を形成する縦・横罫線の配置状態に基
づいて切り出したい記事の文頭と文末の文字を判定する
ので、記事切り出し処理の精度が向上する。
【0014】前記記事切り出し手段は、前記指定記事の
一部が含まれる領域及び段に続く領域及び段を形成する
縦・横罫線の端部が直交する方向の縦・横罫線に対し所
定値以下の間隔を空けて配置されている場合、この領域
及び段に含まれる記事は指定記事であると判定するよう
構成されることが好ましい。従って、前記構成によれ
ば、指定記事が次の領域及び段に含まれるか否かを判定
する際、縦・横罫線の配置状態により切り出したい指定
記事と同一記事か判定できるので、記事切り出しの精度
が上がる。
【0015】前記記事切り出し手段は、縦・横罫線によ
り囲まれた矩形領域内の段に縦・横罫線がない場合、こ
の矩形領域内に含まれる全記事を一つの指定記事として
切り出すよう構成されることが好ましい。従って、前記
構成によれば、縦・横罫線により囲まれた矩形領域が、
内部に複数の段を持ち、その内部のみ段を区切る罫線が
存在しない場合、矩形領域内に一つの独立した指定記事
と判定し、記事の切り出しの精度及び処理速度の向上す
る。
【0016】前記記事切り出し手段は、段を形成する縦
・横罫線の配置状態と前記縦・横罫線間の距離に基づい
て段内に広告があるか否かを判定し、広告がある段を記
事の切り出し範囲から除外するよう構成されることが好
ましい。従って、前記構成によれば、段内に記載された
広告(複数の段に跨がらない、一つの段の中だけに配置
された固定幅の広告)を検索して、記事切り出し範囲か
ら除外することにより、その前後の領域には指定記事が
あると判定することができるので記事切り出しの精度と
処理速度が向上する。
【0017】前記罫線認識手段は、領域及び段を形成す
る縦・横罫線の種類のうち一般的な罫線とは異なる特殊
な種類の縦・横罫線を認識した際、前記記事切り出し手
段は、特殊な種類の縦・横罫線で囲まれた矩形領域内に
含まれる全記事を一つの指定記事として切り出すよう構
成されることが好ましい。従って、前記構成によれば、
特殊罫線で区画された領域を一つの指定記事として切り
出すので記事切り出しの精度と処理速度が向上する。
【0018】前記記事切り出し手段は、段を形成する縦
・横罫線の端部がその端部と直交する方向の縦・横罫線
に対し所定値以上の距離を空けて配置されている場合、
前記直交する方向の縦・横罫線で形成される領域には見
出し・トピック欄が含まれると判定し、見出し・トピッ
ク欄が含まれる領域を記事の切り出し範囲から除外する
よう構成されることが好ましい。従って、前記構成によ
れば、見出し・トピック欄の文章を記事とは区別し、記
事切り出しの対象から除外するため、記事切り出しの精
度が向上する。
【0019】前記記事切り出し手段は、前記見出し・ト
ピック欄が含まれる領域と接する段の記事が指定された
際、同じ領域内で見出し・トピック欄と接している各段
に含まれる記事を指定記事として切り出すよう構成され
ることが好ましい。従って、前記構成によれば、見出し
・トピック欄を検索し、同じ領域の段組のうちで見出し
・トピック欄に接している段には指定記事が含まれると
判定するため、記事切り出しの精度と処理速度が向上す
る。
【0020】前記記事切り出し手段は、領域及び段に含
まれる記事の文字位置を解析し認識する文字位置認識手
段をさらに備え、前記文章配置法則テーブルと文字位置
情報を参照して指定記事の範囲を判定し、領域及び段に
含まれる記事から指定記事を切り出すよう構成されるこ
とが好ましい。従って、前記構成によれば、領域及び段
に含まれる記事の文字位置を解析することにより、指定
記事の範囲を判断するため、記事切り出しの精度が向上
する。
【0021】前記記事切り出し手段は、領域及び段に含
まれる記事の文字位置を解析し、記事の後方に空行が存
在した際、記事の文末と判定するよう構成されることが
好ましい。従って、前記構成によれば、記事の文字位置
を解析することにより、例えば、記事の後方の空行の認
識した場合、記事の文末と判断するため、記事切り出し
の精度が向上する。
【0022】前記記事切り出し手段は、領域及び段に含
まれる記事の文字位置を解析し、記事の先頭の行の最初
の文字位置が空白でなく且つ前段の最後の行の文字位置
が行末まで埋まっている場合、指定記事と判定するよう
構成されることが好ましい。従って、前記構成によれ
ば、記事の文字位置を解析することにより、例えば、記
事が含まれる段の先頭の行の最初の文字位置と前段の最
後の文字位置より、指定記事の範囲を確定するため、記
事切り出しの精度が向上する。
【0023】前記記事切り出し手段は、前記指定手段に
より指定された文字位置が文章配置法則に矛盾している
場合、前記表示手段に警告メッセージを表示するよう警
告指令を出力する構成にすることが好ましい。従って、
前記構成によれば、指定された文頭または文末の文字位
置が文章配置法則に矛盾するような指定がなされていた
場合、警告メッセージを表示し、操作者に修正を促すこ
とにより、記事切り出しの精度が向上する。
【0024】前記記事切り出し手段は、画像データから
指定記事を切り出す前に、前記指定手段から切り出し範
囲の変更指示を受けた際、前記表示手段に文字位置を対
話形式により指定できる画面を表示するよう変更指令を
出力する構成にすることが好ましい。従って、前記構成
によれば、切り出し処理の前に、文頭または文末の文字
位置を操作者との対話形式により修正できるので、領域
単位でなく、任意の範囲での記事切り出しが可能とな
る。また、文頭・文末設定時に厳密な位置指定を必要と
しない。
【0025】確定した領域の記事を切り出す際、操作者
が指定した各文字がそれぞれの領域において、文頭、文
末でない場合、操作者にその旨を警告し、対話形式で文
頭、文末を同一領域内で変更することにより、記事切り
出しの精度及び操作性を向上することができる。
【0026】前記記事切り出し手段は、前記指定手段に
より指定された文字位置が各領域内の文頭または文末の
文字位置でない場合、各領域の文頭または文末の文字位
置を設定した後、設定した文頭と文末間に含まれる記事
を画像データから切り出すよう構成されることが好まし
い。従って、前記構成によれば、画像データから記事を
切り出す前に、文頭または文末の文字位置が修正される
ので、領域単位でなく、任意の範囲での記事切り出しが
可能となる。また、文頭・文末設定時に厳密な位置指定
を必要としない。
【0027】前記記事切り出し手段は、前記指定手段に
より指定された文字位置が各領域内の文頭または文末の
文字位置でない場合、各領域の文頭の文字位置以前、文
末の文字位置以降の画像データを切り出し領域から除外
し、文頭と文末間に含まれる記事を画像データより切り
出すよう構成されることが好ましい。従って、前記構成
によれば、画像データから記事を切り出す前に、文頭ま
たは文末を修正できるため、領域単位でなく、任意の範
囲での記事切り出しが可能となる。また、文頭・文末設
定時に厳密な位置指定を必要としない。
【0028】前記記事切り出し手段は、前記指定手段に
より指定された文字位置の領域より上方の領域に指定記
事があるか否かを検索して前記見出し欄を含む領域の記
事の文頭を指定記事の文頭とするよう構成されることが
好ましい。従って、前記構成によれば、指定された文字
の領域及び段より前に含まれる指定記事の領域の判定す
る際、記事の見出し欄の位置と領域の文頭の文字の位置
を利用するため、上記領域の文頭の設定処理が容易にな
る。記事切り出しの処理の際の更なる精度の向上する。
【0029】なお、本発明の文書処理装置において、画
像データの入力は、固体撮像デバイスから構成される画
像入力手段により、新聞・雑誌等の紙面から装置内に光
学的に読み取り入力される。また、既に画像データを記
憶した記憶媒体から外部データ記憶手段を介して入力す
ることもできる。表示手段はCRTディスプレイ、LC
D(液晶ディスプレイ)等から構成され、処理対象の画
像データ、認識した各種罫線と各種罫線により区画され
た各領域及び段等の各データを表示する。
【0030】画像データ記憶手段、文章配置法則テーブ
ル、罫線認識手段、記事切り出し手段、文字位置認識手
段はCPU、ROM、RAM、I/Oポートからなるマ
イクロコンピュータで構成される。CPUは、特に、装
置全体を制御する制御部として機能するが、機能プログ
ラムにより罫線認識手段、記事切り出し手段、文字位置
認識手段として機能する。また、罫線認識手段は、主と
して、画像データを区切る領域及び段を形成する罫線の
位置及び種類を認識する。
【0031】画像データ記憶手段は、特に、この中のR
AMからなる記憶装置で構成され、入力された画像デー
タを文字位置座標と対応して記憶する。また、文章配置
法則テーブルは、特に、この中のROMからなる記憶装
置で構成され、新聞/雑誌等の記事特有の文章配置法則
を記憶している。指定手段はキーボード、ペン、マウス
等のポインティングデバイスからなる入力装置で構成さ
れ、切り出したい記事の文字位置を指定、切り出し処理
時の各種指示等を入力する。
【0032】
【発明の実施の形態】以下、図に示す実施例に基づいて
本発明を詳述する。なお、本発明はこれによって限定さ
れるものでない。
【0033】図1は本発明の一実施例である文書処理装
置の全体構成を示すブロック図である。図1において、
1はマイクロコンピュータのCPU(中央処理装置)で
あり、装置全体を制御する制御部として機能するが、機
能プログラムにより記事切り出し手段1aとして機能す
る。2は記憶装置であり、マイクロコンピュータのRO
M/RAMで構成され、特に、画像データ記憶手段2
a、文章配置法則テーブル2bとして機能する。
【0034】画像データ記憶手段2aは、記憶装置2の
RAMで構成され、入力された画像データを位置データ
と対応して記憶し、その他、切り出し処理対象の画像デ
ータ、文頭の文字位置(始点)・文末の文字位置(終
点)の位置データ、認識した罫線の位置データ、縦・横
罫線の種類、罫線の優先順位データ(配置データ)等の
各種データを記憶する。また、文章配置法則テーブル2
bは、記憶装置2のROMで構成され、新聞/雑誌等の
記事特有の文章配置法則を記憶している。さらに、以下
に説明する見出し領域の判定方法、特殊罫線による切り
出し処理、優先罫線の判定方法、同一領域の判定方法、
「段内広告」の存在の判定方法等も記憶してもよい。
【0035】3は外部データ記憶装置であり、フロッピ
ーディスク装置(FDD)、ハードディスク装置(HD
D)等で構成され、画像データ、文章配置法則等を記憶
することができる。また、画像データを外部データ記憶
装置3を介して入力することもできる。4は罫線認識部
(罫線認識手段)であり、制御プログラム(ROM)で
構成され、CPU1の制御により、主として、画像デー
タを区切る領域及び段を形成する罫線の位置及び種類を
認識する。5は文字位置認識部(文字位置認識手段)で
あり、制御プログラム(ROM)で構成され、CPU1
の制御により画像データ内の各文字の位置を認識する。
記事切り出し手段1a、記憶装置2、罫線認識部4、文
字位置認識部5はマイクロコンピュータ内に構成され
る。
【0036】6は入力装置であり、キーボード、ペン、
マウス等のポインティングデバイスから構成され、切り
出したい記事の文字位置を指定、切り出し処理時の各種
指示等を指定手段としても機能する。7は表示装置(表
示手段)であり、CRTディスプレイ、LCD(液晶デ
ィスプレイ)等から構成され、処理対象の画像データ、
認識した各種罫線と各種罫線により区画された各領域及
び段等の各データを表示する。8は画像入力装置(画像
入力手段)であり、固体撮像デバイスから構成され、新
聞・雑誌等の紙面から装置内に画像データを光学的に読
み取り入力する。9はバスラインであり、前記各部、各
装置の制御データ、アドレスデータを転送する。
【0037】図2は本実施例で切り出しの対象となる画
像データのレイアウトを示す説明図である。図2におい
て、斜線部は本実施例で切り出し対象としている文書
(記事)の部分を表し、図1に示す文書処理装置によっ
て画像データから切り出し対象の文書領域を認識して文
書を取り出す。また、文書領域の右上の欠けは文頭の段
落のための1字目の空白であり、左下の欠けは、段落の
最後の文字が行の半ばで終わっていることを表してい
る。以下は、切り出し対象の文書が縦書きで、かつ段組
みの段の間を罫線によって分割されている場合について
述べるものであり、以下の実施例は、対象となる文書が
横書きの場合にも対応できることは言うまでもない。
【0038】図3は本発明の画像データの切り出し処理
1の処理手順を示すフローチャートである。また、図6
〜図11は本発明の画像データの切り出し処理1の処理
状態を示す説明図であり、各図中のステップ番号は図3
に示すフローチャートのステップ番号に対応している。
図3のフローチャートは、特に、始点・終点の指定時の
画像データの切り出し処理を示す。図3において、
【0039】ステップS101:外部データ記憶装置
3、或いは画像入力装置8から記憶装置2に画像データ
を入力する(図6参照)。 ステップS102:CPU1は罫線認識部4に罫線認識
処理を指示し、罫線認識部4は、記憶装置2内に記憶さ
れた画像データ中、一般の縦・横罫線を認識し、各罫線
の端点の位置(座標データ)を測定し、記憶装置2内に
記憶する(図6参照)。 ステップS103:縦・横の特殊罫線(太罫線、2重罫
線、装飾罫線等)を認識し、各罫線の端点の位置データ
を記憶装置2内に記憶する(図6参照)。 ステップS104:CPU1は、記憶装置2内に記憶さ
れた画像データ中、交錯する一般の縦・横罫線の位置デ
ータより、見出し等の記事以外の領域(点線で囲んだ領
域)を判定する(図6参照)。
【0040】図21は本発明における見出し領域の判定
方法を示す説明図である。図21において、罫線A〜E
が配置されており、d1、d2はそれぞれ一定値以下の
ため、EとA、Dは接続しているとする。このとき、
B、CとEとの距離dがある一定値以上で、さらに等距
離である場合、B、CとEの間に見出し領域が存在する
とする。この場合、見出し領域は、A、D、E、並びに
B、Cのそれぞれの端点を通る直線によって囲まれた領
域とする。
【0041】即ち、図21に示すように、各横罫線の右
端点と、上記罫線を延長した際に交錯する縦罫線との距
離が、ある閾値(一定値)より長い場合に、上記横罫線
の右端点と、交錯する縦罫線との間に、見出し欄または
それに準じたトピック欄が存在すると判定し、上記端点
と、延長線上に交錯する上記縦罫線、及び上記縦罫線が
交錯する上下の横罫線を含む最大矩形領域を「見出し領
域」として、記憶装置2内に記憶し、記事切り出しの対
象からは除外する。
【0042】ステップS105:CPU1は、認識され
た上記罫線に基づいて領域を区画し、区画された領域毎
に番号(アラビア数字)を付加し、記憶装置2内に記憶
する(図7参照)。この場合、区画された領域とは、上
記各罫線の端点と、上記端点を延長した時に交錯する罫
線との距離がある閾値以下である場合に、上記端点と上
記罫線が接続していると判断し、上記罫線によって区画
され、閉じている領域をいう。
【0043】また、ステップS103にて認識された特
殊罫線によって区画された領域は、内部の一般罫線の有
無にかかわらず、一つの区画された領域とする(図22
参照)。図22は本発明における特殊罫線による切り出
し処理を示す説明図である。図22に示すように斜線領
域を指定記事(同一記事)が含む領域と判定する。ま
た、領域内の罫線の有無は判定しない。 ステップS106:CPU1は、記憶装置2内に記憶さ
れた画像データ中、交錯する縦・横一般罫線の位置デー
タより、それぞれの優先順位を判定する(図7、図23
参照)。
【0044】図23は本発明における優先罫線の判定方
法を示す説明図である。図23において、縦・横罫線の
一方の端点を延長した場合にもう一方の罫線と交錯する
とき、その端点と罫線間の距離dがある一定値以下の場
合、その縦・横罫線は接続しているとし、横罫線の端点
を延長した交点は縦罫線優先とし、また、縦罫線の端点
を延長した交点は横罫線優先とする。
【0045】即ち、図23に示すように、各罫線の端点
と、上記罫線を延長した際に別の罫線と交錯し、かつそ
の距離がある閾値(一定値)より短い場合において、上
記縦罫線を延長してできる交錯状態を「横罫線優先」Y
とし、横罫線を延長してできる交錯状態を「縦罫線優
先」Tとし、それぞれの状態を記憶装置2内の罫線の位
置情報に付加する。
【0046】ステップS107:CPU1は、ステップ
S101〜S106によって認識・判定された結果を、
表示装置7に表示する(図7参照)。この時、表示され
る情報は、処理対象の画像データ、認識した各種罫線、
見出し領域、区画された各領域であり、上記情報は、同
一画面上に重ねて、或いは別々に配置して表示される。 ステップS108:操作者は画面表示を見て、入力装置
6より、表示されている画像データのうち、切り出した
い記事の始点Sと終点Eを入力する(図7参照)。
【0047】ステップS109:CPU1は、指定され
た始点・終点の2点が1つの区画された領域内にあるか
どうかを判定し、同一領域内にある場合、上記領域を切
り出す対象として確定した領域(確定領域)とし、ステ
ップS128以降の画像データの切り出し処理に移行
し、そうでない場合、ステップS110に移行する(図
8参照)。図24は本発明における同一領域の判定方法
を示す説明図である。図24において、罫線により囲ま
れた領域が、内部に段を区切る罫線を含んでいない場
合、矩形内(斜線領域)を同一の記事が含んでいるとし
て切り出すことができる。 ステップS110:始点が存在する領域を、切り出す領
域か否かを判定する領域(判定領域)とする(図8参
照)。
【0048】ステップS111:上記判定領域を確定領
域(例えば、丸付き数字で示す)とし、それまでの確定
領域の直後に接続するものとして、各確定領域間の順序
を設定し、記憶装置2に記憶する(図8参照)。 ステップS112:CPU1は、ステップS111で設
定した確定領域中に終点が含まれているかどうか判定
し、含まれている場合、ステップS128以降の画像デ
ータの切り出し処理に移行し、そうでない場合、次の判
定領域を以下のステップS113〜ステップS119の
ように検索する(図8参照)。
【0049】ステップS113:ステップS111にて
確定した確定領域(例えば、の領域)の右側面に接し
ている縦罫線と確定領域の底面に接している横罫線との
交錯点が、「縦罫線優先」であるか判定し、「縦罫線優
先」であった場合、上記確定領域と上記縦罫線の両者に
接している領域、すなわち上記確定領域の直下の領域
(例えば、の領域)を指定記事が含まれる領域と判定
し、ステップS111に移行する(図9参照)。同様
に、例えば、の領域も指定記事が含まれる領域と判定
される。
【0050】ステップS114:また、ステップS10
4で判定した見出し領域の左側面が、上記確定領域(例
えば、)の右端と、上記確定領域の直下の領域(例え
ば、の領域)の右端の両方に接している場合、上記確
定領域と上記見出し領域の両者に接している、すなわち
上記確定領域の直下の領域を同一記事が含まれる領域と
判定し、ステップS111に移行する(図9参照)。同
様に、例えば、の領域も同一記事が含まれる領域と判
定される。
【0051】ステップS115:確定領域と同じ段に
「段内広告」(波線で示す)が存在するかどうかを判定
する(図10参照)。「段内広告」とは、複数の段に跨
がらない、1つの段の中だけに配置された、固定幅の広
告のことを指す。「段内広告」の存在の判定は以下のよ
うに行う。「段内広告」は通常、 ルール1:その両端を一般縦罫線に囲まれ、 ルール2:かつ上記の両端の一般縦罫線の間隔が固定長
である。更に、 ルール3:上記縦罫線とその段の上下端に接している横
罫線との交錯点は、全て「横罫線優先」である。上記ル
ール1〜3を満たす領域を「段内広告」とし、上記ルー
ル1〜3を満たさない場合、ステップS119に移行
し、満たしている場合、ステップS116に移行する。
【0052】ステップS116:上記「段内広告」の左
端に接している領域を判定領域(例えば、の領域)と
する(図10参照)。 ステップS117:最後の確定領域(例えば、の領
域)と上記判定領域(例えば、の領域)に対し、文字
位置認識部5により、「文字位置認識処理」を行う。即
ち、対象領域中の画像データ内に、文字の内容でなく、
文字がどのように配置されているかを認識する(図10
参照)。
【0053】ステップS118:「文字位置認識処理」
の結果、文法的に問題がないか文章配置法則テーブルを
参照して判定する。即ち、上記確定領域の最後の文字の
位置が確定領域内の左下の隅であった場合、判定領域の
最初の文字が上記判定領域中の右上の隅に存在するこ
と、または、上記確定領域の最後の文字の位置が確定領
域内の左下の隅でなかった場合、判定領域の最初の文字
が空白であること、のいずれかを満たしている場合、文
法的に問題がないと判定し、ステップS124に移行
し、上記条件のいずれも満たしていない場合、文法上の
問題があると判定し、ステップS119に移行する。
【0054】ステップS119:最後の確定領域(例え
ば、の領域)の下段の右端の領域を判定領域(例え
ば、の領域)とする。この場合、右端の領域とは、最
後の確定領域よりも右端にある領域で、その領域の右上
の交錯点が、「縦罫線優先」である領域のうち、最も右
側にある領域を指す。 ステップS120:最後の確定領域(例えば、の領
域)と上記判定領域(例えば、の領域)に対し、文字
位置認識部5により「文字位置認識処理」を行う(図9
参照)。
【0055】ステップS121:文法的に問題がないか
を判定し、問題ない場合はステップS124に移行し、
問題がある場合は、設定した始点・終点に問題があると
してステップS122に移行する。 ステップS122:表示装置7に警告メッセージ(エラ
ーメッセージ)を表示し、処理を続行するかを操作者に
判断させる。続行の場合、ステップS124に移行し、
中断する場合はステップS123に移行する。 ステップS123:記憶装置2内の、確定、判定等の領
域毎の全ての設定を廃棄し、ステップS108に移行
し、始点・終点の設定をやりなおす。
【0056】ステップS124:文字位置認識の結果、
判定領域中に空行があるか判定し、判定領域中に空行が
ない場合、上記判定領域を最後の確定領域に接続する領
域とし、ステップS111に移行し、空行が存在した場
合、ステップS125に移行する(図10参照)。 ステップS125:空行を検知したことを表示装置7に
表示する。 ステップS126:空行位置を当該記事の終点として判
定処理を終了するかの判断を表示装置7に表示して操作
者に問い、処理を続行する場合、ステップS111に移
行し、処理を終了する場合、ステップS127に移行す
る。
【0057】ステップS127:設定された終点を空行
位置に変更し、上記判定領域を確定領域とする(図10
参照)。 ステップS128:始点・終点を含む領域に対し、それ
ぞれ文字位置認識処理を行う。 ステップS129:始点・終点が、それぞれを含む領域
の中で、先頭、及び後端であるかを判定し、先頭、及び
後端である場合(図11参照)、ステップS132に移
行し、そうでない場合は、ステップS130に移行す
る。
【0058】ステップS130:記事を全領域で切り出
すか、始点・終点の2点間で切り出すかの切り出し範囲
の指定を表示装置7を用いて操作者に問い、領域全ての
場合はステップS132に移行し、始点・終点の2点間
で切り出す場合はステップS131に移行する。 ステップS131:始点・終点を含むそれぞれの確定領
域から、始点以前の画像データと、終点以降の画像デー
タを削除する。 ステップS132:全確定領域を確定した領域順に画像
データから切り出し、処理を終了する(図11参照)。
【0059】図25は本発明における切り出し範囲の指
定方法を示す説明図である。図25において、例えば、
aに示す確定領域が存在し、始点・終点が位置がbに示
す位置にある場合、cに示すような領域として切り出し
処理するか、dに示すような領域として切り出し処理す
るかを操作者の対話により選択できる。cの場合、始点
・終点の領域内の位置にかかわらず、それぞれの指定点
が含まれる領域ごと切り出すため厳密な位置指定の必要
がなくなる。dの場合、cとは逆に、厳密な範囲指定が
可能となる。例えば、複数の段に跨がらない見出し領域
から省くことが可能となる。
【0060】以上、図3に示す処理手順のうち、ステッ
プS122〜S123、ステップS124〜S126、
ステップS129〜S130における処理内容を環境設
定等で事前に設定しておき、処理中に操作者に対して指
示を待たないようにすれば、指定記事の切り出しにおけ
る全ての処理を自動化することができる。
【0061】図4は本発明の画像データの切り出し処理
2の処理手順を示すフローチャートである。また、図1
2〜図14は本発明の画像データの切り出し処理2の各
処理状態を示す説明図であり、各図中のステップ番号は
図4に示すフローチャートのステップ番号に対応してい
る。図4のフローチャートは、始点の指定時の画像デー
タの切り出し処理を示す。また、図4において、図3に
示すステップS101〜107の画像データ入力処理、
罫線・見出し認識処理、認識結果表示処理の部分と、ス
テップS128〜132の確定領域の切り出し処理の部
分は本実施例と共通であるので記述を省略する。また、
上記処理部分の画像データは図6〜図11を参照する。
【0062】ステップS101〜107によって、画像
データ入力、罫線・見出し認識処理、認識結果表示を終
えた後、ステップS201に移行する。 ステップS201:操作者は画面表示を見て、入力装置
6より、表示されている画像データのうち、切り出した
い記事の始点を入力する(図12参照)。 ステップS202:CPU1は、始点が存在する領域
を、切り出す領域か否かを判定する領域(判定領域)と
する(図12参照)。 ステップS203:上記判定領域を確定領域(例えば、
丸付き数字で示す)とし、それまでの確定領域の直後に
接続するものとして、各確定領域間の順序を設定し、記
憶装置2に記憶する(図12参照)。このステップS2
03にて確定した確定領域に続く次の判定領域を以下ス
テップS204〜S210のように検索する。
【0063】ステップS204:ステップS203にて
確定した確定領域(例えば、の領域)の右側面に接し
ている縦罫線と、確定領域の底面に接している横罫線と
の交錯点が、「縦罫線優先」であるか判定し、「縦罫線
優先」であった場合、上記確定領域と上記縦罫線の両者
に接している領域、すなわち上記確定領域の直下の領域
(例えば、の領域)を指定記事が含まれる領域と判定
し、ステップS203に移行する(図13参照)。同様
に、例えば、の領域も指定記事が含まれる領域と判定
される。
【0064】ステップS205:また、ステップS10
4で判定した見出し領域の左側面が、上記確定領域(例
えば、)の右端と、上記確定領域の直下の領域(例え
ば、の領域)の右端の両方に接している場合、上記確
定領域と上記見出し領域の両者に接している、すなわち
上記確定領域の直下の領域を指定記事が含まれる判定領
域とし、上記領域を判定領域として、ステップS203
に移行する(図12参照)。同様に、例えば、の領域
も指定記事が含まれる領域と判定される。
【0065】ステップS206:確定領域の左端が「段
内広告」と接しているかどうかを判定する。「段内広
告」とは、複数の段に跨がらない、一つの段の中だけに
配置された、固定幅の広告のことを指す。「段内広告」
の存在の判定は以下のように行う。「段内広告」は通
常、 ルール1:その両端を一般縦罫線に囲まれ、 ルール2:かつ上記の両端の一般縦罫線の間隔が固定長
である。更に、 ルール3:上記縦罫線とその段の上下端に接している横
罫線との交錯点は、全て「横罫線優先」である。上記ル
ール1〜3を満たす領域を「段内広告」とし、上記ルー
ル1〜3を満たさない場合、ステップS210に移行
し、満たしており、かつ確定領域の左端に接している場
合、ステップS207に移行する。
【0066】ステップS207:上記「段内広告」の左
端に接している領域を判定領域(例えば、の領域)と
する(図14参照)。 ステップS208:最後の確定領域(例えば、の領
域)と上記判定領域(例えば、の領域)に対し、文字
位置認識部5により、「文字位置認識処理」を行う。即
ち、対象領域中の画像データ内に、文字の内容でなく、
文字がどのように配置されているかを認識する(図14
参照)。
【0067】ステップS209:「文字位置認識処理」
の結果、文法的に問題がないかを判定する。即ち、上記
確定領域の最後の文字の位置が確定領域内の左下の隅で
あった場合、判定領域の最初の文字が上記判定領域中の
右上の隅に存在すること、または、上記確定領域の最後
の文字の位置が確定領域内の左下の隅でなかった場合、
判定領域の最初の文字が空白であること、のいずれかを
満たしている場合、文法的に問題がないと判定し、ステ
ップS217に移行し、上記条件のいずれも満たしてい
ない場合、「段内広告」の処理に文法上の問題があると
判定し、ステップS210に移行する。
【0068】ステップS210:最後の確定領域(例え
ば、の領域)の下段の右端の領域を判定領域(例え
ば、の領域)とする。この場合、右端の領域とは、最
後の確定領域よりも右端にある領域で、その領域の右上
の交錯点が、「縦罫線優先」である領域のうち、最も右
側にある領域を指す。 ステップS211:最後の確定領域(例えば、の領
域)と上記判定領域(例えば、の領域)に対し、文字
位置認識部5により「文字位置認識処理」を行う。
【0069】ステップS212:文法的に問題がないか
を判定し、問題ない場合はステップS217に移行し、
問題がある場合は、(1)最後の確定領域と接続する領
域が存在しない、即ち、上記確定領域中に終点が存在し
ている、或いは、(2)設定した始点に問題がある、の
いずれかであるとしてステップS213に移行する。 ステップS213:表示装置7に全ての確定領域を表示
し、更に、警告メッセージ、例えば、「接続先が見当た
りません。最終領域(終点を含む確定領域)ですか?」
等の表示をし、操作者に判断させる。
【0070】ステップS214:最終領域であるか判定
し、最終領域である場合、ステップS216に移行し、
最終領域でない場合は、ステップS215に移行する。 ステップS215:記憶装置2内の、確定、判定等の領
域毎の全ての設定を廃棄し、S208に移行し、始点の
設定をやりなおす。 ステップS216:最終領域である場合、最後の確定領
域の左下点を終点とする。または、入力装置6より操作
者に終点を入力させて、ステップS128に移行し、確
定領域の切り出し処理を行い、処理を終了する。
【0071】ステップS217:文字位置認識の結果、
判定領域中に空行があるか判定し、判定領域中に空行が
ない場合、上記判定領域を最後の確定領域に接続する領
域とし、ステップS203に移行し、空行が存在した場
合、ステップS218に移行する(図14参照)。 ステップS218:空行を検知したことを表示装置7に
表示する。
【0072】ステップS219:空行位置を当該記事の
終点として判定処理を終了するかの判断を表示装置7に
表示して操作者に問い、処理を続行する場合、ステップ
S203に移行し、処理を終了する場合、ステップS2
20に移行する。 ステップS220:設定された終点を空行位置に変更
し、上記判定領域を確定領域とし、ステップS128以
降に移行し、確定領域の切り出し処理を行い、処理を終
了する(図14参照)。
【0073】以上、図4に示す処理手順のうち、ステッ
プS213〜S216、ステップS218〜S219、
ステップS129〜130における処理内容を環境設定
等で事前に設定しておき、処理中に操作者に対して指示
を待たないようにすれば、指定記事の切り出しにおける
全ての処理を自動化することができる。
【0074】図5は本発明の画像データの切り出し処理
3の処理手順を示すフローチャートである。また、図1
5〜図20は本発明の画像データの切り出し処理3の各
処理状態を示す説明図であり、各図中のステップ番号は
図5に示すフローチャートのステップ番号に対応してい
る。図5のフローチャートは、任意点の指定時の画像デ
ータの切り出し処理を示す。また、図5において、図3
に示すステップS101〜107の画像データ入力処
理、罫線・見出し認識処理、認識結果表示処理の部分
と、ステップS128〜132の確定領域の切り出し処
理の部分は本実施例と共通であるので記述を省略する。
また、上記処理部分の画像データは図6〜図11を参照
する。
【0075】ステップS101〜107によって、画像
データ入力、罫線・見出し認識処理、認識結果表示を終
えた後、ステップS301に移行する。 ステップS301:操作者は画面表示を見て、入力装置
6より、表示されている画像データのうち、切り出した
い記事の中の任意の点を入力する(図15参照)。続い
て、図4に示すステップS202〜S220によって、
ステップS301にて指定した点が存在する領域の後に
続く領域を確定する処理を行う。指定点以降の領域確定
処理が終了すると、続いて指定点以前の領域確定処理を
以下ステップS302〜S321のように行う。
【0076】ステップS302:CPU1は、指定点P
が存在する領域を、切り出す領域か否かを判定する領域
(判定領域)とする(図16参照)。 ステップS303:上記判定領域を確定領域(例えば、
丸付き数字で示す)とし、それまでの確定領域の直前に
接続するものとして、各確定領域間の順序を設定し、記
憶装置2に記憶する(図16参照)。このとき、上方へ
の確定領域は丸付き数字に’を付けないが、下方への確
定領域は丸付き数字に’を付ける。
【0077】ステップS304:ステップS104で判
定した見出し領域の左側面が、最後に確定した領域の右
端と接しているか判定する。接していない場合、ステッ
プS308に移行し、接している場合はステップ305
に移行する。 ステップS305:上記見出し領域の上面と上記確定領
域(例えば、の領域)の上面とが、同じ優先横罫線に
接しているか判定する。接していない時、ステップS3
07に移行し、接している時、CPU1は上記確定領域
を当該記事の始点領域と判定し、ステップS309に移
行する(図19参照)。
【0078】ステップS306:上記確定領域(例え
ば、の領域)の右上を始点Sとし、ステップS128
に移行し、確定領域の切り出し処理を行い、処理を終了
する(図19参照)。 ステップS307:ステップS305にて、上記見出し
領域の上面と、上記確定領域の上面とが、優先横罫線に
接していない場合、上記確定領域の右端が接している見
出しが、上記確定領域の直上の領域とも接しているか判
定し、接している場合、この領域には上記確定領域と指
定記事が含まれる領域であると判定し、上記領域を判定
領域とし、ステップS303に移行し、接していない場
合、ステップS308に移行する。
【0079】ステップS308:上記確定領域が見出し
に接していない場合、CPU1は、上記確定領域の右端
が、優先縦罫線と接しているか判定する。上記接してい
る縦罫線と上記確定領域の上面と接している横罫線との
交錯点が、「縦罫線優先」である場合、上記確定領域の
直上の領域を上記確定領域と同一記事が含まれる領域で
あると判定し、上記領域を判定領域とし、ステップS3
03に移行し、そうでない場合、ステップS309に移
行する。
【0080】ステップS309:CPU1は、確定領域
が「段内広告」が接しているかどうかを判定する。「段
内広告」の判定方法は図4に示すステップS206と同
一である。「段内広告」が存在しなければステップS3
13に移行し、存在すればステップS310に移行す
る。 ステップS310:上記「段内広告」の右端に接してい
る領域を判定領域とする。
【0081】ステップS311:最後の確定領域と上記
判定領域に対し、文字位置認識部5により、「文字位置
認識処理」を行う。 ステップS312:「文字位置認識処理」の結果、文法
的に問題がないかを判定する。即ち、上記判定領域の最
後の文字の位置が判定領域内の左下の隅であった場合、
確定領域の最初の文字が上記確定領域中の右上の隅に存
在すること、または、上記判定領域の最後の文字の位置
が判定領域内の左下の隅でなかった場合、確定領域の最
初の文字が空白であること、のいずれかを満たしている
場合、文法的に問題がないと判定し、ステップS303
に移行し、上記条件のいずれも満たしていない場合、
「段内広告」の処理に文法上の問題があると判定し、ス
テップS313に移行する。
【0082】ステップS313:最後の確定領域の上段
の領域を「候補領域」とする。複数存在する場合は、そ
れぞれに識別が可能なように番号(アラビア数字)等を
付し、上記番頭等の情報を記憶装置2に記憶する(図1
6参照)。 ステップS314:CPU1は、最後の確定領域が存在
する段と、候補領域が存在する段の間に跨がる罫線の中
に「縦罫線優先」(優先縦罫線)があるか判定する。段
の間の横罫線との交錯点が「縦罫線優先」であり、上記
確定領域よりも左にある罫線を検索し、上記縦罫線が存
在しない場合、ステップS316に移行し、縦罫線が存
在した場合、ステップS315に移行する。
【0083】ステップS315:「優先縦罫線」が存在
した場合、CPU1は、上記候補領域の中から、上記優
先縦罫線よりも左にある候補領域は、記憶装置2中の番
号付から除外する(図17参照)。 ステップS316:CPU1は、最後の確定領域と、上
記候補領域に対し、文字位置認識部5により「文字位置
認識処理」を行う。
【0084】ステップS317:上記確定領域と各候補
領域間に文法的に問題がないかを判定し、問題ない候補
領域が存在する場合はステップS318に移行し、存在
しない場合は、(1)最後の確定領域と接続する領域が
存在しない、即ち、上記確定領域中に始点が存在してい
る、或いは、(2)設定した始点に問題がある、のいず
れかであるとして、ステップS319に移行する。
【0085】ステップS318:CPU1は、文法的に
問題のない候補領域を判定領域とし、ステップS303
に移行する。 ステップS319:CPU1は、表示装置7に全ての確
定領域を表示し、更に、警告メッセージ、例えば、「接
続先が見当たりません。先頭領域(始点を含む確定領
域)ですか?」等の表示をし、操作者に判断させる。 ステップS320:先頭領域であるか判定し、先頭領域
である場合、ステップS322に移行し、先頭領域でな
い場合は、ステップ321に移行する。
【0086】ステップS321:記憶装置2内の、確
定、判定、候補等の領域毎の全ての設定を廃棄し、ステ
ップS208に移行し、指定点の設定をやりなおす。 ステップS322:先頭領域である場合、最後の確定領
域の右上点を始点とする。または、入力装置6より操作
者に始点を入力させて、ステップS128に移行し、確
定領域の切り出し処理を行い、処理を終了する。
【0087】以上、図5に示す処理手順のうち、ステッ
プS319〜S322、ステップS129〜130にお
ける処理内容を環境設定等で事前に設定しておき、処理
中に操作者に対して指示を待たないようにすれば、指定
記事の切り出しにおける全ての処理を自動化することが
できる。
【0088】
【発明の効果】本発明によれば、以下の効果を奏する新
聞・雑誌等の画像データから切り出したい記事の文頭
(始点)・文末(終点)の2文字を指定するだけで希望
の記事を切り出すことができるので、記事の切り出し作
業の簡便化を実現する。
【0089】新聞・雑誌等の画像データから切り出した
い記事の文頭の文字を指定するだけで希望の記事を切り
出すことができできるので、更なる記事の切り出し作業
の簡便化を実現する。新聞・雑誌等の画像データから切
り出したい記事中の任意の1文字を指定するだけで希望
の記事を切り出すことができるので、更なる記事の切り
出し作業の簡便化を実現する。
【0090】複数の領域からなる記事の文末領域と継続
領域を罫線の配置状態から判定して、継続領域のときの
文末検索処理を省略できることより、記事の切り出しの
精度の向上と、更なる処理時間の短縮を実現する。罫線
で囲まれた領域の、内部と外部の段の区切りの違いから
指定記事を判定するため、記事の切り出しの精度の更な
る向上と、処理時間の更なる短縮を実現する。
【0091】画像データ中の段内広告を検索し、その前
後の領域に含まれる記事は指定記事と判定するため、記
事の切り出しの精度の更なる向上と、処理時間の更なる
短縮を実現する。特殊罫線で囲まれた領域に含まれる記
事は指定記事と判定するため、記事の切り出しの精度の
更なる向上と、処理時間の更なる短縮を実現する。
【0092】見出し・トピック欄の領域を切り出し領域
の判定処理対象から除外するため、記事の切り出しの精
度の更なる向上と、処理時間の更なる短縮を実現する。
見出し欄に接する段に含まれる記事を指定記事と判定す
るため、記事の切り出しの精度の更なる向上と、処理時
間の更なる短縮を実現する。罫線等で区切られた領域内
の記事に空行が存在すれば記事の文末と判定するため、
記事の切り出しの精度の更なる向上を実現する。
【0093】段の記事中の文字位置を認識することによ
り、段の先頭の行の最初の文字の位置と前段の最後の文
字の位置より、罫線で囲まれた各領域の接続を確定する
ため、記事の切り出しの精度の更なる向上を実現する。
操作者が設定した文頭・文末の文字位置が文章配置法則
(文法)に矛盾があった場合、警告メッセージを表示す
るため、操作性、及び記事の切り出しの精度の更なる向
上を実現する。
【0094】操作者が設定した文頭・文末が、確定した
領域の文頭・文末と異なっていた場合、操作者との対話
形式で任意の位置に文頭・文末の文字位置を再設定で
き、切り出す範囲を調整することができることにより、
記事の切り出しの精度の更なる向上、並びに、処理開始
時の厳密な指定点設定が不要となることにより、操作性
の向上を実現する。
【0095】指定された文字位置より前にある領域に指
定記事があるか否かを判定する際、記事の文頭の設定処
理が容易になるため、記事の切り出しの精度の更なる向
上と、処理時間の短縮を実現する。
【図面の簡単な説明】
【図1】本発明の一実施例である文書処理装置の全体構
成を示すブロック図である。
【図2】本実施例で切り出しの対象となる画像データの
レイアウトを示す説明図である。
【図3】本発明の画像データの切り出し処理1の処理手
順を示すフローチャートである。
【図4】本発明の画像データの切り出し処理2の処理手
順を示すフローチャートである。
【図5】本発明の画像データの切り出し処理3の処理手
順を示すフローチャートである。
【図6】本発明の画像データの切り出し処理1の処理状
態を示す説明図である。
【図7】本発明の画像データの切り出し処理1の処理状
態を示す説明図である。
【図8】本発明の画像データの切り出し処理1の処理状
態を示す説明図である。
【図9】本発明の画像データの切り出し処理1の処理状
態を示す説明図である。
【図10】本発明の画像データの切り出し処理1の処理
状態を示す説明図である。
【図11】本発明の画像データの切り出し処理1の処理
状態を示す説明図である。
【図12】本発明の画像データの切り出し処理2の処理
状態を示す説明図である。
【図13】本発明の画像データの切り出し処理2の処理
状態を示す説明図である。
【図14】本発明の画像データの切り出し処理2の処理
状態を示す説明図である。
【図15】本発明の画像データの切り出し処理3の各処
理状態を示す説明図である。
【図16】本発明の画像データの切り出し処理3の各処
理状態を示す説明図である。
【図17】本発明の画像データの切り出し処理3の各処
理状態を示す説明図である。
【図18】本発明の画像データの切り出し処理3の各処
理状態を示す説明図である。
【図19】本発明の画像データの切り出し処理3の各処
理状態を示す説明図である。
【図20】本発明の画像データの切り出し処理3の各処
理状態を示す説明図である。
【図21】本発明における見出し領域の判定方法を示す
説明図である。
【図22】本発明における特殊罫線による切り出し処理
を示す説明図である。
【図23】本発明における優先罫線の判定方法を示す説
明図である。
【図24】本発明における同一領域の判定方法を示す説
明図である。
【図25】本発明における切り出し範囲の指定方法を示
す説明図である。
【図26】従来技術における画像データの切り出し処理
を示す説明図である。
【符号の説明】
1 CPU(記事切り出し手段) 2 記憶装置(画像データ記憶手段、文章配置法則テー
ブル) 3 外部データ記憶装置 4 罫線認識部(罫線認識手段) 5 文字位置認識部(文字位置認識手段) 6 入力装置(指定手段) 7 表示装置(表示手段) 8 画像入力装置(画像入力手段) 9 バスライン

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 新聞/雑誌等の紙面に印刷された記事及
    び罫線等からなる画像データを記憶する画像データ記憶
    手段と、 記憶された画像データを画面に表示する表示手段と、 表示された画像データのうち切り出したい記事の少なく
    とも1文字を指定する指定手段と、 新聞/雑誌等の記事特有の文章配置法則を記憶した文章
    配置法則テーブルと、 画像データを区切る領域及び段を形成する罫線の位置及
    び種類を認識する罫線認識手段と、 前記指定手段から指定された文字を受け、前記文章配置
    法則テーブルと罫線の位置及び種類情報を参照して指定
    された文字を含む記事の領域及び段を判定して画像デー
    タから指定記事を切り出す記事切り出し手段とを備えて
    なる文書処理装置。
  2. 【請求項2】 前記指定手段は前記表示された画像デー
    タのうち切り出したい記事の文頭または文末のいずれか
    1文字を指定した際、前記記事切り出し手段は文章配置
    法則テーブルと罫線の位置及び種類情報とを参照して指
    定された1文字からもう一方の文頭または文末の1文字
    を検索して文頭と文末の2文字間に含まれる記事の範囲
    を設定し画像データから指定記事を切り出すことを特徴
    とする請求項1記載の文書処理装置。
  3. 【請求項3】 前記罫線認識手段は領域及び段を形成す
    る縦・横罫線の位置情報からその配置状態を認識した
    際、前記記事切り出し手段は、認識された縦・横罫線の
    配置状態に基づいて領域及び段に含まれる記事の文頭及
    び文末の文字を検索して画像データから指定記事を切り
    出すことを特徴とする請求項1記載の文書処理装置。
  4. 【請求項4】 前記罫線認識手段は、領域及び段を形成
    する縦・横罫線の種類のうち一般的な罫線とは異なる特
    殊な種類の縦・横罫線を認識した際、前記記事切り出し
    手段は、特殊な種類の縦・横罫線で囲まれた矩形領域内
    に含まれる全記事を一つの指定記事として切り出すこと
    を特徴とする請求項1記載の文書処理装置。
  5. 【請求項5】 前記記事切り出し手段は、段を形成する
    縦・横罫線の端部がその端部と直交する方向の縦・横罫
    線に対し所定値以上の距離を空けて配置されている場
    合、前記直交する方向の縦・横罫線で形成される領域に
    は見出し・トピック欄が含まれると判定し、見出し・ト
    ピック欄が含まれる領域を記事の切り出し範囲から除外
    することを特徴とする請求項1記載の文書処理装置。
  6. 【請求項6】 前記記事切り出し手段は、領域及び段に
    含まれる記事の文字位置を解析し認識する文字位置認識
    手段をさらに備え、前記文章配置法則テーブルと文字位
    置情報を参照して指定記事の範囲を判定し、領域及び段
    に含まれる記事から指定記事を切り出すことを特徴とす
    る請求項1記載の文書処理装置。
  7. 【請求項7】 前記記事切り出し手段は、前記指定手段
    により指定された文字位置が文章配置法則に矛盾してい
    る場合、前記表示手段に警告メッセージを表示するよう
    警告指令を出力することを特徴とする請求項1記載の文
    書処理装置。
JP8124454A 1996-05-20 1996-05-20 文書処理装置 Pending JPH09305704A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8124454A JPH09305704A (ja) 1996-05-20 1996-05-20 文書処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8124454A JPH09305704A (ja) 1996-05-20 1996-05-20 文書処理装置

Publications (1)

Publication Number Publication Date
JPH09305704A true JPH09305704A (ja) 1997-11-28

Family

ID=14885928

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8124454A Pending JPH09305704A (ja) 1996-05-20 1996-05-20 文書処理装置

Country Status (1)

Country Link
JP (1) JPH09305704A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100411894B1 (ko) * 2000-12-28 2003-12-24 한국전자통신연구원 문서영상 영역해석 방법
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置
JP2018097551A (ja) * 2016-12-13 2018-06-21 株式会社アイエスピー 携帯端末装置のカメラにより撮影される紙面画像から記事をスクラップするための方法、プログラム、及び装置
JP2020144719A (ja) * 2019-03-08 2020-09-10 国立大学法人秋田大学 紙面領域分類装置及びそのプログラム

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100411894B1 (ko) * 2000-12-28 2003-12-24 한국전자통신연구원 문서영상 영역해석 방법
JP2010108208A (ja) * 2008-10-30 2010-05-13 Hitachi Software Eng Co Ltd 文書処理装置
JP2018097551A (ja) * 2016-12-13 2018-06-21 株式会社アイエスピー 携帯端末装置のカメラにより撮影される紙面画像から記事をスクラップするための方法、プログラム、及び装置
JP2020144719A (ja) * 2019-03-08 2020-09-10 国立大学法人秋田大学 紙面領域分類装置及びそのプログラム

Similar Documents

Publication Publication Date Title
US7356760B2 (en) System and method for editing an electronic document of text and graphic objects
JP2979109B2 (ja) 認識文字の情報作成方法及び装置
JP3814320B2 (ja) 画像処理方法及び装置
JPH09305704A (ja) 文書処理装置
EP0519713B1 (en) Character input method and apparatus
JPH1074265A (ja) 印刷制御装置及び方法、並びに印刷制御プログラムを記憶した記憶媒体
JPH1166065A (ja) 画像配置装置およびそのプログラム記録媒体
JP3167799B2 (ja) オンライン手書き文字認識装置
JP3029822B2 (ja) 文書処理装置、文書処理方法およびその方法をコンピュータに実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体
US5185854A (en) Document processing apparatus having a ruled line print control function
JPH06324798A (ja) 手書き編集機能を持つ文書処理装置
JPH07287634A (ja) 文書作成装置及びその図形作成方法
JPH0850632A (ja) 手書き文字切り出し方法および装置
JP2001282773A (ja) 構造化文書編集装置及び、構造化文書編集方法及び記録媒体
JPH086751A (ja) メッセージ表示制御システム
JPH06251198A (ja) 文字入力装置
JPH06208656A (ja) オンライン文字認識装置
JPH07325886A (ja) 入力データ取得方法及び情報処理装置
JPH06223223A (ja) 電子ファイリング装置および電子ファイリング方法
JPS6321170A (ja) 文書処理方法
JPH1021327A (ja) オンライン手書き文字入力装置及び認識候補通知方法
JPH06176082A (ja) 画像検索装置および方法
JPH0831092B2 (ja) 文書処理装置
JPH0773029A (ja) フローチャートの表示方式
JPS62190569A (ja) 文字入力装置