JP3193472B2 - 複合的な情報の構築方式 - Google Patents

複合的な情報の構築方式

Info

Publication number
JP3193472B2
JP3193472B2 JP23752492A JP23752492A JP3193472B2 JP 3193472 B2 JP3193472 B2 JP 3193472B2 JP 23752492 A JP23752492 A JP 23752492A JP 23752492 A JP23752492 A JP 23752492A JP 3193472 B2 JP3193472 B2 JP 3193472B2
Authority
JP
Japan
Prior art keywords
information
image
layout
line
mount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP23752492A
Other languages
English (en)
Other versions
JPH0683928A (ja
Inventor
英昭 小澤
透 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP23752492A priority Critical patent/JP3193472B2/ja
Publication of JPH0683928A publication Critical patent/JPH0683928A/ja
Application granted granted Critical
Publication of JP3193472B2 publication Critical patent/JP3193472B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、テキストデータや画像
データといった、複数の表現法を持つ複合的な情報もし
くはマルチメディア情報の処理システムにおいて、個々
別々の表現法によって表現された複数個の情報から、全
体を包含する複合的な情報を構築する方式に関するもの
である。
【0002】
【従来の技術】従来、マルチメディアデータベースとよ
ばれる、文字列や音声,画像といった様々の種類の情報
からなる複合的な情報を扱うシステムでは、人間が直接
的に、検索のためのキーワードや必要な画像の選択など
を入力することが一般的であった。例えば新聞や雑誌の
記事を、情報検索のシステムを用いてキーワード検索
し、選択された記事をファクシミリによって配送するシ
ステムの場合、人間がスキャナから入力された画像から
各記事の位置を指示して切り出し、キーワードや日付な
どの情報を付加して、複合的な情報を構築していた。
【0003】一方で単一のメディアによる電子化された
情報は、イメージデータであれば新聞社から印刷工場へ
新聞紙面の画像を電送されたりして、またテキストデー
タであれば新聞紙面製作の過程でCTS(Comput
er Typed Setting)からの出力とし
て、本文や見出し,日付などの情報をすべて文字列とし
て扱う情報検索システムとして提供されている。
【0004】
【発明が解決しようとする課題】しかし、従来の複合的
な情報の生成手段では、画像情報や文字列で表現された
情報など情報の伝達媒体が異なる情報は、全く別の情報
として扱っていたために、人間が、画像情報と文字列に
よるキーワードなどとの対応づけや、文字列による情報
と関連する画像情報の切り出しという作業を行なってい
た。この結果、複合的な情報を構築する際のコストが、
高いという問題があった。
【0005】本発明は、上記問題点を解決するためにな
されたものであり、その目的は、文字列で表現された情
報と画像で表現された情報を組み合わせて複合的な情報
を低コストで作成可能とする複合的な情報の構築方式を
提供することにある。
【0006】
【課題を解決するための手段】上記の目的を達成するた
め、請求項1の発明においては、少なくとも一つ以上の
ある文字列を用いて表現される情報と、該文字列を用い
て表現された情報と同一の内容を画像によって表現した
画像情報である少なくとも一つ以上の要素画像から構成
された画像情報である少なくとも一つ以上のレイアウト
画像を持つ台紙画像の画像情報と、個々の前記文字列で
表現された情報が予め定められた規則に従って前記レイ
アウト画像上のどの位置に存在するかを示す位置情報と
の、3種の情報がそれぞれ入力された時に、前記台紙画
像上において個々の前記レイアウト画像の領域を決定す
る手段と、特に前記入力された位置情報を前記レイアウ
ト画像上での規則に従った位置情報に変換する手段と、
該レイアウト画像上の位置情報を前記台紙画像上でのレ
イアウト画像の存在する領域の情報によって該台紙画像
上での規則に従った位置情報に変換する手段を有し、前
記画像情報と前記文字列で表現された情報を共に関係づ
けて扱えるように構造化する構成としている。
【0007】また、請求項2の発明においては、入力さ
れた要素画像および一つ以上の要素画像からなるレイア
ウト画像が段や行による位置の規則性を持つ画像情報で
あり、かつ文字列で表現された情報と共に入力される位
置情報が該レイアウト画像上での段や行の規則によって
表現されている場合に、該レイアウト画像上での位置と
該文字列で表現された情報と共に入力された位置情報を
対応づけるために、該レイアウト画像の領域を決定する
手段が、特に該レイアウト画像上における黒点の分布か
ら一段の高さを同定する手段と、前記レイアウト画像上
の各段における黒点の分布から行間隔を同定する手段を
有し、前記文字列として表現された情報が持つ段と行で
表される位置情報と前記レイアウト画像上での位置を対
応づけることで台紙画像上での位置の規則に従って該文
字列で表現された情報と要素画像とを対応づける構成と
している。
【0008】また、請求項3の発明においては、特に情
報の本体を表現する領域と付加的な情報の領域が存在す
る場合に、レイアウト画像の領域を決定する手段が、特
に前記情報の本体を表現する領域と前記付加的な情報の
領域とのレイアウト画像情報上での境界線を判定する手
段と、該判定された境界線の位置を用いて台紙画像情報
から前記情報の本体を表現する領域の画像情報を切り出
す手段とを有し、さらに該情報の本体のみの画像情報か
ら段,行の構造を抽出して前記レイアウト画像情報全体
における段や行の位置を判定する構成としている。
【0009】さらに、請求項4の発明においては、入力
したレイアウト画像が傾いている際に該レイアウト画像
の外枠を検出する手段と、前記レイアウト画像をあらか
じめ定められた基準にしたがって主要な情報と付加的な
情報とに分離する境界線の存在する位置を識別する手段
と、外枠情報と前記主要な情報と前記付加的な情報との
境界線の位置情報から該主要な情報を表現する画像の領
域の中心点を計算する手段とを設け、前記主要な情報を
持つ画像の中心点を回転の中心として台紙画像を回転さ
せた後の画像情報が入力される構成としている。
【0010】
【作用】本発明による請求項1の発明では、入力された
画像そのものである台紙画像と、台紙画像上で情報を表
現する領域であるレイアウト画像と、レイアウト画像中
の個々の情報を表す要素画像からなる画像情報に対し
て、台紙画像上におけるレイアウト画像の領域を決定
し、一方、文字列で表現された個々の情報に付けられて
いる要素画像の位置をレイアウト画像上での座標表現と
して入力し、レイアウト画像上での座標表現を、台紙画
像上での座標表現の規則に変換することで、文字列で表
現された情報と画像で表現された情報を組み合わせて、
複合的な情報を作成できるようにしている。これによ
り、人間が直接的に行っていた画像情報と文字列による
キーワードなどとの対応づけや、文字列による情報と関
連した画像情報の切り出すといった作業をなくし、総合
的な情報構築のコストの低減を可能にしている。
【0011】例えば、新聞紙面や雑誌面などといったハ
ードコピーの情報や新聞社が印刷工場に配布するディジ
タルファクシミリのイメージ情報から、紙面の画像情報
と日付,ページ番号の情報を共に獲得し、例えば新聞記
事の本文のように画像で表現された情報の中に含まれる
情報と同一の情報を持つ文字列で表現された情報を入力
し、文字列で表現された情報の日付やページ番号,画像
情報上での縦,横方向における割合などによる位置の情
報を入力し、画像上に含まれる各情報の位置を、入力さ
れた文字列との対応をとる位置情報の表現に変換し、文
字列による情報から生成された情報と画像から生成され
た情報を組み合わせることにより、画像で表現された情
報と文字列で表現された情報を対にして利用できる情報
に変換できるようにする。
【0012】画像情報としての新聞紙面や雑誌面,本な
どは、従来段や行によって規則的に情報が配置されてい
る。請求項2の発明は、段と行によって構造化された画
像に対し、段や行で表現されるある情報の位置を示す情
報が入力された場合、画像の情報を行間や段間の空白に
よって段の高さ,行の幅の候補を抽出し、得られた候補
の中から平均的な段の高さや行の幅を計算し、計算され
た段の高さや行の幅から画像情報を生成した際の台紙の
形状を容易に同定できるようにする。
【0013】例えば新聞紙面においては、記事の部分の
ような情報の本体と記事下の広告の部分のような付加的
な部分の2種の画像情報が結合されて、一つの画像情報
として提供されている。このうち記事部の情報は、台紙
上の段と行で表現される位置に配置されているが、記事
下広告は、全く異なった配置方式をとっている。この結
果、記事下広告によって、台紙の段幅,行幅の同定に誤
りを生じる可能性がある。請求項3の発明は、新聞画像
等の領域の横幅いっぱいに引かれている記事部と記事下
広告の境界線を判定し、判定された記事部などの情報の
本体の領域を画像情報から切り出すことで、記事部など
の情報の本体の画像のみから台紙の段,行を推定して、
台紙の段幅,行幅を正確に同定する。
【0014】画像による情報を入力する装置として、イ
メージスキャナやCCDカメラなどによる画像入力装置
を利用する場合に、画像が傾いて入力される可能性があ
る。請求項4の発明は、画像によって表現される情報を
囲む外枠を識別し、画像の外枠の縦罫線,横罫線の傾き
から画像全体の傾きを計算し、例えば新聞記事の記事の
領域と記事下広告の領域の境界線を識別して、境界線の
座標から記事の領域の中心を計算し、記事の中心を中心
点として画像の傾き分を回転することにより、記事部に
ついてひずみの少ない補正画像を得る。
【0015】以上、本発明によれば、台紙画像上でのレ
イアウト画像の位置が正確に決定でき、レイアウト画像
上の座標位置を入力された位置情報から変換することが
できる。この結果、本発明は、入力された位置を決める
規則と、画像情報上での位置の規則が異なっていても、
両者を関連づけて扱うことができる。
【0016】
【実施例】以下、本発明の実施例を、図面を用いて詳細
に説明する。
【0017】〔実施例1〕図1は本発明の第1実施例を
示す複合的な情報の構築方式のシステム構成図である。
本発明は主に文字で表現された情報をイメージとして扱
う情報と、文字列によって表現される情報とを組合わせ
て利用する複合的な情報の検索システム全般に対して効
果があるが、ここでは情報として新聞を用いて説明す
る。新聞は、見出しや本文といった主に文字列を扱う情
報であり、日常は紙に印刷された形で、イメージの情報
として取り扱われている。
【0018】本実施例は、イメージで表現された情報を
入力する少なくとも一つ以上のイメージデータ入力装置
1と、テキストとして表現された情報を入力する少なく
とも一つ以上のテキストデータ入力装置2と、イメージ
データ入力装置1によって入力されたイメージに対して
画像の傾きの補正といったイメージデータの整形処理を
行なうイメージデータ前処理装置3と、その整形された
イメージから新聞を作成する際の台紙の行,段の位置を
同定する台紙形状同定装置4と、テキストデータ入力装
置2によって入力された文字列の情報から日付,ペー
ジ,段行の位置などの情報を抽出して構造化するテキス
トデータ構造化装置5と、その構造化された記事の情報
と紙面画像を関連づけてデータベースに格納する処理を
行なう格納データ生成装置6と、生成された複合的な情
報を格納する複合情報格納装置7の7つの装置からな
る。
【0019】例えば本実施例における新聞画像の場合、
図7(b)に示すように、請求項に記載した台紙画像G
3はイメージデータ入力装置1によって入力された画像
そのものであり、レイアウト画像G2は新聞名や日付な
どを除いた記事全体の画像であり、要素画像G1は個々
の記事の画像である。
【0020】図2は上記構成におけるイメージデータ前
処理装置3のシステム構成図である。入力したイメージ
データはやや傾いている可能性があるため、図2に示す
ように本実施例におけるイメージデータ前処理装置3
は、新聞画像の外枠の情報から傾きの大きさを決定し傾
きを補正する傾き補正機構11と、ノンブルと呼ばれる
外枠外の新聞名や日付といった領域を取り除きレイアウ
ト画像を抽出するノンブル除去機構12から成る1つの
サブシステムとする。
【0021】本実施例における上記の傾き補正機構11
は、入力されたイメージデータを格納するイメージバッ
ファ13と、イメージバッファ13の画像の一ライン毎
に黒点を計数する黒点計数モジュール14と、全てのラ
イン上の黒点数を格納する計数バッファ15と、計数バ
ッファ15のデータから画像イメージの傾きを計算する
傾き計算モジュール16と、求められた傾きからイメー
ジバッファ13のイメージデータを回転するイメージ補
正モジュール17とから成る。
【0022】本実施例における傾き補正機構11の処理
としては、図3のフローチャートに示す手順に従って行
なわれる。まず、イメージデータ入力装置1によって入
力されたイメージデータはイメージバッファ13に格納
され、そのイメージバッファ13からステップ31とし
てポインタのセットにより新聞画像下部から上部に向か
い横方向に一ライン毎にデータを取り出し、ステップ3
2として黒点計数モジュール14において、一ライン中
の少なくとも2点以上を中心にして予め定められた範囲
に対して該当ライン上での黒点と判断される点の個数を
計測し、その黒点の数を計測バッファ15に順次格納す
る。全てのライン上の黒点の数が計数バッファ15に溜
ったら、傾き計算モジュール16において、ステップ3
3として計数バッファ15中の一つの候補点の画像の最
下段の黒点の計数値から画像の上部に向かって計数値を
取り出すために、ポインタをセットする。ステップ34
として予め与えられているライン候補黒点数と一ライン
づつ取り出した黒点の計測を行なった値を比較し、始め
てライン候補黒点数を越える計数値が越えたラインの行
番号を候補ラインとして、傾き計算モジュール16内の
スタートライン候補バッファに格納する。
【0023】次にステップ35として、さらに続けて計
数バッファ15内の黒点の計数とライン候補黒点数との
比較を行ない、ライン候補黒点数よりも小さくなったラ
インを傾き計算モジュール16内のエンドライン候補バ
ッファに格納する。次にステップ36として、エンドラ
イン候補バッファの値とスタートライン候補バッファの
値との差を計算し、予め与えられている基準枠線幅と比
較する。差の値が基準枠線幅の範囲内にあれば、ステッ
プ37としてエンドライン候補バッファの値とスタート
ライン候補バッファの値の平均(中間の値)を、傾き計
算モジュール16中の各候補点毎の候補ラインバッファ
に格納する。差の値が基準線幅の範囲から外れている場
合は、ステップ34に戻りスタートライン候補を調べ
る。次にステップ38として、全ての候補点の処理が終
っていなければ、ステップ33へ戻り、他の候補点にポ
インタを合わせる。
【0024】全候補点について候補ラインが定まった
ら、ステップ39として各候補点間の距離と候補ライン
間の距離から、傾き角度を計算する。傾き角度は例えば
2つの候補点を用いた場合、新聞画像イメージが一ライ
ンあたり3000ドットである時、例えば候補点を10
00ドットと2000ドットとして、その時の候補ライ
ンがそれぞれ3910ラインと3917ラインであると
すると、ラインの差が7、候補点間の間隔が1000ド
ットであるから、tan-1(7/1000)=0.4゜
が傾きの大きさとなる。
【0025】ステップ40では、計算された傾きの大き
さを用いて、イメージ補正モジュール17においてイメ
ージバッファ13のデータを回転する。例えば候補ライ
ンにおける傾きが時計方向に対して0.4゜であった場
合、左下角の点を中心に回転するとすれば、第1象限に
おける回転のため0.4゜回転すれば良いが、一般的に
画像データは左上角を原点として画像の下方向へ正の値
をとるために、左上角を原点とすると逆に台紙画像に対
して−0.4゜の回転を行なう必要がある。回転のアル
ゴリズムは、例えば画像の横方向の座標をxとし、縦方
向の座標のyとし、計算された横方向の座標をUとし
て、計算された縦方向の座標をVとするならば、 U=xcos(−0.4゜)−ysin(−0.4
゜), V=xsin(−0.4゜)+ycos(−0.4゜) によって新しい座標を計算することができる。
【0026】このようにして、傾きが補正された画像デ
ータは、ノンブル除去機構12に送られ、記事部と枠線
外領域に分離される。ノンブル除去機構12は、傾き補
正された画像を格納するイメージバッファ18と、枠線
を推定するために画像上の縦,横それぞれのライン毎に
黒点と判断される点の個数を計測する枠線計測モジュー
ル19と、各ライン毎の黒点の個数を保存する枠線バッ
ファ20と、枠線バッファ20内の黒点の個数の値か
ら、記事部の4端点を決定する端点決定モジュール21
と、端点の情報によりイメージバッファ18の画像から
記事部の画像のみを切り出すイメージ抽出モジュール2
2から成る。
【0027】本実施例におけるノンブル除去機構12の
処理としては、図4(a),(b)のフローチャートに
示す手順によって行なわれる。まず図4(a)に示すよ
うに、イメージバッファ18に蓄えられている傾き補正
後のイメージデータを用いて、枠線計測モジュール19
では、ステップ41として、ポインタを新聞画像の上端
と下端にセットして新聞画像下部と上部からそれぞれ横
方向に一ラインずつデータを取り出し、ステップ42と
して、黒点と判断される点の個数を計測し、枠線バッフ
ァ20の「上ラインバッファ」,「下ラインバッファ」
のそれぞれ該当する所へ値を格納する。次にステップ4
3としては、ポインタをして画像の左端と右端にセット
して縦方向に一ラインずつデータを取り出し、ステップ
44として黒点と判断される点の個数を計測し、枠線バ
ッファ20の「左ラインバッファ」,「右ラインバッフ
ァ」のそれぞれ該当する所へ値を格納する。
【0028】次にステップ45として、端点決定モジュ
ール21において、枠線バッファ20中の左枠線バッフ
ァにポインタを合わせ、ステップ46として図4(b)
に示す後記の枠線の判定の処理により左端を計算し、イ
メージ抽出モジュール22の左点バッファに格納する。
同様の操作をステップ47〜48として、「右ラインバ
ッファ」の値を用いて右点を、ステップ49〜50とし
て「上ラインバッファ」の値を用いて上点を、ステップ
51〜52として「下ラインバッファ」の値を用いて下
点を求める。
【0029】次にイメージ抽出モジュール22では、ス
テップ53として、上記上下左右4点の値を用いて記事
部のイメージ(レイアウト画像)のみを抽出し、台紙形
状同定装置4へ送る。
【0030】枠線計測モジュール19における枠線判定
の処理としては、図4(b)のフローチャートに示すよ
うに、処理を始める際に縦枠線閾値か横枠線閾値を用い
るかと、上下左右のどの端点を求めるかを指定し、そし
てステップ54として枠線バッファ20のラインバッフ
ァから順次黒点の数を取り出し、次にステップ55とし
て予め定められている枠線閾値と黒点の数の値を比較
し、最初に閾値を越えた時にステップ56として枠線フ
ラグを1にする。次にステップ57として、枠線閾値よ
りも小さくかつ枠線フラグが1であるか否かを判定し、
真(Yes)である場合には、ステップ58として現在
のラインを記事部の端のラインであるとする。為(N
o)の場合には、更にステップ54へ戻り、順番に値を
取り出して処理する。
【0031】図5に本実施例における台紙形状同定装置
4のシステム構成を示す。台紙形状同定装置4は、記事
部だけになったイメージデータを格納するイメージバッ
ファ61と、台紙の段の幅を推測するためにイメージデ
ータを横方向に分割する画像分割モジュール62と、分
割された画像を縦方向に各ライン毎に黒点の数を数えて
段の幅を決定する段幅推定モジュール63と、イメージ
データを段幅推定モジュール63で決定した段の幅に切
る段画像分割モジュール64と、段画像を横方向に走査
して行の幅を決定する行幅推定モジュール65と、決定
された段幅と行幅とイメージデータを組み合わせて図1
に示す複合情報格納装置7へのデータを生成するイメー
ジデータ構築モジュール66からなる。
【0032】本実施例における台紙形状同定装置4の処
理過程は、図6のフローチャートに示すような手順によ
って行われる。まず、記事部のみになったイメージデー
タを格納するイメージバッファ61のデータに対し、ス
テップ71として画像分割モジュール62において、予
め定められた幅の新聞画像を縦方向に分割して縦長に切
り出し、黒点フラグに−1を代入する。切り出された画
像データは段幅推定モジュール63に送られ、ステップ
72として各ラインの黒点の個数を計測し、予め定めら
れている閾値と黒点の個数を比較して、閾値よりも大き
くかつ黒点フラグが−1の場合には、ステップ73とし
て黒点フラグにライン番号を格納(代入)する。閾値よ
りも小さくかつ黒点フラグにライン番号が存在する場合
には、ステップ74として現在のライン番号と黒点フラ
グ中の番号の差を段幅の値として、段幅推定モジュール
63内の段幅バッファの該当する段幅のスロットの値に
1を加える。さらにステップ75として、黒点フラグに
−1を代入する。全てのブロックについて段幅推定が終
ったら、ステップ76として最も値の大きいスロットの
段幅(最大頻度段幅)から、予め定められている段幅誤
差範囲の値によって、最大頻度段幅から誤差範囲にある
段幅を加重平均することで、段幅候補値を決定する。さ
らにレイアウト画像の高さを段幅候補値で除す。新聞画
像のような段行で構造化される情報においては段数は必
ず整数値になり、また各段間には空白帯や罫線などが入
るために段幅候補値は実際の段幅よりも小さいので、小
数点以下を切り捨てて整数部のみを取り出して段数とす
る。続いてレイアウト画像の高さを段数で除し、小数点
以下を四捨五入することで整数部を取り出し、これを段
幅とする。例えば400dpiの解像度で入力した新聞
のあるイメージデータの場合では、予め与えられている
段幅誤差範囲が10ドットである時に、最大頻度段幅は
490で加重平均値が491ドットであったとすると、
段幅候補値は491ドットになる。段幅を同定するレイ
アウト画像の高さが、例えば7763ドットであったと
すると、段数は7763/491=15段と同定され、
同定された段幅は7763/15=517ドットとな
る。
【0033】次に段幅推定モジュール63によって計算
された段幅に基づき、段画像分割モジュール64では、
ステップ77としてイメージバッファ61中の画像デー
タを、同定された段幅に従って横長の画像に分割する。
さらに行幅推定モジュール65において、ステップ78
として、黒点フラグに0を、候補ラインに0を代入して
おく。次にステップ79として縦方向に一ラインづつ取
り出して、各ラインの黒点の個数を計測し、あらかじめ
定められている閾値と黒点の個数を比較して、閾値より
も大きい場合には、ステップ80として黒点フラグに1
を格納する。閾値よりも小さくかつ黒点フラグ1の場合
には、ステップ81として現在のライン番号と候補ライ
ン中の番号の差を行幅として、行幅推定モジュール65
内の行幅バッファの該当する行幅のスロットの値に1を
加える。ステップ82として、黒点フラグを0にし、候
補ラインの現在のライン番号を代入する。全てのブロッ
クについて行幅推定が終ったら、ステップ83として最
も値の大きいスロットの行幅(最大頻度行幅)から、予
め定められている行幅誤差範囲によって、最大頻度行幅
から誤差範囲にある行幅の頻度を、加重平均して行幅を
決定する。例えば400dpiの解像度で入力した新聞
のイメージデータの場合では、予め与えられている行幅
誤差範囲が5ドットである時に、最大頻度行幅が62ド
ットで加重平均値が62ドットであったとすると、同定
された行幅は62ドットになる。
【0034】最後にイメージデータ構築モジュール66
において、ステップ84として決定した段幅行幅と、イ
メージデータを構造化されたデータとして、格納データ
生成装置6へ送る。
【0035】本実施例におけるテキストデータ構造化装
置5は、図1に示すようにテキストで記述された情報か
らパターンマッチにより日付やページなどの情報を取り
出すパターンマッチャ8と、日付など構造化された情報
を一時的に格納する構造化スロット9、パターンマッチ
ャ8で利用する知識を格納するパターンマッチデータベ
ース10からなる。本実施例におけるテキストデータ構
造化装置5には、図7(a),(b)に示すようなテキ
ストデータがテキストデータ入力部であるテキストデー
タ入力装置2から送られてくる。
【0036】本実施例におけるテキストデータ構造化装
置5のテキストデータ構造化処理としては、図8のフロ
ーチャートの手順に従って行われる。入力されたデータ
から例えばパターンマッチャ8において、ステップ85
として入力された文字列の情報を一行毎に取り出し、ス
テップ86として各行の最初の空白までの「*日付*」
などのパターン部と、その後ろに来る属性データのテキ
スト部を切り分ける。次にステップ87として、パター
ンマッチデータベース10をパターンを用いて検索し、
属性データを変換するルールを獲得する。ステップ88
として検索されたルールに従い、例えば「92061
8」を(92 6 18)という数値に変換して、構造
化スロット9に格納する。一記事分のデータが構造化で
きたら、ステップ89として、格納データ生成装置6へ
送る。
【0037】上記におけるパターンマッチデータベース
10に格納されるルールの例として、例えば「*日付
*」の場合は「920618」という文字列を2文字ず
つ切り出し、「92」という文字列からさらに文字とし
て「9」を切り出し、「0,1,2…,8,9」間での
文字に対応する数値の表から9という数値データを得、
これを10倍し、「2」という文字から数値の2を得て
90と加算することで92とする。図7に示す他のデー
タの場合も容易に類推できるので、省略する。
【0038】格納データ生成装置6では、テキストデー
タ構造化装置5によって構造化されたテキストデータ中
の段行の位置と、台紙形状同定装置4によって得られ
た、段幅,行幅のデータを用いて、各記事の存在する位
置を画像データ上の座標点に変換し、テキストデータ,
イメージデータともに、複合情報格納装置7に格納す
る。
【0039】本実施例におけるイメージデータ入力装置
1としては、イメージスキャナもしくは、新聞社が印刷
工場に配布している、ディジタルファクシミリによるデ
ィジタル画像伝送装置があげられる。
【0040】本実施例における画像情報は、図7に示す
ようにページ単位に分割されたイメージデータと、少な
くとも新聞名,日付,ページの情報を持っている。
【0041】本実施例におけるテキストデータ入力装置
1は、例えば記事テキストデータベースからのデータベ
ースの検索システムや、磁気テープなどの計算機用デー
タ交換媒体によって入手することができる新聞記事テキ
ストデータの読み取り装置である。他のテキスト情報入
力装置としては、本文の文字列情報や位置情報を内部に
持つ、新聞社などで利用されている計算機システムを用
いた版組システムであるCTS(Computer T
yped Setting)や、DTP(Deskto
p Publishing System)もあげられ
る。
【0042】本実施例における記事テキストデータは、
図7(c)に示すように個々の記事に分離されており、
少なくとも日付,新聞名,ページ番号,記事の紙面上で
の段行などによる位置,記事の本文といった情報を持
つ。
【0043】〔実施例2〕図9は本発明の第2実施例に
おける台紙形状同定装置のシステム構成図である。新聞
紙面の記事部は、記事本部と記事下広告の2つの領域に
分けることができ、記事下広告のレイアウトは、台紙の
段行の構造と全く異なっている場合がほとんどなので、
本実施例では、台紙形状同定装置として記事下広告を分
離する手段を付加することにより、台紙画像上でのレイ
アウト画像の形状を同定する精度を高くすることができ
る例を示す。なお、台紙形状同定装置を除いた他の構成
は図1と同様である。一般的に記事本部と記事下広告の
部分は、あらかじめ分離して製作され、最終的に画像情
報として結合されるために、両者の境界を示す横罫線
は、レイアウト画像である紙面の横幅いっぱいに必ず引
かれている(図7に図示の境界線L)。そこで新聞画像
から横方向の各ラインの黒点の数を計測すると、外枠以
外では記事本部と記事下広告の境界の横罫線のみ、黒点
の数が横幅のドット数と一致する。
【0044】記事下広告を分離できる台形形状同定装置
4の実施例としては、図9に示すように最長横罫線抽出
モジュール91と、画像分割モジュール92を第1の実
施例で示した台紙形状同定装置4に加える。
【0045】本実施例における台紙形状同定装置4での
記事下広告の分離の処理としては、図10のフローチャ
ートに示す手順によって行われる。まず、図1のイメー
ジデータ前処理装置2から得たノンブルの除去後の画像
データに対して図10に示すように、ステップ101と
して最長横罫線抽出モジュール91において、白ライン
フラグ,黒ラインフラグに−1を代入する。ステップ1
02として新聞画像の下端から上端に達するまで一ライ
ンずつデータを取り出し、ステップ103として黒点と
判断されるデータの個数を数える。次にステップ104
として、白ラインフラグが−1で、黒点の個数が0だっ
た場合には、ステップ105として白ラインフラグにラ
イン番号を格納する。ステップ106では白ラインフラ
グが−1ではなく、黒点の個数が画像の横幅に等しい場
合には、ステップ107として黒ラインフラグにライン
番号を格納する。ステップ108として黒ラインフラ
グ,白ラインフラグに共にライン番号が格納され(−1
でないこと)、黒点の個数が0である場合には、そのラ
イン番号を画像分離モジュール92へ送る。ステップ1
09として、黒点の個数が1以上,横幅未満の場合に
は、ステップ101に戻り白点フラグ,黒点フラグに−
1を代入する。
【0046】次に画像分割モジュール92では、最長横
罫線抽出モジュール91によって得られた記事部のライ
ン番号を用いて、記事部のみの画像を切り出し、イメー
ジバッファ61に格納する。その後の処理は、上記第1
実施例とほぼ同様である。
【0047】他の最長横罫線抽出モジュール91の実施
例としては、紙に印刷された新聞画像を図1のイメージ
データ入力装置1としてイメージスキャナを利用して読
み込んだ場合には、入力された画像が傾いたり、ノイズ
が発生するなどの原因により、記事本部と記事下広告の
境における黒点の数が、1以上横幅未満の値になる可能
性がある。そこで広告分離閾値黒と広告分離閾値白の2
つの閾値を設け、広告分離閾値黒よりも黒点の数が大き
い場合には、図10における最大横線幅に等しく、広告
分離閾値白よりも黒点の数が少ない場合には、空白帯で
あるとみなす。この結果、ノイズや傾きによる誤差を生
じているデータに対しても、記事本部と記事下広告の分
離が可能となる。
【0048】〔実施例3〕次に、本発明の第3実施例を
示す。図2のイメージ補正モジュール17としては、新
聞画像の場合、ディジタルファクシミリと同等の品質を
持つ画像をイメージスキャナにより入力すると、縦方向
が10000ドット程度あるため、画像の左上角を原点
として回転をかけると、0.1°程度の傾きであったと
しても、原点近傍はほとんど変化しないが、下端の辺り
は横方向に20ドット以上動くため、画像のゆがみが大
きくなる。
【0049】そこで、本実施例のイメージ補正モジュー
ルとしては、回転の中心を新聞画像の中央に位置させ
る。例えばある新聞の入力画像が縦9200ドット、横
5820ドットであったとすると、回転の計算を行なう
際に、縦4600ドット、横2910ドットの点を原点
となるようにして計算を行なう。この結果、計算式は、
例えば画像の横方向の座標をxとして、横方向の座標を
yとし、計算された横方向の座標をUとし、計算された
縦方向の座標をVとするならば、 U=(x−2910)×cos(−0.1゜)−(y−
4600)×sin(−0.1゜)+2910, V=(x−2910)×sin(−0.1゜)+(y−
4600)×cos(−0.1゜)+4600 によって新しい座標点を計算する。この結果、ゆがみが
分離されて、高々10ドット程度になる。
【0050】更に本実施例におけるイメージデータ前処
理装置としては、新聞の画像の場合、記事下広告がつい
ているため、記事本部のみが必要な場合には、記事本部
を検出して、記事本部の中心を用いて回転を行なえば、
記事本部の平均的なゆがみは更に小さくなる。例えば、
ある新聞の一面の記事下広告は新聞の高さ方向に対し
て、20%の領域を占めている。この場合、図11のイ
メージデータ前処理装置のシステム構成図に示すよう
に、イメージデータ前処理装置3内に、最長横罫線抽出
モジュール91を組み込むことで達成できる。図11に
示すように、イメージデータ前処理装置3の一実施例と
しては、傾き補正機構11とノンブル除去機構12を2
セットと、最長横罫線抽出モジュール91から構成され
る。
【0051】本実施例におけるイメージデータ前処理装
置3の処理過程としては、図3に示した傾き補正の処理
過程によって得られた画像情報に対し、最長横罫線抽出
モジュール91において、記事部の領域を決定し、一方
の傾き補正機構11中のイメージ補正モジュール17に
おいて、記事本部の中心座標を中心にして回転する。こ
れにより、記事本部のゆがみは更に小さくなり、高々横
方向で8ドット程度しか動かない。
【0052】
【発明の効果】従来、新聞紙面や雑誌面のように、レイ
アウトされた画像を情報伝達媒体として利用していた情
報と、同一の内容を計算機によって用いられる文字コー
ドや、それを紙に打ち出した文字列による文字や伝達媒
体とする情報は、分離して扱われていたが、本発明によ
れば文字を伝達媒体とする情報に、画像情報上での位置
の情報を付加することにより、2種類の情報を例えば計
算機上で、一つの情報として扱うことが可能になる。
【0053】特に本発明では、イメージデータの入力装
置の違いによって、台紙画像上の座標点は様々であった
としても、台紙画像中のレイアウト画像内の各要素画像
の位置を判定できる手段を備えたことにより、レイアウ
ト画像上での座標に従った位置情報を入力することのみ
で、画像上の情報と文字列で表現された情報から、複合
的な情報を作成することが可能となり、複合的な情報を
作成する際の効率が大幅に上がる。
【0054】また、請求項3の発明によれば、特に新聞
記事のような記事本部と広告の部分に分かれている情報
に対して、記事本部のような情報の本体の領域を判断す
る手段を備えたことにより、情報の本体の画像の要素画
像の位置の判定を正確に行うことができ、レイアウト画
像,要素画像のゆがみを小さくすることができる。
【0055】さらに、請求項4の発明によれば、特に画
像が傾いて入力される可能性のあるイメージスキャナな
どの画像入力装置を使用する場合、たとえ画像が傾いて
入力されても、ひずみの少ない複合的な情報が得られ
る。
【図面の簡単な説明】
【図1】本発明の第1実施例における複合的な情報の構
築方式を示すシステム構成図
【図2】上記第1実施例におけるイメージデータ前処理
装置のシステム構成図
【図3】上記第1実施例における傾き補正処理のフロー
チャート
【図4】(a),(b)は上記第1実施例におけるノン
ブル除去機構の処理のフローチャート
【図5】上記第1実施例における台紙形状同定装置のシ
ステム構成図
【図6】上記第1実施例における台紙形状同定装置の処
理のフローチャート
【図7】(a),(b),(c)は上記第1実施例にお
けるデータ例を示す図
【図8】上記第1実施例におけるテキストデータ構造化
処理のフローチャート
【図9】本発明の第2実施例における台紙形状同定装置
のシステム構成図
【図10】上記第2実施例における台紙形状同定装置内
の記事下広告分離処理のフローチャート
【図11】本発明の第3実施例におけるイメージデータ
前処理装置のシステム構成図
【符号の説明】
1…イメージデータ入力装置 2…テキストデータ入力装置 3…イメージデータ前処理装置 4…台紙形状同定装置 5…テキストデータ構造化装置 6…格納データ生成装置 7…複合情報格納装置 8…パターンマッチャ 9…構造化スロット 10…パターンマッチデータベース 11…傾き補正機構 12…ノンブル除去機構
───────────────────────────────────────────────────── フロントページの続き (58)調査した分野(Int.Cl.7,DB名) G06T 1/00 G06T 11/60 - 17/50 G06F 17/30 G06F 12/00 H04N 1/21

Claims (4)

    (57)【特許請求の範囲】
  1. 【請求項1】 少なくとも一つ以上のある文字列を用い
    て表現される情報と、該文字列を用いて表現された情報
    と同一の内容を画像によって表現した画像情報である少
    なくとも一つ以上の要素画像から構成された画像情報で
    ある少なくとも一つ以上のレイアウト画像を持つ台紙画
    像の画像情報と、個々の前記文字列で表現された情報が
    予め定められた規則に従って前記レイアウト画像上のど
    の位置に存在するかを示す位置情報との、3種の情報が
    それぞれ入力された時に、前記台紙画像上において個々
    の前記レイアウト画像の領域を決定する手段と、特に前
    記入力された位置情報を前記レイアウト画像上での規則
    に従った位置情報に変換する手段と、該レイアウト画像
    上の位置情報を前記台紙画像上でのレイアウト画像の存
    在する領域の情報によって該台紙画像上での規則に従っ
    た位置情報に変換する手段を有し、前記画像情報と前記
    文字列で表現された情報を共に関係づけて扱えるように
    構造化することを特徴とする、複合的な情報の構築方
    式。
  2. 【請求項2】 請求項1記載の複合的な情報の構築方式
    において、入力された要素画像および一つ以上の要素画
    像からなるレイアウト画像が段や行による位置の規則性
    を持つ画像情報であり、かつ文字列で表現された情報と
    共に入力される位置情報が該レイアウト画像上での段や
    行の規則によって表現されている場合に、該レイアウト
    画像上での位置と該文字列で表現された情報と共に入力
    された位置情報を対応づけるために、該レイアウト画像
    の領域を決定する手段が、特に該レイアウト画像上にお
    ける黒点の分布から一段の高さを同定する手段と、前記
    レイアウト画像上の各段における黒点の分布から行間隔
    を同定する手段を有し、前記文字列として表現された情
    報が持つ段と行で表される位置情報と前記レイアウト画
    像上での位置を対応づけることで台紙画像上での位置の
    規則に従って該文字列で表現された情報と要素画像とを
    対応づけることを特徴とする、複合的な情報の構築方
    式。
  3. 【請求項3】 請求項1または2記載の複合的な情報の
    構築方式において、特に情報の本体を表現する領域と付
    加的な情報の領域が存在する場合に、レイアウト画像の
    領域を決定する手段が、特に前記情報の本体を表現する
    領域と前記付加的な情報の領域とのレイアウト画像情報
    上での境界線を判定する手段と、該判定された境界線の
    位置を用いて台紙画像情報から前記情報の本体を表現す
    る領域の画像情報を切り出す手段とを有し、さらに該情
    報の本体のみの画像情報から段,行の構造を抽出して前
    記レイアウト画像情報全体における段や行の位置を判定
    することを特徴とする、複合的な情報の構築方式。
  4. 【請求項4】 請求項1または2または3記載の複合的
    な情報の構築方式において、入力したレイアウト画像が
    傾いている際に該レイアウト画像の外枠を検出する手段
    と、前記レイアウト画像をあらかじめ定められた基準に
    したがって主要な情報と付加的な情報とに分離する境界
    線の存在する位置を識別する手段と、外枠情報と前記主
    要な情報と前記付加的な情報との境界線の位置情報から
    該主要な情報を表現する画像の領域の中心点を計算する
    手段とを設け、前記主要な情報を持つ画像の中心点を回
    転の中心として台紙画像を回転させた後の画像情報が入
    力されることを特徴とする、複合的な情報の構築方式。
JP23752492A 1992-09-07 1992-09-07 複合的な情報の構築方式 Expired - Lifetime JP3193472B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23752492A JP3193472B2 (ja) 1992-09-07 1992-09-07 複合的な情報の構築方式

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23752492A JP3193472B2 (ja) 1992-09-07 1992-09-07 複合的な情報の構築方式

Publications (2)

Publication Number Publication Date
JPH0683928A JPH0683928A (ja) 1994-03-25
JP3193472B2 true JP3193472B2 (ja) 2001-07-30

Family

ID=17016609

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23752492A Expired - Lifetime JP3193472B2 (ja) 1992-09-07 1992-09-07 複合的な情報の構築方式

Country Status (1)

Country Link
JP (1) JP3193472B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3637771B2 (ja) * 1997-11-25 2005-04-13 三菱電機株式会社 文書編集出力装置

Also Published As

Publication number Publication date
JPH0683928A (ja) 1994-03-25

Similar Documents

Publication Publication Date Title
US6917706B2 (en) Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof
US7391917B2 (en) Image processing method
US5664027A (en) Methods and apparatus for inferring orientation of lines of text
JP2940496B2 (ja) パタンマッチング符号化装置及び方法
JP4577931B2 (ja) ドキュメント処理システム及びインデックス情報獲得方法
US6208744B1 (en) Document image processor and method for setting a document format conforming to a document image
JP3452774B2 (ja) 文字認識方法
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JPH08305731A (ja) 文書格納等の方法及び文書サーバ
US4556985A (en) Pattern recognition apparatus
US5046114A (en) Method and structure for separating joined patterns for use in pattern and character recognition system
JP2890482B2 (ja) 文書画像再配置ファイリング装置
US7965293B2 (en) Image processing device, image processing method, and image processing program for reconstructing data
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP3193472B2 (ja) 複合的な情報の構築方式
JP2989495B2 (ja) 文書用紙認識方法およびシステム
JP2008028716A (ja) 画像処理方法及び装置
JPS6325391B2 (ja)
JP3516609B2 (ja) 文字情報加工編集装置、および文字情報加工編集プログラムを記録した記録媒体
KR100315428B1 (ko) 다국어 인쇄체 문서인식을 위한 문자 특징 추출 장치 및그 방법
JP2697790B2 (ja) 文字タイプ決定方法
JP2918363B2 (ja) 文字分類方法及び文字認識装置
JPH11316797A (ja) 文書画像の領域識別方法および装置
JP3083609B2 (ja) 情報処理装置及びそれを用いた文字認識装置
JP3071479B2 (ja) 行間スペース検出方法

Legal Events

Date Code Title Description
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090525

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090525

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100525

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110525

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120525

Year of fee payment: 11

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 12

EXPY Cancellation because of completion of term
FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130525

Year of fee payment: 12