JPH03161866A - 目次認識装置 - Google Patents

目次認識装置

Info

Publication number
JPH03161866A
JPH03161866A JP1301448A JP30144889A JPH03161866A JP H03161866 A JPH03161866 A JP H03161866A JP 1301448 A JP1301448 A JP 1301448A JP 30144889 A JP30144889 A JP 30144889A JP H03161866 A JPH03161866 A JP H03161866A
Authority
JP
Japan
Prior art keywords
character
contents
image data
characters
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1301448A
Other languages
English (en)
Inventor
Kaoru Nakabayashi
薫 中林
Masao Akaha
赤羽 正雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Seiko Epson Corp
Original Assignee
Seiko Epson Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Seiko Epson Corp filed Critical Seiko Epson Corp
Priority to JP1301448A priority Critical patent/JPH03161866A/ja
Publication of JPH03161866A publication Critical patent/JPH03161866A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [産業上の利用分野] 本発明は、雑誌などの書籍の目次に記載されている事項
を文字認識して、コンピュータ処理可能な文字コードデ
ータを発生する目次認識装置に関する。
[従来の技術] 個人や団体で保管している雑誌などの書籍の中から特定
の記事を探す場合、または特定の語句を含む書籍を探す
場合、人間の記憶に頼って手で探すか、もしくは面倒で
も手入力した書籍データベ−2− −スをあらかじめ作成しておくしかながった。
[発明が解決しようとする課題] しかし、人間の記憶は曖昧であり、多くの場合はかなり
の時間をかけて一冊ずつ調べなければ特定の記事は見つ
からなかった。また、手入力での書籍データベースの作
成は大変な労力を要していた。
本発明の目的は、目次を中心とした書籍データベース作
戒を容易にするために、目次記載事項を画像情報として
読取、文字認識処理をして、コンピュータ処理可能な文
字コードデータを発生させる目次認識装置を提供するこ
,とである。
[課題を解決するための手段] 本発明の目次認識装置は、目次画像データ取得部と、前
記目次画像データ取得部により得られた目次に記載され
た文字・線・イラスト・写真等の情報を画像データとし
て記憶する画像データ記憶部と、目次記載書式の特徴知
識をおさめた目次記−3− 載書式データベース部と、前記画像データから前記目次
記g書式データベース部の知識を利用して文字画偉デー
タ部分のみを抽出し、文字画像を領域内に包括するよう
一文字毎に文字外接枠を生成する文字外接枠生成部と、
認識対象全文字の特徴パラメータを予めおさめた特徴パ
ラメータ辞書部と、前記文字外接枠内にある文字画像よ
り特徴パラメータを算出し、前記算出された特徴パラメ
ータに対して前記特徴パラメータ辞書部内で最も類似し
た特徴パラメータを持つ文字コードに変換する文字認識
部と、前記文字認識部により認識された文字コードを順
次格納してゆく目次文字コードデータ記憶部とを持つこ
とを特徴とする。
[作用] 先ず、認識対象目次をイメージスキャナ等の光学センサ
ーによりスキャンして得られた文字・線・イラスト・写
真等を含む画像データを画像データ記憶部に格納する。
続いて、文字外接枠生成部において、この画像−4− データから、目次の記載事項、書式を事実として整理し
てある目次記載書式データベースを利用して、文字画像
データ部分のみを抽出する。さらに、この文字画像デー
タの1文字毎に文字外接枠を求め1文字づつの切出しを
行う。切り出された文字の特徴パラメータを算出し、予
め用意されている特徴パラメータ辞書部内の認識対象の
全ての文字の特徴パラメータと比較する。そして、もっ
とも類似な特徴パラメータを持つ文字を、認識した文字
とする作業を、「書籍の名前・号」「発行年月日」「記
事の見出し」「頁番号」等の目次記載項目の全ての切り
出した文字に対して順次行ってゆく。
このようにして認識対象目次の記載事項は、画像データ
から文字コードデータに変換されて、コンピュータシス
テムで利用可能なデータとなる。
[実施例] 第1図は本発明となる目次認識装置の構成ブロック図例
である。
一5一 目次画像データ取得部1は、認識対象目次をイメージス
キャナ等の光学センサによりスキャンして画像データを
得る部である。
光学センサとしては、CCDセンサ、アモルファスシリ
コンセンサ等を用いたコンピュータ周辺装置である据置
式イメージスキャナが利用できる。
前記目次画像データ取得部1により得られた文字・線・
イラスト・写真等を含む目次の画像データは、CPUを
持った例えばパーソナルコンピュータ内の匪像データ記
憶部2へ送られ、格納される。
続いて、文字外接枠生成部3では、格納された画像デー
タから、目次の記載事項、書式を事実として整理してあ
る目次記載書式データベース部4の情報を利用して、文
字画像データ部分のみを抽出し、この文字画像データの
1文字毎に文字外接枠を求め1文字づつの切出しを行う
目次記載書式データベース部4は、目次は横書きである
こと、頁の上側または下側に「書籍の名前・号」が記載
される可能性があること、頁の上−6− 側または下側に「発行年月日」が記載される可能性があ
ること、「記事の見出しJは1行から2行ずつの文字デ
ータが左揃いで並んでいること、「記事の見出し」の右
側には算用数字で「頁番号」があること、「頁番号」は
右揃いで並んでいること、「頁番号」と「記事の見出し
」は同じ行にあること、「頁番号」と「記事の見出しJ
は線で結ばれている場合があること、「記事の見出し」
と「頁番号」を1項目とすると、各項目が線で区切られ
ている可能性もあること、「記事の見出し」の左側に「
章・節の番号」や「サブタイトル」が付いている場合が
あること等々のデータ記載位置とその規格・規約等につ
いて予め調べて知識化してあるものであり、文字・線・
イラスト・写真等を含む画像データから文字画像データ
部分のみを抽出する場合や認識処理における認識対象文
字の絞り込み等に利用され目次認識装置の信頼性を向上
させるものである。
なお、文字外接枠を求める方法は、どこに文字データが
あるのかが、前述の目次記載書式データ−7− ベース部4の知識等により分かれば、既存の技術により
可能である。(例えば、オーム社発行・森俊二著「文字
・図形認識技術の基礎」)文字認識部5においては、切
り出された一文字毎に特徴パラメータを算出し、特徴パ
ラメータ辞書部6に予め格納されている認識対象の全て
の文字の特徴パラメータと順次比較する。そして、算出
された特徴パラメータと最も類似な特徴パラメータを持
つ文字を、認識した文字として文字コードを発生させ目
次文字コードデータ記憶部7へ格納する手順を、「書籍
の名前・号」「発行年月日」「記事の見出し」 「頁番
号」等の目次記載項目の全ての切り出した文字に対して
順次行ってゆく。各文字の特徴を表すべき特徴パラメー
タに関しても、メッシュ特徴法、ペリフェラル特徴法(
交差距離特徴)等の既存の方法が利用できる。(前掲「
文字・図形認識技術の基礎」参考)このようにして認識
対象目次の記載事項は、画像データから文字コードデー
タに変換されてコンピュータシステムで利用可能なデー
タとなる。
−8一 目次文字コードデータ修正部8では、認識結果を人間が
確認し、間違って認識された文字などの修正を行なう。
書籍データベース部9では、目次に記載されている「書
籍の名前・号」「発行年月日」 「記事の見出し』「頁
番号』を1件の書籍情報として、書籍データベースのフ
ァイルへ書き込む。
第2図は目次認識装置のフローチャート例であり、F1
からF13はステップの番号である。
F1では、例えばイメージスキャナを利用して目次画像
データを取得する。次のF2では目次画像データをコン
ピュータのRAM上に格納する。
F3では目次記載書式データベースの情報を利用して、
前記の目次画像データから文字だけを1文字ずつ切り出
して枠で囲う処理をする。
F4からF9はl文字ずつ文字認識する処理であって、
切り出された文字枠の数だけ繰り返される。F4は次に
文字認識する文字枠へ移動する処理で、F5は次の文字
枠が有ったかの判定処理である。もう認識すべき文字枠
が残っていない場合一9一 、処理はFIOに移る。F6では目次記載書式データベ
ースの情報を利用して、認識しようとする文字が目次を
構或する項目、つまり「頁番号」 「記事の見出し」な
との、どの種類に属するのかを推定する処理である。F
7では文字の特徴を抽出する.F8では、特徴パラメー
タ辞書から前記特徴に最も近い文字コードを取得する。
なおF8では、F6で得た文字の項目種類を利用する事
も可能である(例えば頁番号なら算用数字であるなど)
。F9では、F8で得られた文字コードを、F6で得ら
れた種類の項目の末尾に書き込む。1文字の認識処理は
これで終わりで、次の文字を認識するため、再びF4に
処理を戻す。
認識処理がすべての文字枠に対して行なわれた後にFI
Oに処理が移る。FIOでは元の目次画像データと認識
結果データを並列表示し、Filではユーザが両データ
を比較して、文字が正しく認識されたか、項目の種類が
正しく分類されているかを確認し、誤りがあればキーボ
ードからキー人力して認識結果データを修正する。この
時、修−10− 正結果を新たな情報として、前記書式記載データベース
や前記特徴パラメータ辞書に書き加え、学習させること
ももちろん可能である。F12ではまだ修正が必要かを
ユーザにたずねる。修正がすべて終了したらF13で目
次の認識結果データを1件として、書籍データベースに
登録する。
第3図は目次認識装置のハードウェア構成図例である。
点線で囲んだ中が例えばパーソナルコンピュータ内部で
あり、H2はCPUである。H3はRAMで、画像デー
タの記憶や一時ワークとして使用する。H4はROMで
、BIOSなどのシステムプログラムが入っている。H
1はイメージスキャナで、目次画像データを読み込む。
H5はCRTなどのディスプレイで、目次画像データや
認識結果データを表示する。H6はキーボードで、ユー
ザがキー人力による修正・確認を行なう。
H7は磁気ディスクなどの記録装置で、目次画像データ
の一時記憶、目次記載書式データベース、特徴パラメー
タ辞書、書籍データベース、などのファイルの読み書き
を行なう。
[発明の効果] 目次に記載された内容をコンピュータシステムで利用可
能な文字コードデータに変換する本発明となる目次認識
装置の実現により、書籍データベースの作成を容易にす
る。これまで書籍データベースへのデータ入力は、その
全過程を人手に頼っていたが、目次認識装置によれば、
人手が必要なのは最後の確認・修正だけで済むようにな
り、時間と手間が大幅に短縮される。
そして書籍データベース化することで、雑誌などの書籍
の中から特定の記事を探す場合、または特定の語句を含
む書籍を探す場合にも、時間と手間が大幅に節約できる
。さらに特定のキーワードを含む記事の見出しを何件か
りストアップできるというようなデータベース化したた
めの新しい効果もある。また、書籍データベースの作成
時の手入力を大幅に減らすこと、および記事の検索時に
かかっていた手作業を無くしたことにより、人件費等の
経清的効果がある。
【図面の簡単な説明】
第1図は本発明となる目次認識装置の構成ブロック図例
である。第2図は装置の作動手順を示すフローチャート
例、−第3図は装置のハードウェア構成図例である。 1:目次画像データ取得部 2:画像データ記憶部 3:文字外接枠生成部 4:目次記載書式データベース部 5:文字認識部 6:特徴パラメータ辞書部 7;目次文字コードデータ記憶部 8:目次文字コードデータ修正部 9:書籍データベース部 以   上

Claims (1)

    【特許請求の範囲】
  1. 目次画像データ取得部と、前記目次画像データ取得部に
    より得られた目次に記載された文字・線・イラスト・写
    真等の情報を画像データとして記憶する画像データ記憶
    部と、目次記載書式の特徴知識をおさめた目次記載書式
    データベース部と、前記画像データから前記目次記載書
    式データベース部の知識を利用して文字画像データ部分
    のみを抽出し、文字画像を領域内に包括するよう一文字
    毎に文字外接枠を生成する文字外接枠生成部と、認識対
    象全文字の特徴パラメータを予めおさめた特徴パラメー
    タ辞書部と、前記文字外接枠内にある文字画像より特徴
    パラメータを算出し、前記算出された特徴パラメータに
    対して前記特徴パラメータ辞書部内で最も類似した特徴
    パラメータを持つ文字コードに変換する文字認識部と、
    前記文字認識部により認識された文字コードを順次格納
    してゆく目次文字コードデータ記憶部とを持つことを特
    徴とする目次認識装置。
JP1301448A 1989-11-20 1989-11-20 目次認識装置 Pending JPH03161866A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1301448A JPH03161866A (ja) 1989-11-20 1989-11-20 目次認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1301448A JPH03161866A (ja) 1989-11-20 1989-11-20 目次認識装置

Publications (1)

Publication Number Publication Date
JPH03161866A true JPH03161866A (ja) 1991-07-11

Family

ID=17897015

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1301448A Pending JPH03161866A (ja) 1989-11-20 1989-11-20 目次認識装置

Country Status (1)

Country Link
JP (1) JPH03161866A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0644325A (ja) * 1991-10-24 1994-02-18 American Teleph & Telegr Co <Att> A−v知覚可能情報セグメントのアクセス方法
WO1999041681A1 (fr) * 1998-02-16 1999-08-19 Chunchen Lin Procede d'analyse de structure d'image de document

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0644325A (ja) * 1991-10-24 1994-02-18 American Teleph & Telegr Co <Att> A−v知覚可能情報セグメントのアクセス方法
WO1999041681A1 (fr) * 1998-02-16 1999-08-19 Chunchen Lin Procede d'analyse de structure d'image de document

Similar Documents

Publication Publication Date Title
CN111428503A (zh) 同名人物的识别处理方法及处理装置
JPH03161866A (ja) 目次認識装置
JPH10162098A (ja) 文書電子化装置及び文書電子化方法
JP3981158B2 (ja) 文書索引生成装置
JPS60100264A (ja) 情報検索装置
JPH0516069B2 (ja)
JPH08212230A (ja) 文書検索方法及び文書検索装置
US20140111438A1 (en) System, method and apparatus for the transcription of data using human optical character matching (hocm)
JPH0764979A (ja) 文書情報処理装置
JP3085508B2 (ja) 電子帳票検索システム
JPH0452509B2 (ja)
JPS621062A (ja) 文書作成支援装置
JPS6154569A (ja) 文書画像処理方式
JPH09204511A (ja) ファイリング装置
JPH09160907A (ja) 文書処理装置及び方法
Lomov et al. Handwritten Text Recognition and Browsing in Archive of Prisoners’ Letters from Smolensk Convict Prison
JP2606560B2 (ja) 文書画像記憶装置
JPS6329882A (ja) 情報登録検索装置
JP2865443B2 (ja) カナ氏名もしくはカナ法人名表記の漢字変換装置
JPH0477887A (ja) 文字認識装置
JPH07325888A (ja) 辞書登録方法,文字認識方法及び文字認識装置
JPH0620087A (ja) Ocr処理システムにおける漢字住所データ処理方法
JPH06266765A (ja) 文章検索装置
JPS62134765A (ja) 漢和辞書の電子検索方法
JPH04195580A (ja) 索引用語ファイル作成装置