JPH04312162A - 文字列抽出装置 - Google Patents

文字列抽出装置

Info

Publication number
JPH04312162A
JPH04312162A JP3077935A JP7793591A JPH04312162A JP H04312162 A JPH04312162 A JP H04312162A JP 3077935 A JP3077935 A JP 3077935A JP 7793591 A JP7793591 A JP 7793591A JP H04312162 A JPH04312162 A JP H04312162A
Authority
JP
Japan
Prior art keywords
character string
character
extracted
word
strings
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP3077935A
Other languages
English (en)
Inventor
Koji Tateno
立野 浩司
Hiroshi Matsuo
比呂志 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP3077935A priority Critical patent/JPH04312162A/ja
Publication of JPH04312162A publication Critical patent/JPH04312162A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Input (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】この発明は、文または単語列で表
現されたデータを対象として、罫線を含むコード化され
た文書を処理対象とし、その文字列を抽出する装置に関
する。
【0002】
【従来の技術】例えば、特開平1−119885号公報
に開示されているように、画像データから文字領域を抽
出する装置があるが、表中の文字コードを固まりとして
抽出するだけで、日本語として意味のある文または単語
列を抽出することはできなかった。
【0003】
【発明が解決しようとする課題】これまでは表中の各部
の文字列が横書きまたは縦書きに統一されている文書に
ついて、罫線を削除するだけで処理可能なものを対象と
していた。この発明は、罫線で分離された領域のそれぞ
れに含まれる文または単語列を含む文書を対象とし、個
々の文字領域の文字コードを抽出後、各文字列の読み方
向を決定して、横書きと縦書きとが混在する文書からも
文字列を抽出することができる文字列抽出装置を提供す
ることを目的とする。
【0004】
【課題を解決するための手段】この発明による文字列抽
出装置は、単語辞書、形態素解析部、文字列抽出部、判
定部をそなえ、文字列抽出部に文書を入力して罫線で分
離された各領域から文字コード列を抽出し、その各文字
コード列から空白を削除した縦書きと横書きとの各文字
列を作成し、形態素解析部で各文字列を単語辞書を参照
して単語の分割を行い、判定部で形態素解析結果により
、抽出した文字列が縦書きか横書きかの判定を行い、文
書中から意味のある文字列を抽出する。
【0005】
【実施例】図1はこの発明の実施例を示す。単語辞書1
と文字列抽出部と、形態素解析部3と、判定部とにより
この発明の文字列抽出装置5が構成される。単語辞書1
には、形態素解析処理で必要な単語表記を図2に示すよ
うに蓄積している。例えば、単語表記「大量」を蓄積し
ている。
【0006】文字列抽出部2は、入力された文書データ
から、罫線コードによって分離された文字領域を成分と
して、各文字コードがいずれの成分と同じ領域に属する
かを判断し抽出する。この方法は、画像処理における公
知の「成分への名札付けを行う手法」(例えばA.ロー
ゼンフェルド著「電子計算機による画像処理」共立出版
を参照)と同様な方法で行える。入力文書として、図3
に示すように表外に縦書きの「表示内容」を、罫線で囲
まれた表中に横書きの「大量文書表示」と、縦書きの「
詳細内容」と横書きの「概要」とを含む文書を入力した
場合について説明する。ここでは、罫線コードと罫線以
外の文字コードとを同一文書データ中に含み、文書を表
現するコードが2次元の位置情報を維持して入力される
ものとする。上記の入力文書に対して、各文字コードが
画像データにおける1画素とみなして公知の成分への名
札付け手法を適用し文字領域を抽出する。 (1)図4に示すように罫線コードに対する画素値を0
、罫線以外の文字コードに対する画素値を1とする2値
化テーブルを作成する。 (2)(1)で得られた2値化テーブルに対して公知の
成分への名札付け手法を適用し、罫線によって分離され
た、各文字領域に対応する名札を付けたテーブルを図5
に示すように作成する。 (3)(2)で得られたテーブルから各名札に対応する
文字コードを抽出し図6に示すようにテーブルを作成す
る。 (4)(3)で得られたテーブルから横書きと縦書きと
の文字列を取りだし、空白を削除する。1行または1列
の文字列の場合は同一のものが作成される。図7に縦書
きとして文字列を抽出した例を、図8に横書きとして文
字列を抽出した例を示す。
【0007】形態素解析部3は、単語辞書1を参照して
、文字列抽出部2で抽出された各文字列について、縦書
きの文とした場合と横書きの文とした場合の構成する単
語の分割を行う。ここで形態素解析は従来からの手法で
、単語辞書1に登録されている最長一致の単語表記で分
割を行い、単語表記が登録されていない場合は未知語と
判定するものとする。図9は抽出した文字列を横書きの
文「大量文書表示」であるとして単語分割を行った例で
ある。図10は抽出した文字列を縦書きの文「大文表量
書示」であるとして単語分割を行った例である。
【0008】判定部4は、形態素解析部3で得られた結
果を基に各文字列が縦書きか横書きかの読みとり方向を
決定する判定値を計算する。判定値算出方法には多くの
方法があるが、以下では未知語数による場合と単語数に
よる場合の2例について説明する。(1)未知語数を用
いて判定する場合 抽出した文字列を縦書きとみなした場合の判定値をVu
、形態素解析によって抽出された各単語をWk、各Wk
に対する得点を各々Ukとする。
【0009】ただし、 判定値Vuを以下のように与える。 Vu=U1+U2+… 同様に、抽出した文字列が横書きとみなした場合の判定
値Huを以下のように与える。
【0010】Hu=U1+U2+… 図11は、図3で用いた入力文と同じ入力文を与えたと
きの、抽出された文字列を縦書きとみなした「大文表量
書示」と横書きとみなした「大量文書表示」に対する判
定値VuとHuの算出の例を示している。「大文表量書
示」に対する、判定値算出の例を以下で説明する。
【0011】形態素解析の結果、’大’、’文’、’表
’、’量’、’書示’に単語分割され、’書示’は未知
語となるため、得点は次のように与えられる。U1=0
、U2=0、U3=0、U4=0、U5=10その結果
、判定部4での縦書き「大文表量書示」の判定値は、V
u=10となる。同様にして、横書き「大量文書表示」
の判定値は、Hu=0となる。
【0012】ここでは、判定値VuとHuから値の小さ
い方が未知語数は少ないので読み方向として正しいとす
る。よって名札番号2に対応する文字列として「大量文
書表示」が抽出される。同様に他の名札番号に対応する
文字列が抽出される。 (2)単語数を用いて判定する場合 抽出した文字列を縦書きとみなした場合の判定値をVn
、形態素解析によって分割された各単語をWk、とする
。判定値Vnを以下のように与える。
【0013】Vn=形態素解析により分割された単語数
同様に、抽出した文字列が横書きとみなした場合の判定
値Hnを以下のように与える。Hn=形態素解析により
分割された単語数 図12は、図3で用いた入力文と同じ入力文を与えたと
きの、抽出された文字列を縦書きとみなした「大文表量
書示」と横書きとみなした「大量文書表示」に対する判
定値VnとHnの算出の例を示している。
【0014】「大文表量書示」に対する単語分割の結果
より、判定部4での縦書き「大文表量書示」の判定値は
、Vn=5となる。同様にして、横書き「大量文書表示
」の判定値は、Hn=3となる。ここでは、判定値Vn
とHnから値の小さい方が単語数が少ないので読み方向
として正しいとする。よって名札番号2に対応する文字
列として「大量文書表示」が抽出される。同様に他の各
名札番号に対応する文字列が抽出される。
【0015】以上の処理によって、文字列として「大量
文書表示」、「表示内容」、「詳細内容」、「概要」が
抽出される。未知語数から判定し抽出する場合の一連の
処理を図13に示す。
【0016】
【発明の効果】以上説明したように、この発明によれば
、表の枠内または枠外のように罫線で分割された複数の
領域に縦書きまたは横書きの単語列が混在した文書から
意味ある正しい文字列を抽出できるため、表を含む文書
に対して言語処理が可能となる。
【図面の簡単な説明】
【図1】この発明の1実施例を示すブロック図。
【図2】単語辞書1の内容例を示す図。
【図3】形態素解析結果の例を示す図。
【図4】2値化テーブルの例を示す図。
【図5】名札付けテーブルの例を示す図。
【図6】名札毎に文字を抽出した例を示す図。
【図7】名札番号2の文字列を縦書きとして抽出し空白
を削除した例を示す図。
【図8】名札番号2の文字列を横書きとして抽出し空白
を削除した例を示す図。
【図9】名札番号2の文字列を縦書きとした形態素解析
結果の例を示す図。
【図10】名札番号2の文字列を横書きとした形態素解
析結果の例を示す図。
【図11】未知語数に基づいた判定値算出の例を示す図
【図12】単語数に基づいた判定値算出の例を示す図。
【図13】文字列抽出の実施例を示す図。

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】  罫線を含むコード化された文書を処理
    対象とする文字列抽出装置において、単語表記を各単語
    に対して規定した単語辞書と、上記文書中の罫線で分け
    られた領域の文字コード列を各々の領域から抽出し、そ
    の各領域ごとに抽出された文字コード列から空白を削除
    した縦書きと横書きとの各文字列を作成する文字列抽出
    部と、上記単語辞書を参照して、上記文字列抽出部から
    抽出された各文字列に対して単語分割する形態素解析部
    と、その形態素解析部で得られた単語分割結果から各文
    字列が縦書きか横書きかを判定する判定部と、を有する
    ことを特徴とする文字列抽出装置。
JP3077935A 1991-04-10 1991-04-10 文字列抽出装置 Pending JPH04312162A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP3077935A JPH04312162A (ja) 1991-04-10 1991-04-10 文字列抽出装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP3077935A JPH04312162A (ja) 1991-04-10 1991-04-10 文字列抽出装置

Publications (1)

Publication Number Publication Date
JPH04312162A true JPH04312162A (ja) 1992-11-04

Family

ID=13647939

Family Applications (1)

Application Number Title Priority Date Filing Date
JP3077935A Pending JPH04312162A (ja) 1991-04-10 1991-04-10 文字列抽出装置

Country Status (1)

Country Link
JP (1) JPH04312162A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257952A (ja) * 2010-06-08 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 判定装置及び方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257952A (ja) * 2010-06-08 2011-12-22 Nippon Telegr & Teleph Corp <Ntt> 判定装置及び方法及びプログラム

Similar Documents

Publication Publication Date Title
KR101376863B1 (ko) 문서 시각 구조의 문법 분석
Kleber et al. Cvl-database: An off-line database for writer retrieval, writer identification and word spotting
JP3232143B2 (ja) 復号していない文書画像の修正版を自動的に作成するための装置
US5748805A (en) Method and apparatus for supplementing significant portions of a document selected without document image decoding with retrieved information
JP3232144B2 (ja) 文章中の単語文節の出現頻度を求めるための装置
US7310773B2 (en) Removal of extraneous text from electronic documents
JP3452774B2 (ja) 文字認識方法
JP2713622B2 (ja) 表形式文書読取装置
WO2024015320A1 (en) Visual structure of documents in question answering
JPH04312162A (ja) 文字列抽出装置
Kumar et al. Line based robust script identification for indianlanguages
Setlur et al. Creation of data resources and design of an evaluation test bed for Devanagari script recognition
JP3398729B2 (ja) キーワード自動抽出装置およびキーワード自動抽出方法
Lakshmi et al. A high accuracy OCR system for printed Telugu text
Prakash et al. Content extraction studies for multilingual unstructured web documents
Algaradi et al. The trend of segmentation for Arabic handwritten touching characters
Genzel et al. Translation-inspired OCR
JPH04346189A (ja) 文字列種類識別装置
김하영 et al. JCS
JPH04123185A (ja) 文書認識方式
Ozaki Column segmentation by white space pattern matching
CN117912035A (zh) 一种快速提取文档类pdf文字信息的方法
JP3116453B2 (ja) 英文字認識装置
JP3064508B2 (ja) 文書認識装置
JP2005208687A (ja) 多言語文書処理装置及びプログラム