JP2000020638A - 文字列方向判別方法 - Google Patents

文字列方向判別方法

Info

Publication number
JP2000020638A
JP2000020638A JP10182405A JP18240598A JP2000020638A JP 2000020638 A JP2000020638 A JP 2000020638A JP 10182405 A JP10182405 A JP 10182405A JP 18240598 A JP18240598 A JP 18240598A JP 2000020638 A JP2000020638 A JP 2000020638A
Authority
JP
Japan
Prior art keywords
character string
character
document
word
vertical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP10182405A
Other languages
English (en)
Inventor
Katsuhiko Aoki
勝彦 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP10182405A priority Critical patent/JP2000020638A/ja
Publication of JP2000020638A publication Critical patent/JP2000020638A/ja
Withdrawn legal-status Critical Current

Links

Landscapes

  • Character Input (AREA)

Abstract

(57)【要約】 【課題】 文書読取装置において、縦書き/横書きを確
実に判別可能な文字列方向判別方法を提供する。 【解決手段】 ステップS31で、文書が縦書きである
と仮定した場合の冒頭部の文字列抽出を行い、ステップ
S32で、文字辞書ファイル3を参照してこの文字列中
の文字認識を行う。ステップS33で、認識した文字で
構成される単語を単語辞書ファイル4を用いて検索す
る。同様に、ステップS34〜S36で、文書が横書き
であると仮定した場合の冒頭部の単語の検索を行う。有
効な単語が検索された文字列の方向を、その文書の文字
列方向であると判別する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書読取装置にお
いて、文書上に記載された文字の縦書き/横書きを判別
する文字列方向判別方法に関するものである。
【0002】
【従来の技術】従来、このような分野の技術としては、
例えば次のような文献に記載されるものがあった。 文献:特開平5−314309号公報 前記文献には、文書上の文字列方向の判別方法として、
次のような方法が開示されている。
【0003】まず、イメージスキャナ等で画素に分解し
て読み取った文書の2値画像を、縦横に縮小して縮小画
像を生成する。次に、縮小画面から縦方向及び横方向に
黒画素が連続する複数の連結成分を、文字列候補として
抽出する。更に、文字列候補の連結成分の中で、縦と横
の比が一定の閾値を越える縦長の連結成分の個数と、横
長の連結成分の個数とを調べる。そして、縦長の連結成
分の個数が、横長の連結成分の個数よりも多ければ縦書
き、少なければ横書きと判別する。
【0004】
【発明が解決しようとする課題】しかしながら、従来の
方法では、次のような課題があった。例えば、文字のサ
イズに比べて文字間隔が離れていると、縮小画面を生成
しても文字同士が離れてしまい、有効な連結成分を抽出
することができない。また、縦及び横の文字間隔がほぼ
等しい場合にも、縦書き/横書きの判別が不可能にな
る。本発明は、前記従来技術が持っていた課題を解決
し、縦書き/横書きを確実に判別することができる文字
列方向判別方法を提供するものである。
【0005】
【課題を解決するための手段】前記課題を解決するため
に、本発明は、文字列方向判別方法において、次のよう
な処理を順次行っている。まず、文字列が記載された文
書を画素に分解して画像データとして読み取る画像読取
処理を行う。次に、前記文書の文字列が縦書きであると
仮定して、前記画像読取処理で読み取られた画像データ
から縦方向の冒頭部の文字列を抽出する第1の文字列抽
出処理と、前記第1の文字列抽出処理で抽出された文字
列から、この文字列を構成する複数の文字を切り出して
認識する第1の文字認識処理と、前記第1の文字認識処
理で認識された複数の文字でつづられる単語を、単語辞
書を参照して検索する第1の単語検索処理とを行う。
【0006】更に、前記文書の文字列が横書きであると
仮定して、前記画像読取処理で読み取られた画像データ
から横方向の冒頭部の文字列を抽出する第2の文字列抽
出処理と、前記第2の文字列抽出処理で抽出された文字
列から、この文字列を構成する複数の文字を切り出して
認識する第2の文字認識処理と、前記第2の文字認識処
理で認識された複数の文字でつづられる単語を、前記単
語辞書を参照して検索する第2の単語検索処理とを行
う。そして、前記第1及び第2の単語検索処理の検索結
果に基づいて、前記文書に記載された文字列の方向が縦
書きか横書きかを判定する縦横判定処理を行う。
【0007】以上のように文字列方向判別方法を構成し
たので、本発明によれば次のような作用が行われる。画
像読取処理により、文書は画素に分解しされた画像デー
タとして読み取られる。第1の文字列抽出処理により、
画像データから縦方向の冒頭部の文字列が抽出され、第
1の文字認識処理によって、この文字列を構成する複数
の文字が切り出されて認識される。更に、第1の単語検
索処理により、単語辞書が参照されて認識された複数の
文字による単語が検索される。同様に、第2の文字列抽
出処理により、画像データから横方向の冒頭部の文字列
が抽出され、第2の文字認識処理によって、この文字列
を構成する複数の文字が切り出されて認識される。更
に、第2の単語検索処理により、単語辞書が参照されて
認識された複数の文字による単語が検索される。そし
て、縦横判定処理により、第1及び第2の単語検索処理
の処理結果に基づいて、文書に記載された文字列の方向
が縦書きであるか横書きかであるかの判定が行われる。
【0008】
【発明の実施の形態】図2は、本発明の実施形態の文字
列方向判別方法で用いられる文書読取装置の構成図であ
る。この文書読取装置は、スキャナ1、画像メモリ2、
文字辞書ファイル3、単語辞書ファイル4、ディスプレ
イ5、キーボード6、出力ファイル7、中央演算処理部
(以下、「CPU」という)8、記憶部9、及びこれら
を共通に接続するためのシステムバス10を備えてい
る。
【0009】スキャナ1は、文書上に記載された文字等
を画素に分解して光学的に読み取り、これを電気信号に
変換して白黒に対応する2値の画像データを生成するも
のである。画像メモリ2は、スキャナ1で得られた画像
データを認識処理のために、文書イメージの形態で記憶
するものである。文字辞書ファイル3は、読み取った文
字単位の画像データに基づいて、それがどの文字に対応
するかを判定するための特徴データを登録したものであ
る。単語辞書ファイル4は、それぞれ意味を持つ複数の
文字の集合を単語として登録したものである。ディスプ
レイ5は、読み取った画像データや文字に変換された認
識結果等を、確認や修正のために表示するものである。
キーボード6は、認識結果の修正等を行うための入力装
置である。出力ファイル7は、得られた認識結果を出力
するためのものである。また、CPU8は、記憶部9に
格納された処理プログラムに基づいて、文書を読み取っ
て文字を認識して出力ファイル7に出力するとともに、
この文書読取装置全体の制御を行うものである。
【0010】次に、動作を説明する。図3は、図2の文
書読取装置の概略の動作を示すフローチャートである。
まず、読み取り対象の文書をスキャナ1にセットし、読
取処理を開始する。ステップS10の画像入力処理にお
いて、文書上に記載された文字等は、スキャナ1によっ
て画素に分解されて光学的に読み取られる。光の強弱信
号は、スキャナ1の光−電気変換機能によって電気信号
に変換され、画素の白黒に対応する2値の画像データが
生成される。画像データは、CPU8の制御に従って、
文書イメージの形態で画像メモリ2に記憶される。文書
全体の画像データが読み取られて画像メモリ2に記憶さ
れた後、ステップS20へ進む。
【0011】ステップS20の第1の縦横判定処理にお
いて、文書中の文字が縦書きであるか横書きであるかの
判定が、例えば次のように行われる。まず、画像メモリ
2内の文書イメージを横方向の各行毎にスキャンし、黒
画素の出現回数をカウントして横方向ヒストグラムを生
成する。同様に、文書イメージを縦方向の各列毎にスキ
ャンして、縦方向ヒストグラムを生成する。次に、横方
向ヒストグラム中で黒画素の割合が一定数以下の領域を
行間領域と見なして、その行間の寸法を算出する。同様
に、縦方向ヒストグラム中で黒画素の割合が一定数以下
の領域を列間領域と見なして、その列間の寸法を算出す
る。そして、予め定めた所定の基準に基づいて、行間の
寸法が列間の寸法よりも大きいと判断されたときには横
書き、列間の寸法が行間の寸法よりも大きいと判断され
たときには縦書きと判定される。
【0012】ステップS20において、横書きまたは縦
書きの判定が行われたときには、ステップS40へ進
む。一方、ステップS20で有効な判定ができないとき
には、次のステップS30へ進む。ステップS30の第
2の縦横判定処理において、後述の方法により、文書中
の文字が縦書きであるか横書きであるかの判定が再度行
われる。ステップS30によって縦書き/横書きの判定
が行われた後、ステップS40へ進む。ステップS40
の文字認識処理において、ステップS20またはS30
で判定された縦書き/横書きの判定結果に従って、画像
メモリ2内の画像データから文書を構成する文字のイメ
ージデータが順次切り出される。切り出された文字のイ
メージデータは、文字辞書ファイル3を参照して文字認
識され、認識結果が出力ファイル7に格納される。画像
メモリ2内の画像データ中のすべての文字認識が行わ
れ、その認識結果が出力ファイル7に格納された後、ス
テップS50へ進む。
【0013】ステップS50の認識結果修正処理におい
て、出力ファイル7に格納された認識結果と、画像メモ
リ2内の文書イメージとがディスプレイ5に表示され
る。オペレータは、ディスプレイ5の表示によって認識
結果を確認し、必要に応じてキーボード6を用いてその
認識結果の修正を行うことができる。キーボード6から
修正が行われたときには、出力ファイル7内の認識結果
は、修正された認識結果に書き替えられる。ステップS
50において、すべての認識結果に対する確認が完了す
ると、この読み取り対象の文書の読取処理は終了する。
【0014】図1は、本発明の実施形態を示す文字列方
向判別方法のフローチャートであり、図3中のステップ
S30の詳細を示すものである。また、図4は、図1の
文字列方向判別方法の一例を示す説明図である。図1の
ステップS31において、文書が縦書きであると仮定し
た場合の、冒頭部の文字列抽出処理が行われる。例えば
図4に示すように、画像メモリ2内の文書イメージか
ら、最右行上端から冒頭部Aの文字列「高瀬舟は京都の
高瀬川を・・・」の画像データが抽出される。ステップ
S32の文字認識処理において、冒頭部Aの文字列「高
瀬舟は京都の高瀬川を・・・」の画像データから更に個
々の文字が切り出され、文字辞書ファイル3を参照して
文字認識が行われる。これにより、冒頭部Aの文字情報
「高瀬舟は京都の高瀬川を・・・」が得られる。
【0015】ステップS33の単語検索処理(例えば、
スペルチェック)において、単語辞書ファイル4を用い
て、文字情報「高瀬舟は京都の高瀬川を・・・」のスペ
ルチェックが行われる。スペルチェックでは、まず、先
頭の2文字「高瀬」に対応する単語が、単語辞書ファイ
ル4に存在するか否かがチェックされる。存在すれば、
更に先頭の3文字「高瀬川」に対応する単語が存在する
か否かがチェックされる。そして、「高瀬川」が存在
し、かつ、これよりも長い単語が存在しなければ、チェ
ック結果は3となる。ステップS34において、文書が
横書きであると仮定した場合の、冒頭部の文字列抽出処
理が行われる。この場合、図4に示すように、最上行左
端から冒頭部Bの文字列「残情り違なよて科 見こを・
・・」の画像データが抽出される。
【0016】ステップS35の文字認識処理において、
冒頭部Bの文字列「残情り違なよて科 見こを・・・」
の画像データから更に個々の文字が切り出され、文字辞
書ファイル3を参照して文字認識が行われる。これによ
り、冒頭部Bの文字情報「残情り違なよて科 見こを・
・・」が得られる。ステップS36の単語検索処理(例
えば、スペルチェック)において、文字情報「残情り違
なよて科 見こを・・・」のスペルチェックが行われ
る。このスペルチェックでは、まず、先頭の2文字「残
情」に対応する単語が、単語辞書ファイル4に存在する
か否かがチェックされる。この場合、存在しないので、
チェック結果は0となる。ステップS37の縦横判定処
理において、ステップS33,S36のチェック結果の
比較により、縦書き/横書きの判定が行われる。この場
合、ステップS33のチェック結果は3であり、ステッ
プS36のチェック結果(即ち、0)よりも大きいの
で、縦書きと判定される。
【0017】このように、本実施形態の文字列方向判別
方法は、単語辞書ファイル4を参照して文字列中の単語
のスペルをチェックするステップS33,36を有して
いる。これにより、有効な単語が存在する方向の文字列
を検出することができるので、文字列の方向を正確に判
定することができるという利点がある。なお、本発明
は、上記実施形態に限定されず、種々の変形が可能であ
る。この変形例としては、例えば、次の(a)〜(c)
のようなものがある。 (a) ステップS20の第1の縦横判定処理は、実施
形態で説明した方法に限定されず、どのような判定方法
を用いても良い。また、このステップS20を省略し
て、直ちにステップS30の第2の縦横判定処理を行う
ようにしても良い。 (b) 文字以外の図形や写真を含む文書を対象とする
こともできる。その場合、縦横の判定の不可能な領域
は、図形や写真の領域と見なして文字認識処理を行わな
いようにすれば良い。 (c) ステップS33,S36のスペルチェックは、
実施形態で説明した方法に限定されない。例えば構文解
析により、「て」「に」「を」「は」等の助詞を区切り
符号として単数または複数の単語を抽出し、その抽出し
た単語が単語辞書ファイル4に存在するか否かをチェッ
クするような方法等を用いても良い。
【0018】
【発明の効果】以上詳細に説明したように、本発明によ
れば、それぞれ縦方向及び横方向に連続した文字列を認
識し、単語辞書に登録された単語であるか否かを検索す
る第1及び第2の単語検索処理と、これらの単語検索処
理の検索結果に基づいて文字列の方向を判別する判別処
理とを行っている。これにより、文書の内容に基づいて
文字列の方向を判別することができるので、確実な判定
結果を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施形態を示す文字列方向判別方法の
フローチャートである。
【図2】本発明の実施形態の文字列方向判別方法で用い
られる文書読取装置の構成図である。
【図3】図2の文書読取装置の概略の動作を示すフロー
チャートである。
【図4】図1の文字列方向判別方法の一例を示す説明図
である。
【符号の説明】
1 スキャナ 2 画像メモリ 3 文字辞書ファイル 4 単語辞書ファイル 8 CPU 9 記憶部 S31 縦方向の冒頭部の文字列抽出処理のステップ S32,S35 文字認識処理のステップ S33,S36 スペルチェックのステップ S34 横方向の冒頭部の文字列抽出処理のステップ S37 縦横判定のステップ

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 文字列が記載された文書を画素に分解し
    て画像データとして読み取る画像読取処理と、 前記文書の文字列が縦書きであると仮定して、前記画像
    読取処理で読み取られた画像データから縦方向の冒頭部
    の文字列を抽出する第1の文字列抽出処理と、 前記第1の文字列抽出処理で抽出された文字列から、こ
    の文字列を構成する複数の文字を切り出して認識する第
    1の文字認識処理と、 前記第1の文字認識処理で認識された複数の文字でつづ
    られる単語を、単語辞書を参照して検索する第1の単語
    検索処理と、 前記文書の文字列が横書きであると仮定して、前記画像
    読取処理で読み取られた画像データから横方向の冒頭部
    の文字列を抽出する第2の文字列抽出処理と、 前記第2の文字列抽出処理で抽出された文字列から、こ
    の文字列を構成する複数の文字を切り出して認識する第
    2の文字認識処理と、 前記第2の文字認識処理で認識された複数の文字でつづ
    られる単語を、前記単語辞書を参照して検索する第2の
    単語検索処理と、 前記第1及び第2の単語検索処理の検索結果に基づい
    て、前記文書に記載された文字列の方向が縦書きか横書
    きかを判定する縦横判定処理とを、 行うことを特徴とする文字列方向判別方法。
JP10182405A 1998-06-29 1998-06-29 文字列方向判別方法 Withdrawn JP2000020638A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10182405A JP2000020638A (ja) 1998-06-29 1998-06-29 文字列方向判別方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10182405A JP2000020638A (ja) 1998-06-29 1998-06-29 文字列方向判別方法

Publications (1)

Publication Number Publication Date
JP2000020638A true JP2000020638A (ja) 2000-01-21

Family

ID=16117739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10182405A Withdrawn JP2000020638A (ja) 1998-06-29 1998-06-29 文字列方向判別方法

Country Status (1)

Country Link
JP (1) JP2000020638A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456317C (zh) * 2005-12-16 2009-01-28 富士通株式会社 行方向判定方法以及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100456317C (zh) * 2005-12-16 2009-01-28 富士通株式会社 行方向判定方法以及装置

Similar Documents

Publication Publication Date Title
JP3139521B2 (ja) 自動言語決定装置
KR100247970B1 (ko) 문서 영상의 방향 교정방법
JP2002015280A (ja) 画像認識装置、画像認識方法および画像認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2000020638A (ja) 文字列方向判別方法
JP3171626B2 (ja) 文字認識の処理領域・処理条件指定方法
JP3086653B2 (ja) 文字認識方法及び文字認識装置
JPH0291789A (ja) 文字認識方法
JP3466894B2 (ja) 楽譜認識方法及びその装置並びに楽譜認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JPH02210586A (ja) 表領域分離装置および表領域分離方法
JP2001236467A (ja) パターン認識方法、装置、およびパターン認識プログラムを記録した記録媒体
JP3052438B2 (ja) 表認識装置
JP3060248B2 (ja) 表認識装置
JP2703559B2 (ja) 文字認識支援装置
JPH0728935A (ja) 文書画像処理装置
JP3269889B2 (ja) 光学式文字読取システム
JP3486246B2 (ja) 文字認識装置
JPS63143684A (ja) 文字認識装置における認識結果修正方法
JP2887823B2 (ja) 文書認識装置
JPH06150056A (ja) 表認識装置
JPH06139277A (ja) 電子辞書装置
JP3064508B2 (ja) 文書認識装置
JPH06119484A (ja) 文字認識装置
JPS59132031A (ja) 文字入力装置
JP2917394B2 (ja) 文字認識装置及び文字切り出し方法
JPH06309503A (ja) 英文字認識装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20050906