JP2008191703A - 記号化装置、データ検索装置、画像処理装置、データ検索システム、画像処理システム、記号化方法、データ検索方法、画像処理方法、及びプログラム - Google Patents

記号化装置、データ検索装置、画像処理装置、データ検索システム、画像処理システム、記号化方法、データ検索方法、画像処理方法、及びプログラム Download PDF

Info

Publication number
JP2008191703A
JP2008191703A JP2007022108A JP2007022108A JP2008191703A JP 2008191703 A JP2008191703 A JP 2008191703A JP 2007022108 A JP2007022108 A JP 2007022108A JP 2007022108 A JP2007022108 A JP 2007022108A JP 2008191703 A JP2008191703 A JP 2008191703A
Authority
JP
Japan
Prior art keywords
data
string data
image
symbol string
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007022108A
Other languages
English (en)
Other versions
JP4851353B2 (ja
Inventor
Hideo Ito
秀夫 伊東
Yoshihisa Oguro
慶久 大黒
Eiki Jo
盈輝 徐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2007022108A priority Critical patent/JP4851353B2/ja
Priority to US12/010,351 priority patent/US8406536B2/en
Priority to CN2008100092116A priority patent/CN101236561B/zh
Publication of JP2008191703A publication Critical patent/JP2008191703A/ja
Application granted granted Critical
Publication of JP4851353B2 publication Critical patent/JP4851353B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storing Facsimile Image Data (AREA)

Abstract

【課題】近傍に位置する要素との相関関係に応じた記号を付与する記号化装置、データ検索装置、画像処理装置、データ検索システム、画像処理システム、記号化方法、データ検索方法、画像処理方法、及びプログラムを提供する。
【解決手段】記号列データ生成部405は、数値列データの各要素を記号化するとき、記号化する注目要素と該注目要素近傍の要素との大小関係に基づいて記号を付与して記号列データを生成し、画像ファイル制御部403は、記号列データを登録情報としてデータと関連付けて記憶部404に記憶し、データを検索するとき、数値列データ抽出部401及び記号列データ生成部405は画像データから記号列データを生成し、画像検索部402は該記号列データを検索情報として記憶部404に記憶されているデータの中から同じ登録情報を有するデータを検索する。
【選択図】 図2

Description

本発明は、入力されたデータを記号化する記号化装置、及び記号化方法、該記号化装置によって記号化されたデータに基づいてデータを検索するデータ検索装置、画像処理装置、データ検索システム、画像処理システム、データ検索方法、画像処理方法、及びプログラムに関する。
データ検索装置においては、画像ファイル等のデータが入力されると、該データを記号化し、データと記号列されたデータとを関連付けて記憶させ、また、記憶されているデータを検索するときには、所望のデータのタイトルやキーワードを指定し、指定されたタイトルやキーワードを記号化し、記号化されたタイトルやキーワードを基にデータを検索し、出力していた。
例えば、特許文献1には、原稿から読み取った画像データを画像ファイルとして保存すると共に、保存してある画像ファイルの中から所望の画像ファイルを検索して出力する技術が開示されている。この特許文献1に開示されている技術は、画像データから文章領域内の文字矩形の幅と高さの比率を原稿の特徴として抽出し、その比率を予め設定されたしきい値を基にコード化し、各矩形にコードを書き込み、このときのコードを登録キー情報として画像ファイルと対応付けて管理し、画像ファイルの検索時に使用するものである。
また、画像データに含まれる文字領域の特徴として射影ヒストグラムを生成し、該射影ヒストグラムを正規化し、正規化した射影ヒストグラムの各位置の黒画素数に基づいて記号を付与し、このときの記号化された射影ヒストグラムを画像データと対応付けて管理し、画像データの検索時に使用する技術も開示されている。
特開平9−270902号公報
しかしながら、特許文献1に開示されている技術によれば、抽出された各矩形に対して個々に比率が算出され、算出された比率に基づいて矩形ごとにコードが付与されるため、同一内容の文章を読み取って抽出した矩形であっても、拡大や縮小により縦横の倍率が異なる文書に含まれる文字に対しては異なるコードが付与される。したがって、同一内容の文書を含む画像データであっても縦横の倍率が異なる場合は(図27に示す)、当該画像データに付与されたコードを用いて、登録された画像データを検索することができなかった。
また、記号化された射影ヒストグラムを画像データと対応付けて管理する技術は、射影ヒストグラムの各位置に対応する黒画素数に基づいて記号を付与するため、該画像データを横方向へのみ拡大した場合、射影ヒストグラムの各位置に対応する黒画素数も変化し、同一内容の画像データであるにも係らず、付与される記号が変わってしまうという問題がある。
本発明は、上記に鑑みてなされたものであって、整数又は浮動小数を要素とするデータ列(以下、数値列データとする)の各要素に、その近傍に位置する要素との相関関係に応じた記号を付与して有限個の種類からなる記号を要素とするデータ列(以下、記号列データとする)を生成し、データを記号列データとを関連付けて管理することにより、例えば、相似する波形データを表す数値列データを同一の記号列データを付与することができる記号化装置、記号化方法、及びプログラムを提供することを目的とする。
また、本発明は、入力された数値列データの各要素に、その近傍に位置する要素との相関関係に応じた記号を付与することにより、例えば、記号が付与されて管理される画像データを、該画像データと横方向への倍率が異なる画像データに基づいて検索し、出力することができるデータ検索装置、画像処理装置、データ検索システム、画像処理システム、データ検索方法、画像処理方法、及びプログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するために、請求項1記載の発明は、数値列データを入力するデータ入力手段と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、を備えたことを特徴とする。
また、請求項2記載の発明は、数値列データを入力するデータ入力手段と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、前記記号列データを登録情報として前記数値列データと関連付けて記憶する記憶手段と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する検索手段と、を備えたことを特徴とする。
また、請求項3記載の発明は、画像データを入力する画像データ入力手段と、前記画像データから数値列データを抽出する数値列データ抽出手段と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、前記記号列データを登録情報として前記画像データと関連付けて記憶する記憶手段と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する検索手段と、を備えたことを特徴とする。
また、請求項4記載の発明は、請求項3記載の画像処理装置において、前記数値列データ抽出手段は、前記画像データが入力されたとき、該画像データから文章領域内の各文字矩形の幅と高さの比率を算出して前記数値列データを抽出することを特徴とする。
また、請求項5記載の発明は、請求項4記載の画像処理装置において、前記数値列データ抽出手段は、前記画像データから文字矩形を抽出し、隣接する該文字矩形を統合し、統合した文字矩形の幅と高さの比率を算出して前記数値列データを抽出することを特徴とする。
また、請求項6記載の発明は、請求項5記載の画像処理装置において、前記数値列データ抽出手段は、矩形の大きさが予め定められた範囲内の場合、その部分が文字矩形であると判断することを特徴とする。
また、請求項7記載の発明は、請求項6記載の画像処理装置において、前記数値列データ抽出手段は、前記画像データから行を抽出し、隣接する行を統合して文章領域と判断し、該文章領域内の各文字矩形の幅と高さの比率から前記数値列データを抽出することを特徴とする。
また、請求項8記載の発明は、請求項3記載の画像処理装置において、前記数値列データ抽出手段は、前記画像データが入力されたとき、該画像データの各領域の射影ヒストグラムを算出し、該射影ヒストグラムから前記数値列データを抽出することを特徴とする。
また、請求項9記載の発明は、請求項8記載の画像処理装置において、前記数値列データ抽出手段は、文章領域の射影ヒストグラムを算出するとき、文章領域内の行毎に射影ヒストグラムを算出することを特徴とする。
また、請求項10記載の発明は、請求項3から9のいずれか1項記載の画像処理装置において、前記検索手段は、前記検索情報として利用する前記記号列データの右側又は左側から順にN要素ずつ取り出した複数の検索キーを取得し、該検索キーを多く含む前記登録情報を有する前記画像データを検索することを特徴とする。
また、請求項11記載の発明は、数値列データを入力するデータ入力手段と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、を備えた情報処理装置と、前記記号列データを登録情報として前記数値列データと関連付けて記憶する記憶手段と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する検索手段と、を備えたサーバと、がネットワークで接続されたことを特徴とする。
また、請求項12記載の発明は、画像データを入力する画像データ入力手段と、前記画像データから数値列データを抽出する数値列データ抽出手段と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、を備えた画像処理装置と、前記記号列データを登録情報として前記画像データと関連付けて記憶する記憶手段と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する検索手段と、と、を備えたサーバと、がネットワークで接続されたことを特徴とする。
また、請求項13記載の発明は、数値列データを入力するデータ入力ステップと、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成ステップと、を有することを特徴とする。
また、請求項14記載の発明は、数値列データを入力するデータ入力ステップと、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成ステップと、前記記号列データを登録情報として前記数値列データと関連付けて記憶する記憶ステップと、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する検索ステップと、を有することを特徴とする。
また、請求項15記載の発明は、画像データを入力する画像データ入力ステップと、前記画像データから数値列データを抽出する数値列データ抽出ステップと、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成ステップと、前記記号列データを登録情報として前記画像データと関連付けて記憶する記憶ステップと、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する検索ステップと、を有することを特徴とする。
また、請求項16記載の発明は、請求項15記載の画像処理方法において、前記数値列データ抽出ステップは、前記画像データが入力されたとき、該画像データから文章領域内の各文字矩形の幅と高さの比率を算出して前記数値列データを抽出することを特徴とする。
また、請求項17記載の発明は、請求項15記載の画像処理方法において、前記数値列データ抽出ステップは、前記画像データが入力されたとき、該画像データの各領域の射影ヒストグラムを算出し、該射影ヒストグラムから前記数値列データを抽出することを特徴とする。
また、請求項18記載の発明は、データ入力手段から数値列データを入力する機能と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する機能と、をコンピュータに実行させることを特徴とする。
また、請求項19記載の発明は、データ入力手段から数値列データを入力する機能と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する機能と、前記記号列データを登録情報として前記数値列データと関連付けて記憶手段に記憶する機能と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する機能と、をコンピュータに実行させることを特徴とする。
また、請求項20記載の発明は、画像データ入力手段から画像データを入力する機能と、前記画像データから数値列データを抽出する機能と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する機能と、前記記号列データを登録情報として前記画像データと関連付けて記憶手段に記憶する機能と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する機能と、をコンピュータに実行させることを特徴とする。
本発明によれば、抽出された各矩形に対して個々に比率が算出され、算出された比率から数値列データを生成し、数値列データを構成する各要素の近傍に位置する要素との大小関係に応じて各要素を記号化して記号列データを生成し、該記号列データを登録キー情報として登録または該記号列データを検索キー情報として画像ファイルの検索時に使用するため、数値列データを構成する各要素が近傍に位置する要素との大小関係を維持したままその値が変化しても、各要素の近傍に位置する要素との大小関係に基づいて記号化される上記の構成によれば、要素の値の変化に係らず同一の記号列データに変換されるため、例えば、株価チャートをその期間を変えて分析する際に、比較する期間における株価が異なる場合であっても、記号列データに変換して比較することにより、その傾向を把握することができるという効果を奏する。
また、本発明によれば、画像データに含まれる文字領域、図領域、表領域等、各領域について射影ヒストグラムを算出し、算出された射影ヒストグラムから数値列データを生成し、数値列データを構成する各要素の近傍に位置する要素との大小関係に応じて各要素を記号化して記号列データを生成し、該記号列データを登録キー情報として登録または該記号列データを検索キー情報として画像ファイルの検索時に使用するため、文字領域、図領域、表領域等の領域の種類に係らず、同一内容であれば縦横の倍率が異なる画像データに含まれる領域文書に対しても同様の記号列データを付与できるため、登録されている画像データと縦横の倍率が異なる画像データからでも、同一内容を有する画像データを検索することができるという効果を奏する。
以下に添付図面を参照して、この発明にかかる記号化装置を有する画像処理装置をデジタル複写機に適用した場合の例として、第1の実施の形態から順に、図面を参照して詳細に説明する。
<第1の実施の形態>
図1は、第1の実施の形態のデジタル複写機の構成を示す。第1の実施の形態のデジタル複写機は、大きく分けて上部の画像読取部100と、その下に配置された画像形成部200とで構成されている。
まず、デジタル複写機の基本的な構成および動作について説明する。イメージ・スキャナ100は、最上位部に原稿を載置するコンタクトガラス(図示せず)が配置されており、その下方に光学走査系が設けられている。コンタクトガラスに載置された原稿は、光学走査系の露光ランプ1によって露光され、露光した際の反射光(すなわち、画像光)が光学走査系に備わった各種ミラーおよびレンズ2を通って受光部3に結像される。この受光部3にはカラーCCDイメージセンサが設けられている。
また、光学走査系が機械的な駆動系(図示せず)によって図面の左右方向に駆動されるので、原稿面の各部を露光することによって得られる画像光は、走査方向1ライン毎に、順次、カラーCCDイメージセンサにて画像データとして読み取られる。
カラーCCDイメージセンサによって読み取られた画像データは、後述する処理によって出力画像に変換され、画像形成部200の書き込み装置4から出力されるレーザ光を変調する。画像データによって変調されたレーザ光は、書き込み用の光学系を通って、感光体ドラム5の表面に結像される。このときの感光体ドラム5の表面は、あらかじめメインチャージャ6によって全面が均一に所定の高電位で帯電されており、画像光(レーザ光)の照射を受けると光強度に応じて電位が変化し、画像に対応する電位分布、すなわち、静電潜像が形成される。
感光体ドラム5に形成された静電潜像は、現像ユニット7を通過するときにトナーの吸着によって可視化され、トナー像が形成される。
一方、給紙カセット12または13のうち選択されたものから記録紙(図示せず)が繰り出され、その記録紙は感光体ドラム5上のトナー像の形成タイミングに同期して感光体ドラム5の表面に重なるように送り込まれる。続いて、感光体ドラム5上のトナー像は、転写チャージャ8の付勢により記録紙に転写される。さらに、トナー像が転写された記録紙は、分離チャージャ9の付勢によって感光体ドラム5から分離して定着ユニット14によって転写したトナー像が定着され、その後、記録紙は複写機の外に排出される。
画像の転写および記録紙の分離が終了した後、感光体ドラム5の表面は、クリーニングユニット10によってクリーニングされ、次の画像形成に備える。
次に、図2を参照して、第1の実施の形態のデジタル複写機のハードウェア構成について説明する。画像読取部100において、カラーCCDイメージセンサによって読み取られたビットマップ形式の原稿画像のアナログ信号(画像データ)は、A/D変換器(図示せず)によってデジタル信号に変換された後、シェーディング補正部(図示せず)によって濃度レベルのばらつきに関する補正を受け、メモリユニット300に画像が記憶される。
画像処理装置400は、入力された画像データから数値列データを抽出する数値列データ抽出部401、数値列データを記号化して記号列データを生成する記号列データ生成部、記号列データを登録キー情報として画像データとを関連付けて記憶する記憶部404、記号列データを検索キー情報として該記号列データと関連付けて登録されている画像データを記憶部404から検索する画像検索部402、及び画像処理装置全体の動作を制御する画像ファイル制御部403を備える。
メモリユニット300上に作成された出力画像の各画素は、白/黒に対応する二値情報の形で画像形成部200に印加される。
利用者からの指示は、デジタル複写機の上面に配置された操作部310からのキー入力によって実施される。メイン制御部320は、操作部310上の各種表示を制御するとともに、操作部310からのキー入力に基づいて、装置の各部を制御してコピー動作および画像ファイルの登録・検索等を実施する。
本実施の形態のデジタル複写機(画像ファイリング装置)は、画像ファイルの登録の際に、読み取った画像データから文章領域内の文字矩形の幅と高さの比率を原稿の特徴として抽出して記憶し、画像ファイルの検索の際に、読み取った画像データの原稿の特徴を抽出して検索情報として、該検索情報と一致する原稿の特徴を有する画像ファイルを、あらかじめ登録した画像ファイルの中から検索できるようにしたものである。
以上の構成において、(1)画像ファイルの登録処理、(2)画像ファイルの検索処理、(3)画像変換処理の具体的な動作の順で、その動作を説明する。
(1)画像ファイルの登録処理
図3は、本実施の形態の画像ファイルの登録処理のフローチャートを示し、まず、操作部310を介して原稿を読み取って画像ファイルとして登録する画像登録モードが指定されると、メイン制御部320は、画像読取部100で原稿の画像(画像データ)を読み取り、メモリユニット300に入力画像として記憶させる(ステップS301)。一方、画像ファイル制御部403はメイン制御部320から画像登録モードの通知を受け、数値列データ抽出部401でメモリユニット300中の入力画像(画像データ)から数値列データを抽出し(ステップS302)、続いて、記号列データ生成部405で抽出した数値列データから登録キー情報を生成し(ステップS303)、続いて、生成した登録キー情報とメモリユニット300の入力画像とを対応させて画像ファイル生成し、記憶部404に登録し(ステップS304)、処理を終了する。
(2)画像ファイルの検索処理
図4は、本実施の形態の画像ファイルの検索処理のフローチャートを示し、まず、操作部310を介して登録されている画像ファイルを検索する画像検索モードが指定されると、画像読取部100で原稿の画像を読み取り、メモリユニット300に入力画像として記憶させる(ステップS411)。次に、画像ファイル制御部403はメイン制御部320から画像登録モードの通知を受け、数値列データ抽出部401でメモリユニット300中の入力画像(画像データ)から数値列データを抽出し(ステップS412)、続いて、記号列データ生成部405で抽出した数値列データから検索キー情報を生成する(ステップS413)。画像検索部402は、生成された検索キー情報と一致する登録キー情報を有する画像ファイルを記憶部404から検索する(ステップS414)。画像ファイル制御部403が該当する画像ファイルを出力画像としてメモリユニット300に送出すると、メモリユニット300を介して画像形成部200に画像ファイルが送られ、記録紙に出力される(ステップS415)。
ここで、図4のステップS414において検索キー情報と一致する登録キー情報と関連付けて記憶される画像ファイルを記憶部404から検索する動作について具体的に説明する。なお、本実施の形態では、N-gram法を用いて2つの文字列間の類似性を判断する方法について説明する。
例えば、図4のステップS413において、検索キー情報として「DCAABC」が生成されると、左端から順に2要素ずつ取り出して、「DC」、「CA」、「AA」、「AB」、及び「BC」の5つの検索キーが生成される。次に、記憶部404に画像ファイルとともに記憶されている登録キー情報を呼び出し、上記5つの検索キーの出現回数をカウントする。このカウント値が高いほど、検索キー情報と登録キー情報は類似していると考えられるため、このカウント値が大きい登録キー情報と関連付けて記憶される画像ファイルを検索結果として出力する。
上記においては、記憶部404に記憶されている登録キー情報を順に取り出して、生成された検索キーの出現回数をカウントする構成としているが、数値列データの記号化に用いる記号から生成され得る順列の各登録キー情報における出現回数を予めカウントして記憶部404に記憶させておき、データ検索時の処理時間を短縮することも可能である。
(3)画像変換処理の具体的な動作
図5は、本実施の形態の画像変換処理のフローチャートである。まず、数値列データ抽出部401は、メモリユニット330から入力画像を入力し、入力画像(画像データ)中の、文書領域、写真領域、表領域などの領域抽出を行う(ステップS501)。次に、抽出した領域の位置、大きさ、種類などの属性抽出を行う(ステップS502)。
本実施の形態では、このようにして抽出した領域および属性を登録キー情報および検索キー情報として使用する。
図6は図5のステップS501の領域抽出処理のフローチャートを示す。また、図7〜図9は領域抽出処理の処理例を示す説明図である。まず、数値列データ抽出部401は,メモリユニット300から入力画像(画像データ)を入力し、画像データ中の繋がっている黒画像を包含する最小の長方形(以下、矩形と記す)を抽出する(ステップS601)。例えば、入力画像が図7(a)に示すような画像である場合、抽出した矩形は図7(b)のようになる。
次に、数値列データ抽出部401は、隣接する矩形を統合し、より大きな矩形を算出する(ステップS602)。ここで、矩形の大きさが、あらかじめ定められた範囲内の場合、その部分が文字であるか否かを判断し(ステップS603)、文字でないと判断した場合、ステップS2206に進み、文字であると判断した場合、前記の矩形の統合により、文字行を抽出する(ステップS604)。このときの行を抽出した結果を、図8(a)に示す。
さらに、隣接する行が、あらかじめ定められた範囲内にある場合、数値列データ抽出部401は、これらの隣接する行を統合し(ステップS605)、文字領域を抽出する(ステップS606)。この時の文字領域を抽出した結果を図8(b)に示す。また、図8(a)、(b)の網点部分は、文字以外の領域を示している。この領域の判定は、矩形のサイズや行抽出できなかった領域を判定することにより可能としている。
最後に、数値列データ抽出部401は、抽出した各領域の読み順を判定する(ステップS607)。これは、行方向が横(横書き)の場合には上から下、左から右に、行方向が縦(縦書き)の場合には上から下、右から左に領域を追っていくことにより可能である。この結果を図9に示す。
次に、図10を参照して、図5のステップS502の画像属性抽出について説明する。図10は、画像属性抽出処理のフローチャートである。まず、原稿画像の領域抽出の結果を、領域データ、領域種類の読み順にしたがって読み込む(ステップS1001〜S1002)。なお、ステップS1001〜S1002で得た原稿画像の領域抽出の結果の例を図11に示す。図11は、読み順毎の領域判定結果の例を示す図である。
次に、記号列データ生成部405は、ステップS1002で読み込んだ領域種類が文字領域であるか否かを判断し(ステップS1003)、文字領域でないと判断した場合、ステップS1001に戻る。
一方、ステップS1003において、文字領域と判断した場合、判断した領域の文字の数値列データを抽出し(ステップS1004:図12参照)、ステップS1001〜S1004が全ての領域について実施されると(ステップS1005)、各領域の数値列データから登録キー情報(または検索キー情報)を作成し(ステップS1006)、処理を終了する。この原稿画像の登録キー情報(または検索キー情報)を登録や検索に使用する。
次に、図12および図13を参照して、図10のステップS1006で示した各領域の文字から登録キー情報(または検索キー情報)を生成する処理について具体的に説明する。
このときの原稿画像の文字から登録キー情報(または検索キー情報)を生成する処理について、図13を参照して説明する。図13は、数値列データ生成部401及び記号列データ生成部405の登録キー情報(または検索キー情報)を生成する処理を示したフローチャートである。
まず、数値列データ生成部401は、図12(b)に示すような文字の行内の矩形数を領域抽出時の結果より読み込み(ステップS1301)、この矩形の幅、高さを読み込む(S1302)。
続いて、読み込んだ1つの矩形の幅と高さとの比率(本実施の形態では、幅/高さを比率として説明する)を計算する(ステップS1303)。次に、数値列データ生成部401は、ステップS1301〜S1303を全矩形に対して行う(ステップS1304)。
このとき、隣接する文字の矩形が、あらかじめ設定された距離以内にある(すなわち、距離が近い)か否かを判断し(ステップS1305)、距離が近い場合、それらを統合した後に比率を計算する(ステップS1306)。続いて、記号列データ生成部405は、1行分の比率からなる数値列データを記号化する(ステップS1307)。
なお、図12(c)は、隣接する文字矩形があらかじめ設定された距離以内にある場合、それらを統合した後、比率を計算している。この場合、文字矩形長は長くなるが、矩形数が少なくなるので、英語部分の多い場合はデータ量が少なくなる。以上を1領域内の全ての行に渡って処理し、記号を書き込む。図15に記号化されたデータ(記号列データ)の例を示す。なお、図15は、図12(c)に示す1行目の左から8個目までの矩形の比率を記号化したが、実際は全ての矩形の比率を記号化する。
続いて、数値列データ生成部401及び記号列データ生成部405は、ステップS1301〜S1307を全行に対して行い(S1308)、1領域分の数値列データの記号化を行って記号列データを生成し(S1309)、処理を終了する。なお、このときの記号列データを登録キー情報として登録し、画像ファイルの検索時に使用する。
次に、図14及び図15を参照して、図13のステップS1307で示した1行分の数値列データを記号化する処理について具体的に説明する。図14は、記号列データ生成部405により数値列データを記号化する処理を示したフローチャートである。
図13のステップS1306において1行分の全矩形の比率が算出され、算出された比率からなる数値列データが生成されると、記号列データ生成部405は、図16に示す変換表に基づいて数値列データを構成する各要素について左端から順に記号化する。ここでは、図15(a)に示す各行の矩形について、図15(b)に示す数値列データがステップS1306において算出されたものとする。
まず、数値列データから記号化する要素(以下、注目要素とする)、及び該要素の右側に隣接する2要素を抽出する(ステップS1401)。なお、数値列データの右端の要素には右側に隣接する要素がないため、右端の要素に隣接する2要素として、無限大の要素が抽出されたものとする。ここでは、隣接する要素が存在しない場合には無限大の要素が抽出されたものとしたが、無限小、ゼロ等の予め定められた値であってもよい。
注目要素、及び注目要素の右側に隣接する2要素が抽出されると、図16に示す変換表にしたがって注目要素と隣接する2要素との大小関係を比較する(ステップS1402)。続いて、注目要素と隣接する2要素との大小関係を図16に示す変換表と対応させて、注目要素に記号が割り当てられる(ステップS1403)。
なお、本実施の形態では、注目要素の右側に隣接する要素を抽出して注目要素との大小関係を比較したが、注目要素の左側に隣接する要素又は左右に隣接する要素を抽出して注目要素との大小関係を比較してもよい。また、抽出する要素の数Nを増やし、2のN乗個の種類の記号を割り当てる変換表を用いて各要素を記号化してもよい。さらに、注目要素との大小関係の比較結果Xを「より大きい」、「同じ」、及び「より小さい」の3つにし、Xの3乗個の種類の記号を割り当てる変換表を用いて各要素を記号化してもよい。
例えば、図15(b)に示す数値列データの左端の要素(0.9)を記号化するときは、該要素の右側に隣接する0.8(以下、第1要素とする)及び0.8(以下、第2要素とする)が抽出され、注目要素(0.9)と、第1要素(0.8)及び第2要素(0.8)との大小関係を比較する。注目要素(0.9)は、第1要素(0.8)未満であり、かつ第2要素(0.8)未満であるため、図16に示す変換表に基づいて注目要素(0.9)には記号Dが割り当てられる。
続いて、記号列データ生成部405は、ステップS1401〜S1403を全要素に対して行い(S1404)、全要素を記号化して生成された図15(c)に示す記号列データを出力する(ステップS1405)。
上記の構成によれば、抽出された各矩形に対して個々に比率が算出され、算出された比率から数値列データを生成し、数値列データを構成する各要素の近傍に位置する要素との大小関係に応じて各要素を記号化して記号列データを生成し、該記号列データを登録キー情報として登録または該記号列データを検索キー情報として画像ファイルの検索時に使用することにより、例えば、同一内容であるが、縦横の倍率が異なる文書に対しても同様の記号列データを付与することができるため、登録されている画像データと縦横の倍率が異なる画像データからでも、同一内容を有する画像データを検索することができる。
なお、上記構成においては、デジタル複写機に画像データを入力し、該画像データから数値列データを抽出し、該数値列データに基づいて記号列データを生成しているが、これに限定されるものではない。例えば、株価チャートやプラントの管理データ等、既に数値化されているデータを記号化する場合は、数値列データを情報処理装置などの記号化装置に入力して記号化してもよい。つまり、本実施の形態によれば、数値列データを構成する各要素が近傍に位置する要素との大小関係を維持したままその値が変化しても、各要素の近傍に位置する要素との大小関係に基づいて記号化され、要素の値の変化に係らず同一の記号列データに変換されるため、例えば、株価チャートをその期間を変えて分析する際に、比較する期間における株価が異なる場合であっても、記号列データに変換して比較することにより、その傾向を把握することができる。
<第2の実施の形態>
第2の実施の形態のデジタル複写機は、第1の実施の形態のデジタル複写機と同様の構成において、画像ファイルの登録の際に、読み取った画像データの文書領域、写真領域、表領域などの射影ヒストグラムから数値列データを抽出し、該数値列データを記号化し、画像データと記号列データからなる画像ファイルを登録し、画像ファイルの検索の際に、読み取った画像データについて同様に生成した記号列データを基に検索を実行することにより、画像データの縦横の倍率に係らず同一内容の文書領域、写真領域、表領域などを有する画像データを検索するものである。
なお、(1)画像ファイルの登録処理、(2)画像ファイルの検索処理、及び(3)画像変換処理の具体的な動作の図5〜9に示す処理は、第1の実施の形態と同様であるため、説明を省略する。以下、(3)画像変換処理の具体的な動作について、第1の実施の形態と異なる特徴について説明する。
(3)画像変換処理の具体的な動作
次に、図17を参照して、図5のステップS502の画像属性抽出について説明する。図10は、画像属性抽出処理のフローチャートである。まず、原稿画像の領域抽出の結果を、領域データ、領域種類の読み順にしたがって読み込む(ステップS1701〜S1702)。なお、ステップS1701〜S1702で得た原稿画像の領域抽出の結果の例を図11に示す。図11は、読み順毎の領域判定結果の例を示す図である。
次に、数値列データ生成部401は、各領域の射影ヒストグラムを算出し、該射影ヒストグラムから数値列データを抽出する。(ステップS1703)。例えば、図18(a)に示すデータ形式の画像データが入力された場合、各セルは2値画像のピクセルに対応し、0のセルが白画素、1のセルが黒画素を示している。数値列データ生成部401は、入力された画像データの黒画素の総数を縦方向又は横方向にカウントし、そのカウント値により数値列データを抽出する。図18(a)に示す画像データの黒画素を縦方向にカウントした場合、以下の数値列データが抽出される。左から1番目の列:1、左から2番目の列:3、左から3番目の列:4、左から4番目の列:2、左から5番目の列:1がカウント値として計数され、それを左から順に並べて、図18(b)に示す数値列データ:13421を抽出した。
なお、上記説明においては、黒画素をカウントして数値列データを抽出したが、白画素をカウントして数値列データとすることもできる。また、図19に示すように、黒画素または白画素をカウントする方向は、横方向にカウントしてもよい。さらに、縦方向および横方向の両方にカウントし、1つの画像データから2つの数値列データを抽出してもよい。
図20に示すように、射影ヒストグラムは、原画像において、行方向と垂直方向に黒画素を計数したものであり、文字の形状が異なると射影ヒストグラムの波形も異なる。つまり、文字画像の特徴として射影ヒストグラムが利用可能であるといえる。文字画像としては、文字間の分割を前提としていないので、手書き文字、筆記体、アラビア文字など、一行に並ぶ言語であれば、言語種類を問わず射影ヒストグラムは作成可能である。
なお、射影ヒスグラムの値は黒画素数であるから、読取条件、ノイズ、かすれ等の影響により1画素単位で変化する。したがって、射影ヒストグラムの正確な値を用いて波形を照合することに意味はなく、およその値を利用してその波形を表現しても、文字画像などの特徴を表現することができる。そこで、本実施の形態においては、射影ヒスグラムの値を量子化し、量子化された射影ヒストグラムから数値列データを抽出した。射影ヒストグラムを量子化する処理については後述する。
数値列データ抽出部401は、ステップS1701〜S1703を全ての領域について実施し(ステップS1704)、記号列データ生成部405は各領域の数値列データから登録キー情報(または検索キー情報)を作成し(ステップS1705)、処理を終了する。この原稿画像の登録キー情報(または検索キー情報)を登録や検索に使用する。
次に、図17のステップS1703において射影ヒストグラムから数値列データを抽出する処理について具体的に説明する。先に述べたように、射影ヒスグラムの値を量子化し、量子化された射影ヒストグラムから数値列データを抽出する。
先に述べたように、射影ヒストグラムは黒画素数を集計したものであり、同じ原稿を読んでも読取条件が異なれば容易に変化するので、その正確な値を直接利用することに意味はない。波形の概形に基づいて判断するにあたっては、小さな変動は無視し、全体の大まかな形状で判断するために、小変動を平滑化して誤差を吸収する。
1次元の時系列波形の平滑化手段としては移動平均をとる方法がある。時系列の値(射影ヒストグラムでは黒画素数)をA0、A1、A2、A3、A4、A5...とした場合、移動平均幅が注目点の前後2点を対象とした5点であれば、以下のように計算される。
注目点A2:(A0+A1+A2+A3+A4)/5=移動平均値M2
注目点A3:(A1+A2+A3+A4+A5)/5=移動平均値M3
注目点A4:(A2+A3+A4+A5+A6)/5=移動平均値M4
以下、同様。
図21は、射影ヒストグラムを移動平均幅5点で平滑化した例である。原画像の射影ヒストグラムの波形の概形を維持しながら、平滑化されていることがわかる。さらに、この平滑化された波形の値を固定段階に量子化して数値列データを抽出する(図22に示す)。図22において水平方向の座標iの位置の射影ヒストグラムの値をyiとする。yiに関して、例えば、以下の基準に基づいて量子化すると、yiは5段階に変換される。
0≦yi<10・・・・第0段階
10≦yi<20・・・第1段階
20≦yi<30・・・第2段階
30≦yi<40・・・第3段階
40≦yi・・・・・・第4段階
図22において、左側の軸が量子化前の値であり、右側の軸が量子化後の値である。量子化後の波形が原波形の外形を表現していることがわかる。
図23は、移動平均幅の異なる平滑化を実施した波形と原波形である。移動平均幅が広くなるほど、小変動が平滑化されていることがわかる。平滑化されるほど、読取条件の違いによる黒画素数変動に影響を受けにくくなるが、原波形の特徴が消えていく傾向にある。原波形の特徴が消えるということは、類似しているものと類似していないものとを弁別する特徴が弱くなり、画像照合においては精度が低下する。移動平均幅は、原波形の複雑さ、および弁別対象集合の複雑さ(本質的に似ている画像がどれだけ含有されているか)に応じて決められるべきであり、予め固定値に設定しておくことができない。よって、移動平均幅を検索対象に応じて変更可能であるようにしておき、利用者が調整可能とする。
次に、平滑化された射影ヒストグラムを標本化して数値列データを構成する要素数を減じる処理について図24を用いて説明する。
射影ヒストグラムから抽出される数値列データが長く、該数値列データに基づいて生成される記号列データも長いと、画像データを検索する際に記号列データからなる登録キー情報と検索キー情報との照合処理に時間がかかる。
そこで、射影ヒストグラムの水平方向について標本化処理をして数値列データを抽出することにより、該数値列データから生成される記号列データ長も短くすることができる。図24(a)は射影ヒストグラムを移動平均幅9点で平滑化した図であり、図24(b)は移動平均幅9点で平滑化した射影ヒストグラムの波形を1/5に標本化した図である。標本化処理は、射影ヒストグラムの水平方向について予め定められた間隔(以下、標本間隔とする)ごとに代表値を1点だけ求める。例えば、標本間隔の範囲のうち1点をランダムに選択してもよいし、標本間隔の中央に相当する値を選択してもよい。図24に示すように、標本化処理を施した後の波形に原波形の特徴が維持されていることがわかる。しかし、標本間隔を適切に設定しないと、原波形の特徴が失われてしまう場合があるため、標本間隔は利用者により調整可能とする。
次に、図25を参照して、図17のステップS1705で示した各領域の文字から登録キー情報(または検索キー情報)を生成する処理について具体的に説明する。
画像データの各領域から抽出した数値列データから登録キー情報(または検索キー情報)を生成する処理について、図25を参照して説明する。図25は、記号列データ生成部405の登録キー情報(または検索キー情報)を生成する処理を示したフローチャートである。
まず、記号列データ生成部405は、図17のステップS1702で読み込まれた領域種類に基づいて記号化する領域が文字領域であるか否かを判断し(ステップS2501)、文字領域である場合、該領域の1行分の数値列データを読み込む(ステップS2502)。
続いて、読み込んだ数値列データを記号化する(ステップS2503)。次に、記号列データ生成部405は、ステップS2502及びステップS2503を全行に対して行う(ステップS2504)。
一方、記号化する領域が文字領域でない場合、該領域の数値列データを読み込み(ステップS2506)、読み込んだ数値列データを記号化して記号列データを生成する(ステップS2507)。なお、図18(c)は、図18(b)に示す数値列データを記号化して生成した記号列データである。
1領域分の記号化が終了すると、処理を終了する。なお、このときの記号列データを登録キー情報として登録し、画像ファイルの検索時に使用する。
なお、数値列データを記号化する処理は、第1の実施の形態において図14〜図16を用いて説明した処理と同様であるため、ここでは説明を省略する。
上記の構成によれば、画像データに含まれる文字領域、図領域、表領域等、各領域について射影ヒストグラムを算出し、算出された射影ヒストグラムから数値列データを生成し、数値列データを構成する各要素の近傍に位置する要素との大小関係に応じて各要素を記号化して記号列データを生成し、該記号列データを登録キー情報として登録または該記号列データを検索キー情報として画像ファイルの検索時に使用することにより、例えば、文字領域、図領域、表領域等の領域の種類に係らず、同一内容であれば縦横の倍率が異なる画像データに含まれる領域文書に対しても同様の記号列データを付与できるため、登録されている画像データと縦横の倍率が異なる画像データからでも、同一内容を有する画像データを検索することができる。
<第3の実施の形態>
第1及び第2の実施の形態では、画像処理装置400のすべての構成を1つのデジタル複写機内に実装する構成としたが、図25に示すように、ネットワークにより接続されているサーバに画像検索部402及び記憶部404を設置し、クライアントが操作するデジタル複写機等に数値列データ抽出部401、画像ファイル制御部403、及び記号列データ生成部405を設置して、ネットワークを介して画像ファイルの検索をサーバに対して要求する構成としてもよい。なお、各部の構成及び動作については、上述の実施の形態と同様である。
第1から第3の実施の形態のデジタル複写機は、上述した各部(数値列データ抽出部401、画像検索部402、記憶部404、画像ファイル制御部403、記号列データ抽出部405)を含むモジュール構成となっている。各モジュールは、CPU(プロセッサ)がROM等に予め組み込まれて提供されるプログラムを読み出して実行することにより主記憶装置上に生成されるようになっている。
また、上述した実施の形態のデジタル複写機で実行されるプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
さらに、上述した実施の形態のデジタル複写機で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。また、上述した実施の形態のデジタル複写機で実行される画像処理プログラムをインターネット等のネットワーク経由で提供または配布するように構成しても良い。
第1の実施の形態のデジタル複写機の構成を示す説明図である。 第1の実施の形態のデジタル複写機のハードウェア構成の図である。 第1の実施の形態の画像ファイルの登録処理のフローチャートである。 第1の実施の形態の画像ファイルの検索処理のフローチャートである。 第1の実施の形態の画像変換処理のフローチャートである。 第1の実施の形態の領域抽出処理のフローチャートである。 領域抽出の処理例を示した説明図である。 領域抽出の処理例を示した説明図である。 領域抽出の処理例を示した説明図である。 図5のステップS502の画像属性抽出のフローチャートである。 第1の実施の形態の読み順毎の領域判定結果の例を示す説明図である。 第1の実施の形態の画像変換処理の例を示した説明図である。 第1の実施の形態の画像変換処理の例を示したフローチャートである。 記号列データを生成する処理の例を示したフローチャートである。 記号列データを生成する処理例を示した説明図である。 注目要素に記号を付与する際の変換表である。 第2の実施の形態の領域抽出処理のフローチャートである。 第2の実施の形態の画像変換処理の例を示した説明図である。 横方向及び縦方向からカウントした射影ヒストグラムの例を示す説明図である。 原画像と射影ヒストグラムを示した説明図である。 移動平均を用いて平滑化した射影ヒストグラムの例を示す説明図である。 量子化した射影ヒストグラムの例を示す説明図である。 移動平均幅を変えて平滑化した射影ヒストグラムの例を示す説明図である。 標本化した射影ヒストグラムの例を示す説明図である。 第2の実施の形態の画像変換処理の例を示したフローチャートである。 第3の実施の形態のデータ検索システムのハードウェア構成の図である。 縦横の比率が異なる倍率で拡大された場合の射影ヒストグラムの例を示す説明図である。
符号の説明
100 画像読取部
200 画像形成部
300 メモリユニット
310 操作部
320 メイン制御部
400 画像検索装置
401 画像変換部
402 画像検索部
403 画像ファイル制御部
404 記憶部

Claims (20)

  1. 数値列データを入力するデータ入力手段と、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、
    を備えたことを特徴とする記号化装置。
  2. 数値列データを入力するデータ入力手段と、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、
    前記記号列データを登録情報として前記数値列データと関連付けて記憶する記憶手段と、
    前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する検索手段と、
    を備えたことを特徴とするデータ検索装置。
  3. 画像データを入力する画像データ入力手段と、
    前記画像データから数値列データを抽出する数値列データ抽出手段と、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、
    前記記号列データを登録情報として前記画像データと関連付けて記憶する記憶手段と、
    前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する検索手段と、
    を備えたことを特徴とする画像処理装置。
  4. 前記数値列データ抽出手段は、前記画像データが入力されたとき、該画像データから文章領域内の各文字矩形の幅と高さの比率を算出して前記数値列データを抽出することを特徴とする請求項3記載の画像処理装置。
  5. 前記数値列データ抽出手段は、前記画像データから文字矩形を抽出し、隣接する該文字矩形を統合し、統合した文字矩形の幅と高さの比率を算出して前記数値列データを抽出することを特徴とする請求項4記載の画像処理装置。
  6. 前記数値列データ抽出手段は、矩形の大きさが予め定められた範囲内の場合、その部分が文字矩形であると判断することを特徴とする請求項5記載の画像処理装置。
  7. 前記数値列データ抽出手段は、前記画像データから行を抽出し、隣接する行を統合して文章領域と判断し、該文章領域内の各文字矩形の幅と高さの比率から前記数値列データを抽出することを特徴とする請求項6記載の画像処理装置。
  8. 前記数値列データ抽出手段は、前記画像データが入力されたとき、該画像データの各領域の射影ヒストグラムを算出し、該射影ヒストグラムから前記数値列データを抽出することを特徴とする請求項3記載の画像処理装置。
  9. 前記数値列データ抽出手段は、文章領域の射影ヒストグラムを算出するとき、文章領域内の行毎に射影ヒストグラムを算出することを特徴とする請求項8記載の画像処理装置。
  10. 前記検索手段は、前記検索情報として利用する前記記号列データの右側又は左側から順にN要素ずつ取り出した複数の検索キーを取得し、該検索キーを多く含む前記登録情報を有する前記画像データを検索することを特徴とする請求項3から9のいずれか1項記載の画像処理装置。
  11. 数値列データを入力するデータ入力手段と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、を備えた情報処理装置と、
    前記記号列データを登録情報として前記数値列データと関連付けて記憶する記憶手段と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する検索手段と、を備えたサーバと、
    がネットワークで接続されたデータ検索システム。
  12. 画像データを入力する画像データ入力手段と、前記画像データから数値列データを抽出する数値列データ抽出手段と、前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成手段と、を備えた画像処理装置と、
    前記記号列データを登録情報として前記画像データと関連付けて記憶する記憶手段と、前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する検索手段と、と、を備えたサーバと、
    がネットワークで接続された画像処理システム。
  13. 数値列データを入力するデータ入力ステップと、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成ステップと、
    を有することを特徴とする記号化方法。
  14. 数値列データを入力するデータ入力ステップと、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成ステップと、
    前記記号列データを登録情報として前記数値列データと関連付けて記憶する記憶ステップと、
    前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する検索ステップと、
    を有することを特徴とするデータ検索方法。
  15. 画像データを入力する画像データ入力ステップと、
    前記画像データから数値列データを抽出する数値列データ抽出ステップと、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する記号列データ生成ステップと、
    前記記号列データを登録情報として前記画像データと関連付けて記憶する記憶ステップと、
    前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する検索ステップと、
    を有することを特徴とする画像処理方法。
  16. 前記数値列データ抽出ステップは、前記画像データが入力されたとき、該画像データから文章領域内の各文字矩形の幅と高さの比率を算出して前記数値列データを抽出することを特徴とする請求項15記載の画像処理方法。
  17. 前記数値列データ抽出ステップは、前記画像データが入力されたとき、該画像データの各領域の射影ヒストグラムを算出し、該射影ヒストグラムから前記数値列データを抽出することを特徴とする請求項15記載の画像処理方法。
  18. データ入力手段から数値列データを入力する機能と、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  19. データ入力手段から数値列データを入力する機能と、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する機能と、
    前記記号列データを登録情報として前記数値列データと関連付けて記憶手段に記憶する機能と、
    前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記数値列データを検索する機能と、
    をコンピュータに実行させることを特徴とするプログラム。
  20. 画像データ入力手段から画像データを入力する機能と、
    前記画像データから数値列データを抽出する機能と、
    前記数値列データを構成していて記号化の対象となる注目要素と該注目要素近傍の要素との大小関係に基づいて記号を順に付与して記号列データを生成する機能と、
    前記記号列データを登録情報として前記画像データと関連付けて記憶手段に記憶する機能と、
    前記記号列データを検索情報として該検索情報と一致する前記登録情報を有する前記画像データを検索する機能と、
    をコンピュータに実行させることを特徴とするプログラム。
JP2007022108A 2007-01-31 2007-01-31 画像処理装置及び画像処理方法 Expired - Fee Related JP4851353B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2007022108A JP4851353B2 (ja) 2007-01-31 2007-01-31 画像処理装置及び画像処理方法
US12/010,351 US8406536B2 (en) 2007-01-31 2008-01-24 Information processing apparatus, information processing method, and computer product
CN2008100092116A CN101236561B (zh) 2007-01-31 2008-01-29 图像处理设备及图像处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007022108A JP4851353B2 (ja) 2007-01-31 2007-01-31 画像処理装置及び画像処理方法

Publications (2)

Publication Number Publication Date
JP2008191703A true JP2008191703A (ja) 2008-08-21
JP4851353B2 JP4851353B2 (ja) 2012-01-11

Family

ID=39668050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007022108A Expired - Fee Related JP4851353B2 (ja) 2007-01-31 2007-01-31 画像処理装置及び画像処理方法

Country Status (3)

Country Link
US (1) US8406536B2 (ja)
JP (1) JP4851353B2 (ja)
CN (1) CN101236561B (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010113428A (ja) * 2008-11-04 2010-05-20 Ricoh Co Ltd 画像検索装置、画像検索方法、制御プログラム及び記録媒体
CN101859388A (zh) * 2009-04-09 2010-10-13 佳能株式会社 图像形成装置及图像形成方法
US8041688B2 (en) 2008-04-10 2011-10-18 Ricoh Company Limited Data search device, data search method, and recording medium
US8176090B2 (en) 2008-04-10 2012-05-08 Ricoh Company, Ltd. Information delivering apparatus, information delivering method, and computer-readable recording medium storing information delivering program

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4909216B2 (ja) * 2006-09-13 2012-04-04 株式会社キーエンス 文字切り出し装置、方法およびプログラム
JP2008170900A (ja) * 2007-01-15 2008-07-24 Ricoh Co Ltd 情報処理装置、情報閲覧方法、情報閲覧プログラム及び記録媒体
JP5083367B2 (ja) * 2010-04-27 2012-11-28 カシオ計算機株式会社 検索装置、検索方法、ならびに、コンピュータプログラム
JP6080259B2 (ja) * 2013-02-06 2017-02-15 日本電産サンキョー株式会社 文字切り出し装置及び文字切り出し方法
CN111563181B (zh) * 2020-05-12 2023-05-05 海口科博瑞信息科技有限公司 数字图像文件查询方法、装置及可读存储介质
CN114494474B (zh) * 2022-01-17 2022-09-20 广东石油化工学院 人与合法设备通用验证码的生成方法、验证方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262164A (ja) * 1994-03-17 1995-10-13 Hitachi Zosen Corp 時系列データ処理方法および時系列データ類似度判定方法
JPH11175705A (ja) * 1997-12-17 1999-07-02 Sharp Corp データファイリング装置
JP2007011822A (ja) * 2005-07-01 2007-01-18 Canon Inc 文書管理装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2798216B2 (ja) 1989-07-12 1998-09-17 三菱重工業株式会社 文字列検出装置
JP2730665B2 (ja) 1994-12-15 1998-03-25 北陸先端科学技術大学院大学長 文字認識装置および方法
JPH08305795A (ja) 1995-04-28 1996-11-22 Nippon Steel Corp 文字認識方法
JPH09270902A (ja) 1996-01-31 1997-10-14 Ricoh Co Ltd 画像ファイリング方法および画像ファイリング装置
JP3223878B2 (ja) 1998-03-27 2001-10-29 日本電気株式会社 文字列照合装置、方法及び記録媒体
CN1142524C (zh) 2000-07-20 2004-03-17 南开大学 动态差分编码和解码方法
JP4038771B2 (ja) 2003-10-28 2008-01-30 ソニー株式会社 携帯型情報端末装置および情報処理方法、記録媒体、並びにプログラム
JP2005208981A (ja) 2004-01-23 2005-08-04 Fuji Xerox Co Ltd 特徴量抽出装置および特徴量抽出方法、ならびに文書ファイリング装置
JP4504702B2 (ja) 2004-02-25 2010-07-14 株式会社リコー 文書処理装置、文書処理方法、および文書処理プログラム
US7953285B2 (en) * 2006-11-03 2011-05-31 Taiwan Imagingtek Corporation Method and circuit of high performance variable length coding and decoding for image compression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07262164A (ja) * 1994-03-17 1995-10-13 Hitachi Zosen Corp 時系列データ処理方法および時系列データ類似度判定方法
JPH11175705A (ja) * 1997-12-17 1999-07-02 Sharp Corp データファイリング装置
JP2007011822A (ja) * 2005-07-01 2007-01-18 Canon Inc 文書管理装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8041688B2 (en) 2008-04-10 2011-10-18 Ricoh Company Limited Data search device, data search method, and recording medium
US8176090B2 (en) 2008-04-10 2012-05-08 Ricoh Company, Ltd. Information delivering apparatus, information delivering method, and computer-readable recording medium storing information delivering program
US8326812B2 (en) 2008-04-10 2012-12-04 Ricoh Company, Limited Data search device, data search method, and recording medium
JP2010113428A (ja) * 2008-11-04 2010-05-20 Ricoh Co Ltd 画像検索装置、画像検索方法、制御プログラム及び記録媒体
CN101859388A (zh) * 2009-04-09 2010-10-13 佳能株式会社 图像形成装置及图像形成方法

Also Published As

Publication number Publication date
US8406536B2 (en) 2013-03-26
US20080181500A1 (en) 2008-07-31
CN101236561A (zh) 2008-08-06
CN101236561B (zh) 2011-06-22
JP4851353B2 (ja) 2012-01-11

Similar Documents

Publication Publication Date Title
JP4851353B2 (ja) 画像処理装置及び画像処理方法
JP4405831B2 (ja) 画像処理装置及びその制御方法、プログラム
US8126270B2 (en) Image processing apparatus and image processing method for performing region segmentation processing
JP2004348706A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JP2006350664A (ja) 文書処理装置
JP2007174270A (ja) 画像処理装置、画像処理方法、記憶媒体、プログラム
JP2007049388A (ja) 画像処理装置及びその制御方法、プログラム
JP2008140377A (ja) 情報検索装置、方法およびプログラム
JP2008146605A (ja) 画像処理装置及びその制御方法
JP2004334339A (ja) 情報処理装置及び情報処理方法ならびに記憶媒体、プログラム
JPH09270902A (ja) 画像ファイリング方法および画像ファイリング装置
JP2009193356A (ja) 画像処理装置、画像処理方法、プログラム、及び記憶媒体
JP2018055255A (ja) 情報処理装置、情報処理方法及びプログラム
JP2007141159A (ja) 画像処理装置、画像処理方法、及び画像処理プログラム
JP4338189B2 (ja) 画像処理システム及び画像処理方法
JP2006025129A (ja) 画像処理システム及び画像処理方法
JP2015069256A (ja) 文字識別システム
JP2004363786A (ja) 画像処理装置
JP2005303880A (ja) 画像形成装置、画像形成方法およびプログラム
JP2006093917A (ja) 画像読取装置および画像処理装置、画像形成装置
JP2007066286A (ja) 画像検索装置、画像処理装置、及びそれらの方法
JP2006333248A (ja) 画像処理装置、画像処理方法、プログラム及び記憶媒体
JP2004348467A (ja) 画像検索装置及びその制御方法、プログラム
JP7172343B2 (ja) 文書検索用プログラム
JP2007156841A (ja) 画像処理方法及び画像処理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091105

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110726

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111018

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111020

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4851353

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141028

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees