JP2005242579A - 文書処理装置、文書処理方法、および文書処理プログラム - Google Patents

文書処理装置、文書処理方法、および文書処理プログラム Download PDF

Info

Publication number
JP2005242579A
JP2005242579A JP2004050165A JP2004050165A JP2005242579A JP 2005242579 A JP2005242579 A JP 2005242579A JP 2004050165 A JP2004050165 A JP 2004050165A JP 2004050165 A JP2004050165 A JP 2004050165A JP 2005242579 A JP2005242579 A JP 2005242579A
Authority
JP
Japan
Prior art keywords
line
symbol
rectangle
character
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004050165A
Other languages
English (en)
Other versions
JP4504702B2 (ja
Inventor
Yoshihisa Oguro
慶久 大黒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2004050165A priority Critical patent/JP4504702B2/ja
Publication of JP2005242579A publication Critical patent/JP2005242579A/ja
Application granted granted Critical
Publication of JP4504702B2 publication Critical patent/JP4504702B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

【課題】文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識をすることなく、文字行の特徴を抽出して文字行の内容を把握すること。
【解決手段】本発明の文書処理装置は、識別対象の原稿画像を入力する画像入力部201、前記原稿画像から矩形を抽出する矩形抽出部202、前記矩形から行内矩形の切り出し処理を行う行切り出し部203、行内矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成するシンボル生成部204、シンボル系列に対して所定の処理を行い、当該シンボル系列の出現確率を言語別に算出し、集計する出現頻度集計部205、および出現頻度集計部205による集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判定する判定部206を含み構成される。
【選択図】 図2

Description

本発明は、文書原稿を、文字認識することなく、文書を特徴づける検索キーを求めることを目的として、文字行の行内矩形の配置状態を表す特徴の集計結果に注目することによって、文字行の形状の特徴を抽出する文書処理装置、文書処理方法、および文書処理プログラムに関する。
従来より、文書画像中の文字成分の外接矩形から文字行を抽出し、出力する技術が提案されている。この技術は、文字の外接矩形の形状および位置に関する特徴(大きさ、間隔など)について、複数の制約を適用することによって文字行を抽出するものである(例えば、特許文献1〜5を参照。)。
国際公開第00/62243号パンフレット 特開平11−143879号公報 特開平11−219407号公報 特開平9−231317号公報 特開平8−161430号公報
しかしながら、上記従来技術では、文字行を判断するためには、外接矩形に関する複数の制約を人手によって最適値に調整する必要がある。しかも、文字行らしさは判断できるものの、文字行の内容に関する特徴を求めることはできない。
本発明は、上述した問題点を解消するため、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索が行える文書処理装置、文書処理方法、および文書処理プログラムを提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明の請求項1にかかる文書処理装置は、入力された文書画像に対して所定の画像処理を行い、画像の特徴を抽出し、文書処理を行う装置であって、前記文書画像から抽出した文字行画像の行内矩形の始点の行内における高さを固定段階に量子化して固定種類のシンボルを生成する行内高さシンボル生成手段と、前記文字行画像の行高さを推定する行高さ推定手段と、行高さに対する行内矩形の高さの割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形高さ割合シンボル生成手段と、行高さに対する行内矩形の幅の割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形幅割合シンボル生成手段と、前記矩形内の黒画素密度を固定段階に量子化して固定種類のシンボルを生成する黒画素密度シンボル生成手段と、訓練行における行内矩形の配置状態をシンボル系列に変換し、その傾向を学習する訓練行学習手段と、試験行における行内矩形の配置状態をシンボル系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の評価値を算出する評価値算出手段と、前記訓練行学習手段による訓練行の学習結果と前記評価値算出手段により算出された試験行の評価値とを照合し、その類似性を判定する類似性判定手段と、を含み構成されることを特徴とする。
この請求項1に記載の発明によれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索を行うことができる。
また、請求項2にかかる文書処理装置は、請求項1に記載の発明において、さらに、行内矩形の配置状態を表す複数の特徴のなかから代表的なものを一つ以上抽出し、これに基づいた固定種類のシンボルを生成する代表シンボル生成手段を備えたことを特徴とする。
この請求項2に記載の発明によれば、検索対象によっては不要となる行内矩形の特徴の測定・記録に関する処理を省略でき、より効率的な文書処理を行うことができる。
また、請求項3にかかる文書処理装置は、請求項2に記載の発明において、さらに、行高さに対する、注目矩形と隣接矩形との距離の割合を固定段階に量子化して固定種類のシンボルを生成する距離割合シンボル生成手段を備えたことを特徴とする。
この請求項3に記載の発明によれば、文字行の特徴をより詳細に定義でき、厳密な文字行の判定が可能である。
また、請求項4にかかる文書処理装置は、請求項1に記載の発明において、注目する行内矩形の終点と、隣接する行内矩形の始点との距離を算出する距離算出手段と、前記距離算出手段により算出された距離と行高さとを比較し、その割合が一定値を超えている場合に、空白シンボルを挿入して、行内矩形の配置状態をシンボル系列に変換するシンボル系列変換手段と、を備えたことを特徴とする。
この請求項4に記載の発明によれば、文字行の特徴を定義する際に、当該文字行内における空白部分の情報を盛り込むことにより、さらに精度の高い文字行の判定が可能になる。
また、請求項5にかかる文書処理装置は、請求項2に記載の発明において、さらに、行内矩形の配置状態を表す複数の特徴を複数次元ベクトルの各次元に対応させてベクトル量子化し、行内矩形の配置状態を示す固定種類のシンボルを生成する行内矩形配置状態シンボル生成手段を備えたことを特徴とする。
この請求項5に記載の発明によれば、矩形の配置状態を表す特徴をベクトル量子化し、これをシンボル系列に変換することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索を行うことができる。
また、請求項6にかかる文書処理装置は、請求項2に記載の発明において、さらに、前記代表シンボル生成手段で生成された文字行のシンボル情報を原稿全体、所定領域全体などの特定の範囲において集計して、訓練文書と試験文書との類似性を判定する特定範囲内類似性判定手段を備えたことを特徴とする。
この請求項6に記載の発明によれば、所定の領域内における文字行の内容に関する検索が可能になる。
また、請求項7にかかる文書処理装置は、請求項1に記載の発明において、文字入力手段と、文字フォントセットと、前記文字入力手段から入力された文字テキストから前記文字フォントセットに基づいて文字フォントに展開し文字画像を得る文書画像取得手段と、前記文字入力手段から入力された文字テキストの文字列から文字列画像を生成し、この文字列画像の行内矩形シンボルを生成する行内矩形シンボル生成手段と、を備えたことを特徴とする。
この請求項7に記載の発明によれば、従来行っていた文字認識をすることなく、原稿画像に対するテキスト検索が可能になる。したがって、従来文字認識に必要とされた文字パターン辞書が不要となる。
また、請求項8にかかる文書処理装置は、請求項7に記載の発明において、さらに、文字毎にあらかじめ生成された行内矩形シンボルに対して、文字毎にその文字内の矩形の配置状態を表現するシンボルを対応させるシンボル対応手段と、前記文字入力手段から入力された入力テキストの文字列を矩形シンボル系列へ変換する矩形シンボル変換手段と、を備えたことを特徴とする。
この請求項8に記載の発明によれば、文字画像を経ることなくテキスト文字列から直接行内矩形シンボルへと変換することが可能になり、処理の効率化が図れる。
また、請求項9にかかる文書処理方法は、識別対象の原稿画像を入力する画像入力工程と、前記画像入力工程で入力された原稿画像から矩形を抽出する矩形抽出工程と、前記矩形抽出工程で抽出された矩形から行内矩形の切り出し処理を行う行内矩形切り出し工程と、前記行内矩形切り出し工程で切り出された行内矩形から、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する矩形シンボル生成工程と、前記矩形シンボル生成工程で生成されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したtrigram表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する出現確率算出・集計工程と、前記出現確率算出・集計工程での集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判断する言語判断工程と、を含むことを特徴とする。
この請求項9に記載の発明によれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的に文字行の内容に関する検索を行うことができる。
また、請求項10にかかる文書処理方法は、請求項9に記載の発明において、前記矩形シンボル生成工程は、前記原稿画像に表現された文字の行高さを推定する行高さ推定工程と、前記行高さ推定工程で推定された行高さに対する行内矩形の始点位置を基準に当該行内矩形を分類する分類工程と、前記分類工程で分類された行内矩形の配置状態を表す特徴(行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など)を測定する行内矩形配置状態測定工程と、前記行内矩形配置状態測定工程で測定された行内矩形の配置状態を表す特徴を量子化してシンボルを生成する行内矩形配置状態シンボル生成工程と、を含むことを特徴とする。
この請求項10に記載の発明によれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的に文字行の内容に関する検索を行うことができる。
また、請求項11にかかる文書処理プログラムは、請求項9または10に記載の文書処理方法をコンピュータに実行させることを特徴とする。
この請求項11に記載の発明によれば、請求項9または10に記載の文書処理方法をコンピュータに実行させることが可能になる。
本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムによれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的に文字行の内容に関する検索を行うことができるという効果を奏する。
以下に添付図面を参照して、本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムの好適な実施の形態を詳細に説明する。
(文書処理装置のハードウェア構成)
まず、本発明の実施の形態にかかる文書処理装置のハードウェア構成について説明する。図1は、この文書処理装置のハードウェア構成を示す図である。この文書処理装置は、CPU101、ROM102、RAM103、HDD(ハードディスクドライブ)104、HD(ハードディスク)105、FDD(フレキシブルディスクドライブ)106、FD112、ディスプレイ107、ネットワークボード108、キーボード109、マウス110、およびスキャナ111が、バス100によって接続され構成されている。
CPU101は、装置全体を制御する。ROM102には、基本入出力プログラムが記憶されている。RAM103は、CPU101のワークエリアとして使用される。HDD104は、CPU101の制御にしたがってHD105に対するデータのリード/ライトの制御を行う。HD105は、HDD104の制御にしたがって書き込まれたデータを記憶する。FDD106は、CPU101の制御にしたがってFD(フレキシブルディスク)112に対するデータのリード/ライトの制御を行う。FD112は、着脱自在になっており、FDD106の制御にしたがって書き込まれたデータを記憶する。ディスプレイ107は、カーソル、メニュー、ウインドウ、あるいは文字や画像等の各種データの表示を行う。ネットワークボード108は、通信ケーブル113を介してネットワーク114と接続する。キーボード109は、各種情報の入力を行う。マウス110は、ディスプレイ107に表示されたカーソル、メニュー、ウインドウの移動や選択、開閉操作を行う。スキャナ111は、文字や画像の光学的な読み取りを行う。
(文書処理装置の機能的構成)
次に、本発明の実施の形態にかかる文書処理装置の機能的構成を説明する。図2は、この文書処理装置の機能的構成を示すブロック図である。この文書処理装置は、画像入力部201、矩形抽出部202、行切り出し部203、シンボル生成部204、出現頻度集計部205、判定部206、および表示部207を含み構成される。
画像入力部201は、識別対象の原稿画像を入力する。矩形抽出部202は、入力部201から入力された原稿画像から矩形を抽出する。行切り出し部203は、矩形抽出部202で抽出された矩形から行内矩形の切り出し処理を行う。シンボル生成部204は、行切り出し部203で切り出された行内矩形から、行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する。出現頻度集計部205は、シンボル生成部204で生成されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したtrigram表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する。判定部206は、出現頻度集計部205による集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判定する。表示部207は、入力された画像や、各処理の経過、結果などの表示を行う。
なお、画像入力部201の機能は、図1に示したスキャナ111により実現できる。矩形抽出部202、行切り出し部203、シンボル生成部204、出現頻度集計部205、および判定部206の各機能は、図1に示したCPU101により実現できる。表示部207の機能は、図1に示したディスプレイ107により実現できる。
また、本発明の文書処理装置は、通信手段(ネットワークボード108)を備えているので、ネットワークと接続できる。例えば、図3に示すように、複数の文書処理装置をネットワーク114と接続することで、各装置間においてデータのやり取りが可能になる。また、この文書処理装置を構成する各機能部に通信手段を設ければ、各機能部をネットワーク114に接続することで、遠隔地から文書処理装置を操作することが可能になる。
以下、本発明の実施の形態にかかる文書処理装置の動作を詳細に説明する。ここでは、例えば、図4に示すような原稿画像に対して、特定の行画像を検索する場合を考える。なお、特定の行画像は原稿画像中と同一である必要はなく、解像度が違っていても、部分的な行として形状が同じであればよい。画像として完全一致する必要はない。
画像入力部201から入力された原稿画像(図4参照)に対し、矩形抽出部202において、図5に示すような黒画素の外接矩形が抽出される。そして、矩形抽出部202で抽出された外接矩形は、行切り出し部203において行切り出し処理が行われる。行切り出し処理とは、図5に示した外接矩形の近隣同士を連結していき、行に成長させる処理である(図6参照)。この処理は周知の方法で行うことができるため、説明は省略する。
次に、矩形の配置状態を表す特徴の量子化処理、および量子化された矩形の配置状態を表す特徴からシンボルを生成する処理を説明する。この処理は、シンボル生成部204において行われる。
まず、矩形の配置状態を表す特徴の量子化処理について説明する。図7−1および図7−2は、行内矩形の配置例を示す図である。図7−1の欧文文字の行内矩形と、図7−2のアジア系文字の行内矩形を比較してみると、行内矩形の並び方は、言語の種類に関わらず、その文字行の内容に応じて変化していることがわかる。そこで、文字の外接矩形を抽出することで、文字の大まかな特徴を捉えることができる。すなわち、文字そのものを特定しなくても、例えば、図8に示すように、矩形座標の始点(Xs,Ys)と終点(Xe,Ye)を求め、これを利用した文字画像の外接矩形の配置状態を表す特徴を取得するだけで文字行の画像特徴を捉えることができる。
行内における一つの矩形は、行内矩形の始点の高さ、矩形サイズ(幅、高さ)、行内矩形中の黒画素密度を計測することによって唯一に定義される。これらの計測結果を用いて、行内矩形の配置状態を定義する。行内矩形は、行切り出し処理の過程で既に求まっているので、文字行を特定するために、追加の特徴抽出処理を行う必要がないので都合がよい。
以下、行内矩形の始点の高さを基準にして行内矩形の配置状態を定義する一例を示す。図9は、行内矩形の配置状態を示す特徴を量子化する方法を説明するための図である。原稿を特定していない状況下では、行高さは可変であり、処理が行高さの値に依存しないように、行内矩形の始点の高さを次式で正規化する。
YsRate=ys/H ・・・(1)
(ただし、ysは行内矩形始点の高さ、Hは行高さを示す。)
0<YsRate≦1であるから、YsRateを固定段階に量子化することは容易である。例えば、N段階に量子化するなら、
YsVal=INT(YsRate*(N−1)) ・・・(2)
(ただし、INT():小数点以下切捨て)
とすればよい。各段階は0〜(N−1)とラベル付けされる。なお、原稿をスキャンする際に原稿が傾いてしまうと、図10の文字行も傾いてしまう。極端な傾きの場合には、行切り出し処理が失敗してしまうが、少々の傾きであれば、行間の空白部を利用して、行を切り出すことができる。
しかし、行内矩形の始点の高さに注目する場合、行のわずかな傾きでも、結果に大きく影響する。図10において、行内矩形の終点から始点までの距離は、行高さに対して万遍なく分布することになり、欧米系文字行の特徴である、頻度の明確な2カ所への集中が観測できない。そこで、ベースラインを定め、そこから行内矩形の始点までの高さを求めることにする。ベースラインを定めるには行内矩形の終点を結ぶような直線を求めればよい。具体的には、行内矩形の終点座標の分布の回帰直線を求めればよい。回帰直線の求め方に関しては周知であるため、ここでは説明しないが、例えば、「工科系のための統計概論」(培風館)I・ガットマン、S・S・ウィルクス共著などに詳しい。
以上のような処理により、行内矩形の始点の高さは量子化できる。同様に、文字行画像の特徴として行内矩形の高さを用いる場合は、図9において、次のとおりである。
HeightRate=h/H ・・・(3)
HeightVal=INT((HeightRate*(N−1))+0.5) ・・・(4)
(ただし、INT():小数点以下切捨て)
各段階は0〜(N−1)とラベル付けされる。
また、矩形の幅を用いる場合は、次のとおりである。
WidthRate=w/H ・・・(5)
WidthVal=INT((WidthRate*(N−1))+0.5) ・・・(6)
(ただし、INT():小数点以下切捨て)
各段階は0〜(N−1)とラベル付けされる。
行内矩形は、文字の内容には関知せず、文字の構成要素の外接矩形を求めたものである。しかし、行内矩形の配置状態が同じであっても、欧文系文字は構造が単純なので、矩形内の黒画素密度は低い。一方、アジア系文字は構造が複雑なので、矩形内の黒画素密度は高い。もちろん、同じアジア系文字においても、構造が簡単なひらがな・カタカナの黒画素密度は低く、漢字の黒画素密度は高いことは容易に想像できる。このように矩形の黒画素密度は文字を区別する特徴となり得る。よって、黒画素密度(=矩形内の黒画素数/矩形内の画素の総数)も同様に量子化し、固定段階として定義する。以上、行内矩形の配置状態を、複数の測定結果によって定義可能であることを示した。これらの複数の測定結果は一つの独立した行内矩形を定義するものである。
ところで、行内矩形を定義する複数の測定結果のうち、検索対象によっては不要なものがある。例えば、検索対象行がラテン系文字行だけならば、黒画素密度の測定結果は不要であろう。なぜなら、ラテン文字行については、文字の構造が、どの文字も同じ程度の複雑さなので、行内矩形の黒画素密度はほぼ同程度であり、行内矩形を特徴づけることに寄与しないからである。このように、検索行と被検索行の集合の性質によっては、識別に影響しない特徴が存在し、その特徴は使用する必要はない。複数の測定結果のうち、該当行と非該当行とを区別するに足る特徴のみ使用すればよい。この結果、処理効率が向上する。
また、欧文系文字行とアジア系文字行における行内矩形の配置状態の違いは、図7に示したように、隣接矩形との距離にも表れている。欧米系文字行においては、隣接矩形との距離は正値である場合が多く、矩形同士が重複することは少ない。一方、アジア系文字行においては、隣接矩形と重複する場合が頻繁に観測される。また、アルファベットの『i』や『j』のように、矩形の垂直上に点が存在するもの、ドイツ語におけるウムラウトのように矩形上に点が2つあるもの、スペイン語における(N+〜:エニェ)のように矩形上に細い長方形が存在するもの、など言語別に、隣接矩形との距離に関して特徴的な文字が存在する。この特徴を量子化することによって、行内矩形の配置状態を、より詳細に定義することができる。具体的には、図11に示す各矩形において、
RightDistanceRate=d/H ・・・(7)
(ただし、dは矩形間距離を示す。)
RightDistanceVal
=INT_PLUS((RightDistanceRate*(N−1))+0.5) ・・・(8)
(ただし、INT_PLUS():正数化して、小数点以下切捨て)
を求め、注目矩形と隣接矩形との距離の割合を固定段階に量子化する。各段階は0〜(N−1)とラベル付けされる。これによって、アジア系文字を多く含む文字行の特徴を、より詳細に定義でき、厳密な文字行の判定を実施することができる。
次に、量子化された矩形の配置状態を表す特徴からシンボルを生成する処理を説明する。ここでは、一つの行内矩形に関する、複数種類の測定結果を一つにまとめてシンボル化することによって、一つの行内矩形を一つのシンボルに対応させることが可能になる。例えば、矩形の始点の高さ、矩形高さ、矩形幅の3種の情報をまとめる。仮に、前述の処理で、矩形の始点の高さ(ys/H)を15段階、矩形高さ(h/H)を8段階、矩形幅(w/H)を2段階に量子化するとする。この結果、図12に示すように、各情報は、矩形の始点の高さ(ys/H)は15段階であるから4bits、矩形高さ(h/H)は8段階であるから3bits、矩形幅(w/H)は2段階であるから1bitで表現することができる。また、
4bits+3bits+1bit=8bits
であるから、1byteの各ビットに全情報を格納することができる。そして、これらの3種の情報を一つにまとめたシンボルの種類は、
15段階×8段階×2段階=240種
となる。なお、まとめる情報の種類および、その格納のための記憶エリア、記憶サイズは固定ではなく、識別対象である文字行を特定するに好適な情報を適宜選択し、決定することは云うまでもない。
また、文字行内における空白の存在情報も、当該行を特徴づける。特に単語間に空白を挿入する習慣があるラテン系文字行では重要な特徴である。行内における空白の存在は、行内矩形の隣接矩形との距離を行高さと比較することによって検出可能である。例えば、図13において、行高さに対する矩形間距離の割合(a/H,b/H,c/H)に、しきい値を設ける。そして、それら行高さに対する矩形間距離の割合としきい値とを比較して、しきい値より行高さに対する矩形間距離の割合が大きい値を示した場合に空白ありと判定する。空白ありと判定された場合には、空白を意味するシンボル(例えば、sSPC)を挿入する。先の例であれば、矩形の配置情報に対応するシンボルが240種類であることに対し、記憶領域サイズは1byteなので16種類(=256−240)の特別シンボルを、さらに設定することができる。空白用のシンボルsSPCは、この16種類のいずれかに対応させる。
また、矩形の配置状態を表す複数の特徴を多次元ベクトルの各次元とみなせば、矩形は、その各特徴を用いて一つのベクトルデータに変換(ベクトル量子化)できる。べクトル量子化とは、周知のように、ベクトルデータの多数のバラエティから、それらを代表する少数のベクトルデータを求めることである。求められた代表ベクトルに順にラベル付けすれば、ベクトルデータの系列を単なる一次元のシンボルデータの系列に変換することができる。ベクトル量子化に関しては、「ベクトル量子化と情報圧縮」(コロナ社)Allen Gersho,Robert M.Gray著,田崎三郎ほか訳、に詳しい。
このように、シンボル系列に変換することができれば、先に述べたように、その並び傾向を学習できる。例えば、訓練データから矩形の配置に関する3次元のベクトルデータを求め、それらから240種の代表ベクトルを求める。この代表ベクトル群をコードブックと呼ぶ。コードブック中の240種のベクトルを区別するIDが、つまりシンボルである。識別対象の文字行データにおける行内矩形の配置を3次元ベクトルに変換し、コードブック内のベクトルと最も類似するベクトルを選び、そのIDを当該矩形のシンボルとする。
以上の作業を経ることによって、行に含まれる矩形は、固定個のシンボル(ラベル)に変換することができる。したがって、実際の行内矩形の配置は、図13に示すような単なるシンボル系列とみなすことができる。これで、シンボル系列の並び傾向を記録することができ、行内矩形の並び傾向を記録できることと等価となる。シンボル系列に変換された後には、テキスト検索と同様に、一般的な検索手法によって検索することが可能になる。つまりシンボル系列間の完全一致を求めればよい。但し、文字行画像の読み取り誤差によって、文字矩形の特徴の計測結果は異なるので、文字行画像が同一であっても、そのシンボル変換結果が同一にならない場合もある。よってシンボル列の完全一致を求めるのみでは、同一文字行画像を検索できないおそれがある。
そこで、本発明の文書処理装置では、シンボル列の完全一致ではなく、シンボルの並び傾向の類似度を求める。具体的には、変換されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したtrigram表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する。この処理は、出現頻度集計部205で行われる。以下、詳述する。
並びの傾向を記録する方法としてはn−gramモデルがある。n−gramモデルはクロード・エルウッドシャノンによって提案された言語モデルである。系列中のシンボルの出現が、直前のn個(nは自然数)のシンボルに影響されるとする。現在の状態がn個前の入力に依存して決まる確率プロセスをn重マルコフ過程と呼び、n−gramモデルは(n−1)重マルコフモデルとも呼ばれる。特にn=3の場合をtrigramと呼び、広く使用されている。
具体的には 次の式(9)で示されるモデルである。さらに、式(10)にしたがって、訓練用のシンボル系列データからシンボルの3つ組みの出現頻度を計数する。
Figure 2005242579
一方で、trigramの出現頻度順位を求めておく。表1にtrigram 集計の例を示す。
Figure 2005242579
文字行に関して表1に示すようなtrigram集計を求めることが、文字行の特徴を求めること(学習)に相当する。検索したい文字行の行内矩形の配置状態を学習時と同じ要領でシンボル系列に変換した後、trigram集計を求める。
ところで、trigram集計結果を用いた、文字行同士の類似度を算出する方法は、行文字行だけでなく、文字行の集合である領域単位に、あるいは原稿単位に類似性を判定する場合にも、適用可能であることは明らかである。比較したい領域において、行切り出し処理を施し、各行によってシンボル系列に変換した後、領域単位に矩形trigramを集計する(すなわち、文字行のシンボル化情報を原稿全体、あるいは領域全体など、特定の範囲においてtrigram集計する)。trigram集計結果に関して順位相関係数を求めれば、領域間の類似度を判定する基準となる。
最後に、前記trigram集計結果と、検索対象である文字行から学習したtrigram集計結果とを照合し、最も類似するものを選択する。すなわち、最も高い出現頻度を示した言語が、照合対象行の属する言語だと判定する。この処理は判定部206で行われる。以下詳述する。
まず、一行に含まれる行内矩形の数が、検索行と、被検索行とでは異なるから、出現頻度そのものを比較することはできない。そこで、trigram集計表の類似性を判定するには次式で求められる順位相関係数を用いる。なお、順位相関係数の算出方法に関しては周知であるため、ここでは説明しないが、例えば、柳川尭著「ノンパラメトリック法」(培風館)に詳しい。
Rxy=1−(6*Σ(Rxi−Ryi)^2)/(n*(n^2−1)) ・・・(11)
(ただし、nはデータ数、Rxi,Ryiはデータの順位数値を示す。)
そして、検索行と、被検索行とのtrigram集計結果の順位相関係数を求め、最も1に近いものを選択すればよい。さらに、順位相関係数を統計的に検定し、最大の順位相関係数が有意な値を示さない場合には、検索に該当なしと判定してもよい。
以上、ここまでの処理を簡単にまとめると、図14のようになる。すなわち、あらかじめ照合したい画像の行内矩形をシンボルに変換し(ステップS1401)、所定領域内でtrigramを集計し(ステップS1402)、trigram の出現頻度集計表を作成する(ステップS1403)。一方、照合対象画像の行内矩形をシンボルに変換し(ステップS1404)、所定領域内でtrigramを集計し(ステップS1405)、trigram の出現頻度集計表を作成する(ステップS1406)。最後に、ステップS1403で作成されたtrigram の出現頻度集計表とステップS1406で作成されたtrigram の出現頻度集計表とを照合して、順位相関係数を求めることにより(ステップS1407)、最も高い出現確率を示した言語が、照合対象行の属する言語だと判定することができる。
ところで、これまでは、文字行画像同士の照合に関して言及しているが、テキストデータから文字行画像を作成することができれば、指定する文字を含む行を検索することが可能になる。テキストデータから文字画像を得るには、フォントデータを用いればよい。例えば、true typeフォントのようなベクトルデータを展開して文字のビットマップデータ(画像)を作成し、指定文字列(テキスト)をシンボル系列に変換する。このためには、シンボル生成部204に、さらに文字フォントセットと、文字テキストから文字フォントを展開し、テキスト文字列から文字列画像を生成した後、行内矩形シンボルに変換する機能を備えることが必要である。検索文字列、被検索文字列、ともに行内矩形のシンボル系列に変換された後は、一般的なテキスト検索の手法と同じく、シンボル系列が完全一致する部分を求める。これによって、文字認識することなく、原稿画像に対するテキスト検索が可能になる。文字認識で必要な文字パターン辞書が不要であることは明らかである。
このように一旦文字画像を生成した後、行内矩形シンボルへと変換する場合は、フォントセットさえ準備しておけばフォントの違いによる行内矩形シンボルの変動を考慮することが可能であり、好都合である。しかしながら、行内矩形シンボル系列に変換するため、全文字のフォントデータを用意する必要があるだけでなく、文字画像生成のための演算処理も必要になる。そこで、さらに、文字毎にあらかじめ矩形シンボル変換結果を用意し、文字毎にその文字内の矩形の配置情報を表現するシンボルを対応させ、入力テキストの文字列から、矩形シンボル系列へと変換する機能を備えるとよい。このように、あらかじめ文字毎に、対応する変換後の行内矩形シンボルを求めておき、それを記録しておけば、文字画像を経ることなくテキスト文字列から行内矩形シンボルへと変換することが可能になる。図15に、文字コードと矩形シンボル変換結果との相関を示す。ただし、1文字に含まれる矩形は一つとは限らないので、1文字から複数のシンボル系列に変換されることがある。
(文書処理の手順)
以下、本発明の文書処理装置を用いた文書処理の手順を説明する。図16は、この文書処理の手順を示すフローチャートである。まず、画像入力部201が、識別対象の原稿画像を入力する(ステップS1601)。次に、矩形抽出部202が、入力された原稿画像から矩形を抽出する(ステップS1602)。次いで、行切り出し部203が、矩形抽出部202で抽出された矩形から行内矩形の切り出し処理を行う(ステップS1603)。シンボル生成部204が、行切り出し部203で切り出された行内矩形から、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する(ステップS1604)。出現頻度集計部205が、シンボル生成部204で生成された各シンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したtrigram表を適用し、当該シンボル系列の出現頻度を言語別に算出し、集計する(ステップS1605)。最後に、判定部206が、出現頻度集計部205による集計結果から、最も高い出現頻度を示した言語が、照合対象行の属する言語だと判断する(ステップS1606)。
(矩形配置状態シンボル生成処理の手順)
次に、ステップS1604の矩形配置状態シンボル生成処理の手順をより詳しく説明する。図17は、この矩形配置状態シンボル生成処理の手順を示すフローチャートである。まず、原稿画像に表現された文字の行高さを推定する(ステップS1701)。次に、行高さに対する行内矩形の始点位置を基準に当該行内矩形を分類する(ステップS1702)。次いで、分類された各行内矩形の配置状態を表す特徴(行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など)を測定する(ステップS1703)。そして、矩形の配置状態を表す特徴を量子化してシンボルを生成する(ステップS1704)。最後に、ステップS1704で生成されたシンボル系列を記録する(ステップS1705)。
上記の各処理を行うことで、対象行の属する言語を、行内矩形の配置状態を表す特徴(新たに行の特徴を抽出する処理ではなく、行切り出し処理の過程で得られる特徴)を抽出して分類することができる。この結果、高速に言語識別処理を実現でき、言語識別結果に応じて、言語に最適な文書処理を選択する基準を求めることができる。よって、高精度な文書処理を実現することが可能となる。
以上説明したように、本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムによれば、文字行画像の行内矩形の配置状態を表す特徴を抽出し、これらを固定段階に量子化してシンボルを生成することにより、文字認識することなく、文字行の特徴の抽出が可能になり、効率的な文字行の内容に関する検索を行うことができる。
なお、本実施の形態で説明した文書処理方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。
以上のように、本発明にかかる文書処理装置、文書処理方法、および文書処理プログラムは、効率よく文字行の形状の特徴を抽出する必要がある文字識別処理に有用であり、特に、文字認識装置などに適している。
本発明の実施の形態にかかる文書処理装置のハードウェア構成を示す図である。 本発明の実施の形態にかかる文書処理装置の機能的構成を示すブロック図である。 本発明の実施の形態にかかる文書処理装置を用いたネットワーク構成の一例を示す図である。 文書処理装置に入力される原稿画像の一例を示す図である。 原稿画像から求められる黒画素の外接矩形の一例を示す図である。 行切り出し処理を説明するための図である。 行内矩形の配置例を示す図である。 行内矩形の配置例を示す図である。 矩形に対する座標の設定例を説明するための図である。 行内矩形の配置状態を表す特徴を量子化する方法を説明するための図である。 行内矩形の配置状態を表す特徴からシンボルを生成した例を示す図である。 矩形間距離に基づく空白シンボルの挿入処理を説明するための図である。 矩形間距離の量子化を説明するための図である。 矩形間距離に基づく空白シンボルの挿入処理を説明するための図である。 矩形trigramを使用した文書画像照合の手順を示すフローチャートである。 文字コードから矩形シンボルへ直接に変換する場合を説明するための表である。 文書処理の手順を示すフローチャートである。 矩形配置状態シンボル生成処理の手順を示すフローチャートである。
符号の説明
100 バス
101 CPU
102 ROM
103 RAM
104 HDD(ハードディスクドライブ)
105 HD(ハードディスク)
106 FDD(フレキシブルディスクドライブ)
107 ディスプレイ
108 ネットワークボード
109 キーボード
110 マウス
111 スキャナ
112 FD(フレキシブルディスク)
113 通信ケーブル
114 ネットワーク
201 画像入力部
202 矩形抽出部
203 行切り出し部
204 シンボル生成部
205 出現頻度集計部
206 判定部
207 表示部

Claims (11)

  1. 入力された文書画像に対して所定の画像処理を行い、画像の特徴を抽出し、文書処理を行う装置であって、
    前記文書画像から抽出した文字行画像の行内矩形の始点の行内における高さを固定段階に量子化して固定種類のシンボルを生成する行内高さシンボル生成手段と、
    前記文字行画像の行高さを推定する行高さ推定手段と、
    行高さに対する行内矩形の高さの割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形高さ割合シンボル生成手段と、
    行高さに対する行内矩形の幅の割合を固定段階に量子化して固定種類のシンボルを生成する行内矩形幅割合シンボル生成手段と、
    前記矩形内の黒画素密度を固定段階に量子化して固定種類のシンボルを生成する黒画素密度シンボル生成手段と、
    訓練行における行内矩形の配置状態を表す特徴をシンボル系列に変換し、その傾向を学習する訓練行学習手段と、
    試験行における行内矩形の配置状態を表す特徴をシンボル系列に変換し、前記訓練行学習手段による訓練行の学習結果を用いて、試験行の評価値を算出する評価値算出手段と、
    前記訓練行学習手段による訓練行の学習結果と前記評価値算出手段により算出された試験行の評価値とを照合し、その類似性を判定する類似性判定手段と、
    を含み構成されることを特徴とする文書処理装置。
  2. さらに、行内矩形の配置状態を表す複数の特徴のなかから代表的なものを一つ以上抽出し、これに基づいた固定種類のシンボルを生成する代表シンボル生成手段を備えたことを特徴とする請求項1に記載の文書処理装置。
  3. さらに、行高さに対する、注目矩形と隣接矩形との距離の割合を固定段階に量子化して固定種類のシンボルを生成する距離割合シンボル生成手段を備えたことを特徴とする請求項2に記載の文書処理装置。
  4. 注目する行内矩形の終点と、隣接する行内矩形の始点との距離を算出する距離算出手段と、前記距離算出手段により算出された距離と行高さとを比較し、その割合が一定値を超えている場合に、空白シンボルを挿入して、行内矩形の配置状態をシンボル系列に変換するシンボル系列変換手段と、
    を備えたことを特徴とする請求項1に記載の文書処理装置。
  5. さらに、行内矩形の配置状態を表す複数の特徴を複数次元ベクトルの各次元に対応させてベクトル量子化し、行内矩形の配置状態を示す固定種類のシンボルを生成する行内矩形配置状態シンボル生成手段を備えたことを特徴とする請求項2に記載の文書処理装置。
  6. さらに、前記代表シンボル生成手段で生成された文字行のシンボル情報を原稿全体、所定領域全体などの特定の範囲において集計して、訓練文書と試験文書との類似性を判定する特定範囲内類似性判定手段を備えたことを特徴とする請求項2に記載の文書処理装置。
  7. 文字入力手段と、
    文字フォントセットと、
    前記文字入力手段から入力された文字テキストから前記文字フォントセットに基づいて文字フォントに展開し文字画像を得る文書画像取得手段と、
    前記文字入力手段から入力された文字テキストの文字列から文字列画像を生成し、この文字列画像の行内矩形シンボルを生成する行内矩形シンボル生成手段と、
    を備えたことを特徴とする請求項1に記載の文書処理装置。
  8. さらに、文字毎にあらかじめ生成された行内矩形シンボルに対して、文字毎にその文字内の矩形の配置状態を表現するシンボルを対応させるシンボル対応手段と、
    前記文字入力手段から入力された入力テキストの文字列を矩形シンボル系列へ変換する矩形シンボル変換手段と、
    を備えたことを特徴とする請求項7に記載の文書処理装置。
  9. 識別対象の原稿画像を入力する画像入力工程と、
    前記画像入力工程で入力された原稿画像から矩形を抽出する矩形抽出工程と、
    前記矩形抽出工程で抽出された矩形から行内矩形の切り出し処理を行う行内矩形切り出し工程と、
    前記行内矩形切り出し工程で切り出された行内矩形から、矩形の配置状態を表す特徴を抽出し、これらを量子化してシンボルを生成する矩形シンボル生成工程と、
    前記矩形シンボル生成工程で生成されたシンボル系列に対し、言語別にあらかじめ訓練用の行内矩形シンボルデータで学習したtrigram表を適用し、当該シンボル系列の出現確率を言語別に算出し、集計する出現確率算出・集計工程と、
    前記出現確率算出・集計工程での集計結果から、最も高い出現確率を示した言語が、照合対象行の属する言語だと判断する言語判断工程と、
    を含むことを特徴とする文書処理方法。
  10. 前記矩形シンボル生成工程は、
    前記原稿画像に表現された文字の行高さを推定する行高さ推定工程と、
    前記行高さ推定工程で推定された行高さに対する行内矩形の始点位置を基準に当該行内矩形を分類する分類工程と、
    前記分類工程で分類された行内矩形の配置状態を表す特徴(行内矩形の始点の高さ、矩形サイズ(高さ、幅)、黒画素密度、隣接矩形との距離など)を測定する行内矩形配置状態測定工程と、
    前記行内矩形配置状態測定工程で測定された行内矩形の配置状態を表す特徴を量子化してシンボルを生成する行内矩形配置状態シンボル生成工程と、
    を含むことを特徴とする請求項9に記載の文書処理方法。
  11. 請求項9または10に記載の文書処理方法をコンピュータに実行させることを特徴とする文書処理評価プログラム。

JP2004050165A 2004-02-25 2004-02-25 文書処理装置、文書処理方法、および文書処理プログラム Expired - Lifetime JP4504702B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004050165A JP4504702B2 (ja) 2004-02-25 2004-02-25 文書処理装置、文書処理方法、および文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004050165A JP4504702B2 (ja) 2004-02-25 2004-02-25 文書処理装置、文書処理方法、および文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2005242579A true JP2005242579A (ja) 2005-09-08
JP4504702B2 JP4504702B2 (ja) 2010-07-14

Family

ID=35024271

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004050165A Expired - Lifetime JP4504702B2 (ja) 2004-02-25 2004-02-25 文書処理装置、文書処理方法、および文書処理プログラム

Country Status (1)

Country Link
JP (1) JP4504702B2 (ja)

Cited By (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009020887A (ja) * 2007-07-12 2009-01-29 Ricoh Co Ltd シンセティックテキストを生成するシステム及び方法並びに電子書類の検索方法
JP2009048621A (ja) * 2007-07-26 2009-03-05 Ricoh Co Ltd データ提供装置、データ提供方法、及びプログラム
JP2010003244A (ja) * 2008-06-23 2010-01-07 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP2010146373A (ja) * 2008-12-19 2010-07-01 Fuji Xerox Co Ltd 画像処理プログラム、画像処理装置及び画像処理システム
JP2011018311A (ja) * 2009-07-07 2011-01-27 Sharp Corp 画像検索装置、画像検索プログラムおよび記録媒体
US8065321B2 (en) 2007-06-20 2011-11-22 Ricoh Company, Ltd. Apparatus and method of searching document data
US8166057B2 (en) 2007-07-26 2012-04-24 Ricoh Company, Limited Data providing apparatus, data providing method and program
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
JP2013041599A (ja) * 2012-10-05 2013-02-28 Rakuten Inc 画像検索エンジン
US8406536B2 (en) 2007-01-31 2013-03-26 Ricoh Company, Limited Information processing apparatus, information processing method, and computer product
US8452780B2 (en) 2006-01-06 2013-05-28 Ricoh Co., Ltd. Dynamic presentation of targeted information in a mixed media reality recognition system
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US8612475B2 (en) 2011-07-27 2013-12-17 Ricoh Co., Ltd. Generating a discussion group in a social network based on metadata
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
JP5580502B1 (ja) * 2013-03-06 2014-08-27 楽天株式会社 画像処理システム、画像処理方法、および画像処理プログラム
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US9063953B2 (en) 2004-10-01 2015-06-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9311336B2 (en) 2006-07-31 2016-04-12 Ricoh Co., Ltd. Generating and storing a printed representation of a document on a local computer upon printing
US9357098B2 (en) 2005-08-23 2016-05-31 Ricoh Co., Ltd. System and methods for use of voice mail and email in a mixed media environment
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104112287B (zh) * 2013-04-17 2017-05-24 北大方正集团有限公司 切分图片中文字的方法和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232866A (ja) * 1996-12-04 1998-09-02 Canon Inc データ処理方法及び装置
JP2004046723A (ja) * 2002-07-15 2004-02-12 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10232866A (ja) * 1996-12-04 1998-09-02 Canon Inc データ処理方法及び装置
JP2004046723A (ja) * 2002-07-15 2004-02-12 Ricoh Co Ltd 文字認識方法、該方法の実行に用いるプログラム及び文字認識装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
JPN6009052323, A.Lawrence Spitz, "Determination of the Script and Language Content of Docunment Images", Pattern Analysis and Machine Intelligence, IEEE Transactions on, 199705, Vol.19, p.235−245, US, IEEE Computer Society *
JPN7009004504, Penelope Sibun and Jeffrey C. Reynar, "Language Identification: Examining the issues", In 5th Symposium on Document Analysis and Information Retrieval, 1996, US, UNLV−ISRI *

Cited By (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8600989B2 (en) 2004-10-01 2013-12-03 Ricoh Co., Ltd. Method and system for image matching in a mixed media environment
US9063953B2 (en) 2004-10-01 2015-06-23 Ricoh Co., Ltd. System and methods for creation and use of a mixed media environment
US8521737B2 (en) 2004-10-01 2013-08-27 Ricoh Co., Ltd. Method and system for multi-tier image matching in a mixed media environment
US8949287B2 (en) 2005-08-23 2015-02-03 Ricoh Co., Ltd. Embedding hot spots in imaged documents
US9405751B2 (en) 2005-08-23 2016-08-02 Ricoh Co., Ltd. Database for mixed media document system
US9357098B2 (en) 2005-08-23 2016-05-31 Ricoh Co., Ltd. System and methods for use of voice mail and email in a mixed media environment
US9171202B2 (en) 2005-08-23 2015-10-27 Ricoh Co., Ltd. Data organization and access for mixed media document system
US8838591B2 (en) 2005-08-23 2014-09-16 Ricoh Co., Ltd. Embedding hot spots in electronic documents
US8452780B2 (en) 2006-01-06 2013-05-28 Ricoh Co., Ltd. Dynamic presentation of targeted information in a mixed media reality recognition system
US9311336B2 (en) 2006-07-31 2016-04-12 Ricoh Co., Ltd. Generating and storing a printed representation of a document on a local computer upon printing
US8676810B2 (en) 2006-07-31 2014-03-18 Ricoh Co., Ltd. Multiple index mixed media reality recognition using unequal priority indexes
US8856108B2 (en) 2006-07-31 2014-10-07 Ricoh Co., Ltd. Combining results of image retrieval processes
US9176984B2 (en) 2006-07-31 2015-11-03 Ricoh Co., Ltd Mixed media reality retrieval of differentially-weighted links
US9020966B2 (en) 2006-07-31 2015-04-28 Ricoh Co., Ltd. Client device for interacting with a mixed media reality recognition system
US8489987B2 (en) 2006-07-31 2013-07-16 Ricoh Co., Ltd. Monitoring and analyzing creation and usage of visual content using image and hotspot interaction
US8510283B2 (en) 2006-07-31 2013-08-13 Ricoh Co., Ltd. Automatic adaption of an image recognition system to image capture devices
US9063952B2 (en) 2006-07-31 2015-06-23 Ricoh Co., Ltd. Mixed media reality recognition with image tracking
US8868555B2 (en) 2006-07-31 2014-10-21 Ricoh Co., Ltd. Computation of a recongnizability score (quality predictor) for image retrieval
US8369655B2 (en) 2006-07-31 2013-02-05 Ricoh Co., Ltd. Mixed media reality recognition using multiple specialized indexes
US8825682B2 (en) 2006-07-31 2014-09-02 Ricoh Co., Ltd. Architecture for mixed media reality retrieval of locations and registration of images
US9384619B2 (en) 2006-07-31 2016-07-05 Ricoh Co., Ltd. Searching media content for objects specified using identifiers
US8406536B2 (en) 2007-01-31 2013-03-26 Ricoh Company, Limited Information processing apparatus, information processing method, and computer product
US8065321B2 (en) 2007-06-20 2011-11-22 Ricoh Company, Ltd. Apparatus and method of searching document data
US8989431B1 (en) 2007-07-11 2015-03-24 Ricoh Co., Ltd. Ad hoc paper-based networking with mixed media reality
US10192279B1 (en) 2007-07-11 2019-01-29 Ricoh Co., Ltd. Indexed document modification sharing with mixed media reality
US9530050B1 (en) 2007-07-11 2016-12-27 Ricoh Co., Ltd. Document annotation sharing
US9373029B2 (en) 2007-07-11 2016-06-21 Ricoh Co., Ltd. Invisible junction feature recognition for document security or annotation
US8478761B2 (en) 2007-07-12 2013-07-02 Ricoh Co., Ltd. Retrieving electronic documents by converting them to synthetic text
JP2009020887A (ja) * 2007-07-12 2009-01-29 Ricoh Co Ltd シンセティックテキストを生成するシステム及び方法並びに電子書類の検索方法
US8166057B2 (en) 2007-07-26 2012-04-24 Ricoh Company, Limited Data providing apparatus, data providing method and program
JP2009048621A (ja) * 2007-07-26 2009-03-05 Ricoh Co Ltd データ提供装置、データ提供方法、及びプログラム
US8385589B2 (en) 2008-05-15 2013-02-26 Berna Erol Web-based content detection in images, extraction and recognition
JP2010003244A (ja) * 2008-06-23 2010-01-07 Ricoh Co Ltd 画像処理装置、画像処理方法およびプログラム
JP2010146373A (ja) * 2008-12-19 2010-07-01 Fuji Xerox Co Ltd 画像処理プログラム、画像処理装置及び画像処理システム
US8385660B2 (en) 2009-06-24 2013-02-26 Ricoh Co., Ltd. Mixed media reality indexing and retrieval for repeated content
JP2011018311A (ja) * 2009-07-07 2011-01-27 Sharp Corp 画像検索装置、画像検索プログラムおよび記録媒体
US9058331B2 (en) 2011-07-27 2015-06-16 Ricoh Co., Ltd. Generating a conversation in a social network based on visual search results
US8612475B2 (en) 2011-07-27 2013-12-17 Ricoh Co., Ltd. Generating a discussion group in a social network based on metadata
US8892595B2 (en) 2011-07-27 2014-11-18 Ricoh Co., Ltd. Generating a discussion group in a social network based on similar source materials
JP2013041599A (ja) * 2012-10-05 2013-02-28 Rakuten Inc 画像検索エンジン
WO2014136327A1 (ja) * 2013-03-06 2014-09-12 楽天株式会社 画像処理システム、画像処理方法、および画像処理プログラム
JP5580502B1 (ja) * 2013-03-06 2014-08-27 楽天株式会社 画像処理システム、画像処理方法、および画像処理プログラム

Also Published As

Publication number Publication date
JP4504702B2 (ja) 2010-07-14

Similar Documents

Publication Publication Date Title
JP4504702B2 (ja) 文書処理装置、文書処理方法、および文書処理プログラム
US7181068B2 (en) Mathematical expression recognizing device, mathematical expression recognizing method, character recognizing device and character recognizing method
AU2020279921B2 (en) Representative document hierarchy generation
EP2166488B1 (en) Handwritten word spotter using synthesized typed queries
US8566349B2 (en) Handwritten document categorizer and method of training
JP2750057B2 (ja) 自動手書き文字認識に対する統計的混合手法
US8467614B2 (en) Method for processing optical character recognition (OCR) data, wherein the output comprises visually impaired character images
US20070003147A1 (en) Grammatical parsing of document visual structures
KR101769918B1 (ko) 이미지로부터 텍스트 추출을 위한 딥러닝 기반 인식장치
JP2001167131A (ja) 文書シグネチュアを使用する文書の自動分類方法
Lu et al. Information retrieval in document image databases
JP2006252333A (ja) データ処理方法、データ処理装置およびそのプログラム
JP2006031546A (ja) 文字方向識別装置、文書処理装置及びプログラム並びに記憶媒体
JP4300098B2 (ja) オブジェクト識別方法とその装置、プログラム及び記録媒体
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
JP4885112B2 (ja) 文書処理装置、文書処理方法及び文書処理プログラム
WO2007070010A1 (en) Improvements in electronic document analysis
Ball et al. Writer verification of historical documents among cohort writers
CN112560849B (zh) 基于神经网络算法的文理分割方法及系统
JPH0567237A (ja) 空白認識方法、空白認識装置、文字認識装置、英日翻 訳装置
JPH11328417A (ja) 画像処理装置、画像処理方法及び画像処理プログラムを記録したコンピュータ読み取り可能な記録媒体
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
JP2020047031A (ja) 文書検索装置、文書検索システム及びプログラム
KR102673900B1 (ko) 표 데이터 추출 시스템 및 그 방법
JP2728117B2 (ja) 文字認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061228

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090730

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091002

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091209

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091209

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100420

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100423

R151 Written notification of patent or utility model registration

Ref document number: 4504702

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130430

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140430

Year of fee payment: 4

EXPY Cancellation because of completion of term