JP2009251872A - 情報処理装置及び情報処理プログラム - Google Patents
情報処理装置及び情報処理プログラム Download PDFInfo
- Publication number
- JP2009251872A JP2009251872A JP2008098160A JP2008098160A JP2009251872A JP 2009251872 A JP2009251872 A JP 2009251872A JP 2008098160 A JP2008098160 A JP 2008098160A JP 2008098160 A JP2008098160 A JP 2008098160A JP 2009251872 A JP2009251872 A JP 2009251872A
- Authority
- JP
- Japan
- Prior art keywords
- paragraph
- line
- order
- information
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
【解決手段】情報処理装置のライン抽出手段は、電子文書内の画素塊の矩形に関する情報を用いて、該電子文書内の行又は列であるラインを抽出し、段落抽出手段は、前記ライン抽出手段によって抽出されたラインに応じて、前記電子文書内の段落を抽出し、段落順序付手段は、前記段落抽出手段によって抽出された段落を順序付けし、文字順序付手段は、前記段落順序付手段によって順序付けされた段落の順序であって、該段落に含まれるラインを順に検索し、ラインに含まれる文字を順に検索して、文字を順序付けする。
【選択図】図1
Description
このような電子ドキュメントでは、PC上で、その電子ドキュメントを表示することが行われる。
そして、その電子ドキュメントに記述されているテキスト情報を、操作者の操作に応じてPC上で選択し、コピー&ペースト等の処理が行われる。テキスト情報をPC上で選択する(例えば、電子ドキュメントを表示しているディスプレイ上に表示されているテキスト位置でマウスを左クリックしながらテキスト位置を右に移動させる等の動作でテキスト情報を選択することができる)場合、選択したテキスト位置が反転して、どのテキストを選択しているかを示すようなビューワが存在している。
一方、画像を文字認識して、電子ドキュメントを生成することも行われている。
本発明は、電子文書内の画素塊に対応している文字の順序の乱れを低減させるようにした情報処理装置及び情報処理プログラムを提供することを目的としている。
請求項1の発明は、電子文書内の画素塊の矩形に関する情報を用いて、該電子文書内の行又は列であるラインを抽出するライン抽出手段と、前記ライン抽出手段によって抽出されたラインに応じて、前記電子文書内の段落を抽出する段落抽出手段と、前記段落抽出手段によって抽出された段落を順序付けする段落順序付手段と、前記段落順序付手段によって順序付けされた段落の順序であって、該段落に含まれるラインを順に検索し、ラインに含まれる文字を順に検索して、文字を順序付けする文字順序付手段を具備することを特徴とする情報処理装置である。
例えば、図15に示す例のように「美しい日本」という文字列が表示されている電子ドキュメント1500の「美しい日本」のテキストをPC上で選択すると、図16に示す例のように「美しい日本」の部分が反転して(図16に示す選択テキスト1601)、「美しい日本」が選択されたことをユーザに示すことができる。
あるいは、前述のようにテキストを選択した状態で、PC上でコピー&ペーストを行うと、別のファイル上に「美しい日本」というテキスト情報をコピーすることが可能となる。図17に示す例のように、ワードプロセッサ等のような別のアプリケーションファイル(図17に示す電子ドキュメント1700)上に、テキスト情報をペーストすることができる。
これはPDFのような電子ドキュメントは、表示あるいはプリントする場合に、同一のフォント情報を持っていない受け手側(PCやプリンタ)で、電子ドキュメントを作成した作成者の意図通りの表示あるいはプリントがなされるように、電子ドキュメント内にフォント情報(文字形状や文字コード、文字順序など)を包含させることで実現している。
このように、電子ドキュメント内の文字を指定するためのフォント情報を文字認識技術を用いて得る場合には、通常、電子ドキュメント内の文字順序はスキャンインしたラスタデータに対して文字認識した順にフォント情報内に埋め込まれる。例えば、先述の図18で示された文書1800がスキャンインしたラスタデータから生成した電子ドキュメントの場合には、文字認識技術による文字認識順序は図19に示す例のような順序となり、正しい文字順序がフォント情報内に埋め込まれていることになる。
例えば、図18で示された文書1800をスキャンしたラスタデータに文字認識処理を行い、電子ドキュメントを作成し、その電子ドキュメント上で文章全体を選択して、別のアプリケーションにコピー&ペーストした結果が図20に示す例のような電子ドキュメント2000になったと仮定する。この場合には、図18で示された文書1800の段組構造が抽出されずに、「世界の一員として豊かな自然と共」、「います。ビジネスを進めていく判断の」、「存し、世界の発展の礎である地球環」、・・・というように単純に上から下の順で文字認識が行われ、間違った文字順序情報(つまり文字認識が行われた順番)がフォント情報内に埋め込まれた。このことにより、図20で示した電子ドキュメント2000の文字順序は、図19で示したものと異なったものになった(下線を付した行の文字順序が図19とは異なっている)。
つまり、本実施の形態は、フォント情報が埋め込まれた電子ドキュメントの文字列における文字順序の乱れを低減するものである。また、これに伴って、文章選択における文字順序の不整合を低減することにもなる。
本実施の形態では、電子ドキュメントに埋め込まれるフォント情報内の文字順序情報の修正を、例えば木グラフ情報に基づくのではなく、文字認識装置の出力情報をもとに簡便な手法で行う。つまり、文字の外接矩形情報から、行を認識し、その各行情報から段落を認識し、その段落の出現順序を補正し、その補正された段落の順序に基づいて、段落に含まれる文字情報データの文字順序を補正する。
(1)電子ドキュメント内の文字外接矩形情報(その電子ドキュメント内の絶対座標値及び矩形サイズ)を用いて行を認識する。
(2)行特徴情報(例えば、行中の全ての文字外接矩形が収まるような最小値、行矩形サイズ、行座標値など)を求める。
(3)複数の行からなる段落を行特徴情報に基づいて抽出し、その段落特徴を算出する。
(4)前記抽出された段落の探索順序を段落特徴から算出する。
(5)前記算出された段落の探索順序に基づいて段落を探索し、さらに該段落中の行、行に含まれる文字情報データを順に探索し、その探索順に文字順序を補正する。
(1)電子ドキュメント内の文字外接矩形情報(その電子ドキュメント内の絶対座標値及び矩形サイズ)を用いて列を認識する。
(2)列特徴情報(例えば、列中の全ての文字外接矩形が収まるような最小値、列矩形サイズ、列座標値など)を求める。
(3)複数の列からなる段落を列特徴情報に基づいて抽出し、その段落特徴を算出する。
(4)前記抽出された段落の探索順序を段落特徴から算出する。
(5)前記算出された段落の探索順序に基づいて段落を探索し、さらに該段落中の列、列に含まれる文字情報データを順に探索し、その探索順に文字順序を補正する。
図1は、本実施の形態の構成例についての概念的なモジュール構成図を示している。
なお、モジュールとは、一般的に論理的に分離可能なソフトウェア(コンピュータ・プログラム)、ハードウェア等の部品を指す。したがって、本実施の形態におけるモジュールはコンピュータ・プログラムにおけるモジュールのことだけでなく、ハードウェア構成におけるモジュールも指す。それゆえ、本実施の形態は、コンピュータ・プログラム、システム及び方法の説明をも兼ねている。ただし、説明の都合上、「記憶する」、「記憶させる」、これらと同等の文言を用いるが、これらの文言は、実施の形態がコンピュータ・プログラムの場合は、記憶装置に記憶させる、又は記憶装置に記憶させるように制御するの意である。また、モジュールは機能にほぼ一対一に対応しているが、実装においては、1モジュールを1プログラムで構成してもよいし、複数モジュールを1プログラムで構成してもよく、逆に1モジュールを複数プログラムで構成してもよい。また、複数モジュールは1コンピュータによって実行されてもよいし、分散又は並列環境におけるコンピュータによって1モジュールが複数コンピュータで実行されてもよい。なお、1つのモジュールに他のモジュールが含まれていてもよい。また、以下、「接続」とは物理的な接続の他、論理的な接続(データの授受、指示、データ間の参照関係等)の場合にも用いる。
また、システム又は装置とは、複数のコンピュータ、ハードウェア、装置等がネットワーク(一対一対応の通信接続を含む)等の通信手段で接続されて構成されるほか、1つのコンピュータ、ハードウェア、装置等によって実現される場合も含まれる。「装置」と「システム」とは、互いに同義の用語として用いる。所定という用語は、予め定められたの意の他に、そのときの状況・状態に応じて、又はそれまでの状況・状態に応じての意を含めて用いる。
また、画素塊とは、4連結又は8連結で連続する画素領域を少なくとも含み、これらの画素領域の集合をも含む。これらの画素領域の集合とは、4連結等で連続した画素領域が複数あり、その複数の画素領域は近傍にあるものをいう。ここで、近傍にあるものとは、例えば、互いの画素領域が距離的に近いもの、文章としての1行から1文字ずつ切り出すように縦又は横方向に射影し、空白地点で切り出した画像領域、又は所定間隔で切り出した画像領域等がある。例えば、文字認識処理を行って、1文字として認識された画像を1つの画素塊としてもよい。
なお、1つの画素塊として、1文字の画像となる場合が多い。以下、画素塊のことを文字又は文字画像ともいう。
ライン認識処理モジュール110は、文字情報データを受け付ける。ここでいう文字情報データとは、電子ドキュメント内の画素塊の矩形に関する情報を少なくとも含む。例えば、前述の文字外接矩形情報、フォント情報であってもよい。また、画素塊に対応している文字の認識順序に関する情報(文字認識装置によって認識順に順序付けられた番号)が含まれていてもよい。例えば、電子ドキュメント中における文字の座標(例えば、文字を囲む外接矩形の左上座標)、文字の大きさを表す外接矩形サイズ(外接矩形幅、高さ)、文字形状、文字コード、文字の順序情報、縦書き文字なのか横書き文字なのかを表す情報などである。本実施の形態では、これらの文字情報データを文字認識装置から受け取った場合について説明する。ただし、文字認識装置に限る必要はなく、文字の外接矩形を受け取って、同等の文字情報データを生成するようにしてもよい。
ライン認識処理モジュール110は、図2(a)の例に示すように、注目文字情報データの外接矩形(注目外接矩形212)の左上y座標(upper_y)が、その一つ前の文字情報データの外接矩形(注目外接矩形211)の左下y座標(lower_y)より小さいときは(upper_y<lower_y)、その注目文字情報データの外接矩形(注目外接矩形212)は、注目外接矩形211と同じ行であると認識する。なお、左上を原点(0,0)として、x座標は右方向へ、y座標は下方向へ向かうと数値が増える座標系である。
また、図2(b)の例に示すように、注目文字情報データの外接矩形(注目外接矩形222)の左上y座標(upper_y)が、その一つ前の文字情報データの外接矩形(注目外接矩形221)の左下y座標(lower_y)より大きいときは(lower_y>upper_y)、異なる行であると認識する。
そして、同じライン内にあると認識された文字情報データの列をライン特徴算出モジュール120へ渡す。
なお、受け付けた文字情報データは、文字画像の外接矩形の出現順序(例えば、横書きの場合は、左上から右へ走査し、次の行ではまた左から右へ走査した順番に並んでいる)となっているので、一つ前の文字情報データの外接矩形とは、出現順序で一つ前である。また、外接矩形の左上の座標を用いてソートしてもよい。
ライン認識処理モジュール110は、図3(a)の例に示すように、注目文字情報データの外接矩形(注目外接矩形303)と、その一つ前の文字情報データの外接矩形(外接矩形302)との外接矩形間距離311(以下、現外接矩形間距離ともいう)が、現在処理している行において、既に同一行であると認識された各外接矩形間の距離の平均値(以下、平均外接矩形間距離ともいう)をα倍した値以下である場合は(つまり、現外接矩形間距離≦平均外接矩形間距離×αを満たす場合)、注目外接矩形303は外接矩形302と同じ行であると認識する。なお、αは、ライン認識パラメータであり、所定の値である。例えば、文字情報データに応じて定められる。
また、図3(b)の例に示すように、注目文字情報データの外接矩形(注目外接矩形323)と、その一つ前の文字情報データの外接矩形(外接矩形322)との外接矩形間距離331が、現在処理している行における平均外接矩形間距離をα倍した値より大である場合は(現外接矩形間距離>平均外接矩形間距離×α)、注目外接矩形323は外接矩形322とは異なる行であると認識する。
つまり、ライン認識処理モジュール110によって同じ行と認識された文字情報データ列から行高さ、行幅、行外接矩形座標、平均外接矩形間距離などのラインに関する特徴を算出する。
また、行高列幅算出モジュール121は、行高さ(h)を先に求めた行外接矩形座標を用いて、h = max_y − min_y として求める。同様に、行幅(w)を行外接矩形座標を用いて、w = max_x − min_x として求める。これらの行高さ、行幅は、各外接矩形のサイズ(高さ、幅)又はその座標を用いて求める。
また、矩形間距離算出モジュール122は、平均文字外接矩形間距離を、同じ行に属する隣接する文字情報データの外接矩形間距離g0, g1, ……, gnの平均値として求める。なお、リストデータとしてg0, g1, …… , gnのそれぞれの値も保持するようにしてもよい。
ステップS502では、まず初めにライン認識処理モジュール110で認識された行に関して、行外接矩形座標min_yで昇順にソートする。
ステップS504では、ステップS502でソートされた行を全て探索(ステップS506からステップS514までの処理)したかどうかを判定する。全て探索されていればステップS516に、探索が終了していなければステップS506に処理を移す。
ステップS506では、注目する行(以降は、現探索行ともいう)をソート順に選択する。
ステップS508では、現探索行に関して段落に登録されているかどうかを判定する。現探索行が段落に登録されているならば処理をステップS504に戻し、登録されていなければステップS510に処理を移す。
ステップS512では、現段落に対して現探索行が登録できるかどうかを判定する。現探索行が現段落に登録可能ならば処理をステップS514に移し、登録できないならば処理をステップS504に戻す。なお、ステップS512における現探索行の登録可否処理の詳細は、図7を用いて後で詳しく説明する。
ここで、図6に段落情報の具体的な例を示す。段落情報として、例えば、その段落の位置情報(例えば、左上座標及び右下座標)、段落順序値(その段落を読む際の順序)を含む。段落認識処理モジュール130は、図6の例に示すように、段落に登録されている行情報(登録行情報)を用いて、段落に登録された全ての行の行外接矩形(登録行0 600から登録行8 608)を含む矩形を段落外接矩形610として、その左上座標(min_x, min_y)及び右下座標(max_x, max_y)を算出する。また図6には図示していないが、同一段落に登録された文字情報データ中で最も小さい文字認識順序の値min_orderを算出し、段落順序値とする。
次に、段落情報の更新について説明する。段落認識処理モジュール130は、本ステップにおいて、現段落に新たな行を登録する場合は、先述の段落外接矩形座標及び段落順序値を更新する。図6に示す具体例では、新たに処理対象とする行を登録行8 608とすると、その登録行8 608の行外接矩形の幅は、現段落外接矩形座標の幅(min_x, max_x)内に収まっているので、min_x及びmax_xは更新せず、max_yだけ更新する(図6では、更新前max_yから更新後max_yへ更新する)。さらに、現段落順序値と新たに登録される登録行8 608中の全ての文字情報データの文字認識順序値を比較して、現段落順序値よりも小さい値がある場合には、段落順序値min_orderをその小さい値(文字認識順序値)に更新する。
ステップS518では、全ての行が段落登録されたかを判定する。全ての行がいずれかの段落に登録されていれば段落抽出処理を終了する(ステップS599)。いずれの段落にも登録されていない行がある場合には、処理をステップS504に戻し、次の段落抽出処理を行う。
ステップS702において、現探索行が現段落の段落外接矩形に対して、右又は左にずれているかを判定する。つまり、現探索行の左端が現段落の右端より右にあるか否か、又は現探索行の右端が現段落の左端より左にあるか否かを判定する。例えば、図8(a)の例に示すように、現探索行812が現段落810より右にずれているかどうか、又は図8(b)の例に示すように、現探索行832が現段落830よりも左にずれているかどうかを判定する。現探索行が図8の例のように右あるいは左にずれている場合には、現探索行は現段落に登録せず、図5の例に示したステップS504に処理を戻す。それ以外の場合は、処理をステップS704に移す。
図11に示す例は、段落認識処理モジュール130において抽出された段落の様子を図式的に表したものである。段落認識処理モジュール130では、図5のフローチャート例で示したように、ステップS502において各行をy座標で昇順にソートしてから段落抽出処理を行うため、抽出する段落の段落外接矩形の最小y座標min_yが小さい順に段落が抽出される。図11で示す例では、段落1110、1111・・・1115(図11内では、「段落0」、「段落1」・・・「段落5」)の順に抽出される。通常、このままの段落順序では、オリジナルの電子ドキュメントやスキャン文章の読み順とは大きく異なるので、段落順序補正モジュール140によって、段落認識処理モジュール130で算出された段落情報の段落順序値min_orderに基づいて段落順序を補正する。段落順序値min_orderは、これまでは、段落中の文字情報データにおける、文字認識装置の認識順序の最小値を表しているので、抽出された各段落の段落順序を段落順序値で昇順にソートを行うことで、段落単位で順序を補正することが可能となる。
図12に補正された段落順序の例を示す。つまり、各段落の段落順序値min_orderを昇順にソートし、それに合わせて段落順序を補正した結果、段落1110、1111、1114、1115、1112、1113(図12内では、「段落0」、「段落1」・・・「段落5」)の順となる。
例えば、図13の例に示すように、段落順序補正モジュール140で補正された段落順序(段落1110、1111、1114、1115、1112、1113)にしたがって段落を探索し、現探索段落に登録された登録行を登録順(図13の例では、段落1111内に示した行順序)に探索し、現探索行中の文字情報データを順に探索し、その探索順序にしたがって文字情報データの文字順序を更新する。
なお、数式を用いて説明したが、数式には、その数式と同等のものを含めてもよい。同等のものとは、その数式そのものの他に、最終的な結果に影響を及ぼさない程度の数式の変形、又は数式をアルゴリズミックな解法で解くこと等が含まれる。
「プログラムを記録したコンピュータ読み取り可能な記録媒体」とは、プログラムのインストール、実行、プログラムの流通などのために用いられる、プログラムが記録されたコンピュータで読み取り可能な記録媒体をいう。
なお、記録媒体としては、例えば、デジタル・バーサタイル・ディスク(DVD)であって、DVDフォーラムで策定された規格である「DVD−R、DVD−RW、DVD−RAM等」、DVD+RWで策定された規格である「DVD+R、DVD+RW等」、コンパクトディスク(CD)であって、読出し専用メモリ(CD−ROM)、CDレコーダブル(CD−R)、CDリライタブル(CD−RW)等、光磁気ディスク(MO)、フレキシブルディスク(FD)、磁気テープ、ハードディスク、読出し専用メモリ(ROM)、電気的消去及び書換可能な読出し専用メモリ(EEPROM)、フラッシュ・メモリ、ランダム・アクセス・メモリ(RAM)等が含まれる。
そして、前記のプログラム又はその一部は、前記記録媒体に記録して保存や流通等させてもよい。また、通信によって、例えば、ローカル・エリア・ネットワーク(LAN)、メトロポリタン・エリア・ネットワーク(MAN)、ワイド・エリア・ネットワーク(WAN)、インターネット、イントラネット、エクストラネット等に用いられる有線ネットワーク、あるいは無線通信ネットワーク、さらにこれらの組み合わせ等の伝送媒体を用いて伝送させてもよく、また、搬送波に乗せて搬送させてもよい。
さらに、前記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。また、複数の記録媒体に分割して
記録されていてもよい。また、圧縮や暗号化など、復元可能であればどのような態様で記録されていてもよい。
120…ライン特徴算出モジュール
121…行高列幅算出モジュール
122…矩形間距離算出モジュール
130…段落認識処理モジュール
140…段落順序補正モジュール
150…文字順序補正モジュール
Claims (8)
- 電子文書内の画素塊の矩形に関する情報を用いて、該電子文書内の行又は列であるラインを抽出するライン抽出手段と、
前記ライン抽出手段によって抽出されたラインに応じて、前記電子文書内の段落を抽出する段落抽出手段と、
前記段落抽出手段によって抽出された段落を順序付けする段落順序付手段と、
前記段落順序付手段によって順序付けされた段落の順序であって、該段落に含まれるラインを順に検索し、ラインに含まれる文字を順に検索して、文字を順序付けする文字順序付手段
を具備することを特徴とする情報処理装置。 - 前記電子文書内の画素塊の矩形に関する情報として、該画素塊の矩形の高さ又は幅方向の位置を含み、
前記ライン抽出手段は、該画素塊の矩形の高さ若しくは幅、又は該画素塊の矩形の高さ若しくは幅方向の位置を用いて、該画素塊を含むラインである各行の高さ又は各列の幅を抽出する
ことを特徴とする請求項1に記載の情報処理装置。 - 前記段落抽出手段は、前記ライン抽出手段によって抽出されたラインである各行の高さ又は各列の幅、及び該ラインの高さ又は幅方向の位置を用いて段落を抽出する
ことを特徴とする請求項1又は2に記載の情報処理装置。 - 前記段落抽出手段は、前記ライン抽出手段によって抽出されたラインと、処理対象としている段落との位置関係に基づいて段落を抽出する
ことを特徴とする請求項1から3のいずれか一項に記載の情報処理装置。 - 前記段落抽出手段は、抽出した段落に関する情報として、該段落を囲む外接矩形の位置に関する情報を算出し、又は該段落の順序に関する情報を該段落に含まれる文字の出現順序に関する情報から算出する
ことを特徴とする請求項1から4のいずれか一項に記載の情報処理装置。 - 前記段落抽出手段は、同一行又は同一列に属するラインが複数存在する場合には、該ラインを順序付けする
ことを特徴とする請求項1から5のいずれか一項に記載の情報処理装置。 - 前記段落順序付手段は、前記段落に含まれる文字の出現順序に関する情報又は該段落の位置情報に基づいて、該段落を順序付けする
ことを特徴とする請求項1から6のいずれか一項に記載の情報処理装置。 - コンピュータを、
電子文書内の画素塊の矩形に関する情報を用いて、該電子文書内の行又は列であるラインを抽出するライン抽出手段と、
前記ライン抽出手段によって抽出されたラインに応じて、前記電子文書内の段落を抽出する段落抽出手段と、
前記段落抽出手段によって抽出された段落を順序付けする段落順序付手段と、
前記段落順序付手段によって順序付けされた段落の順序であって、該段落に含まれるラインを順に検索し、ラインに含まれる文字を順に検索して、文字を順序付けする文字順序付手段
として機能させることを特徴とする情報処理プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008098160A JP2009251872A (ja) | 2008-04-04 | 2008-04-04 | 情報処理装置及び情報処理プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008098160A JP2009251872A (ja) | 2008-04-04 | 2008-04-04 | 情報処理装置及び情報処理プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2009251872A true JP2009251872A (ja) | 2009-10-29 |
Family
ID=41312532
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008098160A Pending JP2009251872A (ja) | 2008-04-04 | 2008-04-04 | 情報処理装置及び情報処理プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2009251872A (ja) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050562A1 (ja) * | 2012-09-28 | 2014-04-03 | 富士フイルム株式会社 | 段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム |
US10621428B1 (en) | 2019-05-17 | 2020-04-14 | NextVPU (Shanghai) Co., Ltd. | Layout analysis on image |
CN111008559A (zh) * | 2019-10-31 | 2020-04-14 | 浙江数链科技有限公司 | 一种面单识别结果的排版方法、系统及计算机设备 |
CN111222368A (zh) * | 2018-11-26 | 2020-06-02 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
JP6838209B1 (ja) * | 2019-10-31 | 2021-03-03 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
JP2021114049A (ja) * | 2020-01-16 | 2021-08-05 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及び画像形成装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62165275A (ja) * | 1986-01-17 | 1987-07-21 | Hitachi Ltd | 文書画像フアイル装置 |
JPH0362284A (ja) * | 1989-07-31 | 1991-03-18 | Nec Corp | 文字行抽出装置 |
JPH03280152A (ja) * | 1990-03-29 | 1991-12-11 | Ricoh Co Ltd | 書式変換方式 |
JPH05174114A (ja) * | 1991-12-21 | 1993-07-13 | Oki Electric Ind Co Ltd | 情報処理装置及びそれを用いた文字認識装置 |
JPH07160810A (ja) * | 1993-12-09 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH0855185A (ja) * | 1994-08-15 | 1996-02-27 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH08329190A (ja) * | 1995-03-24 | 1996-12-13 | Fuji Xerox Co Ltd | 文字認識装置 |
JPH09190491A (ja) * | 1996-01-11 | 1997-07-22 | Canon Inc | 画像処理方法及びその装置 |
JPH09269944A (ja) * | 1996-04-01 | 1997-10-14 | Canon Inc | 画像処理装置及びその方法 |
JPH1040248A (ja) * | 1996-07-26 | 1998-02-13 | Toshiba Corp | 文書処理装置及び文書管理方法 |
-
2008
- 2008-04-04 JP JP2008098160A patent/JP2009251872A/ja active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62165275A (ja) * | 1986-01-17 | 1987-07-21 | Hitachi Ltd | 文書画像フアイル装置 |
JPH0362284A (ja) * | 1989-07-31 | 1991-03-18 | Nec Corp | 文字行抽出装置 |
JPH03280152A (ja) * | 1990-03-29 | 1991-12-11 | Ricoh Co Ltd | 書式変換方式 |
JPH05174114A (ja) * | 1991-12-21 | 1993-07-13 | Oki Electric Ind Co Ltd | 情報処理装置及びそれを用いた文字認識装置 |
JPH07160810A (ja) * | 1993-12-09 | 1995-06-23 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH0855185A (ja) * | 1994-08-15 | 1996-02-27 | Matsushita Electric Ind Co Ltd | 文字認識装置 |
JPH08329190A (ja) * | 1995-03-24 | 1996-12-13 | Fuji Xerox Co Ltd | 文字認識装置 |
JPH09190491A (ja) * | 1996-01-11 | 1997-07-22 | Canon Inc | 画像処理方法及びその装置 |
JPH09269944A (ja) * | 1996-04-01 | 1997-10-14 | Canon Inc | 画像処理装置及びその方法 |
JPH1040248A (ja) * | 1996-07-26 | 1998-02-13 | Toshiba Corp | 文書処理装置及び文書管理方法 |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014050562A1 (ja) * | 2012-09-28 | 2014-04-03 | 富士フイルム株式会社 | 段落領域の順序補正装置ならびにその動作制御方法およびその動作制御プログラム |
CN111222368A (zh) * | 2018-11-26 | 2020-06-02 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
CN111222368B (zh) * | 2018-11-26 | 2023-09-19 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
US10621428B1 (en) | 2019-05-17 | 2020-04-14 | NextVPU (Shanghai) Co., Ltd. | Layout analysis on image |
JP2020191057A (ja) * | 2019-05-17 | 2020-11-26 | ネクストヴイピーユー(シャンハイ)カンパニー リミテッドNextvpu(Shanghai)Co.,Ltd. | レイアウト解析方法、読書補助装置、回路及び媒体 |
CN111008559A (zh) * | 2019-10-31 | 2020-04-14 | 浙江数链科技有限公司 | 一种面单识别结果的排版方法、系统及计算机设备 |
JP6838209B1 (ja) * | 2019-10-31 | 2021-03-03 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
WO2021084702A1 (ja) * | 2019-10-31 | 2021-05-06 | 楽天株式会社 | 文書画像解析装置、文書画像解析方法およびプログラム |
CN111008559B (zh) * | 2019-10-31 | 2023-08-11 | 浙江数链科技有限公司 | 一种面单识别结果的排版方法、系统及计算机设备 |
US11900644B2 (en) | 2019-10-31 | 2024-02-13 | Rakuten Group, Inc. | Document image analysis apparatus, document image analysis method and program thereof |
JP2021114049A (ja) * | 2020-01-16 | 2021-08-05 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及び画像形成装置 |
JP7409102B2 (ja) | 2020-01-16 | 2024-01-09 | 京セラドキュメントソリューションズ株式会社 | 情報処理装置及び画像形成装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5663866B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP5321109B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP4623169B2 (ja) | 画像処理装置及び画像処理プログラム | |
US8391607B2 (en) | Image processor and computer readable medium | |
JP6119952B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2009251872A (ja) | 情報処理装置及び情報処理プログラム | |
US8751214B2 (en) | Information processor for translating in accordance with features of an original sentence and features of a translated sentence, information processing method, and computer readable medium | |
JP6221220B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5440043B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5720182B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP4830763B2 (ja) | 画像処理システムおよび画像処理プログラム | |
JP5062076B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP6003375B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP6003677B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5949248B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP4882929B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2011065311A (ja) | 画像処理装置及び画像処理プログラム | |
JP4900271B2 (ja) | 情報処理装置及び情報処理プログラム | |
JP2008108153A (ja) | 情報処理システムおよび情報処理プログラム | |
JP2005190439A (ja) | 情報処理装置、情報処理方法、プログラム及び記録媒体 | |
JP4973536B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP5531661B2 (ja) | 画像処理装置及び画像処理プログラム | |
JP2022051198A (ja) | Ocr処理装置、ocr処理方法、及びプログラム | |
JP2011100252A (ja) | 画像処理装置及び画像処理プログラム | |
JP2008084186A (ja) | 画像処理システム及び画像処理プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20090825 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111220 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120215 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20120904 |