JP2016045637A - 文書処理装置及びプログラム。 - Google Patents

文書処理装置及びプログラム。 Download PDF

Info

Publication number
JP2016045637A
JP2016045637A JP2014168500A JP2014168500A JP2016045637A JP 2016045637 A JP2016045637 A JP 2016045637A JP 2014168500 A JP2014168500 A JP 2014168500A JP 2014168500 A JP2014168500 A JP 2014168500A JP 2016045637 A JP2016045637 A JP 2016045637A
Authority
JP
Japan
Prior art keywords
image data
character
area
document
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2014168500A
Other languages
English (en)
Inventor
隼一 武田
Junichi Takeda
隼一 武田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2014168500A priority Critical patent/JP2016045637A/ja
Publication of JP2016045637A publication Critical patent/JP2016045637A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】文字領域に文字コードが埋め込まれている文書データにおいて、箇条書き記号が文字コードを有さない画像により表現されている場合でも、箇条書き記号を検出する。
【解決手段】
文書データ受付部301は、文書データを受け付ける。文字コード取得部302は、文書データから文字コードを取得する。文字画像データ生成部303は、取得された文字コードに基づいて、文字画像データを生成する。全体画像データ生成部305は、全体画像データを生成する。文章領域抽出部306は、文字画像データと一致する全体画像データの領域を、全体画像データの文章領域として抽出する。箇条書き記号検出部307は、全体画像データにおいて、抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、文字画像データに含まれない同一の非文字オブジェクトを箇条書き記号として検出する。
【選択図】図3

Description

本発明は、文書処理装置及びプログラムに関する。
特許文献1には、文字認識をすることなく、予め定められた特定方向に沿って配置されている、互いに対応する複数の着目領域の文書画像内における位置を特定し、この着目領域の位置に基づいて、文書内で項目が開始される位置を特定する技術が開示されている。
特許文献2には、紙葉類の画像データに対してラベリング処理し、列挙されたラベル群の中からキーワードを構成する可能性のあるラベルを選択して、選択されたそれぞれのラベルがキーワード「様」であるか否かを判定し、「様」と判定できたラベルの存在する位置と認識できた方向によって第1の文字情報列領域の位置と方向を特定し、特定できた第1の文字情報列領域の位置と方向に従って区分情報の読み取りを行う技術が開示されている。
特許文献3には、読み取られた帳簿のイメージデータから文字領域とセルを抽出し、抽出された文字領域に対して文字認識を行い、入力されたキーワードを文字コードと比較することで検索を行い、検索されたキーワードの近傍に位置するセルを推測して選択し、選択されたセルの中の文字コードを、このセルの位置情報と文字コードの位置情報とを比較することで特定する技術が開示されている。
特許文献4には、表示された帳票イメージのフィールドに相当する領域をポインティングデバイスを用いて指示すると、当該領域内又は近傍の領域のイメージデータに基づいて、フィールド項目属性情報の作成を行う技術が開示されている。
特開2010−146147号公報 特開2001−259532号公報 特開2002−024761号公報 特開2005−044256号公報
文字コードに基づいて箇条書き記号を検出する構成では、文書データにおいて、箇条書き記号が文字コードを有さない絵柄等の画像により表現されている場合には、箇条書き記号を検出することができないという問題があった。そして、箇条書き記号を検出することができない場合、例えば、文書データの文章を別の言語に翻訳する際に、箇条書きの行が正しく翻訳されない可能性がある。
本発明の目的は、文字領域に文字コードが埋め込まれている文書データにおいて、箇条書き記号が文字コードを有さない画像により表現されている場合でも、箇条書き記号を検出することが可能な文書処理装置及びプログラムを提供することである。
請求項1に係る本発明は、文書データを受け付ける受付手段と、
前記受付手段により受け付けられた文書データから文字コードを取得する取得手段と、
前記取得手段により取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成する第1の生成手段と、
前記文書データ全体の画像データである全体画像データを生成する第2の生成手段と、
前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出する抽出手段と、
前記全体画像データにおいて、前記抽出手段により抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出する検出手段と、
を有する文書処理装置である。
請求項2に係る本発明は、前記検出手段が、前記文章領域を基準とした予め定められた範囲の領域として、前記文章領域を、当該文章領域における文字列の行方向に予め定められた領域分広げた検出領域を生成し、前記全体画像データにおいて、前記検出領域内に前記文字画像データに含まれない画像データが複数存在し、当該複数の画像データがそれぞれ同一である場合、当該画像データを箇条書き記号として検出する請求項1記載の文書処理装置である。
請求項3に係る本発明は、前記検出手段が、前記文章領域における文字列の行と、前記複数の画像データの座標位置とが対応する場合に、当該複数の画像データを箇条書き記号として検出する請求項1または2記載の文書処理装置である。
請求項4に係る本発明は、前記検出手段が、検出した箇条書き記号に基づいて、前記文章領域において当該箇条書き記号と対応する文字列を箇条書きの行として検出する請求項1から3いずれか1項記載の文書処理装置である。
請求項5に係る本発明は、文書データの中から文字コードを有するオブジェクトの画像データである第1画像データを生成する第1生成手段と、
前記文書データ全体の画像データである第2画像データを生成する第2生成手段と、
前記第1画像データと一致する前記第2画像データの領域を基準とした予め定められた範囲に前記領域を拡大した拡大領域内に存在する、前記第1画像データに含まれない画像データを検出する検出手段と、
前記検出手段により検出された複数の画像データがそれぞれ対応する関係であるとき、前記複数の画像データを箇条書き記号と判定する判定手段と、
を有する文書処理装置である。
請求項6に係る本発明は、文書データを受け付けるステップと、
受け付けられた文書データから文字コードを取得するステップと、
取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成するステップと、
前記文書データ全体の画像データである全体画像データを生成するステップと、
前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出するステップと、
前記全体画像データにおいて、抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出するステップと、
をコンピュータに実行させるためのプログラムである。
請求項1に係る本発明によれば、文字領域に文字コードが埋め込まれている文書データにおいて、箇条書き記号が文字コードを有さない画像により表現されている場合でも、箇条書き記号を検出することが可能な文書処理装置を提供することができる。
請求項2に係る本発明によれば、文書データにおける文字列の行方向に文字コードを有さない箇条書き記号が存在する場合でも、箇条書き記号を検出することが可能な文書処理装置を提供することができる。
請求項3に係る本発明によれば、文字領域に文字コードが埋め込まれている文書データにおいて、箇条書き記号が文字コードを有さない画像により表現されている場合でも、文字列の行と対応する箇条書き記号を検出することが可能な文書処理装置を提供することができる。
請求項4に係る本発明によれば、文字領域に文字コードが埋め込まれている文書データにおいて、箇条書き記号が文字コードを有さない画像により表現されている場合でも、箇条書きの行を検出することが可能な文書処理装置を提供することができる。
請求項5に係る本発明によれば、文字領域に文字コードが埋め込まれている文書データにおいて、箇条書き記号が文字コードを有さない画像により表現されている場合でも、箇条書き記号を検出することが可能な文書処理装置を提供することができる。
請求項6に係る本発明によれば、文字領域に文字コードが埋め込まれている文書データにおいて、箇条書き記号が文字コードを有さない画像により表現されている場合でも、箇条書き記号を検出することが可能なプログラムを提供することができる。
本発明の一実施形態における文書処理システムのシステム構成を示す図である。 本発明の一実施形態における文書処理サーバ30のハードウェア構成を示すブロック図である。 本発明の一実施形態における文書処理サーバ30の機能構成を示すブロック図である。 本発明の一実施形態における文書処理サーバ30の処理を示すフローチャートである。 本発明の一実施形態における全体画像データ、文字画像データ及び文字コードが含まれない画像データの一例を示す図である。 本発明の一実施形態における文章領域、検出領域、箇条書き記号検出及び行検出の具体的な処理の一例を示す図である。 本発明の一実施形態における文書処理サーバ30の具体的な処理の一例を示す図である。 本発明の一実施形態における文書処理サーバ30の具体的な処理の一例を示す図である。 本発明の一実施形態における文書処理サーバ30の具体的な処理の一例を示す図である。
次に、本発明の実施の形態について図面を参照して詳細に説明する。
図1は、本発明の一実施形態の文書処理システムのシステム構成を示す図である。
本実施形態の文書処理システムは、図1に示されるように、端末装置10と、画像形成装置20と、文書処理サーバ(文書処理装置)30がネットワーク40を介して相互に接続されている。端末装置10は、文書データを生成して、ネットワーク40経由にて生成した文書データを文書処理サーバ30に対して送信する。文書処理サーバ30は、端末装置10から送信された文書データを受け付けて、文書データに対して後述する処理を行う。なお、画像形成装置20は、印刷(プリント)機能、スキャン機能、複写(コピー)機能、ファクシミリ機能等の複数の機能を有するいわゆる複合機と呼ばれる装置である。
また、本実施形態における端末装置10及び画像形成装置20は、文字領域に文字コードが埋め込まれ、箇条書き記号が文字コードを有さない絵柄等の画像により表現されている構造を有する文書データを生成して、この文書データをネットワーク40を介して文書処理サーバ30に対して送信する。もちろん、文字コードを有する画像により箇条書き記号を表現した文書データを作成することも可能である。
次に、本実施形態の文書処理システムにおける文書処理サーバ30のハードウェア構成を図2に示す。
文書処理サーバ30は、図2に示されるように、CPU11、メモリ12、ハードディスクドライブ(HDD)等の記憶装置13、ネットワーク40を介してデータの送信及び受信を行う通信インタフェース(IF)14、タッチパネル又は液晶ディスプレイ並びにキーボードを含むユーザインタフェース(UI)装置15を有する。これらの構成要素は、制御バス16を介して互いに接続されている。
CPU11は、メモリ12または記憶装置13に格納された制御プログラムに基づいて所定の処理を実行して、文書処理サーバ30の動作を制御する。なお、本実施形態では、CPU11は、メモリ12または記憶装置13内に格納された制御プログラムを読み出して実行するものとして説明したが、当該プログラムをCD−ROM等の記憶媒体に格納してCPU11に提供することも可能である。
図3は、CPU11によりメモリ12または記憶装置13に格納された制御プログラムが実行されることにより実現される文書処理サーバ30の機能構成を示す図である。
図3に示されるように、本実施形態における文書処理サーバ30は、文書データ受付部301と、文字コード取得部302と、文字画像データ生成部303と、文字数カウント部304と、全体画像データ生成部305と、文章領域抽出部306と、箇条書き記号検出部307と、記憶部308とによって構成される。
文書データ受付部301は、端末装置10または画像形成装置20からネットワーク40を介して文書データを受け付ける。ここで、本実施形態においては、文書データ受付部301は、文字領域に文字コードが埋め込まれ、箇条書き記号が文字コードを有さない絵柄等の画像により表現されている構造を有する文書データを受け付ける。
文字コード取得部302は、文書データ受付部301により受け付けられた文書データから文字コードを取得する。本実施形態においては、文字コード取得部302は、文字コードに基づいて、文字の種類、文字のサイズ及び文字の座標情報等を取得する。
文字画像データ生成部303は、文字コード取得部302により取得された文字コードに基づいて、文書データにおける文字列の画像データである文字画像データを生成する。本実施形態においては、文字画像データ生成部303は、文字コード取得部302により取得された各文字コードに基づいて、それぞれの文字の画像データである文字オブジェクトを生成することにより、文字画像データを生成する。
文字数カウント部304は、文字コード取得部302により取得された文字コードに基づいて、文字画像データにおける文字数を算出する。本実施形態においては、文字数カウント部304は、文字画像データ生成部303により生成された文字画像データを構成する文字オブジェクト数を計数する。
全体画像データ生成部305は、文書データ全体の画像データである全体画像データを生成する。本実施形態においては、全体画像データ生成部305は、文字コードに基づいて生成される文字オブジェクトと、文字コードを有さない画像オブジェクトとを含めて、文書データを構成する要素の全てがラスタライズされた画像データを全体画像データとして生成する。
文章領域抽出部306は、文字画像データと一致する全体画像データの領域を、全体画像データの文章領域として抽出する。本実施形態においては、文章領域抽出部306は、文字画像データと、全体画像データとを比較して、全体画像データにおいて、文字画像データの文字オブジェクト全体の外接矩形領域と一致する領域を文章領域として抽出する。
箇条書き記号検出部307は、全体画像データにおいて、文章領域抽出部306により抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、同一の非文字オブジェクト(文字画像データに含まれない同一の画像データ)を箇条書き記号として検出する。なお同一である場合だけでなく、予め定められた関係にある場合に当該複数の非文字オブジェクトを箇条書き記号として検出してもよい。例えば、複数の非文字オブジェクトが連続する数字である場合、これらを箇条書き記号として扱ってもよい(この場合、一般的な画像処理技術を利用して連続する数字であるかを判断する)。
また、箇条書き記号検出部307は、文章領域を基準とした予め定められた範囲の領域として、文章領域を、当該文章領域における文字列の行方向に予め定められた領域分広げた検出領域を生成する。本実施形態においては、箇条書き記号検出部307は、文字コード取得部302により取得された文字サイズに基づいて、検出領域として、例えば、文章領域を文字列の行方向に文字2つ分広げた検出領域を生成する。
なお、本実施形態においては、箇条書き記号検出部307は、文章領域において隣接する文字オブジェクトどうしの距離が短い方向を行方向と判定する。具体的には、箇条書き記号検出部307は、文章領域において、左右の文字オブジェクトどうしの距離が、上下の文字オブジェクトどうしの距離よりも短い場合には、この文章領域における文字列は横書きであると考えられるため、左右方向を行方向と判定する。また、箇条書き記号検出部307は、文章領域において、上下の文字オブジェクトどうし距離が、左右の文字オブジェクトどうしの距離よりも短い場合には、この文章領域における文字列は縦書きであると考えられるため、上下方向を行方向と判定する。
また、一般的に横書きの文字列においては、文字を左から右方向に配置していくため、横書きの文字列に箇条書き記号を配置する際には、行の先頭の文字よりも左側に配置されることが多い。従って、本実施形態においては、箇条書き記号検出部307は、文章領域における文字列が横書きである場合に、文章領域を行の先頭の文字よりも左方向に予め定められた領域分広げることにより検出領域を生成する。同様に、一般的に縦書きの文字列においては、箇条書き記号が行の先頭の文字よりも上側に配置されることが多いため、本実施形態においては、箇条書き記号検出部307は、文章領域における文字列が縦書きである場合に、文章領域を行の先頭の文字よりも上方向に予め定められた領域分広げることにより検出領域を生成する。
さらに、本実施形態においては、箇条書き記号検出部307は、文字数カウント部304において算出された文字オブジェクト数に対して、検出領域内の画像オブジェクト数が増加している場合に、この増加した分の画像オブジェクトを非文字オブジェクトであると判定する。
また、箇条書き記号検出部307は、文章領域における文字列の行と、複数の非文字オブジェクトの座標位置とが対応する場合に、当該複数の非文字オブジェクトを箇条書き記号として検出する。以下、本実施形態のおいては、箇条書き記号として検出された非文字オブジェクトを非文字の箇条書き記号として説明する。
また、箇条書き記号検出部307は、検出した箇条書き記号に基づいて、文章領域において箇条書き記号と対応する文字列を箇条書きの行として検出する。
記憶部308は、箇条書き記号を示す文字コードを予め記憶する。そして、箇条書き記号検出部307は、記憶部308を参照して、文字コード取得部302により取得された文字コードのうち、記憶部308により記憶された箇条書き記号を示す文字コードが含まれる場合には、当該箇条書き記号を示す文字コードに基づく文字を箇条書き記号として検出する。以下、本実施形態においては、箇条書き記号を示す文字コードに基づく文字を文字の箇条書き記号として説明する。
次に、本実施形態における文書処理サーバ30の処理を図4のフローチャートを参照して詳細に説明する。
まず、文書データ受付部301は、端末装置10または画像形成装置20からネットワーク40を介して文書データを受け付ける(ステップS101)。例えば、図5(A)に示されるように、文書データ受付部301は、文字領域に文字コードが埋め込まれ、箇条書き記号が文字コードを有さない絵柄により表現されている構造を有する文書データを受け付ける。
次に、文字コード取得部302は、文書データ受付部301により受け付けられた文書データから文字コードを取得する(ステップS102)。
そして、文字画像データ生成部303は、文字コード取得部302により取得された文字コードに基づいて、文書データにおける文字列の画像データである文字画像データを生成する(ステップS103)。例えば、図5(B)に示されるように、文字コード取得部302により取得された文字コードに基づいてそれぞれの文字オブジェクトを生成することにより、文字画像データを生成する。
また、文字数カウント部304は、文字コード取得部302により取得された文字コードに基づいて、文字画像データにおける文字数を算出する(ステップS104)。具体的には、文字数カウント部304は、文字画像データ生成部303により生成された文字画像データを構成する文字オブジェクト数を計数する。例えば、図5(B)に示されるように、文字数カウント部304は、文字画像データ生成部303により生成された文字画像データを構成する文字オブジェクト数が27個であると算出する。
次に、全体画像データ生成部305は、文書データ全体の画像データである全体画像データを生成する(ステップS105)。具体的には、全体画像データ生成部305は、文字コードに基づいて生成される文字オブジェクトと、図5(C)に示されるような文字コードを有さない画像オブジェクトとを含めて、図5(A)に示されるような文書データを構成する要素の全てがラスタライズされた画像データを全体画像データとして生成する。
次に、文章領域抽出部306は、文字画像データと一致する全体画像データの領域を、全体画像データの文章領域として抽出する(ステップS106)。本実施形態においては、文章領域抽出部306は、図6(A)の点線の領域で示されるように、文字画像データと、全体画像データとを比較して、全体画像データにおいて、文字画像データの文字オブジェクト全体の外接矩形領域と一致する領域を文章領域として抽出する。
そして、箇条書き記号検出部307は、文章領域を文章領域における文字列の行方向に予め定められた領域分広げた検出領域を生成する(ステップS107)。このとき、箇条書き記号検出部307は、文章領域における文字列が横書きであるか縦書きであるかを判定する。そして、例えば、文章領域における文字列が横書きである場合には、箇条書き記号検出部307は、図6(B)の太字の点線の領域で示されるように、文章領域を、当該文章領域における行の先頭の文字よりも左方向に文字2つ分広げた検出領域を生成する。
そして、箇条書き記号検出部307は、文字数カウント部304において算出された文字オブジェクト数に対して、検出領域内の画像オブジェクト数が増加しているか否かを判定する(ステップS108)。例えば、図6(B)に示されるように、文字数カウント部304において算出された文字オブジェクト数27個に対して、検出領域内の画像オブジェクト数が30個となっている場合には、増加した分の画像オブジェクトを非文字オブジェクトであると判定する。
次に、検出領域内の画像オブジェクト数が増加していると判定された場合に(ステップS108においてyes)、箇条書き記号検出部307は、増加した非文字オブジェクトが複数であるか否かを判定する(ステップS109)。例えば、図6(C)に示されるように、文字オブジェクト数27個に対して、3つの非文字オブジェクト101a〜101cが増加していることにより、検出領域内の画像オブジェクト数が30個となっている場合には、箇条書き記号検出部307は、非文字オブジェクト数が複数であると判定する。
そして、非文字オブジェクトが複数であると判定された場合(ステップS109においてyes)、箇条書き記号検出部307は、文章領域における文字列の行と、複数の非文字オブジェクトの座標位置とが対応するか否かを判定する(ステップS110)。例えば、図6(D)に示されるように、複数の非文字オブジェクト101a〜101cが、それぞれ文章領域における文字列の行方向の座標位置に存在する場合には、箇条書き記号検出部307は、文章領域における文字列の行と、複数の非文字オブジェクト101a〜101cの座標位置とが対応すると判定する。
そして、文章領域における文字列の行と、複数の非文字オブジェクトの座標位置とが対応する場合(ステップS110においてyes)、箇条書き記号検出部307は、複数の非文字オブジェクトがそれぞれ同一であるか否かを判定する(ステップS111)。例えば、箇条書き記号検出部307は、非文字オブジェクト101a〜101cの画素パターンをそれぞれ抽出して、それぞれの画素パターンが一致するものである場合には、非文字オブジェクト101a〜101cが同一であると判定する。
次に、複数の非文字オブジェクトがそれぞれ同一であると判定された場合(ステップS111においてyes)、箇条書き記号検出部307は、それぞれ同一であると判定された複数の非文字オブジェクトを箇条書き記号として検出する(ステップS112)。また、箇条書き記号検出部307は、記憶部308を参照して、文字コード取得部302により取得された文字コードのうち、箇条書き記号を示す文字コードが含まれている場合には、当該箇条書き記号を示す文字コードに基づく文字を箇条書き記号として検出する。さらに、箇条書き記号検出部307は、検出した箇条書き記号に基づいて、図6(D)に示されるように、文章領域において箇条書き記号と対応する文字列を箇条書きの行であることを検出する。
また、上記のステップS108〜ステップS111においてnoと判定された場合には、箇条書き記号の検出処理を終了する。
次に、本実施形態における文書処理サーバ30の処理の具体例を図7〜10を参照して詳細に説明する。なお、図7〜10に示されるように、以下の具体例においては、文章領域における文字列が横書きであるものとして説明する。
[具体例1]
まず、図7を参照して、非文字の箇条書き記号が含まれず、文字の箇条書き記号が含まれる文書データに対する文書処理サーバ30の処理の一例を説明する。
まず、文書データ受付部301は、図7(A)に示されるような文書データを受け付ける。
次に、図7(B)に示されるように、文字画像データ生成部303は、文字コード取得部302により取得された文字コードに基づいて文字画像データを生成する。このとき、文字数カウント部304は、図7(B)に示されるように、生成された文字オブジェクト数を44個と算出する。
そして、全体画像データ生成部305は、文書データの全体画像データを生成し、文字領域抽出部306は、文字画像データと一致する全体画像データの領域を、全体画像データの文章領域として抽出し、箇条書き記号検出部307は、図7(C)に示されるように、文章領域を文章領域における行の先頭の文字よりも左方向に文字2つ分広げた検出領域を生成する。
また、箇条書き記号検出部307は、文字数カウント部303により算出された文字オブジェクト数44個に対して、検出領域内の画像オブジェクト数が44個のままであるため、画像オブジェクト数が増加していないと判定する。
さらに、箇条書き記号検出部307は、記憶部308を参照して、文字コード取得部302により取得された文字コードのうち、箇条書き記号を示す文字コードが含まれているか否かを判定する。このとき、画像オブジェクト102a〜102cの文字コードが箇条書き記号を示す文字コードである場合には、箇条書き記号検出部307は、画像オブジェクト102a〜102cを文字の箇条書き記号として検出する。
[具体例2]
次に、図8を参照して、文書データに文字の箇条書き記号と、非文字の箇条書き記号とが含まれる場合の文書処理サーバ30の処理の一例を説明する。
まず、文書データ受付部301は、図8(A)に示されるような文書データを受け付ける。そして、図8(B)に示されるように、文字画像データ生成部303は、文字コード取得部302により取得された文字コードに基づいて文字画像データを生成する。このとき、文字数カウント部304は、図8(B)に示されるように、生成された文字オブジェクト数を94個と算出する。
そして、全体画像データ生成部305は、文書データの全体画像データを生成し、文字領域抽出部306は、文字画像データと一致する全体画像データの領域を、全体画像データの文章領域として抽出し、箇条書き記号検出部307は、図8(C)に示されるように、文章領域を文章領域における行の先頭の文字よりも左方向に文字2つ分広げた検出領域を生成する。
また、箇条書き記号検出部307は、文字数カウント部303により算出された文字オブジェクト数94個に対して、図8(C)に示されるように、検出領域内の画像オブジェクト数が97個となっているため、非文字オブジェクト103a〜103cが増加していると判定する。
そして、図8(C)に示されるように、文章領域における文字列の行と、非文字オブジェクト103a〜103cの座標位置とが対応しており、非文字オブジェクト103a〜103cがそれぞれ同一であると判定された場合、箇条書き記号検出部307は、非文字オブジェクト103a〜103cを非文字の箇条書き記号として検出する。
さらに、箇条書き記号検出部307は、記憶部308を参照して、文字コード取得部302により取得された文字コードのうち、箇条書き記号を示す文字コードが含まれているか否かを判定する。このとき、画像オブジェクト104a〜104dの文字コードが箇条書き記号を示す文字コードである場合には、箇条書き記号検出部307は、画像オブジェクト104a〜104dを文字の箇条書き記号として検出する。
[具体例3]
次に、図9を参照して、文書データに複数種類の非文字の箇条書き記号が含まれる場合の文書処理サーバ30の処理の一例を説明する。
まず、文書データ受付部301は、図9(A)に示されるような文書データを受け付ける。そして、図9(B)に示されるように、文字画像データ生成部303は、文字コード取得部302により取得された文字コードに基づいて文字画像データを生成する。このとき、文字数カウント部304は、図9(B)に示されるように、生成された文字オブジェクト数を68個と算出する。
そして、全体画像データ生成部305は、文書データの全体画像データを生成し、文字領域抽出部306は、文字画像データと一致する全体画像データの領域を、全体画像データの文章領域として抽出し、箇条書き記号検出部307は、図9(C)に示されるように、文章領域を文章領域における行の先頭の文字よりも左方向に文字2つ分広げた検出領域を生成する。
また、箇条書き記号検出部307は、文字数カウント部303により算出された文字オブジェクト数68個に対して、図9(C)に示されるように、検出領域内の画像オブジェクト数が74個となっているため、非文字オブジェクト101a〜101c及び非文字オブジェクト103a〜103cが増加していると判定する。
そして、図8(C)に示されるように、箇条書き記号検出部307は、文章領域における文字列の行と、非文字オブジェクト101a〜101c及び非文字オブジェクト103a〜103cの座標位置とが対応していると判定する。
また、非文字オブジェクト101a〜101cがそれぞれ同一であると判定され、非文字オブジェクト103a〜103cがそれぞれ同一であると判定された場合、箇条書き記号検出部307は、非文字オブジェクト101a〜101c及び非文字オブジェクト103a〜103cをそれぞれ非文字の箇条書き記号として検出する。
なお、本実施形態においては、文章領域を文字列の行方向に文字2つ分広げることにより検出領域を生成するものとして説明した。しかし、検出領域は、文章領域を基準とした予め定められた範囲の領域であれば文字2つ分広げたものに限定されるものではない。
また、本実施形態においては、文書データ受付部301において、横書きの文章で構成された文書データが受け付けられた場合について説明したが、本発明は縦書きの文章で構成された文書データに対しても同様に適用可能である。この場合には、箇条書き記号検出部307は、文章領域を行の先頭の文字よりも上方向に予め定められた領域分広げた検出領域を生成するようにすればよい。
さらに、本実施形態においては、箇条書き記号検出部307は、文章領域における文字列が横書きである場合には、文章領域を行の先頭の文字よりも左方向に予め定められた領域分広げることにより検出領域を生成するものとして説明した。しかし、文書データがアラビア語等のように文字を右から左方向に配置する言語で構成されている場合には、文章領域を行の先頭の文字よりも右方向に予め定められた領域分広げることにより検出領域を生成するようにしてもよい。または、箇条書き記号検出部307は、文章領域を文字列の行の両方向に予め定められた領域分広げた検出領域を生成するようにしてもよい。
また、本実施形態においては、記憶部308において箇条書き記号を示す文字コードを予め記憶しておき、箇条書き記号検出部307は、文字コード取得部302により取得された文字コードのうち、記憶部308により記憶された箇条書き記号を示す文字コードが含まれる場合には、当該箇条書き記号を示す文字コードに基づく文字を文字の箇条書き記号として検出するものとして説明した。しかし、箇条書き記号検出部307は、文字の箇条書き記号を検出する際に、複数の文字列の行の先頭において、同一の文字コードに基づく文字が存在する場合に、当該文字コードに基づく文字を文字の箇条書き記号として検出するようにしてもよい。
10 端末装置
11 CPU
12 メモリ
13 記憶装置
14 通信IF
15 UI装置
16 制御バス
20 画像形成装置
30 文書処理サーバ
40 ネットワーク
101a〜101c、103a〜103c、104a〜104d 非文字オブジェクト
102a〜102c 画像オブジェクト
301 文書データ受付部
302 文字コード取得部
303 文字画像データ生成部
304 文字数カウント部
305 全体画像データ生成部
306 文章領域検出部
307 箇条書き記号検出部
308 記憶部

Claims (6)

  1. 文書データを受け付ける受付手段と、
    前記受付手段により受け付けられた文書データから文字コードを取得する取得手段と、
    前記取得手段により取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成する第1の生成手段と、
    前記文書データ全体の画像データである全体画像データを生成する第2の生成手段と、
    前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出する抽出手段と、
    前記全体画像データにおいて、前記抽出手段により抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出する検出手段と、
    を有する文書処理装置。
  2. 前記検出手段は、前記文章領域を基準とした予め定められた範囲の領域として、前記文章領域を、当該文章領域における文字列の行方向に予め定められた領域分広げた検出領域を生成し、前記全体画像データにおいて、前記検出領域内に前記文字画像データに含まれない画像データが複数存在し、当該複数の画像データがそれぞれ同一である場合、当該画像データを箇条書き記号として検出する請求項1記載の文書処理装置。
  3. 前記検出手段は、前記文章領域における文字列の行と、前記複数の画像データの座標位置とが対応する場合に、当該複数の画像データを箇条書き記号として検出する請求項1または2記載の文書処理装置。
  4. 前記検出手段は、検出した箇条書き記号に基づいて、前記文章領域において当該箇条書き記号と対応する文字列を箇条書きの行として検出する請求項1から3いずれか1項記載の文書処理装置。
  5. 文書データの中から文字コードを有するオブジェクトの画像データである第1画像データを生成する第1生成手段と、
    前記文書データ全体の画像データである第2画像データを生成する第2生成手段と、
    前記第1画像データと一致する前記第2画像データの領域を基準とした予め定められた範囲に前記領域を拡大した拡大領域内に存在する、前記第1画像データに含まれない画像データを検出する検出手段と、
    前記検出手段により検出された複数の画像データがそれぞれ対応する関係であるとき、前記複数の画像データを箇条書き記号と判定する判定手段と、
    を有する文書処理装置。
  6. 文書データを受け付けるステップと、
    受け付けられた文書データから文字コードを取得するステップと、
    取得された文字コードに基づいて、前記文書データにおける文字列の画像データである文字画像データを生成するステップと、
    前記文書データ全体の画像データである全体画像データを生成するステップと、
    前記文字画像データと一致する前記全体画像データの領域を、当該全体画像データの文章領域として抽出するステップと、
    前記全体画像データにおいて、抽出された文章領域を基準とした予め定められた範囲の領域内に複数存在する、前記文字画像データに含まれない同一の画像データを箇条書き記号として検出するステップと、
    をコンピュータに実行させるためのプログラム。
JP2014168500A 2014-08-21 2014-08-21 文書処理装置及びプログラム。 Pending JP2016045637A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014168500A JP2016045637A (ja) 2014-08-21 2014-08-21 文書処理装置及びプログラム。

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014168500A JP2016045637A (ja) 2014-08-21 2014-08-21 文書処理装置及びプログラム。

Publications (1)

Publication Number Publication Date
JP2016045637A true JP2016045637A (ja) 2016-04-04

Family

ID=55636171

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014168500A Pending JP2016045637A (ja) 2014-08-21 2014-08-21 文書処理装置及びプログラム。

Country Status (1)

Country Link
JP (1) JP2016045637A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185756A (ja) * 1997-09-03 1999-03-30 Sharp Corp 翻訳装置及び翻訳装置制御プログラムを記憶した媒体
JP2002207494A (ja) * 2001-01-11 2002-07-26 Sharp Corp 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004173112A (ja) * 2002-11-21 2004-06-17 Nippon Telegr & Teleph Corp <Ntt> 映像処理装置及び方法
JP2012212293A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 文書認識装置、文書認識方法、プログラム及び記憶媒体
JP2014099182A (ja) * 2013-12-10 2014-05-29 Toshiba Corp 電子機器および手書き文書処理方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1185756A (ja) * 1997-09-03 1999-03-30 Sharp Corp 翻訳装置及び翻訳装置制御プログラムを記憶した媒体
JP2002207494A (ja) * 2001-01-11 2002-07-26 Sharp Corp 音声合成装置及び音声合成方法並びに音声合成プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2004173112A (ja) * 2002-11-21 2004-06-17 Nippon Telegr & Teleph Corp <Ntt> 映像処理装置及び方法
JP2012212293A (ja) * 2011-03-31 2012-11-01 Dainippon Printing Co Ltd 文書認識装置、文書認識方法、プログラム及び記憶媒体
JP2014099182A (ja) * 2013-12-10 2014-05-29 Toshiba Corp 電子機器および手書き文書処理方法

Similar Documents

Publication Publication Date Title
US10049096B2 (en) System and method of template creation for a data extraction tool
US11321559B2 (en) Document structure identification using post-processing error correction
US10503993B2 (en) Image processing apparatus
US7796817B2 (en) Character recognition method, character recognition device, and computer product
US11418658B2 (en) Image processing apparatus, image processing system, image processing method, and storage medium
US9519404B2 (en) Image segmentation for data verification
JP2021043478A (ja) 情報処理装置、その制御方法及びプログラム
US20150277745A1 (en) Computer input using hand drawn symbols
EP2884425B1 (en) Method and system of extracting structured data from a document
CN108062301A (zh) 文字翻译方法及其装置
JP2012173959A (ja) 文字認識装置及びプログラム
JP2018055256A (ja) 情報処理装置、情報処理方法及びプログラム
US10127478B2 (en) Electronic apparatus and method
JP4518212B2 (ja) 画像処理装置及びプログラム
JP2016045637A (ja) 文書処理装置及びプログラム。
JP2008004116A (ja) 映像中の文字検索方法及び装置
JP2021028770A (ja) 情報処理装置及び表認識方法
JP2006279090A (ja) 画像処理装置、画像処理方法及び画像処理プログラム
JP2015176522A (ja) 情報処理装置及び情報処理プログラム
JP2013182459A (ja) 情報処理装置、情報処理方法及びプログラム
JP5830996B2 (ja) 画像処理装置及びプログラム
US8913079B2 (en) Apparatus, a method and a program thereof
US20210295032A1 (en) Information processing device and non-transitory computer readable medium
JP2018063597A (ja) 文字認識装置、文字認識方法、文字認識プログラム、および帳票
JP5298830B2 (ja) 画像処理プログラム、画像処理装置及び画像処理システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170720

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180423

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180420

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180607

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20181206