JP2020086719A - 文書データ変更装置、文書データ変更方法 - Google Patents

文書データ変更装置、文書データ変更方法 Download PDF

Info

Publication number
JP2020086719A
JP2020086719A JP2018217592A JP2018217592A JP2020086719A JP 2020086719 A JP2020086719 A JP 2020086719A JP 2018217592 A JP2018217592 A JP 2018217592A JP 2018217592 A JP2018217592 A JP 2018217592A JP 2020086719 A JP2020086719 A JP 2020086719A
Authority
JP
Japan
Prior art keywords
character
image
background
document data
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018217592A
Other languages
English (en)
Inventor
俊貴 竹内
Toshiki Takeuchi
俊貴 竹内
貴広 馬場
Takahiro Baba
貴広 馬場
千聖 田中
Chisato Tanaka
千聖 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toppan Edge Inc
Original Assignee
Toppan Forms Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toppan Forms Co Ltd filed Critical Toppan Forms Co Ltd
Priority to JP2018217592A priority Critical patent/JP2020086719A/ja
Publication of JP2020086719A publication Critical patent/JP2020086719A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Character Discrimination (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】画像によって表される文字を変更する場合であっても、背景の連続性がなくなることを防止することができる文書データ変更装置を提供する。【解決手段】文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識する文字認識部と、前記文字画像の背景を認識する背景認識部と、文字認識された結果に基づいて、前記文字画像に含まれる文字が置換対象の文字である場合には、当該置換対象の文字を置換後の文字に変更するとともに、当該置換後の文字に対して前記認識された背景を合成した置換データを生成し、前記文字画像を前記置換データに変更する変更部と、を有する。【選択図】図1

Description

本発明は、文書データ変更装置、文書データ変更方法に関する。
帳票は、各種手続きの申込書や、クレジットカードの引き落とし明細書等として用いられ、印刷物としてユーザへの配布やWeb上での提示が行われている。
このような帳票は、複数あるデータ形式のうち、例えば、米国アドビシステムズ社が提唱するPDF(Portable Document Format)形式のドキュメントファイルに変換してから印刷処理し、当該PDFドキュメントファイルの状態で保存する場合がある。この形式とすることで、PDFドキュメントファイルとして印刷処理して提示する場合と、Web上で提示する場合とで同一の形態で提示することができる。
このような帳票は、発行元において作成された後に記述内容を変更する必要が生じた場合、変更の対象となる箇所(変更対象箇所)に対して変更が行われる。
画像データに含まれる文字等についてチェックを行うためのシステムも開示されている(例えば、特許文献1)。
特許第4467832号公報
しかしながら、帳票に記載される文字は、ドキュメントファイルにおいて文字データを用いて記述される場合もあるが、文字画像を用いて記述される場合もある。例えば、会社名、書類名称、項目の名称、商品名、広告等のデザイン性のある文字列やロゴ(ロゴタイプ)は、文字列であっても画像によって表す場合がある。文字が文字データを用いて記述される場合には、文字検索機能を利用することで、変更対象の文字があるか否かを簡単に見つけることができるが、文字が文字画像によって記述される場合には、文字検索機能を利用することができない。そのため、オペレータは、文字検索機能を利用した文字の変更作業とは別に、ドキュメントファイルを画面上に表示させ、変更対象箇所があるか否かを画面上における表示内容を目視によって探す必要がある。そのため、変更作業が、文字検索機能を利用した変更作業と、目視によって変更箇所を探す変更作業との2段階となってしまい、また、目視によって変更箇所を探す負担が大きい。
本発明は、このような事情に鑑みてなされたもので、その目的は、画像によって表される文字を変更する場合であっても、背景の連続性がなくなることを防止することができる文書データ変更装置、文書データ変更方法を提供することにある。
上述した課題を解決するために、本発明は、文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識する文字認識部と、前記文字画像の背景を認識する背景認識部と、文字認識された結果に基づいて、前記文字画像に含まれる文字が置換対象の文字である場合には、当該置換対象の文字を置換後の文字に変更するとともに、当該置換後の文字に対して前記認識された背景を合成した置換データを生成し、前記文字画像を前記置換データに変更する変更部と、を有する。
また、本発明は、文字認識部が、文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識し、背景認識部が、前記文字画像の背景を認識し、変更部が、文字認識された結果に基づいて、前記文字画像に含まれる文字が置換対象の文字である場合には、当該置換対象の文字を置換後の文字に変更するとともに、当該置換後の文字に対して前記認識された背景を合成した置換データを生成し、前記文字画像を前記置換データに変更する。
以上説明したように、この発明によれば、画像によって表される文字の変更を行う場合であっても、背景の連続性がなくなることを防止することができる。
この発明の一実施形態による文書データ変更システム1の構成を示す概略ブロック図である。 文字認識部102によって文字認識された結果の一例を示す図である。 文書データ変更システム1の動作を説明するシーケンス図である。 変更処理の過程を説明する概念図である。 背景色が設定された文字を変更する場合の一例を示す図である。 リスト作成の処理を説明するシーケンス図である。
以下、本発明の一実施形態による文書データ変更システム1について図面を参照して説明する。
図1は、この発明の一実施形態による文書データ変更システム1の構成を示す概略ブロック図である。
文書データ変更システム1は、文書データ変更装置10に対して端末装置20A、端末装置20B(以下、識別しないときは単に「端末装置20」と称する)がネットワーク30を介して接続される。文書データ変更装置10は、帳票として用いられる文書データにおいて変更を行う対象の箇所について記述内容を変更する機能を有する。帳票は、例えば、各種手続の申込書、カタログ、パンフレット、広告等である。
端末装置20は、コンピュータ、スマートフォン、タブレット端末等であり、帳票を発行するユーザや帳票を作成するユーザによって利用される。端末装置20には、入力装置が設けられている。入力装置は、例えば、タッチパネル、キーボード、マウス等である。
端末装置20は、帳票として用いられる文書データを文書データ変更装置10に送信する。この文書データは、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む。文字データは、例えば、所定の文字コードに対応づけられた文字の情報をいい、検索用キーワードとして入力された検索文字に対応して検索可能となる文字の情報である。文字画像は、例えば、会社名、書類名称、項目の名称、商品名、広告等のデザイン性のある文字列やロゴ(ロゴタイプ)が画像として表現される場合に用いられることがある。
このような文書データは、文書作成ソフトウェア等を用いて任意のデータ形式に従って作成されたデータであってよい。この実施形態においては、データ形式がPDF形式である場合について説明するが、文字データと画像データが含まれる文書データであれば、例えば、マイクロソフト社のMicrosoft Word(登録商標)、Microsoft Excel(登録商標)、Microsoft PPT(Power Point)(登録商標)、アドビシステムズ社のイラストレータ(登録商標)等のデータ形式で作成された文書データであってもよい。
また、文書データは、PDF形式等のデータであってもよいが、印刷された帳票をスキャナで光学的に読み取るか、カメラで撮影されることで生成される画像ファイルであってもよい。この場合における文書データは、文字データが含まれていない。ただし、このような画像ファイルに対して文字データが付加されたデータを文書データとして用いることもできる。
ここで帳票は、例えば端末装置20Aにおいて文書作成ソフトウェア等で作成された後、PDF形式で保存され、帳票を印刷するためのデータとして用いられたり、WEBサーバを用いてWEB上において公開され、各種申し込みをするユーザの端末装置(例えば端末装置20B)がダウンロードして利用可能となっている。
端末装置20Aのユーザは、このような文書データの一部の文字を変更したい場合には、文書データを文書データ変更装置10に送信し、文書データの少なくとも一部を変更することができる。
次に、文書データ変更装置10は、通信部101と、文字認識部102と、背景認識部103と、変更部104と、リスト生成部105と、出力部106と、制御部107、記憶部108とを有する。
通信部101は、ネットワーク30を介して端末装置20A、端末装置20Bと通信を行う。また、通信部101は、端末装置20から送信される文書データを受信する機能、文書データ変更装置10において生成される各種情報を端末装置20に送信する機能を有する。
文字認識部102は、文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識する。このような文書データは、大別すると2種類ある。
1つ目は、文字が画像として記述された画像データであり、例えば、帳票がスキャナ等で読み取られることで生成される画像ファイルや、帳票がカメラで撮像された撮像データがある。
2つ目は、文字を表示する位置を示す座標データと当該文字を表す文字コードとが対応づけされた文字データと、座標データと文字が画像として表現された文字画像とが対応付けられた画像データと、を含む文書データである。2つ目の文書データは、例えば、PDF形式で保存されるドキュメントファイルである。
文字認識部102は、文字データについては、文字データに含まれる文字コードを読み込むことで文字を認識し、画像データについては、画像データに含まれる文字画像が表す文字を認識して認識結果に対応する文字の文字コードを得ることで文字を認識する。文字画像に対して文字認識を行うことで、文字画像に含まれる文字の文字コードを生成することができる。これにより、文字画像であっても検索用キーワードを用いた検索を行うことが可能となるため、目視によって変更箇所を探す必要がない。また、検索用キーワードを用いて、文字データと画像データの両方を対象として検索することが可能となり、文字検索機能を利用した変更作業と、目視によって変更箇所を探す変更作業との2段階となってしまうことを防止することができる。
ここで、図2は、文字認識部102によって画像データを対象として文字認識された結果の一例を示す図である。この図では、2つの文字認識結果が図示されている。ここでは、一例として、「平」と「成」の2つの文字が1つの文字画像として表現されている場合の文字認識結果が示されている。上段は、文字画像のうち「平」という文字が文字認識された結果を表し、下段は、文字画像のうち「成」という文字が文字認識された結果であり、それぞれ文字と当該文字が記述される文書データにおける座標位置を示す座標データを含む。「l」は文字の左端のX座標(水平方向を表す座標軸)、「t」は文字の上端のy座標(垂直方向を表す座標軸)、「r」文字の右端のX座標、「b」は文字の下端のy座標における位置を表す。これらの座標によって表された領域に読み取り結果の文字が存在することを示している。このような文字認識結果は、1文字毎に得られてもよいし、1つの文字画像に含まれる複数の文字を1つの文字列(単語)として1つの文字認識結果を得るようにしてもよい。この場合、座標データは、1つの文字列の先頭の文字と末尾の文字のそれぞれの位置に基づいて特定される。
背景認識部103は、置換対象の文字画像の背景を認識する。
背景の表示態様は、色と模様がある。背景認識部103は、色を認識する場合、置換対象の文字画像の背景の色情報を取得することで背景色を認識する。また、背景認識部103は、模様を認識する場合、置換対象の文字画像に含まれる文字の周囲の背景から所定サイズの領域内の画像(背景)をコピーすることで認識する。背景の模様としては、例えば、ハッチングやドットパターンがある。
変更部104は、文字認識された結果に基づいて、文字コードが置換対象である文字の文字コードに対応している場合には、当該文字コードを置換後の文字に対応する文字コードに変更し、文字画像に含まれる文字が置換対象である文字である場合には、当該文字画像を置換後の文字を含む置換データに変更する。置換後の文字に対応する文字コードは、端末装置20のオペレータから予め入力してもらうようにしてもよいし、置換対象が見つかった段階でオペレータに入力してもらうようにしてもよい。ここで、変更部104は、置換対象の文字コードや置換対象の文字を含む文字画像があるか否かの判定を行うが、元の文書データの一部の文字コードあるいは文字画像を変更することができのものであれば、データの入れ換え、付け替え、切り換え等のいずれの方法によって置換がなされてもよい。
変更部104は、文字画像を変更する場合、当該文字画像を、予め用意された、置換後の文字が所定のフォントで表現された文字画像、または、置換後の文字に対応する文字画像を生成することで得られる文字画像に変更する。すなわち、変更部104は、(a)変更後の文字画像を予め準備されている文字画像に変更すること、(b)文字画像を変更する時点で置換後の文字画像を生成して変更すること、のいずれの処理であっても実行することができる。
(a)の場合における予め入力される文字画像は、端末装置20のオペレータから予め入力されるようにしてもよい。
(b)の場合、変更部104は、置換後の文字に対して、背景認識部103によって認識された背景を合成した置換データを生成する。この置換データは、文字画像として生成することもでき、また、文字データとして生成することもできる。
変更部104は、置換データを文字画像として生成する場合、置換後の文字が画像として表現された文字画像を生成し、この文字画像の背景として、背景認識部103よって認識された背景を合成する。例えば、変更部104は、生成された文字画像における背景の色または模様について、背景認識部103によって認識された色または模様に置換するか、背景を透明にした文字画像を生成し、生成された文字画像の下層側のレイヤに背景認識部103によって認識された背景を重ねることで、置換後の文字画像を生成する。
変更部104は、置換データを文字データとして生成する場合、置換後の文字を示す文字コードに対して、背景認識部103によって認識された背景をバックグラウンド背景として設定する。例えば、置換データをXML(Extensible Markup Language)形式で記述する場合には、置換後の文字データに対して、バックグラウンド背景の色を指定するコードをタグで囲むことで設定することができる。
このように、置換された後の文字に対して背景を合成するようにしたので、置換前の文字画像を置換データに変更した場合であっても、置換データの周辺の背景と置換データの背景が同一またはほぼ同一とすることができるため、置換データ周辺の背景と置換データの背景との連続性を保つことができる。これにより、文字画像を置換した場合であっても、帳票全体の見栄えが低下したり、違和感を与えてしまうようなことを防ぐことができる。
なお、置換データとして背景を合成する処理については、他の方法で実現してもよい。例えば、文字の背景がベタ塗り(同一の色で一様に塗り潰した状態)であって、文字色の方が背景に比べて薄い(淡い)色である場合、変更部104は、画像データの背景と文字の色について、前処理としてネガポジ反転をしておき、文字認識部102によって文字認識を行わせ、その文字認識結果を利用して置換対象の文字を置換した後、ネガポジ反転を元に戻すようにしてもよい。また、ネガポジ反転を元に戻すのではなく、上述したように、背景の色を合成するようにしてもよい。
なお、背景となる色は、予め決められた色が設定されてもよいし、置換対象の文字の周囲の所定サイズの領域における画素の色を検出し、検出された色が複数ある場合には、最も面積が広い色を背景として設定し、2番目に多い色を文字の色として設定するようにしてもよい。
リスト生成部105は、検索用キーワードを用いて検索された結果に基づいて、文書データに置換対象の文字が含まれるか否かを判定し、判定結果を文書データに関連付けて記憶部108に記憶する。
また、リスト生成部105は、判定結果が関連付けられた文書データの複数を対象として、各文書データに置換対象の文字が含まれているか否かを表す一覧情報(リスト)を生成する。
出力部106は、各種情報を出力する。出力先としては、例えば、端末装置20や、文書データ変更装置10に接続される表示装置等である。
制御部107は、文書データ変更装置10内の各部を制御する。
記憶部108は、各種データを記憶する。記憶部108は、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)等の記憶媒体、またはこれらの記憶媒体の任意の組み合わせによって構成される。
次に、文書データ変更システム1の動作について、図3、図4を用いて説明する。
図3は、文書データ変更システム1の動作を説明するシーケンス図、図4は、変更処理の過程を説明する概念図である。
端末装置20は、ユーザからの指示に応じて、変更する対象の文字を含み得る帳票の文書データ、検索対象を指定する検索用キーワード、置換後の文字を指定する指示を文書データ変更装置10に送信する(ステップS101)。検索用キーワードは、置換する対象の文字列を表すテキストデータである。この検索用キーワードは、少なくとも1文字以上の文字列である。
文書データ変更装置10の文字認識部102は、端末装置20から文書データと検索用キーワードと置換後の文字を指定する指示を通信部101によって受信して記憶部108に記憶し、文書データに対して二値化処理を行う(ステップS201)。この二値化処理を行うことにより、文字認識部102は、文書データにおける濃淡がある各画素について、白と黒の二値のいずれかにすることができる。
次に、文字認識部102は、二値化された文書データを対象として透過処理を行う(ステップS202)。この透過処理を行うことにより、文字認識部102は、文書データを光学的に読み込んだ際に生じる、帳票の外周にできた影、枠線、画像上に存在するノイズ(光学系に存在する汚れ等に起因して生じるデータ)等を消去する。
なお、文字認識部102は、前処理として、上述の二値化処理や透過処理の他に、必要に応じて傾きを無くす補正等を行ってもよい。
次に、文字認識部102は、透過処理が行われた後の文書データを対象とし、文書データに含まれる文字データと文字画像について文字認識処理を行う(ステップS203)。ここでは、文字認識部102は、文字データについて、文字データに含まれる文字コードを読み込むことで文字を認識し、画像データについて、文字画像が表す文字を認識して認識結果に対応する文字の文字コードを得る。
文字認識処理が行われると、変更部104は、文字認識された結果を対象として、検索用キーワードを用いて検索を行う(ステップS204)。この検索は、文字データから読み取った文字コードと、文字画像から得られた文字コードを対象として行われる。なお、例えば画像データ等の文字データが含まれていない文書データについては、文字画像から得られた文字コードを対象として検索が行われる。
変更部104は、検索用キーワードに対応する文字コードが文書データから検索結果として得られた場合には、その得られた文字データについて変更対象として出力部106によって端末装置20に送信する(ステップS205)。例えば、変更部104は、ステップS202において透過処理が行われた後の文書データの画像に対して、ステップS204における検索結果として得られた文字コードに対応する文字に対して、変更対象があることを示す図形を重畳させた画像を生成し、この生成された情報を変更対象を表す情報として端末装置20に送信する。これにより、端末装置20のユーザは、文書データのどの位置に、変更対象となる文字があるかを簡単に把握することができる。
端末装置20は、文書データ変更装置10から送信される変更対象を表す情報を受信すると、受信した情報を画面上に表示する。ここで、図4に示すように、端末装置20の表示画面上には、変更対象である帳票の画像データ500が表示される。ここでは、例えば、透過処理がなされた後の画像データが表示される。画像510が示す図は、画像データ500の一部の領域を拡大した図である。この画像データのうち、変更対象として抽出された文字に対して、画像520に示すように、変更対象があることを示す図形が重畳された画像521が表示される。
また、変更対象として抽出された文字を表示するにあたり、画像530に示すように、変更対象の文字がある箇所に対して、ステップS101において指定された置換後の文字とともに変更対象があることを示す図形を重畳させて表示するようにしてもよい。置換後の文字を重畳させる処理は、文書データ変更装置10がステップS204の検索用キーワードを用いた検索を行った後に実行してもよい。置換後の文字を重畳させて表示する場合には、変更対象があることを示す図形の領域内を文字が視認可能となるように透過状態で所定の色で塗り潰して表示してもよく、また、置換対象の文字の背景色を所定の背景色に置換または重ねて表示するようにしてもよい。これにより、変更対象の箇所をユーザに見つけてもらいやすくすることができる。
なお、変更対象の箇所が複数抽出された場合には、それぞれが変更対象として表示される。
図3に戻り、端末装置20は、端末装置20の入力装置からユーザによって入力される、置換対象を選択する指示を受け付ける(ステップS102)。
置換対象の指示は、例えば、変更対象のうち実際に置換を行う対象の文字を特定する指示である。ここでは、変更対象として抽出された文字全てに対して変更を行う場合もあるが、変更対象として抽出された文字のうち、一部の箇所について変更を行う場合がある。例えば、文書データにある元号「平成」の表記を他の表記に変更する場合、会社名、組織名、商品名等に「平成」の文字が含まれる場合、必ずしも他の表記に変更するとは限らないため、ユーザに確認してもらい、実際に変更する対象の文字を置換対象として指定してもらうことが好ましい。
さらに、端末装置20は、端末装置20の入力装置からユーザによって入力される、フォントの指示を受け付ける(ステップS103)。フォントの指示は、置換された後の文字を表示する際のフォントを特定する指示である。フォントの指示は、例えば、文字を表現する書体、文字のサイズ、太字や斜体等のスタイル等を特定する指示である。
端末装置20は、置換対象を特定する指示とフォントの指示を文書データ変更装置10に送信する。なお、置換後の文字の指定は、ステップS103において入力されていてもよいが、ステップS101において入力されていてもよい。
文書データ変更装置10の変更部104は、置換対象を特定する指示とフォントの指示を端末装置20から受信すると、受信した置換対象を特定する指示に基づいて、置換対象が文字データに対して置換対象として特定されている場合には、その特定された文字データの文字コードを置換後の文字コードに置換する(ステップS206)。
次に、変更部104は、置換対象が文字画像に対して置換対象として特定されている場合には、その特定された文字画像の背景を認識させる指示を背景認識部103に出力する。背景認識部103は、この指示に基づいて、指定された文字画像の背景を認識し、認識結果を変更部104に出力する(ステップS207)。
背景の認識結果が得られると、変更部104は、文字画像に含まれる文字の文字コードを置換後の文字コードに置換し、この文字コードに対応する文字を、指定されたフォントによって描画する(ステップS208)。さらに、変更部104は、背景認識部103によって得られた背景を置換後の文字コードの背景に合成することで置換データを生成する(ステップS209)。そして、変更部104は、置換対象の文字画像を置換データに置換する。そして、変更部104は、置換後の文書データを出力部106によって端末装置20に送信する。
端末装置20は、置換後の文書データを受信すると、受信した文書データを画面上に表示する(ステップS104)。ここでは、図4において、文書データ600は、文書データ変更装置10から送信された文書データの一例である。この文書データ600の一部を拡大した画像610において、置換データに置換された箇所については、置換後の文字データに基づく文字が、指定されたフォントによって表示されるとともに、置換前の背景と同じ背景が合成された状態で表示される。ユーザは、画面上に表示された置換後の文書データを見て、変更処理を完了させるか否かを判断し、変更処理を完了させる場合には、変更完了の指示を端末装置20に入力する。端末装置20は、ユーザから入力される変更完了の指示を文書データ変更装置10に送信する。
文書データ変更装置10は、変更完了の指示を受信すると、置換後の文書データを記憶部108に記憶する。端末装置20は、この記憶部108に記憶された置換後の文書データを文書データ変更装置10から受信して帳票として利用することができる。なお、ステップS104において表示した文書データを帳票として利用することもできる。
なお、ステップS205において置換対象が抽出された後、置換対象を端末装置20に送信し、置換対象を特定する指示を入力してもらっているが、全て置換してよいことが予め解っており、フォントの指示を予め取得している場合には、置換対象の送信を行うことなく、ステップS206以降の処理を実行してもよい。
次に、背景色が設定された文字が変更される場合の一例を説明する。図5は、背景色が設定された文字を変更する場合の一例を示す図である。
この図において、画像700は、変更前の文書データが画面上に表示される文書データの一部を拡大した画像である。ここでは、例えば、「平成32」という文字列が検索用キーワードとして用いられて検索された場合、画像700に示す「平成32」という文字列(符号701)が置換対象として検索される。ここで、文字に対する背景の合成を行わずに単純にこの文字の文字コードを置換した場合には、例えば、画像710に示すように、置換された後の文字の背景が、その周囲の背景とは異なる態様(例えば異なる背景色)で表示されるため、置換後の文字の背景と、置換後の文字の近傍の背景との連続性が失われてしまい、見栄えが良くない。
ここで、背景を置換後の文字に対して合成をすることで、画像720に示すように、置換後の文字の背景と、置換後の文字の周囲の背景との連続性が維持される画像721として合成されるため、見栄えが良い。
次に、出力部106の他の機能について説明する。出力部106は、上述した情報を出力する他に、変更対象箇所のリストを作成して出力することもできる。
図6は、リスト作成の処理を説明するシーケンス図である。
この図においてステップS101からステップS204については、図3に示すステップS101からステップS204までと同様である。ただし、ステップS101において送信される帳票の文書データは複数である。すなわち、ステップS101において、複数の帳票についてそれぞれ文書データが送信される。
変更部104は、ステップS203において検索用キーワードを用いた検索を行うと、リスト生成部105は、検索が行われた文書データに置換対象となる文字が含まれているか否かを判定し、置換対象の文字が含まれている場合には、置換対象の文字を抽出する(ステップS251)。ここでは、検索用キーワードを用いた検索によって、検索用キーワードに一致する文字コードが見つかった場合、リスト生成部105は、検索が行われた文書データに置換対象となる文字が含まれていると判定し、検索用キーワードに一致する文字コードが見つからない場合には、検索が行われた文書データに置換対象となる文字が含まれていないと判定する。そして、リスト生成部105は、検索用キーワードに一致する文字コードが見つかった場合には、その文字コードについて置換対象であるとして抽出する。
次に、リスト生成部105は、検索を行った対象の文書データに対して、置換対象の文字が見つかったか否かを表すフラグを付与して記憶部108に記憶する(ステップS252)。フラグは、例えば、置換対象の文字がある場合には「1」、置換対象の文字がない場合には「0」が設定される。
制御部107は、端末装置20から受信した全ての帳票についてフラグ付与の処理が終了したか否かを判定し(ステップS253)、終了していなければ、未処理の帳票を対象として、ステップS201からの処理を繰り返す。
一方、制御部107は、全ての帳票についてフラグ付与の処理が終了した場合には、出力部106は、フラグ付与の処理を行った各文書を対象としてリストを生成する(ステップS254)。このリストは、各帳票の識別番号と、その帳票に置換対象があったか否かのフラグとが関連付けられた情報である。
リストが生成されると、出力部106は、リストを端末装置20に送信する。
端末装置20は、リストを受信すると、表示画面上にリストを表示する(ステップS251)。これにより、ユーザは、各帳票について置換対象があるか否かを簡単に把握することが可能となる。例えば、3枚綴りの帳票のうち、2枚目の帳票に置換対象の文字がある等についても把握することが可能となる。また、このようなリストを保存しておくことで、ログとして利用することが可能となる。
以上説明した実施形態において、PDF形式の帳票を対象にして文書データの変更処理を行う場合について説明したが、PDF形式ではなく、画像ファイルである文書データを対象として文書データの変更処理を行うようにしてもよい。画像ファイルを対象として文字認識を行った場合には、1つの画像ファイルに複数の文字と、その文字それぞれに座標データが対応付けられたデータが生成される。この場合、これらの複数の文字のうち、単語単位で1つの文字列とし、その文字列単位で文字コードと座標データを対応付けたデータを生成するようにしてもよい。
また、上述した実施形態において、変更部104は、帳票の台紙の色を変更するようにしてもよい。台紙の色としては、例えば、文字データや文字画像において設定されている背景よりもさらに下層のレイヤに背景色を設定することで、台紙の色を設定するようにしてもよい。また、台紙の色としては、文字データや文字画像において背景が設定されていない箇所または、背景が透明として設定された箇所について、台紙の色となる背景色を設定するようにしてもよい。
上述した実施形態における文書データ変更装置10の各部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA(Field Programmable Gate Array)等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
1 文書データ変更システム
10 文書データ変更装置
20、20A、20B 端末装置
30 ネットワーク
101 通信部
102 文字認識部
103 背景認識部
104 変更部
105 リスト生成部
106 出力部
107 制御部
108 記憶部

Claims (4)

  1. 文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識する文字認識部と、
    前記文字画像の背景を認識する背景認識部と、
    文字認識された結果に基づいて、前記文字画像に含まれる文字が置換対象の文字である場合には、当該置換対象の文字を置換後の文字に変更するとともに、当該置換後の文字に対して前記認識された背景を合成した置換データを生成し、前記文字画像を前記置換データに変更する変更部と、
    を有する文書データ変更装置。
  2. 前記背景は、背景色であり、
    前記変更部は、前記置換後の文字が画像として表現された文字画像を生成し、当該文字画像の背景色として、前記背景認識部よって認識された背景色を合成して得られる文字画像を置換データとして用いる
    請求項1記載の文書データ変更装置。
  3. 前記背景は、背景色であり、
    前記変更部は、前記置換後の文字を示す文字コードのバックグラウンド背景に前記背景認識部によって認識された背景色を設定することで置換データを生成する
    請求項1記載の文書データ変更装置。
  4. 文字認識部が、文字が画像として表現された文字画像を少なくとも一部に含む文書データに対して文字認識し、
    背景認識部が、前記文字画像の背景を認識し、
    変更部が、文字認識された結果に基づいて、前記文字画像に含まれる文字が置換対象の文字である場合には、当該置換対象の文字を置換後の文字に変更するとともに、当該置換後の文字に対して前記認識された背景を合成した置換データを生成し、前記文字画像を前記置換データに変更する
    文書データ変更方法。
JP2018217592A 2018-11-20 2018-11-20 文書データ変更装置、文書データ変更方法 Pending JP2020086719A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018217592A JP2020086719A (ja) 2018-11-20 2018-11-20 文書データ変更装置、文書データ変更方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018217592A JP2020086719A (ja) 2018-11-20 2018-11-20 文書データ変更装置、文書データ変更方法

Publications (1)

Publication Number Publication Date
JP2020086719A true JP2020086719A (ja) 2020-06-04

Family

ID=70909936

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018217592A Pending JP2020086719A (ja) 2018-11-20 2018-11-20 文書データ変更装置、文書データ変更方法

Country Status (1)

Country Link
JP (1) JP2020086719A (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58123152A (ja) * 1982-01-14 1983-07-22 Toshiba Corp 文書画像編集装置
JPH07288676A (ja) * 1994-04-19 1995-10-31 Canon Inc 画像処理装置とその方法
JP2006251902A (ja) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd 翻訳文書画像生成装置、翻訳文書画像生成プログラム及び翻訳文書画像生成方法
JP2015200953A (ja) * 2014-04-04 2015-11-12 株式会社東芝 画像表示装置
US20180260376A1 (en) * 2017-03-08 2018-09-13 Platinum Intelligent Data Solutions, LLC System and method to create searchable electronic documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58123152A (ja) * 1982-01-14 1983-07-22 Toshiba Corp 文書画像編集装置
JPH07288676A (ja) * 1994-04-19 1995-10-31 Canon Inc 画像処理装置とその方法
JP2006251902A (ja) * 2005-03-08 2006-09-21 Fuji Xerox Co Ltd 翻訳文書画像生成装置、翻訳文書画像生成プログラム及び翻訳文書画像生成方法
JP2015200953A (ja) * 2014-04-04 2015-11-12 株式会社東芝 画像表示装置
US20180260376A1 (en) * 2017-03-08 2018-09-13 Platinum Intelligent Data Solutions, LLC System and method to create searchable electronic documents

Similar Documents

Publication Publication Date Title
US7606419B2 (en) Translated document image production device, recording medium and translated document image production method
JP2010009509A (ja) 画像処理装置、画像処理方法およびそのプログラムならびに記憶媒体
CN107133615B (zh) 信息处理设备和信息处理方法
US11243670B2 (en) Information processing system, information processing apparatus, information processing method and non-transitory computer readable medium
US20210286946A1 (en) Apparatus and method for learning text detection model
US8493629B2 (en) Image processing apparatus, method, and computer program
US9519984B2 (en) Image processing device, image processing method, information storage medium, and program
US20060017989A1 (en) Image processing device, image processing method, and recording medium in which image processing program is stored
US9883071B2 (en) Image processing apparatus, terminal device, and non-transitory data recording medium recording control program
US20150169508A1 (en) Obfuscating page-description language output to thwart conversion to an editable format
JP7035656B2 (ja) 情報処理装置及びプログラム
EP3316173B1 (en) System and method for cheque image data masking
JP2017212575A (ja) 画像読込み装置及びプログラム
US9792263B2 (en) Human input to relate separate scanned objects
US9905030B2 (en) Image processing device, image processing method, information storage medium, and program
JP5867790B2 (ja) 画像処理装置
JP2020086719A (ja) 文書データ変更装置、文書データ変更方法
JP2020086718A (ja) 文書データ変更装置、文書データ変更方法
JP2007148920A (ja) 帳票設計装置及び帳票設計方法
US11074392B2 (en) Information processing apparatus and non-transitory computer readable medium for switching between an attribute information mode and an image information mode
JP7302175B2 (ja) 情報処理装置、及び情報処理プログラム
JP2003046746A (ja) 画像処理方法及び画像処理装置
JP2022090469A (ja) 書式定義装置、書式定義方法、及びプログラム
JP2020099031A (ja) 情報処理装置、及び情報処理方法
JP2020099030A (ja) 情報処理装置、及び情報処理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210812

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220705

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20221223