以下、本発明を図面に示した実施形態により詳細に説明する。
図1は、情報処理システムの各構成の一例を説明するための図である。図1に示す通り、本実施形態の情報処理システムは、サーバ装置10、データベース装置20および確認用装置30を含んで構成される。以上の各構成は、ネットワークNを介して相互に通信可能である。ネットワークNとしては、例えば、インターネットが採用できる。
サーバ装置10は、図1に示す通り、クライアントCが操作するクライアント装置40とネットワークNを介して通信可能である。クライアントCとしては、例えば、不動産(マンションなど)の売買を仲介する不動産業者が想定される。なお、図1では1個のクライアント装置40を示すが、実際は、複数のクライアント装置40とサーバ装置10は通信可能である。
クライアントCがクライアント装置40を適宜に操作することで、画像データAがサーバ装置10に送信される。画像データAは、画像G(詳細には後述の図2(a)参照)を示す。画像Gは、不動産に関する各種の情報(名称、販売価格、面積、間取図など)を表示する。例えば、不動産に関する各種の情報が記載された紙資料(不動産チラシ)をスキャナーで読取ることで、画像データAが生成される。画像データAは、例えばPDF(Portable Document Format)形式のデータである。ただし、他の形式の画像データAを採用してもよい。例えば、JPEG(Joint Photographic Experts Group)形式の画像データAを採用してもよい。
サーバ装置10は、クライアント装置40から画像データAを受信した場合、当該画像データAから物件データBを生成する。物件データBは、画像データAが示す画像に含まれる文字列の各文字をOCR(Optical character recognition)処理により文字コードに変換することで生成されるテキストデータである(詳細には後述の図2(b−3)参照)。物件データBは、画像データAが示す画像に表示される各種の情報のうち、文字列で表示される情報(名称、販売価格、面積など)が含まれる。サーバ装置10は、物件データBを生成した後に、当該物件データBをクライアント装置40に送信する。
画像データAから生成された物件データB(テキストデータ)は、当該画像データAよりデータ容量が小さいのが通常である。したがって、クライアントCは、不動産の各種の情報を物件データBで保存することにより、当該不動産の各種の情報を画像データAで保存する場合と比較して、保存すべきデータの容量が削減されるという利点がある。また、テキストデータである物件データBは、画像データAと比較して、データの加工が容易であるという利点がある。
サーバ装置10は、例えば、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)を含む。以上のROMは、CPUにより実行されるプログラムを記憶し、RAMはプログラムの実行時に生成された各種の情報を一時的に記憶する。サーバ装置10は、プログラムを実行することで後述の物件データ生成装置100として機能する(図3参照)。
ところで、画像データAが示す画像における文字をOCR処理で変換した場合、実際とは異なる文字に変換される不都合(変換ミス)が生じる可能性が完全には排除できないという事情がある。以上の事情を考慮して、本実施形態の情報処理システムでは、サーバ装置10が物件データBを新たに生成した場合、当該物件データBの正否が確認者Kにより確認される。確認者Kは、仮に物件データBに誤りがある場合、当該物件データBを修正する。サーバ装置10は、確認者Kにより正否が確認された物件データBをクライアント装置40に送信する。
具体的には、サーバ装置10は、画像データAから物件データBを生成した場合、当該画像データAおよび物件データBの双方を確認用装置30に送信する。確認用装置30で画像データAおよび物件データBが受信された場合、確認者Kは、当該画像データAおよび物件データBが示す情報の各々が一致するか否かを確認する。画像データAおよび物件データBが示す情報が一致しない場合、確認者Kは、確認用装置30を適宜に操作することで物件データBを修正し、修正後の物件データBをサーバ装置10へ送信する。
しかし、確認者Kが確認する物件データBの個数が多くなる程、確認者Kの負担が大きくなる(人件費が高くなる)。仮に、サーバ装置10が生成した全ての物件データBについて確認者Kが正否を確認する構成では、確認者Kの負担が過大になる不都合が顕在化し易いという事情がある。以上の事情を考慮して、本実施形態では、確認者Kが確認すべき物件データBの個数を削減可能な構成とした。
具体的には、同じ紙資料を示す画像データAがサーバ装置10で複数回受信される場合がある。以上の場合、サーバ装置10が受信した画像データAについて、当該画像データAと同じ紙資料を示す画像データAから物件データBが既に生成され、データベース装置20に記憶される。本実施形態のデータベース装置20は、サーバ装置10が新たに受信した画像データA(以下「画像データAx」という)について、既に物件データBを生成した画像データA(以下「画像データAy」という)と同じ紙資料(画像)を示すか否かを判定する。
データベース装置20は、仮に画像データAxが画像データAyと同じ紙資料(画像)を示す場合、以前に画像データAyから生成した物件データBを当該画像データAxの物件データBとして特定する。その後、サーバ装置10は、確認者Kによる確認作業を省略して、当該特定された物件データBをクライアント装置40に送信する。以上の画像データAyから生成した物件データBは、確認者Kにより確認済みである。
以上の構成によれば、画像データAxが画像データAyと同じ紙資料(画像)を示す場合、確認者Kによる確認作業を省略できる。したがって、確認者Kの負担が過大になる不都合が抑制される。また、以上の構成によれば、画像データAxが画像データAyと同じ紙資料(画像)を示す場合、物件データBを生成する処理(OCR処理)を省略できるため、画像データAが受信されてから物件データBが送信されるまでの処理量を抑制できるという利点がある。
データベース装置20は、例えば、CPU、ROMおよびRAMを含んで構成される。以上のROMは、CPUにより実行されるプログラムを記憶し、RAMはプログラムが実行された場合に生成された情報を記憶する。データベース装置20のCPUは、プログラムを実行することで後述の情報処理装置200として機能する(図3参照)。
図1に示す通り、データベース装置20は、画像データ記憶装置21および物件データ記憶装置22を含んで構成される。画像データ記憶装置21は、サーバ装置10が過去に受信した画像データA(すなわち画像データAy)を蓄積して記憶する。サーバ装置10が新たに受信した画像データAxが示す画像は、画像データ記憶装置21の画像データAyが示す画像と比較される。
物件データ記憶装置22は、過去に受信された画像データAyから生成した物件データBを蓄積して記憶する。新たに受信された画像データAxの示す画像が画像データ記憶装置21の画像データAyの画像と一致すると判断された場合、当該画像データAyから生成されて物件データ記憶装置22に記憶されていた物件データBがクライアント装置40に送信される。なお、本実施形態では、画像データAyおよび当該画像データAyから生成された物件データBを別々の記憶装置に記憶させたが、各データが共通の記憶装置に記憶される構成としてもよい。
図2(a)は、画像データAが示す画像G(不動産チラシ)の具体例の模擬図である。上述した通り、画像Gは、不動産に関する各種の情報(文字列、地図、外観写真、間取図)を表示する。画像Gには、不動産の名称(物件名)、販売価格、賃料、管理費、修繕積立費、築年数、面積、階数および住所を示す各文字列が含まれるのが通常である。図2(a)の具体例では、名称が「○○マンション」、販売価格が「1400万円」、賃料が「65000円」、管理費が「4900円」、修繕積立費が「5100円」、築年数が「16年」、面積が「20m2」、階数が「4階建ての2階部分」、住所が「○県△市□区…」の不動産に関する画像Gを示す。
図2(a)に示す通り、画像Gは、上述の文字列で示される各種の情報に加え、間取図、不動産の位置を示す地図および不動産の外観の写真などの図形で示される情報を含む。物件データBでは、以上の図形で示される情報は省略される。なお、図2(a)には、後述の生成処理(OCR処理)において行領域Lとして特定される各領域が破線で示される。図2(a)に示す通り、行領域Lの各々には、1行の文字列が表示される。
図2(b−1)から図2(b−3)は、上述のデータベース装置20(物件データ記憶装置22)が記憶する各データを説明するためのである。物件データ記憶装置22は、複数の物件データBに加え、複数の画像URLおよび複数の特徴量を記憶する。
図2(b−1)は、物件データ記憶装置22に記憶される画像URLを説明するための図である。各画像URLは、画像データ記憶装置21において画像データAyが記憶されるURL(Uniform Resource Locator)を示す。図2(b−2)に示す特徴量は、画像データ記憶装置21に記憶された画像データAyが示す画像の特徴量である。
画像データAxが受信された場合であって、当該画像データAxが示す画像(以下「対象画像Gx」という)が各画像データAyが示す各画像(以下「既出画像Gy」という)と一致しない場合、当該画像データAxに識別情報(id)が付与され、画像データ記憶装置21に画像データAyとして記憶される。物件データ記憶装置22が記憶する特徴量には、画像データ記憶装置21に記憶された画像データAyと同じ識別情報が付与される。また、画像データAyが記憶されるURLを示す画像URLに、当該画像データAyと同じ識別情報が付与される。
サーバ装置10が新たに受信した画像データAxの対象画像Gxの特徴量、および、過去に物件データ記憶装置22に記憶し各特徴量が比較される。また、以上の比較結果から、画像データAxが示す対象画像Gxと類似する既出画像Gyを示す画像データAyが順次に特定され、当該画像データAyの既出画像Gyが当該画像データAxの対象画像Gxと一致するか否かが判定される。
特徴量は、データベース装置20により生成される。本実施形態の特徴量は、横(行)×縦(列)のサイズが8行8列であり、64個の成分データ(数値「0」または数値「1」)で構成される。データベース装置20は、画像データAから特徴量を算出する場合、まず、当該画像データAのサイズを8行8列に縮小する。次に、データベース装置20は、縮小した画像データAをグレースケール変換する。グレースケール変換された画像データAの各画素データには光度のみが含まれる。
データベース装置20は、グレースケール変換した画像データAの各画素データの光度の平均値を算出する。次に、データベース装置20は、画素データの各々について、当該画素データの光度が平均値より大きいか否かを判定する。光度が平均値より大きい画素データが数値「1」の成分データに変換され、光度が平均値以下の画素データが数値「0」の成分データに変換されることで、特徴量が生成される。例えば、一の画像の特徴量を他の画像の特徴量と比較した結果、成分データの全てが一致する場合、各画像は類似または一致する。なお、特徴量のサイズは8行8列に限定されない。例えば、16行16列の特徴量を採用してもよい。
図2(b−3)は、物件データBの概念図である。本実施形態の物件データBは、物件名、販売価格、賃料、管理費、修繕積立費、築年数、面積、階数および住所を示すテキストデータである。物件データBには、当該物件データBを生成する際に用いられた画像データAyと同じ識別情報が付与される。
図2(b−3)には、上述の図2(a)に示す画像Gから生成された物件データBの具体例が示される。なお、物件データBに含まれる情報は、上述の例に限定されない。例えば、最寄りの駅から不動産まで徒歩で移動した場合の所要時間が物件データBに含まれる構成としてもよい。
図3は、図1に示した情報処理システムの機能ブロック図である。上述のサーバ装置10は、物件データ生成装置100として機能し、データベース装置20は、情報処理装置200として機能する。また、確認用装置30は、物件データ確認装置300として機能する。
図3に示す通り、本実施形態の情報処理装置200は、画像データ記憶部201、物件データ記憶部202、特徴量記憶部203、画像設定部204、画像判定部205、変換指示部206およびデータ追加部207を含んで構成される。画像データ記憶部201(画像データ記憶装置21)は、過去に物件データBを生成した画像の画像データA(Ay)を蓄積して記憶する。物件データ記憶部202(物件データ記憶装置22)は、画像データ記憶部201に記憶される各画像データAyから生成された各物件データBを記憶する。
特徴量記憶部203(物件データ記憶装置22)は、画像データ記憶部201が記憶する各画像データAyの各既出画像Gyの各特徴量を記憶する。画像設定部204は、上述のクライアント装置40から受信された画像データAを、画像データAyが示す既出画像Gyと比較される対象画像Gxの画像データAxとして設定する。
画像判定部205は、画像データ記憶部201が記憶する複数の画像データAyの各々が示す複数の既出画像Gyに、新たに受信された画像データAxが示す対象画像Gxと共通する画像が含まれるか否かを判定する。具体的には、画像判定部205は、画像データAxが受信された場合、当該画像データAxが示す対象画像Gxの特徴量を算出する。その後、画像判定部205は、対象画像Gxの特徴量と既出画像Gyの各特徴量のユークリッド距離を算出し、小さい順に並べることで、画像データAxが示す画像と類似の度合が高い既出画像Gyを示す画像データAyから順に特定する。
なお、距離が小さい順に特定するのではなく、対象画像Gxの特徴量と同じ値の既出画像Gyを示す画像データAyをすべて特定する構成を取っても構わない。この構成を採用することで、すべてのGyについて並べ替えする必要がなくなり、より計算コストが小さくなる。
画像判定部205は、特徴量により特定した画像データAyが示す既出画像Gyおよび画像データAxが示す対象画像Gxが一致するか否かを判定する。既出画像Gyおよび対象画像Gxを比較するための技術は、適宜な技術が採用できる。例えば、画像データAxおよび画像データAyの大きさが合致する様に、各画像データAをリサイズする。その後、画像データAxの各画素データの各々に対して、当該画素データに対応する画像データAyの画素データを減算する。
以上の構成では、画像データAyを減算した後の画像データAxにより、対象画像Gxおよび既出画像Gyが一致するか否かが判断できる。例えば、既出画像Gyおよび対象画像Gxが完全に一致する場合、画像データAyを減算した後の画像データAxの全ての画素データが数値「0」になり、当該画像データAxにより表示される画像にはオブジェクト(連結要素)が存在しない。したがって、画像データAyを減算した後の画像データAxにより表示される画像にオブジェクトが存在しない場合、各画像が完全に一致すると判断できる(詳細には後述の第3実施形態を参照)。
本実施形態の画像判定部205は、既出画像Gyが対象画像Gxと一致すると判断した場合、その後、当該対象画像Gxと残りの(未判定の)既出画像Gyとの対比はしない。上述した通り、対象画像Gxと類似の度合が高い既出画像Gyから順に当該対象画像Gxと対比される。以上の構成では、例えば対象画像Gxとの類似の度合に関係ない順序で各既出画像Gyが対比される構成と比較して、当該対象画像Gxと一致する既出画像Gyが早期に発見され易い。したがって、対象画像Gxと対比される既出画像Gyが少なくなり易いため、処理負担が軽減されるという利点がある。
変換指示部206は、対象画像Gxが各既出画像Gyの何れとも一致しないと判断された場合、当該対象画像Gxから物件データBを生成させる指示を物件データ生成装置100に対してする。一方、対象画像Gxおよび既出画像Gyが一致すると判断された場合、変換指示部206は当該指示をしない。
データ追加部207は、対象画像Gxが各既出画像Gyの何れとも一致しないと判断された場合、当該対象画像Gxを示す画像データAxを画像データAyとして画像データ記憶部201に追加して記憶するための追加処理を実行する。以上の追加処理は、既出画像Gyの種類数を増加させるとも換言される。以上の構成では、データ追加部207により追加された画像データAyと同じ画像を示す画像データAxが新たに受信された場合、当該画像データAxの対象画像Gxは既出画像Gyと一致すると判断される。追加処理では、当該画像データAyが示す画像の特徴量が特徴量記憶部203に記憶される。
物件データ生成装置100は、物件データ生成部101および追加指示部102を含んで構成される。物件データ生成部101は、画像データAxが示す対象画像Gxから物件データBを生成する。具体的には、上述の情報処理装置200(変換指示部206)から物件データBの生成が指示された場合、物件データ生成装置100は生成処理を実行する。
以上の生成処理にはOCR処理が含まれる。OCR処理としては、公知の技術が適宜に採用できる。例えば、OCR処理において、画像Gにおける文字列が表示される領域と、および、図形(写真など)が表示される領域とが区別して特定される。以上の画像Gにおける文字列が表示される領域は、1行の文字列が表示される行領域L(上述の図2(a)参照)に分割される。また、行領域Lに表示される文字列に含まれる各文字を解析し、当該文字の各々を文字コードに変換する。
生成処理では、行領域Lの文字列のテキストデータに、特定のキーワードが含まれるか否かが判定される。例えば、行領域Lの文字列のテキストデータに、「賃料:月額65,000円」というキーワードが含まれる場合を想定する。以上の場合、当該行領域Lの文字列のテキストデータから物件データBを構成する「賃料」として「65000」が抽出される。テキストデータから抽出された各情報が組合されて物件データBが生成される。なお、上述のキーワードは、物件データBを構成する情報毎に情報処理装置200に複数記憶される。
物件データ生成部101が生成した物件データBは、クライアント装置40に送信される。また、当該物件データBは、情報処理装置200(物件データ記憶部202)に送信され記憶される。具体的には、物件データ生成装置100の追加指示部102は、情報処理装置200に対して、物件データBを物件データ記憶部201に記憶すべき旨の指示をする。情報処理装置200は、当該指示に応じて、物件データBを物件データ記憶部202に記憶させる。
物件データ確認装置300は、修正操作受付部301および物件データ修正部302を含んで構成される。修正操作受付部301は、物件データBを修正するための確認者Kの操作を受付ける。物件データ修正部302は、確認者Kの操作に応じて物件データBを修正する。
図4(a)は、本実施形態の情報システムにおいて、物件データBがクライアントに提供されるまでの具体例を説明するための図である。図4(a)は、対象画像Gxが既出画像Gyに含まれないと判断される場合の具体例を示す。
図4(a)に示す様に、クライアント装置40から画像データAを受信した場合、物件データ生成装置100は、当該画像データAを情報処理装置200に送信する(図4(a)の(A))。情報処理装置200は、物件データ生成装置100から送信された画像データAを、画像データ記憶部201の各画像データAyが示す各既出画像Gyと対比される対象画像Gxを示す画像データAxに設定する。
情報処理装置200は、画像データAxが示す対象画像Gxを、画像データ記憶部201が記憶する各画像データAyの既出画像Gy(1…n…)の各々と対比する(図4(a)の(B))。上述した通り、対象画像Gxと比較される既出画像Gyの順序は、各画像の特徴量に応じて決定される。具体的には、対象画像Gxと特徴量が近似する既出画像Gyほど比較される順序が先になる。上述した通り、図4(a)の具体例は、各既出画像Gyに対象画像Gxと一致する画像が含まれない場合を想定する。
情報処理装置200は、各既出画像Gyに対象画像Gxと一致する画像が含まれないと判断した場合、物件データBの生成を物件データ生成装置100に指示する(図4(a)の(C))。物件データ生成装置100は、物件データBを生成すべき指示を受けた場合、画像データAからテキストデータである物件データBを生成する(図4(a)の(D))。
以下において、説明のため、物件データ生成装置100が生成した直後の物件データBを「物件データBx」と記載する場合がある。以上の物件データBxは、確認者Kにより確認(修正)されていない。図4(a)に示す通り、物件データ生成装置100により生成された物件データBxは、物件データ確認装置300に送信される(図4(a)の(E))。また、当該物件データBxを生成する際に用いた画像データA(元のデータ)が物件データ確認装置300に送信される(図4(a)の(F))。
物件データ確認装置300で物件データBxが受信された場合、確認者Kは、当該物件データBxの各種の情報(物件名など)が画像データAの画像Gに表示される当該情報と一致するか否かを確認する。また、確認者Kは、画像データAが示す画像Gに表示される情報と物件データBxの情報とが相違する場合、物件データBxの当該情報を物件データ確認装置300に修正させるための操作をする。
物件データ確認装置300は、確認者Kの操作に応じて物件データBxを修正する(図4(a)の(G))。なお、以下において、確認者Kにより確認された物件データBを「物件データBy」と記載する場合がある。確認者Kが確認した物件データByは、物件データ生成装置100を介して、クライアント装置40に送信される(図4(a)の(H))。その後、情報処理装置200(データ追加部207)の追加処理により、物件データByは物件データ記憶部202に追加して記憶される。
図4(b)は、図4(a)の具体例において、追加処理が実行された場合の画像データ記憶部201および物件データ記憶部202の概念図である。上述した通り、対象画像Gxおよび既出画像Gyが一致しないと判断された場合、当該対象画像Gxを示す画像データAxが画像データAyとして画像データ記憶部201に追加して記憶される(図4(b)の(I))。また、当該画像データAyから生成された確認済みの物件データByが、当該画像データAyに対応して物件データ記憶部202に記憶される(図4(b)の(J))。
図4(c)は、上述の図4(a)と同様に、物件データBがクライアントCに提供されるまでの具体例を説明するための図である。ただし、図4(a)の具体例では、今回の対象画像Gxが既出画像Gyに含まれない場合を想定したが、図4(b)の具体例では、今回の対象画像Gxが既出画像Gyに含まれる場合を想定する。なお、図4(b)では、物件データ確認装置300を省略して示す。
図4(c)に示す通り、情報処理装置200は、画像データAxを受信した場合(図4(c)の(A))、当該画像データAxが示す対象画像Gxが各既出画像Gy(1…n…)と一致するか否かを判定する(図4(c)の(B))。図4(c)の具体例では、各既出画像Gyのうち既出画像Gynが対象画像Gxと一致すると判断された場合を想定する。
情報処理装置200は、対象画像Gxと一致する既出画像Gynを特定した場合、当該既出画像Gynを示す画像データAynに対応する物件データBynを物件データ記憶部202から読み出す。その後、情報処理装置200は、当該物件データBynをクライアント装置40に送信可能にする。上述した通り、画像データAyに対応して記憶される物件データByは、当該画像データAyから生成され、且つ、確認者により確認(修正)された物件データByである。
以上の具体例では、対象画像Gxnおよび既出画像Gynが一致する(同じ紙情報を示す)。したがって、仮に当該対象画像Gxnから物件データBを生成した場合であっても、当該既出画像Gynから生成された物件データBynと同じ物件データBがクライアント装置40に送信されることになる。
以上の説明から理解される通り、本実施形態によれば、今回の対象画像Gxが既出画像Gyに含まれる場合、当該対象画像Gxから物件データBを生成することなく、当該対象画像Gxから生成される物件データBと同じ物件データBをクライアント装置40に送信できる。したがって、今回の対象画像Gxが既出画像Gyに含まれる場合、物件データBを生成する処理が省略できため、例えば全ての画像データAについて物件データBを生成する必要がある構成と比較して、物件データ生成装置100の処理負担が軽減される。さらに、本実施形態によれば、今回の対象画像Gxが既出画像Gyに含まれる場合、確認者Kによる物件データBの確認作業が省略できるため、確認者Kの作業量(人件費)が削減されるという利点がある。
また、本実施形態によれば、既出画像Gyとして判断される画像が追加される。したがって、例えば、既出画像Gyとして判断される画像が追加されない構成と比較して、物件データBを新たに生成する必要のない画像を高精度に検出することができる。
図5(a)は、本実施形態の情報処理システムの動作を説明するためのシーケンス図である。図5(a)に示す通り、クライアントCがクライアント装置40を適宜に操作することで、画像データAが物件データ生成装置100を介して情報処理装置200に送信される(Sa1)。画像データAが送信された場合、情報処理装置200は、当該画像データAを画像データAxとして設定し、判定処理(Sa2)を実行する。判定処理では、画像データAxが示す対象画像Gx、および、画像データ記憶部201が記憶する各既出画像Gyが示す既出画像Gyが対比される。
図5(a)の具体例では、判定処理において、対象画像Gxと一致する画像が既出画像Gyに含まれないと判断された場合を想定する(未出判定)。以上の場合、情報処理装置200は、物件データ生成装置100に対して、物件データBを生成すべき旨を指示する(Sa3)。当該指示を受けた場合、物件データ生成装置100は、生成処理(Sa4)を実行する。生成処理では、画像データAから物件データBxが生成される。物件データ生成装置100は、画像データAおよび当該画像データAから生成した物件データBxを物件データ確認装置300に送信する(Sa5)。なお、情報処理装置200から物件データ確認装置300へ画像データAが送信される構成としてもよい。
物件データ確認装置300は、物件データBxを修正して得られた物件データByを物件データ生成装置100に送信する(Sa6)。物件データByを受信した場合、物件データ生成装置100は、当該物件データByおよび追加指示を情報処理装置200に送信する(Sa7)。情報処理装置200は、追加指示を受信した場合、追加処理(Sa8)を実行する。追加処理では、画像データAxが画像データAyとして画像データ記憶部201に記憶され、物件データByが物件データ記憶部202に記憶される。また、物件データByを受信した場合、物件データ生成装置100は、当該物件データByをクライアント装置40へ送信する(Sa9)。
図5(b)は、本実施形態の情報処理システムの他の動作を説明するためのシーケンス図である。上述の図5(a)の具体例では、対象画像Gxと一致する画像が各既出画像Gyに含まれない場合を想定した。図5(b)の具体例では、対象画像Gxと一致する画像が各既出画像Gyに含まれる場合を想定する。
図5(b)の具体例では、判定処理において、対象画像Gxと一致する画像が各既出画像Gyに含まれると判断される(既出判定)。以上の場合、情報処理装置200は、当該対象画像Gxと同じと判断した既出画像Gyを示す画像データAyの物件データByを物件データ記憶部202から読み出す。情報処理装置200は、物件データ生成装置100を介して当該物件データByをクライアント装置40へ送信する(Sb1)。
<第2実施形態>
本発明の第2実施形態および第3実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
図6(a)および図6(b)は、第2実施形態を説明するための図である。図6(a)は、画像データGAが示す画像Gにおける各領域R(P、Q、W、U、L)を説明するための図である。なお、説明のため、画像Gの上下方向をX軸方向という。また、画像Gの左右方向をY軸方向という。
物件データBに含まれる物件名、販売価格、賃料、管理費、修繕積立費、築年数、面積、階数および住所を示す各文字列は、画像Gのうち領域RPに表示されるのが通常である。領域RPは、画像Gの約5分の4の面積を占め、図6(a)に示す領域RWより上側に位置する。領域RWより下側の領域RQには、例えば、不動産の売買の仲介をするクライアントCの名称、および、当該クライアントCの連絡先等が表示されるのが通常である。領域RQに表示される情報は、物件データBに含まれない。
第2実施形態では、説明のため、画像Gのうち領域RPに表示される画像を第1部分画像Gaと記載する場合がある。また、画像Gのうち領域RQに表示される画像を第2部分画像Gbと記載する場合がある。詳細には後述するが、画像Gは、第1部分画像Gaおよび第2部分画像Gbに分割され、第1部分画像Gaのみが上述の画像判定部205による判定処理の対象になる。
ところで、一の不動産は、複数のクライアントCにより売買(賃貸)が仲介され得るという事情がある。以上の場合、一の不動産の各種の情報が表示される画像Gの第1部分画像Gaが、複数のクライアントCにより再利用される場合がある。
図6(b)は、画像Gの再利用を説明するための図である。なお、図6(b)および後述の図7(a−1)、図7(a−2)では、画像Gのうち上述の領域RWを省略して示す。図6(b)に示す画像GFは、不動産に関する各情報が表示される第1部分画像GaxおよびクライアントCAに関する各情報が表示される第2部分画像Gbxを含んで構成される。
図6(b)の具体例では、クライアントCAにより作成された画像GFがクライアントCBにより作成された画像GLに再利用された場合を想定する。図6(b)に示す通り、画像GLは、第1部分画像Gaを含んで構成される(画像GFと同様)。すなわち、画像GLでは、画像GFの第1部分画像Gaがそのまま再利用される。一方、画像GLの第2部分画像Gbには、クライアントCAに関する情報に替えて、クライアントCBに関する情報が表示される。
第1部分画像Gaに第2部分画像Gbを追加することで当該第1部分画像Gaを再利用する場合、第1部分画像Gaおよび第2部分画像Gbの間には、第1部分画像Gaに表示される画像および第2部分画像Gbに表示される画像が近接して各画像が見難くならないように、余白として領域RWが設けられるのが通常である。すなわち、画像Gの領域RWは、殆どが白色の画素データで表示される。なお、画像Gの上辺近傍の領域RUおよび画像Gの下辺近傍の領域RLは、上述の領域RWと同様に余白として用いられ、殆どが白色の画素データで表示される。
以上の領域RUおよび領域RLの大きさ(余白の大きさ)は、画像Gに応じて可変である。ただし、領域RUのX軸方向の長さおよび領域RLのX軸方向の長さは、画像GのX軸方向の長さをLとした場合、約1/10Lより短いのが通常である。すなわち、図6(a)に示す通り、画像Gの上辺から距離1/10Lの領域(以下「領域RA」)に領域RUは通常含まれる。同様に、領域RLは、画像Gの下辺から距離1/10Lの領域(以下「領域RA」)に含まれるのが通常である。
図6(a)に示す通り、領域RAおよび領域RBに挟まれた領域を領域RJとする。上述の第1部分画像Gaおよび第2部分画像Gbの間に設けられる領域RW(余白)は、領域RJに位置するのが通常である。
図6(c)は、情報処理装置200が第1部分画像Ga(領域RP)を特定するための部分画像特定処理を説明するための図である。詳細には以下で説明するが、情報処理装置200は、部分画像特定処理により、画像Gのうち領域RWを特定する。領域RWを特定した場合、情報処理装置200は、当該領域RWより上側を第1部分画像Gaとして特定する。
情報処理装置200は、部分画像特定処理において、画像Gを示す画像データAに対して二値化処理を実行する。具体的には、画像データAの各画素データのうち予め定められた特定値より画素値が大きい画素データを、黒色を表示する画素データ(以下「黒画素」という)に変換する。一方、画素値が上述の特定値以下の画素データを、白色を表示する画素データに変換する。以下において、二値化処理を実行した後の画像データAが示す白黒画像を二値化画像Gzという。
図6(c)は、二値化画像GzのY軸上に位置する黒画素の個数Nを縦軸(N軸)とし、画像GのX軸方向上の位置を縦軸(X軸)としたX−Nグラフである。図6(c)には、上述の図6(a)に示した各領域(RP、RQ、RU、RW、RL、RA、RJ、RB)が示される。また、図6(c)には、N軸上に閾値n(nは数値「0」以上の整数)が示される。
二値化画像GzのY軸上に位置する黒画素の個数が閾値nより小さい領域は、黒画素が殆ど無い余白の領域(図6(a)の具体例では、RW、RU、RL)である。例えば、画像Gの上辺側の余白である領域RUでは、X軸上の何れの位置においても、Y軸方向にある黒画素の個数Nは閾値nより小さい。同様に、画像Gの下辺側の余白である領域RLでは、X軸上の何れの位置においても、Y軸方向にある黒画素の個数Nは閾値nより小さい
情報処理装置200は、Y軸方向にある黒画素の個数が閾値nより小さい領域のうち、領域RJに位置する領域を領域RWとして特定する。以上の構成によれば、Y軸方向にある黒画素の個数が閾値nより小さい領域のうち、領域RAに位置する領域RU(上辺側の余白)および領域RBに位置する領域RL(下辺側の余白)が領域RW(第1部分画像Gaおよび第2部分画像Gbの間の余白)と誤って特定される不都合が抑制される。なお、第1部分画像Gaが表示される領域RPを特定する方法は上述の例に限定されない。例えば、領域RPが手動で特定される構成としてもよい。例えば、画像Gを所定のモニタに表示させ、所定の操作部が適宜に操作された場合、当該画像Gの領域RPが特定される構成が考えられる。
図7(a)は、第2実施形態における情報処理装置200の各種の処理(判定処理(上述の図5のSa2)および追加処理(図5のSa8))の具体例を説明するための図である。上述した通り、第2実施形態では、クライアント装置40から受信した画像データAの画像Gは、第1部分画像Gaおよび第2部分画像Gbに分割され、第1部分画像Gaのみが判定処理の対象になる。また、第2実施形態の画像データ記憶部201は、複数種類の第1部分画像Ga(画像データ)を記憶する。
図7(a)の具体例では、画像GFを示す画像データAがクライアント装置40から送信され、物件データ生成装置100を介して情報処理装置200に当該画像データAが受信された場合を想定する。画像GFは、図7(a)に示す通り、第1部分画像Gaxおよび第2部分画像Gbxを含んで構成される。第1部分画像Gaxには、特定の不動産に関する各種の情報が表示される。また、第2部分画像Gbxには、クライアントCAに関する各種の情報が表示される(上述の図6(b)の画像GFと同様)。第2実施形態における情報処理装置200は、画像GFのうち第1部分画像Gaxを示す画像データを生成する(図7(a)の(A))。
情報処理装置200は、第1部分画像Gaxを示す画像データを生成すると、画像データ記憶部201に記憶した各画像データが示す各第1部分画像Ga(既出の第1部分画像)に当該第1部分画像Gaxと一致する画像が含まれるか否かを判定する判定処理を実行する(図7(a)の(B))。図7(a)の具体例では、第1部分画像Gaxと共通の画像を示す画像データが画像データ記憶部201に記憶されない場合を想定する。以上の場合、当該第1部分画像Gaxを示す画像データが画像データ記憶部201に追加して記憶される追加処理が実行される(図7(a)の(C))。
情報処理装置200は、第1部分画像Gaxと共通の画像を示す画像データが画像データ記憶部201に記憶されない場合、物件データ生成装置100に対して、画像GFから物件データBを生成すべき旨の指示をする。上述の第1実施形態と同様に、物件データ生成装置100が生成した物件データBは、確認者Kにより確認(修正)された後に、クライアント装置40に送信されるとともに、画像GFの第1部分画像Gaxを示す画像データと対応させて物件データ記憶部202に記憶される。
図7(b)は、第2実施形態における情報処理装置200の各処理の他の具体例を説明するための図である。図7(b)に示す通り、画像GLは、第2部分画像Gaxおよび第2部分画像Gbyを含んで構成される。画像GLの第1部分画像Gaxは、画像GFの第1部分画像Gaxと一致する画像である。また、第2部分画像Gbyには、クライアントCBに関する各種の情報が表示される(上述の図6(b)の画像GLと同様)。
以上の画像GLからは、上述の画像GFの第1部分画像Gaと同じ不動産に関する各情報が表示される第1部分画像Gaxを示す画像データが生成される(図7(b)の(A))。画像GLから生成された第1部分画像Gaxは、画像データ記憶部201が記憶する各画像データが示す各第1部分画像Gaと比較される(図7(b)の(B))。
図7(b)の具体例は、上述の図7(a)の具体例において、画像GFの第1部分画像Gaxを示す画像データが画像データ記憶部201に記憶された後に、画像GLを示す画像データがクライアント装置40から送信された場合を想定する。以上の場合、図7(b)に示す通り、画像データ記憶部201には画像GFの第1部分画像Gaxを示す画像データが既に記憶される。上述した通り、画像GLの第1部分画像Gaxは、画像GFの第1部分画像Gaxと一致する画像である。したがって、図7(b)の判定処理では、画像GLの第1部分画像Gaxと一致する画像を示す画像データが画像データ記憶部201に記憶されていると判断される。
情報処理装置200は、画像GLの第1部分画像Gaxと一致する画像を示す画像データが画像データ記憶部201に記憶されると判断した場合、当該第1部分画像Gaxに対応する物件データBを物件データ記憶部202から読み出し、当該物件データBをクライアント装置40に送信可能にする。
以上の第2実施形態によれば、第1実施形態と同様な効果が奏せられる。また、第2実施形態によれば、例えば既出画像Gyと第2部分画像Gbのみが相違する対象画像Gxについて物件データBが生成される構成と比較して、物件データBを生成するための処理、および、当該物件データBを確認するための作業負担が軽減されるという利点がある。
なお、第2実施形態では、画像データ記憶部201に第1部分画像Gaを示す画像データを記憶したが、クライアント装置40から送信された画像G全体を示す画像データが画像データ記憶部201に記憶される構成としてもよい。以上の構成では、判定処理において、画像データ記憶部201の画像データが示す画像が第1部分画像Gaに分割され、その後、クライアント装置40から受信した画像Gの第1部分画像Gaと比較される。
<第3実施形態>
図8は、第3実施形態における判定処理を説明するための図である。図8(a−1)は、対象画像Gxの具体例の模擬図である。また、図8(a−2)は、対象画像Gxと比較される既出画像Gy1の具体例の模擬図であり、図8(a−3)は、対象画像Gxと比較される既出画像Gy2の具体例の模擬図である。
第3実施形態の判定処理では、上述の第1実施形態と同様に、既出画像Gyを示す画像データAyおよび対象画像Gxを示す画像データAxを共通の大きさにリサイズする。また、リサイズした各画像データに対して二値化処理を実行する。その後、画像データAxの各画素データの各々に対して、当該画素データに対応する(画像における位置が共通する)画像データAyの画素データを減算し、各減算結果の絶対値を画素データとする画像データを生成する。また、当該画像データに対してラベリング処理を実行し、当該画像データが示す画像におけるオブジェクト(連結要素)を検出する。
以上のラベリング処理としては、画像の縦方向または横方向に連続している画素が同じオブジェクトに分類される4連結が採用できる。また、ラベリング処理として、縦方向、横方向、または、斜め方向に連続する画素が同じオブジェクトに分類される8連結を採用してもよい。第3実施形態では、画像データAxに画像データAyを減算することで得られた画像データで示される画像を「判定用画像Gj」という。
図8(b−1)は、判定用画像Gjの具体例の模擬図である。図8(b−1)の具体例は、対象画像Gxと既出画像Gyが一致する(共通の紙資料から生成された)場合を想定する。以上の場合、原則、画像データAxおよび画像データAyの各画素データは一致するため、判定用画像Gjを示す画像データの各画素データは全て数値「0」になる。
ただし、紙資料から画像データAを生成する際(紙資料をスキャナーで読み取る際)に、当該紙資料が表示する画像の一部が読取られない(欠落する)場合がある。また、紙資料から画像データAを生成する際に、当該紙資料の汚れ等が画像の一部として読取られる場合がある。したがって、共通の紙資料から生成された画像データAが示す各画像であっても、完全に一致しない場合がある。以上の場合、例えば図8(b−1)に示す様に、判定用画像GjにオブジェクトObが表示される。
以上の事情を考慮して、第3実施形態の判定処理では、判定用画像GjにオブジェクトObが表示された場合であっても、当該オブジェクトObのうち最大のオブジェクトObの画素数が予め定められた第1閾値N(Nは正の整数)未満の場合(画素数<N)、対象画像Gxおよび既出画像Gyは完全に一致すると判断される。以下において、説明のため、画素数が第1閾値N未満のオブジェクトObを「オブジェクトObS」と記載する。
図8(b−1)の判定用画像Gjは、オブジェクトObSのみを表示する。したがって、当該判定用画像Gjが生成された場合、対象画像Gxおよび既出画像Gyは完全に一致すると判断される。以上の構成によれば、仮に紙資料が表示する画像の一部が読取られない場合、または、紙資料の汚れ等が画像の一部として読取られた場合であっても、共通の紙資料から生成された画像データAが示す各画像は完全に一致する画像と判断され易くなる。
図8(b−2)は、判定用画像Gjの他の具体例の模擬図である。図8(b−2)の具体例は、対象画像Gxおよび既出画像Gyの各画像データAが相違する紙資料から生成された場合を想定する。例えば、図8(b−2)の判定用画像Gjは、上述の図8(a−1)の対象画像Gxおよび図8(b−3)の既出画像Gy2から生成される。
対象画像Gxおよび既出画像Gyの各画像データAが相違する紙資料から生成された場合、各画像の各画像データAが共通の紙資料から生成された場合と比較して、大きなオブジェクトObが判定用画像Gjに表示されるのが通常である。第3実施形態の判定処理では、判定用画像GjにオブジェクトObが表示された場合であって、当該オブジェクトObのうち最大のオブジェクトObの画素数が第2閾値Mより大きい場合(画素数>M)、対象画像Gxおよび既出画像Gyは一致しないと判断する。
以下において、説明のため、画素数が第2閾値Mより大きいオブジェクトObを「オブジェクトObL」と記載する。図8(b−2)の判定用画像Gjには、オブジェクトObLが表示される。したがって、当該判定用画像Gjが生成された場合、対象画像Gxおよび既出画像Gyは一致しないと判断される。
ところで、一の不動産の販売期間において、当該不動産に関する一部の情報が変更される場合がある。例えば、一の不動産の価格は、販売期間において変更(例えば値下げ)される場合がある。以上の場合、クライアントCは、当該不動産の価格を示す文字列のみを修正した紙資料の画像データAから物件データBを生成することを望む場合がある。
以上の事情から、不動産の販売期間の初期において、当該不動産に関する情報を表示する画像の画像データAがクライアント装置40から送信され、当該画像データAから物件データBが生成され、その後、当該不動産の販売期間の後期において、当該不動産に関する情報の一部のみが変更された画像の画像データAが送信される場合がある。
例えば、上述の図8(a−3)の既出画像Gy2は、価格が「1400万円」の不動産の各種の情報を表示する。また、図8(a−1)の対象画像Gxは、既出画像Gy2と同じ不動産の各種の情報を表示する。ただし、対象画像Gxが表示する価格は「1234万円」であり画像Gy2とは相違する。当該不動産の販売期間の初期において、既出画像Gy2により物件データBが生成された後に、当該不動産の価格が変更された場合、対象画像Gxから物件データBを生成することが要求される場合が想定される。
第3実施形態の判定処理では、例えば上述の対象画像Gxおよび既出画像Gy2の様に、各画像が表示する各情報のうち一部のみが相違する場合、当該各画像は「部分一致」すると判定可能に構成した。以下において、説明のため、部分一致する各画像(例えば、図8(a−1)のGxおよび図8(a−3)のGy2)のうち当該画像の各々で相違する情報(例えば、GxおよびGy2における「価格」)を「変更情報」という。
詳細には後述するが、第3実施形態の生成処理では、対象画像Gxのうち変更情報が表示される領域(後述の図8(b−3)のRs)を含む行領域L(上述の図2(a)参照)のみについてOCR処理が実行され、当該変更情報がテキストデータに変換される。また、テキストデータに変換された変更情報(後述の図9(b−2)参照)により、既出画像Gy2の物件データB(後述の図9(b−1)参照)を更新することで、対象画像Gxの物件データBを生成する(後述の図9(b−3)参照)。以上の構成によれば、対象画像Gxの変更情報のテキストデータを確認者Kが確認すれば足り、例えば対象画像Gxの物件データBを構成する全てのテキストデータを確認者Kが確認すべき構成と比較して、確認者Kの作業負担が軽減される。
図8(b−3)は、対象画像Gxが既出画像Gy2と部分一致する場合に生成される画像データが示す判定用画像Gjの模擬図である。第3実施形態の判定処理では、判定用画像GjにオブジェクトObが表示された場合であって、当該オブジェクトObのうち最大のオブジェクトObの画素数が上述の第1閾値N以上であり、且つ、第2閾値M以下の場合(N≦画素数≦M)、対象画像Gxおよび既出画像Gyが部分一致すると判断される。
以下において、画素数が第1閾値N以上であり、且つ、第2閾値M以下のオブジェクトObを「オブジェクトObM」と記載する。図8(b−3)の判定用画像Gjには、オブジェクトObMが表示される。また、当該判定用画像Gjには、画素数が第2閾値より多いオブジェクトObLが表示されない。以上の判定用画像Gjが生成された場合、対象画像Gxおよび既出画像Gyは部分一致すると判断される。
情報処理装置200は、対象画像Gxおよび既出画像Gyが部分一致すると判断した場合、判定用画像GjのオブジェクトObMが内側に位置する領域(以下「指定領域」という)Rsを特定する。オブジェクトObMが表示される指定領域Rsは、対象画像Gxの変更情報が表示される領域であると推測される。なお、判定用画像Gjに複数のオブジェクトObMが表示される場合、当該オブジェクトObM毎に指定領域Rsが特定される。
図9(a)は、第3実施形態の各構成の動作を説明するためのシーケンス図である。図9(a)に示す通り、クライアントCがクライアント装置40を適宜に操作することで、画像データAが物件データ生成装置100を介して情報処理装置200に送信される(Sc1)。画像データAが送信された場合、情報処理装置200は、当該画像データAを画像データAxとして設定し、判定処理(Sc2)を実行する。
第3実施形態の判定処理では、上述した通り、判定用画像Gjを示す画像データが生成される。また、情報処理装置200は、判定用画像Gjに表示される最大のオブジェクトObの画素数が、第1閾値N未満であるか、第1閾値N以上且つ第2閾値M以下であるか、第2閾値Mより大きいかを判定する。図9(a)の具体例では、判定用画像Gjに表示される最大のオブジェクトObの画素数が第1閾値N以上且つ第2閾値M以下である場合を想定する。以上の場合、判定処理において、画像データAxが示す対象画像Gx、および、画像データ記憶部201が記憶する既出画像Gyが部分一致すると判断される。
なお、対象画像Gxと部分一致する既出画像Gyが各既出画像Gyに含まれる場合であっても、当該対象画像Gxと完全一致する既出画像Gyが各既出画像Gyに含まれる場合、対象画像Gxは既出画像Gyと完全一致すると判定処理において判断される。以上の場合、当該対象画像Gxと完全一致する既出画像Gyから生成された物件データByが物件データ記憶部202から読み出され、当該物件データByがクライアント装置40に送信される。
対象画像Gxおよび既出画像Gyが部分一致すると判断した場合、情報処理装置200は、判定用画像Gjに表示されるオブジェクトObMが表示される指定領域Rsを特定する。その後、情報処理装置200は、指定領域Rsを物件データ生成装置100に通知する(Sc3)。また、情報処理装置200は、対象画像Gxと部分一致すると判断された既出画像Gyの物件データByを物件データ記憶部202から読出し、物件データ生成装置100に送信する(Sc4)。
図9(b−1)は、上述のステップSc4で送信される物件データByの概念図である。図9(b−1)の具体例では、対象画像Gxが表示する各情報(物件名、価格、面積…)のうち「価格」が既出画像Gyと相違する場合を想定する。以上の場合、物件データByの「価格」は、今回の対象画像Gxが示す「価格」に更新される。
図9(a)に説明を戻す。物件データ生成装置100は、上述の指定領域Rsが通知された場合、生成処理(Sc5)を実行する。以上の生成処理では、対象画像Gxにおける各行領域Lのうちから、情報処理装置200により通知された指定領域Rsが位置する行領域Lが特定される。物件データ生成装置100は、当該指定領域Rsが位置する行領域Lの文字列をテキストデータに変換し、物件データBaを生成する。具体的には、指定領域Rsの行領域Lに含まれる文字列をOCR処理によりテキストデータに変換し、当該テキストデータから物件データBを構成する情報(例えば、価格)を抽出し、当該情報を含む物件データBaを生成する。
以上の構成では、物件データBを構成する情報の一部が更新情報である場合であっても対象画像Gxの全ての領域の文字列をテキストデータに変換する構成と比較して、OCR処理における処理量が抑制できるという利点がある。
図9(b−2)は、第3実施形態の生成処理で生成される物件データBaの概念図である。上述した通り、物件データBaは、対象画像Gxの一部(指定領域Rsが位置する行領域L)の文字列から生成される。したがって、物件データBaには、物件データBを構成する各情報のうち一部の情報(更新情報)を含み、他の情報は含まない(更新情報以外は空データ「Null」になる)。図9(b−2)の具体例では、指定領域Rsが位置する行領域Lから「価格」のみが抽出された場合を想定する。
図9(a)に説明を戻す。物件データ生成装置100は、物件データBaを生成した後に、当該物件データBaおよび画像データAxを物件データ確認装置300に送信する(Sc6)。確認者Kは、物件データBaに含まれる情報の正否を、画像データAxの対象画像Gxで確認する。例えば、物件データBaに「価格」のみが含まれる場合(更新情報が「価格」のみの場合)、確認者Kは、物件データBaの「価格」の正否のみを確認する。以上の構成では、物件データBに含まれる全て(例えば、図2(b−1)の例では9個)の情報の正否を確認することを要する構成と比較して、確認者Kの作業負担が軽減される。
確認用装置30は、物件データBaを修正した物件データBbを物件データ生成装置100に送信する(Sc7)。物件データ生成装置100は、物件データBbを受信した場合、当該物件データBbで物件データByの一部を更新し、物件データBzを生成する。当該物件データBzは、クライアント装置40に送信される。
図9(b−3)は、物件データBzの概念図である。図9(b−3)の物件データBzは、上述の図9(b−1)の物件データByが図9(b−2)の物件データBa(Bb)で更新された場合を想定する。以上の場合、物件データByのうち「価格」が物件データBaの「価格」に更新された物件データBzが生成される。以上の第3実施形態では、上述の第1実施形態と同様な効果が奏せられる。
<変形例>
以上の各形態は多様に変形される。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
(1)上述の各形態において、クライアント装置40から画像データAが受信された場合、物件データBが当該クライアント装置40に送信される構成とした。しかし、クライアント装置40に送信する情報は、物件データBに限定されない。例えば、特定の不動産の各情報を表示する画像GXを示す画像データAを用いて物件データBを生成した場合を想定する。以上の場合、当該物件データBから当該不動産の情報を示す画像GYを生成し、当該画像GYを示す画像データをクライアント装置40に送信する構成としてもよい。
また、以上の変形例では、各物件データBから生成される各画像Gは、一定の共通性がある構成が好適である。例えば、各物件データBから生成される各画像Gは、各種の情報の配列順序が共通の構成が考えられる。例えば、各物件データBから生成される各画像Gは、相違する不動産に関する情報を表示する場合であっても、上辺側から下辺側へ「名称、価格、面積…」の順序で各情報が配列して表示される。以上の構成によれば、例えば、各不動産の価格が各画像で共通の位置に表示され易くなる。したがって、各不動産の各情報が比較し易くなるという利点がある。
(2)上述の各形態において、物件データBを構成する情報の種類をクライアントCが指定できる構成としてもよい。例えば、クライアントCは、クライアント装置40を適宜に操作することで、画像データAに加え、当該画像データAから生成される物件データBに含めたい情報の種類を示す種類情報を送信する。情報処理装置200は、当該種類情報から特定される情報で構成される物件データBを生成しクライアント装置40に送信する。
(3)上述の各形態において、対象画像Gxおよび既出画像Gyを比較する構成は適宜に変更できる。例えば、対象画像Gxが各既出画像Gyに含まれない場合、全ての既出画像Gyが対象画像Gxと比較される構成とした。しかし、以上の場合であっても、全ての既出画像Gyが対象画像Gxと比較される以前に、対象画像Gxと一致する既出画像Gyが無いと判断され、判定処理が中止される構成としてもよい。
具体的には、対象画像Gxと類似度が高から順に予め定められたN個の既出画像Gyを選択し、当該N個の既出画像Gyに対象画像Gxが含まれない場合、対象画像Gxと一致する既出画像Gyが無いと判断される構成が考えられる。例えば、対象画像Gxと類似度が最も高い1個の既出画像Gyが当該対象画像Gxと一致しない場合、他の既出画像Gyを判定するまでもなく全ての既出画像Gyに当該対象画像Gxが含まれないと判断してもよい。
<本実施形態の態様例の作用、効果のまとめ>
<本態様>
本態様の情報処理装置は、文字列を含む画像を示す画像データ(A)を対象画像データ(Ax)に設定する設定手段(画像設定部204)と、複数の画像データ(Ay)を記憶可能な記憶手段(画像データ記憶部201)と、記憶手段が記憶する複数の画像データの各々について、対象画像データが示す画像と共通する画像を示すか否かを判定する判定手段(画像判定部205)と、記憶手段が記憶する複数の画像データの何れもが、対象画像データと共通の画像を示さないと判定された場合、当該対象画像データが示す画像に含まれる文字列をテキストデータに変換させるための指示をする指示手段(変換指示部206)とを具備する。
以上の構成によれば、記憶手段が記憶する複数の画像データの何れもが、対象画像データと共通の画像(対象画像)を示さないと判定された場合、当該対象画像データが示す対象画像に含まれる文字列をテキストデータに変換させるための指示がされる一方で、記憶手段に記憶された画像データの画像(既出画像)と対象画像が一致する場合、当該対象画像に含まれる文字列をテキストデータに変換させる処理は省略できる。したがって、全ての対象画像について一律にテキストデータを生成する構成と比較して、情報処理装置における処理負担が軽減される。
<好適例1>
本態様の好適例として、記憶手段が記憶する複数の画像データの何れもが、対象画像データと共通の画像を示さないと判定された場合、当該対象画像データを記憶手段に追加して記憶させる画像データ追加手段(データ追加部207)を具備する。
例えば、記憶手段が記憶する画像データの個数がN個(Nは正の整数)の場合よりも、記憶手段が記憶する画像データの個数がN+n個(nは正の整数)の場合の方が、既出画像と一致すると判断される画像の種類数がn個増加するため、既出画像と対象画像が一致すると判断され易くなる。既出画像と対象画像が一致すると判断される頻度が向上する程、物件データが新たに生成される頻度が抑制される。すなわち、当該好適例によれば、記憶手段に画像データが追加されない構成と比較して、新たに物件データが生成される頻度が抑制されるとも換言される。したがって、確認者Kが確認すべき物件データの個数が削減され、確認者Kの作業負荷が低減される。
<好適例2>
本態様の好適例として、画像データが示す画像の一部を部分画像として特定する部分画像特定手段(図6参照)を具備し、判定手段は、記憶手段が記憶する複数の画像データの各々について、対象画像データが示す画像の部分画像を含む画像を示すか否かを判定する。以上の好適例では、物件データ(テキストデータ)を新たに生成する必要のない画像を高精度に検出することができるという効果は格別に顕著である。
<好適例3>
本態様の好適例として、対象画像データが示す画像に含まれる各文字列のうち、記憶手段が記憶する画像データが示す画像に含まれる各文字列と一致しない文字列を特定する文字列特定手段(図8参照)と、指示手段は、対象画像データが示す画像に含まれる各文字列のうち、文字列特定手段が特定した文字列をテキストデータに変換させるための指示をする。以上の好適例では、物件データを構成する情報の一部が更新情報である場合であっても対象画像の全ての領域の文字列をテキストデータに変換する構成と比較して、OCR処理における処理量が抑制できるという利点がある。
<好適例4>
本態様の好適例として、画像データが示す画像の画像特徴量を算出可能な画像特徴量算出手段を具備し、判定手段は、対象画像データが示す画像と画像特徴量が近似する画像についてのみ、当該対象画像データが示す画像と共通するか否かを判定する。以上の好適例では、対象画像と一致する既出画像が早期に発見され易いという利点がある。