JP2016143165A

JP2016143165A - 情報処理装置、方法およびプログラム

Info

Publication number: JP2016143165A
Application number: JP2015017383A
Authority: JP
Inventors: 克仁島▲崎▼; Katsuhito Shimazaki
Original assignee: PFU Ltd
Current assignee: PFU Ltd
Priority date: 2015-01-30
Filing date: 2015-01-30
Publication date: 2016-08-08
Anticipated expiration: 2035-01-30
Also published as: US20160227066A1; JP6050843B2; CN105847632A; CN105847632B; US9641715B2

Abstract

【課題】撮像された画像から、所定の属性を有する文字列が記載された箇所を推定することを課題とする。
【解決手段】情報処理装置に、画像データにおける、文字列が記載された箇所を複数特定する特定部と、特定された複数の箇所の夫々について、画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得部と、複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、尤度に基づいて、所定の属性を有する文字列が記載された箇所を推定する推定部と、を備えた。
【選択図】図３

Description

本開示は、画像データを処理するための技術に関する。

従来、文書画像内の黒画素を走査し、それらが連結している領域に外接する矩形領域を文字矩形として抽出し、隣接する複数の文字矩形を統合して、それらの文字矩形に外接する矩形領域を文字列矩形として抽出し、各文字列矩形の下線属性、枠付き属性、罫線属性等の属性と、文書画像内の文字列矩形の位置や相互の位置関係とに基づいて、タイトルらしさのポイント計算を行い、高ポイントを獲得した文字列矩形をタイトル矩形として抽出する、タイトル抽出装置が提案されている（特許文献１を参照）。

また、文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を文字列毎に特定する構文解析手段と、前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段と、を有する文書処理装置が提案されている。（特許文献２を参照）。その他、画像データの名称を生成する方法が、種々提案されている（特許文献３および４を参照）。

特開平９−１３４４０６号公報特開２００６−０８５５８２号公報特開２００８−１７１３８０号公報特表２００８−５３８１４８号公報

従来、文書等を撮像して得られたデータを保存することが行われているが、データの保存や利用にあたっては、ユーザーがデータの内容を把握可能な名称を設定することが好ましく、この名称を設定する作業は、ユーザーに手間をかけさせるものであった。また、撮像された画像データから、文字認識を行ってデータに自動的に名称を設定する技術も種々提案されているが、予め設定されたレイアウトに近いものでないと検出が困難である等の問題があった。

本開示は、上記した問題に鑑み、撮像された画像から、所定の属性を有する文字列が記載された箇所を推定することを課題とする。

本開示の一例は、画像データにおける、文字列が記載された箇所を複数特定する特定手段と、前記特定手段によって特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得手段と、前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての
尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定手段と、を備える情報処理装置である。

本開示は、情報処理装置、システム、コンピューターによって実行される方法またはコンピューターに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピューターその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的または化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。

本開示によれば、撮像された画像から、所定の属性を有する文字列が記載された箇所を推定することが可能となる。

実施形態に係るシステムの構成を示す概略図である。実施形態に係るスキャナーのハードウェア構成を示す図である。実施形態に係るシステムの機能構成の概略を示す図である。実施形態に係るアカウント作成／ユーザー認証処理の流れの概要を示すシーケンス図である。実施形態に係る許可取得処理の流れの概要を示すシーケンス図である。実施形態に係る画像データ処理の流れの概要を示すシーケンス図である。実施形態に係る名称生成処理の流れの概要を示すフローチャートの前半である。実施形態に係る名称生成処理の流れの概要を示すフローチャートの後半である。実施形態において用いられる、日付に係る書式情報テーブルの構成を示す概略図である。実施形態において用いられる、レイアウト情報テーブルの構成を示す概略図である。実施形態においてユーザー端末９に表示される、確認画面の概略を示す図である。

以下、本開示に係る画像データ処理サーバー、システム、方法およびプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る画像データ処理サーバー、システム、方法およびプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。

本実施形態では、本開示に係る画像データ処理サーバー、システム、方法およびプログラムを、スキャナーと連動するシステムとして実施した場合の実施の形態について説明する。但し、本開示に係る画像データ処理サーバー、システム、方法およびプログラムは、撮像装置によって取得された画像データを処理するための技術について広く用いることが可能であり、本開示の適用対象は、本実施形態において示した例に限定されない。

＜システムの構成＞
図１は、本実施形態に係るシステム１の構成を示す概略図である。本実施形態に係るシステム１は、インターネットや広域ネットワーク等のネットワークを介して接続されたスキャナー３および画像データ処理サーバー１を備える。

画像データ処理サーバー１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１２、ＲＡＭ（Ｒａｎｄｏｍ
ＡｃｃｅｓｓＭｅｍｏｒｙ）１３、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅａｎｄＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）やＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の記憶装置１４、および通信ユニット１５、等を備えるコンピューターである。なお、説明の簡略化のため、図では画像データ処理サーバー１を単一筐体のコンピューターとして示しているが、本実施形態において、画像データ処理サーバー１は、その機能の一部または全部が、クラウド技術等を用いて、遠隔地に設置された装置や、分散設置された複数の装置によって実行されることで、ユーザーに対して画像データ処理サービスを提供する。但し、画像データ処理サーバー１の構成は、本実施形態における例示に限定されない。

図２は、本実施形態に係るスキャナー３のハードウェア構成を示す図である。スキャナー３は、ユーザーがセットした、文書、名刺、レシートまたは写真／イラスト等の原稿を撮像することで、画像データを取得する装置であり、原稿を撮像部３７に送るシートフィーダー３６、撮像部３７、スキャンボタン３８、ＣＰＵ３１、ＲＯＭ３２、ＲＡＭ３３、記憶装置３４および通信ユニット３５等を備える撮像装置である。なお、本実施形態では、スキャナー３の撮像方式として、シートフィーダー３６にセットされた原稿を自動送りしながら撮像する撮像方式を採用したスキャナー３を例示したが、スキャナーの撮像方式は限定されない。例えば、スキャナーは、ユーザーによって読取位置にセットされた原稿を撮像するタイプのものであってもよい。また、本実施形態では、本システムにおいて用いる撮像装置として、スキャナー３を用いる例について説明したが、本システムにおいて用いられる撮像装置は、スキャナーに限定されない。例えば、撮像装置としてカメラが採用されてもよい。

本実施形態に係るスキャナー３は、無線通信機能を備えることで無線ＬＡＮに接続する機能を有したスキャナーである。また、本実施形態に係るスキャナー３は、スキャナー３に撮像を指示するためにユーザーが押下またはタッチするスキャンボタン３８を有しているが、タッチパネルディスプレイやキーボード等の、文字入出力や項目選択を可能とするためのユーザーインターフェースを有しておらず、Ｗｅｂブラウザ機能やサーバー機能を有していない。但し、本実施形態に係る方法を採用可能なスキャナーの通信手段およびハードウェア構成等は、本実施形態における例示に限定されない。

また、本実施形態に係るシステムには、所謂スマートフォンやタブレット、パーソナルコンピューター等の、ユーザー端末９が接続される。ユーザー端末９は、ＣＰＵ９１、ＲＯＭ９２、ＲＡＭ９３、記憶装置９４、入出力装置９５および通信ユニット９６等を備えるコンピューターである。ユーザー端末９は、図１に示されているように、スキャナー３が接続されているローカルネットワークに接続されることで、スキャナー３や画像データ処理サーバー１と通信してもよいし、携帯電話網に接続されることで、スキャナー３や画像データ処理サーバー１と通信してもよい。

また、ユーザー端末９には、本実施形態に係るシステムを利用するためのアプリケーションが予めダウンロードされ、インストールされている。アプリケーションは、スキャナー３に対して、ネットワーク経由で設定等を行うことが出来る。このため、本実施形態に係るスキャナー３は、タッチパネルディスプレイやキーボード等の、文字入出力や項目選択を可能とするためのユーザーインターフェースを省略することが出来る。また、アプリケーションは、画像データ処理サーバー１に対して、ネットワーク経由でアカウント作成、ログイン、ログアウトおよび設定等を行うことが出来る。このため、本実施形態に係るシステムに依れば、ユーザーは、ユーザー端末９を操作することによってシステム全体に
係る準備を完了させ、スキャナー３に原稿をセットしてスキャンボタン３８を操作するのみで、原稿から得られたデータを適切なクラウドサービスに送信することが出来る。

また、画像データ処理サーバー１およびユーザー端末９は、ユーザーに対して様々なサービスを提供するインターネット上の複数のクラウドサービス（サードパーティーによって提供されるサービスを含む）と通信可能である。なお、図１においては、画像データ処理サーバー１以外のクラウドサービスのハードウェア構成については、図示を省略しているが、クラウドサービスは、夫々、画像データ処理サーバー１と同様のハードウェア構成を有するコンピューターがクラウド技術を用いて分散配置されたものである。これらのクラウドサービスとしては、例えば、文書管理サービス、名刺管理サービス、レシート管理サービスおよび写真／イラスト管理サービス等が挙げられるが、本実施形態に係るシステム１と連携可能なクラウドサービスは、本開示において例示されたクラウドサービスに限定されない。

図３は、本実施形態に係るシステムの機能構成の概略を示す図である。画像データ処理サーバー１は、記憶装置１４に記録されているプログラムが、ＲＡＭ１３に読み出され、ＣＰＵ１１によって実行されて、画像データ処理サーバー１に備えられた各ハードウェアが制御されることで、ユーザー認証部２１、サービス設定部２２、許可取得部２３、画像受信部２４、種別判定部２５、文字認識部２６、名称生成部２７、データ送信部２８および結果通知部２９を備える装置として機能する。なお、本実施形態では、画像データ処理サーバー１の備える各機能は、汎用プロセッサであるＣＰＵ１１によって実行されるが、これらの機能の一部または全部は、１または複数の専用プロセッサによって実行されてもよい。

ユーザー認証部２１は、ユーザー端末９またはスキャナー３から送信された認証要求を受けて、ユーザー端末９またはスキャナー３のユーザーを認証する。認証要求は、認証のために必要な認証情報を含む。本実施形態では、認証情報としてユーザーＩＤおよびパスワードが用いられるが、認証情報には、その他の情報が用いられてもよい。なお、本実施形態に係るスキャナー３は、先述の通り、文字入出力や項目選択を可能とするためのユーザーインターフェースを有していないため、ユーザー端末９からスキャナー３に対して通知された認証情報を用いて、画像データ処理サーバー１に対して認証要求を送信する。

本実施形態では、ユーザーを認証するために、アクセストークン（以下、後述するクラウドサービス用アクセストークンと区別するために、「画像データ処理サーバー用アクセストークン」と称する）が用いられる。ユーザー認証部２１は、ユーザー端末９またはスキャナー３から認証要求を受信すると、認証要求に含まれる認証情報を検証し、適切な認証情報であった場合に、認証要求の送信元（ユーザー端末９またはスキャナー３）に対して、画像データ処理サーバー用アクセストークンを送信する。画像データ処理サーバー用アクセストークンを受信したユーザー端末９またはスキャナー３は、以降、この画像データ処理サーバー用アクセストークンを用いて、画像データ処理サーバー１と通信を行う。

サービス設定部２２は、画像データが所定の種別の画像データであった場合の画像データ等の送信先としてユーザーに指定されたクラウドサービスを、所定のクラウドサービスとして設定する。即ち、本実施形態に係る画像データ処理サーバー１では、画像データが所定の種別の画像データであった場合のデータ送信先クラウドサービスを、ユーザー所望のクラウドサービスに設定することができる。例えば、文書管理サービスが複数ある場合（例えば、図１に示された文書管理サービスＡおよび文書管理サービスＢ）、ユーザーは、所望の文書管理用クラウドサービスを、ユーザー端末９で動作するアプリケーションを介して画像データ処理サーバー１に指定することで、画像データが文書の画像データであった場合にデータの送信先となるクラウドサービスを、ユーザー指定の文書管理サービス
とすることが出来る。これは、その他の種別の画像データに係るデータを管理するクラウドサービス、即ち、名刺管理サービス、レシート管理サービス、写真／イラスト管理サービスについても同様である。

許可取得部２３は、ユーザー認証されたユーザー端末９から送信された要求に従って、所定のクラウドサービスに対してアクセス許可要求を送信し、当該所定のクラウドサービスから、当該所定のクラウドサービスのユーザーアカウントへのアクセス許可を取得する。

本実施形態では、クラウドサービスからアクセス許可を受けるための手段としてＯＡｕｔｈ２．０認証が用いられ、アクセス許可として、アクセストークン（以下、上述した画像データ処理サーバー用アクセストークンと区別するために、「クラウドサービス用アクセストークン」と称する）が用いられる。画像データ処理サーバー１は、本システムと連携するクラウドサービスのうち、サービス設定部２２によって設定されたクラウドサービス毎に、アクセス許可要求を送信することで、各クラウドサービスから発行されるアクセストークンを受信する。受信されたクラウドサービス毎のアクセストークンは、画像データ処理サーバー１における当該ユーザーのアカウントに紐付けて、画像データ処理サーバー１に保存される。

画像受信部２４は、ユーザー認証されたスキャナー３によって取得され、送信された画像データを、ネットワークを介して受信する。

種別判定部２５は、受信された画像データの種別を判定する。なお、本実施形態において、種別判定部２５によって判定される種別には、文書、名刺、レシートおよび写真／イラストの少なくとも何れかが含まれる。但し、種別判定部２５によって判定可能な画像データの種別は、本実施形態における例示に限定されない。

文字認識部２６は、画像データに対して光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）を行う。

名称生成部２７は、光学文字認識の結果取得された文字列を用いて、画像データまたは当該画像データに基づいて生成されたデータの名称を生成する。名称生成部２７は、例えば、種別判定部２５による判定の結果、画像データの種別が文書であった場合には、文書のタイトルおよび作成日付を含む文字列を、画像データの種別が名刺であった場合には、氏名および所属組織名を含む文字列を、画像データの種別がレシートであった場合には、店舗名および領収日付を含む文字列を、データの名称とする。

なお、本実施形態において、名称生成部２７は、画像データまたは当該画像データに基づいて生成されたデータの名称を生成するために、以下に説明する特定部２７１、レイアウト情報取得部２７２、推定部２７３、訂正部２７４、表示部２７５、ユーザー入力受付部２７６、修正部２７７、レイアウト情報蓄積部２７８、パラメータ更新部２７９および書式情報登録部２８０を備える。

特定部２７１は、画像データにおける、文字列が記載された箇所を複数特定する。

レイアウト情報取得部２７２は、特定部２７１によって特定された複数の箇所の夫々について、当該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得する。

推定部２７３は、複数の箇所の夫々について、他の箇所との位置関係および他の箇所と
のサイズ関係に基づいて、画像データに含まれ得る所定の属性を有する文字列（以下、「属性文字列」とも称する）としての尤度を算出し、尤度に基づいて、所定の属性を有する文字列が記載された箇所（以下、「属性文字列記載箇所」とも称する）を推定する。推定部２７３によって属性文字列記載箇所が推定されると、文字認識部２６は、画像データのうち、少なくとも推定部２７３によって属性文字列記載箇所であると推定された部分に対して文字認識を行う。

なお、本実施形態において、属性文字列記載箇所は、種別判定部２５によって判定された種別の画像データを分類するのに適した文字列が記載された箇所であり、ここから取得される属性文字列は、データの名称を生成するための文字列として用いられる。具体的には、種別判定部２５によって判定された種別が文書であった場合、推定部２７３は、複数の箇所の夫々について、タイトルを含む文字列としての尤度および日付を含む文字列としての尤度を算出し、尤度に基づいて、タイトルを含む文字列が記載された箇所および日付を含む文字列が記載された箇所を推定する。また、種別判定部２５によって判定された種別が名刺であった場合、推定部２７３は、複数の箇所の夫々について、氏名を含む文字列としての尤度および組織名を含む文字列としての尤度を算出し、尤度に基づいて、氏名を含む文字列が記載された箇所および組織名を含む文字列が記載された箇所を推定する。また、種別判定部２５によって判定された種別がレシートであった場合、推定部２７３は、複数の箇所の夫々について、店舗名を含む文字列としての尤度および日付を含む文字列としての尤度を算出し、尤度に基づいて、店舗名を含む文字列が記載された箇所および日付を含む文字列が記載された箇所を推定する。

訂正部２７４は、画像データのレイアウト情報が、レイアウト情報蓄積部２７８によって蓄積されているレイアウト情報と一致または近似する場合に、一致または近似するレイアウト情報に紐付けられた、属性文字列記載箇所としてユーザーに指定された箇所に基づいて、推定部２７３によって推定された箇所を訂正する。

表示部２７５は、属性文字列記載箇所であると推定部２７３によって推定された箇所がユーザーから把握可能なように、特定部２７１によって特定された複数の箇所を表示する。

ユーザー入力受付部２７６は、表示部２７５による表示内容を確認したユーザーによる修正の入力を受け付ける。ここで入力される修正内容には、ユーザーによって指定された、属性文字列記載箇所、および、ユーザーによって入力された、属性文字列が含まれる。

修正部２７７は、ユーザーによる修正の入力に基づいて、名称生成部２７による名称生成に用いられる文字列を修正する。

レイアウト情報蓄積部２７８は、ユーザー入力受付部２７６によってユーザーによる修正の入力が受け付けられた場合に、対象画像データにおける正しい属性文字列記載箇所としてユーザーに指定された箇所と、レイアウト情報取得部２７２によって取得された、対象画像データのレイアウト情報と、を紐付けて、レイアウト情報テーブルに蓄積する。

パラメータ更新部２７９は、ユーザー入力受付部２７６によってユーザーによる修正の入力が受け付けられた場合に、属性文字列記載箇所としてユーザーに指定された箇所について算出される尤度がより高い値になるように、パラメータを更新する。

書式情報登録部２８０は、ユーザー入力受付部２７６によって属性文字列のユーザー入力が受け付けられた場合に、受け付けられた文字列から特定された書式情報を登録する。

データ送信部２８は、種別判定部２５によって、画像データが所定の種別の画像データであると判定された場合に、当該画像データまたは当該画像データに基づいて生成されたデータ（以下、単に「データ」と称する）を、所定のクラウドサービスのユーザーアカウントへ送信する。クラウドサービスのユーザーアカウントへのデータ送信に際しては、許可取得部２３によって各クラウドサービスから取得された各クラウドサービス用アクセストークンのうち、画像データを送信したスキャナー３のユーザーとしてユーザー認証部２１に認証されたユーザーのアカウントに紐付けて画像データ処理サーバー１に保存されているアクセストークンが用いられる。

このようにすることで、データ送信部２８は、種別判定部２５によって、画像データが文書の画像データであると判定された場合に、当該画像データまたは当該画像データに基づいて生成されたデータを、当該画像データを送信したスキャナー３のユーザーとして認証されたユーザーについて文書管理サービスから取得されたアクセストークンを用いて、当該ユーザー指定の文書管理サービスのユーザーアカウントへ送信することが出来る。

結果通知部２９は、リリース結果通知を行うことで、データ送信部２８によるデータ送信の結果（完了／失敗等）をユーザーに通知する。

スキャナー３は、記憶装置３４に記録されているプログラムが、ＲＡＭ３３に読み出され、ＣＰＵ３１によって実行されて、スキャナー３に備えられた各ハードウェアが制御されることで、認証要求送信部４１、ユーザー操作受付部４２、画像データ取得部４３および画像送信部４４を備える装置として機能する。なお、本実施形態では、スキャナー３の備える各機能は、汎用プロセッサであるＣＰＵ３１によって実行されるが、これらの機能の一部または全部は、１または複数の専用プロセッサによって実行されてもよい。

認証要求送信部４１は、ユーザー端末９から当該スキャナー３に対して通知された認証情報を含む認証要求を、画像データ処理サーバー１に対して送信する。

ユーザー操作受付部４２は、所定のユーザー操作を受け付ける。本実施形態では、所定のユーザー操作として、スキャナー３に備えられたスキャンボタン３８の押下またはタッチが、スキャン開始から適切なクラウドサービスへのデータ送信までの一連の処理を一括して指示するためのユーザー操作として受け付けられる。但し、スキャン開始の契機となる所定のユーザー操作は、本開示における例示に限定されない。

画像データ取得部４３は、ユーザー操作受付部４２によって所定のユーザー操作が受け付けられると、対象を撮像することによって画像データを取得する。具体的には、本実施形態に係るスキャナー３の画像データ取得部４３は、は、ユーザー操作受付部４２によってスキャンボタン３８の操作が受け付けられると、シートフィーダー３６を制御して原稿を撮像部３７に送り、撮像部３７を制御して原稿を撮像することで、原稿の画像データを取得する。

画像送信部４４は、画像データ取得部４３によって取得された画像データを、ネットワークを介して画像データ処理サーバー１に送信する。また、画像送信部４４による画像データの送信は、所定のユーザー操作（本実施形態では、スキャンボタン３８の操作）以外の操作を介させることなく、画像データの取得に続けて実行される。

＜処理の流れ＞
次に、本実施形態に係るシステム１によって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容および処理順序は、本開示を実施するための一例である。具体的な処理内容および処理順序は、本開示の実施の形態に応じて適宜選択されてよ
い。

図４は、本実施形態に係るアカウント作成／ユーザー認証処理の流れの概要を示すシーケンス図である。

ステップＳ１０１では、ユーザーアカウントが作成される。ユーザーは、スマートフォン等のユーザー端末９においてアプリケーションを起動させる。起動したアプリケーションは、ユーザーに対して、アカウント作成に必要な情報（例えば、ユーザーＩＤおよびパスワード等）の入力を促し、ユーザーによって入力された情報を、画像データ処理サーバー１に送信する。画像データ処理サーバー１は、ユーザー端末９から受信した情報が適切なものであるか否かを判定し、適切であると判定された場合、当該ユーザーのアカウントを生成する。また、アプリケーションは、作成されたユーザーアカウントにログインするための認証情報（本実施形態では、ユーザーＩＤおよびパスワード）を、ユーザー端末９に保存する。

ステップＳ１０２およびステップＳ１０３では、ユーザー端末９による、画像データ処理サーバー１へのログイン処理が行われる。ユーザー認証部２１は、ユーザー端末９から送信された認証要求を受けて、ユーザー端末９のユーザーを認証する。具体的には、ユーザー認証部２１は、ユーザー端末９から認証要求を受信すると（ステップＳ１０２）、認証要求に含まれる認証情報を検証し、ステップＳ１０１で作成されたアカウント情報と一致する場合に、認証要求の送信元のユーザー端末９に対して、画像データ処理サーバー用アクセストークンを送信する（ステップＳ１０３）。画像データ処理サーバー用アクセストークンを受信したユーザー端末９は、以降、受信されたアクセストークンを用いて、画像データ処理サーバー１と通信を行う。

また、ユーザーは、画像データ処理サーバー１にアカウントを作成した後、ユーザー端末９のアプリケーションを起動して、無線ネットワークを介してユーザー端末９をスキャナー３に接続させる。そして、アプリケーションは、ステップＳ１０１で作成され、ユーザー端末９に保存されている、画像データ処理サーバー１にログインするための認証情報を、スキャナー３に対して通知する。認証情報の通知を受けたスキャナー３の認証要求送信部４１は、当該認証情報を含む認証要求を画像データ処理サーバー１に送信する。

ステップＳ１０４およびステップＳ１０５では、スキャナー３による、画像データ処理サーバー１へのログイン処理が行われる。スキャナー３から送信された認証要求が画像データ処理サーバー１に受信されると（ステップＳ１０４）、画像データ処理サーバー１のユーザー認証部２１は、スキャナー３のユーザーを認証する。ユーザー認証部２１は、スキャナー３から受信された認証要求に含まれる認証情報を検証し、ステップＳ１０１で作成されたアカウント情報と一致する場合に、認証要求の送信元のスキャナー３に対して、画像データ処理サーバー用アクセストークンを送信する（ステップＳ１０５）。画像データ処理サーバー用アクセストークンを受信したスキャナー３は、以降、受信されたアクセストークンを用いて、画像データ処理サーバー１と通信を行う。

図５は、本実施形態に係る許可取得処理の流れの概要を示すシーケンス図である。本実施形態に係る許可取得処理は、ユーザーによって、本実施形態にかかるシステムを利用するためのアプリケーションが起動されたことを契機として実行される。なお、本実施形態では、クラウドサービスからアクセス許可を受けるための手段としてＯＡｕｔｈ２．０認証が用いられるが、認証にはその他の手段が用いられてもよい。

ステップＳ２０１およびステップＳ２０２では、クラウドサービスに対するアクセス許可要求が行われる。ユーザーは、ユーザー端末９においてアプリケーションを起動させ、
アプリケーションのエージェントを操作することで、ユーザー端末９を、画像データ処理サーバー１が提供するＷｅｂサイトに接続する。なお、本実施形態では、アプリケーションに実装されたＷｅｂブラウザがエージェントとして用いられるが、画像データ処理サーバー１が提供するＷｅｂサイトへの接続には、ユーザー端末９にインストールされたその他のＷｅｂブラウザが用いられてもよい。

そして、画像データ処理サーバー１のＷｅｂサイトによって、Ｗｅｂブラウザを介してユーザーがおこなった、クラウドサービスへの接続指示が受信されると（ステップＳ２０１）、画像データ処理サーバー１の許可取得部２３は、クラウドサービスに対して、アクセス許可要求を送信する（ステップＳ２０２）。このアクセス許可要求は、画像データ処理サーバー１が、各クラウドサービスの当該ユーザーのアカウントを利用することの許可を求めるものである。なお、各クラウドサービスのユーザーアカウントは、ユーザーによって予め設定されたものであってもよいし、アプリケーションを介して新たに作成されたものであってもよい。なお、画像データの種別毎に、ユーザーが所望のクラウドサービスを指定可能であり、許可取得部２３が、ユーザーに指定されたクラウドサービスに対してアクセス許可要求を送信することは、サービス設定部２２および許可取得部２３の説明において上述した通りである。

アクセス許可要求を受けたクラウドサービスは、ユーザー端末９に、認可確認のためのポップアップを表示する。その後、表示されたポップアップを確認したユーザーによって、画像データ処理サーバー１がポップアップに係るクラウドサービスの当該ユーザーのアカウントを利用することを承認（許諾）する操作が行われると、ユーザーに承認されたことが、Ｗｅｂブラウザから当該クラウドサービスに通知される。

ステップＳ２０３では、ユーザーに承認された旨の通知を受けたクラウドサービスによって、認可コードがユーザー端末９のＷｅｂブラウザ経由で画像データ処理サーバー１に渡される。画像データ処理サーバー１の許可取得部２３は、クラウドサービスから送信された認可コードを、ユーザー端末９経由で受信する。その後、処理はステップＳ２０４へ進む。

ステップＳ２０４およびステップＳ２０５では、クラウドサービス用アクセストークンが取得される。画像データ処理サーバー１の許可取得部２３は、クラウドサービスに対して認可コードを含むアクセストークン要求を送信し（ステップＳ２０４）、認可コードと引き換えに、クラウドサービスからアクセストークンを取得する（ステップＳ２０５）。取得されたクラウドサービス毎のアクセストークンは、画像データ処理サーバー１におけるユーザーアカウントに紐付けて、画像データ処理サーバー１に保存される。その後、本シーケンス図に示された処理は終了する。

上記説明した、図４および図５に示された処理によって、画像データ処理サーバー１のアクセストークンがスキャナー３によって取得され、クラウドサービスのアクセストークンが画像データ処理サーバー１によって取得され、且つこれらのユーザーアカウントが紐付けられた状態となる。このため、本実施形態に係るシステムによれば、図６を用いて後述する、画像データ処理サーバー１を経由したスキャナー３からクラウドサービスへのスキャンデータの送信（リリース）が可能となる。

図６は、本実施形態に係る画像データ処理の流れの概要を示すシーケンス図である。本実施形態に係る画像データ処理は、スキャナー３に原稿が搭載され、ユーザーによってスキャナー３のスキャンボタン３８が操作されたことを契機として実行される。

ステップＳ３０１では、スキャンされた画像データが、画像データ処理サーバー１にア
ップロードされる。スキャナー３のユーザー操作受付部４２によってスキャンボタン３８の操作が受け付けられると、画像データ取得部４３は、原稿をシートフィーダー３６によって撮像部３７に送り、撮像部３７に原稿を撮像させることで、原稿の画像データを取得する。そして、スキャナー３の画像送信部４４は、取得された画像データを、画像データ処理サーバー１に送信する。この際、送信には、ステップＳ１０５において予め取得された、画像データ処理サーバー用アクセストークンが用いられる。

また、本実施形態において、画像送信部４４による画像データの送信は、スキャンボタン３８の操作以外のユーザー操作を介させることなく、画像データの取得に続けて実行される。画像データ処理サーバー１の画像受信部２４は、スキャナー３から送信された画像データを受信する。また、画像受信部２４は、画像データとともに受診されたアクセストークンを検査することで、受信された画像データが、ユーザー認証されたスキャナー３から送信されたものであるか否かを確認する。受信された画像データが、ユーザー認証されたスキャナー３から送信されたものでない場合、本シーケンス図に示された処理は終了する（図示は省略する）。一方、受信された画像データが、ユーザー認証されたスキャナー３から送信されたものである場合、処理はステップＳ３０２へ進む。

ステップＳ３０２では、原稿種別の自動判別が行われる。種別判定部２５は、受信された画像データが、文書、名刺、レシートおよび写真／イラストの何れの種別に係る画像データであるかを判定する。種別の判定には、レイアウト認識や文字認識、色彩認識、原稿サイズ認識等の、画像の特徴に基づいた判定方式を用いることが出来るが、種別判定には、周知の技術または将来開発される技術を含めて様々な技術を採用可能であり、本開示における例示に限定されない。

また、文字認識部２６は、画像データに対して光学文字認識（ＯｐｔｉｃａｌＣｈａｒａｃｔｅｒＲｅｃｏｇｎｉｔｉｏｎ：ＯＣＲ）を行う。そして、名称生成部２７は、光学文字認識の結果取得された文字列を用いて、画像データまたは当該画像データに基づいて生成されたデータの名称を生成する。具体的な名称生成の方法は、上述した通りである。また、画像データは、スキャナーから受信されたデータフォーマットに拘らず、ＰＤＦ（ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ）等の、判定された原稿種別に適したフォーマットに変換されてもよい。その後、処理はステップＳ３０３へ進む。

ステップＳ３０３では、原稿種別に対応したクラウドサービスが特定され、該当するクラウドサービスに対してデータが送信される。データ送信部２８は、ステップＳ３０２で判定された原稿種別に従って、当該画像データまたは当該画像データに基づいて生成されたデータおよび生成された名称を、当該原稿種別に対応するクラウドサービスのユーザーアカウントへ送信する。クラウドサービスのユーザーアカウントへのデータ送信に際しては、ステップＳ２０５で取得され、画像データ処理サーバー１のユーザーアカウントに紐付けて保存された、各クラウドサービス用アクセストークンが用いられる。その後、処理はステップＳ３０４へ進む。

ステップＳ３０４およびステップＳ３０５では、リリース結果が送信される。画像データ処理サーバー１の結果通知部２９は、データ送信部２８によるデータ送信が完了し、送信先のクラウドサービスから結果通知を受け取ると（ステップＳ３０４）、リリース結果通知を行うことで、データ送信の完了または失敗等をユーザーに通知する（ステップＳ３０５）。具体的には、結果通知部２９は、ユーザー端末９に対してプッシュ通知を行うことが可能な所定の通知ハブサービス（例えば、Ａｚｕｒｅ通知ハブ）を介して、ユーザー端末９が標準装備する通知機能やアプリケーションに対して、データが所定のクラウドサービスに送信され、当該クラウドサービスに保存されたことを通知する。但し、結果通知には、その他の技術が採用されてもよい。その後、本シーケンス図に示された処理は終了
する。

図７および図８は、本実施形態に係る名称生成処理の流れの概要を示すフローチャートである。以下に説明する名称生成処理の説明は、上述したステップＳ３０２の処理をより詳細に説明するものであり、画像データ処理サーバー１の画像受信部２４が、スキャナー３から送信された画像データを受信したことを契機として実行される。なお、本実施形態では、名称生成処理が画像データ処理サーバー１によって実行される例について説明しているが、名称生成処理が実行される主体は画像データ処理サーバー１に限定されない。例えば、名称生成処理は、スキャナーによって行われてもよいし、スキャナーが周辺機器として接続されたパーソナルコンピューターによって行われてもよい。

ステップＳ４０１では、原稿種別が判定される。種別判定部２５は、受信された画像データが、文書、名刺、レシートおよび写真／イラストの何れの種別に係る画像データであるかを判定する。本実施形態において、原稿の種別は、画像データとともに取得された原稿のサイズ情報に基づいて判定される。例えば、名刺のサイズは一般的に５５ｍｍ＊９１ｍｍであるため、これに一致または近似するサイズの原稿は、名刺であると判定できる。また、レシートのサイズは、横幅が３８ｍｍ、４５ｍｍ、６０ｍｍまたは１１０ｍｍのいずれかであることが多いため、これらのサイズに横幅が一致または近似する原稿は、レシートであると判定できる。そして、本実施形態では、その他のサイズの原稿のうち、レイアウト認識や文字認識、色彩認識によって写真／イラストでないと判定された原稿が、文書であると判定される。その後、処理はステップＳ４０２へ進む。

ステップＳ４０２では、原稿のレイアウトが解析される。特定部２７１は、画像データにおける、文字列が記載された箇所を複数特定し、レイアウト情報取得部２７２は、特定部２７１によって特定された複数の箇所の夫々について、当該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得する。より具体的には、レイアウト情報取得部２７２は、画像データにおける、文字列が記載された箇所（行）の夫々について、サイズ、画像データにおける行の縦位置、および行の横位置を含むレイアウト情報を取得する。なお、本実施形態では、行の縦位置は、原稿の上端からの距離で示される。また、行の横位置は、原稿の左端からの距離、または当該行が左詰めか、右詰めか、センタリングされているか、を示す情報で示される。その後、処理はステップＳ４０３へ進む。

ステップＳ４０３では、画像データにおける、属性文字列記載箇所が推定される。推定部２７３は、ステップＳ４０２で特定された複数の箇所の夫々について、他の箇所との相対的な関係性（本実施形態では、位置関係およびサイズ関係）に基づいて、画像データに含まれ得る属性文字列としての尤度を算出し、尤度に基づいて、属性文字列記載箇所を推定する。尤度の算出には、位置関係に係るスコアおよびサイズ関係に係るスコアの夫々を、パラメータを用いて調整する演算が含まれる。以下に、本実施形態における尤度の具体的な算出方法を説明する。

本実施形態において、推定部２７３は、周囲の他文字列との関係性（位置／サイズ／距離等）から尤度を算出する。推定部２７３は、夫々の箇所について算出された尤度を比較し、最も尤度が高い箇所を、属性文字列記載箇所（例えば、文書のタイトルまたは日付、名刺の氏名または組織名、レシートの店舗名または日付、等）として推定する。例えば、画像データの原稿種別が文書であると判定されている場合、推定部２７３は、以下に示す式を用いて、夫々の箇所が当該文書のタイトルである可能性を示す尤度を算出する。
タイトル尤度＝（ａ＊位置スコアＡ）＋（ｂ＊サイズスコアＢ）＋（ｃ＊距離スコアＣ）

ここで、位置スコアＡ、サイズスコアＢおよび距離スコアＣの内容は以下の通りである
。
位置スコアＡ＝１０−原稿上部からの位置順位
サイズスコアＢ＝候補文字サイズ（高さ）／本文の文字サイズ
距離スコアＣ＝左方向に一番近い文字列までの距離＋右方向に一番近い文字列までの距離＋上方向に一番近い文字列までの距離＋下方向に一番近い文字列までの距離

但し、原稿上部からの位置順位が１０番目以降の場合、「位置スコア＝０」となる。また、パラメータａ、ｂおよびｃは、尤度の算出にあたって上記スコアを補正するために用いられるパラメータであり、後述するステップＳ４１３において補正される。

また、例えば、画像データの原稿種別が文書であると判定されている場合、推定部２７３は、以下に示す式を用いて、夫々の箇所が当該文書の日付である可能性を示す尤度を算出する。
日付尤度＝（ａ＊位置スコアＡ）＋（ｂ＊サイズスコアＢ）＋（ｃ＊書式スコアＣ）

ここで、位置スコアＡ、サイズスコアＢおよび書式スコアＣの内容は以下の通りである。
位置スコアＡ＝１０−原稿右上部からの位置順位
サイズスコアＢ＝（候補文字サイズ（高さ）−本文の文字サイズ）の絶対値
書式スコアＣ＝書式とマッチした文字数

但し、原稿上部からの位置順位が１０番目以降の場合、「位置スコア＝０」となる。また、書式スコアＣの算出に用いられる「書式とマッチした文字数」は、日付の書式情報と対照文字列とを比較し、マッチした文字数（数値および区切文字を含む）である。ステップＳ４０３の時点では、日付候補の文字認識（ステップＳ４０４）が未実施であり、文字数がカウント出来ないため、書式スコアを一旦「０」として、日付尤度が算出される。また、パラメータａ、ｂおよびｃは、尤度の算出にあたって上記スコアを補正するために用いられるパラメータであり、後述するステップＳ４１３において補正される。

画像データにおいて、属性文字列記載箇所が推定されると、処理はステップＳ４０４へ進む。

ステップＳ４０４では、文字認識が行われる。文字認識部２６は、画像データのうち、少なくともステップＳ４０３において推定部２７３によって属性文字列記載箇所であると推定された部分に対して文字認識を行う。本実施形態では、文字認識部２６は、属性（例えば、文書のタイトルまたは日付、名刺の氏名または組織名、レシートの店舗名または日付、等）の夫々について、尤度が高い順に上位数箇所を特定し、文字認識を行う。例えば、原稿が文書である場合に、タイトル尤度に係る上位３箇所、日付尤度に係る上位５箇所について、文字認識が行われる。

ここで、所定の属性について尤度が最も高い箇所から文字認識された文字列は、後述するステップＳ４１１においてデータの名称生成に用いられる。例えば、文書の画像データから文字認識された複数箇所に係る文字列のうち、タイトル尤度が最も高い箇所から文字認識されたタイトル文字列、および日付尤度が最も高い箇所から文字認識された日付文字列は、文書データの名称生成に用いられる。また、尤度が２位以下の箇所に係る文字列は、後述するステップＳ４０８における修正時にユーザーから選択可能とするために、候補として保存されてよい。これらの文字列は、画像データファイルの中に埋め込まれてもよいし、画像データとは異なるファイル（例えば、ＸＭＬファイル）に保存されてもよい。その後、処理はステップＳ４０５へ進む。

ステップＳ４０５では、書式の照合が行われる。推定部２７３は、文字認識部２６によって取得された文字列と、予め登録された書式情報との照合結果に基づいて、尤度を補正する。ステップＳ４０４において日付候補の文字認識が行われたため、推定部２７３は、ステップＳ４０３で一旦「０」とされた「書式スコアＣ＝書式とマッチした文字数」を、日付候補の文字列と日付書式情報とを照合することで算出する。推定部２７３は、更新された書式スコアＣを用いて日付尤度を再計算し、最も日付尤度の高い箇所から文字認識された文字列を、日付文字列と推定する。なお、本ステップで説明した書式照合処理は、文字列の属性に応じて省略されてもよい。例えば、原稿種別が文書である画像データから、タイトル候補の文字列が取得された場合、推定部２７３は、特段の書式照合を行わずに、取得された文字列全体を文書のタイトルとしてよい。

図９は、本実施形態において用いられる、日付に係る書式情報テーブルの構成を示す概略図である。書式情報は、ある属性に係る文字列に使用され得る書式を定義したものであり、図９に示した例では、日付に係る書式情報テーブルに、［年］［月］［日］の順序および区切り文字（カンマ「，」やスラッシュ「／」）の組合せのリストが、日付の書式として登録されている。なお、書式情報には、日付以外の属性についても定義されてよい。例えば、タイトルについては、括弧等の記号が書式情報として定義されてよいし、会社名については、「株式会社」や「（株）」等の文字が書式情報として定義されてよい。また、書式情報において書式を定義する方法は、本実施形態における例に限定されない。書式は、例えば正規表現を用いて定義されてもよい。その後、処理はステップＳ４０６へ進む。

ステップＳ４０６では、レイアウト情報に基づいて推定結果が訂正される。訂正部２７４は、ステップＳ４０２で取得された、処理対象の画像データのレイアウト情報と、レイアウト情報テーブルに蓄積されているレイアウト情報とを比較する。比較の結果、処理対象の画像データのレイアウト情報に一致または近似するレイアウト情報が、レイアウト情報テーブルから索出された場合、訂正部２７４は、一致または近似するレイアウト情報に紐付けられた、属性文字列記載箇所としてユーザーに指定された箇所に基づいて、推定部２７３によって推定された箇所を訂正する。ここで比較に用いられるレイアウト情報は、過去に推定部２７３による推定結果がユーザーによって修正された原稿のレイアウト情報である。即ち、訂正部２７４は、過去の修正に係るレイアウト情報と一致または近似するレイアウトの画像データについて、過去の修正と同様の訂正処理を実行する。その後、処理はステップＳ４０７へ進む。

図１０は、本実施形態において用いられる、レイアウト情報テーブルの構成を示す概略図である。レイアウト情報テーブルには、１の原稿に係る原稿のレイアウト情報と、当該原稿に対して行われた修正の内容とが組み合わせられて、１レコードとして蓄積されている。ユーザーによる修正が行われなかった原稿は、レイアウト情報テーブルには蓄積されない。より具体的には、レイアウト情報は、画像データにおける、文字列が記載された箇所（行）の夫々について、サイズ、画像データにおける行の縦位置、および行の横位置を含む。また、当該原稿に対して行われた修正の内容は、修正によって指定された箇所（行）の情報にフラグが付されることによって示される。図１０に示された例では、ユーザー修正によってタイトル行であるとされた行の情報にタイトル行フラグが付され、ユーザー修正によって日付行であるとされた行の情報に日付行フラグが付されている。なお、レイアウト情報テーブルでは、最後に蓄積されたレイアウト情報のレコードが、ステップＳ４０６の比較処理において１番目に比較されるように蓄積され、以前に蓄積されたレコードは、順次、比較処理における順位が繰り下げられる。このようにすることで、最近蓄積された修正の優先度を上げることが出来る。

ステップＳ４０７およびステップＳ４０８では、確認画面が表示され、ユーザー入力が
受け付けられる。表示部２７５は、属性文字列記載箇所であると推定部２７３によって推定された箇所がユーザーから把握可能なように、特定部２７１によって特定された複数の箇所を含む確認画面を表示する（ステップＳ４０７）。そして、ユーザー入力受付部２７６は、表示部２７５による表示内容を確認したユーザーによる修正の入力を受け付ける（ステップＳ４０８）。その後、処理はステップＳ４０８へ進む。

図１１は、本実施形態においてユーザー端末９に表示される、確認画面の概略を示す図である。本実施形態において、表示部２７５は、ユーザーに推定内容および文字認識の結果を確認させるために、確認画面を２つの領域に分けて、２通りの方法で表示を行う。

領域１には、画像データに基づいて原稿画像が表示され、原稿画像上に、特定部２７１によって特定された複数の箇所が、枠によって示される。枠の表示位置は、レイアウト情報に含まれる座標やサイズの情報を用いて決定することができる。ここで、ステップＳ４０６までの処理で属性文字列記載箇所であるとされた箇所は太線で描かれ、その他の箇所の枠は細線で描かれる。また、枠の色は、枠によって示される箇所の属性（タイトル、日付、氏名、組織名、店舗名等）によって異なる。例えば、タイトル関連箇所を赤枠で、日付関連箇所を青枠で表示することとしてよい。確認画面に示された、属性文字列記載箇所が誤りである場合には、ユーザーは、タッチパネル等の入力手段を用いることで、原稿画像上に表示された複数箇所の枠の何れかを選択し、属性文字列記載箇所として正しい箇所を選択したり、文字認識の結果を修正したりすることが出来る。このような表示方法は、所謂タブレット等の、比較的大きなタッチパネルディスプレイを有するユーザー端末に適している。

領域２には、文字認識によって得られた複数の文字列が、属性（タイトル、日付、氏名、組織名、店舗名等）毎にリスト表示される。リストには、ここで、ステップＳ４０６までの処理で属性文字列であると推定または訂正された文字列はリストの最上位に表示され、その他の文字列はリストの２位以下に表示される。確認画面に示された、属性文字列が誤りである場合には、ユーザーは、タッチパネル等の入力手段を用いて、リストに表示された複数の文字列の何れかを選択することで、属性文字列記載箇所として正しい箇所に係る文字列をリストから選択したり、文字認識の結果を修正したりすることが出来る。このような表示方法は、所謂スマートフォン等の、比較的小さなタッチパネルディスプレイを有するユーザー端末に適している。

本実施形態において、確認画面は、画像データ処理サーバー１からユーザー端末９に送信されて、ユーザー端末９によって実行されるアプリケーションによって表示される。なお、本実施形態では、ディスプレイを有さないスキャナーをネットワークに直接接続して用い、画像データ処理を画像データ処理サーバー１によって行うため、確認画面はユーザー端末９に表示されるが、確認画面は、その他の出力装置によって出力されてもよい。例えば、ディスプレイを有するスキャナーにおいて本開示を実施する場合には、確認画面はスキャナーのディスプレイに表示されてよいし、スキャナーがパーソナルコンピューターの周辺機器として接続されている場合には、確認画面はパーソナルコンピューターのディスプレイに表示されてもよい。

ステップＳ４０９およびステップＳ４１０では、ユーザーによる修正の入力があった場合に、名称生成に用いられる文字列が修正される。ステップＳ４０８においてユーザーによる修正の入力が受け付けられた場合（ステップＳ４０９のＹＥＳ）、修正部２７７は、修正の入力に基づいて、名称生成部２７による名称の生成に用いられる文字列を修正する（ステップＳ４１０）。具体的には、ユーザーによって属性文字列記載箇所として正しい箇所が選択された場合、修正部２７７は、ユーザーに選択された箇所についてステップＳ４０４の文字認識で得られていた文字列を、正しい属性文字列とする。また、ユーザーに
よって文字認識の結果が修正された場合、ユーザーによって入力された文字列を、正しい属性文字列とする。ステップＳ４０８においてユーザーによる修正の入力が受け付けられなかった場合（ステップＳ４０９のＮＯ）、および、名称生成に用いられる文字列の修正が完了した場合、処理はステップＳ４１１へ進む。

ステップＳ４１１では、データの名称が生成される。名称生成部２７は、尤度が最も高い箇所について文字認識された結果取得された文字列に基づいて、データの名称を生成する。例えば、原稿が文書である場合、名称生成部２７は、取得した日付およびタイトル文字列を組み合わせて、データ名称を生成する。その後、処理はステップＳ４１２へ進む。

なお、本実施形態では、主として原稿種別が文書である画像データの処理について説明したが、その他の原稿種別に係る画像データを処理する場合であっても、抽出の対象となる属性文字列および属性文字列記載箇所の推定方法が異なる点を除いて、処理の流れは概略同様である。例えば、原稿種別が名刺である場合、属性文字列として氏名文字列および組織名文字列が抽出され、これらの文字列を用いてデータ名称が生成される。また、例えば、原稿種別がレシートである場合、属性文字列として店舗名文字列および日付文字列が抽出され、これらの文字列を用いてデータ名称が生成される。

ステップＳ４１２からステップＳ４１４に示された処理は、ユーザーによって修正された情報（条件と修正内容）を学習し、次回以降の名称生成処理における名称生成の精度を高めるための学習処理である。

ステップＳ４１２では、レイアウト情報が蓄積される。レイアウト情報蓄積部２７８は、ユーザー入力受付部２７６によってユーザーによる修正の入力が受け付けられた場合に、属性文字列記載箇所としてユーザーに指定された箇所と、レイアウト情報取得部２７２によって取得されたレイアウト情報と、を紐付けてレイアウト情報テーブルに蓄積する。レイアウト情報の構成は、図１０を用いて上述した通りである。ここで蓄積されたレイアウト情報は、ステップＳ４０６において説明した、推定結果の訂正に用いられる。その後、処理はステップＳ４１３へ進む。

ステップＳ４１３では、パラメータが更新される。パラメータ更新部２７９は、ユーザー入力受付部２７６によってユーザーによる修正の入力が受け付けられた場合に、属性文字列記載箇所としてユーザーに指定された箇所について算出される尤度がより高い値になるように、パラメータを更新する。

例えば、タイトル尤度を算出する際に用いられるパラメータは、タイトル行として誤って推定された「行ａ」の各スコア（位置スコアＡａ、サイズスコアＢａおよび距離スコアＣａ）と、ユーザー修正によって選択された正しいタイトル行「行ｂ」の各スコア（位置スコアＡｂ，サイズスコアＢｂ，距離スコアＣｂ）と、を比較し、その大小に応じて変更される。より具体的には、パラメータ更新部２７９は、行ａと行ｂの位置スコアを比較し、位置スコアＡａ＜位置スコアＡｂならばパラメータａを（例えば３％）増加させ、位置スコアＡａ＞位置スコアＡｂならばパラメータａを（例えば３％）減少させる。また、パラメータ更新部２７９は、サイズスコアおよび距離スコアについても、同様の方法で更新する。その後、処理はステップＳ４１４へ進む。

ステップＳ４１４では、書式情報が登録される。書式情報登録部２８０は、ユーザー入力受付部２７６によって属性文字列のユーザー入力が受け付けられた場合に、受け付けられた文字列から特定された書式情報を登録する。書式情報の構成は、図９を用いて上述した通りである。例えば、ユーザーによって入力された日付の文字列が、書式情報テーブルに登録されていない書式で記載された日付であった場合、書式情報登録部２８０は、ユー
ザー入力に係る日付文字列に用いられている書式を、新たな書式情報として書式情報テーブルに登録する。その後、本フローチャートに示された処理は終了する。

＜効果＞
上記説明した実施形態によれば、撮像された画像から、所定の属性を有する文字列が記載された箇所を推定することが可能となる。また、推定の結果に基づいて文字認識を行う箇所が限定されることで、画像データ全体に文字認識処理を行う必要がなくなり、処理負荷が軽減される。

１画像データ処理サーバー
３スキャナー
９ユーザー端末

Claims

画像データにおける、文字列が記載された箇所を複数特定する特定手段と、
前記特定手段によって特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得手段と、
前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定手段と、
を備える情報処理装置。
前記画像データのうち、少なくとも前記推定手段によって前記所定の属性を有する文字列が記載された箇所であると推定された部分に対して文字認識を行う文字認識手段と、
前記文字認識の結果取得された文字列を用いて、前記画像データまたは該画像データに基づいて生成されたデータの名称を生成する名称生成手段と、
を更に備える、請求項１に記載の情報処理装置。
前記画像データの種別を判定する種別判定手段を更に備え、
前記推定手段は、前記所定の属性を有する文字列が記載された箇所として、前記種別判定手段によって判定された種別の画像データを分類するのに適した文字列が記載された箇所を推定する、
請求項１または２に記載の情報処理装置。
前記種別判定手段によって判定される種別には、文書が含まれ、
前記種別判定手段によって判定された種別が文書であった場合、前記推定手段は、前記複数の箇所の夫々について、タイトルを含む文字列または日付を含む文字列としての尤度を算出し、該尤度に基づいて、タイトルを含む文字列または日付を含む文字列が記載された箇所を推定する、
請求項３に記載の情報処理装置。
前記種別判定手段によって判定される種別には、名刺が含まれ、
前記種別判定手段によって判定された種別が名刺であった場合、前記推定手段は、前記複数の箇所の夫々について、氏名を含む文字列または組織名を含む文字列としての尤度を算出し、該尤度に基づいて、氏名を含む文字列または組織名を含む文字列が記載された箇所を推定する、
請求項３または４に記載の情報処理装置。
前記種別判定手段によって判定される種別には、レシートが含まれ、
前記種別判定手段によって判定された種別がレシートであった場合、前記推定手段は、前記複数の箇所の夫々について、店舗名を含む文字列または日付を含む文字列としての尤度を算出し、該尤度に基づいて、店舗名を含む文字列または日付を含む文字列が記載された箇所を推定する、
請求項３から５の何れか一項に記載の情報処理装置。
前記種別判定手段によって判定される種別には、文書、名刺、レシートおよび写真／イラストの少なくとも何れかが含まれる、
請求項３から６の何れか一項に記載の情報処理装置。
前記所定の属性を有する文字列が記載された箇所であると前記推定手段によって推定さ
れた箇所がユーザーから把握可能なように、前記特定手段によって特定された複数の箇所を表示する表示手段と、
前記表示手段による表示内容を確認したユーザーによる修正の入力を受け付けるユーザー入力受付手段と、
前記修正の入力に基づいて、前記名称生成手段による名称の生成に用いられる文字列を修正する修正手段と、
を更に備える、請求項２に記載の情報処理装置。
前記推定手段は、前記位置関係に係るスコアおよび前記サイズ関係に係るスコアの夫々をパラメータを用いて調整する演算を含む処理によって、前記尤度を算出し、
前記ユーザー入力受付手段によってユーザーによる修正の入力が受け付けられた場合に、前記所定の属性を有する文字列が記載された箇所としてユーザーに指定された箇所について算出される前記尤度がより高い値になるように、前記パラメータを更新するパラメータ更新手段を更に備える、
請求項８に記載の情報処理装置。
前記ユーザー入力受付手段によってユーザーによる修正の入力が受け付けられた場合に、前記所定の属性を有する文字列が記載された箇所としてユーザーに指定された箇所と、前記レイアウト情報取得手段によって取得された前記レイアウト情報と、を紐付けて蓄積するレイアウト情報蓄積手段と、
前記画像データのレイアウト情報が、前記レイアウト情報蓄積手段によって蓄積されているレイアウト情報と一致または近似する場合に、一致または近似するレイアウト情報に紐付けられた、前記所定の属性を有する文字列が記載された箇所としてユーザーに指定された箇所に基づいて、前記推定手段によって推定された箇所を訂正する訂正手段と、を更に備える、
請求項８または９に記載の情報処理装置。
前記推定手段は、前記文字認識手段によって取得された文字列と、予め登録された書式情報との照合結果に基づいて、前記尤度を補正する、
請求項８から１０の何れか一項に記載の情報処理装置。
前記ユーザー入力受付手段は、前記所定の属性を有する文字列のユーザー入力を更に受け付け、
前記ユーザー入力受付手段によって前記所定の属性を有する文字列のユーザー入力が受け付けられた場合に、受け付けられた文字列から特定された書式情報を登録する書式情報登録手段を更に備える、
請求項１１に記載の情報処理装置。
撮像装置から送信された、該撮像装置によって取得された画像データを、ネットワークを介して受信する画像受信手段を更に備える、
請求項１から１２の何れか一項に記載の情報処理装置。
撮像装置のユーザーを認証するユーザー認証手段を更に備え、
前記画像受信手段は、ユーザー認証された前記撮像装置から送信された、該撮像装置によって取得された画像データを、ネットワークを介して受信する、
請求項１３に記載の情報処理装置。
ネットワークを介してサービスを提供する所定のサービスから、該所定のサービスにおける前記ユーザーのアカウントへのアクセス許可を取得する、許可取得手段と、
前記種別判定手段によって、前記画像データが所定の種別の画像データであると判定さ
れた場合に、該画像データまたは該画像データに基づいて生成されたデータを、該画像データを送信した前記撮像装置のユーザーとして認証されたユーザーについて前記所定のサービスから取得された前記アクセス許可を用いて、前記所定のサービスにおける前記ユーザーのアカウントへ送信する、データ送信手段と、を更に備える、
請求項１４に記載の情報処理装置。
前記ユーザー認証手段は、更にユーザー端末のユーザーを認証し、
前記許可取得手段は、ユーザー認証された前記ユーザー端末から送信された要求に従って、前記所定のサービスに対してアクセス許可要求を送信し、前記アクセス許可を取得する、
請求項１５に記載の情報処理装置。
前記ユーザー認証手段は、前記撮像装置によって送信された認証要求であって、ユーザー端末から前記撮像装置に対して通知された認証情報を含む認証要求を受けて、前記撮像装置のユーザーを認証する、
請求項１４から１６の何れか一項に記載の情報処理装置。
コンピューターが、
画像データにおける、文字列が記載された箇所を複数特定する特定ステップと、
前記特定ステップで特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得ステップと、
前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定ステップと、
を実行する方法。
コンピューターを、
画像データにおける、文字列が記載された箇所を複数特定する特定手段と、
前記特定手段によって特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得手段と、
前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定手段と、
として機能させるためのプログラム。