JP6050843B2 - 情報処理装置、方法およびプログラム - Google Patents

情報処理装置、方法およびプログラム Download PDF

Info

Publication number
JP6050843B2
JP6050843B2 JP2015017383A JP2015017383A JP6050843B2 JP 6050843 B2 JP6050843 B2 JP 6050843B2 JP 2015017383 A JP2015017383 A JP 2015017383A JP 2015017383 A JP2015017383 A JP 2015017383A JP 6050843 B2 JP6050843 B2 JP 6050843B2
Authority
JP
Japan
Prior art keywords
image data
character string
user
likelihood
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015017383A
Other languages
English (en)
Other versions
JP2016143165A (ja
Inventor
克仁 島▲崎▼
克仁 島▲崎▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PFU Ltd
Original Assignee
PFU Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PFU Ltd filed Critical PFU Ltd
Priority to JP2015017383A priority Critical patent/JP6050843B2/ja
Priority to US14/713,882 priority patent/US9641715B2/en
Priority to CN201510552688.9A priority patent/CN105847632B/zh
Publication of JP2016143165A publication Critical patent/JP2016143165A/ja
Application granted granted Critical
Publication of JP6050843B2 publication Critical patent/JP6050843B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/04Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/44Secrecy systems
    • H04N1/4406Restricting access, e.g. according to user identity
    • H04N1/4413Restricting access, e.g. according to user identity involving the use of passwords, ID codes or the like, e.g. PIN
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00244Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00281Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal
    • H04N1/00307Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a telecommunication apparatus, e.g. a switched network of teleprinters for the distribution of text-based information, a selective call terminal with a mobile telephone apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/40Picture signal circuits
    • H04N1/40062Discrimination between different image types, e.g. two-tone, continuous tone
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0081Image reader

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computing Systems (AREA)
  • Geometry (AREA)
  • Computer Graphics (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、画像データを処理するための技術に関する。
従来、文書画像内の黒画素を走査し、それらが連結している領域に外接する矩形領域を文字矩形として抽出し、隣接する複数の文字矩形を統合して、それらの文字矩形に外接する矩形領域を文字列矩形として抽出し、各文字列矩形の下線属性、枠付き属性、罫線属性等の属性と、文書画像内の文字列矩形の位置や相互の位置関係とに基づいて、タイトルらしさのポイント計算を行い、高ポイントを獲得した文字列矩形をタイトル矩形として抽出する、タイトル抽出装置が提案されている(特許文献1を参照)。
また、文書の表題となる可能性が高い文字列またはその可能性が低い文字列の構文を表す構文データが記憶された記憶手段と、文書を電子化した文書データが入力される入力手段と、前記入力手段へ入力された文書データを解析し、文字列を表す文字列データを抽出する抽出手段と、前記抽出手段により抽出された文字列データの各々を解析し、前記文書データに対応する文書に記載されている文字列の構文を文字列毎に特定する構文解析手段と、前記構文解析手段による特定結果と前記記憶手段の記憶内容とに基づいて、前記抽出手段により抽出された文字列データのうちから、前記文書データに対応する文書の表題を表す文字列データを特定する特定手段と、を有する文書処理装置が提案されている。(特許文献2を参照)。その他、画像データの名称を生成する方法が、種々提案されている(特許文献3および4を参照)。
特開平9−134406号公報 特開2006−085582号公報 特開2008−171380号公報 特表2008−538148号公報
従来、文書等を撮像して得られたデータを保存することが行われているが、データの保存や利用にあたっては、ユーザーがデータの内容を把握可能な名称を設定することが好ましく、この名称を設定する作業は、ユーザーに手間をかけさせるものであった。また、撮像された画像データから、文字認識を行ってデータに自動的に名称を設定する技術も種々提案されているが、予め設定されたレイアウトに近いものでないと検出が困難である等の問題があった。
本開示は、上記した問題に鑑み、撮像された画像から、所定の属性を有する文字列が記載された箇所を推定することを課題とする。
本開示の一例は、画像データにおける、文字列が記載された箇所を複数特定する特定手段と、前記特定手段によって特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得手段と、前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての
尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定手段と、を備える情報処理装置である。
本開示は、情報処理装置、システム、コンピューターによって実行される方法またはコンピューターに実行させるプログラムとして把握することが可能である。また、本開示は、そのようなプログラムをコンピューターその他の装置、機械等が読み取り可能な記録媒体に記録したものとしても把握できる。ここで、コンピューター等が読み取り可能な記録媒体とは、データやプログラム等の情報を電気的、磁気的、光学的、機械的または化学的作用によって蓄積し、コンピューター等から読み取ることができる記録媒体をいう。
本開示によれば、撮像された画像から、所定の属性を有する文字列が記載された箇所を推定することが可能となる。
実施形態に係るシステムの構成を示す概略図である。 実施形態に係るスキャナーのハードウェア構成を示す図である。 実施形態に係るシステムの機能構成の概略を示す図である。 実施形態に係るアカウント作成/ユーザー認証処理の流れの概要を示すシーケンス図である。 実施形態に係る許可取得処理の流れの概要を示すシーケンス図である。 実施形態に係る画像データ処理の流れの概要を示すシーケンス図である。 実施形態に係る名称生成処理の流れの概要を示すフローチャートの前半である。 実施形態に係る名称生成処理の流れの概要を示すフローチャートの後半である。 実施形態において用いられる、日付に係る書式情報テーブルの構成を示す概略図である。 実施形態において用いられる、レイアウト情報テーブルの構成を示す概略図である。 実施形態においてユーザー端末9に表示される、確認画面の概略を示す図である。
以下、本開示に係る画像データ処理サーバー、システム、方法およびプログラムの実施の形態を、図面に基づいて説明する。但し、以下に説明する実施の形態は、実施形態を例示するものであって、本開示に係る画像データ処理サーバー、システム、方法およびプログラムを以下に説明する具体的構成に限定するものではない。実施にあたっては、実施の態様に応じた具体的構成が適宜採用され、また、種々の改良や変形が行われてよい。
本実施形態では、本開示に係る画像データ処理サーバー、システム、方法およびプログラムを、スキャナーと連動するシステムとして実施した場合の実施の形態について説明する。但し、本開示に係る画像データ処理サーバー、システム、方法およびプログラムは、撮像装置によって取得された画像データを処理するための技術について広く用いることが可能であり、本開示の適用対象は、本実施形態において示した例に限定されない。
<システムの構成>
図1は、本実施形態に係るシステム1の構成を示す概略図である。本実施形態に係るシステム1は、インターネットや広域ネットワーク等のネットワークを介して接続されたスキャナー3および画像データ処理サーバー1を備える。
画像データ処理サーバー1は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random
Access Memory)13、EEPROM(Electrically Erasable and Programmable Read Only Memory)やHDD(Hard Disk Drive)等の記憶装置14、および通信ユニット15、等を備えるコンピューターである。なお、説明の簡略化のため、図では画像データ処理サーバー1を単一筐体のコンピューターとして示しているが、本実施形態において、画像データ処理サーバー1は、その機能の一部または全部が、クラウド技術等を用いて、遠隔地に設置された装置や、分散設置された複数の装置によって実行されることで、ユーザーに対して画像データ処理サービスを提供する。但し、画像データ処理サーバー1の構成は、本実施形態における例示に限定されない。
図2は、本実施形態に係るスキャナー3のハードウェア構成を示す図である。スキャナー3は、ユーザーがセットした、文書、名刺、レシートまたは写真/イラスト等の原稿を撮像することで、画像データを取得する装置であり、原稿を撮像部37に送るシートフィーダー36、撮像部37、スキャンボタン38、CPU31、ROM32、RAM33、記憶装置34および通信ユニット35等を備える撮像装置である。なお、本実施形態では、スキャナー3の撮像方式として、シートフィーダー36にセットされた原稿を自動送りしながら撮像する撮像方式を採用したスキャナー3を例示したが、スキャナーの撮像方式は限定されない。例えば、スキャナーは、ユーザーによって読取位置にセットされた原稿を撮像するタイプのものであってもよい。また、本実施形態では、本システムにおいて用いる撮像装置として、スキャナー3を用いる例について説明したが、本システムにおいて用いられる撮像装置は、スキャナーに限定されない。例えば、撮像装置としてカメラが採用されてもよい。
本実施形態に係るスキャナー3は、無線通信機能を備えることで無線LANに接続する機能を有したスキャナーである。また、本実施形態に係るスキャナー3は、スキャナー3に撮像を指示するためにユーザーが押下またはタッチするスキャンボタン38を有しているが、タッチパネルディスプレイやキーボード等の、文字入出力や項目選択を可能とするためのユーザーインターフェースを有しておらず、Webブラウザ機能やサーバー機能を有していない。但し、本実施形態に係る方法を採用可能なスキャナーの通信手段およびハードウェア構成等は、本実施形態における例示に限定されない。
また、本実施形態に係るシステムには、所謂スマートフォンやタブレット、パーソナルコンピューター等の、ユーザー端末9が接続される。ユーザー端末9は、CPU91、ROM92、RAM93、記憶装置94、入出力装置95および通信ユニット96等を備えるコンピューターである。ユーザー端末9は、図1に示されているように、スキャナー3が接続されているローカルネットワークに接続されることで、スキャナー3や画像データ処理サーバー1と通信してもよいし、携帯電話網に接続されることで、スキャナー3や画像データ処理サーバー1と通信してもよい。
また、ユーザー端末9には、本実施形態に係るシステムを利用するためのアプリケーションが予めダウンロードされ、インストールされている。アプリケーションは、スキャナー3に対して、ネットワーク経由で設定等を行うことが出来る。このため、本実施形態に係るスキャナー3は、タッチパネルディスプレイやキーボード等の、文字入出力や項目選択を可能とするためのユーザーインターフェースを省略することが出来る。また、アプリケーションは、画像データ処理サーバー1に対して、ネットワーク経由でアカウント作成、ログイン、ログアウトおよび設定等を行うことが出来る。このため、本実施形態に係るシステムに依れば、ユーザーは、ユーザー端末9を操作することによってシステム全体に
係る準備を完了させ、スキャナー3に原稿をセットしてスキャンボタン38を操作するのみで、原稿から得られたデータを適切なクラウドサービスに送信することが出来る。
また、画像データ処理サーバー1およびユーザー端末9は、ユーザーに対して様々なサービスを提供するインターネット上の複数のクラウドサービス(サードパーティーによって提供されるサービスを含む)と通信可能である。なお、図1においては、画像データ処理サーバー1以外のクラウドサービスのハードウェア構成については、図示を省略しているが、クラウドサービスは、夫々、画像データ処理サーバー1と同様のハードウェア構成を有するコンピューターがクラウド技術を用いて分散配置されたものである。これらのクラウドサービスとしては、例えば、文書管理サービス、名刺管理サービス、レシート管理サービスおよび写真/イラスト管理サービス等が挙げられるが、本実施形態に係るシステム1と連携可能なクラウドサービスは、本開示において例示されたクラウドサービスに限定されない。
図3は、本実施形態に係るシステムの機能構成の概略を示す図である。画像データ処理サーバー1は、記憶装置14に記録されているプログラムが、RAM13に読み出され、CPU11によって実行されて、画像データ処理サーバー1に備えられた各ハードウェアが制御されることで、ユーザー認証部21、サービス設定部22、許可取得部23、画像受信部24、種別判定部25、文字認識部26、名称生成部27、データ送信部28および結果通知部29を備える装置として機能する。なお、本実施形態では、画像データ処理サーバー1の備える各機能は、汎用プロセッサであるCPU11によって実行されるが、これらの機能の一部または全部は、1または複数の専用プロセッサによって実行されてもよい。
ユーザー認証部21は、ユーザー端末9またはスキャナー3から送信された認証要求を受けて、ユーザー端末9またはスキャナー3のユーザーを認証する。認証要求は、認証のために必要な認証情報を含む。本実施形態では、認証情報としてユーザーIDおよびパスワードが用いられるが、認証情報には、その他の情報が用いられてもよい。なお、本実施形態に係るスキャナー3は、先述の通り、文字入出力や項目選択を可能とするためのユーザーインターフェースを有していないため、ユーザー端末9からスキャナー3に対して通知された認証情報を用いて、画像データ処理サーバー1に対して認証要求を送信する。
本実施形態では、ユーザーを認証するために、アクセストークン(以下、後述するクラウドサービス用アクセストークンと区別するために、「画像データ処理サーバー用アクセストークン」と称する)が用いられる。ユーザー認証部21は、ユーザー端末9またはスキャナー3から認証要求を受信すると、認証要求に含まれる認証情報を検証し、適切な認証情報であった場合に、認証要求の送信元(ユーザー端末9またはスキャナー3)に対して、画像データ処理サーバー用アクセストークンを送信する。画像データ処理サーバー用アクセストークンを受信したユーザー端末9またはスキャナー3は、以降、この画像データ処理サーバー用アクセストークンを用いて、画像データ処理サーバー1と通信を行う。
サービス設定部22は、画像データが所定の種別の画像データであった場合の画像データ等の送信先としてユーザーに指定されたクラウドサービスを、所定のクラウドサービスとして設定する。即ち、本実施形態に係る画像データ処理サーバー1では、画像データが所定の種別の画像データであった場合のデータ送信先クラウドサービスを、ユーザー所望のクラウドサービスに設定することができる。例えば、文書管理サービスが複数ある場合(例えば、図1に示された文書管理サービスAおよび文書管理サービスB)、ユーザーは、所望の文書管理用クラウドサービスを、ユーザー端末9で動作するアプリケーションを介して画像データ処理サーバー1に指定することで、画像データが文書の画像データであった場合にデータの送信先となるクラウドサービスを、ユーザー指定の文書管理サービス
とすることが出来る。これは、その他の種別の画像データに係るデータを管理するクラウドサービス、即ち、名刺管理サービス、レシート管理サービス、写真/イラスト管理サービスについても同様である。
許可取得部23は、ユーザー認証されたユーザー端末9から送信された要求に従って、所定のクラウドサービスに対してアクセス許可要求を送信し、当該所定のクラウドサービスから、当該所定のクラウドサービスのユーザーアカウントへのアクセス許可を取得する。
本実施形態では、クラウドサービスからアクセス許可を受けるための手段としてOAuth2.0認証が用いられ、アクセス許可として、アクセストークン(以下、上述した画像データ処理サーバー用アクセストークンと区別するために、「クラウドサービス用アクセストークン」と称する)が用いられる。画像データ処理サーバー1は、本システムと連携するクラウドサービスのうち、サービス設定部22によって設定されたクラウドサービス毎に、アクセス許可要求を送信することで、各クラウドサービスから発行されるアクセストークンを受信する。受信されたクラウドサービス毎のアクセストークンは、画像データ処理サーバー1における当該ユーザーのアカウントに紐付けて、画像データ処理サーバー1に保存される。
画像受信部24は、ユーザー認証されたスキャナー3によって取得され、送信された画像データを、ネットワークを介して受信する。
種別判定部25は、受信された画像データの種別を判定する。なお、本実施形態において、種別判定部25によって判定される種別には、文書、名刺、レシートおよび写真/イラストの少なくとも何れかが含まれる。但し、種別判定部25によって判定可能な画像データの種別は、本実施形態における例示に限定されない。
文字認識部26は、画像データに対して光学文字認識(Optical Character Recognition:OCR)を行う。
名称生成部27は、光学文字認識の結果取得された文字列を用いて、画像データまたは当該画像データに基づいて生成されたデータの名称を生成する。名称生成部27は、例えば、種別判定部25による判定の結果、画像データの種別が文書であった場合には、文書のタイトルおよび作成日付を含む文字列を、画像データの種別が名刺であった場合には、氏名および所属組織名を含む文字列を、画像データの種別がレシートであった場合には、店舗名および領収日付を含む文字列を、データの名称とする。
なお、本実施形態において、名称生成部27は、画像データまたは当該画像データに基づいて生成されたデータの名称を生成するために、以下に説明する特定部271、レイアウト情報取得部272、推定部273、訂正部274、表示部275、ユーザー入力受付部276、修正部277、レイアウト情報蓄積部278、パラメータ更新部279および書式情報登録部280を備える。
特定部271は、画像データにおける、文字列が記載された箇所を複数特定する。
レイアウト情報取得部272は、特定部271によって特定された複数の箇所の夫々について、当該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得する。
推定部273は、複数の箇所の夫々について、他の箇所との位置関係および他の箇所と
のサイズ関係に基づいて、画像データに含まれ得る所定の属性を有する文字列(以下、「属性文字列」とも称する)としての尤度を算出し、尤度に基づいて、所定の属性を有する文字列が記載された箇所(以下、「属性文字列記載箇所」とも称する)を推定する。推定部273によって属性文字列記載箇所が推定されると、文字認識部26は、画像データのうち、少なくとも推定部273によって属性文字列記載箇所であると推定された部分に対して文字認識を行う。
なお、本実施形態において、属性文字列記載箇所は、種別判定部25によって判定された種別の画像データを分類するのに適した文字列が記載された箇所であり、ここから取得される属性文字列は、データの名称を生成するための文字列として用いられる。具体的には、種別判定部25によって判定された種別が文書であった場合、推定部273は、複数の箇所の夫々について、タイトルを含む文字列としての尤度および日付を含む文字列としての尤度を算出し、尤度に基づいて、タイトルを含む文字列が記載された箇所および日付を含む文字列が記載された箇所を推定する。また、種別判定部25によって判定された種別が名刺であった場合、推定部273は、複数の箇所の夫々について、氏名を含む文字列としての尤度および組織名を含む文字列としての尤度を算出し、尤度に基づいて、氏名を含む文字列が記載された箇所および組織名を含む文字列が記載された箇所を推定する。また、種別判定部25によって判定された種別がレシートであった場合、推定部273は、複数の箇所の夫々について、店舗名を含む文字列としての尤度および日付を含む文字列としての尤度を算出し、尤度に基づいて、店舗名を含む文字列が記載された箇所および日付を含む文字列が記載された箇所を推定する。
訂正部274は、画像データのレイアウト情報が、レイアウト情報蓄積部278によって蓄積されているレイアウト情報と一致または近似する場合に、一致または近似するレイアウト情報に紐付けられた、属性文字列記載箇所としてユーザーに指定された箇所に基づいて、推定部273によって推定された箇所を訂正する。
表示部275は、属性文字列記載箇所であると推定部273によって推定された箇所がユーザーから把握可能なように、特定部271によって特定された複数の箇所を表示する。
ユーザー入力受付部276は、表示部275による表示内容を確認したユーザーによる修正の入力を受け付ける。ここで入力される修正内容には、ユーザーによって指定された、属性文字列記載箇所、および、ユーザーによって入力された、属性文字列が含まれる。
修正部277は、ユーザーによる修正の入力に基づいて、名称生成部27による名称生成に用いられる文字列を修正する。
レイアウト情報蓄積部278は、ユーザー入力受付部276によってユーザーによる修正の入力が受け付けられた場合に、対象画像データにおける正しい属性文字列記載箇所としてユーザーに指定された箇所と、レイアウト情報取得部272によって取得された、対象画像データのレイアウト情報と、を紐付けて、レイアウト情報テーブルに蓄積する。
パラメータ更新部279は、ユーザー入力受付部276によってユーザーによる修正の入力が受け付けられた場合に、属性文字列記載箇所としてユーザーに指定された箇所について算出される尤度がより高い値になるように、パラメータを更新する。
書式情報登録部280は、ユーザー入力受付部276によって属性文字列のユーザー入力が受け付けられた場合に、受け付けられた文字列から特定された書式情報を登録する。
データ送信部28は、種別判定部25によって、画像データが所定の種別の画像データであると判定された場合に、当該画像データまたは当該画像データに基づいて生成されたデータ(以下、単に「データ」と称する)を、所定のクラウドサービスのユーザーアカウントへ送信する。クラウドサービスのユーザーアカウントへのデータ送信に際しては、許可取得部23によって各クラウドサービスから取得された各クラウドサービス用アクセストークンのうち、画像データを送信したスキャナー3のユーザーとしてユーザー認証部21に認証されたユーザーのアカウントに紐付けて画像データ処理サーバー1に保存されているアクセストークンが用いられる。
このようにすることで、データ送信部28は、種別判定部25によって、画像データが文書の画像データであると判定された場合に、当該画像データまたは当該画像データに基づいて生成されたデータを、当該画像データを送信したスキャナー3のユーザーとして認証されたユーザーについて文書管理サービスから取得されたアクセストークンを用いて、当該ユーザー指定の文書管理サービスのユーザーアカウントへ送信することが出来る。
結果通知部29は、リリース結果通知を行うことで、データ送信部28によるデータ送信の結果(完了/失敗等)をユーザーに通知する。
スキャナー3は、記憶装置34に記録されているプログラムが、RAM33に読み出され、CPU31によって実行されて、スキャナー3に備えられた各ハードウェアが制御されることで、認証要求送信部41、ユーザー操作受付部42、画像データ取得部43および画像送信部44を備える装置として機能する。なお、本実施形態では、スキャナー3の備える各機能は、汎用プロセッサであるCPU31によって実行されるが、これらの機能の一部または全部は、1または複数の専用プロセッサによって実行されてもよい。
認証要求送信部41は、ユーザー端末9から当該スキャナー3に対して通知された認証情報を含む認証要求を、画像データ処理サーバー1に対して送信する。
ユーザー操作受付部42は、所定のユーザー操作を受け付ける。本実施形態では、所定のユーザー操作として、スキャナー3に備えられたスキャンボタン38の押下またはタッチが、スキャン開始から適切なクラウドサービスへのデータ送信までの一連の処理を一括して指示するためのユーザー操作として受け付けられる。但し、スキャン開始の契機となる所定のユーザー操作は、本開示における例示に限定されない。
画像データ取得部43は、ユーザー操作受付部42によって所定のユーザー操作が受け付けられると、対象を撮像することによって画像データを取得する。具体的には、本実施形態に係るスキャナー3の画像データ取得部43は、は、ユーザー操作受付部42によってスキャンボタン38の操作が受け付けられると、シートフィーダー36を制御して原稿を撮像部37に送り、撮像部37を制御して原稿を撮像することで、原稿の画像データを取得する。
画像送信部44は、画像データ取得部43によって取得された画像データを、ネットワークを介して画像データ処理サーバー1に送信する。また、画像送信部44による画像データの送信は、所定のユーザー操作(本実施形態では、スキャンボタン38の操作)以外の操作を介させることなく、画像データの取得に続けて実行される。
<処理の流れ>
次に、本実施形態に係るシステム1によって実行される処理の流れを説明する。なお、以下に説明する処理の具体的な内容および処理順序は、本開示を実施するための一例である。具体的な処理内容および処理順序は、本開示の実施の形態に応じて適宜選択されてよ
い。
図4は、本実施形態に係るアカウント作成/ユーザー認証処理の流れの概要を示すシーケンス図である。
ステップS101では、ユーザーアカウントが作成される。ユーザーは、スマートフォン等のユーザー端末9においてアプリケーションを起動させる。起動したアプリケーションは、ユーザーに対して、アカウント作成に必要な情報(例えば、ユーザーIDおよびパスワード等)の入力を促し、ユーザーによって入力された情報を、画像データ処理サーバー1に送信する。画像データ処理サーバー1は、ユーザー端末9から受信した情報が適切なものであるか否かを判定し、適切であると判定された場合、当該ユーザーのアカウントを生成する。また、アプリケーションは、作成されたユーザーアカウントにログインするための認証情報(本実施形態では、ユーザーIDおよびパスワード)を、ユーザー端末9に保存する。
ステップS102およびステップS103では、ユーザー端末9による、画像データ処理サーバー1へのログイン処理が行われる。ユーザー認証部21は、ユーザー端末9から送信された認証要求を受けて、ユーザー端末9のユーザーを認証する。具体的には、ユーザー認証部21は、ユーザー端末9から認証要求を受信すると(ステップS102)、認証要求に含まれる認証情報を検証し、ステップS101で作成されたアカウント情報と一致する場合に、認証要求の送信元のユーザー端末9に対して、画像データ処理サーバー用アクセストークンを送信する(ステップS103)。画像データ処理サーバー用アクセストークンを受信したユーザー端末9は、以降、受信されたアクセストークンを用いて、画像データ処理サーバー1と通信を行う。
また、ユーザーは、画像データ処理サーバー1にアカウントを作成した後、ユーザー端末9のアプリケーションを起動して、無線ネットワークを介してユーザー端末9をスキャナー3に接続させる。そして、アプリケーションは、ステップS101で作成され、ユーザー端末9に保存されている、画像データ処理サーバー1にログインするための認証情報を、スキャナー3に対して通知する。認証情報の通知を受けたスキャナー3の認証要求送信部41は、当該認証情報を含む認証要求を画像データ処理サーバー1に送信する。
ステップS104およびステップS105では、スキャナー3による、画像データ処理サーバー1へのログイン処理が行われる。スキャナー3から送信された認証要求が画像データ処理サーバー1に受信されると(ステップS104)、画像データ処理サーバー1のユーザー認証部21は、スキャナー3のユーザーを認証する。ユーザー認証部21は、スキャナー3から受信された認証要求に含まれる認証情報を検証し、ステップS101で作成されたアカウント情報と一致する場合に、認証要求の送信元のスキャナー3に対して、画像データ処理サーバー用アクセストークンを送信する(ステップS105)。画像データ処理サーバー用アクセストークンを受信したスキャナー3は、以降、受信されたアクセストークンを用いて、画像データ処理サーバー1と通信を行う。
図5は、本実施形態に係る許可取得処理の流れの概要を示すシーケンス図である。本実施形態に係る許可取得処理は、ユーザーによって、本実施形態にかかるシステムを利用するためのアプリケーションが起動されたことを契機として実行される。なお、本実施形態では、クラウドサービスからアクセス許可を受けるための手段としてOAuth2.0認証が用いられるが、認証にはその他の手段が用いられてもよい。
ステップS201およびステップS202では、クラウドサービスに対するアクセス許可要求が行われる。ユーザーは、ユーザー端末9においてアプリケーションを起動させ、
アプリケーションのエージェントを操作することで、ユーザー端末9を、画像データ処理サーバー1が提供するWebサイトに接続する。なお、本実施形態では、アプリケーションに実装されたWebブラウザがエージェントとして用いられるが、画像データ処理サーバー1が提供するWebサイトへの接続には、ユーザー端末9にインストールされたその他のWebブラウザが用いられてもよい。
そして、画像データ処理サーバー1のWebサイトによって、Webブラウザを介してユーザーがおこなった、クラウドサービスへの接続指示が受信されると(ステップS201)、画像データ処理サーバー1の許可取得部23は、クラウドサービスに対して、アクセス許可要求を送信する(ステップS202)。このアクセス許可要求は、画像データ処理サーバー1が、各クラウドサービスの当該ユーザーのアカウントを利用することの許可を求めるものである。なお、各クラウドサービスのユーザーアカウントは、ユーザーによって予め設定されたものであってもよいし、アプリケーションを介して新たに作成されたものであってもよい。なお、画像データの種別毎に、ユーザーが所望のクラウドサービスを指定可能であり、許可取得部23が、ユーザーに指定されたクラウドサービスに対してアクセス許可要求を送信することは、サービス設定部22および許可取得部23の説明において上述した通りである。
アクセス許可要求を受けたクラウドサービスは、ユーザー端末9に、認可確認のためのポップアップを表示する。その後、表示されたポップアップを確認したユーザーによって、画像データ処理サーバー1がポップアップに係るクラウドサービスの当該ユーザーのアカウントを利用することを承認(許諾)する操作が行われると、ユーザーに承認されたことが、Webブラウザから当該クラウドサービスに通知される。
ステップS203では、ユーザーに承認された旨の通知を受けたクラウドサービスによって、認可コードがユーザー端末9のWebブラウザ経由で画像データ処理サーバー1に渡される。画像データ処理サーバー1の許可取得部23は、クラウドサービスから送信された認可コードを、ユーザー端末9経由で受信する。その後、処理はステップS204へ進む。
ステップS204およびステップS205では、クラウドサービス用アクセストークンが取得される。画像データ処理サーバー1の許可取得部23は、クラウドサービスに対して認可コードを含むアクセストークン要求を送信し(ステップS204)、認可コードと引き換えに、クラウドサービスからアクセストークンを取得する(ステップS205)。取得されたクラウドサービス毎のアクセストークンは、画像データ処理サーバー1におけるユーザーアカウントに紐付けて、画像データ処理サーバー1に保存される。その後、本シーケンス図に示された処理は終了する。
上記説明した、図4および図5に示された処理によって、画像データ処理サーバー1のアクセストークンがスキャナー3によって取得され、クラウドサービスのアクセストークンが画像データ処理サーバー1によって取得され、且つこれらのユーザーアカウントが紐付けられた状態となる。このため、本実施形態に係るシステムによれば、図6を用いて後述する、画像データ処理サーバー1を経由したスキャナー3からクラウドサービスへのスキャンデータの送信(リリース)が可能となる。
図6は、本実施形態に係る画像データ処理の流れの概要を示すシーケンス図である。本実施形態に係る画像データ処理は、スキャナー3に原稿が搭載され、ユーザーによってスキャナー3のスキャンボタン38が操作されたことを契機として実行される。
ステップS301では、スキャンされた画像データが、画像データ処理サーバー1にア
ップロードされる。スキャナー3のユーザー操作受付部42によってスキャンボタン38の操作が受け付けられると、画像データ取得部43は、原稿をシートフィーダー36によって撮像部37に送り、撮像部37に原稿を撮像させることで、原稿の画像データを取得する。そして、スキャナー3の画像送信部44は、取得された画像データを、画像データ処理サーバー1に送信する。この際、送信には、ステップS105において予め取得された、画像データ処理サーバー用アクセストークンが用いられる。
また、本実施形態において、画像送信部44による画像データの送信は、スキャンボタン38の操作以外のユーザー操作を介させることなく、画像データの取得に続けて実行される。画像データ処理サーバー1の画像受信部24は、スキャナー3から送信された画像データを受信する。また、画像受信部24は、画像データとともに受診されたアクセストークンを検査することで、受信された画像データが、ユーザー認証されたスキャナー3から送信されたものであるか否かを確認する。受信された画像データが、ユーザー認証されたスキャナー3から送信されたものでない場合、本シーケンス図に示された処理は終了する(図示は省略する)。一方、受信された画像データが、ユーザー認証されたスキャナー3から送信されたものである場合、処理はステップS302へ進む。
ステップS302では、原稿種別の自動判別が行われる。種別判定部25は、受信された画像データが、文書、名刺、レシートおよび写真/イラストの何れの種別に係る画像データであるかを判定する。種別の判定には、レイアウト認識や文字認識、色彩認識、原稿サイズ認識等の、画像の特徴に基づいた判定方式を用いることが出来るが、種別判定には、周知の技術または将来開発される技術を含めて様々な技術を採用可能であり、本開示における例示に限定されない。
また、文字認識部26は、画像データに対して光学文字認識(Optical Character Recognition:OCR)を行う。そして、名称生成部27は、光学文字認識の結果取得された文字列を用いて、画像データまたは当該画像データに基づいて生成されたデータの名称を生成する。具体的な名称生成の方法は、上述した通りである。また、画像データは、スキャナーから受信されたデータフォーマットに拘らず、PDF(Portable Document Format)等の、判定された原稿種別に適したフォーマットに変換されてもよい。その後、処理はステップS303へ進む。
ステップS303では、原稿種別に対応したクラウドサービスが特定され、該当するクラウドサービスに対してデータが送信される。データ送信部28は、ステップS302で判定された原稿種別に従って、当該画像データまたは当該画像データに基づいて生成されたデータおよび生成された名称を、当該原稿種別に対応するクラウドサービスのユーザーアカウントへ送信する。クラウドサービスのユーザーアカウントへのデータ送信に際しては、ステップS205で取得され、画像データ処理サーバー1のユーザーアカウントに紐付けて保存された、各クラウドサービス用アクセストークンが用いられる。その後、処理はステップS304へ進む。
ステップS304およびステップS305では、リリース結果が送信される。画像データ処理サーバー1の結果通知部29は、データ送信部28によるデータ送信が完了し、送信先のクラウドサービスから結果通知を受け取ると(ステップS304)、リリース結果通知を行うことで、データ送信の完了または失敗等をユーザーに通知する(ステップS305)。具体的には、結果通知部29は、ユーザー端末9に対してプッシュ通知を行うことが可能な所定の通知ハブサービス(例えば、Azure通知ハブ)を介して、ユーザー端末9が標準装備する通知機能やアプリケーションに対して、データが所定のクラウドサービスに送信され、当該クラウドサービスに保存されたことを通知する。但し、結果通知には、その他の技術が採用されてもよい。その後、本シーケンス図に示された処理は終了
する。
図7および図8は、本実施形態に係る名称生成処理の流れの概要を示すフローチャートである。以下に説明する名称生成処理の説明は、上述したステップS302の処理をより詳細に説明するものであり、画像データ処理サーバー1の画像受信部24が、スキャナー3から送信された画像データを受信したことを契機として実行される。なお、本実施形態では、名称生成処理が画像データ処理サーバー1によって実行される例について説明しているが、名称生成処理が実行される主体は画像データ処理サーバー1に限定されない。例えば、名称生成処理は、スキャナーによって行われてもよいし、スキャナーが周辺機器として接続されたパーソナルコンピューターによって行われてもよい。
ステップS401では、原稿種別が判定される。種別判定部25は、受信された画像データが、文書、名刺、レシートおよび写真/イラストの何れの種別に係る画像データであるかを判定する。本実施形態において、原稿の種別は、画像データとともに取得された原稿のサイズ情報に基づいて判定される。例えば、名刺のサイズは一般的に55mm*91mmであるため、これに一致または近似するサイズの原稿は、名刺であると判定できる。また、レシートのサイズは、横幅が38mm、45mm、60mmまたは110mmのいずれかであることが多いため、これらのサイズに横幅が一致または近似する原稿は、レシートであると判定できる。そして、本実施形態では、その他のサイズの原稿のうち、レイアウト認識や文字認識、色彩認識によって写真/イラストでないと判定された原稿が、文書であると判定される。その後、処理はステップS402へ進む。
ステップS402では、原稿のレイアウトが解析される。特定部271は、画像データにおける、文字列が記載された箇所を複数特定し、レイアウト情報取得部272は、特定部271によって特定された複数の箇所の夫々について、当該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得する。より具体的には、レイアウト情報取得部272は、画像データにおける、文字列が記載された箇所(行)の夫々について、サイズ、画像データにおける行の縦位置、および行の横位置を含むレイアウト情報を取得する。なお、本実施形態では、行の縦位置は、原稿の上端からの距離で示される。また、行の横位置は、原稿の左端からの距離、または当該行が左詰めか、右詰めか、センタリングされているか、を示す情報で示される。その後、処理はステップS403へ進む。
ステップS403では、画像データにおける、属性文字列記載箇所が推定される。推定部273は、ステップS402で特定された複数の箇所の夫々について、他の箇所との相対的な関係性(本実施形態では、位置関係およびサイズ関係)に基づいて、画像データに含まれ得る属性文字列としての尤度を算出し、尤度に基づいて、属性文字列記載箇所を推定する。尤度の算出には、位置関係に係るスコアおよびサイズ関係に係るスコアの夫々を、パラメータを用いて調整する演算が含まれる。以下に、本実施形態における尤度の具体的な算出方法を説明する。
本実施形態において、推定部273は、周囲の他文字列との関係性(位置/サイズ/距離等)から尤度を算出する。推定部273は、夫々の箇所について算出された尤度を比較し、最も尤度が高い箇所を、属性文字列記載箇所(例えば、文書のタイトルまたは日付、名刺の氏名または組織名、レシートの店舗名または日付、等)として推定する。例えば、画像データの原稿種別が文書であると判定されている場合、推定部273は、以下に示す式を用いて、夫々の箇所が当該文書のタイトルである可能性を示す尤度を算出する。
タイトル尤度=(a*位置スコアA)+(b*サイズスコアB)+(c*距離スコアC)
ここで、位置スコアA、サイズスコアBおよび距離スコアCの内容は以下の通りである

位置スコアA=10−原稿上部からの位置順位
サイズスコアB=候補文字サイズ(高さ)/本文の文字サイズ
距離スコアC=左方向に一番近い文字列までの距離+右方向に一番近い文字列までの距離+上方向に一番近い文字列までの距離+下方向に一番近い文字列までの距離
但し、原稿上部からの位置順位が10番目以降の場合、「位置スコア=0」となる。また、パラメータa、bおよびcは、尤度の算出にあたって上記スコアを補正するために用いられるパラメータであり、後述するステップS413において補正される。
また、例えば、画像データの原稿種別が文書であると判定されている場合、推定部273は、以下に示す式を用いて、夫々の箇所が当該文書の日付である可能性を示す尤度を算出する。
日付尤度=(a*位置スコアA)+(b*サイズスコアB)+(c*書式スコアC)
ここで、位置スコアA、サイズスコアBおよび書式スコアCの内容は以下の通りである。
位置スコアA=10−原稿右上部からの位置順位
サイズスコアB=(候補文字サイズ(高さ)−本文の文字サイズ)の絶対値
書式スコアC=書式とマッチした文字数
但し、原稿上部からの位置順位が10番目以降の場合、「位置スコア=0」となる。また、書式スコアCの算出に用いられる「書式とマッチした文字数」は、日付の書式情報と対照文字列とを比較し、マッチした文字数(数値および区切文字を含む)である。ステップS403の時点では、日付候補の文字認識(ステップS404)が未実施であり、文字数がカウント出来ないため、書式スコアを一旦「0」として、日付尤度が算出される。また、パラメータa、bおよびcは、尤度の算出にあたって上記スコアを補正するために用いられるパラメータであり、後述するステップS413において補正される。
画像データにおいて、属性文字列記載箇所が推定されると、処理はステップS404へ進む。
ステップS404では、文字認識が行われる。文字認識部26は、画像データのうち、少なくともステップS403において推定部273によって属性文字列記載箇所であると推定された部分に対して文字認識を行う。本実施形態では、文字認識部26は、属性(例えば、文書のタイトルまたは日付、名刺の氏名または組織名、レシートの店舗名または日付、等)の夫々について、尤度が高い順に上位数箇所を特定し、文字認識を行う。例えば、原稿が文書である場合に、タイトル尤度に係る上位3箇所、日付尤度に係る上位5箇所について、文字認識が行われる。
ここで、所定の属性について尤度が最も高い箇所から文字認識された文字列は、後述するステップS411においてデータの名称生成に用いられる。例えば、文書の画像データから文字認識された複数箇所に係る文字列のうち、タイトル尤度が最も高い箇所から文字認識されたタイトル文字列、および日付尤度が最も高い箇所から文字認識された日付文字列は、文書データの名称生成に用いられる。また、尤度が2位以下の箇所に係る文字列は、後述するステップS408における修正時にユーザーから選択可能とするために、候補として保存されてよい。これらの文字列は、画像データファイルの中に埋め込まれてもよいし、画像データとは異なるファイル(例えば、XMLファイル)に保存されてもよい。その後、処理はステップS405へ進む。
ステップS405では、書式の照合が行われる。推定部273は、文字認識部26によって取得された文字列と、予め登録された書式情報との照合結果に基づいて、尤度を補正する。ステップS404において日付候補の文字認識が行われたため、推定部273は、ステップS403で一旦「0」とされた「書式スコアC=書式とマッチした文字数」を、日付候補の文字列と日付書式情報とを照合することで算出する。推定部273は、更新された書式スコアCを用いて日付尤度を再計算し、最も日付尤度の高い箇所から文字認識された文字列を、日付文字列と推定する。なお、本ステップで説明した書式照合処理は、文字列の属性に応じて省略されてもよい。例えば、原稿種別が文書である画像データから、タイトル候補の文字列が取得された場合、推定部273は、特段の書式照合を行わずに、取得された文字列全体を文書のタイトルとしてよい。
図9は、本実施形態において用いられる、日付に係る書式情報テーブルの構成を示す概略図である。書式情報は、ある属性に係る文字列に使用され得る書式を定義したものであり、図9に示した例では、日付に係る書式情報テーブルに、[年][月][日]の順序および区切り文字(カンマ「,」やスラッシュ「/」)の組合せのリストが、日付の書式として登録されている。なお、書式情報には、日付以外の属性についても定義されてよい。例えば、タイトルについては、括弧等の記号が書式情報として定義されてよいし、会社名については、「株式会社」や「(株)」等の文字が書式情報として定義されてよい。また、書式情報において書式を定義する方法は、本実施形態における例に限定されない。書式は、例えば正規表現を用いて定義されてもよい。その後、処理はステップS406へ進む。
ステップS406では、レイアウト情報に基づいて推定結果が訂正される。訂正部274は、ステップS402で取得された、処理対象の画像データのレイアウト情報と、レイアウト情報テーブルに蓄積されているレイアウト情報とを比較する。比較の結果、処理対象の画像データのレイアウト情報に一致または近似するレイアウト情報が、レイアウト情報テーブルから索出された場合、訂正部274は、一致または近似するレイアウト情報に紐付けられた、属性文字列記載箇所としてユーザーに指定された箇所に基づいて、推定部273によって推定された箇所を訂正する。ここで比較に用いられるレイアウト情報は、過去に推定部273による推定結果がユーザーによって修正された原稿のレイアウト情報である。即ち、訂正部274は、過去の修正に係るレイアウト情報と一致または近似するレイアウトの画像データについて、過去の修正と同様の訂正処理を実行する。その後、処理はステップS407へ進む。
図10は、本実施形態において用いられる、レイアウト情報テーブルの構成を示す概略図である。レイアウト情報テーブルには、1の原稿に係る原稿のレイアウト情報と、当該原稿に対して行われた修正の内容とが組み合わせられて、1レコードとして蓄積されている。ユーザーによる修正が行われなかった原稿は、レイアウト情報テーブルには蓄積されない。より具体的には、レイアウト情報は、画像データにおける、文字列が記載された箇所(行)の夫々について、サイズ、画像データにおける行の縦位置、および行の横位置を含む。また、当該原稿に対して行われた修正の内容は、修正によって指定された箇所(行)の情報にフラグが付されることによって示される。図10に示された例では、ユーザー修正によってタイトル行であるとされた行の情報にタイトル行フラグが付され、ユーザー修正によって日付行であるとされた行の情報に日付行フラグが付されている。なお、レイアウト情報テーブルでは、最後に蓄積されたレイアウト情報のレコードが、ステップS406の比較処理において1番目に比較されるように蓄積され、以前に蓄積されたレコードは、順次、比較処理における順位が繰り下げられる。このようにすることで、最近蓄積された修正の優先度を上げることが出来る。
ステップS407およびステップS408では、確認画面が表示され、ユーザー入力が
受け付けられる。表示部275は、属性文字列記載箇所であると推定部273によって推定された箇所がユーザーから把握可能なように、特定部271によって特定された複数の箇所を含む確認画面を表示する(ステップS407)。そして、ユーザー入力受付部276は、表示部275による表示内容を確認したユーザーによる修正の入力を受け付ける(ステップS408)。その後、処理はステップS408へ進む。
図11は、本実施形態においてユーザー端末9に表示される、確認画面の概略を示す図である。本実施形態において、表示部275は、ユーザーに推定内容および文字認識の結果を確認させるために、確認画面を2つの領域に分けて、2通りの方法で表示を行う。
領域1には、画像データに基づいて原稿画像が表示され、原稿画像上に、特定部271によって特定された複数の箇所が、枠によって示される。枠の表示位置は、レイアウト情報に含まれる座標やサイズの情報を用いて決定することができる。ここで、ステップS406までの処理で属性文字列記載箇所であるとされた箇所は太線で描かれ、その他の箇所の枠は細線で描かれる。また、枠の色は、枠によって示される箇所の属性(タイトル、日付、氏名、組織名、店舗名等)によって異なる。例えば、タイトル関連箇所を赤枠で、日付関連箇所を青枠で表示することとしてよい。確認画面に示された、属性文字列記載箇所が誤りである場合には、ユーザーは、タッチパネル等の入力手段を用いることで、原稿画像上に表示された複数箇所の枠の何れかを選択し、属性文字列記載箇所として正しい箇所を選択したり、文字認識の結果を修正したりすることが出来る。このような表示方法は、所謂タブレット等の、比較的大きなタッチパネルディスプレイを有するユーザー端末に適している。
領域2には、文字認識によって得られた複数の文字列が、属性(タイトル、日付、氏名、組織名、店舗名等)毎にリスト表示される。リストには、ここで、ステップS406までの処理で属性文字列であると推定または訂正された文字列はリストの最上位に表示され、その他の文字列はリストの2位以下に表示される。確認画面に示された、属性文字列が誤りである場合には、ユーザーは、タッチパネル等の入力手段を用いて、リストに表示された複数の文字列の何れかを選択することで、属性文字列記載箇所として正しい箇所に係る文字列をリストから選択したり、文字認識の結果を修正したりすることが出来る。このような表示方法は、所謂スマートフォン等の、比較的小さなタッチパネルディスプレイを有するユーザー端末に適している。
本実施形態において、確認画面は、画像データ処理サーバー1からユーザー端末9に送信されて、ユーザー端末9によって実行されるアプリケーションによって表示される。なお、本実施形態では、ディスプレイを有さないスキャナーをネットワークに直接接続して用い、画像データ処理を画像データ処理サーバー1によって行うため、確認画面はユーザー端末9に表示されるが、確認画面は、その他の出力装置によって出力されてもよい。例えば、ディスプレイを有するスキャナーにおいて本開示を実施する場合には、確認画面はスキャナーのディスプレイに表示されてよいし、スキャナーがパーソナルコンピューターの周辺機器として接続されている場合には、確認画面はパーソナルコンピューターのディスプレイに表示されてもよい。
ステップS409およびステップS410では、ユーザーによる修正の入力があった場合に、名称生成に用いられる文字列が修正される。ステップS408においてユーザーによる修正の入力が受け付けられた場合(ステップS409のYES)、修正部277は、修正の入力に基づいて、名称生成部27による名称の生成に用いられる文字列を修正する(ステップS410)。具体的には、ユーザーによって属性文字列記載箇所として正しい箇所が選択された場合、修正部277は、ユーザーに選択された箇所についてステップS404の文字認識で得られていた文字列を、正しい属性文字列とする。また、ユーザーに
よって文字認識の結果が修正された場合、ユーザーによって入力された文字列を、正しい属性文字列とする。ステップS408においてユーザーによる修正の入力が受け付けられなかった場合(ステップS409のNO)、および、名称生成に用いられる文字列の修正が完了した場合、処理はステップS411へ進む。
ステップS411では、データの名称が生成される。名称生成部27は、尤度が最も高い箇所について文字認識された結果取得された文字列に基づいて、データの名称を生成する。例えば、原稿が文書である場合、名称生成部27は、取得した日付およびタイトル文字列を組み合わせて、データ名称を生成する。その後、処理はステップS412へ進む。
なお、本実施形態では、主として原稿種別が文書である画像データの処理について説明したが、その他の原稿種別に係る画像データを処理する場合であっても、抽出の対象となる属性文字列および属性文字列記載箇所の推定方法が異なる点を除いて、処理の流れは概略同様である。例えば、原稿種別が名刺である場合、属性文字列として氏名文字列および組織名文字列が抽出され、これらの文字列を用いてデータ名称が生成される。また、例えば、原稿種別がレシートである場合、属性文字列として店舗名文字列および日付文字列が抽出され、これらの文字列を用いてデータ名称が生成される。
ステップS412からステップS414に示された処理は、ユーザーによって修正された情報(条件と修正内容)を学習し、次回以降の名称生成処理における名称生成の精度を高めるための学習処理である。
ステップS412では、レイアウト情報が蓄積される。レイアウト情報蓄積部278は、ユーザー入力受付部276によってユーザーによる修正の入力が受け付けられた場合に、属性文字列記載箇所としてユーザーに指定された箇所と、レイアウト情報取得部272によって取得されたレイアウト情報と、を紐付けてレイアウト情報テーブルに蓄積する。レイアウト情報の構成は、図10を用いて上述した通りである。ここで蓄積されたレイアウト情報は、ステップS406において説明した、推定結果の訂正に用いられる。その後、処理はステップS413へ進む。
ステップS413では、パラメータが更新される。パラメータ更新部279は、ユーザー入力受付部276によってユーザーによる修正の入力が受け付けられた場合に、属性文字列記載箇所としてユーザーに指定された箇所について算出される尤度がより高い値になるように、パラメータを更新する。
例えば、タイトル尤度を算出する際に用いられるパラメータは、タイトル行として誤って推定された「行a」の各スコア(位置スコアAa、サイズスコアBaおよび距離スコアCa)と、ユーザー修正によって選択された正しいタイトル行「行b」の各スコア(位置スコアAb,サイズスコアBb,距離スコアCb)と、を比較し、その大小に応じて変更される。より具体的には、パラメータ更新部279は、行aと行bの位置スコアを比較し、位置スコアAa<位置スコアAbならばパラメータaを(例えば3%)増加させ、位置スコアAa>位置スコアAbならばパラメータaを(例えば3%)減少させる。また、パラメータ更新部279は、サイズスコアおよび距離スコアについても、同様の方法で更新する。その後、処理はステップS414へ進む。
ステップS414では、書式情報が登録される。書式情報登録部280は、ユーザー入力受付部276によって属性文字列のユーザー入力が受け付けられた場合に、受け付けられた文字列から特定された書式情報を登録する。書式情報の構成は、図9を用いて上述した通りである。例えば、ユーザーによって入力された日付の文字列が、書式情報テーブルに登録されていない書式で記載された日付であった場合、書式情報登録部280は、ユー
ザー入力に係る日付文字列に用いられている書式を、新たな書式情報として書式情報テーブルに登録する。その後、本フローチャートに示された処理は終了する。
<効果>
上記説明した実施形態によれば、撮像された画像から、所定の属性を有する文字列が記載された箇所を推定することが可能となる。また、推定の結果に基づいて文字認識を行う箇所が限定されることで、画像データ全体に文字認識処理を行う必要がなくなり、処理負荷が軽減される。
1 画像データ処理サーバー
3 スキャナー
9 ユーザー端末

Claims (18)

  1. 画像データにおける、文字列が記載された箇所を複数特定する特定手段と、
    前記画像データの種別を判定する種別判定手段と、
    前記特定手段によって特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得手段と、
    前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定手段と、を備え、
    前記推定手段は、前記種別判定手段によって判定された種別に応じて採用される、該種別の画像データを分類するのに適した文字列である可能性を示す尤度を算出するための式を用いて、前記所定の属性を有する文字列が記載された箇所を推定する、
    情報処理装置。
  2. 前記画像データのうち、少なくとも前記推定手段によって前記所定の属性を有する文字列が記載された箇所であると推定された部分に対して文字認識を行う文字認識手段と、
    前記文字認識の結果取得された文字列を用いて、前記画像データまたは該画像データに基づいて生成されたデータの名称を生成する名称生成手段と、
    を更に備える、請求項1に記載の情報処理装置。
  3. 前記種別判定手段によって判定される種別には、文書が含まれ、
    前記種別判定手段によって判定された種別が文書であった場合、前記推定手段は、前記複数の箇所の夫々について、タイトルを含む文字列または日付を含む文字列としての尤度を算出し、該尤度に基づいて、タイトルを含む文字列または日付を含む文字列が記載された箇所を推定する、
    請求項1または2に記載の情報処理装置。
  4. 前記種別判定手段によって判定される種別には、名刺が含まれ、
    前記種別判定手段によって判定された種別が名刺であった場合、前記推定手段は、前記複数の箇所の夫々について、氏名を含む文字列または組織名を含む文字列としての尤度を
    算出し、該尤度に基づいて、氏名を含む文字列または組織名を含む文字列が記載された箇所を推定する、
    請求項1から3の何れか一項に記載の情報処理装置。
  5. 前記種別判定手段によって判定される種別には、レシートが含まれ、
    前記種別判定手段によって判定された種別がレシートであった場合、前記推定手段は、前記複数の箇所の夫々について、店舗名を含む文字列または日付を含む文字列としての尤度を算出し、該尤度に基づいて、店舗名を含む文字列または日付を含む文字列が記載された箇所を推定する、
    請求項1から4の何れか一項に記載の情報処理装置。
  6. 前記種別判定手段によって判定される種別には、文書、名刺、レシートおよび写真/イラストの少なくとも何れかが含まれる、
    請求項1から5の何れか一項に記載の情報処理装置。
  7. 前記所定の属性を有する文字列が記載された箇所であると前記推定手段によって推定された箇所がユーザーから把握可能なように、前記特定手段によって特定された複数の箇所を表示する表示手段と、
    前記表示手段による表示内容を確認したユーザーによる修正の入力を受け付けるユーザー入力受付手段と、
    前記修正の入力に基づいて、前記名称生成手段による名称の生成に用いられる文字列を修正する修正手段と、
    を更に備える、請求項2に記載の情報処理装置。
  8. 前記推定手段は、前記位置関係に係るスコアおよび前記サイズ関係に係るスコアの夫々をパラメータを用いて調整する演算を含む処理によって、前記尤度を算出し、
    前記ユーザー入力受付手段によってユーザーによる修正の入力が受け付けられた場合に、前記所定の属性を有する文字列が記載された箇所としてユーザーに指定された箇所について算出される前記尤度がより高い値になるように、前記パラメータを更新するパラメータ更新手段を更に備える、
    請求項7に記載の情報処理装置。
  9. 前記ユーザー入力受付手段によってユーザーによる修正の入力が受け付けられた場合に、前記所定の属性を有する文字列が記載された箇所としてユーザーに指定された箇所と、前記レイアウト情報取得手段によって取得された前記レイアウト情報と、を紐付けて蓄積するレイアウト情報蓄積手段と、
    前記画像データのレイアウト情報が、前記レイアウト情報蓄積手段によって蓄積されているレイアウト情報と一致または近似する場合に、一致または近似するレイアウト情報に紐付けられた、前記所定の属性を有する文字列が記載された箇所としてユーザーに指定された箇所に基づいて、前記推定手段によって推定された箇所を訂正する訂正手段と、を更に備える、
    請求項7または8に記載の情報処理装置。
  10. 前記推定手段は、前記文字認識手段によって取得された文字列と、予め登録された書式情報との照合結果に基づいて、前記尤度を補正する、
    請求項7から9の何れか一項に記載の情報処理装置。
  11. 前記ユーザー入力受付手段は、前記所定の属性を有する文字列のユーザー入力を更に受け付け、
    前記ユーザー入力受付手段によって前記所定の属性を有する文字列のユーザー入力が受
    け付けられた場合に、受け付けられた文字列から特定された書式情報を登録する書式情報登録手段を更に備える、
    請求項10に記載の情報処理装置。
  12. 撮像装置から送信された、該撮像装置によって取得された画像データを、ネットワークを介して受信する画像受信手段を更に備える、
    請求項1から11の何れか一項に記載の情報処理装置。
  13. 撮像装置のユーザーを認証するユーザー認証手段を更に備え、
    前記画像受信手段は、ユーザー認証された前記撮像装置から送信された、該撮像装置によって取得された画像データを、ネットワークを介して受信する、
    請求項12に記載の情報処理装置。
  14. ネットワークを介してサービスを提供する所定のサービスから、該所定のサービスにおける前記ユーザーのアカウントへのアクセス許可を取得する、許可取得手段と、
    前記種別判定手段によって、前記画像データが所定の種別の画像データであると判定された場合に、該画像データまたは該画像データに基づいて生成されたデータを、該画像データを送信した前記撮像装置のユーザーとして認証されたユーザーについて前記所定のサービスから取得された前記アクセス許可を用いて、前記所定のサービスにおける前記ユーザーのアカウントへ送信する、データ送信手段と、を更に備える、
    請求項13に記載の情報処理装置。
  15. 前記ユーザー認証手段は、更にユーザー端末のユーザーを認証し、
    前記許可取得手段は、ユーザー認証された前記ユーザー端末から送信された要求に従って、前記所定のサービスに対してアクセス許可要求を送信し、前記アクセス許可を取得する、
    請求項14に記載の情報処理装置。
  16. 前記ユーザー認証手段は、前記撮像装置によって送信された認証要求であって、ユーザー端末から前記撮像装置に対して通知された認証情報を含む認証要求を受けて、前記撮像装置のユーザーを認証する、
    請求項13から15の何れか一項に記載の情報処理装置。
  17. コンピューターが、
    画像データにおける、文字列が記載された箇所を複数特定する特定ステップと、
    前記画像データの種別を判定する種別判定ステップと、
    前記特定ステップで特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得ステップと、
    前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定ステップと、を実行し、
    前記推定ステップでは、前記種別判定ステップで判定された種別に応じて採用される、該種別の画像データを分類するのに適した文字列である可能性を示す尤度を算出するための式を用いて、前記所定の属性を有する文字列が記載された箇所が推定される、
    方法。
  18. コンピューターを、
    画像データにおける、文字列が記載された箇所を複数特定する特定手段と、
    前記画像データの種別を判定する種別判定手段と、
    前記特定手段によって特定された複数の箇所の夫々について、該画像データにおける位置、および記載された文字のサイズを含むレイアウト情報を取得するレイアウト情報取得手段と、
    前記複数の箇所の夫々について、他の箇所との位置関係および他の箇所とのサイズ関係に基づいて、前記画像データに含まれ得る所定の属性を有する文字列としての尤度を算出し、該尤度に基づいて、該所定の属性を有する文字列が記載された箇所を推定する推定手段と、として機能させ、
    前記推定手段は、前記種別判定手段によって判定された種別に応じて採用される、該種別の画像データを分類するのに適した文字列である可能性を示す尤度を算出するための式を用いて、前記所定の属性を有する文字列が記載された箇所を推定する、
    プログラム。
JP2015017383A 2015-01-30 2015-01-30 情報処理装置、方法およびプログラム Active JP6050843B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2015017383A JP6050843B2 (ja) 2015-01-30 2015-01-30 情報処理装置、方法およびプログラム
US14/713,882 US9641715B2 (en) 2015-01-30 2015-05-15 Information processing device, method, and medium
CN201510552688.9A CN105847632B (zh) 2015-01-30 2015-09-01 信息处理装置以及信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015017383A JP6050843B2 (ja) 2015-01-30 2015-01-30 情報処理装置、方法およびプログラム

Publications (2)

Publication Number Publication Date
JP2016143165A JP2016143165A (ja) 2016-08-08
JP6050843B2 true JP6050843B2 (ja) 2016-12-21

Family

ID=56553472

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015017383A Active JP6050843B2 (ja) 2015-01-30 2015-01-30 情報処理装置、方法およびプログラム

Country Status (3)

Country Link
US (1) US9641715B2 (ja)
JP (1) JP6050843B2 (ja)
CN (1) CN105847632B (ja)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10229314B1 (en) 2015-09-30 2019-03-12 Groupon, Inc. Optical receipt processing
JP6881991B2 (ja) * 2017-01-30 2021-06-02 キヤノン株式会社 画像処理装置、及びその制御方法とプログラム
JP6881990B2 (ja) * 2017-01-30 2021-06-02 キヤノン株式会社 画像処理装置とその制御方法、及びプログラム
JP6938228B2 (ja) * 2017-05-31 2021-09-22 株式会社日立製作所 計算機、文書識別方法、及びシステム
JP6753370B2 (ja) * 2017-07-12 2020-09-09 京セラドキュメントソリューションズ株式会社 原稿読取装置
JP6871840B2 (ja) * 2017-11-06 2021-05-19 株式会社日立製作所 計算機及び文書識別方法
JP7035474B2 (ja) * 2017-11-17 2022-03-15 富士フイルムビジネスイノベーション株式会社 文書処理装置およびプログラム
US10963686B2 (en) * 2017-12-01 2021-03-30 International Business Machines Corporation Semantic normalization in document digitization
JP2019145981A (ja) * 2018-02-20 2019-08-29 コニカミノルタ株式会社 サービス使用支援装置、サービス利用方法、およびコンピュータプログラム
JP7102170B2 (ja) * 2018-02-28 2022-07-19 キヤノン株式会社 画像処理装置、および画像処理装置の制御方法とプログラム
JP2019204399A (ja) * 2018-05-25 2019-11-28 富士ゼロックス株式会社 情報処理装置及びプログラム
CN110569835B (zh) * 2018-06-06 2024-03-05 北京搜狗科技发展有限公司 一种图像识别方法、装置和电子设备
CN109308476B (zh) * 2018-09-06 2019-08-27 邬国锐 票据信息处理方法、系统及计算机可读存储介质
US10960684B1 (en) * 2019-11-14 2021-03-30 Capital One Services, Llc Schemes to validate and protect secure documents
JP7400548B2 (ja) * 2020-03-03 2023-12-19 富士フイルムビジネスイノベーション株式会社 情報処理装置、画像処理装置、情報処理システム、及びプログラム
JP2022101136A (ja) * 2020-12-24 2022-07-06 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム
JP2022181367A (ja) * 2021-05-26 2022-12-08 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP2023048040A (ja) * 2021-09-27 2023-04-06 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
US11687935B1 (en) * 2022-04-06 2023-06-27 Capital One Services, Llc Systems and methods for validating an instrument

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05159101A (ja) * 1991-11-01 1993-06-25 Fuji Xerox Co Ltd 文書論理構造認識および文書内容認識のための装置および方法
JP3425834B2 (ja) * 1995-09-06 2003-07-14 富士通株式会社 文書画像からのタイトル抽出装置および方法
JPH10275196A (ja) * 1997-03-28 1998-10-13 Sanyo Electric Co Ltd データ入力装置
JPH10334182A (ja) * 1997-05-30 1998-12-18 Nec Eng Ltd 読取り位置情報修正システム及びコンピュータを読取り位置情報修正システムとして機能させるためのプログラムを記録した記録媒体
JPH11232381A (ja) * 1998-02-13 1999-08-27 Oki Electric Ind Co Ltd 文字読取装置
JP2006072512A (ja) * 2004-08-31 2006-03-16 Fuji Xerox Co Ltd 文書処理装置およびプログラム
JP2006085582A (ja) 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 文書処理装置およびプログラム
US7587412B2 (en) * 2005-08-23 2009-09-08 Ricoh Company, Ltd. Mixed media reality brokerage network and methods of use
US7855810B2 (en) 2005-02-18 2010-12-21 Eastman Kodak Company Method for automatically organizing a digitized hardcopy media collection
CN101226595B (zh) 2007-01-15 2012-05-23 夏普株式会社 文档图像处理装置以及文档图像处理方法
JP2008192032A (ja) * 2007-02-07 2008-08-21 Fuji Xerox Co Ltd 文書処理装置、文書処理方法、プログラム

Also Published As

Publication number Publication date
JP2016143165A (ja) 2016-08-08
CN105847632A (zh) 2016-08-10
US20160227066A1 (en) 2016-08-04
CN105847632B (zh) 2019-05-31
US9641715B2 (en) 2017-05-02

Similar Documents

Publication Publication Date Title
JP6050843B2 (ja) 情報処理装置、方法およびプログラム
JP6880763B2 (ja) 情報解析システム、情報解析方法
US11616884B2 (en) Image processing system for computerizing document, control method thereof, and storage medium
US11431860B2 (en) Image processing apparatus, image processing method and storage medium
JP6712045B2 (ja) 情報処理システムと、その処理方法及びプログラム
US11330119B2 (en) Information processing apparatus, control method and storage medium
US11113559B2 (en) Information processing apparatus for improving text data recognition, information processing method, and non-transitory recording medium
US11941672B2 (en) Information processing system, information processing method, and non-transitory recording medium
US20110238617A1 (en) Document management apparatus, document management method, and computer-readable non-transitory storage medium storing document management program
JP6531368B2 (ja) 情報処理システム、情報処理装置、処理方法及びプログラム
JP6534355B2 (ja) Pdfファイル管理システム、pdfファイル管理サーバ、pdfファイルデータ取得サーバ、pdfファイル管理方法、pdfファイルデータ取得方法、pdfファイル管理プログラム、およびpdfファイルデータ取得プログラム
US11875587B2 (en) Information processing system, information processing method, and non-transitory recording medium
US11393234B2 (en) Image processing system for computerizing document, control method thereof, and storage medium
US11252290B2 (en) Image processing apparatus, image processing method and storage medium
JP6191500B2 (ja) 画像処理装置、画像処理システム及び画像処理プログラム
US10802767B2 (en) Printer and non-transitory computer readable storage medium with shared review function
TWI688868B (zh) 用於提取訊息並使用所述訊息擷取聯絡人訊息的系統、非暫時性電腦可讀媒體和方法
JP6104956B2 (ja) 画像データ処理サーバー、システム、方法およびプログラム
US11620840B2 (en) Image processing apparatus for extracting a desired character string from a scanned image
JP6547654B2 (ja) 書類撮像装置、書類撮像方法、書類撮像装置用のプログラム、および、管理システム
JP2006350767A (ja) 個人情報の入力支援方法、およびその入力支援プログラム
JP2007079967A (ja) 登録印影照合システム
US10319038B2 (en) Mobile submission of pharmacy insurance information
US20230063374A1 (en) Image processing apparatus, non-transitory storage medium, and image processing method
US20240193975A1 (en) Image processing apparatus, image processing method, and storage medium

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160627

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161115

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161125

R150 Certificate of patent or registration of utility model

Ref document number: 6050843

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150