JP2022012657A

JP2022012657A - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: JP2022012657A
Application number: JP2020114655A
Authority: JP
Inventors: 正三中島; Shozo Nakajima
Original assignee: Double Standard Inc
Current assignee: Double Standard Inc
Priority date: 2020-07-02
Filing date: 2020-07-02
Publication date: 2022-01-17
Anticipated expiration: 2040-07-02
Also published as: JP6969818B1; JP2022013946A

Abstract

【課題】利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供すること。【解決手段】本発明に係る情報処理装置は、異なる２以上の情報源から対象者に関する情報を取得する取得部と、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、前記取得部で取得された前記対象者に関する情報を統合する統合部と、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備える。【選択図】図１

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

従来、金融機関等では、本人確認書類に基づき、顧客が犯罪リスクを持った人物であるか否かをチェックすることがある。犯罪リスクのチェックには例えば、マネーロンダリングを行う可能性が高い人物であるか否かのチェックや反社会勢力に属する人物であるか否かのチェックなどが含まれる。

例えば、特許文献１には、検出された疑わしい取引がマネーロンダリングに該当するか否かを複数の情報源から総合的に判定することを支援するマネーロンダリング判定支援システムが提案されている。

特開２０１０－２２５０４０号公報

上記のように、犯罪リスクを判定するためには、複数の情報源から取得した情報を総合的に判定する必要がある。しかしながら、情報源によって文書フォーマット等が異なるため、複数の情報源から取得した情報を機械的に処理することは難しく、多数の人手が必要となっている。

本発明は、上記課題に鑑みてなされたものであり、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。

上記課題を解決するため、本発明の情報処理装置は、２以上の情報源から対象者に関する情報を取得する取得部と、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、前記取得部で取得された前記対象者に関する情報を統合する統合部と、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備える。

本発明によれば、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することができる。

実施形態に係る情報処理システムの概略構成の一例を示す図である。実施形態に係るサーバのハード構成の一例を示す図である。実施形態に係るサーバの記憶装置に記憶されているデータベースの一例を示す図である。データベースに記憶されている情報の一例を示す図である。データベースに記憶されている情報の一例を示す図である。実施形態に係るサーバの機能構成の一例を示す図である。実施形態に係るユーザ端末のハード構成及び機能構成の一例を示す図である。実施形態に係るサーバのリスク算出処理の一例を示すフローチャートである。（ａ）は、実施形態に係るサーバの表記変更部による表記変更の一例を示す図である。（ｂ）及び（ｃ）は、実施形態に係るサーバの統合部による情報統合の一例を示す図である。実施形態に係るサーバの文字認識処理の一例を示すフローチャートである。実施形態に係るサーバの認識部による文字認識の一例を示す図である。実施形態に係るサーバの認識部による位置情報付与の一例を示す図である。実施形態に係るサーバの探索部による探索の一例を示す図である。実施形態に係るサーバの結合部による横方向の結合の一例を示す図である。実施形態に係るサーバの結合部による縦方向の結合の一例を示す図である。

以下、本発明の実施形態を図面に基づいて説明する。なお、以下の説明において「対象者」とは、リスク算出の対象者である。
また、「リスク」とは、対象者が監視対象（例えば、外国ＰＥＰｓ（外国の政府等において重要な地位を占める者（外国の国家元首等）とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人）やマネーロンダリング等の犯罪）に該当するリスクである。本実施形態では、リスクが高いと犯罪となる可能性が高く、リスクが低いと犯罪となる可能性が低い。

［実施形態］
図１は、実施形態に係る情報処理システム１の概要構成の一例を示す図である。情報処理システム１は、サーバ２及びユーザ端末３がネットワーク４を介して接続された構成を有する。なお、情報処理システム１が具備するサーバ２、ユーザ端末３の数は任意である。

ネットワーク４には、例えば、他のシステムのサーバ（情報源）が接続されており、サーバ２は、ネットワーク４を介して上記サーバにアクセスし、記憶されている情報（後述する対象者に関する情報）を取得することができるように構成されている。上記サーバの情報の取得には、クローラーやスクレイパーなどのソフトウェアを利用することができる。なお、ネットワーク４をどのような通信網で構成するかは任意である。

図２は、本実施形態に係るサーバ２（情報処理装置）のハード構成の一例を示す図である。図２に示すように、サーバ２は、通信ＩＦ２００Ａ、記憶装置２００Ｂ及びＣＰＵ２００Ｃがバスを介して接続された構成を備える。

通信ＩＦ２００Ａは、外部端末と通信するためのインターフェースである。

記憶装置２００Ｂは、例えば、ＨＤＤや半導体記憶装置である。記憶装置２００Ｂには、サーバ２で利用する情報処理プログラムや各種データベースが記憶されている。なお、本実施形態では、情報処理プログラムや各種データベースは、サーバ２の記憶装置２００Ｂに記憶されているが、ＵＳＢメモリなどの外部記憶装置やネットワークを介して接続された外部サーバに記憶し、必要に応じて参照やダウンロード可能に構成されていてもよい。

図３は、サーバ２の記憶装置２００Ｂに記憶されているデータベースの一例を示す図である。図３に示すように、記憶装置２００Ｂには、補正パタンデータベース１（以下、補正パタンＤＢ１ともいう）、分類用データベース２（以下、分類用ＤＢ２ともいう）、項目マスタデータベース３（以下、項目マスタＤＢ３ともいう）、表記変更用データベース４（以下、表記変更用ＤＢ４ともいう）、対象者データベース５（以下、対象者ＤＢ５ともいう）、リスク算出用データベース６（以下、リスク算出用ＤＢ６ともいう）が記憶されている。

（補正パタンＤＢ１）
補正パタンＤＢ１は、書類の画像データを補正するための補正パタンが複数記憶されている。図４（ａ）は、補正パタンＤＢ１に記憶されている情報の一例を示す図である。図４（ａ）に示すように、複数の補正パタンは、それぞれ１以上の補正を組み合わせて構成されている。例えば、補正パタン１は、補正１及び３を組み合わせて構成される。また、補正パタン２は、補正１、２及び４を組み合わせて構成される。また、補正パタン３は、補正１、２及び３を組み合わせて構成される。また、補正パタン４は、補正１、３及び５を組み合わせて構成される。また、補正パタン５は、補正１及び４を組み合わせて構成される。なお、補正パタンの数は５に限られず３以上であればよい。

また、補正１～補正５は、例えば、それぞれ遠近法ワープ（台形補正）、明るさ補正、コントラスト補正、ガウス補正、ぼかし補正などである。なお、図４（ａ）に示す各補正パタンの補正の組み合わせはあくまで一例であり、各補正パタンをどのような補正で構成するかは任意である。また、補正は、補正１～補正５の５つに限られない。

（分類用ＤＢ２）
分類用ＤＢ２には、書類を分類するための情報が記憶されている。図４（ｂ）は、分類用ＤＢ２に記憶されている情報の一例を示す図である。図４（ｂ）に示すように、分類用ＤＢ２には、書類の種別ごとに特有のパタンマッチ用データ（画像データや特徴点データ（例えば、印章の画像データや特徴点データなど））やキーワード（ＫＷ）が関連付けて記憶されている。なお、図４（ｂ）に示すパタンマッチ用データやキーワードはあくまで一例であり、書類を分類するための情報として、どのようなパタンマッチ用データやキーワードとするかは任意である。後述の分類部２０６は、分類用ＤＢ２を参照し、文書の画像データにパタンマッチ用データやキーワードが含まれているが否かに基づいて、書類の画像データを分類する。

（項目マスタＤＢ３）
項目マスタＤＢ３には、取得する項目の情報が書類の種別ごとに記憶されている。図４（ｃ）は、項目マスタＤＢ３に記憶されている情報の一例を示す図である。図４（ｃ）に示すように、項目マスタＤＢ３には、書類の種別ごとに取得する情報の項目が関連付けて記憶されている。なお、書類からどのような項目の情報を取得するかは任意である。

（表記変更用ＤＢ４）
表記変更用ＤＢ４には、サーバ２が取得した対象者に関する情報の表記を所定の表記に変更するための情報が記憶されている。具体的には、表記変更用ＤＢ４には、ロジック処理用の情報及び第１，第２マスタ処理用の情報が記憶されている。

ロジック処理用の情報は、表記を変更する対象（以下、処理摘要対象ともいう）である対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報である。図５（ａ）は、表記変更用ＤＢ４に記憶されているロジック処理用の情報の一例を示す図であり、処理摘要対象に処理ルールが対応づけられている。図５（ａ）に示す例では、処理摘要対象が「「数字（カンマ含む）ｘ桁」＋「千円」」となっている場合、「「数字（カンマ含む）ｘ桁」＋「,000」」に置換することが規定されている。例えば、図５（ｂ）に示すように処理摘要対象が「1,000千円」である場合に、図５（ａ）に例示する処理ルールを適用すると、「1,000,000」に表記が変更される。
なお、図５（ａ）及び図５（ｂ）に示す例は、あくまで一例であり、ロジック処理用の情報には、処理摘要対象と、該処理摘要対象に対する処理ルールの対応づけのパタンが種々含まれている。例えば、ロジック処理用の情報には、処理摘要対象が「「数字（カンマ含む）ｘ桁」＋「百万円」」となっている場合、「「数字（カンマ含む）ｘ桁」＋「,000,000」」に置換することが規定されていてもよい。また、逆に、表記が「1,000,000」である場合に「1,000千円」、「1,000,000,000」である場合に「1,000百万円」となるように処理ルールが規定されていてもよい。

また、表記を変更する対象（以下、処理摘要対象ともいう）である対象者に関する情報として住所と、該住所の表記を変更する処理ルールとを関連付けた例について説明する。
例えば、住所の番地が「東京都港区赤坂５－５－５」とハイフンで表記されている場合、「東京都港区赤坂５丁目５－５」というように住所の最初のハイフンを「丁目」に変更する処理ルールを設けてもよい。なお、表記を統一するのが目的であるため、住所の表記が「東京都港区赤坂５丁目５－５」である場合に、「東京都港区赤坂５－５－５」とする処理ルールを設けてもよい。また、「東京都港区赤坂５－５－５」を「東京都港区赤坂５丁目５番５号」というように最初のハイフンを「丁目」、次のハイフンを「番」、次のハイフンを「号」に変更する処理ルールを設けてもよい。また、逆に「東京都港区赤坂５丁目５番５号」を「東京都港区赤坂５－５－５」とする処理ルールでもよい。
このように、ロジック処理用の情報は、処理摘要対象と、該処理摘要対象に対する処理ルールとを対応付けられた情報であり、該ロジック処理用の情報を参照することで、表記を所定の統一された表記に変更することができる。

第１マスタ処理用の情報は、処理摘要対象である対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報である。図５（ｃ）は、表記変更用ＤＢ４に記憶されている第１マスタ処理用の情報の一例を示す図であり、処理摘要対象に辞書データによる上書き処理内容が対応づけられている。図５（ｃ）に示す例では、処理摘要対象が「「金額」項目内の文字が「戦円」」となっている場合、「「千円」」に上書きすることが規定されている。例えば、図５（ｄ）に示すように処理摘要対象が「1,000戦円」である場合に、図５（ｄ）に例示する処理内容を適用すると、「1,000千円」に誤記が変更される。なお、図５（ｃ）及び図５（ｄ）に示す例は、あくまで一例であり、第１マスタ処理用の情報には、処理摘要対象に辞書データによる上書き処理内容のパタンが種々含まれている。

また、表記変更用ＤＢ４に、第１マスタ処理用の情報として、外字（ガイジ）を変更するための辞書データを格納してもよい。外字とは、ＩＭＥなどの文字入力ソフトに登録されていない文字であり、テキスト入力の際に変換しても表示できない文字である。外字を扱うためには外字エディタ等を利用する必要があるため、対象者に関する情報に外字が含まれている場合、外字をＩＭＥなどの文字入力ソフトで扱える文字に変更することが好ましい。変更例を以下に示す。
変換前：「高」崎太郎（「高」は梯子高）
変換後：高崎太郎
上記の変更例では、「「高」（梯子高）」がＩＭＥなどの文字入力ソフトに登録されている「高」に変更されている。

このように、表記変更用ＤＢ４に、外字（ガイジ）を変更するための辞書を格納し、対象者に関する情報に外字が含まれている場合、外字をＩＭＥなどの文字入力ソフトで扱える文字に変更する構成としてもよい。

また、表記変更用ＤＢ４に、第１マスタ処理用の情報として、住所の誤記を修正するための辞書を格納してもよい。該辞書には、正規の住所の表記が格納される。ここで、正規の住所は、日本の行政区画に基づいて決められた都道府県名、都道府県名に含まれる市、区、村、郡などの名称を関連付けた情報であり、この情報を利用することで、住所の都道府県名に含まれる市、区、村、郡などの誤記を修正することができる。
例えば、対象者に関する情報として下記の修正前住所が取得された場合、赤坂は渋谷区ではなく港区であるため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所：東京都渋谷区赤坂３丁目３－３
修正後住所：東京都港区赤坂３丁目３－３

また、他の例を示すと、対象者に関する情報として下記の修正前住所が取得された場合、行政区画では大字は使用されないため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所：愛知県知多郡東浦町大字藤江字柳牛３４－２
修正後住所：愛知県知多郡東浦町藤江柳牛３４－２
このように、第１マスタ処理用の情報は、誤記となる表記と、該誤記に対する正しい表記とが種々対応付けられた情報であり、該第１マスタ処理用の情報を参照することで、誤記を正しい表記に修正することができる。

また、第２マスタ処理用の情報は、対象者に関する情報に含まれる不要な文字データを削除するための情報である。具体的には、第２マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報である。
このように、第２マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報とが対応付けられた情報であり、該第２マスタ処理用の情報を参照することで、該対象者に関する情報に含まれる文字以外の不要な文字データを認識して、該不要な文字データを削除することができる。

（対象者ＤＢ５）
対象者ＤＢ５には、対象者に関する情報が対象者ＩＤに関連付けて記憶されている。具体的には、対象者ＤＢ５には、対象者の銀行口座（以下、単に口座ともいう）での取引情報（以下、単に口座取引情報ともいう）、や警察庁データ（例えば、犯罪履歴情報や反社会勢力情報）、割賦販売法・貸金業法信用情報機関データ（例えば、クレジットカード会社、収納代行会社（口座振替）による未納情報）などのいわゆるブラックリスト情報が対象者ＩＤに関連付けて記憶されている。
ここで、対象者が個人の場合、氏名、住所、連絡先、個人の口座取引情報及びブラックリスト情報が対象者ＩＤに関連付けて記憶されている。
また、対象者が法人の場合、法人の所在地、法人の連絡先、代表者の氏名、常任代理人の氏名、実質的支配者の氏名、代理人の氏名、法人の口座取引情報及び上記代表者、常任代理人、実質的支配者、代理人のブラックリスト情報が対象者ＩＤに関連付けて記憶されている。
対象者に関する情報に、年齢、性別、住所、生年月日、本籍、ＳＮＳ参考情報などを含めるようにしてもよい。「ＳＮＳ参考情報」は、審査対象者による所定のＳＮＳの投稿内容から本人情報の信頼性をチェックしたものである。
なお、対象者ＤＢ５に記憶される対象者に関する情報は、後述の取得部２１０により取得される

（リスク算出用ＤＢ６）
リスク算出用ＤＢ６には、対象者に関する情報から対象者が監視対象となるリスク（以下、単にリスクとも記載する）を算出するための情報が記憶されている。具体的には、リスク算出用ＤＢ６には、対象者ＤＢ５に記憶された対象者に関する情報の各項目の組み合わせ（条件）に対して設定されたリスク算出用スコア（以下、リスクスコアともいう）が複数記憶されている。

例えば、マネーロンダリング等の犯罪リスクを算出する場合に利用される項目には、以下の情報がある。
（１－１）取引期間
（１－２）取引金額
（１－３）取引頻度
（１－４）犯罪歴
（１－５）所在地（個人の場合は住所）
（１－６）口座へのアクセス履歴
図５（ｅ）に条件及びリスクスコアの組み合わせの一例を示す。図５（ｅ）に示す例では、「取引金額が１か月の期間に500万円以上かつ犯罪履歴有り」の場合に「リスクスコア」が「30」となることが示されている。

また、例えば、外国ＰＥＰｓ（外国の政府等において重要な地位を占める者（外国の国家元首等）とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人）であるリスクを算出する場合に利用される項目には、以下の情報がある。
（２－１）外国人要人リスト
（２－２）顧客データ
（２－３）クローリングによるＷＥＢ情報
（２－４）その他対象者に関する種々の情報
上記（２－１）～（２－４）の情報をもとに、対象者の名前、所在地、出身国、年齢を取引履歴、入出金履歴等を取得し、この取得した情報をもとに対象者が外国ＰＥＰｓに該当するリスクを算出する。例えば、対象者が外国人要人リストと一致する場合には、外国ＰＥＰｓに該当する非常に高いリスク（スコアが略１００％となる）が算出される。

ＣＰＵ２００Ｃは、サーバ２を制御し、図示しないＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）を備えている。

図６に示すように、サーバ２は、受信部２０１、送信部２０２、記憶装置制御部２０３、補正部２０４、認識部２０５、分類部２０６、判定部２０７、探索部２０８、結合部２０９、取得部２１０、表記変更部２１１、統合部２１２、算出部２１３などの機能を有する。なお、図６に示す機能は、サーバ２のＲＯＭ（不図示）に記憶された情報処理プログラムをＣＰＵ２００Ｃが実行することにより実現される。

受信部２０１は、外部から送信される情報、例えば、対象者に関する情報を受信する。

送信部２０２は、情報を外部へ送信する。

記憶装置制御部２０３は、記憶装置２００Ｂを制御する。具体的には、記憶装置制御部２０３は、記憶装置２００Ｂを制御して情報の書き込みや読み出しを行う。

補正部２０４は、書類の画像データを、補正パタンＤＢ１に記憶されている複数の補正パタン（各補正パタンには、各々１以上の異なる補正が含まれている）により補正し、各補正パタンに対応する複数の補正後の画像を生成する。具体的には、補正部２０４は、画像データを補正パタン１で補正した補正後画像データ１を生成する。また、補正部２０４は、画像データを補正パタン２で補正した補正後画像データ２を生成する。また、補正部２０４は、画像データを補正パタン３で補正した補正後画像データ３を生成する。また、補正部２０４は、画像データを補正パタン４で補正した補正後画像データ４を生成する。また、補正部２０４は、画像データを補正パタン５で補正した補正後画像データ５を生成する。

認識部２０５は、書類の画像データから文字を認識する。ここで、認識部２０５は、補正部２０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部２０５は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。また、認識部２０５は、認識した文字に位置情報を付与する。なお、位置情報は、書類の左上をゼロ点としたＸＹ座標により表され、書類に向かって横方向がＸ軸（右方向が正）、縦方向がＹ軸（下方向が正）となっている。なお、座標を表す数値に画素数を利用してもよい。また、書類のどの位置をゼロ点とするかは任意である。また、座標を表す数値に画素数以外の数値を利用してもよい。

なお、認識部２０５は、書類の画像データから文字を認識する際、認識した文字の位置情報（座標）が横方向（Ｘ軸）又は縦方向（Ｙ軸）において所定距離内である場合（例えば、文字の位置を示す座標が重なっている場合）、一続きの言葉を構成する文字であると認識し、認識した文字の位置情報（座標）が横方向（Ｘ軸）又は縦方向（Ｙ軸）において所定距離より離れている場合（例えば、文字の位置を示す座標が重なっている場合）、一続きの言葉を構成する文字でなく別の文字又は言葉を構成する文字であると認識する。なお、文字の位置を示す座標が重なっているとは、例えば、「言葉」の文字が書類上に横方向（Ｘ軸）に記載されている場合、「言」の文字の右端の位置座標が、「葉」の文字の左端の位置座標よりも横方向（Ｘ軸）において右側に存在する場合、換言すると、「葉」の文字の左端の位置座標が、「言」の文字の右端の位置座標よりも横方向（Ｘ軸）において左側に存在する場合をいう。また、例えば、「言葉」の文字が書類上に縦方向（Ｙ軸）に記載されている場合、「言」の文字の下端の位置座標が、「葉」の文字の上端の位置座標よりも縦方向（Ｙ軸）において下側に存在する場合、換言すると、「葉」の文字の上端の位置座標が、「言」の文字の下端の位置座標よりも縦方向（Ｘ軸）において上側に存在する場合をいう。

分類部２０６は、分類用ＤＢ２を参照し、書類の画像データを分類する。具体的には、分類部２０６は、分類用ＤＢ２を参照し、書類の種別ごとに用意されたパタンマッチ用データやキーワードが存在するか否かに応じて、画像データのもととなった書類を分類する。分類部２０６は、分類した情報（書類の種別情報）を書類の画像データに付与する。

判定部２０７は、取得する項目の情報が書類の種別ごとに記憶された項目マスタＤＢ３を参照し、認識部２０５が認識した文字に項目が存在するか否かを、項目ごとに判定する。

探索部２０８は、判定部２０７が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部２０５が認識した文字から探索する。ここで、探索部２０８は、各文字のうちの１文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。

結合部２０９は、探索部２０８により探索された書類の画像データ上の文字を項目として認識可能なようにデータ的に結合する。

取得部２１０は、ネットワーク４を介して接続された他のシステムのサーバやユーザ端末３から対象者に関する情報を取得する。なお、取得部２１０は、種々の情報源から種々の手法を利用して対象者に関する情報を取得する。
「種々の情報源」には、例えば、警察庁データ、割賦販売法・貸金業法信用情報機関データなどが含まれる。
「種々の手法」には、例えば、クローリング（ＷＥＢサイト上の情報を取得する技術）、ＯＣＲ（Optical Character Recognition）、他のシステムとのＡＰＩ（Application Programming Interface）連携などの他、ユーザ端末３を利用して入力された情報などが含まれる。

なお、取得部２１０は、対象者に関する情報が画像データである場合、探索部２０８での探索結果に応じて、各文字に対応する文字を対象者に関する情報として取得する。具体的には、取得部２１０は、項目に対応する文字を、項目ごとに取得する。より具体的には、取得部２１０は、項目の第１側（本実施形態では右側）に存在する次の項目（次項目）までの文字又は改行までの文字を項目に対応する文字として取得する。また、取得部２１０は、項目の第１側（本実施形態では右側）の所定範囲内に文字（項目を構成する文字を除く）が存在しない場合、項目の第１側とは異なる第２側（本実施形態では下側）に存在する次の項目（次項目）までの文字又は改行までの文字を、項目に対応する文字を対象者に関する情報として取得する。

表記変更部２１１は、取得部２１０で取得された対象者に関する情報の表記を所定の表記に変更する。具体的には、表記変更部２１１は、表記変更用ＤＢ４を参照し、表記変更用ＤＢ４に記憶されているロジック処理用の情報及び第１，第２マスタ処理用の情報に基づいて、取得部２１０で取得された対象者に関する情報の表記を所定の表記に変更する。

統合部２１２は、表記変更部２１１で所定の表示に変更された対象者に関する情報を統合する。具体的には、統合部２１２は、表記変更部２１１で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複しない項目を抽出して対象者に関する情報とする。また、統合部２１２は、重複する項目については、最も多い記載を重複する項目に対応する情報として選択する。

算出部２１３は、統合部２１２で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。具体的には、算出部２１３は、対象者ＤＢ５に記憶された対象者に関する情報の各項目に対応する情報を組み合わせて、リスク算出用ＤＢ６に記憶された条件を満たすか否かを判定し、満たす場合に該条件に対応付けられたリスクスコアを該対象者のリスクとする。

（ユーザ端末３）
図７は、実施形態に係るユーザ端末３のハード構成及び機能構成の一例を示す図である。図７（ａ）は、ユーザ端末３のハード構成の一例を示す図、図７（ｂ）は、ユーザ端末３の機能構成の一例を示す図である。ユーザ端末３は、ＰＣ（Personal Computer）や携帯端末（例えば、タブレット端末）などである。図７（ａ）に示すように、ユーザ端末３は、通信ＩＦ３００Ａ、記憶装置３００Ｂ、入力装置３００Ｃ、表示装置３００Ｄ、ＣＰＵ３００Ｅなどを備える。

通信ＩＦ３００Ａは、他の装置（実施形態では、サーバ２）と通信するためのインターフェースである。

記憶装置３００Ｂは、例えば、ＨＤＤ（Hard Disk Drive）や半導体記憶装置（ＳＳＤ(Solid State Drive)）である。記憶装置３００Ｂには、ユーザ端末３の識別子（ＩＤ）及び情報処理プログラムなどが記憶されている。なお、識別子は、サーバ２がユーザ端末３に対して新たに付与してもよいし、ＩＰ（Internet Protocol）アドレス、ＭＡＣ（Media Access Control）アドレスなどを利用してもよい。

入力装置３００Ｃは、例えば、キーボード、タッチパネルなどであり、入力装置３００Ｃを操作して、情報処理システム１の利用に必要な情報（例えば、対象者に関する情報（画像データを含む））を入力することができる。

表示装置３００Ｄは、例えば、液晶モニタや有機ＥＬモニタなどである。表示装置３００Ｄは、情報処理システム１の利用に必要な画面（例えば、対象者に関する情報を入力するための画面（画像データを含む）、サーバ２により算出された対象者のリスクを提示する画面など）を表示する。

ＣＰＵ３００Ｅは、ユーザ端末３を制御するものであり、図示しないＲＯＭ及びＲＡＭを備えている。

図７（ｂ）に示すように、ユーザ端末３は、受信部３０１、送信部３０２、記憶装置制御部３０３、操作受付部３０４、表示装置制御部３０５などの機能を有する。なお、図７（ｂ）に示す機能は、ＣＰＵ３００Ｅが、記憶装置３００Ｂに記憶されている情報処理プログラムを実行することで実現される。

受信部３０１は、サーバ２から送信される情報を受信する。

送信部３０２は、入力装置３００Ｃを利用して入力された情報に識別子を付与してサーバ２へ送信する。ユーザ端末３から送信される情報に識別子を付与することでサーバ２は、受信した情報がどのユーザ端末３から送信されたものであるかを認識できる。

記憶装置制御部３０３は、記憶装置３００Ｂを制御する。具体的には、記憶装置制御部３０３は、記憶装置３００Ｂを制御して情報の書き込みや読み出しを行う。

操作受付部３０４は、入力装置３００Ｃでの入力操作を受け付ける。例えば、対象者の関する情報の入力操作（画像データの入力操作を含む）を受け付ける。

表示装置制御部３０５は、表示装置３００Ｄを制御する。具体的には、表示装置制御部３０５は、表示装置３００Ｄを制御して実施形態に係る情報処理システム１の利用に必要な画面（例えば、対象者に関する情報を入力するための画面（画像データを含む）、サーバ２により算出された対象者のリスクを提示する画面など）を表示させる。

（情報処理方法）
図８は、実施形態に係るサーバのリスク算出処理の一例を示すフローチャートである。

（ステップＳ１０１）
サーバ２の取得部２１０は、２以上の情報源から対象者に関する情報を取得する。

（ステップＳ１０２）
サーバ２の取得部２１０は、取得した対象者に関する情報がテキストデータであるか否か、換言すると画像データであるか否かを判定する。画像データである場合（ＹＥＳ）、サーバ２は、ステップ１０３の処理を実行する。画像データでない場合（ＮＯ）、換言するとテキストデータである場合、サーバ２は、ステップ１０４の処理を実行する。

（ステップＳ１０３）
サーバ２は、文字認識処理を実行する。なお、文字認識処理の詳細は後述する。

（ステップＳ１０４）
サーバ２の表記変更部２１１は、表記変更用ＤＢ４を参照し、表記変更用ＤＢ４に記憶されているロジック処理用の情報及び第１，第２マスタ処理用の情報に基づいて、取得部２１０で取得された対象者に関する情報の表記を所定の表記に変更する。

（ステップＳ１０５）
サーバ２の統合部２１２は、表記変更部２１１で所定の表示に変更された対象者に関する情報を統合する。なお、統合部２１２の動作の詳細は、後述の図９を参照して説明する。

（ステップＳ１０６）
算出部２１３は、算出部２１３は、統合部２１２で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。なお、算出部２１３の動作の詳細は説明したので重複する説明は省略する。

（ステップＳ１０７）
送信部２０２は、算出部２１３で算出されたリスクを該リスクの算出対象となった対象者の情報（例えば、氏名、法人名など）とともに出力する。出力されたリスク及び対象者の情報は、ユーザ端末３の受信部３０１で受信され、ユーザ端末３の表示装置制御部３０３により表示装置３００Ｄに表示される。なお、算出部２１３で算出されたリスク及び対象者の情報を出力する際に、リスクが所定値以上である場合、監視対象となる旨とともにリスク及び対象者の情報を出力し、リスクが所定値未満である場合、監視対象とならない旨とともにリスク及び対象者の情報を出力してもよい。また、リスクが所定値以上となった場合にのみ、リスク及び対象者の情報を出力してもよいし、監視対象となる旨とともにリスク及び対象者の情報を出力してもよい。

図９（ａ）は、実施形態に係るサーバの表記変更部２１１による表記変更の一例を示す図である。図９（ａ）では、表記変更部２１１が金額の表記を所定の表記に変更する例を示している。図９（ａ）に示すように、表記変更部２１１は、表記変更用ＤＢ４に記憶された第１マスタ処理用の情報に基づいて誤記を訂正する（図９（ａ）の例では「戦」の文字を「千」にしている）。また、表記変更部２１１は、表記変更用ＤＢ４に記憶された第２マスタ処理用の情報に基づいて不要な文字を削除する（図９（ａ）の例では「＊税別」の文字が削除されている）。次いで、表記変更部２１１は、表記変更部２１１は、表記変更用ＤＢ４のロジック処理用の情報に基づいて単位を統一する。

図９（ｂ）及び図９（ｃ）は、実施形態に係るサーバ２の統合部２１２による情報統合の一例を示す図である。図９（ｂ）は、統合部２１２による統合前の対象者に関する情報、図９（ｃ）は、統合部２１２による統合後の対象者に関する情報である。図９（ｂ）及び図９（ｃ）に示すように、統合部２１２は、表記変更部２１１で所定の表示に変更された対象者に関する情報を項目ごとに統合する。具体的には、統合部２１２は、各項目の情報を表記変更部２１１で所定の表示に変更された対象者に関する情報から取得し、重複する項目については、最も多い記載を重複する項目に対応する情報として選択して、種々の情報源から取得された対象者に関する情報を統合する。

（情報処理方法）
図１０は、実施形態に係るサーバの文字認識処理の一例を示すフローチャートである。

（ステップＳ２０１）
サーバ２の補正部２０４は、補正パタンＤＢ１を参照し、文書の画像データを補正する。具体的には、補正部２０４は、書類の画像データを、補正パタンＤＢ１に記憶されている複数の補正パタン（各補正パタンには、各々１以上の異なる補正が含まれている）により補正し、各補正パタンに対応する複数の補正後の画像を生成する。

（ステップＳ２０２）
サーバ２の認識部２０５は、書類の画像データから文字を認識する。具体的には、認識部２０５は、補正部２０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部２０５は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。

図１１は、認識部２０５による文字認識の一例を示す図である。図１１に示すように、認識部２０５は、補正部２０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。図１１に示す例では、補正パタン１、３及び５では、認識結果が「山田太郎」となっている。また、補正パタン２では、認識結果が「山田大郎」となっている。また、補正パタン３では、認識結果が「認識不可」、すなわち文字を認識することができなかったとなっている。認識部２０５は、複数の補正後の画像データから認識した文字のうち最も多いもの、図１１に示す例では「山田太郎」を選択し、認識した文字として決定する。なお、認識した文字のうち最も多いものがない場合（例えば、補正パタン１～５の判定結果がそれぞれ２、２、２、２、１の場合）は、再度、ステップＳ２０２の処理を行ってもよいし、補正パタンを変更してステップＳ２０２の処理を行ってもよい、また、読み取れなったとして報知（エラーを出力）するようにしてもよい。

（ステップＳ２０３）
サーバ２の認識部２０５は、認識した文字に位置情報を付与する。図１２は、認識部２０５による位置情報付与の一例を示す図である（図中の破線、矢印、Ｔｏｐ、Ｌｅｆｔ、Ｂｏｔｔｏｍ、Ｒｉｇｈｔの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない）。図１２（ａ）は、認識対象である書類の画像データの一例、図１２（ｂ）は、図１２（ａ）を認識した文字に付与された位置情報の一例である。図１２に示すように、認識部２０５は、書類の左上をゼロ点としたＸＹ座標により表される位置情報を認識した文字に付与する。図１２（ｂ）に示す例では、Ｔｏｐは文字の上端、Ｌｅｆｔは文字の左端、Ｂｏｔｔｏｍは、文字の下端、Ｒｉｇｈｔは文字の右端、Ｗｏｒｄは認識した文字である。なお、上述したように、本実施形態では、位置情報は書類の左上をゼロ点としたＸＹ座標により表され、座標の数値には画素数が利用されている。

上記のようにして、認識部２０５は、画像データに含まれる全ての文字を認識し、認識した文字に、書類の左上をゼロ点としたＸＹ座標により表される位置情報を付与する。なお、図１２に示す例では、文字の上端（Ｔｏｐ）、左端（Ｌｅｆｔ）、下端（Ｂｏｔｔｏｍ）、右端（Ｒｉｇｈｔ）は、実際の文字から離れた位置となっているが、これは認識した文字のフォントサイズに応じて文字の上端（Ｔｏｐ）、左端（Ｌｅｆｔ）、下端（Ｂｏｔｔｏｍ）、右端（Ｒｉｇｈｔ）が決定されるためである。また、本実施形態では、文字の位置情報を上端（Ｔｏｐ）、左端（Ｌｅｆｔ）、下端（Ｂｏｔｔｏｍ）、右端（Ｒｉｇｈｔ）で示しているが、文字の左上及び右下のそれぞれのＸ軸及びＹ軸の位置座標、又は文字の右上及び左下のそれぞれのＸ軸及びＹ軸の位置座標で文字の位置を示すようにしてもよい。

（ステップＳ２０４）
分類部２０６は、分類用ＤＢ２を参照し、書類の画像データを分類する。具体的には、分類部２０６は、分類用ＤＢ２を参照し、認識部２０５で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定する。認識部２０５で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、分類部２０６は、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類する。また、分類部２０６は、分類した情報（書類の種別情報）を書類の画像データに付与する。

（ステップＳ２０５）
判定部２０７は、項目マスタＤＢ３を参照し、分類部２０６で分類された書類の種別に対応する項目が存在するか否かを項目ごとに判定する。判定部２０７が存在すると判定しない項目がある場合（ＹＥＳ）、サーバ２は、ステップＳ２０６の処理へ移行する。また、判定部２０７が存在すると判定しない項目がない場合（ＮＯ）、サーバ２は、ステップＳ２０８の処理へ移行する。

（ステップＳ２０６）
探索部２０８は、判定部２０７により存在しないとされた項目を構成する各文字を認識部２０５が認識した文字から探索する。ここで、探索部２０８は、各文字のうちの１文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。

図１３は、探索部２０８による探索の一例を示す図である（図中の破線、矢印、Ｔｏｐ、Ｌｅｆｔ、Ｂｏｔｔｏｍ、Ｒｉｇｈｔの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない）。図１３（ａ）は、探索部２０８による横方向（Ｘ座標）探索の一例を示す図である。図１３（ａ）に示すように「氏名」の項目が、横方向（Ｘ軸方向）に所定間隔以上離れて配置されている場合、「氏」の文字と「名」の文字とがそれぞれ単独で読み取られるため、「氏名」の項目が書類上に存在するにも関わらず「氏名」の項目として認識することができない。そこで、探索部２０８は、「氏名」の項目を構成する各文字のうちの１文字である「氏」を起点とした所定範囲内に「氏名」の項目を構成する他の文字である「名」が存在するか探索する。より具体的には、探索部２０８は、「氏」の文字のＹ座標内のＸ軸線上に連続して「名」の文字が存在するかを探索する。

なお、文字が横方向（Ｘ軸方向）に並んで配置されているか否かの判断は、認識部２０５が認識した文字の上端（図１３（ａ）の「Ｔｏｐ」の位置）又は下端（図１３（ａ）の「Ｂｏｔｔｏｍ」の位置）を基準としてもよい。具体的には、横方向（Ｘ軸方向）に所定間隔離れた各文字（図１３（ａ）に示す例では「氏」及び「名」）の上端Ｔｏｐ又は下端ＢｏｔｔｏｍのＹ座標の値（ゼロ点からの画素数）の差が所定範囲内（例えば、±２０画素）であれば文字が横方向（Ｘ軸方向）に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから横方向（Ｘ軸方向）に所定間隔離れた各文字（図１３（ａ）に示す例では「氏」及び「名」）の上端Ｔｏｐ又は下端ＢｏｔｔｏｍのＹ座標の値（ゼロ点からの画素数）の差が所定範囲内であれば文字が横方向（Ｘ軸方向）に並んで配置されていると判定することができる。

図１３（ｂ）は、探索部２０８による縦方向（Ｙ座標）探索の一例を示す図である。図１３（ｂ）に示すように「記号」の項目が、縦方向（Ｙ軸方向）に配置されている場合、「記」の文字と「号」の文字とがそれぞれ単独で読み取られるため、「記号」の項目が書類上に存在するにも関わらず「記号」の項目として認識することができない。そこで、探索部２０８は、「記号」の項目を構成する各文字のうちの１文字である「記」を起点とした所定範囲内に「記号」の項目を構成する他の文字である「号」が存在するか探索する。より具体的には、探索部２０８は、「記」の文字のＸ座標内のＹ軸線上に連続して「号」の文字が存在するかを探索する。

なお、文字が縦方向（Ｙ軸方向）に並んで配置されているか否かの判断は、認識部２０５が認識した文字の左端（図１３（ｂ）の「Ｌｅｆｔ」の位置）又は右端（図１３（ｂ）の「Ｒｉｇｈｔ」の位置）を基準としてもよい。具体的には、縦方向（Ｙ軸方向）に所定間隔離れた各文字（図１３（ｂ）に示す例では「記」及び「号」）の左端Ｌ又は右端ＲのＺ座標の値（ゼロ点からの画素数）の差が所定範囲内（例えば、±２０画素）であれば文字が縦方向（Ｙ軸方向）に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから縦方向（Ｙ軸方向）に所定間隔離れた各文字（図１３（ｂ）に示す例では「記」及び「号」）の左端Ｌ又は右端ＲのＸ座標の値（ゼロ点からの画素数）の差が所定範囲内であれば文字が縦方向（Ｙ軸方向）に並んで配置されていると判定することができる。

以上のように、探索部２０８は、各文字のうちの１文字を起点として横方向（Ｚ軸方向）及び縦方向（Ｙ軸方向）に項目を構成する他の文字が存在するか探索する。具体的には、項目を構成する各文字のうちの最初の１文字のＹ座標内のＸ軸線上に連続して、項目を構成する他の文字が存在するかを探索する。探索部２０８は、項目を構成する各文字のうちの最初の１文字のＹ座標内のＸ軸線上に連続して、項目を構成する他の文字が存在しない場合、項目を構成する各文字のうちの最初の１文字のＸ座標内のＹ軸線上に連続して、項目を構成する他の文字が存在するかを探索する。

（ステップＳ２０７）
結合部２０９は、探索部２０８により探索された書類の画像データ上の文字を、項目として認識可能なようにデータ的に結合する。より具体的には、結合部２０９は、探索部２０８により探索された文字を結合して、項目として認識できるようにデータ的に結合する処理を行う。図１４は、結合部２０９による横方向の文字の結合の一例を示す図である（図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない）。図１４（ａ）は、結合前の文字の画像データの一例を示す図である。図１４（ｂ）は、認識部２０５で認識された「氏」及び「名」の文字に各々付与された位置情報の一例である。図１４（ｃ）は、結合部２０９による結合後の文字の画像データの一例を示す図である。図１４（ｄ）は、結合後の「氏名」の文字に付与された位置情報の一例である。図１４（ｃ）及び図１４（ｄ）に示すように結合部２０９は、「氏」の左端（Ｌｅｆｔ）の位置情報を「氏名」の左端（Ｌｅｆｔ）の位置情報とし、「名」の右端（Ｒｉｇｈｔ）の位置情報を「氏名」の右端（Ｒｉｇｈｔ）の位置情報とすることで、「氏」「名」の文字を一つの項目「氏名」として認識可能なようにデータ的に結合する。

図１５は、結合部２０９による縦方向の文字の結合の一例を示す図である（図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない）。図１５（ａ）は、結合前の文字の画像データの一例を示す図である。図１５（ｂ）は、認識部２０５で認識された「記」及び「号」の文字に各々付与された位置情報の一例である。図１５（ｃ）は、結合部２０９による結合後の文字の画像データの一例を示す図である。図１５（ｄ）は、結合後の「記号」の文字に付与された位置情報の一例である。図１５（ｃ）及び図１５（ｄ）に示すように結合部２０９は、「記」の上端（Ｔｏｐ）の位置情報を「記号」の上端（Ｔｏｐ）の位置情報とし、「号」の下端（Ｂｏｔｔｏｍ）の位置情報を「記号」の下端（Ｂｏｔｔｏｍ）の位置情報とすることで、「記」「号」の文字を一つの項目「記号」として認識可能なようにデータ的に結合する。
このように、結合部２０９は、探索部２０８により探索された文字を結合し、一つの情報として取り扱うことができるように結合処理を行う。

（ステップＳ２０８）
取得部２１０は、各項目に対応する文字を取得する。具体的には、取得部２１０は、項目の第１側（本実施形態では右側）に存在する次の項目（次項目）又は改行までの文字を項目に対応する文字として取得する（図１４に示す例では「山田太郎」の文字、図１５に示す例では「２０１３７５」の文字）。また、取得部２１０は、項目の第１側（本実施形態では右側：横書きに対応）の所定範囲内に文字（項目を構成する文字を除く）が存在しない場合、項目の第１側とは異なる第２側（本実施形態では下側：縦書きに対応）に存在する次の項目（次項目）又は改行までの文字を、項目に対応する文字として取得する。

なお、取得部２１０は、分類部２０６で分類された処理の種別に応じて、項目の第１側（本実施形態では右側）に存在する文字を項目に対応する文字として取得するか、項目の第２側（本実施形態では下側：縦書きに対応）に存在する文字を項目に対応する文字として取得するかを決定するようにしてもよい。この場合、縦書きの書類であるか横書きの書類であるかを書類の種別に対応して分類用ＤＢ２に記憶しておき、取得部２１０は、分類用ＤＢ２を参照し、分類部２０６で分類された処理の種別に応じて、項目の第１側（本実施形態では右側）に存在する文字を項目に対応する文字として取得するか、項目の第２側（本実施形態では下側：縦書きに対応）に存在する文字を、項目に対応する文字として取得するかを決定するようにしてもよい。

以上のように、実施形態に係るサーバ２は、２以上の情報源から対象者に関する情報を取得する取得部２１０と、取得部２１０で取得された対象者に関する情報の表記を所定の表記に変更する表記変更部２１１と、表記変更部２１１で所定の表示に変更された対象者に関する情報を統合する統合部２１２と、統合部２１２で統合された対象者に関する情報に基づいて、対象者が監視対象となるリスクを算出する算出部２１３とを備える。このため、多くの情報に基づいて対象者のリスクを算出することができ利便性が向上する。

また、実施形態に係るサーバ２の表記変更部２１１は、表記変更用ＤＢ４に記憶された対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報（ロジック処理用の情報）を参照し、前記処理ルールに基づいて、取得部２１０で取得された対象者に関する情報の表記を所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報を正確に統合することができる。

また、実施形態に係るサーバ２の表記変更部２１１は、表記変更用ＤＢ４に記憶された対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報（第１マスタ処理用の情報）を参照し、前記処理内容に基づいて、取得部２１０で取得された対象者に関する情報の表記を前記所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報をより正確に統合することができる。

また、実施形態に係るサーバ２の統合部２１２は、表記変更部２１１で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を重複する項目に対応する情報として選択する。このため、種々の情報源から取得された対象者に関する情報を統合する際の正確性を向上することができる。

また、実施形態に係るサーバ２の算出部２１３は、リスク算出用ＤＢ６に記憶された対象者に関する情報の各項目の組み合わせに対して設定されたリスクスコアに基づいて、対象者が監視対象となるリスクを算出する。このため、項目ごとにリスクレートを変更することで、対象者が監視対象となるリスクの算出を柔軟に変更することができ、利便性が向上する。

また、実施形態に係るサーバ２は、書類の画像から文字を認識する認識部２０５と、書類から取得する項目の情報を参照し、認識部２０５が認識した文字に項目が存在するか否かを判定する判定部２０７と、判定部２０７が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部２０５が認識した文字から探索する探索部２０８と、探索部２０８により探索された各文字を項目として認識可能に処理する結合部２０９と、各項目に対応する文字を対象者に関する情報として取得する取得部２１０とを備える。このため、文書を効果的に読み取ることができ、文書の文字認識率が向上する。

また、本実施形態に係るサーバ２の探索部２０８は、各文字のうちの１文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。このように所定範囲内を探索するため、離れた箇所に存在する文字を間違って項目を構成する文字として認識することがない。このため、項目に対応する情報を間違って取得する虞を低減することができる。

また、本実施形態に係るサーバ２の取得部２１０は、項目の第１側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報を間違って取得する虞を低減することができる。

また、本実施形態に係るサーバ２の取得部２１０は、項目の第１側の所定範囲内に文字が存在しない場合、項目の第１側とは異なる第２側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報をより効果的に取得することができる。

また、本実施形態に係るサーバ２は、書類の画像を複数の補正パタンにより補正し、各補正パタンに対応する複数の補正後の画像を生成する補正部２０４を備えている。そして、認識部２０５は、補正部２０４で生成された各補正パタンに対応する複数の補正後の画像から文字を認識し、複数の補正後の画像から認識した文字のうち最も多いものを選択する。このため、文字を誤って読み取る確率及び文字を読み取れない確率の少なくとも一方を低減することができ、文字認識の正答率が向上する。

また、本実施形態では、補正パタンは、各々１以上の異なる補正を含んでいる。このように１以上の異なる補正を組み合わせているので、文字を誤って読み取る確率や文字を読み取れない確率の少なくとも一方をより低減することができ、文字認識の正答率が更に向上する。

[実施形態の変形例１]
上記実施形態では、分類部２０６は、分類用ＤＢ２を参照し、認識部２０５で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部２０５で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類している。

しかしながら、分類部２０６は、分類用ＤＢ２を参照し、認識部２０５で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部２０５で認識された文字に、用意されたパタンマッチ用データやキーワードが最も多く含まれている種別に書類の画像データを分類するようにしてもよい。

また、分類用ＤＢ２に、書類の種別ごとに含まれていてはいけないパタンマッチ用データ（画像データや特徴点データ（例えば、印章の画像データや特徴点データなど））やキーワード（ＫＷ）を記憶し、認識部２０５で認識された文字に、該含まれていてはいけないパタンマッチ用データやキーワードが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類しないようにしてもよい。

[実施形態の変形例２]
また、上記実施形態では、項目マスタＤＢ３には、書類の種別ごとに取得する情報の項目が関連付けて記憶されているが、書類の種別ごとに取得する情報の項目の名称に、統一された項目の名称を関連付けて記憶するようにしてもよい。書類の種別によって同じ内容であるにも関わらず項目の名称が異なる場合がある。例えば、ある種別の書類では項目が「氏名」となっているが、他の種別の書類では項目が「名前」となっていることが考えられる。また、ある種別の書類では項目が「住所」となっているが、他の種別の書類では項目が「住まい」となっていることが考えられる。

このような場合に、項目マスタＤＢ３に、書類の種別ごとに取得する情報の項目の名称（例えば「住所」や「住まい」）に、統一された項目の名称（例えば「住所」）を関連付けて記憶し、項目に対応する文字に統一された項目の情報を付与するようにしてもよい。このように構成することで、書類の種別により異なる項目の名称を統一して管理することができ、例えば、検索や名寄せ等、データ利用の利便性が向上する。

１情報処理システム
２サーバ（情報処理装置）
２００Ａ通信ＩＦ
２００Ｂ記憶装置
２００ＣＣＰＵ
２０１受信部
２０２送信部
２０３記憶装置制御部
２０４補正部
２０５認識部
２０６分類部
２０７判定部
２０８探索部
２０９結合部
２１０取得部
２１１表記変更部
２１２統合部
２１３算出部
３ユーザ端末
３００Ａ通信ＩＦ
３００Ｂ記憶装置
３００Ｃ入力装置
３００Ｄ表示装置
３００ＥＣＰＵ
３０１受信部
３０２送信部
３０３記憶装置制御部
３０４操作受付部
３０５表示装置制御部
４ネットワーク
ＤＢ１補正パタンデータベース
ＤＢ２分類用データベース
ＤＢ３項目マスタデータベース
ＤＢ４表記変更用データベース
ＤＢ５対象者データベース
ＤＢ６リスク算出用データベース

Claims

２以上の情報源から対象者に関する情報を取得する取得部と、
前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、
前記表記変更部で所定の表示に変更された前記対象者に関する情報を統合する統合部と、
前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、
を備えることを特徴とする情報処理装置。
前記表記変更部は、
前記対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報を参照し、前記処理ルールに基づいて、前記取得部で取得された前記対象者に関する情報の表記を前記所定の表記に変更する、
ことを特徴とする請求項１に記載の情報処理装置。
前記表記変更部は、
前記対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報を参照し、前記処理内容に基づいて、前記取得部で取得された前記対象者に関する情報の表記を前記所定の表記に変更する、
ことを特徴とする請求項１又は請求項２に記載の情報処理装置。
前記統合部は、
前記表記変更部で所定の表示に変更された前記対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を前記重複する項目に対応する情報として選択する、
ことを特徴とする請求項１乃至請求項３のいずれかに記載の情報処理装置。
前記算出部は、
前記対象者に関する情報の各項目の組み合わせに対して設定されたリスクスコアに基づいて、前記対象者が監視対象となるリスクを算出する、
ことを特徴とする請求項１乃至請求項４のいずれかに記載の情報処理装置。
画像データから文字を認識する認識部と、
前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する判定部と、
前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する探索部と、を備え、
前記取得部は、
前記探索部での探索結果に応じて、前記各文字に対応する文字を前記対象者に関する情報として取得する、
ことを特徴とする請求項１乃至請求項５のいずれかに記載の情報処理装置。
前記探索部は、
前記各文字のうちの１文字を起点とした所定範囲内に前記項目を構成する他の文字が存在するか探索することを特徴とする請求項６に記載の情報処理装置。
取得部が、２以上の情報源から対象者に関する情報を取得する工程と、
表記変更部が、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する工程と、
統合部が、前記取得部で取得された前記対象者に関する情報を統合する工程と、
算出部が、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する工程と、
を有することを特徴とする情報処理方法。
コンピュータを、
２以上の情報源から対象者に関する情報を取得する取得部、
前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部、
前記取得部で取得された前記対象者に関する情報を統合する統合部、
前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部、
として機能させることを特徴とする情報処理プログラム。