JP2022012657A - 情報処理装置、情報処理方法及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法及び情報処理プログラム Download PDF

Info

Publication number
JP2022012657A
JP2022012657A JP2020114655A JP2020114655A JP2022012657A JP 2022012657 A JP2022012657 A JP 2022012657A JP 2020114655 A JP2020114655 A JP 2020114655A JP 2020114655 A JP2020114655 A JP 2020114655A JP 2022012657 A JP2022012657 A JP 2022012657A
Authority
JP
Japan
Prior art keywords
information
unit
target person
notation
item
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020114655A
Other languages
English (en)
Other versions
JP6969818B1 (ja
Inventor
正三 中島
Shozo Nakajima
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Double Standard Inc
Original Assignee
Double Standard Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Double Standard Inc filed Critical Double Standard Inc
Priority to JP2020114655A priority Critical patent/JP6969818B1/ja
Priority to JP2021170705A priority patent/JP2022013946A/ja
Application granted granted Critical
Publication of JP6969818B1 publication Critical patent/JP6969818B1/ja
Publication of JP2022012657A publication Critical patent/JP2022012657A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Character Discrimination (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供すること。【解決手段】本発明に係る情報処理装置は、異なる2以上の情報源から対象者に関する情報を取得する取得部と、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、前記取得部で取得された前記対象者に関する情報を統合する統合部と、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備える。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
従来、金融機関等では、本人確認書類に基づき、顧客が犯罪リスクを持った人物であるか否かをチェックすることがある。犯罪リスクのチェックには例えば、マネーロンダリングを行う可能性が高い人物であるか否かのチェックや反社会勢力に属する人物であるか否かのチェックなどが含まれる。
例えば、特許文献1には、検出された疑わしい取引がマネーロンダリングに該当するか否かを複数の情報源から総合的に判定することを支援するマネーロンダリング判定支援システムが提案されている。
特開2010-225040号公報
上記のように、犯罪リスクを判定するためには、複数の情報源から取得した情報を総合的に判定する必要がある。しかしながら、情報源によって文書フォーマット等が異なるため、複数の情報源から取得した情報を機械的に処理することは難しく、多数の人手が必要となっている。
本発明は、上記課題に鑑みてなされたものであり、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。
上記課題を解決するため、本発明の情報処理装置は、2以上の情報源から対象者に関する情報を取得する取得部と、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、前記取得部で取得された前記対象者に関する情報を統合する統合部と、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備える。
本発明によれば、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することができる。
実施形態に係る情報処理システムの概略構成の一例を示す図である。 実施形態に係るサーバのハード構成の一例を示す図である。 実施形態に係るサーバの記憶装置に記憶されているデータベースの一例を示す図である。 データベースに記憶されている情報の一例を示す図である。 データベースに記憶されている情報の一例を示す図である。 実施形態に係るサーバの機能構成の一例を示す図である。 実施形態に係るユーザ端末のハード構成及び機能構成の一例を示す図である。 実施形態に係るサーバのリスク算出処理の一例を示すフローチャートである。 (a)は、実施形態に係るサーバの表記変更部による表記変更の一例を示す図である。(b)及び(c)は、実施形態に係るサーバの統合部による情報統合の一例を示す図である。 実施形態に係るサーバの文字認識処理の一例を示すフローチャートである。 実施形態に係るサーバの認識部による文字認識の一例を示す図である。 実施形態に係るサーバの認識部による位置情報付与の一例を示す図である。 実施形態に係るサーバの探索部による探索の一例を示す図である。 実施形態に係るサーバの結合部による横方向の結合の一例を示す図である。 実施形態に係るサーバの結合部による縦方向の結合の一例を示す図である。
以下、本発明の実施形態を図面に基づいて説明する。なお、以下の説明において「対象者」とは、リスク算出の対象者である。
また、「リスク」とは、対象者が監視対象(例えば、外国PEPs(外国の政府等において重要な地位を占める者(外国の国家元首等)とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人)やマネーロンダリング等の犯罪)に該当するリスクである。本実施形態では、リスクが高いと犯罪となる可能性が高く、リスクが低いと犯罪となる可能性が低い。
[実施形態]
図1は、実施形態に係る情報処理システム1の概要構成の一例を示す図である。情報処理システム1は、サーバ2及びユーザ端末3がネットワーク4を介して接続された構成を有する。なお、情報処理システム1が具備するサーバ2、ユーザ端末3の数は任意である。
ネットワーク4には、例えば、他のシステムのサーバ(情報源)が接続されており、サーバ2は、ネットワーク4を介して上記サーバにアクセスし、記憶されている情報(後述する対象者に関する情報)を取得することができるように構成されている。上記サーバの情報の取得には、クローラーやスクレイパーなどのソフトウェアを利用することができる。なお、ネットワーク4をどのような通信網で構成するかは任意である。
図2は、本実施形態に係るサーバ2(情報処理装置)のハード構成の一例を示す図である。図2に示すように、サーバ2は、通信IF200A、記憶装置200B及びCPU200Cがバスを介して接続された構成を備える。
通信IF200Aは、外部端末と通信するためのインターフェースである。
記憶装置200Bは、例えば、HDDや半導体記憶装置である。記憶装置200Bには、サーバ2で利用する情報処理プログラムや各種データベースが記憶されている。なお、本実施形態では、情報処理プログラムや各種データベースは、サーバ2の記憶装置200Bに記憶されているが、USBメモリなどの外部記憶装置やネットワークを介して接続された外部サーバに記憶し、必要に応じて参照やダウンロード可能に構成されていてもよい。
図3は、サーバ2の記憶装置200Bに記憶されているデータベースの一例を示す図である。図3に示すように、記憶装置200Bには、補正パタンデータベース1(以下、補正パタンDB1ともいう)、分類用データベース2(以下、分類用DB2ともいう)、項目マスタデータベース3(以下、項目マスタDB3ともいう)、表記変更用データベース4(以下、表記変更用DB4ともいう)、対象者データベース5(以下、対象者DB5ともいう)、リスク算出用データベース6(以下、リスク算出用DB6ともいう)が記憶されている。
(補正パタンDB1)
補正パタンDB1は、書類の画像データを補正するための補正パタンが複数記憶されている。図4(a)は、補正パタンDB1に記憶されている情報の一例を示す図である。図4(a)に示すように、複数の補正パタンは、それぞれ1以上の補正を組み合わせて構成されている。例えば、補正パタン1は、補正1及び3を組み合わせて構成される。また、補正パタン2は、補正1、2及び4を組み合わせて構成される。また、補正パタン3は、補正1、2及び3を組み合わせて構成される。また、補正パタン4は、補正1、3及び5を組み合わせて構成される。また、補正パタン5は、補正1及び4を組み合わせて構成される。なお、補正パタンの数は5に限られず3以上であればよい。
また、補正1~補正5は、例えば、それぞれ遠近法ワープ(台形補正)、明るさ補正、コントラスト補正、ガウス補正、ぼかし補正などである。なお、図4(a)に示す各補正パタンの補正の組み合わせはあくまで一例であり、各補正パタンをどのような補正で構成するかは任意である。また、補正は、補正1~補正5の5つに限られない。
(分類用DB2)
分類用DB2には、書類を分類するための情報が記憶されている。図4(b)は、分類用DB2に記憶されている情報の一例を示す図である。図4(b)に示すように、分類用DB2には、書類の種別ごとに特有のパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)が関連付けて記憶されている。なお、図4(b)に示すパタンマッチ用データやキーワードはあくまで一例であり、書類を分類するための情報として、どのようなパタンマッチ用データやキーワードとするかは任意である。後述の分類部206は、分類用DB2を参照し、文書の画像データにパタンマッチ用データやキーワードが含まれているが否かに基づいて、書類の画像データを分類する。
(項目マスタDB3)
項目マスタDB3には、取得する項目の情報が書類の種別ごとに記憶されている。図4(c)は、項目マスタDB3に記憶されている情報の一例を示す図である。図4(c)に示すように、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されている。なお、書類からどのような項目の情報を取得するかは任意である。
(表記変更用DB4)
表記変更用DB4には、サーバ2が取得した対象者に関する情報の表記を所定の表記に変更するための情報が記憶されている。具体的には、表記変更用DB4には、ロジック処理用の情報及び第1,第2マスタ処理用の情報が記憶されている。
ロジック処理用の情報は、表記を変更する対象(以下、処理摘要対象ともいう)である対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報である。図5(a)は、表記変更用DB4に記憶されているロジック処理用の情報の一例を示す図であり、処理摘要対象に処理ルールが対応づけられている。図5(a)に示す例では、処理摘要対象が「「数字(カンマ含む)x桁」+「千円」」となっている場合、「「数字(カンマ含む)x桁」+「,000」」に置換することが規定されている。例えば、図5(b)に示すように処理摘要対象が「1,000千円」である場合に、図5(a)に例示する処理ルールを適用すると、「1,000,000」に表記が変更される。
なお、図5(a)及び図5(b)に示す例は、あくまで一例であり、ロジック処理用の情報には、処理摘要対象と、該処理摘要対象に対する処理ルールの対応づけのパタンが種々含まれている。例えば、ロジック処理用の情報には、処理摘要対象が「「数字(カンマ含む)x桁」+「百万円」」となっている場合、「「数字(カンマ含む)x桁」+「,000,000」」に置換することが規定されていてもよい。また、逆に、表記が「1,000,000」である場合に「1,000千円」、「1,000,000,000」である場合に「1,000百万円」となるように処理ルールが規定されていてもよい。
また、表記を変更する対象(以下、処理摘要対象ともいう)である対象者に関する情報として住所と、該住所の表記を変更する処理ルールとを関連付けた例について説明する。
例えば、住所の番地が「東京都港区赤坂5-5-5」とハイフンで表記されている場合、「東京都港区赤坂5丁目5-5」というように住所の最初のハイフンを「丁目」に変更する処理ルールを設けてもよい。なお、表記を統一するのが目的であるため、住所の表記が「東京都港区赤坂5丁目5-5」である場合に、「東京都港区赤坂5-5-5」とする処理ルールを設けてもよい。また、「東京都港区赤坂5-5-5」を「東京都港区赤坂5丁目5番5号」というように最初のハイフンを「丁目」、次のハイフンを「番」、次のハイフンを「号」に変更する処理ルールを設けてもよい。また、逆に「東京都港区赤坂5丁目5番5号」を「東京都港区赤坂5-5-5」とする処理ルールでもよい。
このように、ロジック処理用の情報は、処理摘要対象と、該処理摘要対象に対する処理ルールとを対応付けられた情報であり、該ロジック処理用の情報を参照することで、表記を所定の統一された表記に変更することができる。
第1マスタ処理用の情報は、処理摘要対象である対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報である。図5(c)は、表記変更用DB4に記憶されている第1マスタ処理用の情報の一例を示す図であり、処理摘要対象に辞書データによる上書き処理内容が対応づけられている。図5(c)に示す例では、処理摘要対象が「「金額」項目内の文字が「戦円」」となっている場合、「「千円」」に上書きすることが規定されている。例えば、図5(d)に示すように処理摘要対象が「1,000戦円」である場合に、図5(d)に例示する処理内容を適用すると、「1,000千円」に誤記が変更される。なお、図5(c)及び図5(d)に示す例は、あくまで一例であり、第1マスタ処理用の情報には、処理摘要対象に辞書データによる上書き処理内容のパタンが種々含まれている。
また、表記変更用DB4に、第1マスタ処理用の情報として、外字(ガイジ)を変更するための辞書データを格納してもよい。外字とは、IMEなどの文字入力ソフトに登録されていない文字であり、テキスト入力の際に変換しても表示できない文字である。外字を扱うためには外字エディタ等を利用する必要があるため、対象者に関する情報に外字が含まれている場合、外字をIMEなどの文字入力ソフトで扱える文字に変更することが好ましい。変更例を以下に示す。
変換前:「高」崎 太郎(「高」は梯子高)
変換後:高崎 太郎
上記の変更例では、「「高」(梯子高)」がIMEなどの文字入力ソフトに登録されている「高」に変更されている。
このように、表記変更用DB4に、外字(ガイジ)を変更するための辞書を格納し、対象者に関する情報に外字が含まれている場合、外字をIMEなどの文字入力ソフトで扱える文字に変更する構成としてもよい。
また、表記変更用DB4に、第1マスタ処理用の情報として、住所の誤記を修正するための辞書を格納してもよい。該辞書には、正規の住所の表記が格納される。ここで、正規の住所は、日本の行政区画に基づいて決められた都道府県名、都道府県名に含まれる市、区、村、郡などの名称を関連付けた情報であり、この情報を利用することで、住所の都道府県名に含まれる市、区、村、郡などの誤記を修正することができる。
例えば、対象者に関する情報として下記の修正前住所が取得された場合、赤坂は渋谷区ではなく港区であるため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所:東京都渋谷区赤坂3丁目3-3
修正後住所:東京都港区赤坂3丁目3-3
また、他の例を示すと、対象者に関する情報として下記の修正前住所が取得された場合、行政区画では大字は使用されないため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所:愛知県知多郡東浦町大字藤江字柳牛34-2
修正後住所:愛知県知多郡東浦町藤江柳牛34-2
このように、第1マスタ処理用の情報は、誤記となる表記と、該誤記に対する正しい表記とが種々対応付けられた情報であり、該第1マスタ処理用の情報を参照することで、誤記を正しい表記に修正することができる。
また、第2マスタ処理用の情報は、対象者に関する情報に含まれる不要な文字データを削除するための情報である。具体的には、第2マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報である。
このように、第2マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報とが対応付けられた情報であり、該第2マスタ処理用の情報を参照することで、該対象者に関する情報に含まれる文字以外の不要な文字データを認識して、該不要な文字データを削除することができる。
(対象者DB5)
対象者DB5には、対象者に関する情報が対象者IDに関連付けて記憶されている。具体的には、対象者DB5には、対象者の銀行口座(以下、単に口座ともいう)での取引情報(以下、単に口座取引情報ともいう)、や警察庁データ(例えば、犯罪履歴情報や反社会勢力情報)、割賦販売法・貸金業法信用情報機関データ(例えば、クレジットカード会社、収納代行会社(口座振替)による未納情報)などのいわゆるブラックリスト情報が対象者IDに関連付けて記憶されている。
ここで、対象者が個人の場合、氏名、住所、連絡先、個人の口座取引情報及びブラックリスト情報が対象者IDに関連付けて記憶されている。
また、対象者が法人の場合、法人の所在地、法人の連絡先、代表者の氏名、常任代理人の氏名、実質的支配者の氏名、代理人の氏名、法人の口座取引情報及び上記代表者、常任代理人、実質的支配者、代理人のブラックリスト情報が対象者IDに関連付けて記憶されている。
対象者に関する情報に、年齢、性別、住所、生年月日、本籍、SNS参考情報などを含めるようにしてもよい。「SNS参考情報」は、審査対象者による所定のSNSの投稿内容から本人情報の信頼性をチェックしたものである。
なお、対象者DB5に記憶される対象者に関する情報は、後述の取得部210により取得される
(リスク算出用DB6)
リスク算出用DB6には、対象者に関する情報から対象者が監視対象となるリスク(以下、単にリスクとも記載する)を算出するための情報が記憶されている。具体的には、リスク算出用DB6には、対象者DB5に記憶された対象者に関する情報の各項目の組み合わせ(条件)に対して設定されたリスク算出用スコア(以下、リスクスコアともいう)が複数記憶されている。
例えば、マネーロンダリング等の犯罪リスクを算出する場合に利用される項目には、以下の情報がある。
(1-1)取引期間
(1-2)取引金額
(1-3)取引頻度
(1-4)犯罪歴
(1-5)所在地(個人の場合は住所)
(1-6)口座へのアクセス履歴
図5(e)に条件及びリスクスコアの組み合わせの一例を示す。図5(e)に示す例では、「取引金額が1か月の期間に500万円以上 かつ 犯罪履歴有り」の場合に「リスクスコア」が「30」となることが示されている。
また、例えば、外国PEPs(外国の政府等において重要な地位を占める者(外国の国家元首等)とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人)であるリスクを算出する場合に利用される項目には、以下の情報がある。
(2-1)外国人要人リスト
(2-2)顧客データ
(2-3)クローリングによるWEB情報
(2-4)その他対象者に関する種々の情報
上記(2-1)~(2-4)の情報をもとに、対象者の名前、所在地、出身国、年齢を取引履歴、入出金履歴等を取得し、この取得した情報をもとに対象者が外国PEPsに該当するリスクを算出する。例えば、対象者が外国人要人リストと一致する場合には、外国PEPsに該当する非常に高いリスク(スコアが略100%となる)が算出される。
CPU200Cは、サーバ2を制御し、図示しないROM(Read Only Memory)及びRAM(Random Access Memory)を備えている。
図6に示すように、サーバ2は、受信部201、送信部202、記憶装置制御部203、補正部204、認識部205、分類部206、判定部207、探索部208、結合部209、取得部210、表記変更部211、統合部212、算出部213などの機能を有する。なお、図6に示す機能は、サーバ2のROM(不図示)に記憶された情報処理プログラムをCPU200Cが実行することにより実現される。
受信部201は、外部から送信される情報、例えば、対象者に関する情報を受信する。
送信部202は、情報を外部へ送信する。
記憶装置制御部203は、記憶装置200Bを制御する。具体的には、記憶装置制御部203は、記憶装置200Bを制御して情報の書き込みや読み出しを行う。
補正部204は、書類の画像データを、補正パタンDB1に記憶されている複数の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する複数の補正後の画像を生成する。具体的には、補正部204は、画像データを補正パタン1で補正した補正後画像データ1を生成する。また、補正部204は、画像データを補正パタン2で補正した補正後画像データ2を生成する。また、補正部204は、画像データを補正パタン3で補正した補正後画像データ3を生成する。また、補正部204は、画像データを補正パタン4で補正した補正後画像データ4を生成する。また、補正部204は、画像データを補正パタン5で補正した補正後画像データ5を生成する。
認識部205は、書類の画像データから文字を認識する。ここで、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部205は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。また、認識部205は、認識した文字に位置情報を付与する。なお、位置情報は、書類の左上をゼロ点としたXY座標により表され、書類に向かって横方向がX軸(右方向が正)、縦方向がY軸(下方向が正)となっている。なお、座標を表す数値に画素数を利用してもよい。また、書類のどの位置をゼロ点とするかは任意である。また、座標を表す数値に画素数以外の数値を利用してもよい。
なお、認識部205は、書類の画像データから文字を認識する際、認識した文字の位置情報(座標)が横方向(X軸)又は縦方向(Y軸)において所定距離内である場合(例えば、文字の位置を示す座標が重なっている場合)、一続きの言葉を構成する文字であると認識し、認識した文字の位置情報(座標)が横方向(X軸)又は縦方向(Y軸)において所定距離より離れている場合(例えば、文字の位置を示す座標が重なっている場合)、一続きの言葉を構成する文字でなく別の文字又は言葉を構成する文字であると認識する。なお、文字の位置を示す座標が重なっているとは、例えば、「言葉」の文字が書類上に横方向(X軸)に記載されている場合、「言」の文字の右端の位置座標が、「葉」の文字の左端の位置座標よりも横方向(X軸)において右側に存在する場合、換言すると、「葉」の文字の左端の位置座標が、「言」の文字の右端の位置座標よりも横方向(X軸)において左側に存在する場合をいう。また、例えば、「言葉」の文字が書類上に縦方向(Y軸)に記載されている場合、「言」の文字の下端の位置座標が、「葉」の文字の上端の位置座標よりも縦方向(Y軸)において下側に存在する場合、換言すると、「葉」の文字の上端の位置座標が、「言」の文字の下端の位置座標よりも縦方向(X軸)において上側に存在する場合をいう。
分類部206は、分類用DB2を参照し、書類の画像データを分類する。具体的には、分類部206は、分類用DB2を参照し、書類の種別ごとに用意されたパタンマッチ用データやキーワードが存在するか否かに応じて、画像データのもととなった書類を分類する。分類部206は、分類した情報(書類の種別情報)を書類の画像データに付与する。
判定部207は、取得する項目の情報が書類の種別ごとに記憶された項目マスタDB3を参照し、認識部205が認識した文字に項目が存在するか否かを、項目ごとに判定する。
探索部208は、判定部207が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部205が認識した文字から探索する。ここで、探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。
結合部209は、探索部208により探索された書類の画像データ上の文字を項目として認識可能なようにデータ的に結合する。
取得部210は、ネットワーク4を介して接続された他のシステムのサーバやユーザ端末3から対象者に関する情報を取得する。なお、取得部210は、種々の情報源から種々の手法を利用して対象者に関する情報を取得する。
「種々の情報源」には、例えば、警察庁データ、割賦販売法・貸金業法信用情報機関データなどが含まれる。
「種々の手法」には、例えば、クローリング(WEBサイト上の情報を取得する技術)、OCR(Optical Character Recognition)、他のシステムとのAPI(Application Programming Interface)連携などの他、ユーザ端末3を利用して入力された情報などが含まれる。
なお、取得部210は、対象者に関する情報が画像データである場合、探索部208での探索結果に応じて、各文字に対応する文字を対象者に関する情報として取得する。具体的には、取得部210は、項目に対応する文字を、項目ごとに取得する。より具体的には、取得部210は、項目の第1側(本実施形態では右側)に存在する次の項目(次項目)までの文字又は改行までの文字を項目に対応する文字として取得する。また、取得部210は、項目の第1側(本実施形態では右側)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側)に存在する次の項目(次項目)までの文字又は改行までの文字を、項目に対応する文字を対象者に関する情報として取得する。
表記変更部211は、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。具体的には、表記変更部211は、表記変更用DB4を参照し、表記変更用DB4に記憶されているロジック処理用の情報及び第1,第2マスタ処理用の情報に基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。
統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を統合する。具体的には、統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複しない項目を抽出して対象者に関する情報とする。また、統合部212は、重複する項目については、最も多い記載を重複する項目に対応する情報として選択する。
算出部213は、統合部212で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。具体的には、算出部213は、対象者DB5に記憶された対象者に関する情報の各項目に対応する情報を組み合わせて、リスク算出用DB6に記憶された条件を満たすか否かを判定し、満たす場合に該条件に対応付けられたリスクスコアを該対象者のリスクとする。
(ユーザ端末3)
図7は、実施形態に係るユーザ端末3のハード構成及び機能構成の一例を示す図である。図7(a)は、ユーザ端末3のハード構成の一例を示す図、図7(b)は、ユーザ端末3の機能構成の一例を示す図である。ユーザ端末3は、PC(Personal Computer)や携帯端末(例えば、タブレット端末)などである。図7(a)に示すように、ユーザ端末3は、通信IF300A、記憶装置300B、入力装置300C、表示装置300D、CPU300Eなどを備える。
通信IF300Aは、他の装置(実施形態では、サーバ2)と通信するためのインターフェースである。
記憶装置300Bは、例えば、HDD(Hard Disk Drive)や半導体記憶装置(SSD(Solid State Drive))である。記憶装置300Bには、ユーザ端末3の識別子(ID)及び情報処理プログラムなどが記憶されている。なお、識別子は、サーバ2がユーザ端末3に対して新たに付与してもよいし、IP(Internet Protocol)アドレス、MAC(Media Access Control)アドレスなどを利用してもよい。
入力装置300Cは、例えば、キーボード、タッチパネルなどであり、入力装置300Cを操作して、情報処理システム1の利用に必要な情報(例えば、対象者に関する情報(画像データを含む))を入力することができる。
表示装置300Dは、例えば、液晶モニタや有機ELモニタなどである。表示装置300Dは、情報処理システム1の利用に必要な画面(例えば、対象者に関する情報を入力するための画面(画像データを含む)、サーバ2により算出された対象者のリスクを提示する画面など)を表示する。
CPU300Eは、ユーザ端末3を制御するものであり、図示しないROM及びRAMを備えている。
図7(b)に示すように、ユーザ端末3は、受信部301、送信部302、記憶装置制御部303、操作受付部304、表示装置制御部305などの機能を有する。なお、図7(b)に示す機能は、CPU300Eが、記憶装置300Bに記憶されている情報処理プログラムを実行することで実現される。
受信部301は、サーバ2から送信される情報を受信する。
送信部302は、入力装置300Cを利用して入力された情報に識別子を付与してサーバ2へ送信する。ユーザ端末3から送信される情報に識別子を付与することでサーバ2は、受信した情報がどのユーザ端末3から送信されたものであるかを認識できる。
記憶装置制御部303は、記憶装置300Bを制御する。具体的には、記憶装置制御部303は、記憶装置300Bを制御して情報の書き込みや読み出しを行う。
操作受付部304は、入力装置300Cでの入力操作を受け付ける。例えば、対象者の関する情報の入力操作(画像データの入力操作を含む)を受け付ける。
表示装置制御部305は、表示装置300Dを制御する。具体的には、表示装置制御部305は、表示装置300Dを制御して実施形態に係る情報処理システム1の利用に必要な画面(例えば、対象者に関する情報を入力するための画面(画像データを含む)、サーバ2により算出された対象者のリスクを提示する画面など)を表示させる。
(情報処理方法)
図8は、実施形態に係るサーバのリスク算出処理の一例を示すフローチャートである。
(ステップS101)
サーバ2の取得部210は、2以上の情報源から対象者に関する情報を取得する。
(ステップS102)
サーバ2の取得部210は、取得した対象者に関する情報がテキストデータであるか否か、換言すると画像データであるか否かを判定する。画像データである場合(YES)、サーバ2は、ステップ103の処理を実行する。画像データでない場合(NO)、換言するとテキストデータである場合、サーバ2は、ステップ104の処理を実行する。
(ステップS103)
サーバ2は、文字認識処理を実行する。なお、文字認識処理の詳細は後述する。
(ステップS104)
サーバ2の表記変更部211は、表記変更用DB4を参照し、表記変更用DB4に記憶されているロジック処理用の情報及び第1,第2マスタ処理用の情報に基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。
(ステップS105)
サーバ2の統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を統合する。なお、統合部212の動作の詳細は、後述の図9を参照して説明する。
(ステップS106)
算出部213は、算出部213は、統合部212で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。なお、算出部213の動作の詳細は説明したので重複する説明は省略する。
(ステップS107)
送信部202は、算出部213で算出されたリスクを該リスクの算出対象となった対象者の情報(例えば、氏名、法人名など)とともに出力する。出力されたリスク及び対象者の情報は、ユーザ端末3の受信部301で受信され、ユーザ端末3の表示装置制御部303により表示装置300Dに表示される。なお、算出部213で算出されたリスク及び対象者の情報を出力する際に、リスクが所定値以上である場合、監視対象となる旨とともにリスク及び対象者の情報を出力し、リスクが所定値未満である場合、監視対象とならない旨とともにリスク及び対象者の情報を出力してもよい。また、リスクが所定値以上となった場合にのみ、リスク及び対象者の情報を出力してもよいし、監視対象となる旨とともにリスク及び対象者の情報を出力してもよい。
図9(a)は、実施形態に係るサーバの表記変更部211による表記変更の一例を示す図である。図9(a)では、表記変更部211が金額の表記を所定の表記に変更する例を示している。図9(a)に示すように、表記変更部211は、表記変更用DB4に記憶された第1マスタ処理用の情報に基づいて誤記を訂正する(図9(a)の例では「戦」の文字を「千」にしている)。また、表記変更部211は、表記変更用DB4に記憶された第2マスタ処理用の情報に基づいて不要な文字を削除する(図9(a)の例では「*税別」の文字が削除されている)。次いで、表記変更部211は、表記変更部211は、表記変更用DB4のロジック処理用の情報に基づいて単位を統一する。
図9(b)及び図9(c)は、実施形態に係るサーバ2の統合部212による情報統合の一例を示す図である。図9(b)は、統合部212による統合前の対象者に関する情報、図9(c)は、統合部212による統合後の対象者に関する情報である。図9(b)及び図9(c)に示すように、統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに統合する。具体的には、統合部212は、各項目の情報を表記変更部211で所定の表示に変更された対象者に関する情報から取得し、重複する項目については、最も多い記載を重複する項目に対応する情報として選択して、種々の情報源から取得された対象者に関する情報を統合する。
(情報処理方法)
図10は、実施形態に係るサーバの文字認識処理の一例を示すフローチャートである。
(ステップS201)
サーバ2の補正部204は、補正パタンDB1を参照し、文書の画像データを補正する。具体的には、補正部204は、書類の画像データを、補正パタンDB1に記憶されている複数の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する複数の補正後の画像を生成する。
(ステップS202)
サーバ2の認識部205は、書類の画像データから文字を認識する。具体的には、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部205は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。
図11は、認識部205による文字認識の一例を示す図である。図11に示すように、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。図11に示す例では、補正パタン1、3及び5では、認識結果が「山田太郎」となっている。また、補正パタン2では、認識結果が「山田大郎」となっている。また、補正パタン3では、認識結果が「認識不可」、すなわち文字を認識することができなかったとなっている。認識部205は、複数の補正後の画像データから認識した文字のうち最も多いもの、図11に示す例では「山田太郎」を選択し、認識した文字として決定する。なお、認識した文字のうち最も多いものがない場合(例えば、補正パタン1~5の判定結果がそれぞれ2、2、2、2、1の場合)は、再度、ステップS202の処理を行ってもよいし、補正パタンを変更してステップS202の処理を行ってもよい、また、読み取れなったとして報知(エラーを出力)するようにしてもよい。
(ステップS203)
サーバ2の認識部205は、認識した文字に位置情報を付与する。図12は、認識部205による位置情報付与の一例を示す図である(図中の破線、矢印、Top、Left、Bottom、Rightの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない)。図12(a)は、認識対象である書類の画像データの一例、図12(b)は、図12(a)を認識した文字に付与された位置情報の一例である。図12に示すように、認識部205は、書類の左上をゼロ点としたXY座標により表される位置情報を認識した文字に付与する。図12(b)に示す例では、Topは文字の上端、Leftは文字の左端、Bottomは、文字の下端、Rightは文字の右端、Wordは認識した文字である。なお、上述したように、本実施形態では、位置情報は書類の左上をゼロ点としたXY座標により表され、座標の数値には画素数が利用されている。
上記のようにして、認識部205は、画像データに含まれる全ての文字を認識し、認識した文字に、書類の左上をゼロ点としたXY座標により表される位置情報を付与する。なお、図12に示す例では、文字の上端(Top)、左端(Left)、下端(Bottom)、右端(Right)は、実際の文字から離れた位置となっているが、これは認識した文字のフォントサイズに応じて文字の上端(Top)、左端(Left)、下端(Bottom)、右端(Right)が決定されるためである。また、本実施形態では、文字の位置情報を上端(Top)、左端(Left)、下端(Bottom)、右端(Right)で示しているが、文字の左上及び右下のそれぞれのX軸及びY軸の位置座標、又は文字の右上及び左下のそれぞれのX軸及びY軸の位置座標で文字の位置を示すようにしてもよい。
(ステップS204)
分類部206は、分類用DB2を参照し、書類の画像データを分類する。具体的には、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定する。認識部205で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、分類部206は、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類する。また、分類部206は、分類した情報(書類の種別情報)を書類の画像データに付与する。
(ステップS205)
判定部207は、項目マスタDB3を参照し、分類部206で分類された書類の種別に対応する項目が存在するか否かを項目ごとに判定する。判定部207が存在すると判定しない項目がある場合(YES)、サーバ2は、ステップS206の処理へ移行する。また、判定部207が存在すると判定しない項目がない場合(NO)、サーバ2は、ステップS208の処理へ移行する。
(ステップS206)
探索部208は、判定部207により存在しないとされた項目を構成する各文字を認識部205が認識した文字から探索する。ここで、探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。
図13は、探索部208による探索の一例を示す図である(図中の破線、矢印、Top、Left、Bottom、Rightの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない)。図13(a)は、探索部208による横方向(X座標)探索の一例を示す図である。図13(a)に示すように「氏名」の項目が、横方向(X軸方向)に所定間隔以上離れて配置されている場合、「氏」の文字と「名」の文字とがそれぞれ単独で読み取られるため、「氏名」の項目が書類上に存在するにも関わらず「氏名」の項目として認識することができない。そこで、探索部208は、「氏名」の項目を構成する各文字のうちの1文字である「氏」を起点とした所定範囲内に「氏名」の項目を構成する他の文字である「名」が存在するか探索する。より具体的には、探索部208は、「氏」の文字のY座標内のX軸線上に連続して「名」の文字が存在するかを探索する。
なお、文字が横方向(X軸方向)に並んで配置されているか否かの判断は、認識部205が認識した文字の上端(図13(a)の「Top」の位置)又は下端(図13(a)の「Bottom」の位置)を基準としてもよい。具体的には、横方向(X軸方向)に所定間隔離れた各文字(図13(a)に示す例では「氏」及び「名」)の上端Top又は下端BottomのY座標の値(ゼロ点からの画素数)の差が所定範囲内(例えば、±20画素)であれば文字が横方向(X軸方向)に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから横方向(X軸方向)に所定間隔離れた各文字(図13(a)に示す例では「氏」及び「名」)の上端Top又は下端BottomのY座標の値(ゼロ点からの画素数)の差が所定範囲内であれば文字が横方向(X軸方向)に並んで配置されていると判定することができる。
図13(b)は、探索部208による縦方向(Y座標)探索の一例を示す図である。図13(b)に示すように「記号」の項目が、縦方向(Y軸方向)に配置されている場合、「記」の文字と「号」の文字とがそれぞれ単独で読み取られるため、「記号」の項目が書類上に存在するにも関わらず「記号」の項目として認識することができない。そこで、探索部208は、「記号」の項目を構成する各文字のうちの1文字である「記」を起点とした所定範囲内に「記号」の項目を構成する他の文字である「号」が存在するか探索する。より具体的には、探索部208は、「記」の文字のX座標内のY軸線上に連続して「号」の文字が存在するかを探索する。
なお、文字が縦方向(Y軸方向)に並んで配置されているか否かの判断は、認識部205が認識した文字の左端(図13(b)の「Left」の位置)又は右端(図13(b)の「Right」の位置)を基準としてもよい。具体的には、縦方向(Y軸方向)に所定間隔離れた各文字(図13(b)に示す例では「記」及び「号」)の左端L又は右端RのZ座標の値(ゼロ点からの画素数)の差が所定範囲内(例えば、±20画素)であれば文字が縦方向(Y軸方向)に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから縦方向(Y軸方向)に所定間隔離れた各文字(図13(b)に示す例では「記」及び「号」)の左端L又は右端RのX座標の値(ゼロ点からの画素数)の差が所定範囲内であれば文字が縦方向(Y軸方向)に並んで配置されていると判定することができる。
以上のように、探索部208は、各文字のうちの1文字を起点として横方向(Z軸方向)及び縦方向(Y軸方向)に項目を構成する他の文字が存在するか探索する。具体的には、項目を構成する各文字のうちの最初の1文字のY座標内のX軸線上に連続して、項目を構成する他の文字が存在するかを探索する。探索部208は、項目を構成する各文字のうちの最初の1文字のY座標内のX軸線上に連続して、項目を構成する他の文字が存在しない場合、項目を構成する各文字のうちの最初の1文字のX座標内のY軸線上に連続して、項目を構成する他の文字が存在するかを探索する。
(ステップS207)
結合部209は、探索部208により探索された書類の画像データ上の文字を、項目として認識可能なようにデータ的に結合する。より具体的には、結合部209は、探索部208により探索された文字を結合して、項目として認識できるようにデータ的に結合する処理を行う。図14は、結合部209による横方向の文字の結合の一例を示す図である(図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない)。図14(a)は、結合前の文字の画像データの一例を示す図である。図14(b)は、認識部205で認識された「氏」及び「名」の文字に各々付与された位置情報の一例である。図14(c)は、結合部209による結合後の文字の画像データの一例を示す図である。図14(d)は、結合後の「氏名」の文字に付与された位置情報の一例である。図14(c)及び図14(d)に示すように結合部209は、「氏」の左端(Left)の位置情報を「氏名」の左端(Left)の位置情報とし、「名」の右端(Right)の位置情報を「氏名」の右端(Right)の位置情報とすることで、「氏」「名」の文字を一つの項目「氏名」として認識可能なようにデータ的に結合する。
図15は、結合部209による縦方向の文字の結合の一例を示す図である(図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない)。図15(a)は、結合前の文字の画像データの一例を示す図である。図15(b)は、認識部205で認識された「記」及び「号」の文字に各々付与された位置情報の一例である。図15(c)は、結合部209による結合後の文字の画像データの一例を示す図である。図15(d)は、結合後の「記号」の文字に付与された位置情報の一例である。図15(c)及び図15(d)に示すように結合部209は、「記」の上端(Top)の位置情報を「記号」の上端(Top)の位置情報とし、「号」の下端(Bottom)の位置情報を「記号」の下端(Bottom)の位置情報とすることで、「記」「号」の文字を一つの項目「記号」として認識可能なようにデータ的に結合する。
このように、結合部209は、探索部208により探索された文字を結合し、一つの情報として取り扱うことができるように結合処理を行う。
(ステップS208)
取得部210は、各項目に対応する文字を取得する。具体的には、取得部210は、項目の第1側(本実施形態では右側)に存在する次の項目(次項目)又は改行までの文字を項目に対応する文字として取得する(図14に示す例では「山田太郎」の文字、図15に示す例では「201375」の文字)。また、取得部210は、項目の第1側(本実施形態では右側:横書きに対応)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側:縦書きに対応)に存在する次の項目(次項目)又は改行までの文字を、項目に対応する文字として取得する。
なお、取得部210は、分類部206で分類された処理の種別に応じて、項目の第1側(本実施形態では右側)に存在する文字を項目に対応する文字として取得するか、項目の第2側(本実施形態では下側:縦書きに対応)に存在する文字を項目に対応する文字として取得するかを決定するようにしてもよい。この場合、縦書きの書類であるか横書きの書類であるかを書類の種別に対応して分類用DB2に記憶しておき、取得部210は、分類用DB2を参照し、分類部206で分類された処理の種別に応じて、項目の第1側(本実施形態では右側)に存在する文字を項目に対応する文字として取得するか、項目の第2側(本実施形態では下側:縦書きに対応)に存在する文字を、項目に対応する文字として取得するかを決定するようにしてもよい。
以上のように、実施形態に係るサーバ2は、2以上の情報源から対象者に関する情報を取得する取得部210と、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する表記変更部211と、表記変更部211で所定の表示に変更された対象者に関する情報を統合する統合部212と、統合部212で統合された対象者に関する情報に基づいて、対象者が監視対象となるリスクを算出する算出部213とを備える。このため、多くの情報に基づいて対象者のリスクを算出することができ利便性が向上する。
また、実施形態に係るサーバ2の表記変更部211は、表記変更用DB4に記憶された対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報(ロジック処理用の情報)を参照し、前記処理ルールに基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報を正確に統合することができる。
また、実施形態に係るサーバ2の表記変更部211は、表記変更用DB4に記憶された対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報(第1マスタ処理用の情報)を参照し、前記処理内容に基づいて、取得部210で取得された対象者に関する情報の表記を前記所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報をより正確に統合することができる。
また、実施形態に係るサーバ2の統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を重複する項目に対応する情報として選択する。このため、種々の情報源から取得された対象者に関する情報を統合する際の正確性を向上することができる。
また、実施形態に係るサーバ2の算出部213は、リスク算出用DB6に記憶された対象者に関する情報の各項目の組み合わせに対して設定されたリスクスコアに基づいて、対象者が監視対象となるリスクを算出する。このため、項目ごとにリスクレートを変更することで、対象者が監視対象となるリスクの算出を柔軟に変更することができ、利便性が向上する。
また、実施形態に係るサーバ2は、書類の画像から文字を認識する認識部205と、書類から取得する項目の情報を参照し、認識部205が認識した文字に項目が存在するか否かを判定する判定部207と、判定部207が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部205が認識した文字から探索する探索部208と、探索部208により探索された各文字を項目として認識可能に処理する結合部209と、各項目に対応する文字を対象者に関する情報として取得する取得部210とを備える。このため、文書を効果的に読み取ることができ、文書の文字認識率が向上する。
また、本実施形態に係るサーバ2の探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。このように所定範囲内を探索するため、離れた箇所に存在する文字を間違って項目を構成する文字として認識することがない。このため、項目に対応する情報を間違って取得する虞を低減することができる。
また、本実施形態に係るサーバ2の取得部210は、項目の第1側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報を間違って取得する虞を低減することができる。
また、本実施形態に係るサーバ2の取得部210は、項目の第1側の所定範囲内に文字が存在しない場合、項目の第1側とは異なる第2側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報をより効果的に取得することができる。
また、本実施形態に係るサーバ2は、書類の画像を複数の補正パタンにより補正し、各補正パタンに対応する複数の補正後の画像を生成する補正部204を備えている。そして、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識し、複数の補正後の画像から認識した文字のうち最も多いものを選択する。このため、文字を誤って読み取る確率及び文字を読み取れない確率の少なくとも一方を低減することができ、文字認識の正答率が向上する。
また、本実施形態では、補正パタンは、各々1以上の異なる補正を含んでいる。このように1以上の異なる補正を組み合わせているので、文字を誤って読み取る確率や文字を読み取れない確率の少なくとも一方をより低減することができ、文字認識の正答率が更に向上する。
[実施形態の変形例1]
上記実施形態では、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部205で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類している。
しかしながら、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが最も多く含まれている種別に書類の画像データを分類するようにしてもよい。
また、分類用DB2に、書類の種別ごとに含まれていてはいけないパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)を記憶し、認識部205で認識された文字に、該含まれていてはいけないパタンマッチ用データやキーワードが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類しないようにしてもよい。
[実施形態の変形例2]
また、上記実施形態では、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されているが、書類の種別ごとに取得する情報の項目の名称に、統一された項目の名称を関連付けて記憶するようにしてもよい。書類の種別によって同じ内容であるにも関わらず項目の名称が異なる場合がある。例えば、ある種別の書類では項目が「氏名」となっているが、他の種別の書類では項目が「名前」となっていることが考えられる。また、ある種別の書類では項目が「住所」となっているが、他の種別の書類では項目が「住まい」となっていることが考えられる。
このような場合に、項目マスタDB3に、書類の種別ごとに取得する情報の項目の名称(例えば「住所」や「住まい」)に、統一された項目の名称(例えば「住所」)を関連付けて記憶し、項目に対応する文字に統一された項目の情報を付与するようにしてもよい。このように構成することで、書類の種別により異なる項目の名称を統一して管理することができ、例えば、検索や名寄せ等、データ利用の利便性が向上する。
1 情報処理システム
2 サーバ(情報処理装置)
200A 通信IF
200B 記憶装置
200C CPU
201 受信部
202 送信部
203 記憶装置制御部
204 補正部
205 認識部
206 分類部
207 判定部
208 探索部
209 結合部
210 取得部
211 表記変更部
212 統合部
213 算出部
3 ユーザ端末
300A 通信IF
300B 記憶装置
300C 入力装置
300D 表示装置
300E CPU
301 受信部
302 送信部
303 記憶装置制御部
304 操作受付部
305 表示装置制御部
4 ネットワーク
DB1 補正パタンデータベース
DB2 分類用データベース
DB3 項目マスタデータベース
DB4 表記変更用データベース
DB5 対象者データベース
DB6 リスク算出用データベース

Claims (9)

  1. 2以上の情報源から対象者に関する情報を取得する取得部と、
    前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、
    前記表記変更部で所定の表示に変更された前記対象者に関する情報を統合する統合部と、
    前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、
    を備えることを特徴とする情報処理装置。
  2. 前記表記変更部は、
    前記対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報を参照し、前記処理ルールに基づいて、前記取得部で取得された前記対象者に関する情報の表記を前記所定の表記に変更する、
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記表記変更部は、
    前記対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報を参照し、前記処理内容に基づいて、前記取得部で取得された前記対象者に関する情報の表記を前記所定の表記に変更する、
    ことを特徴とする請求項1又は請求項2に記載の情報処理装置。
  4. 前記統合部は、
    前記表記変更部で所定の表示に変更された前記対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を前記重複する項目に対応する情報として選択する、
    ことを特徴とする請求項1乃至請求項3のいずれかに記載の情報処理装置。
  5. 前記算出部は、
    前記対象者に関する情報の各項目の組み合わせに対して設定されたリスクスコアに基づいて、前記対象者が監視対象となるリスクを算出する、
    ことを特徴とする請求項1乃至請求項4のいずれかに記載の情報処理装置。
  6. 画像データから文字を認識する認識部と、
    前記書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する判定部と、
    前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する探索部と、を備え、
    前記取得部は、
    前記探索部での探索結果に応じて、前記各文字に対応する文字を前記対象者に関する情報として取得する、
    ことを特徴とする請求項1乃至請求項5のいずれかに記載の情報処理装置。
  7. 前記探索部は、
    前記各文字のうちの1文字を起点とした所定範囲内に前記項目を構成する他の文字が存在するか探索することを特徴とする請求項6に記載の情報処理装置。
  8. 取得部が、2以上の情報源から対象者に関する情報を取得する工程と、
    表記変更部が、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する工程と、
    統合部が、前記取得部で取得された前記対象者に関する情報を統合する工程と、
    算出部が、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する工程と、
    を有することを特徴とする情報処理方法。
  9. コンピュータを、
    2以上の情報源から対象者に関する情報を取得する取得部、
    前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部、
    前記取得部で取得された前記対象者に関する情報を統合する統合部、
    前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部、
    として機能させることを特徴とする情報処理プログラム。

JP2020114655A 2020-07-02 2020-07-02 情報処理装置、情報処理方法及び情報処理プログラム Active JP6969818B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020114655A JP6969818B1 (ja) 2020-07-02 2020-07-02 情報処理装置、情報処理方法及び情報処理プログラム
JP2021170705A JP2022013946A (ja) 2020-07-02 2021-10-19 情報処理装置、情報処理方法及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020114655A JP6969818B1 (ja) 2020-07-02 2020-07-02 情報処理装置、情報処理方法及び情報処理プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021170705A Division JP2022013946A (ja) 2020-07-02 2021-10-19 情報処理装置、情報処理方法及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP6969818B1 JP6969818B1 (ja) 2021-11-24
JP2022012657A true JP2022012657A (ja) 2022-01-17

Family

ID=78605679

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020114655A Active JP6969818B1 (ja) 2020-07-02 2020-07-02 情報処理装置、情報処理方法及び情報処理プログラム
JP2021170705A Pending JP2022013946A (ja) 2020-07-02 2021-10-19 情報処理装置、情報処理方法及び情報処理プログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021170705A Pending JP2022013946A (ja) 2020-07-02 2021-10-19 情報処理装置、情報処理方法及び情報処理プログラム

Country Status (1)

Country Link
JP (2) JP6969818B1 (ja)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0620087A (ja) * 1992-06-29 1994-01-28 Pfu Ltd Ocr処理システムにおける漢字住所データ処理方法
JPH08147446A (ja) * 1994-11-18 1996-06-07 Canon Inc 電子ファイリング装置
JP2000090192A (ja) * 1998-09-16 2000-03-31 Sharp Corp 住所および郵便番号の文字列修正方法
JP2005011049A (ja) * 2003-06-19 2005-01-13 Nec Soft Ltd データベース統合装置
JP2005050226A (ja) * 2003-07-31 2005-02-24 Kokusai Kogyo Co Ltd 住所データマッチング処理システム及びマッチング処理方法
JP2005508530A (ja) * 2000-11-30 2005-03-31 ユニシス コーポレイシヨン 金融取引不正行為に対する対策
JP2005228077A (ja) * 2004-02-13 2005-08-25 Japan Future Information Technology & Systems Co Ltd マネーロンダリング検出装置、マネーロンダリング検出方法およびマネーロンダリング検出プログラム
JP2010225040A (ja) * 2009-03-25 2010-10-07 Mizuho Information & Research Institute Inc マネーロンダリング判定支援システム、方法及びプログラム
JP2013254473A (ja) * 2012-05-10 2013-12-19 Takashi Kinoshita 中国文を日本文に自動翻訳する方法
WO2015071980A1 (ja) * 2013-11-13 2015-05-21 楽天株式会社 監視支援装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0620087A (ja) * 1992-06-29 1994-01-28 Pfu Ltd Ocr処理システムにおける漢字住所データ処理方法
JPH08147446A (ja) * 1994-11-18 1996-06-07 Canon Inc 電子ファイリング装置
JP2000090192A (ja) * 1998-09-16 2000-03-31 Sharp Corp 住所および郵便番号の文字列修正方法
JP2005508530A (ja) * 2000-11-30 2005-03-31 ユニシス コーポレイシヨン 金融取引不正行為に対する対策
JP2005011049A (ja) * 2003-06-19 2005-01-13 Nec Soft Ltd データベース統合装置
JP2005050226A (ja) * 2003-07-31 2005-02-24 Kokusai Kogyo Co Ltd 住所データマッチング処理システム及びマッチング処理方法
JP2005228077A (ja) * 2004-02-13 2005-08-25 Japan Future Information Technology & Systems Co Ltd マネーロンダリング検出装置、マネーロンダリング検出方法およびマネーロンダリング検出プログラム
JP2010225040A (ja) * 2009-03-25 2010-10-07 Mizuho Information & Research Institute Inc マネーロンダリング判定支援システム、方法及びプログラム
JP2013254473A (ja) * 2012-05-10 2013-12-19 Takashi Kinoshita 中国文を日本文に自動翻訳する方法
WO2015071980A1 (ja) * 2013-11-13 2015-05-21 楽天株式会社 監視支援装置

Also Published As

Publication number Publication date
JP6969818B1 (ja) 2021-11-24
JP2022013946A (ja) 2022-01-18

Similar Documents

Publication Publication Date Title
US11978064B2 (en) Identifying false positive geolocation-based fraud alerts
US10089686B2 (en) Systems and methods for increasing efficiency in the detection of identity-based fraud indicators
US10762561B2 (en) Systems and methods for improving computation efficiency in the detection of fraud indicators for loans
US8611635B1 (en) Duplicate check detection
US20160012561A1 (en) Systems and Methods for Detecting Identity Theft of a Dependent
US20120102002A1 (en) Automatic data validation and correction
US8682755B2 (en) Systems and methods for detecting tax refund fraud
JP6268352B2 (ja) 会計データ入力システム、方法、およびプログラム
US20170109855A1 (en) Systems and methods for detecting linkages among individuals
US10592508B2 (en) Organizing datasets for adaptive responses to queries
US20220300834A1 (en) Knowledge-based validation of extracted entities with confidence calibration
JP2022548501A (ja) 暗号通貨取引を分析するためのデータ取得方法及び装置
US20210034861A1 (en) Document fingerprint for fraud detection
Soni et al. Reducing risk in KYC (know your customer) for large Indian banks using big data analytics
JP6969818B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US20230067073A1 (en) Systems and Methods for Improved Transaction Reconciliation
US20220229863A1 (en) Assigning documents to entities of a database
JP6250307B2 (ja) 画像情報処理装置及び画像情報処理方法
US11361287B2 (en) Automated check encoding error resolution
US20220382804A1 (en) Information processing apparatus, information processing system, and method of information processing
US11616809B1 (en) Fuzzy logic modeling for detection and presentment of anomalous messaging
JP2023025802A (ja) 受給者管理システム、受給者管理方法、および、受給者管理プログラム
CN116756126A (zh) 一种黑名单筛查方法、装置、电子设备及存储介质
JP6696111B2 (ja) 個人番号更新プログラム、個人番号更新方法、および情報処理装置
WO2022266218A1 (en) Method and system for extracting information from a document

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210218

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20210218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210618

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210730

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210803

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211015

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211021

R150 Certificate of patent or registration of utility model

Ref document number: 6969818

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350