JP6969818B1 - Information processing equipment, information processing methods and information processing programs - Google Patents
Information processing equipment, information processing methods and information processing programs Download PDFInfo
- Publication number
- JP6969818B1 JP6969818B1 JP2020114655A JP2020114655A JP6969818B1 JP 6969818 B1 JP6969818 B1 JP 6969818B1 JP 2020114655 A JP2020114655 A JP 2020114655A JP 2020114655 A JP2020114655 A JP 2020114655A JP 6969818 B1 JP6969818 B1 JP 6969818B1
- Authority
- JP
- Japan
- Prior art keywords
- information
- unit
- target person
- notation
- item
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Character Discrimination (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
【課題】利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供すること。【解決手段】本発明に係る情報処理装置は、異なる2以上の情報源から対象者に関する情報を取得する取得部と、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、前記取得部で取得された前記対象者に関する情報を統合する統合部と、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備える。【選択図】図1PROBLEM TO BE SOLVED: To provide a highly convenient information processing apparatus, information processing method and information processing program. An information processing apparatus according to the present invention has an acquisition unit that acquires information about a target person from two or more different information sources, and a notation of information about the target person acquired by the acquisition unit as a predetermined notation. The target person is monitored based on the notation change unit to be changed, the integrated unit that integrates the information about the target person acquired by the acquisition unit, and the information about the target person integrated by the integrated unit. It is equipped with a calculation unit that calculates the risk. [Selection diagram] Fig. 1
Description
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。 The present invention relates to an information processing apparatus, an information processing method and an information processing program.
従来、金融機関等では、本人確認書類に基づき、顧客が犯罪リスクを持った人物であるか否かをチェックすることがある。犯罪リスクのチェックには例えば、マネーロンダリングを行う可能性が高い人物であるか否かのチェックや反社会勢力に属する人物であるか否かのチェックなどが含まれる。 Conventionally, a financial institution or the like may check whether or not a customer has a criminal risk based on an identity verification document. The criminal risk check includes, for example, a check of whether or not the person is likely to perform money laundering and a check of whether or not the person belongs to an antisocial force.
例えば、特許文献1には、検出された疑わしい取引がマネーロンダリングに該当するか否かを複数の情報源から総合的に判定することを支援するマネーロンダリング判定支援システムが提案されている。
For example,
上記のように、犯罪リスクを判定するためには、複数の情報源から取得した情報を総合的に判定する必要がある。しかしながら、情報源によって文書フォーマット等が異なるため、複数の情報源から取得した情報を機械的に処理することは難しく、多数の人手が必要となっている。 As mentioned above, in order to judge the crime risk, it is necessary to comprehensively judge the information acquired from multiple information sources. However, since the document format and the like differ depending on the information source, it is difficult to mechanically process the information acquired from a plurality of information sources, and a large number of manpower is required.
本発明は、上記課題に鑑みてなされたものであり、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することを目的とする。 The present invention has been made in view of the above problems, and an object of the present invention is to provide a highly convenient information processing apparatus, information processing method, and information processing program.
上記課題を解決するため、本発明の情報処理装置は、2以上の情報源から対象者に関する情報を取得する取得部と、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、前記取得部で取得された前記対象者に関する情報を統合する統合部と、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備える。 In order to solve the above problems, the information processing apparatus of the present invention has a predetermined notation of an acquisition unit that acquires information about the target person from two or more information sources and a notation of information about the target person acquired by the acquisition unit. Based on the notation change unit to be changed to, the integrated unit that integrates the information about the target person acquired by the acquisition unit, and the information about the target person integrated by the integrated unit, the target person is monitored. It is provided with a calculation unit for calculating the risk of becoming.
本発明によれば、利便性の高い情報処理装置、情報処理方法及び情報処理プログラムを提供することができる。 According to the present invention, it is possible to provide a highly convenient information processing apparatus, information processing method and information processing program.
以下、本発明の実施形態を図面に基づいて説明する。なお、以下の説明において「対象者」とは、リスク算出の対象者である。
また、「リスク」とは、対象者が監視対象(例えば、外国PEPs(外国の政府等において重要な地位を占める者(外国の国家元首等)とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人)やマネーロンダリング等の犯罪)に該当するリスクである。本実施形態では、リスクが高いと犯罪となる可能性が高く、リスクが低いと犯罪となる可能性が低い。
Hereinafter, embodiments of the present invention will be described with reference to the drawings. In the following explanation, the “target person” is the target person for risk calculation.
In addition, "risk" means that the subject is monitored (for example, foreign PEPs (persons who occupy an important position in foreign governments (foreign heads of state, etc.) and those who were in that position, their families, and substance). It is a risk that falls under the category of corporations whose rulers are these persons) and crimes such as money laundering. In this embodiment, a high risk is likely to be a crime, and a low risk is unlikely to be a crime.
[実施形態]
図1は、実施形態に係る情報処理システム1の概要構成の一例を示す図である。情報処理システム1は、サーバ2及びユーザ端末3がネットワーク4を介して接続された構成を有する。なお、情報処理システム1が具備するサーバ2、ユーザ端末3の数は任意である。
[Embodiment]
FIG. 1 is a diagram showing an example of an outline configuration of an
ネットワーク4には、例えば、他のシステムのサーバ(情報源)が接続されており、サーバ2は、ネットワーク4を介して上記サーバにアクセスし、記憶されている情報(後述する対象者に関する情報)を取得することができるように構成されている。上記サーバの情報の取得には、クローラーやスクレイパーなどのソフトウェアを利用することができる。なお、ネットワーク4をどのような通信網で構成するかは任意である。
For example, a server (information source) of another system is connected to the
図2は、本実施形態に係るサーバ2(情報処理装置)のハード構成の一例を示す図である。図2に示すように、サーバ2は、通信IF200A、記憶装置200B及びCPU200Cがバスを介して接続された構成を備える。
FIG. 2 is a diagram showing an example of a hardware configuration of the server 2 (information processing apparatus) according to the present embodiment. As shown in FIG. 2, the
通信IF200Aは、外部端末と通信するためのインターフェースである。 The communication IF200A is an interface for communicating with an external terminal.
記憶装置200Bは、例えば、HDDや半導体記憶装置である。記憶装置200Bには、サーバ2で利用する情報処理プログラムや各種データベースが記憶されている。なお、本実施形態では、情報処理プログラムや各種データベースは、サーバ2の記憶装置200Bに記憶されているが、USBメモリなどの外部記憶装置やネットワークを介して接続された外部サーバに記憶し、必要に応じて参照やダウンロード可能に構成されていてもよい。
The
図3は、サーバ2の記憶装置200Bに記憶されているデータベースの一例を示す図である。図3に示すように、記憶装置200Bには、補正パタンデータベース1(以下、補正パタンDB1ともいう)、分類用データベース2(以下、分類用DB2ともいう)、項目マスタデータベース3(以下、項目マスタDB3ともいう)、表記変更用データベース4(以下、表記変更用DB4ともいう)、対象者データベース5(以下、対象者DB5ともいう)、リスク算出用データベース6(以下、リスク算出用DB6ともいう)が記憶されている。
FIG. 3 is a diagram showing an example of a database stored in the
(補正パタンDB1)
補正パタンDB1は、書類の画像データを補正するための補正パタンが複数記憶されている。図4(a)は、補正パタンDB1に記憶されている情報の一例を示す図である。図4(a)に示すように、複数の補正パタンは、それぞれ1以上の補正を組み合わせて構成されている。例えば、補正パタン1は、補正1及び3を組み合わせて構成される。また、補正パタン2は、補正1、2及び4を組み合わせて構成される。また、補正パタン3は、補正1、2及び3を組み合わせて構成される。また、補正パタン4は、補正1、3及び5を組み合わせて構成される。また、補正パタン5は、補正1及び4を組み合わせて構成される。なお、補正パタンの数は5に限られず3以上であればよい。
(Correction pattern DB1)
The
また、補正1〜補正5は、例えば、それぞれ遠近法ワープ(台形補正)、明るさ補正、コントラスト補正、ガウス補正、ぼかし補正などである。なお、図4(a)に示す各補正パタンの補正の組み合わせはあくまで一例であり、各補正パタンをどのような補正で構成するかは任意である。また、補正は、補正1〜補正5の5つに限られない。
Further, the
(分類用DB2)
分類用DB2には、書類を分類するための情報が記憶されている。図4(b)は、分類用DB2に記憶されている情報の一例を示す図である。図4(b)に示すように、分類用DB2には、書類の種別ごとに特有のパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)が関連付けて記憶されている。なお、図4(b)に示すパタンマッチ用データやキーワードはあくまで一例であり、書類を分類するための情報として、どのようなパタンマッチ用データやキーワードとするかは任意である。後述の分類部206は、分類用DB2を参照し、文書の画像データにパタンマッチ用データやキーワードが含まれているが否かに基づいて、書類の画像データを分類する。
(DB2 for classification)
Information for classifying documents is stored in the
(項目マスタDB3)
項目マスタDB3には、取得する項目の情報が書類の種別ごとに記憶されている。図4(c)は、項目マスタDB3に記憶されている情報の一例を示す図である。図4(c)に示すように、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されている。なお、書類からどのような項目の情報を取得するかは任意である。
(Item master DB3)
The
(表記変更用DB4)
表記変更用DB4には、サーバ2が取得した対象者に関する情報の表記を所定の表記に変更するための情報が記憶されている。具体的には、表記変更用DB4には、ロジック処理用の情報及び第1,第2マスタ処理用の情報が記憶されている。
(DB4 for notation change)
The
ロジック処理用の情報は、表記を変更する対象(以下、処理摘要対象ともいう)である対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報である。図5(a)は、表記変更用DB4に記憶されているロジック処理用の情報の一例を示す図であり、処理摘要対象に処理ルールが対応づけられている。図5(a)に示す例では、処理摘要対象が「「数字(カンマ含む)x桁」+「千円」」となっている場合、「「数字(カンマ含む)x桁」+「,000」」に置換することが規定されている。例えば、図5(b)に示すように処理摘要対象が「1,000千円」である場合に、図5(a)に例示する処理ルールを適用すると、「1,000,000」に表記が変更される。
なお、図5(a)及び図5(b)に示す例は、あくまで一例であり、ロジック処理用の情報には、処理摘要対象と、該処理摘要対象に対する処理ルールの対応づけのパタンが種々含まれている。例えば、ロジック処理用の情報には、処理摘要対象が「「数字(カンマ含む)x桁」+「百万円」」となっている場合、「「数字(カンマ含む)x桁」+「,000,000」」に置換することが規定されていてもよい。また、逆に、表記が「1,000,000」である場合に「1,000千円」、「1,000,000,000」である場合に「1,000百万円」となるように処理ルールが規定されていてもよい。
The information for logic processing is information in which information about a target person whose notation is changed (hereinafter, also referred to as a processing description target) is associated with a processing rule for changing the notation of the information. FIG. 5A is a diagram showing an example of information for logic processing stored in the
The examples shown in FIGS. 5 (a) and 5 (b) are merely examples, and the information for logic processing has various patterns of associating the processing description target with the processing rule for the processing description target. include. For example, in the information for logic processing, if the processing description target is "number (including comma) x digit" + "million yen", "number (including comma) x digit" + ", It may be specified to replace with "000,000". On the contrary, the processing rule may be stipulated so that when the notation is "1,000,000", it is "1,000 thousand yen", and when it is "1,000,000,000", it is "1,000 million yen".
また、表記を変更する対象(以下、処理摘要対象ともいう)である対象者に関する情報として住所と、該住所の表記を変更する処理ルールとを関連付けた例について説明する。
例えば、住所の番地が「東京都港区赤坂5−5−5」とハイフンで表記されている場合、「東京都港区赤坂5丁目5−5」というように住所の最初のハイフンを「丁目」に変更する処理ルールを設けてもよい。なお、表記を統一するのが目的であるため、住所の表記が「東京都港区赤坂5丁目5−5」である場合に、「東京都港区赤坂5−5−5」とする処理ルールを設けてもよい。また、「東京都港区赤坂5−5−5」を「東京都港区赤坂5丁目5番5号」というように最初のハイフンを「丁目」、次のハイフンを「番」、次のハイフンを「号」に変更する処理ルールを設けてもよい。また、逆に「東京都港区赤坂5丁目5番5号」を「東京都港区赤坂5−5−5」とする処理ルールでもよい。
このように、ロジック処理用の情報は、処理摘要対象と、該処理摘要対象に対する処理ルールとを対応付けられた情報であり、該ロジック処理用の情報を参照することで、表記を所定の統一された表記に変更することができる。
Further, an example in which an address is associated with a processing rule for changing the notation of the address as information on a target person who is a target for which the notation is changed (hereinafter, also referred to as a processing summary target) will be described.
For example, if the address of the address is written as "5-5-5 Akasaka, Minato-ku, Tokyo" with a hyphen, the first hyphen of the address is "chome" such as "5-5-5 Akasaka, Minato-ku, Tokyo". You may provide a processing rule to change to. Since the purpose is to unify the notation, if the notation of the address is "5-5-5 Akasaka, Minato-ku, Tokyo", the processing rule is "5-5-5 Akasaka, Minato-ku, Tokyo". May be provided. In addition, the first hyphen is "chome", the next hyphen is "ban", and the next hyphen is "5-5-5 Akasaka, Minato-ku, Tokyo" as "5-5-5, Akasaka, Minato-ku, Tokyo". May be provided with a processing rule to change to "No.". On the contrary, the processing rule may be such that "5-5-5 Akasaka, Minato-ku, Tokyo" is set to "5-5-5 Akasaka, Minato-ku, Tokyo".
As described above, the information for logic processing is information in which the processing description target and the processing rule for the processing description target are associated with each other, and the notation is unified by referring to the information for logic processing. It can be changed to the written notation.
第1マスタ処理用の情報は、処理摘要対象である対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報である。図5(c)は、表記変更用DB4に記憶されている第1マスタ処理用の情報の一例を示す図であり、処理摘要対象に辞書データによる上書き処理内容が対応づけられている。図5(c)に示す例では、処理摘要対象が「「金額」項目内の文字が「戦円」」となっている場合、「「千円」」に上書きすることが規定されている。例えば、図5(d)に示すように処理摘要対象が「1,000戦円」である場合に、図5(d)に例示する処理内容を適用すると、「1,000千円」に誤記が変更される。なお、図5(c)及び図5(d)に示す例は、あくまで一例であり、第1マスタ処理用の情報には、処理摘要対象に辞書データによる上書き処理内容のパタンが種々含まれている。
The information for the first master processing is information in which the information about the target person who is the processing summary target and the content of the overwriting processing by the dictionary data of the information are associated with each other. FIG. 5C is a diagram showing an example of information for the first master processing stored in the
また、表記変更用DB4に、第1マスタ処理用の情報として、外字(ガイジ)を変更するための辞書データを格納してもよい。外字とは、IMEなどの文字入力ソフトに登録されていない文字であり、テキスト入力の際に変換しても表示できない文字である。外字を扱うためには外字エディタ等を利用する必要があるため、対象者に関する情報に外字が含まれている場合、外字をIMEなどの文字入力ソフトで扱える文字に変更することが好ましい。変更例を以下に示す。
変換前:「高」崎 太郎(「高」は梯子高)
変換後:高崎 太郎
上記の変更例では、「「高」(梯子高)」がIMEなどの文字入力ソフトに登録されている「高」に変更されている。
Further, the dictionary data for changing the external character (gaiji) may be stored in the
Before conversion: "Taka" Taro Saki ("Taka" is the height of the ladder)
After conversion: Taro Takasaki In the above change example, "high" (ladder height) is changed to "high" registered in character input software such as IME.
このように、表記変更用DB4に、外字(ガイジ)を変更するための辞書を格納し、対象者に関する情報に外字が含まれている場合、外字をIMEなどの文字入力ソフトで扱える文字に変更する構成としてもよい。 In this way, the dictionary for changing the external character (gaiji) is stored in the notation change DB4, and if the information about the target person contains the external character, the external character is changed to a character that can be handled by character input software such as IME. It may be configured to be used.
また、表記変更用DB4に、第1マスタ処理用の情報として、住所の誤記を修正するための辞書を格納してもよい。該辞書には、正規の住所の表記が格納される。ここで、正規の住所は、日本の行政区画に基づいて決められた都道府県名、都道府県名に含まれる市、区、村、郡などの名称を関連付けた情報であり、この情報を利用することで、住所の都道府県名に含まれる市、区、村、郡などの誤記を修正することができる。
例えば、対象者に関する情報として下記の修正前住所が取得された場合、赤坂は渋谷区ではなく港区であるため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所:東京都渋谷区赤坂3丁目3−3
修正後住所:東京都港区赤坂3丁目3−3
Further, the
For example, if the following uncorrected address is obtained as information about the target person, Akasaka is not Shibuya Ward but Minato Ward, so the address will be corrected as follows using the regular address stored in the dictionary. NS.
Address before correction: 3-3-3 Akasaka, Shibuya-ku, Tokyo
Corrected address: 3-3-3 Akasaka, Minato-ku, Tokyo
また、他の例を示すと、対象者に関する情報として下記の修正前住所が取得された場合、行政区画では大字は使用されないため、辞書に格納された正規の住所を利用して下記のように住所が修正される。
修正前住所:愛知県知多郡東浦町大字藤江字柳牛34−2
修正後住所:愛知県知多郡東浦町藤江柳牛34−2
このように、第1マスタ処理用の情報は、誤記となる表記と、該誤記に対する正しい表記とが種々対応付けられた情報であり、該第1マスタ処理用の情報を参照することで、誤記を正しい表記に修正することができる。
In addition, to show another example, if the following uncorrected address is obtained as information about the target person, large letters are not used in the administrative division, so the regular address stored in the dictionary is used as shown below. The address is corrected.
Address before correction: 34-2 Yagyu, Oaza Fujie, Higashiura-cho, Chita-gun, Aichi
Corrected address: 34-2 Fujie Yagyu, Higashiura-cho, Chita-gun, Aichi Prefecture
As described above, the information for the first master process is information in which the notation that is erroneous and the correct notation for the erroneous description are variously associated with each other, and by referring to the information for the first master process, the erroneous description is made. Can be corrected to the correct notation.
また、第2マスタ処理用の情報は、対象者に関する情報に含まれる不要な文字データを削除するための情報である。具体的には、第2マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報である。
このように、第2マスタ処理用の情報は、対象者に関する情報と、該情報に含まれる文字の情報とが対応付けられた情報であり、該第2マスタ処理用の情報を参照することで、該対象者に関する情報に含まれる文字以外の不要な文字データを認識して、該不要な文字データを削除することができる。
Further, the information for the second master process is information for deleting unnecessary character data included in the information about the target person. Specifically, the information for the second master processing is information about the target person and character information included in the information.
As described above, the information for the second master processing is the information in which the information about the target person and the information of the characters included in the information are associated with each other, and by referring to the information for the second master processing. , Unnecessary character data other than the characters included in the information about the target person can be recognized and the unnecessary character data can be deleted.
(対象者DB5)
対象者DB5には、対象者に関する情報が対象者IDに関連付けて記憶されている。具体的には、対象者DB5には、対象者の銀行口座(以下、単に口座ともいう)での取引情報(以下、単に口座取引情報ともいう)、や警察庁データ(例えば、犯罪履歴情報や反社会勢力情報)、割賦販売法・貸金業法信用情報機関データ(例えば、クレジットカード会社、収納代行会社(口座振替)による未納情報)などのいわゆるブラックリスト情報が対象者IDに関連付けて記憶されている。
ここで、対象者が個人の場合、氏名、住所、連絡先、個人の口座取引情報及びブラックリスト情報が対象者IDに関連付けて記憶されている。
また、対象者が法人の場合、法人の所在地、法人の連絡先、代表者の氏名、常任代理人の氏名、実質的支配者の氏名、代理人の氏名、法人の口座取引情報及び上記代表者、常任代理人、実質的支配者、代理人のブラックリスト情報が対象者IDに関連付けて記憶されている。
対象者に関する情報に、年齢、性別、住所、生年月日、本籍、SNS参考情報などを含めるようにしてもよい。「SNS参考情報」は、審査対象者による所定のSNSの投稿内容から本人情報の信頼性をチェックしたものである。
なお、対象者DB5に記憶される対象者に関する情報は、後述の取得部210により取得される
(Target person DB5)
Information about the target person is stored in the target person DB 5 in association with the target person ID. Specifically, the target person DB5 contains transaction information (hereinafter, also simply referred to as account transaction information) in the target person's bank account (hereinafter, also simply referred to as an account), police agency data (for example, criminal history information, etc.). So-called blacklist information such as (anti-social force information), installment sales method / money lending business method credit information agency data (for example, unpaid information by credit card company, storage agency (account transfer)) is stored in association with the target person ID. There is.
Here, when the target person is an individual, the name, address, contact information, personal account transaction information, and blacklist information are stored in association with the target person ID.
If the target person is a corporation, the location of the corporation, the contact information of the corporation, the name of the representative, the name of the standing proxy, the name of the beneficial owner, the name of the agent, the account transaction information of the corporation, and the above representative. , Standing proxy, beneficial owner, and proxy blacklist information are stored in association with the subject ID.
Information about the subject may include age, gender, address, date of birth, registered domicile, SNS reference information, and the like. The "SNS reference information" is a check of the reliability of the personal information from the content posted by the predetermined SNS by the examinee.
The information about the target person stored in the target person DB 5 is acquired by the
(リスク算出用DB6)
リスク算出用DB6には、対象者に関する情報から対象者が監視対象となるリスク(以下、単にリスクとも記載する)を算出するための情報が記憶されている。具体的には、リスク算出用DB6には、対象者DB5に記憶された対象者に関する情報の各項目の組み合わせ(条件)に対して設定されたリスク算出用スコア(以下、リスクスコアともいう)が複数記憶されている。
(DB6 for risk calculation)
The risk calculation DB 6 stores information for calculating the risk (hereinafter, also simply referred to as risk) for the target person to be monitored from the information about the target person. Specifically, the risk calculation DB 6 has a risk calculation score (hereinafter, also referred to as a risk score) set for each combination (condition) of information about the target person stored in the target person DB 5. Multiple are stored.
例えば、マネーロンダリング等の犯罪リスクを算出する場合に利用される項目には、以下の情報がある。
(1−1)取引期間
(1−2)取引金額
(1−3)取引頻度
(1−4)犯罪歴
(1−5)所在地(個人の場合は住所)
(1−6)口座へのアクセス履歴
図5(e)に条件及びリスクスコアの組み合わせの一例を示す。図5(e)に示す例では、「取引金額が1か月の期間に500万円以上 かつ 犯罪履歴有り」の場合に「リスクスコア」が「30」となることが示されている。
For example, the items used when calculating crime risk such as money laundering include the following information.
(1-1) Transaction period (1-2) Transaction amount (1-3) Transaction frequency (1-4) Criminal record (1-5) Location (address in the case of an individual)
(1-6) Access history to account Figure 5 (e) shows an example of a combination of conditions and risk scores. In the example shown in FIG. 5 (e), it is shown that the "risk score" is "30" when "the transaction amount is 5 million yen or more in a period of one month and there is a criminal history".
また、例えば、外国PEPs(外国の政府等において重要な地位を占める者(外国の国家元首等)とその地位にあった者、それらの家族および実質的支配者がこれらの者である法人)であるリスクを算出する場合に利用される項目には、以下の情報がある。
(2−1)外国人要人リスト
(2−2)顧客データ
(2−3)クローリングによるWEB情報
(2−4)その他対象者に関する種々の情報
上記(2−1)〜(2−4)の情報をもとに、対象者の名前、所在地、出身国、年齢を取引履歴、入出金履歴等を取得し、この取得した情報をもとに対象者が外国PEPsに該当するリスクを算出する。例えば、対象者が外国人要人リストと一致する場合には、外国PEPsに該当する非常に高いリスク(スコアが略100%となる)が算出される。
Also, for example, in foreign PEPs (persons who occupy important positions in foreign governments (heads of state of foreign countries, etc.) and those who were in that position, their families, and corporations whose beneficial owners are these persons). The items used to calculate a certain risk include the following information.
(2-1) List of foreign VIPs (2-2) Customer data (2-3) WEB information by crawling (2-4) Other various information about the target person (2-1) to (2-4) above Based on the information of, the target person's name, location, country of origin, age, transaction history, deposit / withdrawal history, etc. are acquired, and the risk that the target person corresponds to foreign PEPs is calculated based on this acquired information. .. For example, if the subject matches the list of foreign dignitaries, a very high risk (score is approximately 100%) corresponding to foreign PEPs is calculated.
CPU200Cは、サーバ2を制御し、図示しないROM(Read Only Memory)及びRAM(Random Access Memory)を備えている。
The
図6に示すように、サーバ2は、受信部201、送信部202、記憶装置制御部203、補正部204、認識部205、分類部206、判定部207、探索部208、結合部209、取得部210、表記変更部211、統合部212、算出部213などの機能を有する。なお、図6に示す機能は、サーバ2のROM(不図示)に記憶された情報処理プログラムをCPU200Cが実行することにより実現される。
As shown in FIG. 6, the
受信部201は、外部から送信される情報、例えば、対象者に関する情報を受信する。
The receiving
送信部202は、情報を外部へ送信する。
The
記憶装置制御部203は、記憶装置200Bを制御する。具体的には、記憶装置制御部203は、記憶装置200Bを制御して情報の書き込みや読み出しを行う。
The storage
補正部204は、書類の画像データを、補正パタンDB1に記憶されている複数の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する複数の補正後の画像を生成する。具体的には、補正部204は、画像データを補正パタン1で補正した補正後画像データ1を生成する。また、補正部204は、画像データを補正パタン2で補正した補正後画像データ2を生成する。また、補正部204は、画像データを補正パタン3で補正した補正後画像データ3を生成する。また、補正部204は、画像データを補正パタン4で補正した補正後画像データ4を生成する。また、補正部204は、画像データを補正パタン5で補正した補正後画像データ5を生成する。
The
認識部205は、書類の画像データから文字を認識する。ここで、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部205は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。また、認識部205は、認識した文字に位置情報を付与する。なお、位置情報は、書類の左上をゼロ点としたXY座標により表され、書類に向かって横方向がX軸(右方向が正)、縦方向がY軸(下方向が正)となっている。なお、座標を表す数値に画素数を利用してもよい。また、書類のどの位置をゼロ点とするかは任意である。また、座標を表す数値に画素数以外の数値を利用してもよい。
The
なお、認識部205は、書類の画像データから文字を認識する際、認識した文字の位置情報(座標)が横方向(X軸)又は縦方向(Y軸)において所定距離内である場合(例えば、文字の位置を示す座標が重なっている場合)、一続きの言葉を構成する文字であると認識し、認識した文字の位置情報(座標)が横方向(X軸)又は縦方向(Y軸)において所定距離より離れている場合(例えば、文字の位置を示す座標が重なっている場合)、一続きの言葉を構成する文字でなく別の文字又は言葉を構成する文字であると認識する。なお、文字の位置を示す座標が重なっているとは、例えば、「言葉」の文字が書類上に横方向(X軸)に記載されている場合、「言」の文字の右端の位置座標が、「葉」の文字の左端の位置座標よりも横方向(X軸)において右側に存在する場合、換言すると、「葉」の文字の左端の位置座標が、「言」の文字の右端の位置座標よりも横方向(X軸)において左側に存在する場合をいう。また、例えば、「言葉」の文字が書類上に縦方向(Y軸)に記載されている場合、「言」の文字の下端の位置座標が、「葉」の文字の上端の位置座標よりも縦方向(Y軸)において下側に存在する場合、換言すると、「葉」の文字の上端の位置座標が、「言」の文字の下端の位置座標よりも縦方向(X軸)において上側に存在する場合をいう。
When the
分類部206は、分類用DB2を参照し、書類の画像データを分類する。具体的には、分類部206は、分類用DB2を参照し、書類の種別ごとに用意されたパタンマッチ用データやキーワードが存在するか否かに応じて、画像データのもととなった書類を分類する。分類部206は、分類した情報(書類の種別情報)を書類の画像データに付与する。
The
判定部207は、取得する項目の情報が書類の種別ごとに記憶された項目マスタDB3を参照し、認識部205が認識した文字に項目が存在するか否かを、項目ごとに判定する。
The
探索部208は、判定部207が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部205が認識した文字から探索する。ここで、探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。
When there is an item that the
結合部209は、探索部208により探索された書類の画像データ上の文字を項目として認識可能なようにデータ的に結合する。
The joining
取得部210は、ネットワーク4を介して接続された他のシステムのサーバやユーザ端末3から対象者に関する情報を取得する。なお、取得部210は、種々の情報源から種々の手法を利用して対象者に関する情報を取得する。
「種々の情報源」には、例えば、警察庁データ、割賦販売法・貸金業法信用情報機関データなどが含まれる。
「種々の手法」には、例えば、クローリング(WEBサイト上の情報を取得する技術)、OCR(Optical Character Recognition)、他のシステムとのAPI(Application Programming Interface)連携などの他、ユーザ端末3を利用して入力された情報などが含まれる。
The
"Various information sources" include, for example, National Police Agency data, installment sales method / money lending business law credit information agency data, and the like.
"Various methods" include, for example, crawling (technology for acquiring information on a WEB site), OCR (Optical Character Recognition), API (Application Programming Interface) linkage with other systems, and
なお、取得部210は、対象者に関する情報が画像データである場合、探索部208での探索結果に応じて、各文字に対応する文字を対象者に関する情報として取得する。具体的には、取得部210は、項目に対応する文字を、項目ごとに取得する。より具体的には、取得部210は、項目の第1側(本実施形態では右側)に存在する次の項目(次項目)までの文字又は改行までの文字を項目に対応する文字として取得する。また、取得部210は、項目の第1側(本実施形態では右側)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側)に存在する次の項目(次項目)までの文字又は改行までの文字を、項目に対応する文字を対象者に関する情報として取得する。
When the information about the target person is image data, the
表記変更部211は、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。具体的には、表記変更部211は、表記変更用DB4を参照し、表記変更用DB4に記憶されているロジック処理用の情報及び第1,第2マスタ処理用の情報に基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。
The
統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を統合する。具体的には、統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複しない項目を抽出して対象者に関する情報とする。また、統合部212は、重複する項目については、最も多い記載を重複する項目に対応する情報として選択する。
The
算出部213は、統合部212で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。具体的には、算出部213は、対象者DB5に記憶された対象者に関する情報の各項目に対応する情報を組み合わせて、リスク算出用DB6に記憶された条件を満たすか否かを判定し、満たす場合に該条件に対応付けられたリスクスコアを該対象者のリスクとする。
The
(ユーザ端末3)
図7は、実施形態に係るユーザ端末3のハード構成及び機能構成の一例を示す図である。図7(a)は、ユーザ端末3のハード構成の一例を示す図、図7(b)は、ユーザ端末3の機能構成の一例を示す図である。ユーザ端末3は、PC(Personal Computer)や携帯端末(例えば、タブレット端末)などである。図7(a)に示すように、ユーザ端末3は、通信IF300A、記憶装置300B、入力装置300C、表示装置300D、CPU300Eなどを備える。
(User terminal 3)
FIG. 7 is a diagram showing an example of a hardware configuration and a functional configuration of the
通信IF300Aは、他の装置(実施形態では、サーバ2)と通信するためのインターフェースである。
The communication IF 300A is an interface for communicating with another device (
記憶装置300Bは、例えば、HDD(Hard Disk Drive)や半導体記憶装置(SSD(Solid State Drive))である。記憶装置300Bには、ユーザ端末3の識別子(ID)及び情報処理プログラムなどが記憶されている。なお、識別子は、サーバ2がユーザ端末3に対して新たに付与してもよいし、IP(Internet Protocol)アドレス、MAC(Media Access Control)アドレスなどを利用してもよい。
The
入力装置300Cは、例えば、キーボード、タッチパネルなどであり、入力装置300Cを操作して、情報処理システム1の利用に必要な情報(例えば、対象者に関する情報(画像データを含む))を入力することができる。
The
表示装置300Dは、例えば、液晶モニタや有機ELモニタなどである。表示装置300Dは、情報処理システム1の利用に必要な画面(例えば、対象者に関する情報を入力するための画面(画像データを含む)、サーバ2により算出された対象者のリスクを提示する画面など)を表示する。
The
CPU300Eは、ユーザ端末3を制御するものであり、図示しないROM及びRAMを備えている。
The
図7(b)に示すように、ユーザ端末3は、受信部301、送信部302、記憶装置制御部303、操作受付部304、表示装置制御部305などの機能を有する。なお、図7(b)に示す機能は、CPU300Eが、記憶装置300Bに記憶されている情報処理プログラムを実行することで実現される。
As shown in FIG. 7B, the
受信部301は、サーバ2から送信される情報を受信する。
The receiving
送信部302は、入力装置300Cを利用して入力された情報に識別子を付与してサーバ2へ送信する。ユーザ端末3から送信される情報に識別子を付与することでサーバ2は、受信した情報がどのユーザ端末3から送信されたものであるかを認識できる。
The
記憶装置制御部303は、記憶装置300Bを制御する。具体的には、記憶装置制御部303は、記憶装置300Bを制御して情報の書き込みや読み出しを行う。
The storage
操作受付部304は、入力装置300Cでの入力操作を受け付ける。例えば、対象者の関する情報の入力操作(画像データの入力操作を含む)を受け付ける。
The
表示装置制御部305は、表示装置300Dを制御する。具体的には、表示装置制御部305は、表示装置300Dを制御して実施形態に係る情報処理システム1の利用に必要な画面(例えば、対象者に関する情報を入力するための画面(画像データを含む)、サーバ2により算出された対象者のリスクを提示する画面など)を表示させる。
The display
(情報処理方法)
図8は、実施形態に係るサーバのリスク算出処理の一例を示すフローチャートである。
(Information processing method)
FIG. 8 is a flowchart showing an example of the risk calculation process of the server according to the embodiment.
(ステップS101)
サーバ2の取得部210は、2以上の情報源から対象者に関する情報を取得する。
(Step S101)
The
(ステップS102)
サーバ2の取得部210は、取得した対象者に関する情報がテキストデータであるか否か、換言すると画像データであるか否かを判定する。画像データである場合(YES)、サーバ2は、ステップ103の処理を実行する。画像データでない場合(NO)、換言するとテキストデータである場合、サーバ2は、ステップ104の処理を実行する。
(Step S102)
The
(ステップS103)
サーバ2は、文字認識処理を実行する。なお、文字認識処理の詳細は後述する。
(Step S103)
The
(ステップS104)
サーバ2の表記変更部211は、表記変更用DB4を参照し、表記変更用DB4に記憶されているロジック処理用の情報及び第1,第2マスタ処理用の情報に基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。
(Step S104)
The
(ステップS105)
サーバ2の統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を統合する。なお、統合部212の動作の詳細は、後述の図9を参照して説明する。
(Step S105)
The
(ステップS106)
算出部213は、算出部213は、統合部212で統合された対象者に関する情報に基づいて、対象者のリスクを算出する。なお、算出部213の動作の詳細は説明したので重複する説明は省略する。
(Step S106)
The
(ステップS107)
送信部202は、算出部213で算出されたリスクを該リスクの算出対象となった対象者の情報(例えば、氏名、法人名など)とともに出力する。出力されたリスク及び対象者の情報は、ユーザ端末3の受信部301で受信され、ユーザ端末3の表示装置制御部303により表示装置300Dに表示される。なお、算出部213で算出されたリスク及び対象者の情報を出力する際に、リスクが所定値以上である場合、監視対象となる旨とともにリスク及び対象者の情報を出力し、リスクが所定値未満である場合、監視対象とならない旨とともにリスク及び対象者の情報を出力してもよい。また、リスクが所定値以上となった場合にのみ、リスク及び対象者の情報を出力してもよいし、監視対象となる旨とともにリスク及び対象者の情報を出力してもよい。
(Step S107)
The
図9(a)は、実施形態に係るサーバの表記変更部211による表記変更の一例を示す図である。図9(a)では、表記変更部211が金額の表記を所定の表記に変更する例を示している。図9(a)に示すように、表記変更部211は、表記変更用DB4に記憶された第1マスタ処理用の情報に基づいて誤記を訂正する(図9(a)の例では「戦」の文字を「千」にしている)。また、表記変更部211は、表記変更用DB4に記憶された第2マスタ処理用の情報に基づいて不要な文字を削除する(図9(a)の例では「*税別」の文字が削除されている)。次いで、表記変更部211は、表記変更部211は、表記変更用DB4のロジック処理用の情報に基づいて単位を統一する。
FIG. 9A is a diagram showing an example of notation change by the
図9(b)及び図9(c)は、実施形態に係るサーバ2の統合部212による情報統合の一例を示す図である。図9(b)は、統合部212による統合前の対象者に関する情報、図9(c)は、統合部212による統合後の対象者に関する情報である。図9(b)及び図9(c)に示すように、統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに統合する。具体的には、統合部212は、各項目の情報を表記変更部211で所定の表示に変更された対象者に関する情報から取得し、重複する項目については、最も多い記載を重複する項目に対応する情報として選択して、種々の情報源から取得された対象者に関する情報を統合する。
9 (b) and 9 (c) are diagrams showing an example of information integration by the
(情報処理方法)
図10は、実施形態に係るサーバの文字認識処理の一例を示すフローチャートである。
(Information processing method)
FIG. 10 is a flowchart showing an example of the character recognition process of the server according to the embodiment.
(ステップS201)
サーバ2の補正部204は、補正パタンDB1を参照し、文書の画像データを補正する。具体的には、補正部204は、書類の画像データを、補正パタンDB1に記憶されている複数の補正パタン(各補正パタンには、各々1以上の異なる補正が含まれている)により補正し、各補正パタンに対応する複数の補正後の画像を生成する。
(Step S201)
The
(ステップS202)
サーバ2の認識部205は、書類の画像データから文字を認識する。具体的には、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。次いで、認識部205は、複数の補正後の画像データから認識した文字のうち最も多いものを選択し、認識した文字とする。
(Step S202)
The
図11は、認識部205による文字認識の一例を示す図である。図11に示すように、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識する。図11に示す例では、補正パタン1、3及び5では、認識結果が「山田太郎」となっている。また、補正パタン2では、認識結果が「山田大郎」となっている。また、補正パタン3では、認識結果が「認識不可」、すなわち文字を認識することができなかったとなっている。認識部205は、複数の補正後の画像データから認識した文字のうち最も多いもの、図11に示す例では「山田太郎」を選択し、認識した文字として決定する。なお、認識した文字のうち最も多いものがない場合(例えば、補正パタン1〜5の判定結果がそれぞれ2、2、2、2、1の場合)は、再度、ステップS202の処理を行ってもよいし、補正パタンを変更してステップS202の処理を行ってもよい、また、読み取れなったとして報知(エラーを出力)するようにしてもよい。
FIG. 11 is a diagram showing an example of character recognition by the
(ステップS203)
サーバ2の認識部205は、認識した文字に位置情報を付与する。図12は、認識部205による位置情報付与の一例を示す図である(図中の破線、矢印、Top、Left、Bottom、Rightの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない)。図12(a)は、認識対象である書類の画像データの一例、図12(b)は、図12(a)を認識した文字に付与された位置情報の一例である。図12に示すように、認識部205は、書類の左上をゼロ点としたXY座標により表される位置情報を認識した文字に付与する。図12(b)に示す例では、Topは文字の上端、Leftは文字の左端、Bottomは、文字の下端、Rightは文字の右端、Wordは認識した文字である。なお、上述したように、本実施形態では、位置情報は書類の左上をゼロ点としたXY座標により表され、座標の数値には画素数が利用されている。
(Step S203)
The
上記のようにして、認識部205は、画像データに含まれる全ての文字を認識し、認識した文字に、書類の左上をゼロ点としたXY座標により表される位置情報を付与する。なお、図12に示す例では、文字の上端(Top)、左端(Left)、下端(Bottom)、右端(Right)は、実際の文字から離れた位置となっているが、これは認識した文字のフォントサイズに応じて文字の上端(Top)、左端(Left)、下端(Bottom)、右端(Right)が決定されるためである。また、本実施形態では、文字の位置情報を上端(Top)、左端(Left)、下端(Bottom)、右端(Right)で示しているが、文字の左上及び右下のそれぞれのX軸及びY軸の位置座標、又は文字の右上及び左下のそれぞれのX軸及びY軸の位置座標で文字の位置を示すようにしてもよい。
As described above, the
(ステップS204)
分類部206は、分類用DB2を参照し、書類の画像データを分類する。具体的には、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定する。認識部205で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、分類部206は、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類する。また、分類部206は、分類した情報(書類の種別情報)を書類の画像データに付与する。
(Step S204)
The
(ステップS205)
判定部207は、項目マスタDB3を参照し、分類部206で分類された書類の種別に対応する項目が存在するか否かを項目ごとに判定する。判定部207が存在すると判定しない項目がある場合(YES)、サーバ2は、ステップS206の処理へ移行する。また、判定部207が存在すると判定しない項目がない場合(NO)、サーバ2は、ステップS208の処理へ移行する。
(Step S205)
The
(ステップS206)
探索部208は、判定部207により存在しないとされた項目を構成する各文字を認識部205が認識した文字から探索する。ここで、探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。
(Step S206)
The
図13は、探索部208による探索の一例を示す図である(図中の破線、矢印、Top、Left、Bottom、Rightの文字は、説明のために図示したものであり、実際の画像データとして存在するものではない)。図13(a)は、探索部208による横方向(X座標)探索の一例を示す図である。図13(a)に示すように「氏名」の項目が、横方向(X軸方向)に所定間隔以上離れて配置されている場合、「氏」の文字と「名」の文字とがそれぞれ単独で読み取られるため、「氏名」の項目が書類上に存在するにも関わらず「氏名」の項目として認識することができない。そこで、探索部208は、「氏名」の項目を構成する各文字のうちの1文字である「氏」を起点とした所定範囲内に「氏名」の項目を構成する他の文字である「名」が存在するか探索する。より具体的には、探索部208は、「氏」の文字のY座標内のX軸線上に連続して「名」の文字が存在するかを探索する。
FIG. 13 is a diagram showing an example of a search by the search unit 208 (the characters of the broken line, arrow, Top, Left, Bottom, and Right in the figure are shown for explanation and are used as actual image data. Does not exist). FIG. 13A is a diagram showing an example of a lateral (X coordinate) search by the
なお、文字が横方向(X軸方向)に並んで配置されているか否かの判断は、認識部205が認識した文字の上端(図13(a)の「Top」の位置)又は下端(図13(a)の「Bottom」の位置)を基準としてもよい。具体的には、横方向(X軸方向)に所定間隔離れた各文字(図13(a)に示す例では「氏」及び「名」)の上端Top又は下端BottomのY座標の値(ゼロ点からの画素数)の差が所定範囲内(例えば、±20画素)であれば文字が横方向(X軸方向)に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから横方向(X軸方向)に所定間隔離れた各文字(図13(a)に示す例では「氏」及び「名」)の上端Top又は下端BottomのY座標の値(ゼロ点からの画素数)の差が所定範囲内であれば文字が横方向(X軸方向)に並んで配置されていると判定することができる。
Whether or not the characters are arranged side by side in the horizontal direction (X-axis direction) is determined by the upper end (position of "Top" in FIG. 13A) or the lower end (FIG. 13) of the characters recognized by the
図13(b)は、探索部208による縦方向(Y座標)探索の一例を示す図である。図13(b)に示すように「記号」の項目が、縦方向(Y軸方向)に配置されている場合、「記」の文字と「号」の文字とがそれぞれ単独で読み取られるため、「記号」の項目が書類上に存在するにも関わらず「記号」の項目として認識することができない。そこで、探索部208は、「記号」の項目を構成する各文字のうちの1文字である「記」を起点とした所定範囲内に「記号」の項目を構成する他の文字である「号」が存在するか探索する。より具体的には、探索部208は、「記」の文字のX座標内のY軸線上に連続して「号」の文字が存在するかを探索する。
FIG. 13B is a diagram showing an example of a vertical direction (Y coordinate) search by the
なお、文字が縦方向(Y軸方向)に並んで配置されているか否かの判断は、認識部205が認識した文字の左端(図13(b)の「Left」の位置)又は右端(図13(b)の「Right」の位置)を基準としてもよい。具体的には、縦方向(Y軸方向)に所定間隔離れた各文字(図13(b)に示す例では「記」及び「号」)の左端L又は右端RのZ座標の値(ゼロ点からの画素数)の差が所定範囲内(例えば、±20画素)であれば文字が縦方向(Y軸方向)に並んで配置されていると判定するようにしてもよい。項目を構成する文字同士であれば、通常、同じフォント及びサイズであると考えられることから縦方向(Y軸方向)に所定間隔離れた各文字(図13(b)に示す例では「記」及び「号」)の左端L又は右端RのX座標の値(ゼロ点からの画素数)の差が所定範囲内であれば文字が縦方向(Y軸方向)に並んで配置されていると判定することができる。
Whether or not the characters are arranged side by side in the vertical direction (Y-axis direction) is determined by the left end (position of "Left" in FIG. 13B) or the right end (FIG. 13) of the characters recognized by the
以上のように、探索部208は、各文字のうちの1文字を起点として横方向(Z軸方向)及び縦方向(Y軸方向)に項目を構成する他の文字が存在するか探索する。具体的には、項目を構成する各文字のうちの最初の1文字のY座標内のX軸線上に連続して、項目を構成する他の文字が存在するかを探索する。探索部208は、項目を構成する各文字のうちの最初の1文字のY座標内のX軸線上に連続して、項目を構成する他の文字が存在しない場合、項目を構成する各文字のうちの最初の1文字のX座標内のY軸線上に連続して、項目を構成する他の文字が存在するかを探索する。
As described above, the
(ステップS207)
結合部209は、探索部208により探索された書類の画像データ上の文字を、項目として認識可能なようにデータ的に結合する。より具体的には、結合部209は、探索部208により探索された文字を結合して、項目として認識できるようにデータ的に結合する処理を行う。図14は、結合部209による横方向の文字の結合の一例を示す図である(図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない)。図14(a)は、結合前の文字の画像データの一例を示す図である。図14(b)は、認識部205で認識された「氏」及び「名」の文字に各々付与された位置情報の一例である。図14(c)は、結合部209による結合後の文字の画像データの一例を示す図である。図14(d)は、結合後の「氏名」の文字に付与された位置情報の一例である。図14(c)及び図14(d)に示すように結合部209は、「氏」の左端(Left)の位置情報を「氏名」の左端(Left)の位置情報とし、「名」の右端(Right)の位置情報を「氏名」の右端(Right)の位置情報とすることで、「氏」「名」の文字を一つの項目「氏名」として認識可能なようにデータ的に結合する。
(Step S207)
The joining
図15は、結合部209による縦方向の文字の結合の一例を示す図である(図中の破線は説明のために図示したものであり、実際の画像データとして存在するものではない)。図15(a)は、結合前の文字の画像データの一例を示す図である。図15(b)は、認識部205で認識された「記」及び「号」の文字に各々付与された位置情報の一例である。図15(c)は、結合部209による結合後の文字の画像データの一例を示す図である。図15(d)は、結合後の「記号」の文字に付与された位置情報の一例である。図15(c)及び図15(d)に示すように結合部209は、「記」の上端(Top)の位置情報を「記号」の上端(Top)の位置情報とし、「号」の下端(Bottom)の位置情報を「記号」の下端(Bottom)の位置情報とすることで、「記」「号」の文字を一つの項目「記号」として認識可能なようにデータ的に結合する。
このように、結合部209は、探索部208により探索された文字を結合し、一つの情報として取り扱うことができるように結合処理を行う。
FIG. 15 is a diagram showing an example of joining characters in the vertical direction by the joining portion 209 (the broken line in the figure is shown for illustration purposes and does not exist as actual image data). FIG. 15A is a diagram showing an example of image data of characters before joining. FIG. 15B is an example of the position information given to the characters “Note” and “No.” recognized by the
In this way, the joining
(ステップS208)
取得部210は、各項目に対応する文字を取得する。具体的には、取得部210は、項目の第1側(本実施形態では右側)に存在する次の項目(次項目)又は改行までの文字を項目に対応する文字として取得する(図14に示す例では「山田太郎」の文字、図15に示す例では「201375」の文字)。また、取得部210は、項目の第1側(本実施形態では右側:横書きに対応)の所定範囲内に文字(項目を構成する文字を除く)が存在しない場合、項目の第1側とは異なる第2側(本実施形態では下側:縦書きに対応)に存在する次の項目(次項目)又は改行までの文字を、項目に対応する文字として取得する。
(Step S208)
The
なお、取得部210は、分類部206で分類された処理の種別に応じて、項目の第1側(本実施形態では右側)に存在する文字を項目に対応する文字として取得するか、項目の第2側(本実施形態では下側:縦書きに対応)に存在する文字を項目に対応する文字として取得するかを決定するようにしてもよい。この場合、縦書きの書類であるか横書きの書類であるかを書類の種別に対応して分類用DB2に記憶しておき、取得部210は、分類用DB2を参照し、分類部206で分類された処理の種別に応じて、項目の第1側(本実施形態では右側)に存在する文字を項目に対応する文字として取得するか、項目の第2側(本実施形態では下側:縦書きに対応)に存在する文字を、項目に対応する文字として取得するかを決定するようにしてもよい。
In addition, the
以上のように、実施形態に係るサーバ2は、2以上の情報源から対象者に関する情報を取得する取得部210と、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する表記変更部211と、表記変更部211で所定の表示に変更された対象者に関する情報を統合する統合部212と、統合部212で統合された対象者に関する情報に基づいて、対象者が監視対象となるリスクを算出する算出部213とを備える。このため、多くの情報に基づいて対象者のリスクを算出することができ利便性が向上する。
As described above, the
また、実施形態に係るサーバ2の表記変更部211は、表記変更用DB4に記憶された対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報(ロジック処理用の情報)を参照し、前記処理ルールに基づいて、取得部210で取得された対象者に関する情報の表記を所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報を正確に統合することができる。
Further, the
また、実施形態に係るサーバ2の表記変更部211は、表記変更用DB4に記憶された対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報(第1マスタ処理用の情報)を参照し、前記処理内容に基づいて、取得部210で取得された対象者に関する情報の表記を前記所定の表記に変更する。このため、種々の情報源から取得された対象者に関する情報をより正確に統合することができる。
Further, the
また、実施形態に係るサーバ2の統合部212は、表記変更部211で所定の表示に変更された対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を重複する項目に対応する情報として選択する。このため、種々の情報源から取得された対象者に関する情報を統合する際の正確性を向上することができる。
Further, the
また、実施形態に係るサーバ2の算出部213は、リスク算出用DB6に記憶された対象者に関する情報の各項目の組み合わせに対して設定されたリスクスコアに基づいて、対象者が監視対象となるリスクを算出する。このため、項目ごとにリスクレートを変更することで、対象者が監視対象となるリスクの算出を柔軟に変更することができ、利便性が向上する。
Further, the
また、実施形態に係るサーバ2は、書類の画像から文字を認識する認識部205と、書類から取得する項目の情報を参照し、認識部205が認識した文字に項目が存在するか否かを判定する判定部207と、判定部207が存在すると判定しない項目がある場合、該項目を構成する各文字を認識部205が認識した文字から探索する探索部208と、探索部208により探索された各文字を項目として認識可能に処理する結合部209と、各項目に対応する文字を対象者に関する情報として取得する取得部210とを備える。このため、文書を効果的に読み取ることができ、文書の文字認識率が向上する。
Further, the
また、本実施形態に係るサーバ2の探索部208は、各文字のうちの1文字を起点とした所定範囲内に項目を構成する他の文字が存在するか探索する。このように所定範囲内を探索するため、離れた箇所に存在する文字を間違って項目を構成する文字として認識することがない。このため、項目に対応する情報を間違って取得する虞を低減することができる。
Further, the
また、本実施形態に係るサーバ2の取得部210は、項目の第1側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報を間違って取得する虞を低減することができる。
Further, the
また、本実施形態に係るサーバ2の取得部210は、項目の第1側の所定範囲内に文字が存在しない場合、項目の第1側とは異なる第2側に存在する文字を、項目に対応する文字として取得する。このため、項目に対応する情報をより効果的に取得することができる。
Further, when the character does not exist within the predetermined range on the first side of the item, the
また、本実施形態に係るサーバ2は、書類の画像を複数の補正パタンにより補正し、各補正パタンに対応する複数の補正後の画像を生成する補正部204を備えている。そして、認識部205は、補正部204で生成された各補正パタンに対応する複数の補正後の画像から文字を認識し、複数の補正後の画像から認識した文字のうち最も多いものを選択する。このため、文字を誤って読み取る確率及び文字を読み取れない確率の少なくとも一方を低減することができ、文字認識の正答率が向上する。
Further, the
また、本実施形態では、補正パタンは、各々1以上の異なる補正を含んでいる。このように1以上の異なる補正を組み合わせているので、文字を誤って読み取る確率や文字を読み取れない確率の少なくとも一方をより低減することができ、文字認識の正答率が更に向上する。 Also, in this embodiment, the correction patterns each include one or more different corrections. Since one or more different corrections are combined in this way, at least one of the probability of erroneously reading a character and the probability of not being able to read a character can be further reduced, and the correct answer rate of character recognition is further improved.
[実施形態の変形例1]
上記実施形態では、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部205で認識された文字に、用意されたパタンマッチ用データ又はキーワードのいずれか一つが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類している。
[
In the above embodiment, the
しかしながら、分類部206は、分類用DB2を参照し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが存在するか否か書類の種別ごとに判定し、認識部205で認識された文字に、用意されたパタンマッチ用データやキーワードが最も多く含まれている種別に書類の画像データを分類するようにしてもよい。
However, the
また、分類用DB2に、書類の種別ごとに含まれていてはいけないパタンマッチ用データ(画像データや特徴点データ(例えば、印章の画像データや特徴点データなど))やキーワード(KW)を記憶し、認識部205で認識された文字に、該含まれていてはいけないパタンマッチ用データやキーワードが含まれている場合、書類の画像データを、該パタンマッチ用データ又はキーワードに対応する種別に分類しないようにしてもよい。
In addition, pattern matching data (image data, feature point data (for example, image data of seals, feature point data, etc.)) and keywords (KW) that should not be included for each type of document are stored in the classification DB2. If the characters recognized by the
[実施形態の変形例2]
また、上記実施形態では、項目マスタDB3には、書類の種別ごとに取得する情報の項目が関連付けて記憶されているが、書類の種別ごとに取得する情報の項目の名称に、統一された項目の名称を関連付けて記憶するようにしてもよい。書類の種別によって同じ内容であるにも関わらず項目の名称が異なる場合がある。例えば、ある種別の書類では項目が「氏名」となっているが、他の種別の書類では項目が「名前」となっていることが考えられる。また、ある種別の書類では項目が「住所」となっているが、他の種別の書類では項目が「住まい」となっていることが考えられる。
[
Further, in the above embodiment, the
このような場合に、項目マスタDB3に、書類の種別ごとに取得する情報の項目の名称(例えば「住所」や「住まい」)に、統一された項目の名称(例えば「住所」)を関連付けて記憶し、項目に対応する文字に統一された項目の情報を付与するようにしてもよい。このように構成することで、書類の種別により異なる項目の名称を統一して管理することができ、例えば、検索や名寄せ等、データ利用の利便性が向上する。 In such a case, in the item master DB3, the name of the item of the information to be acquired for each type of document (for example, "address" or "house") is associated with the unified name of the item (for example, "address"). It may be memorized and the unified item information may be added to the characters corresponding to the items. With this configuration, the names of different items can be unified and managed depending on the type of document, and the convenience of data use such as search and name identification is improved.
1 情報処理システム
2 サーバ(情報処理装置)
200A 通信IF
200B 記憶装置
200C CPU
201 受信部
202 送信部
203 記憶装置制御部
204 補正部
205 認識部
206 分類部
207 判定部
208 探索部
209 結合部
210 取得部
211 表記変更部
212 統合部
213 算出部
3 ユーザ端末
300A 通信IF
300B 記憶装置
300C 入力装置
300D 表示装置
300E CPU
301 受信部
302 送信部
303 記憶装置制御部
304 操作受付部
305 表示装置制御部
4 ネットワーク
DB1 補正パタンデータベース
DB2 分類用データベース
DB3 項目マスタデータベース
DB4 表記変更用データベース
DB5 対象者データベース
DB6 リスク算出用データベース
1
200A communication IF
301
Claims (8)
前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部と、
前記表記変更部で所定の表示に変更された前記対象者に関する情報を統合する統合部と、
前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部と、を備え、
前記統合部は、
前記表記変更部で所定の表示に変更された前記対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を前記重複する項目に対応する情報として選択する、
ことを特徴とする情報処理装置。 An acquisition department that acquires information about the target person from two or more sources,
A notation change unit that changes the notation of information about the target person acquired by the acquisition unit to a predetermined notation, and a notation change unit.
An integrated unit that integrates information about the target person whose display has been changed to a predetermined display in the notation changing unit, and an integrated unit.
A calculation unit for calculating the risk of the target person being monitored based on the information about the target person integrated in the integration unit is provided .
The integrated part is
The information about the target person whose display has been changed to a predetermined display is collated for each item in the notation change unit, and the most frequently described items are selected as the information corresponding to the duplicated items for the duplicated items.
An information processing device characterized by this.
前記対象者に関する情報と、該情報の表記を変更する処理ルールとを関連付けた情報を参照し、前記処理ルールに基づいて、前記取得部で取得された前記対象者に関する情報の表記を前記所定の表記に変更する、
ことを特徴とする請求項1に記載の情報処理装置。 The notation change part
With reference to the information relating the information about the target person and the processing rule for changing the notation of the information, the notation of the information about the target person acquired by the acquisition unit is defined as the predetermined information based on the processing rule. Change to notation,
The information processing apparatus according to claim 1.
前記対象者に関する情報と、該情報の辞書データによる上書き処理内容とを関連付けた情報を参照し、前記処理内容に基づいて、前記取得部で取得された前記対象者に関する情報の表記を前記所定の表記に変更する、
ことを特徴とする請求項1又は請求項2に記載の情報処理装置。 The notation change part
With reference to the information relating the information about the target person and the overwriting processing content by the dictionary data of the information, the notation of the information about the target person acquired by the acquisition unit based on the processing content is described as defined above. Change to notation,
The information processing apparatus according to claim 1 or 2, wherein the information processing device is characterized by the above.
前記対象者に関する情報の各項目の組み合わせに対して設定されたリスクスコアに基づいて、前記対象者が監視対象となるリスクを算出する、
ことを特徴とする請求項1乃至請求項3のいずれかに記載の情報処理装置。 The calculation unit
Based on the risk score set for each combination of information about the subject, the risk for which the subject is monitored is calculated.
The information processing apparatus according to any one of claims 1 to 3, wherein the information processing apparatus is characterized.
書類から取得する項目の情報を参照し、前記認識部が認識した文字に前記項目が存在するか否かを判定する判定部と、
前記判定部が存在すると判定しない項目がある場合、該項目を構成する各文字を前記認識部が認識した文字から探索する探索部と、を備え、
前記取得部は、
前記探索部での探索結果に応じて、前記各文字に対応する文字を前記対象者に関する情報として取得する、
ことを特徴とする請求項1乃至請求項4のいずれかに記載の情報処理装置。 A recognition unit that recognizes characters from image data,
A determination unit that refers to the information of the item acquired from the document and determines whether or not the item exists in the character recognized by the recognition unit.
When there is an item for which it is not determined that the determination unit exists, a search unit for searching each character constituting the item from the characters recognized by the recognition unit is provided.
The acquisition unit
According to the search result in the search unit, the character corresponding to each character is acquired as information about the target person.
The information processing apparatus according to any one of claims 1 to 4, wherein the information processing apparatus is characterized.
前記各文字のうちの1文字を起点とした所定範囲内に前記項目を構成する他の文字が存在するか探索することを特徴とする請求項5に記載の情報処理装置。 The search unit
The information processing apparatus according to claim 5 , wherein the information processing apparatus is characterized in that it searches for the existence of other characters constituting the item within a predetermined range starting from one of the characters.
表記変更部が、前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する工程と、
統合部が、前記取得部で取得された前記対象者に関する情報を統合する工程と、
算出部が、前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する工程と、を有し、
前記統合部は、
前記表記変更部で所定の表示に変更された前記対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を前記重複する項目に対応する情報として選択する、
ことを特徴とする情報処理方法。 The process by which the acquisition department acquires information about the target person from two or more sources,
The process in which the notation changing unit changes the notation of the information about the target person acquired by the acquisition unit to a predetermined notation, and
The process in which the integration unit integrates the information about the target person acquired by the acquisition unit, and
Calculating unit, based on the integrated information on the subject by the integration unit, have a, a step of calculating the risk of the subject is to be monitored,
The integrated part is
The information about the target person whose display has been changed to a predetermined display is collated for each item in the notation change unit, and the most frequently described items are selected as the information corresponding to the duplicated items for the duplicated items.
An information processing method characterized by that.
2以上の情報源から対象者に関する情報を取得する取得部、
前記取得部で取得された前記対象者に関する情報の表記を所定の表記に変更する表記変更部、
前記取得部で取得された前記対象者に関する情報を統合する統合部、
前記統合部で統合された前記対象者に関する情報に基づいて、前記対象者が監視対象となるリスクを算出する算出部、として機能させ、
前記統合部は、
前記表記変更部で所定の表示に変更された前記対象者に関する情報を項目ごとに照合し、重複する項目について、最も多い記載を前記重複する項目に対応する情報として選択する、
ことを特徴とする情報処理プログラム。 Computer,
Acquisition department that acquires information about the target person from two or more sources,
A notation change unit that changes the notation of information about the target person acquired by the acquisition unit to a predetermined notation,
An integrated unit that integrates information about the target person acquired by the acquisition unit,
Based on the information about the target person integrated in the integrated unit, the target person is made to function as a calculation unit for calculating the risk of being monitored .
The integrated part is
The information about the target person whose display has been changed to a predetermined display is collated for each item in the notation change unit, and the most frequently described items are selected as the information corresponding to the duplicated items for the duplicated items.
An information processing program characterized by this.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020114655A JP6969818B1 (en) | 2020-07-02 | 2020-07-02 | Information processing equipment, information processing methods and information processing programs |
JP2021170705A JP2022013946A (en) | 2020-07-02 | 2021-10-19 | Information processing apparatus, information processing method and information processing program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020114655A JP6969818B1 (en) | 2020-07-02 | 2020-07-02 | Information processing equipment, information processing methods and information processing programs |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021170705A Division JP2022013946A (en) | 2020-07-02 | 2021-10-19 | Information processing apparatus, information processing method and information processing program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6969818B1 true JP6969818B1 (en) | 2021-11-24 |
JP2022012657A JP2022012657A (en) | 2022-01-17 |
Family
ID=78605679
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020114655A Active JP6969818B1 (en) | 2020-07-02 | 2020-07-02 | Information processing equipment, information processing methods and information processing programs |
JP2021170705A Pending JP2022013946A (en) | 2020-07-02 | 2021-10-19 | Information processing apparatus, information processing method and information processing program |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021170705A Pending JP2022013946A (en) | 2020-07-02 | 2021-10-19 | Information processing apparatus, information processing method and information processing program |
Country Status (1)
Country | Link |
---|---|
JP (2) | JP6969818B1 (en) |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2922365B2 (en) * | 1992-06-29 | 1999-07-19 | 株式会社ピーエフユー | Kanji address data processing method in OCR processing system |
JP3683925B2 (en) * | 1994-11-18 | 2005-08-17 | キヤノン株式会社 | Electronic filing device |
JP2000090192A (en) * | 1998-09-16 | 2000-03-31 | Sharp Corp | Character string correcting method for address and zip code |
GB0029229D0 (en) * | 2000-11-30 | 2001-01-17 | Unisys Corp | Counter measures for irregularities in financial transactions |
JP2005011049A (en) * | 2003-06-19 | 2005-01-13 | Nec Soft Ltd | Database integration device |
JP2005050226A (en) * | 2003-07-31 | 2005-02-24 | Kokusai Kogyo Co Ltd | Address data matching system and matching method |
JP2005228077A (en) * | 2004-02-13 | 2005-08-25 | Japan Future Information Technology & Systems Co Ltd | Money laundering detecting device, money laundering detecting method and money laundering detecting program |
JP5015987B2 (en) * | 2009-03-25 | 2012-09-05 | みずほ情報総研株式会社 | Money laundering determination support system, method and program |
JP5837473B2 (en) * | 2012-05-10 | 2015-12-24 | 木下 崇 | How to automatically translate Chinese to Japanese |
WO2015071980A1 (en) * | 2013-11-13 | 2015-05-21 | 楽天株式会社 | Monitoring assistance device |
-
2020
- 2020-07-02 JP JP2020114655A patent/JP6969818B1/en active Active
-
2021
- 2021-10-19 JP JP2021170705A patent/JP2022013946A/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JP2022013946A (en) | 2022-01-18 |
JP2022012657A (en) | 2022-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220351216A1 (en) | Identifying false positive geolocation-based fraud alerts | |
US8611635B1 (en) | Duplicate check detection | |
US10089686B2 (en) | Systems and methods for increasing efficiency in the detection of identity-based fraud indicators | |
US8468167B2 (en) | Automatic data validation and correction | |
US8682755B2 (en) | Systems and methods for detecting tax refund fraud | |
JP6268352B2 (en) | Accounting data entry system, method, and program | |
US20160012561A1 (en) | Systems and Methods for Detecting Identity Theft of a Dependent | |
CN107103087A (en) | Block chain big data analysis of market conditions system | |
US10990940B1 (en) | Server validation of website scraped data | |
US11010423B2 (en) | Populating data fields in electronic documents | |
US10592508B2 (en) | Organizing datasets for adaptive responses to queries | |
US11288673B1 (en) | Online fraud detection using machine learning models | |
US20170109855A1 (en) | Systems and methods for detecting linkages among individuals | |
US11860950B2 (en) | Document matching and data extraction | |
JP2022548501A (en) | Data acquisition method and device for analyzing cryptocurrency transactions | |
US20210034861A1 (en) | Document fingerprint for fraud detection | |
Soni et al. | Reducing risk in KYC (know your customer) for large Indian banks using big data analytics | |
JP6969818B1 (en) | Information processing equipment, information processing methods and information processing programs | |
US20230067073A1 (en) | Systems and Methods for Improved Transaction Reconciliation | |
US20220229863A1 (en) | Assigning documents to entities of a database | |
JP2019061492A (en) | Address management device, address management method, and address management program | |
JP6250307B2 (en) | Image information processing apparatus and image information processing method | |
US11361287B2 (en) | Automated check encoding error resolution | |
US20220327502A1 (en) | Enhanced image transaction processing solution and architecture | |
US20220382804A1 (en) | Information processing apparatus, information processing system, and method of information processing |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210218 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20210218 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210618 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210730 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210803 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20211015 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20211021 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6969818 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |