JP6770012B2 - 情報分析システムおよび情報分析方法 - Google Patents
情報分析システムおよび情報分析方法 Download PDFInfo
- Publication number
- JP6770012B2 JP6770012B2 JP2018031373A JP2018031373A JP6770012B2 JP 6770012 B2 JP6770012 B2 JP 6770012B2 JP 2018031373 A JP2018031373 A JP 2018031373A JP 2018031373 A JP2018031373 A JP 2018031373A JP 6770012 B2 JP6770012 B2 JP 6770012B2
- Authority
- JP
- Japan
- Prior art keywords
- attributes
- information
- group
- interaction
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims description 51
- 230000003993 interaction Effects 0.000 claims description 83
- 238000000034 method Methods 0.000 claims description 60
- 238000011156 evaluation Methods 0.000 claims description 45
- 238000003860 storage Methods 0.000 claims description 39
- 230000005856 abnormality Effects 0.000 claims description 31
- 238000012360 testing method Methods 0.000 claims description 9
- 238000009826 distribution Methods 0.000 claims description 4
- 238000004519 manufacturing process Methods 0.000 description 35
- 238000012545 processing Methods 0.000 description 18
- 230000007547 defect Effects 0.000 description 17
- 238000010586 diagram Methods 0.000 description 16
- 238000001514 detection method Methods 0.000 description 13
- 230000002950 deficient Effects 0.000 description 9
- 238000007689 inspection Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 238000000729 Fisher's exact test Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013480 data collection Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 230000007774 longterm Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000011282 treatment Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000001816 cooling Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000009795 derivation Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000105 evaporative light scattering detection Methods 0.000 description 1
- 238000010438 heat treatment Methods 0.000 description 1
- 239000007788 liquid Substances 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- YHXISWVBGDMDLQ-UHFFFAOYSA-N moclobemide Chemical compound C1=CC(Cl)=CC=C1C(=O)NCCN1CCOCC1 YHXISWVBGDMDLQ-UHFFFAOYSA-N 0.000 description 1
- 238000000491 multivariate analysis Methods 0.000 description 1
- 238000003825 pressing Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/02—Total factory control, e.g. smart factories, flexible manufacturing systems [FMS] or integrated manufacturing systems [IMS]
Landscapes
- General Factory Administration (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は情報分析システムおよび情報分析方法に関し、例えば個体の異常の有無に係る情報を分析する情報分析システムおよび情報分析方法に適用して好適なものである。
近年、各種サーバに蓄積されたデータを活用するために、様々な情報分析が行われている。
例えば、過去の査証申請の記録および退去強制の記録を用いて、決定木とよばれる方法によって国籍、年齢などの属性情報と、これらの属性を有する集団の過去の不正発生頻度、傾向などを把握し、この情報を用いて、新たな査証申請に対して審査者に対して注力して審査するポイント(原因等の傾向)を提供し、審査者の判断を支援審査すべき項目、観点を提示するシステムが開示されている(特許文献1参照)。
特許文献1に記載のシステムでは、決定木を用いることにより、違法に係る属性を特定することはできるが、過去のデータを分類するにとどまり、時間的な変化等については容易に把握できない。例えば、過去に違法を行っていたような属性の外国人は、現在は違法を行っていなかったり、逆に、過去にはあまり違法を行っていないような属性の外国人は、現在は違法を行っていたりするといったことを把握し難い。このように、審査者が、審査対象の外国人を適切に判断できないという問題がある。
また、例えば製造システムにおいても、どのプロセスで不良品が発生しているかを適切に判断できないといったように、他のシステムでも同様の問題がある。このようなことから、蓄積されたデータから、特異的に異常(不正、不良、不具合など)が発生している属性の対象(個体群)を検出可能な情報分析システムが求められている。
本発明は以上の点を考慮してなされたもので、特異的に異常が発生している属性の個体群を検出可能な情報分析システムおよび情報分析方法を提案しようとするものである。
かかる課題を解決するため本発明においては、個体の属性に係る情報を記憶する第1の記憶部と、前記個体の異常の有無に係る情報を記憶する第2の記憶部と、観察対象とする複数の属性を設定する観察対象管理部と、前記第1の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する時間区分設定部と、前記複数の属性に属する前記所定の期間における個体群について、前記第1の記憶部に記憶された情報と前記第2の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する交互作用評価部と、前記交互作用評価部により評価された結果を出力する結果出力部と、を設けるようにした。
また本発明においては、個体の属性に係る情報を記憶する第1の記憶部と、前記個体の異常の有無に係る情報を記憶する第2の記憶部と、を備える情報分析システムにおける情報分析方法であって、観察対象管理部が、観察対象とする複数の属性を設定する第1のステップと、時間区分設定部が、前記第1の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する第2のステップと、交互作用評価部が、前記複数の属性に属する前記所定の期間における個体群について、前記第1の記憶部に記憶された情報と前記第2の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する第3のステップと、結果出力部が、前記交互作用評価部により評価された結果を出力する第4のステップと、を設けるようにした。
上記構成によれば、所定の期間における観察対象の複数の属性についての交互作用の有無を出力することができる。
本発明によれば、特異的に異常が発生している個体群を検出することができる。
以下図面について、本発明の一実施の形態を詳述する。
以下に示す実施の形態では、情報分析の対象とする個体についてのタイムスタンプ(認定日、処分日、処理日、検出日など)付きのイベント(各種の手続き、各種の処分、各種の処理、各種の検出など)の記録と、個体の判別結果(不正、不良、不具合等の異常の有無)とから、判別結果に影響している要因を発見する情報分析方法、および当該情報分析方法を実装した情報分析システムについて説明する。例えば、具体的な事例として、第1の実施の形態において、出入国管理に係る査証手続き記録を用いた不正検出方法、および当該不正検出方法を実装した情報分析システムについて説明する。また、例えば、他の具体的な事例として、第2の実施の形態において、製造プロセスに係る加工記録を用いた不良検出方法、および当該不良検出方法を実装した情報分析システムについて説明する。
(1)第1の実施の形態
入国管理局では、在留許可を得て滞在している外国人について、不法就労等の不正の疑いがある場合、現地査察等による状況確認、摘発等を行っている。しかしながら、現地査察には、多大な人的リソースを必要とするため、現実に実施できる対象は限られる。また、単独の不正よりも、不法就労の斡旋などの組織的な不正が疑われる集団を摘発することが不正削減のために効果的であることから、査察対象の選定においては、構造的な不正要因がある可能性が高い集団を優先することが望まれる。
入国管理局では、在留許可を得て滞在している外国人について、不法就労等の不正の疑いがある場合、現地査察等による状況確認、摘発等を行っている。しかしながら、現地査察には、多大な人的リソースを必要とするため、現実に実施できる対象は限られる。また、単独の不正よりも、不法就労の斡旋などの組織的な不正が疑われる集団を摘発することが不正削減のために効果的であることから、査察対象の選定においては、構造的な不正要因がある可能性が高い集団を優先することが望まれる。
一方、不正の発生傾向については、経済社会情勢の影響を受けるほか、特定国への査証免除等の行政施策によって時間とともに変化する。査察対象の選定に当っては、不正の発生傾向の変化を早期に把握し、不正が増加しつつある集団に対して早期に査察、摘発を行って集団的不正行為の拡大を未然に防ぐことが望まれる。
上記施策を実現するために、査証手続き記録等の情報システムに記録されたデータを用いて、組織的な不正関与が疑われる集団を早期に発見する分析手法が必要である。
本実施の形態の情報分析システムでは、日本に在留する外国人全体から、性別、国籍、職業、居住地等のうち2つの属性で集団(個体群)を抽出し、さらに当該集団から、ある期間に在留許可、期間更新等の特定の査証手続き記録を有する部分を抽出し、これを観察対象の集団(観察対象群)とする。次に、本情報分析システムは、観察対象の集団について、2つの属性の交互作用の優位性を評価する統計量を計算する。本情報分析システムは、この手順を様々な属性の組み合わせについて行い、交互作用の優位性が認められる集団を求める。
査証手続き時期による分割については、本情報分析システムは、例えば、在留許可発行のピークの期間に認定を受けた人をひとまとまり(観察対象の集団)とするように行うことができる。また、このような分割は、所定の期間(暦年、会計年度など)で行ってもよいし、時間軸上の査証手続きの発生頻度の逆数で補正した距離を用いてクラスタリングすることで実現してもよい。
さらに、本情報分析システムは、査証手続き時期による分割を、不正となった人が査証手続きを行った頻度が高い期間がひとまとまりになるように修正(再設定)する。
査証手続き時期による分割方法の修正については、本情報分析システムは、不正者情報の増加に伴って随時行う。
さらに、上記のように絞り込まれた観察対象の集団について、本情報分析システムは、過去の不正者の増加傾向から将来の不正者の数(不正数)を予測する予測式を導出し、その予測値を用いて、当該観察対象の集団を定義する2つの属性の将来のある時点での交互作用の有無を評価し、交互作用の有意性が予め設定した基準を超えるか否かを判定する。
上記方法により、不正者が特異的に多発する集団を発見するとともに、将来このような集団になりうる対象を早期に検知することができる。以下では、上記方法の例について適宜説明する。なお、上記方法については、全てを採用してもよいし、一部を採用してもよい。
図1において、10は第1の実施の形態による情報分析システムを示す。情報分析システム10は、在留外国人に係る情報と、不正処分に係る情報とから、様々な属性で規定される複数の集団の中で、特異的に不正率が高い集団を検出する情報分析機能を有する。
より具体的には、情報分析システム10は、外国人出入国情報システム20およびクライアント端末30と通信可能に接続され、計算機100と、在留情報DB101と、退去強制情報DB102と、観察対象集団DB103とを含んで構成される。
計算機100は、サーバ装置、ノートパソコン、タブレット端末などであり、情報分析に係る処理を実行するコンピュータである。なお、計算機100の詳細については、図2を用いて後述する。
在留情報DB101は、個体の属性に係る情報を記憶する第1の記憶部の一例であり、日本に滞在履歴のある外国人を管理するための情報について記憶する。かかる情報は、外国人出入国情報システム20において収集(蓄積)され、適宜のタイミングで在留情報DB101に反映される。なお、在留情報DB101の詳細については、図3を用いて後述する。
退去強制情報DB102は、個体の異常の有無に係る情報を記憶する第2の記憶部の一例であり、日本から退去強制を受けた外国人を管理するための情報(日本に滞在履歴のある外国人のうち違法を理由として退去強制などの措置取られた外国人に係る情報)について記憶する。かかる情報は、外国人出入国情報システム20において収集(蓄積)され、適宜のタイミングで退去強制情報DB102に反映される。なお、退去強制情報DB102の詳細については、図4を用いて後述する。
観察対象集団DB103は、特異的に異常率が高い集団に係る情報を記憶する第3の記憶部の一例であり、日本に中長期の滞在履歴のある外国人のうち、観察対象の集団の定義、当該集団に属する人の状態に関する情報の集計値、当該集団に属する人が退去強制となるかを評価するための評価値などについて記憶する。
また、観察対象集団DB103に記憶された情報については適宜に読み出されて出力される。出力としては、クライアント端末30(表示装置の一例)で表示されてもよいし、クライアント端末30(印刷装置の一例)で印刷されてもよいし、クライアント端末30に電子メールとして送信されてもよいし、その他の出力であってもよい。なお、観察対象集団DB103の詳細については、図5を用いて後述する。また、観察対象集団DB103に記憶する情報を生成する処理については、図6を用いて後述する。
外国人出入国情報システム20は、在留認定審査端末40および処分情報入力端末50とネットワーク60を介して通信可能に接続される。外国人出入国情報システム20は、計算機200と、在留情報DB201と、退去強制情報DB202とを含んで構成される。
計算機200は、サーバ装置、ノートパソコン、タブレット端末などであり、外国人の出入国に係る情報を管理するためのコンピュータである。計算機200は、在留認定審査端末40または処分情報入力端末50を介して行われる査証手続き結果を登録する査証手続き記録登録部と、情報分析システム10にデータ連携するデータ連携部とが稼動する在留者情報管理部を有している(図示は省略する。)。在留者情報管理部は、主記憶装置上にプログラムが読み出されてプロセッサにより実行されることにより、その機能を発揮する。なお、計算機200のハードウェア資源は、特に限定されるものではなく、計算機100と同一であってもよいので、その説明は省略する。
ここで、在留認定審査端末40から外国人出入国情報システム20に対して順次に情報が送信され、在留情報DB201に情報が蓄積されている。また、処分情報入力端末50から外国人出入国情報システム20に対して順次に情報が送信され、退去強制情報DB202に情報が蓄積されている。なお、在留情報DB201は、在留情報DB101と同じであるので、その説明は省略する。退去強制情報DB202は、退去強制情報DB102と同じであるので、その説明は省略する。
図2は、計算機100に係る構成の一例を示す図である。計算機100は、プロセッサ110、主記憶装置120、補助記憶装置130、ネットワークインタフェース140、入力装置150、および表示装置160を含んで構成される。各ハードウェアは、内部バス等を介して互いに接続される。図2では、各ハードウェアの数は1つである例を示したが、2つ以上で構成されてもよい。なお、クライアント端末30、計算機200のハードウェア構成は、計算機100と同一であってもよい。
プロセッサ110は、補助記憶装置130に記憶されたプログラムまたは外部(記録媒体、インターネットなど)から取得されたプログラムを主記憶装置120に読み出して実行する。プロセッサ110がプログラムに従って処理を実行することによって、特定の機能を実現するモジュール(観察対象管理部121、時間区分設定部122、交互作用評価部123、予測部124、結果出力部125など)として動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ110が当該モジュールを実現するプログラムを実行していることを示す。
なお、計算機100の機能は、例えば、CPU(Central Processing Unit)がROM(Read Only Memory)に格納されたプログラムをRAM(Random Access Memory)に読み出して実行すること(ソフトウェア)により実現されてもよいし、専用の回路などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、計算機100の機能の一部は、計算機100と通信可能な他のコンピュータにより実現されてもよい。
観察対象管理部121は、観察対象とする複数の属性を設定する。時間区分設定部122は、観察対象管理部121により設定された複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する。
交互作用評価部123は、観察対象の集団について、当該集団を規定する2つの属性の異常発生への影響が相互に関係があるかを判定する。より具体的には、交互作用評価部123は、複数の属性に属する所定の期間における個体群について、第1の記憶部(例えば、在留情報DB101)に記憶された情報と第2の記憶部(例えば、退去強制情報DB102)に記憶された情報とから特定する、複数の属性を満たす群および満たさない群と、満たす群の異常の有無とおよび満たさない群の異常の有無と(例えば、後述の総数の分割表126、不正数の分割表127)に基づいて、複数の属性についての交互作用の有無を評価する。例えば、交互作用評価部123は、2つの属性の異常発生への影響がまったく独立と仮定したときに、その仮定の元で異常の発生数(異常数)が実際の異常数となる確率を計算し、それが予め設定した基準値未満のときは交互作用が「あり」、基準値以上のときは交互作用が「なし」と判定する。かかる方法によれば、交互作用の有無は、指定された有意水準に対して、統計的に有意であるか否かの判定として得られる。
予測部124は、複数の属性に属する個体群の過去の異常の発生時期と発生数とから、将来の異常数を予測する。例えば、予測部124は、予め設けられる複数の予測手法(予測モデル)のうち、複数の属性に属する個体群の過去の異常数(異常の発生状況)の記録を用いて予測精度を評価し、最も精度の高い予測手法を用いて将来の異常数を予測する。
結果出力部125は、交互作用評価部123により評価された結果を出力する。例えば、結果出力部125は、観察対象の集団について、交互作用の有無を判断した結果、交互作用が予め設定した水準を超えているものを、段階的に出力(クライアント端末30に表示、表示装置160に表示など)する。
なお、観察対象管理部121、時間区分設定部122、交互作用評価部123、予測部124、および結果出力部125の処理の一例については、図6を用いて後述する。
主記憶装置120は、例えばRAMであり、プロセッサ110が実行するプログラムおよびプログラムが使用する情報を格納する。また、主記憶装置120は、プログラムが一時的に使用するワークエリアを含む。
補助記憶装置130は、ROM、HDD(Hard Disk Drive)などであり、在留情報DB101が記憶されてもよいし、退去強制情報DB102が記憶されてもよいし、観察対象集団DB103が記憶されてもよい。
ネットワークインタフェース140は、例えばNIC(Network Interface Card)から構成され、例えば計算機200との通信時におけるプロトコル制御を行ったり、クライアント端末30との通信時におけるプロトコル制御を行ったりする。
入力装置150は、ポインティングデバイス、キーボードなどであり、各種の情報を入力するための装置である。
表示装置160は、例えばディスプレイであり、各種の情報を表示するための装置である。
図3は、在留情報DB101の一例を示す図である。在留情報DB101には、日本に中長期の滞在履歴のある外国人を管理するための情報が格納される。より具体的には、在留情報DB101では、マスタ番号に対応付けられて、在留情報(手続きの種別、認定日(例えば、在留認定審査許可日)、入国目的、在留期限(滞在期限)など)と、個人属性情報(性別、国籍、生年月日、所属機関の種別(就学先、就労先など)、旅券番号、氏名、職業、居住地など)と、登録日とが管理される。
図4は、退去強制情報DB102の一例を示す図である。退去強制情報DB102には、日本から退去強制を受けた外国人を管理するための情報が格納される。退去強制情報DB102では、マスタ番号に対応付けられて、退去強制情報(処分の種別、処分日、出国日、処分理由など)と、個人属性情報(性別、国籍、生年月日、所属機関の種別(就学先、就労先など)、旅券番号、氏名、職業、居住地など)と、登録日とが管理される。
図5は、観察対象集団DB103の一例を示す図である。観察対象集団DB103は、日本に中長期の滞在履歴のある外国人のうち、観察対象の集団の定義(当該集団を定義する単一または複数の属性および条件、観察対象とする期間など)、当該集団に属する人の状態に関する情報(在留中、帰国済み、退去強制、永住許可、居住地など)の集計値(在留中の数(総数)、強制退去の数(不正数)など)、当該集団に属する人が退去強制となるかを評価するための評価値(交互作用優位性、交互作用優位性の3か月後の予測)などを格納する。
図6は、不正頻発集団検出処理に係る処理手順の一例を示す図である。
ステップS101では、観察対象管理部121は、不正頻発集団検出処理に必要な情報の読み込みを行う。例えば、観察対象管理部121は、外国人出入国情報システム20とデータ連携し、在留情報DB201と退去強制情報DB202とを情報分析システム10にコピー(在留情報DB101と退去強制情報DB102としてデータ登録)する。
ステップS102では、観察対象管理部121は、観察対象とする属性を抽出(設定)する。観察対象管理部121は、在留情報DB101に記憶された日本に滞在履歴のある外国人の情報から、性別、国籍、職業等の属性の複数の組合せを決定し、決定した属性の組合せを満たす集団を特定(例えば、マスタ番号を抽出)する。属性の組合せを決定する方法については、特に限定されるものではなく、予め指定された属性の組合せ、全ての属性の組合せなど、任意の属性の組合せを採用することができる。
ステップS103では、時間区分設定部122は、時間区分を初期設定する。より具体的には、時間区分設定部122は、観察対象とする属性の集団の各々について、査証手続き時期によってさらに絞り込んだ集団を抽出する。時間区分について、図7を用いて説明する。
図7の(A)は、入国時期で観察対象の集団を絞り込む時間区分の一例を示す図(入国時期の頻度分布を示すグラフ上に時間区分を示す枠301,302を表した概念図)である。図7の(B)は、不正者が発生した後に観察対象の集団を絞込む時間区分の一例を示す図(不正数の頻度分布を示すグラフ上に時間区分を示す枠303,304を表した概念図)である。
例えば、全期間(例えば、2002年から2016年まで)を観察対象としてしまうと、不正数の平均(不正比率)が小さくなってしまい、不正が多発している区間(例えば、2006年から2009年)に入国した集団(不正頻発集団)を抽出できなくなってしまう(特異的に発生する不正を見逃す)おそれがある。そこで、本実施の形態では、時間区分を初期設定すると共に、時間区分を適切に調整するためにステップS104〜ステップS107の処理を行っている。
例えば、図7の(A)の例では、観察対象とする集団(ステップS102で特定された集団)については、枠301の時間区分の集団と枠302の時間区分の集団との各々が観察対象の集団として抽出される。
図7では、査証手続き時期については、入国時期を例に挙げて説明したが、在留資格の期間更新時期であってもよいし、資格変更時期であってもよいし、その他の手続き時期であってもよい。
ここで、査証手続き時期による絞り込み(時間区分)は、予め規定された期間(暦年、会計年度など)によって行うことができる(第1の時間区分)。また、別の方法として、観察対象とする集団の入国数のピークを抽出することによって行うことができる(第2の時間区分)。入国数のピークに該当する集団の抽出は、例えば、月次入国数の極大値と極小値とに着目し、極大値の前後の最も近い極小値となる月までの範囲をとる手順によって実現できる。また、別の方法として、観察対象とする集団の不正数のピークを抽出することによって行うことができる(第3の時間区分)。不正数のピークに該当する集団の抽出は、例えば、月次不正数の極大値と極小値とに着目し、極大値の前後の最も近い極小値となる月までの範囲をとる手順によって実現できる。また、別の方法として、クラスタリングすることで実現できる(第4の時間区分)。例えば、クラスタリングでは、特定された集団の査証手続き時期を、時間軸を当該査証手続きの発生頻度の逆数で補正した距離を用いることが好適である。
本実施の形態では、第1の時間区分、第2の時間区分、第3の時間区分、および第4の時間区分の各々について、観察対象の集団の絞り込みを行う。このように複数種類の時間区分を設定することにより、特異的に発生する不正を見逃すリスクを低減することができる。なお、全ての時間区分を用いる構成に限られるものではなく、第1の時間区分、第2の時間区分、第3の時間区分、および第4の時間区分の任意の組合せを時間区分として設定してもよい。
ステップS104では、交互作用評価部123は、抽出された観察対象の各集団について、当該集団を規定する複数の属性の間の交互作用の評価(第1の交互作用評価)を行う。より具体的には、交互作用評価部123は、観察対象の集団が2つの属性で定義される場合、在留情報DB101にある日本に滞在履歴のある全員について、図8の(A)に示すような、各属性を有する群、有しない群に分けた分割表とよばれる表を作成する。更に、交互作用評価部123は、観察対象の集団のうち、退去強制になった部分について、同様に、図8の(B)に示すような、各属性を有する群、有しない群に分けた分割表を作成する。なお、観察対象の集団ごとに総数の分割表と不正数の分割表とが作成される。
図8は、交互作用の優位性を示す検定量を算出(2つの属性の間に統計学的に有意な関連があるかどうかを検討)するのに用いられる分割表の一例を示す図である。図8は、複数の属性が国籍と居住地とであり、時間区分が第1の時間区分である場合の例を示す。図8の(A)は、総数の分割表126の一例を示す図である。図8の(B)は、不正数の分割表127の一例を示す図である。
総数の分割表126には、観察対象の集団を定義する属性(例えば、A、B)および観察対象の集団を定義する属性でない属性(例えば、≠A、≠B)の組合せごとの人数と、各属性に含まれる人数の総数(例えば、Aの総数、≠Aの総数、Bの総数、≠Bの総数)と、観察対象の集団に含まれる人数の総和との情報が格納される。
不正数の分割表127には、観察対象の集団を定義する属性(例えば、A、B)および観察対象の集団を定義する属性でない属性(例えば、≠A、≠B)の組合せごとの不正数と、各属性に含まれる不正数の総数(例えば、Aの不正数、≠Aの不正数、Bの不正数、≠Bの不正数)と、観察対象の集団に含まれる不正数の総和との情報が格納される。
交互作用評価部123は、作成した2つの分割表を用い、例えばフィッシャーの直接確率検定(以下では、フィッシャー検定と称する。)により交互作用の有無を判定する。なお、分割表を用いたフィッシャー検定の基本事項については、非特許文献「松田紀之 著「質的情報の多変量解析」(1988)」に開示されている。
例えば、交互作用評価部123は、図8に示す分割表について、下記の(式1)に示す計算式によって、2つの属性の間に交互作用がない場合に、両方の条件を満たす集団の不正数が、実際の不正数である「100」よりも大きくなる確率(検定量)を計算する。交互作用評価部123は、この確率が基準値より小さい場合には、交互作用がない可能性が小さい、すなわち交互作用があると判定する。より詳細には、(式1)で計算された確率がある基準値(例えば、1%)以下である場合、有意水準1%で交互作用があると判定する。ステップS104では、交互作用評価部123は、予め設定された複数の基準値(1%、0.1%など)で交互作用の有無を判定する。
ステップS105では、時間区分設定部122は、時間区分を調整する。この調整(修正)では、時間区分設定部122は、検定量が極小値となるように、絞り込む期間の上限および/または下限を変動させ、時間区分を修正する。なお、期間を絞り込む手法については、特に限定されるものではなく任意の手法を採用することができる。
ステップS106では、交互作用評価部123は、修正された時間区分で選択される各集団(調整後の観察対象の集団)について、当該集団を規定する複数の属性の間の交互作用の評価(第2の交互作用評価)を行う。交互作用の有無を判定する方法は、上記ステップS104と同様であるので、その説明は省略する。
ステップS107では、時間区分設定部122は、第2の交互作用評価による検定量が極小値(最適な評価結果)となった否かを判定する。換言するならば、時間区分設定部122は、調整前の観察対象の集団と調整後の観測対象の集団との当該複数の属性の交互作用の有意性(検定量)を比較し、調整後の観察対象の集団の方に交互作用が強く認められる場合、さらに時間区分の修正(再設定)を繰り返し、交互作用の強さが極大(第2の交互作用評価による検定量が極小値)と認められる時間区分を得る。
このように、ステップS105からステップS107では、ステップS102で抽出された観察対象とする集団について、より交互作用の有意性が強く認められる集団を選択するように査証手続き時期の時間区分が調整される。
ステップS108では、予測部124は、観察対象の集団における将来の不正数を予測する。上記のようにして得られた時間区分で定義(選択)された各集団について、予測部124は、図8の(B)に示すような不正数の分割表の各要素の将来のある時点(例えば3か月後)の当該集団の不正数を予測する。より具体的には、予測部124は、当該分割表の各要素群について、過去の不正数の記録を用いて不正数の予測式(予測モデル)を導出し、予測モデルに基づいて将来の不正数を予測する。
将来の不正数の予測を行うための予測式の導出は、選択された観察対象の各集団について、ARIMAモデル(自己回帰移動平均モデル)、ポアソン回帰、機械学習(例えば、ディープラーニング)などの複数の予測手法について、過去の不正数の記録を用いて予測精度を評価し、最も精度の高い手法を採用する。過去の不正数の記録を用いた予測精度の評価は、例えば、過去のある期間の不正数の記録を用いて予測式を導出し、当該期間の後の期間の不正数の予測値と実績値とを比較することによって行う。つまり、不正数の発生状況に応じて(集団ごとに)最適な予測モデルが決定される。
ステップS109では、交互作用評価部123は、選択された各集団について、計算された将来の不正数(予測値)に基づいて、当該集団を規定する複数の属性の間の交互作用の評価(第3の交互作用評価)を行う。交互作用の有無を判定する方法は、上記ステップS104と同様であるので、その説明については省略する。
ステップS110では、結果出力部125は、交互作用評価部123による評価結果を記録する。例えば、結果出力部125は、計算された交互作用の有意性水準(将来の不正数の予測前の評価結果)、および将来の交互作用の有意性水準(将来の不正数の予測後の評価結果)をそれぞれ観察対象集団DB103に記録する。
ステップS111では、結果出力部125は、交互作用評価部123による評価結果を出力する。例えば、結果出力部125は、上記処理によって複数の属性の交互作用があると判定された集団について、当該集団を定義する属性と、当該集団の総数、不正率等の統計値(例えば、交互作用有意性水準)を一覧表形式で表示する(図9参照)。ここで、交互作用の有無を判定するための基準値を複数設け、それぞれの判定基準を満たす集団を段階分けして表示してもよい。
図9は、基準値を0.1%、1%、5%の3段階に設定し、統計値および3か月後の予測値を段階的に表示した例(出力結果の一例)を示す図である。図9では、統計値(例えば、交互作用の有意性水準)に基づいて、不正を行う可能性が高い集団(不正頻発集団)が上位に表示されている。また、例えば、図9に示すように、統計値と予測値とを表示することにより、不正頻発集団を早期に検出することができる。例えば、1レコード目について見ると、複数の属性(国籍「A国」、在籍「日本語学校」)の統計値が「1%」であり、3か月後の予測値が「0.1%」となっていることから、更に不正数が増えていくことが予測可能となる。
ステップS112では、観察対象管理部121は、不正頻発集団検出処理に必要な情報の更新が行われたか否かを判定する。観察対象管理部121は、行われたと判定した場合、ステップS104に処理を移し、行われていないと判定した場合、不正頻発集団検出処理を終了する。
なお、ステップS104からステップS111までの処理は、日次、週次、月次のように定期的に実行し、表示を更新するように運用(第1の処理)する。また、新たな不正者情報の登録があったときに、該新規不正者が属する観察対象の集団について処理を行い、表示を更新するように運用(第2の処理)することもできる。
第1の処理および/または第2の処理によれば、不正の発生状況により交互作用の強さを動的に再評価し、観察対象の集団を修正することができる。
以上、本実施の形態によれば、在留外国人の様々な属性で定義される多数の集団の中から、不正者が特異的に多発する集団を早期に発見することができる。
(2)第2の実施の形態
図10は、本実施の形態の情報分析システム1000に係る構成の一例を示す図である。情報分析システム1000は、観察対象の個体群(製造情報DB1001に登録された製品群)について、第1の実施の形態と同様に、観察対象の個体群を定義する複数の属性の間の交互作用の有無を判定し、交互作用が認められるものを選択的にクライアント端末3000に表示等する。観察対象の個体群の定義における、製造工程の処理期間(時間区分)については、第1の実施の形態と同様の手順により、交互作用が強く認められる期間を選択する。また、後の工程で判明する不良、出荷後に判明する不良については、第1の実施の形態と同様に、将来の不良数を予測し、その予測値を用いて交互作用の有無の判定を行う。
図10は、本実施の形態の情報分析システム1000に係る構成の一例を示す図である。情報分析システム1000は、観察対象の個体群(製造情報DB1001に登録された製品群)について、第1の実施の形態と同様に、観察対象の個体群を定義する複数の属性の間の交互作用の有無を判定し、交互作用が認められるものを選択的にクライアント端末3000に表示等する。観察対象の個体群の定義における、製造工程の処理期間(時間区分)については、第1の実施の形態と同様の手順により、交互作用が強く認められる期間を選択する。また、後の工程で判明する不良、出荷後に判明する不良については、第1の実施の形態と同様に、将来の不良数を予測し、その予測値を用いて交互作用の有無の判定を行う。
情報分析システム1000は、通信装置(図示せず)を介してデータ収集システム2000およびクライアント端末3000と通信可能に接続される。
情報分析システム1000は、計算機100と、製造情報DB1001と、不良情報DB1002と、観察対象製品DB1003とを含んで構成される。なお、計算機100は、第1の実施の形態の計算機100と同じであるので、その説明を省略する。
図10において、製造ライン6000には、複数の製造装置(製造装置4100,4200,4210,4300)、および検査装置5000が設置されている。各製造装置においては、製品を完成させるための組立、加工または処理などを手動および/または自動で行うことができる。製造装置4200と製造装置4210とは、製造工程の処理量を確保するために複数設けられた同じ加工を行う装置である。製造ライン6000で製造される製品については、特に限定されるものではない。例えば、バルブなどの自動車部品であってもよいし、自動車本体であってもよい。また、列車、航空機、船舶などの部品であってもよいし、スマートフォン、液晶ディスプレイなどの電気製品などであってもよい。その他の製品であってもよい。
各製造装置には、センサ(センサ4101,4201,4211,4301)が設けられている。センサは、各製造装置の動作状態を検出し、その検出結果を製造履歴データ(製造履歴データ4102,4202,4212,4302)として出力することができる。製造履歴データは、例えば、製造時に使用する気体、液体などの流量データであってもよいし、工作機械などの位置決め時の位置データであってもよいし、プレス時などの圧力データであってもよいし、加熱または冷却時の温度データであってもよいし、その他の検出データであってもよいし、これらの組み合わせのデータであってもよい。
製造ライン6000において、製造装置の下流側には、検査装置5000が設置されている。検査装置5000は、製造装置を介して製造された製品が良品であるか不良品であるかを検査し、その判定結果(合否データ5001)として出力する。判定結果は、個々の製品ごとに与えられる2値データである。例えば、判定結果は、製品が良品である場合は「1」または「True」、製品が不良品である場合は「0」または「False」に設定することができる。
ここで、個々の製品には、個々の製品を個体として識別する個体ID(例えば、マスタ番号)を付すことができる。個体IDは、例えば、ある機種の製品が量産される時の個々の製品を個体として識別するために用いることができる。そして、製造履歴データを送信するときに製造履歴データとともに個体IDを送信し、判定結果を送信するときに判定結果とともに個体IDを送信することにより、製造履歴データおよび判定結果がどの個体に対応しているかを管理することができる。
データ収集システム2000は、記憶装置2001および制御装置2002を含んで構成され、センサおよび検査装置5000と通信し、制御装置2002は、サーバ装置、ノートパソコン、タブレット端末などであり、製造履歴データおよび判定結果を収集し、記憶装置2001(例えば、製造情報DB1001と同一のデータ構成のDBおよび製造情報DB1001と同一のデータ構成のDB)に記憶する。データ収集システム2000は、個体IDが付された個体の状態を2値で示す目的変数と、K(Kは2以上の整数)個の説明変数を収集することができる。ここで、目的変数と説明変数とは個体IDごとに1:1で与えることができる。このとき、複数の説明変数に対して1個の目的変数を1:1で対応させることができる。
図11は、製造情報DB1001の一例(第1の記憶部の一例)を示す図である。製造情報DB1001は、個体のマスタ番号に対応付けられて、工程と、工程ごとの処理日と、装置番号と、製造条件に関する情報(製造指示書番号、装置設定、操作担当者など)と、個体属性情報(製品型番、ロット番号など)とが管理される。
図12は、不良情報DB1002の一例(第2の記憶部の一例)を示す図である。不良情報DB1002は、個体のマスタ番号に対応付けられて、不良の種別と、検出日と、不良が判明した個体についての判定理由と、個体属性情報(製品型番、ロット番号、出荷日など)とが管理される。さらに、後の工程で不良が判明した個体、出荷後に不良が判明した個体については、個体のマスタ番号に対応付けられて、仕向け先、用途などの情報が管理される。
図13は、観察対象製品DB1003の一例(第3の記憶部の一例)を示す図である。観察対象製品DB1003は、製造された製品について、観察対象の集団の定義(当該集団を定義する単一または複数の属性および条件、製造工程とその処理期間等)、および当該集団に属する製品の判別結果に関する情報の集計値(総数、不良数)、当該集団に属する個体が不良品となるかを評価するための評価値(交互作用優位性、交互作用優位性の3か月後の予測)などを格納する。
本実施の形態では、製造情報DB1001および不良情報DB1002が用いられ、図6に示す処理と同様に処理が行われ、評価結果が観察対象製品DB1003に記憶され、結果が出力され得る。
以上、本実施の形態によれば、製品に係る様々な属性で定義される多数の集団の中から、不良品が特異的に多発する集団を早期に発見することができる。
上述した構成によれば、特異的に異常が発生している属性の個体群を検出することができる。
(3)他の実施の形態
なお上述の実施の形態においては、本発明を情報分析システム10,1000に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の情報分析システム、情報分析方法などに広く適用することができる。
なお上述の実施の形態においては、本発明を情報分析システム10,1000に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の情報分析システム、情報分析方法などに広く適用することができる。
また上述の実施の形態においては、説明の便宜上、xxDBを用いて各種のデータを説明したが、データ構造は限定されるものではなく、xx情報などと表現してもよい。
また、上記の説明において各機能を実現するプログラム、DB、テーブル、ファイル等の情報は、メモリや、ハードディスク、SSD(Solid State Drive)等の記憶装置、または、ICカード、SDカード、DVD等の記録媒体に置くことができる。
また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。
10……情報分析システム、20……外国人出入国情報システム、30……クライアント端末、100……計算機、101……在留情報DB、102……退去強制情報DB、103……観察対象集団DB、121……観察対象管理部、122……時間区分設定部、123……交互作用評価部、124……予測部、125……結果出力部。
Claims (8)
- 個体の属性に係る情報を記憶する第1の記憶部と、
前記個体の異常の有無に係る情報を記憶する第2の記憶部と、
観察対象とする複数の属性を設定する観察対象管理部と、
前記第1の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する時間区分設定部と、
前記複数の属性に属する前記所定の期間における個体群について、前記第1の記憶部に記憶された情報と前記第2の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する交互作用評価部と、
前記交互作用評価部により評価された結果を出力する結果出力部と、
を備えることを特徴とする情報分析システム。 - 前記時間区分設定部は、前記複数の属性に属する個体群における各個体のイベントが発生したことを示す頻度分布における極大値の前後の極小値までの期間を前記所定の期間として設定する、
ことを特徴とする請求項1に記載の情報分析システム。 - 前記時間区分設定部は、前記複数の属性に属する個体群における各個体の異常が発生したことを示す頻度分布における極大値の前後の極小値までの期間を前記所定の期間として設定する、
ことを特徴とする請求項1に記載の情報分析システム。 - 前記交互作用評価部は、前記複数の属性の交互作用の有無を評価するための検定量を算出し、
前記時間区分設定部は、前記所定の期間を、予め指定された期間の上限および/または下限を前後に予め設定された期間だけ変動させ、前記複数の属性に属する個体群から変動した期間における個体群を抽出し、変動させた後の個体群の検定量と変動させる前の個体群の検定量とに基づいて変動させた後の方が交互作用の優位性が強まると判定した場合、前記変動させた期間を前記所定の期間として再設定する、
ことを特徴とする請求項1に記載の情報分析システム。 - 前記複数の属性に属する個体群の過去の異常の発生時期と発生数とから、将来の異常の発生数を予測する予測部を備え、
前記交互作用評価部は、前記予測部により予測された異常の発生数に基づいて前記複数の属性の交互作用の有無を評価する、
ことを特徴とする請求項1に記載の情報分析システム。 - 前記予測部は、予め設けられる複数の予測手法について、前記複数の属性に属する個体群の過去の異常の発生数の記録を用いて予測精度を評価し、最も精度の高い予測手法を用いて将来の異常の発生数を予測する、
ことを特徴とする請求項5に記載の情報分析システム。 - 前記結果出力部は、前記交互作用評価部により評価された予測前の結果と予測後の結果とを表示装置に表示する、
ことを特徴とする請求項5に記載の情報分析システム。 - 個体の属性に係る情報を記憶する第1の記憶部と、前記個体の異常の有無に係る情報を記憶する第2の記憶部と、を備える情報分析システムにおける情報分析方法であって、
観察対象管理部が、観察対象とする複数の属性を設定する第1のステップと、
時間区分設定部が、前記第1の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する第2のステップと、
交互作用評価部が、前記複数の属性に属する前記所定の期間における個体群について、前記第1の記憶部に記憶された情報と前記第2の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する第3のステップと、
結果出力部が、前記交互作用評価部により評価された結果を出力する第4のステップと、
を備えることを特徴とする情報分析方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018031373A JP6770012B2 (ja) | 2018-02-23 | 2018-02-23 | 情報分析システムおよび情報分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018031373A JP6770012B2 (ja) | 2018-02-23 | 2018-02-23 | 情報分析システムおよび情報分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019145051A JP2019145051A (ja) | 2019-08-29 |
JP6770012B2 true JP6770012B2 (ja) | 2020-10-14 |
Family
ID=67772511
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018031373A Active JP6770012B2 (ja) | 2018-02-23 | 2018-02-23 | 情報分析システムおよび情報分析方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6770012B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7421449B2 (ja) | 2020-08-27 | 2024-01-24 | 株式会社日立製作所 | 管理支援装置、管理支援方法、および管理支援システム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011034457A (ja) * | 2009-08-04 | 2011-02-17 | Nec Corp | データマイニングシステム、データマイニング方法及びデータマイニング用プログラム |
JP2016004525A (ja) * | 2014-06-19 | 2016-01-12 | 株式会社日立製作所 | データ分析システム及びデータ分析方法 |
JP2016151898A (ja) * | 2015-02-17 | 2016-08-22 | 株式会社日立ソリューションズ | データ分析装置、データ分析方法及びデータ分析プログラム |
-
2018
- 2018-02-23 JP JP2018031373A patent/JP6770012B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2019145051A (ja) | 2019-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9661010B2 (en) | Security log mining devices, methods, and systems | |
Fazel et al. | Selecting a risk assessment tool to use in practice: a 10-point guide | |
Bologa et al. | Big data and specific analysis methods for insurance fraud detection. | |
CN110729054B (zh) | 异常就诊行为检测方法、装置、计算机设备及存储介质 | |
US20170032270A1 (en) | Method for predicting personality trait and device therefor | |
US20120089415A1 (en) | Nursing home evaluation system | |
KR20190013017A (ko) | 센서 군집화 기반의 설비 건강 모니터링 방법 및 장치 | |
Melnyk et al. | Making sense of transient responses in simulation studies | |
US20160357923A1 (en) | Dialysis predictive model | |
JP2009086896A (ja) | コンピュータの障害予測システムおよび障害予測方法 | |
Liljehult et al. | Early warning score predicts acute mortality in stroke patients | |
CN117094184B (zh) | 基于内网平台的风险预测模型的建模方法、系统及介质 | |
JP2014182472A (ja) | 健康管理支援システム、健康管理支援方法及び健康管理支援プログラム | |
JP6770012B2 (ja) | 情報分析システムおよび情報分析方法 | |
CN111767192A (zh) | 基于人工智能的业务数据检测方法、装置、设备和介质 | |
US11646121B2 (en) | Systems and methods for analyzing and validating patient information trends | |
Vogt et al. | The Prevention Index: using technology to improve quality assessment | |
WO2011150097A2 (en) | Identifying and using critical fields in quality management | |
CN112348685A (zh) | 信用评分方法、装置、设备及存储介质 | |
Coley et al. | Clinical risk prediction models and informative cluster size: Assessing the performance of a suicide risk prediction algorithm | |
Campbell et al. | Panacea or poison: Assessing how well basic propensity score modeling can replicate results from randomized controlled trials in criminal justice research | |
JP2022186541A (ja) | ソースコード解析装置およびソースコード解析方法 | |
Chrimes | Big data analytics of predicting annual US Medicare billing claims with health services | |
Nabeel et al. | Proportional hazard‐based robust monitoring schemes using logistic distribution | |
Nagesh | Generating political scores using rfm model and cluster prediction by xgboost |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200915 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200924 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6770012 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |