JP6770012B2

JP6770012B2 - 情報分析システムおよび情報分析方法

Info

Publication number: JP6770012B2
Application number: JP2018031373A
Authority: JP
Inventors: 大河内　俊夫; 俊夫大河内; 高田　治; 治高田; 浄人岩崎; 正法志村
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-02-23
Filing date: 2018-02-23
Publication date: 2020-10-14
Anticipated expiration: 2038-02-23
Also published as: JP2019145051A

Description

本発明は情報分析システムおよび情報分析方法に関し、例えば個体の異常の有無に係る情報を分析する情報分析システムおよび情報分析方法に適用して好適なものである。

近年、各種サーバに蓄積されたデータを活用するために、様々な情報分析が行われている。

例えば、過去の査証申請の記録および退去強制の記録を用いて、決定木とよばれる方法によって国籍、年齢などの属性情報と、これらの属性を有する集団の過去の不正発生頻度、傾向などを把握し、この情報を用いて、新たな査証申請に対して審査者に対して注力して審査するポイント（原因等の傾向）を提供し、審査者の判断を支援審査すべき項目、観点を提示するシステムが開示されている（特許文献１参照）。

特開２０１７−４３２８号公報

特許文献１に記載のシステムでは、決定木を用いることにより、違法に係る属性を特定することはできるが、過去のデータを分類するにとどまり、時間的な変化等については容易に把握できない。例えば、過去に違法を行っていたような属性の外国人は、現在は違法を行っていなかったり、逆に、過去にはあまり違法を行っていないような属性の外国人は、現在は違法を行っていたりするといったことを把握し難い。このように、審査者が、審査対象の外国人を適切に判断できないという問題がある。

また、例えば製造システムにおいても、どのプロセスで不良品が発生しているかを適切に判断できないといったように、他のシステムでも同様の問題がある。このようなことから、蓄積されたデータから、特異的に異常（不正、不良、不具合など）が発生している属性の対象（個体群）を検出可能な情報分析システムが求められている。

本発明は以上の点を考慮してなされたもので、特異的に異常が発生している属性の個体群を検出可能な情報分析システムおよび情報分析方法を提案しようとするものである。

かかる課題を解決するため本発明においては、個体の属性に係る情報を記憶する第１の記憶部と、前記個体の異常の有無に係る情報を記憶する第２の記憶部と、観察対象とする複数の属性を設定する観察対象管理部と、前記第１の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する時間区分設定部と、前記複数の属性に属する前記所定の期間における個体群について、前記第１の記憶部に記憶された情報と前記第２の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する交互作用評価部と、前記交互作用評価部により評価された結果を出力する結果出力部と、を設けるようにした。

また本発明においては、個体の属性に係る情報を記憶する第１の記憶部と、前記個体の異常の有無に係る情報を記憶する第２の記憶部と、を備える情報分析システムにおける情報分析方法であって、観察対象管理部が、観察対象とする複数の属性を設定する第１のステップと、時間区分設定部が、前記第１の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する第２のステップと、交互作用評価部が、前記複数の属性に属する前記所定の期間における個体群について、前記第１の記憶部に記憶された情報と前記第２の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する第３のステップと、結果出力部が、前記交互作用評価部により評価された結果を出力する第４のステップと、を設けるようにした。

上記構成によれば、所定の期間における観察対象の複数の属性についての交互作用の有無を出力することができる。

本発明によれば、特異的に異常が発生している個体群を検出することができる。

第１の実施の形態による情報分析システムに係る構成の一例を示す図である。第１の実施の形態による計算機に係る構成の一例を示す図である。第１の実施の形態による在留情報ＤＢ（database）の一例を示す図である。第１の実施の形態による退去強制情報ＤＢの一例を示す図である。第１の実施の形態による観察対象集団ＤＢの一例を示す図である。第１の実施の形態による不正頻発集団検出処理に係る処理手順の一例を示す図である。第１の実施の形態による時間区分の一例を示す図である。第１の実施の形態による分割表の一例を示す図である。第１の実施の形態による出力結果の一例を示す図であるである。第２の実施の形態による情報分析システムに係る構成の一例を示す図である。第２の実施の形態による製造情報ＤＢの一例を示す図である。第２の実施の形態による不良情報ＤＢの一例を示す図である。第２の実施の形態による観察対象製品ＤＢの一例を示す図である。

以下図面について、本発明の一実施の形態を詳述する。

以下に示す実施の形態では、情報分析の対象とする個体についてのタイムスタンプ（認定日、処分日、処理日、検出日など）付きのイベント（各種の手続き、各種の処分、各種の処理、各種の検出など）の記録と、個体の判別結果（不正、不良、不具合等の異常の有無）とから、判別結果に影響している要因を発見する情報分析方法、および当該情報分析方法を実装した情報分析システムについて説明する。例えば、具体的な事例として、第１の実施の形態において、出入国管理に係る査証手続き記録を用いた不正検出方法、および当該不正検出方法を実装した情報分析システムについて説明する。また、例えば、他の具体的な事例として、第２の実施の形態において、製造プロセスに係る加工記録を用いた不良検出方法、および当該不良検出方法を実装した情報分析システムについて説明する。

（１）第１の実施の形態
入国管理局では、在留許可を得て滞在している外国人について、不法就労等の不正の疑いがある場合、現地査察等による状況確認、摘発等を行っている。しかしながら、現地査察には、多大な人的リソースを必要とするため、現実に実施できる対象は限られる。また、単独の不正よりも、不法就労の斡旋などの組織的な不正が疑われる集団を摘発することが不正削減のために効果的であることから、査察対象の選定においては、構造的な不正要因がある可能性が高い集団を優先することが望まれる。

一方、不正の発生傾向については、経済社会情勢の影響を受けるほか、特定国への査証免除等の行政施策によって時間とともに変化する。査察対象の選定に当っては、不正の発生傾向の変化を早期に把握し、不正が増加しつつある集団に対して早期に査察、摘発を行って集団的不正行為の拡大を未然に防ぐことが望まれる。

上記施策を実現するために、査証手続き記録等の情報システムに記録されたデータを用いて、組織的な不正関与が疑われる集団を早期に発見する分析手法が必要である。

本実施の形態の情報分析システムでは、日本に在留する外国人全体から、性別、国籍、職業、居住地等のうち２つの属性で集団（個体群）を抽出し、さらに当該集団から、ある期間に在留許可、期間更新等の特定の査証手続き記録を有する部分を抽出し、これを観察対象の集団（観察対象群）とする。次に、本情報分析システムは、観察対象の集団について、２つの属性の交互作用の優位性を評価する統計量を計算する。本情報分析システムは、この手順を様々な属性の組み合わせについて行い、交互作用の優位性が認められる集団を求める。

査証手続き時期による分割については、本情報分析システムは、例えば、在留許可発行のピークの期間に認定を受けた人をひとまとまり（観察対象の集団）とするように行うことができる。また、このような分割は、所定の期間（暦年、会計年度など）で行ってもよいし、時間軸上の査証手続きの発生頻度の逆数で補正した距離を用いてクラスタリングすることで実現してもよい。

さらに、本情報分析システムは、査証手続き時期による分割を、不正となった人が査証手続きを行った頻度が高い期間がひとまとまりになるように修正（再設定）する。

査証手続き時期による分割方法の修正については、本情報分析システムは、不正者情報の増加に伴って随時行う。

さらに、上記のように絞り込まれた観察対象の集団について、本情報分析システムは、過去の不正者の増加傾向から将来の不正者の数（不正数）を予測する予測式を導出し、その予測値を用いて、当該観察対象の集団を定義する２つの属性の将来のある時点での交互作用の有無を評価し、交互作用の有意性が予め設定した基準を超えるか否かを判定する。

上記方法により、不正者が特異的に多発する集団を発見するとともに、将来このような集団になりうる対象を早期に検知することができる。以下では、上記方法の例について適宜説明する。なお、上記方法については、全てを採用してもよいし、一部を採用してもよい。

図１において、１０は第１の実施の形態による情報分析システムを示す。情報分析システム１０は、在留外国人に係る情報と、不正処分に係る情報とから、様々な属性で規定される複数の集団の中で、特異的に不正率が高い集団を検出する情報分析機能を有する。

より具体的には、情報分析システム１０は、外国人出入国情報システム２０およびクライアント端末３０と通信可能に接続され、計算機１００と、在留情報ＤＢ１０１と、退去強制情報ＤＢ１０２と、観察対象集団ＤＢ１０３とを含んで構成される。

計算機１００は、サーバ装置、ノートパソコン、タブレット端末などであり、情報分析に係る処理を実行するコンピュータである。なお、計算機１００の詳細については、図２を用いて後述する。

在留情報ＤＢ１０１は、個体の属性に係る情報を記憶する第１の記憶部の一例であり、日本に滞在履歴のある外国人を管理するための情報について記憶する。かかる情報は、外国人出入国情報システム２０において収集（蓄積）され、適宜のタイミングで在留情報ＤＢ１０１に反映される。なお、在留情報ＤＢ１０１の詳細については、図３を用いて後述する。

退去強制情報ＤＢ１０２は、個体の異常の有無に係る情報を記憶する第２の記憶部の一例であり、日本から退去強制を受けた外国人を管理するための情報（日本に滞在履歴のある外国人のうち違法を理由として退去強制などの措置取られた外国人に係る情報）について記憶する。かかる情報は、外国人出入国情報システム２０において収集（蓄積）され、適宜のタイミングで退去強制情報ＤＢ１０２に反映される。なお、退去強制情報ＤＢ１０２の詳細については、図４を用いて後述する。

観察対象集団ＤＢ１０３は、特異的に異常率が高い集団に係る情報を記憶する第３の記憶部の一例であり、日本に中長期の滞在履歴のある外国人のうち、観察対象の集団の定義、当該集団に属する人の状態に関する情報の集計値、当該集団に属する人が退去強制となるかを評価するための評価値などについて記憶する。

また、観察対象集団ＤＢ１０３に記憶された情報については適宜に読み出されて出力される。出力としては、クライアント端末３０（表示装置の一例）で表示されてもよいし、クライアント端末３０（印刷装置の一例）で印刷されてもよいし、クライアント端末３０に電子メールとして送信されてもよいし、その他の出力であってもよい。なお、観察対象集団ＤＢ１０３の詳細については、図５を用いて後述する。また、観察対象集団ＤＢ１０３に記憶する情報を生成する処理については、図６を用いて後述する。

外国人出入国情報システム２０は、在留認定審査端末４０および処分情報入力端末５０とネットワーク６０を介して通信可能に接続される。外国人出入国情報システム２０は、計算機２００と、在留情報ＤＢ２０１と、退去強制情報ＤＢ２０２とを含んで構成される。

計算機２００は、サーバ装置、ノートパソコン、タブレット端末などであり、外国人の出入国に係る情報を管理するためのコンピュータである。計算機２００は、在留認定審査端末４０または処分情報入力端末５０を介して行われる査証手続き結果を登録する査証手続き記録登録部と、情報分析システム１０にデータ連携するデータ連携部とが稼動する在留者情報管理部を有している（図示は省略する。）。在留者情報管理部は、主記憶装置上にプログラムが読み出されてプロセッサにより実行されることにより、その機能を発揮する。なお、計算機２００のハードウェア資源は、特に限定されるものではなく、計算機１００と同一であってもよいので、その説明は省略する。

ここで、在留認定審査端末４０から外国人出入国情報システム２０に対して順次に情報が送信され、在留情報ＤＢ２０１に情報が蓄積されている。また、処分情報入力端末５０から外国人出入国情報システム２０に対して順次に情報が送信され、退去強制情報ＤＢ２０２に情報が蓄積されている。なお、在留情報ＤＢ２０１は、在留情報ＤＢ１０１と同じであるので、その説明は省略する。退去強制情報ＤＢ２０２は、退去強制情報ＤＢ１０２と同じであるので、その説明は省略する。

図２は、計算機１００に係る構成の一例を示す図である。計算機１００は、プロセッサ１１０、主記憶装置１２０、補助記憶装置１３０、ネットワークインタフェース１４０、入力装置１５０、および表示装置１６０を含んで構成される。各ハードウェアは、内部バス等を介して互いに接続される。図２では、各ハードウェアの数は１つである例を示したが、２つ以上で構成されてもよい。なお、クライアント端末３０、計算機２００のハードウェア構成は、計算機１００と同一であってもよい。

プロセッサ１１０は、補助記憶装置１３０に記憶されたプログラムまたは外部（記録媒体、インターネットなど）から取得されたプログラムを主記憶装置１２０に読み出して実行する。プロセッサ１１０がプログラムに従って処理を実行することによって、特定の機能を実現するモジュール（観察対象管理部１２１、時間区分設定部１２２、交互作用評価部１２３、予測部１２４、結果出力部１２５など）として動作する。以下の説明では、モジュールを主語に処理を説明する場合、プロセッサ１１０が当該モジュールを実現するプログラムを実行していることを示す。

なお、計算機１００の機能は、例えば、ＣＰＵ（Central Processing Unit）がＲＯＭ（Read Only Memory）に格納されたプログラムをＲＡＭ（Random Access Memory）に読み出して実行すること（ソフトウェア）により実現されてもよいし、専用の回路などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、計算機１００の機能の一部は、計算機１００と通信可能な他のコンピュータにより実現されてもよい。

観察対象管理部１２１は、観察対象とする複数の属性を設定する。時間区分設定部１２２は、観察対象管理部１２１により設定された複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する。

交互作用評価部１２３は、観察対象の集団について、当該集団を規定する２つの属性の異常発生への影響が相互に関係があるかを判定する。より具体的には、交互作用評価部１２３は、複数の属性に属する所定の期間における個体群について、第１の記憶部（例えば、在留情報ＤＢ１０１）に記憶された情報と第２の記憶部（例えば、退去強制情報ＤＢ１０２）に記憶された情報とから特定する、複数の属性を満たす群および満たさない群と、満たす群の異常の有無とおよび満たさない群の異常の有無と（例えば、後述の総数の分割表１２６、不正数の分割表１２７）に基づいて、複数の属性についての交互作用の有無を評価する。例えば、交互作用評価部１２３は、２つの属性の異常発生への影響がまったく独立と仮定したときに、その仮定の元で異常の発生数（異常数）が実際の異常数となる確率を計算し、それが予め設定した基準値未満のときは交互作用が「あり」、基準値以上のときは交互作用が「なし」と判定する。かかる方法によれば、交互作用の有無は、指定された有意水準に対して、統計的に有意であるか否かの判定として得られる。

予測部１２４は、複数の属性に属する個体群の過去の異常の発生時期と発生数とから、将来の異常数を予測する。例えば、予測部１２４は、予め設けられる複数の予測手法（予測モデル）のうち、複数の属性に属する個体群の過去の異常数（異常の発生状況）の記録を用いて予測精度を評価し、最も精度の高い予測手法を用いて将来の異常数を予測する。

結果出力部１２５は、交互作用評価部１２３により評価された結果を出力する。例えば、結果出力部１２５は、観察対象の集団について、交互作用の有無を判断した結果、交互作用が予め設定した水準を超えているものを、段階的に出力（クライアント端末３０に表示、表示装置１６０に表示など）する。

なお、観察対象管理部１２１、時間区分設定部１２２、交互作用評価部１２３、予測部１２４、および結果出力部１２５の処理の一例については、図６を用いて後述する。

主記憶装置１２０は、例えばＲＡＭであり、プロセッサ１１０が実行するプログラムおよびプログラムが使用する情報を格納する。また、主記憶装置１２０は、プログラムが一時的に使用するワークエリアを含む。

補助記憶装置１３０は、ＲＯＭ、ＨＤＤ（Hard Disk Drive）などであり、在留情報ＤＢ１０１が記憶されてもよいし、退去強制情報ＤＢ１０２が記憶されてもよいし、観察対象集団ＤＢ１０３が記憶されてもよい。

ネットワークインタフェース１４０は、例えばＮＩＣ（Network Interface Card）から構成され、例えば計算機２００との通信時におけるプロトコル制御を行ったり、クライアント端末３０との通信時におけるプロトコル制御を行ったりする。

入力装置１５０は、ポインティングデバイス、キーボードなどであり、各種の情報を入力するための装置である。

表示装置１６０は、例えばディスプレイであり、各種の情報を表示するための装置である。

図３は、在留情報ＤＢ１０１の一例を示す図である。在留情報ＤＢ１０１には、日本に中長期の滞在履歴のある外国人を管理するための情報が格納される。より具体的には、在留情報ＤＢ１０１では、マスタ番号に対応付けられて、在留情報（手続きの種別、認定日（例えば、在留認定審査許可日）、入国目的、在留期限（滞在期限）など）と、個人属性情報（性別、国籍、生年月日、所属機関の種別（就学先、就労先など）、旅券番号、氏名、職業、居住地など）と、登録日とが管理される。

図４は、退去強制情報ＤＢ１０２の一例を示す図である。退去強制情報ＤＢ１０２には、日本から退去強制を受けた外国人を管理するための情報が格納される。退去強制情報ＤＢ１０２では、マスタ番号に対応付けられて、退去強制情報（処分の種別、処分日、出国日、処分理由など）と、個人属性情報（性別、国籍、生年月日、所属機関の種別（就学先、就労先など）、旅券番号、氏名、職業、居住地など）と、登録日とが管理される。

図５は、観察対象集団ＤＢ１０３の一例を示す図である。観察対象集団ＤＢ１０３は、日本に中長期の滞在履歴のある外国人のうち、観察対象の集団の定義（当該集団を定義する単一または複数の属性および条件、観察対象とする期間など）、当該集団に属する人の状態に関する情報（在留中、帰国済み、退去強制、永住許可、居住地など）の集計値（在留中の数（総数）、強制退去の数（不正数）など）、当該集団に属する人が退去強制となるかを評価するための評価値（交互作用優位性、交互作用優位性の３か月後の予測）などを格納する。

図６は、不正頻発集団検出処理に係る処理手順の一例を示す図である。

ステップＳ１０１では、観察対象管理部１２１は、不正頻発集団検出処理に必要な情報の読み込みを行う。例えば、観察対象管理部１２１は、外国人出入国情報システム２０とデータ連携し、在留情報ＤＢ２０１と退去強制情報ＤＢ２０２とを情報分析システム１０にコピー（在留情報ＤＢ１０１と退去強制情報ＤＢ１０２としてデータ登録）する。

ステップＳ１０２では、観察対象管理部１２１は、観察対象とする属性を抽出（設定）する。観察対象管理部１２１は、在留情報ＤＢ１０１に記憶された日本に滞在履歴のある外国人の情報から、性別、国籍、職業等の属性の複数の組合せを決定し、決定した属性の組合せを満たす集団を特定（例えば、マスタ番号を抽出）する。属性の組合せを決定する方法については、特に限定されるものではなく、予め指定された属性の組合せ、全ての属性の組合せなど、任意の属性の組合せを採用することができる。

ステップＳ１０３では、時間区分設定部１２２は、時間区分を初期設定する。より具体的には、時間区分設定部１２２は、観察対象とする属性の集団の各々について、査証手続き時期によってさらに絞り込んだ集団を抽出する。時間区分について、図７を用いて説明する。

図７の（Ａ）は、入国時期で観察対象の集団を絞り込む時間区分の一例を示す図（入国時期の頻度分布を示すグラフ上に時間区分を示す枠３０１，３０２を表した概念図）である。図７の（Ｂ）は、不正者が発生した後に観察対象の集団を絞込む時間区分の一例を示す図（不正数の頻度分布を示すグラフ上に時間区分を示す枠３０３，３０４を表した概念図）である。

例えば、全期間（例えば、２００２年から２０１６年まで）を観察対象としてしまうと、不正数の平均（不正比率）が小さくなってしまい、不正が多発している区間（例えば、２００６年から２００９年）に入国した集団（不正頻発集団）を抽出できなくなってしまう（特異的に発生する不正を見逃す）おそれがある。そこで、本実施の形態では、時間区分を初期設定すると共に、時間区分を適切に調整するためにステップＳ１０４〜ステップＳ１０７の処理を行っている。

例えば、図７の（Ａ）の例では、観察対象とする集団（ステップＳ１０２で特定された集団）については、枠３０１の時間区分の集団と枠３０２の時間区分の集団との各々が観察対象の集団として抽出される。

図７では、査証手続き時期については、入国時期を例に挙げて説明したが、在留資格の期間更新時期であってもよいし、資格変更時期であってもよいし、その他の手続き時期であってもよい。

ここで、査証手続き時期による絞り込み（時間区分）は、予め規定された期間（暦年、会計年度など）によって行うことができる（第１の時間区分）。また、別の方法として、観察対象とする集団の入国数のピークを抽出することによって行うことができる（第２の時間区分）。入国数のピークに該当する集団の抽出は、例えば、月次入国数の極大値と極小値とに着目し、極大値の前後の最も近い極小値となる月までの範囲をとる手順によって実現できる。また、別の方法として、観察対象とする集団の不正数のピークを抽出することによって行うことができる（第３の時間区分）。不正数のピークに該当する集団の抽出は、例えば、月次不正数の極大値と極小値とに着目し、極大値の前後の最も近い極小値となる月までの範囲をとる手順によって実現できる。また、別の方法として、クラスタリングすることで実現できる（第４の時間区分）。例えば、クラスタリングでは、特定された集団の査証手続き時期を、時間軸を当該査証手続きの発生頻度の逆数で補正した距離を用いることが好適である。

本実施の形態では、第１の時間区分、第２の時間区分、第３の時間区分、および第４の時間区分の各々について、観察対象の集団の絞り込みを行う。このように複数種類の時間区分を設定することにより、特異的に発生する不正を見逃すリスクを低減することができる。なお、全ての時間区分を用いる構成に限られるものではなく、第１の時間区分、第２の時間区分、第３の時間区分、および第４の時間区分の任意の組合せを時間区分として設定してもよい。

ステップＳ１０４では、交互作用評価部１２３は、抽出された観察対象の各集団について、当該集団を規定する複数の属性の間の交互作用の評価（第１の交互作用評価）を行う。より具体的には、交互作用評価部１２３は、観察対象の集団が２つの属性で定義される場合、在留情報ＤＢ１０１にある日本に滞在履歴のある全員について、図８の（Ａ）に示すような、各属性を有する群、有しない群に分けた分割表とよばれる表を作成する。更に、交互作用評価部１２３は、観察対象の集団のうち、退去強制になった部分について、同様に、図８の（Ｂ）に示すような、各属性を有する群、有しない群に分けた分割表を作成する。なお、観察対象の集団ごとに総数の分割表と不正数の分割表とが作成される。

図８は、交互作用の優位性を示す検定量を算出（２つの属性の間に統計学的に有意な関連があるかどうかを検討）するのに用いられる分割表の一例を示す図である。図８は、複数の属性が国籍と居住地とであり、時間区分が第１の時間区分である場合の例を示す。図８の（Ａ）は、総数の分割表１２６の一例を示す図である。図８の（Ｂ）は、不正数の分割表１２７の一例を示す図である。

総数の分割表１２６には、観察対象の集団を定義する属性（例えば、Ａ、Ｂ）および観察対象の集団を定義する属性でない属性（例えば、≠Ａ、≠Ｂ）の組合せごとの人数と、各属性に含まれる人数の総数（例えば、Ａの総数、≠Ａの総数、Ｂの総数、≠Ｂの総数）と、観察対象の集団に含まれる人数の総和との情報が格納される。

不正数の分割表１２７には、観察対象の集団を定義する属性（例えば、Ａ、Ｂ）および観察対象の集団を定義する属性でない属性（例えば、≠Ａ、≠Ｂ）の組合せごとの不正数と、各属性に含まれる不正数の総数（例えば、Ａの不正数、≠Ａの不正数、Ｂの不正数、≠Ｂの不正数）と、観察対象の集団に含まれる不正数の総和との情報が格納される。

交互作用評価部１２３は、作成した２つの分割表を用い、例えばフィッシャーの直接確率検定（以下では、フィッシャー検定と称する。）により交互作用の有無を判定する。なお、分割表を用いたフィッシャー検定の基本事項については、非特許文献「松田紀之著「質的情報の多変量解析」（1988）」に開示されている。

例えば、交互作用評価部１２３は、図８に示す分割表について、下記の（式１）に示す計算式によって、２つの属性の間に交互作用がない場合に、両方の条件を満たす集団の不正数が、実際の不正数である「１００」よりも大きくなる確率（検定量）を計算する。交互作用評価部１２３は、この確率が基準値より小さい場合には、交互作用がない可能性が小さい、すなわち交互作用があると判定する。より詳細には、（式１）で計算された確率がある基準値（例えば、１％）以下である場合、有意水準１％で交互作用があると判定する。ステップＳ１０４では、交互作用評価部１２３は、予め設定された複数の基準値（１％、０．１％など）で交互作用の有無を判定する。

・・・（式１）

ステップＳ１０５では、時間区分設定部１２２は、時間区分を調整する。この調整（修正）では、時間区分設定部１２２は、検定量が極小値となるように、絞り込む期間の上限および／または下限を変動させ、時間区分を修正する。なお、期間を絞り込む手法については、特に限定されるものではなく任意の手法を採用することができる。

ステップＳ１０６では、交互作用評価部１２３は、修正された時間区分で選択される各集団（調整後の観察対象の集団）について、当該集団を規定する複数の属性の間の交互作用の評価（第２の交互作用評価）を行う。交互作用の有無を判定する方法は、上記ステップＳ１０４と同様であるので、その説明は省略する。

ステップＳ１０７では、時間区分設定部１２２は、第２の交互作用評価による検定量が極小値（最適な評価結果）となった否かを判定する。換言するならば、時間区分設定部１２２は、調整前の観察対象の集団と調整後の観測対象の集団との当該複数の属性の交互作用の有意性（検定量）を比較し、調整後の観察対象の集団の方に交互作用が強く認められる場合、さらに時間区分の修正（再設定）を繰り返し、交互作用の強さが極大（第２の交互作用評価による検定量が極小値）と認められる時間区分を得る。

このように、ステップＳ１０５からステップＳ１０７では、ステップＳ１０２で抽出された観察対象とする集団について、より交互作用の有意性が強く認められる集団を選択するように査証手続き時期の時間区分が調整される。

ステップＳ１０８では、予測部１２４は、観察対象の集団における将来の不正数を予測する。上記のようにして得られた時間区分で定義（選択）された各集団について、予測部１２４は、図８の（Ｂ）に示すような不正数の分割表の各要素の将来のある時点（例えば３か月後）の当該集団の不正数を予測する。より具体的には、予測部１２４は、当該分割表の各要素群について、過去の不正数の記録を用いて不正数の予測式（予測モデル）を導出し、予測モデルに基づいて将来の不正数を予測する。

将来の不正数の予測を行うための予測式の導出は、選択された観察対象の各集団について、ＡＲＩＭＡモデル（自己回帰移動平均モデル）、ポアソン回帰、機械学習（例えば、ディープラーニング）などの複数の予測手法について、過去の不正数の記録を用いて予測精度を評価し、最も精度の高い手法を採用する。過去の不正数の記録を用いた予測精度の評価は、例えば、過去のある期間の不正数の記録を用いて予測式を導出し、当該期間の後の期間の不正数の予測値と実績値とを比較することによって行う。つまり、不正数の発生状況に応じて（集団ごとに）最適な予測モデルが決定される。

ステップＳ１０９では、交互作用評価部１２３は、選択された各集団について、計算された将来の不正数（予測値）に基づいて、当該集団を規定する複数の属性の間の交互作用の評価（第３の交互作用評価）を行う。交互作用の有無を判定する方法は、上記ステップＳ１０４と同様であるので、その説明については省略する。

ステップＳ１１０では、結果出力部１２５は、交互作用評価部１２３による評価結果を記録する。例えば、結果出力部１２５は、計算された交互作用の有意性水準（将来の不正数の予測前の評価結果）、および将来の交互作用の有意性水準（将来の不正数の予測後の評価結果）をそれぞれ観察対象集団ＤＢ１０３に記録する。

ステップＳ１１１では、結果出力部１２５は、交互作用評価部１２３による評価結果を出力する。例えば、結果出力部１２５は、上記処理によって複数の属性の交互作用があると判定された集団について、当該集団を定義する属性と、当該集団の総数、不正率等の統計値（例えば、交互作用有意性水準）を一覧表形式で表示する（図９参照）。ここで、交互作用の有無を判定するための基準値を複数設け、それぞれの判定基準を満たす集団を段階分けして表示してもよい。

図９は、基準値を０．１％、１％、５％の３段階に設定し、統計値および３か月後の予測値を段階的に表示した例（出力結果の一例）を示す図である。図９では、統計値（例えば、交互作用の有意性水準）に基づいて、不正を行う可能性が高い集団（不正頻発集団）が上位に表示されている。また、例えば、図９に示すように、統計値と予測値とを表示することにより、不正頻発集団を早期に検出することができる。例えば、１レコード目について見ると、複数の属性（国籍「Ａ国」、在籍「日本語学校」）の統計値が「１％」であり、３か月後の予測値が「０．１％」となっていることから、更に不正数が増えていくことが予測可能となる。

ステップＳ１１２では、観察対象管理部１２１は、不正頻発集団検出処理に必要な情報の更新が行われたか否かを判定する。観察対象管理部１２１は、行われたと判定した場合、ステップＳ１０４に処理を移し、行われていないと判定した場合、不正頻発集団検出処理を終了する。

なお、ステップＳ１０４からステップＳ１１１までの処理は、日次、週次、月次のように定期的に実行し、表示を更新するように運用（第１の処理）する。また、新たな不正者情報の登録があったときに、該新規不正者が属する観察対象の集団について処理を行い、表示を更新するように運用（第２の処理）することもできる。

第１の処理および／または第２の処理によれば、不正の発生状況により交互作用の強さを動的に再評価し、観察対象の集団を修正することができる。

以上、本実施の形態によれば、在留外国人の様々な属性で定義される多数の集団の中から、不正者が特異的に多発する集団を早期に発見することができる。

（２）第２の実施の形態
図１０は、本実施の形態の情報分析システム１０００に係る構成の一例を示す図である。情報分析システム１０００は、観察対象の個体群（製造情報ＤＢ１００１に登録された製品群）について、第１の実施の形態と同様に、観察対象の個体群を定義する複数の属性の間の交互作用の有無を判定し、交互作用が認められるものを選択的にクライアント端末３０００に表示等する。観察対象の個体群の定義における、製造工程の処理期間（時間区分）については、第１の実施の形態と同様の手順により、交互作用が強く認められる期間を選択する。また、後の工程で判明する不良、出荷後に判明する不良については、第１の実施の形態と同様に、将来の不良数を予測し、その予測値を用いて交互作用の有無の判定を行う。

情報分析システム１０００は、通信装置（図示せず）を介してデータ収集システム２０００およびクライアント端末３０００と通信可能に接続される。

情報分析システム１０００は、計算機１００と、製造情報ＤＢ１００１と、不良情報ＤＢ１００２と、観察対象製品ＤＢ１００３とを含んで構成される。なお、計算機１００は、第１の実施の形態の計算機１００と同じであるので、その説明を省略する。

図１０において、製造ライン６０００には、複数の製造装置（製造装置４１００，４２００，４２１０，４３００）、および検査装置５０００が設置されている。各製造装置においては、製品を完成させるための組立、加工または処理などを手動および／または自動で行うことができる。製造装置４２００と製造装置４２１０とは、製造工程の処理量を確保するために複数設けられた同じ加工を行う装置である。製造ライン６０００で製造される製品については、特に限定されるものではない。例えば、バルブなどの自動車部品であってもよいし、自動車本体であってもよい。また、列車、航空機、船舶などの部品であってもよいし、スマートフォン、液晶ディスプレイなどの電気製品などであってもよい。その他の製品であってもよい。

各製造装置には、センサ（センサ４１０１，４２０１，４２１１，４３０１）が設けられている。センサは、各製造装置の動作状態を検出し、その検出結果を製造履歴データ（製造履歴データ４１０２，４２０２，４２１２，４３０２）として出力することができる。製造履歴データは、例えば、製造時に使用する気体、液体などの流量データであってもよいし、工作機械などの位置決め時の位置データであってもよいし、プレス時などの圧力データであってもよいし、加熱または冷却時の温度データであってもよいし、その他の検出データであってもよいし、これらの組み合わせのデータであってもよい。

製造ライン６０００において、製造装置の下流側には、検査装置５０００が設置されている。検査装置５０００は、製造装置を介して製造された製品が良品であるか不良品であるかを検査し、その判定結果（合否データ５００１）として出力する。判定結果は、個々の製品ごとに与えられる２値データである。例えば、判定結果は、製品が良品である場合は「１」または「Ｔｒｕｅ」、製品が不良品である場合は「０」または「Ｆａｌｓｅ」に設定することができる。

ここで、個々の製品には、個々の製品を個体として識別する個体ＩＤ（例えば、マスタ番号）を付すことができる。個体ＩＤは、例えば、ある機種の製品が量産される時の個々の製品を個体として識別するために用いることができる。そして、製造履歴データを送信するときに製造履歴データとともに個体ＩＤを送信し、判定結果を送信するときに判定結果とともに個体ＩＤを送信することにより、製造履歴データおよび判定結果がどの個体に対応しているかを管理することができる。

データ収集システム２０００は、記憶装置２００１および制御装置２００２を含んで構成され、センサおよび検査装置５０００と通信し、制御装置２００２は、サーバ装置、ノートパソコン、タブレット端末などであり、製造履歴データおよび判定結果を収集し、記憶装置２００１（例えば、製造情報ＤＢ１００１と同一のデータ構成のＤＢおよび製造情報ＤＢ１００１と同一のデータ構成のＤＢ）に記憶する。データ収集システム２０００は、個体ＩＤが付された個体の状態を２値で示す目的変数と、Ｋ（Ｋは２以上の整数）個の説明変数を収集することができる。ここで、目的変数と説明変数とは個体ＩＤごとに１：１で与えることができる。このとき、複数の説明変数に対して１個の目的変数を１：１で対応させることができる。

図１１は、製造情報ＤＢ１００１の一例（第１の記憶部の一例）を示す図である。製造情報ＤＢ１００１は、個体のマスタ番号に対応付けられて、工程と、工程ごとの処理日と、装置番号と、製造条件に関する情報(製造指示書番号、装置設定、操作担当者など)と、個体属性情報（製品型番、ロット番号など）とが管理される。

図１２は、不良情報ＤＢ１００２の一例（第２の記憶部の一例）を示す図である。不良情報ＤＢ１００２は、個体のマスタ番号に対応付けられて、不良の種別と、検出日と、不良が判明した個体についての判定理由と、個体属性情報（製品型番、ロット番号、出荷日など）とが管理される。さらに、後の工程で不良が判明した個体、出荷後に不良が判明した個体については、個体のマスタ番号に対応付けられて、仕向け先、用途などの情報が管理される。

図１３は、観察対象製品ＤＢ１００３の一例（第３の記憶部の一例）を示す図である。観察対象製品ＤＢ１００３は、製造された製品について、観察対象の集団の定義（当該集団を定義する単一または複数の属性および条件、製造工程とその処理期間等）、および当該集団に属する製品の判別結果に関する情報の集計値（総数、不良数）、当該集団に属する個体が不良品となるかを評価するための評価値（交互作用優位性、交互作用優位性の３か月後の予測）などを格納する。

本実施の形態では、製造情報ＤＢ１００１および不良情報ＤＢ１００２が用いられ、図６に示す処理と同様に処理が行われ、評価結果が観察対象製品ＤＢ１００３に記憶され、結果が出力され得る。

以上、本実施の形態によれば、製品に係る様々な属性で定義される多数の集団の中から、不良品が特異的に多発する集団を早期に発見することができる。

上述した構成によれば、特異的に異常が発生している属性の個体群を検出することができる。

（３）他の実施の形態
なお上述の実施の形態においては、本発明を情報分析システム１０，１０００に適用するようにした場合について述べたが、本発明はこれに限らず、この他種々の情報分析システム、情報分析方法などに広く適用することができる。

また上述の実施の形態においては、説明の便宜上、ｘｘＤＢを用いて各種のデータを説明したが、データ構造は限定されるものではなく、ｘｘ情報などと表現してもよい。

また、上記の説明において各機能を実現するプログラム、ＤＢ、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。

１０……情報分析システム、２０……外国人出入国情報システム、３０……クライアント端末、１００……計算機、１０１……在留情報ＤＢ、１０２……退去強制情報ＤＢ、１０３……観察対象集団ＤＢ、１２１……観察対象管理部、１２２……時間区分設定部、１２３……交互作用評価部、１２４……予測部、１２５……結果出力部。

Claims

個体の属性に係る情報を記憶する第１の記憶部と、
前記個体の異常の有無に係る情報を記憶する第２の記憶部と、
観察対象とする複数の属性を設定する観察対象管理部と、
前記第１の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する時間区分設定部と、
前記複数の属性に属する前記所定の期間における個体群について、前記第１の記憶部に記憶された情報と前記第２の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する交互作用評価部と、
前記交互作用評価部により評価された結果を出力する結果出力部と、
を備えることを特徴とする情報分析システム。
前記時間区分設定部は、前記複数の属性に属する個体群における各個体のイベントが発生したことを示す頻度分布における極大値の前後の極小値までの期間を前記所定の期間として設定する、
ことを特徴とする請求項１に記載の情報分析システム。
前記時間区分設定部は、前記複数の属性に属する個体群における各個体の異常が発生したことを示す頻度分布における極大値の前後の極小値までの期間を前記所定の期間として設定する、
ことを特徴とする請求項１に記載の情報分析システム。
前記交互作用評価部は、前記複数の属性の交互作用の有無を評価するための検定量を算出し、
前記時間区分設定部は、前記所定の期間を、予め指定された期間の上限および／または下限を前後に予め設定された期間だけ変動させ、前記複数の属性に属する個体群から変動した期間における個体群を抽出し、変動させた後の個体群の検定量と変動させる前の個体群の検定量とに基づいて変動させた後の方が交互作用の優位性が強まると判定した場合、前記変動させた期間を前記所定の期間として再設定する、
ことを特徴とする請求項１に記載の情報分析システム。
前記複数の属性に属する個体群の過去の異常の発生時期と発生数とから、将来の異常の発生数を予測する予測部を備え、
前記交互作用評価部は、前記予測部により予測された異常の発生数に基づいて前記複数の属性の交互作用の有無を評価する、
ことを特徴とする請求項１に記載の情報分析システム。
前記予測部は、予め設けられる複数の予測手法について、前記複数の属性に属する個体群の過去の異常の発生数の記録を用いて予測精度を評価し、最も精度の高い予測手法を用いて将来の異常の発生数を予測する、
ことを特徴とする請求項５に記載の情報分析システム。
前記結果出力部は、前記交互作用評価部により評価された予測前の結果と予測後の結果とを表示装置に表示する、
ことを特徴とする請求項５に記載の情報分析システム。
個体の属性に係る情報を記憶する第１の記憶部と、前記個体の異常の有無に係る情報を記憶する第２の記憶部と、を備える情報分析システムにおける情報分析方法であって、
観察対象管理部が、観察対象とする複数の属性を設定する第１のステップと、
時間区分設定部が、前記第１の記憶部に記憶された情報から前記複数の属性に属する個体群を絞り込むための時間範囲を示す期間を所定の期間として設定する第２のステップと、
交互作用評価部が、前記複数の属性に属する前記所定の期間における個体群について、前記第１の記憶部に記憶された情報と前記第２の記憶部に記憶された情報とから特定する、前記複数の属性を満たす群および満たさない群と、前記満たす群の異常の有無とおよび前記満たさない群の異常の有無とに基づいて、前記複数の属性についての交互作用の有無を評価する第３のステップと、
結果出力部が、前記交互作用評価部により評価された結果を出力する第４のステップと、
を備えることを特徴とする情報分析方法。