JP2011086156A - System and program for tracking of leaked information - Google Patents

System and program for tracking of leaked information Download PDF

Info

Publication number
JP2011086156A
JP2011086156A JP2009239270A JP2009239270A JP2011086156A JP 2011086156 A JP2011086156 A JP 2011086156A JP 2009239270 A JP2009239270 A JP 2009239270A JP 2009239270 A JP2009239270 A JP 2009239270A JP 2011086156 A JP2011086156 A JP 2011086156A
Authority
JP
Japan
Prior art keywords
information
leakage
data
knowledge
access log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2009239270A
Other languages
Japanese (ja)
Inventor
Hiroaki Otsuki
宏明 大月
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2009239270A priority Critical patent/JP2011086156A/en
Publication of JP2011086156A publication Critical patent/JP2011086156A/en
Withdrawn legal-status Critical Current

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To perform quantitative candidate specification of an information leakage source and specification of a leakage candidate. <P>SOLUTION: A leaked information tracking system includes: a knowledge data collection and registration unit 112 for respectively collecting stored data from a technical document data server 30 and a technical information management system 40 which are mutually connected through a company's internal network 20, converting the collected data into text data and registering the text data as knowledge data; a knowledge database 111 for storing knowledge data; a knowledge database retrieval unit 113 for retrieving the knowledge database 111 on the basis of an externally input retrieval condition and for output of an access log including retrieval user's identification information; an access log storage unit 114 for storing access logs; a leakage source candidate information specification unit 121 for specifying leakage source candidate information while referring to the knowledge database 111 by text data of leaked information; and an access log tracking unit 123 for tracking an access log on the basis of the specified leakage source candidate information and extracting a user having probability of information leakage. <P>COPYRIGHT: (C)2011,JPO&INPIT

Description

本発明は、情報の漏洩が発生した際に、漏洩元情報および情報漏洩者の絞込み・特定を行う漏洩情報追跡システムおよび漏洩情報追跡プログラムに関する。   The present invention relates to a leakage information tracking system and a leakage information tracking program for narrowing down and specifying leakage source information and information leakers when information leakage occurs.

従来、技術情報の漏洩が発生し、その情報が公開されてしまった場合には以下のような手順で追跡調査を人手によって行っていた。
(1)漏洩(公開)情報の内容確認
(2)漏洩元と思われる情報源の人手による探索と漏洩情報との照合、真偽確認
(3)漏洩元候補情報のアクセスログの追跡
(4)情報漏洩者の絞込みと特定
したがって、漏洩元と思われる情報と、公開された漏洩情報との一致の度合いを定量的に把握できないため、漏洩元情報の絞込み・特定には人間の目視判断に頼らざるを得ず、手間隙がかかっていた。
このような漏洩元情報の絞込み・特定作業を支援するための技術として、特許文献1には、電子帳票システムの内容を漏洩情報の特徴データに基づいて、漏洩元候補情報を特定すると共に、アクセスログから不審者の追跡を行うように構成された漏洩データ追跡装置が開示されている。この漏洩データ追跡装置では、漏洩情報の特徴と一致する電子帳票データ候補を特定し、そのアクセスログを追跡して漏洩元となった可能性のある不審者の候補を特定することが行われる。
Conventionally, when technical information is leaked and the information is made public, follow-up investigations have been performed manually by the following procedure.
(1) Confirmation of contents of leaked (public) information (2) Manual search of information source that seems to be leaked and verification of leaked information, authenticity check (3) Tracking access log of leaked candidate information (4) Narrowing down and identifying information leakers Therefore, it is not possible to quantitatively grasp the degree of coincidence between the information that seems to be leaked information and the disclosed leaked information. There was no choice but to make a gap.
As a technology for supporting such narrowing / identification of leakage source information, Patent Document 1 discloses the contents of an electronic form system based on the characteristic data of leakage information and specifies leakage source candidate information. A leaked data tracking device configured to track a suspicious person from a log is disclosed. In this leaked data tracking apparatus, electronic form data candidates that match the characteristics of leaked information are identified, and the access log is tracked to identify candidates of suspicious individuals who may have become leak sources.

特開2008−165511号公報JP 2008-165511 A

しかしながら、上記従来技術においては以下のような問題点があった。
(1)漏洩元情報の形態の多様性の問題
上記特許文献1は、電子帳票システムに作用を限定しているため、電子帳票システム以外のシステムや、システム化されていないワープロ・表計算等の文書データについては追跡することが出来ない。すなわち、情報が文書データ(ワープロ、表計算等)やシステムデータ等の様々な形で管理されている場合には、漏洩元と思われる情報源の探索において、人間がシステム毎あるいは文書単位で目視判断をせざるを得ず、情報源の絞込みには、どうしても時間がかかっていた。
(2)アクセスログに関する問題
絞り込んだ漏洩元候補情報のアクセスログは膨大であり、しかも追跡はシステム毎に行う必要があるため、時間がかかっていた。また、文書データ(ワープロ・表計算等)についてはアクセスログが無いケースが通常であり、情報漏洩者の絞込みや特定には決め手を欠いていた。
そこで、本発明は、上記従来技術の問題に鑑み、漏洩情報源の定量的な候補特定とアクセスログからの漏洩候補者の特定を行える漏洩情報追跡システムおよび漏洩情報追跡プログラムを提供することを目的とする。
However, the above prior art has the following problems.
(1) Problem of Diversity of Leakage Source Information Form Since the above-mentioned Patent Document 1 limits the action to an electronic form system, such as a system other than the electronic form system, an unsystemized word processor, spreadsheet, etc. Document data cannot be tracked. In other words, when information is managed in various forms such as document data (word processors, spreadsheets, etc.) and system data, humans are visually inspected for each system or for each document when searching for an information source that seems to be a leak source. There was no choice but to narrow down the source of information.
(2) Problems related to access log Since the access log of the narrowed leak source candidate information is enormous and tracking must be performed for each system, it takes time. In addition, there is usually no access log for document data (word processors, spreadsheets, etc.), and there is a lack of decisiveness in narrowing down and identifying information leakers.
Accordingly, in view of the above-described problems of the prior art, an object of the present invention is to provide a leakage information tracking system and a leakage information tracking program capable of quantitatively identifying a leakage information source and specifying a leakage candidate from an access log. And

本発明に係る漏洩情報追跡システムは、技術情報の文書データを保有する技術文書データサーバおよび前記技術情報をデータベース内で保有する技術情報管理システムに社内ネットワークを介して接続され、前記技術文書データサーバおよび前記技術情報管理システムから前記文書データおよび前記データベースの保有データをそれぞれ収集し、これらをテキストデータ化した知識データを登録する知識データ収集・登録部と、前記知識データが登録される知識データベースと、外部入力された検索条件に基づいて前記知識データベースを検索すると共に、その検索に係るユーザの識別情報および操作区分を含むアクセスログを出力する知識データベース検索部と、前記出力されたアクセスログを格納するアクセスログ格納部と、前記社内ネットワーク外に公開された漏洩情報のテキストデータに基づいて前記知識データベース内の知識データを参照し、前記漏洩情報の元となる漏洩元候補情報を特定する漏洩元候補情報特定部と、前記特定された漏洩元候補情報に基づいて前記アクセスログ格納部のアクセスログを追跡し、情報漏洩の可能性を有するユーザを抽出するアクセスログ追跡部と、を備えることを特徴とする。   A leakage information tracking system according to the present invention is connected to a technical document data server holding document data of technical information and a technical information management system holding the technical information in a database via an in-house network, and the technical document data server And a knowledge data collection / registration unit for collecting the document data and the data held in the database from the technical information management system and registering the knowledge data obtained by converting the data into text data, and a knowledge database in which the knowledge data is registered, A knowledge database search unit for searching the knowledge database based on an externally input search condition and outputting an access log including user identification information and operation classification related to the search; and storing the output log Access log storage unit and the internal network A leakage source candidate information specifying unit that refers to knowledge data in the knowledge database based on text data of leakage information released outside the network and specifies leakage source candidate information that is a source of the leakage information, and the specified An access log tracking unit that tracks an access log in the access log storage unit based on the leaked source candidate information and extracts a user who has a possibility of information leakage.

本発明に係る漏洩情報追跡プログラムは、技術情報の文書データを保有する技術文書データサーバおよび前記技術情報をデータベース内で保有する技術情報管理システムに社内ネットワークを介して接続されており、前記技術情報をテキスト形式の知識データとして管理する知識データベースを備えるコンピュータに、前記技術文書データサーバおよび前記技術情報管理システムから前記文書データおよび前記データベースの保有データをそれぞれ収集し、これらをテキストデータ化して前記知識データベースに登録する知識データ収集・登録ステップと、外部入力された検索条件に基づいて前記知識データベースを検索すると共に、その検索に係るユーザの識別情報および操作区分を含むアクセスログを出力する知識データベース検索ステップと、前記社内ネットワーク外に公開された漏洩情報のテキストデータに基づいて前記知識データベース内の知識データを参照し、前記漏洩情報の元となる漏洩元候補情報を特定する漏洩元候補情報特定ステップと、前記特定された漏洩元候補情報に基づいて前記アクセスログを追跡し、情報漏洩の可能性を有するユーザを抽出するアクセスログ追跡ステップと、を実行させることを特徴とする。   The leakage information tracking program according to the present invention is connected to a technical document data server that holds document data of technical information and a technical information management system that holds the technical information in a database via an in-house network. The document data and the data held in the database are respectively collected from the technical document data server and the technical information management system in a computer having a knowledge database for managing the knowledge data as text format knowledge data, and the knowledge data is converted into text data. Knowledge data collection / registration step to be registered in the database and knowledge database search for searching the knowledge database based on externally input search conditions and outputting an access log including user identification information and operation classification related to the search Ste And leak source candidate information specifying step of referring to knowledge data in the knowledge database based on text data of leak information published outside the in-house network and specifying leak source candidate information that is a source of the leak information And an access log tracking step of tracking the access log based on the specified leakage source candidate information and extracting a user having a possibility of information leakage.

本発明によれば、漏洩情報源の定量的な候補特定とアクセスログからの漏洩候補者の特定を行える漏洩情報追跡システムおよび漏洩情報追跡プログラムが提供される。   According to the present invention, there are provided a leakage information tracking system and a leakage information tracking program capable of quantitatively specifying a leakage information source candidate and specifying a leakage candidate from an access log.

本発明の一実施形態に係る漏洩情報追跡システムの全体構成例を示す図。The figure which shows the example of whole structure of the leakage information tracking system which concerns on one Embodiment of this invention. 図1に示す漏洩情報追跡装置のハードウェア構成例を示すブロック図。The block diagram which shows the hardware structural example of the leak information tracking apparatus shown in FIG. 図1に示す知識共有サーバおよび漏洩情報追跡装置の各部の関係を示すブロック図。The block diagram which shows the relationship between each part of the knowledge sharing server shown in FIG. 1, and a leakage information tracking device. 図1に示す知識共有サーバ内における処理の具体例を示すフローチャート。The flowchart which shows the specific example of the process in the knowledge sharing server shown in FIG. 図1に示す漏洩元候補情報特定部内における処理の具体例を示すフローチャート。The flowchart which shows the specific example of the process in the leak source candidate information specific | specification part shown in FIG. 漏洩元候補情報検索結果の出力フォーマットの具体例を示す図。The figure which shows the specific example of the output format of leak source candidate information search result. 図1に示す漏洩情報追跡装置のアクセスログ追跡部における処理の具体例を示すフローチャートThe flowchart which shows the specific example of the process in the access log tracking part of the leakage information tracking apparatus shown in FIG. アクセスログ追跡条件設定画面の具体例を示す図。The figure which shows the specific example of an access log tracking condition setting screen. アクセスログの具体例を示す図。The figure which shows the specific example of an access log. ワークファイルの具体例を示す図。The figure which shows the specific example of a work file. アクセスログ追跡結果の表示例を示す図。The figure which shows the example of a display of an access log tracking result. 漏洩情報追跡結果レポートの具体例を示す図。The figure which shows the specific example of a leakage information tracking result report.

以下、本発明の実施形態について図面を用いて説明する。図1は、本発明の一実施形態に係る漏洩情報追跡システム10の全体構成例を示す図である。同図に示されるように、本実施形態に係る漏洩情報追跡システム10は、知識共有サーバ11と漏洩情報追跡装置12が社内ネットワーク20を介して接続されたコンピュータシステムである。   Hereinafter, embodiments of the present invention will be described with reference to the drawings. FIG. 1 is a diagram showing an example of the overall configuration of a leakage information tracking system 10 according to an embodiment of the present invention. As shown in the figure, the leakage information tracking system 10 according to the present embodiment is a computer system in which a knowledge sharing server 11 and a leakage information tracking device 12 are connected via an in-house network 20.

知識共有サーバ11は、社内各所に点在する技術文書データサーバ30、技術情報管理システム40にLANなどの社内ネットワーク(イントラネット)20を介して接続されており、技術情報をXML(eXtensible Markup Language)形式の知識データとして管理する知識データベース111と、技術文書データサーバ30および技術情報管理システム40から技術情報を抽出して収集し、知識データベース111への登録を行う知識データ収集・登録部112と、収集した技術情報の検索サービス機能と操作履歴を含むアクセスログの出力機能を提供する知識データベース検索部113と、このアクセスログを格納するアクセスログ格納部114とを備えたサーバである。この知識共有サーバ11は、例えば、本出願人が提供するTX1(登録商標)などのXMLデータベースとナレッジマネジメント支援ソフトウェアであるKnowledgeMeister(登録商標)を組み合わせることにより実装できる。   The knowledge sharing server 11 is connected to the technical document data servers 30 and the technical information management system 40 scattered throughout the company via an in-house network (intranet) 20 such as a LAN, and the technical information is stored in XML (eXtensible Markup Language). A knowledge database 111 managed as knowledge data in a format, a knowledge data collection / registration unit 112 that extracts and collects technical information from the technical document data server 30 and the technical information management system 40, and registers the knowledge information in the knowledge database 111; The server includes a knowledge database search unit 113 that provides a search service function of collected technical information and an output function of an access log including an operation history, and an access log storage unit 114 that stores the access log. The knowledge sharing server 11 can be implemented, for example, by combining an XML database such as TX1 (registered trademark) provided by the present applicant and Knowledge Meister (registered trademark) that is knowledge management support software.

漏洩情報追跡装置12は、社内ネットワーク20にファイアーウォール50を介して接続された社外ネットワーク60(インターネット)上の社外Webサーバ70から取得される漏洩情報に基づいて知識共有サーバ11内の知識データベース111を検索し、漏洩元情報の候補の絞込みおよび特定、並びにアクセスログの追跡によって情報漏洩候補となる不審な社員の絞込みおよび特定を行う装置である。   The leakage information tracking device 12 is configured to use the knowledge database 111 in the knowledge sharing server 11 based on the leakage information acquired from the external Web server 70 on the external network 60 (Internet) connected to the internal network 20 via the firewall 50. This is a device that narrows down and identifies candidates for leakage source information, and narrows down and identifies suspicious employees who are candidates for information leakage by tracking access logs.

この漏洩情報追跡装置12は、知識共有サーバ11から漏洩元情報の候補を探索して漏洩元候補情報を生成する漏洩元候補情報特定部121と、この漏洩元候補情報を格納する漏洩元候補情報格納部122と、漏洩元候補情報に基づいて、アクセスログを追跡してアクセスログ追跡結果として情報漏洩の可能性の有る不審な社員のリストアップを行うアクセスログ追跡部123と、アクセスログ追跡結果を格納するアクセスログ追跡結果格納部124とを機能として備えている。   The leak information tracking device 12 searches for leak source information candidates from the knowledge sharing server 11 to generate leak source candidate information, and leak source candidate information for storing the leak source candidate information. Based on the leakage source candidate information, the storage unit 122, the access log tracking unit 123 that tracks the access log and lists suspicious employees who may leak information as the access log tracking result, and the access log tracking result As a function of an access log tracking result storage unit 124.

技術文書データサーバ30は、ワープロ文書、表計算等の様々な文書データを保管するサーバであり、いわゆるファイルサーバであっても良いし、文書管理システムであっても良い。また、技術情報管理システム40は、技術情報を管理するアプリケーションシステムであって良いし、データベースシステムであっても良い。ここでは、社内ネットワーク20はファイアーウォール50を介して社外ネットワーク60に接続され、ネットワーク間の通信は制限されているものとする。   The technical document data server 30 is a server that stores various document data such as word processing documents and spreadsheets, and may be a so-called file server or a document management system. The technical information management system 40 may be an application system that manages technical information, or may be a database system. Here, it is assumed that the internal network 20 is connected to the external network 60 via the firewall 50, and communication between the networks is restricted.

社外Webサーバ70は、社外ネットワーク60を介して接続されたクライアント端末(図示省略する)からの要求に応じてHTML文書(Hyper Text Markup Language)を作成し、クライアント端末へ出力するサーバである。HTML文書の具体例としては、掲示板、ニュース、ブログ等が挙げられる。   The external Web server 70 is a server that creates an HTML document (Hyper Text Markup Language) in response to a request from a client terminal (not shown) connected via the external network 60 and outputs it to the client terminal. Specific examples of HTML documents include bulletin boards, news, and blogs.

図2は、図1に示す漏洩情報追跡装置12のハードウェア構成例を示すブロック図である。CPU(Central Processing Unit)131は、システムバスに接続される各デバイスを統括的に制御する中央制御装置である。RAM(Random Access Memory)132は、CPU131の主メモリとして使用し、OS用エリア、プログラムエリア、ワークエリア、一時退避領域等として機能する記憶装置である。   FIG. 2 is a block diagram illustrating a hardware configuration example of the leakage information tracking device 12 illustrated in FIG. A CPU (Central Processing Unit) 131 is a central control device that comprehensively controls each device connected to the system bus. A RAM (Random Access Memory) 132 is a storage device that is used as a main memory of the CPU 131 and functions as an OS area, a program area, a work area, a temporary save area, and the like.

ROM(Read Only Memory)133は、CPU131の制御プログラムであるオペレーティングシステム(OS)や漏洩情報追跡装置12の各種機能を実現するためのプログラムを記憶する読み取り専用の記憶装置である。
LANアダプタ134は、LAN(社内ネットワーク20)を介して外部機器(知識共有サーバ11)との通信を制御するネットワーク接続制御機構である。ビデオアダプタ135は表示装置との接続機構である。
A ROM (Read Only Memory) 133 is a read-only storage device that stores an operating system (OS) that is a control program of the CPU 131 and programs for realizing various functions of the leakage information tracking device 12.
The LAN adapter 134 is a network connection control mechanism that controls communication with an external device (knowledge sharing server 11) via a LAN (in-house network 20). The video adapter 135 is a connection mechanism with the display device.

キーボード136およびマウス137は、ユーザの操作に応じた入力情報をCPU131に入力する入力装置である。
補助記憶装置138は、プログラムやデータを蓄積する大容量の記憶装置であり、例えばハードディスクやSSD(Solid State Drive)などである。
記憶媒体ドライブ139は、フレキシブルディスク、光ディスク、光磁気ディスク、CD‐ROM、CD‐R、磁気テープ、不揮発性のメモリカード、DVD‐R等の記憶媒体に対するデータの読み書きを行う装置である。なお、上述した漏洩情報追跡装置12の各種機能を実現するためのプログラムは、これらの記憶媒体から取得し、CPU131に供給するようにしても良いし、インターネットなどの通信媒体を介して他の通信装置から取得し、CPU131に供給するようにしても良い。
A keyboard 136 and a mouse 137 are input devices that input input information in accordance with user operations to the CPU 131.
The auxiliary storage device 138 is a large-capacity storage device that accumulates programs and data, and is, for example, a hard disk or an SSD (Solid State Drive).
The storage medium drive 139 is a device that reads / writes data from / to a storage medium such as a flexible disk, an optical disk, a magneto-optical disk, a CD-ROM, a CD-R, a magnetic tape, a nonvolatile memory card, and a DVD-R. Note that the program for realizing the various functions of the leakage information tracking device 12 described above may be acquired from these storage media and supplied to the CPU 131, or other communication via a communication medium such as the Internet. It may be acquired from the apparatus and supplied to the CPU 131.

尚、知識共有サーバ11のハードウェア構成は漏洩情報追跡装置12と同様である。即ち、知識共有サーバ11の補助記憶装置138等に知識共有サーバ11のCPU131が後述する各種機能を実現するためのプログラムが格納される。このプログラムは、補助記憶装置138の他に、記憶媒体ドライブ139からCPU131に供給しても良いし、インターネット等の通信媒体を介して供給されても良い。   The hardware configuration of the knowledge sharing server 11 is the same as that of the leakage information tracking device 12. That is, programs for realizing various functions described later by the CPU 131 of the knowledge sharing server 11 are stored in the auxiliary storage device 138 of the knowledge sharing server 11 or the like. In addition to the auxiliary storage device 138, this program may be supplied from the storage medium drive 139 to the CPU 131 or may be supplied via a communication medium such as the Internet.

図3は、図1に示す知識共有サーバ11および漏洩情報追跡装置12の各部の関係を示すブロック図である。先ず、知識共有サーバ11について詳述する。同図に示されるように、知識共有サーバ11の知識データ収集・登録部112は、社内ネットワーク20(LAN)に接続された技術文書データサーバ30および技術情報管理システム40から、技術情報をテキストとして抽出し、知識データベース111にXML形式で情報を登録、蓄積するプログラムである。柔軟なデータ構造が採れるXML形式で技術情報の登録を行うため、非定型データの管理にも有効であり、項目の変更やシステムの拡張があった場合でも対応が容易である。尚、文書データの場合に抽出されるテキストの具体例としては、文書ファイルの作成日付、更新日付、作成者名などの属性情報や文書ファイル内のテキスト(本文)が挙げられる。また、抽出したテキストと共に文書コンテンツ自体の登録も行う。また、技術文書データサーバ30が、アクセスログが存在する文書管理システムの場合には、これを一旦知識データベース111に登録した上で、アクセスログを所定の形式に変換して登録を行う。技術情報管理システム40に関しても、アクセスログがある場合は同様である。   FIG. 3 is a block diagram showing the relationship between each part of the knowledge sharing server 11 and the leaked information tracking device 12 shown in FIG. First, the knowledge sharing server 11 will be described in detail. As shown in the figure, the knowledge data collection / registration unit 112 of the knowledge sharing server 11 receives technical information as text from the technical document data server 30 and the technical information management system 40 connected to the in-house network 20 (LAN). This is a program for extracting and registering and storing information in the knowledge database 111 in XML format. Since technical information is registered in an XML format that can adopt a flexible data structure, it is also effective for managing atypical data, and it is easy to cope with changes in items and system expansion. Specific examples of text extracted in the case of document data include attribute information such as the creation date, update date, and creator name of the document file, and text (text) in the document file. Also, the document content itself is registered together with the extracted text. If the technical document data server 30 is a document management system in which an access log exists, the technical document data server 30 registers this in the knowledge database 111 and then converts the access log into a predetermined format for registration. The same applies to the technical information management system 40 when there is an access log.

知識データベース検索部113は、知識データベース111に一元化された技術情報の検索サービスを社内向けに一元的に提供するプログラムであり、技術情報を検索する担当者は、必ずこの検索機能により技術情報の検索を行うものとする。知識データベース検索部113においては、自然文もしくはキーワードを用いた検索が行なわれ、ヒットした文書のタイトルなどを検索結果として一覧表示する。そして、検索者はヒットした文書のタイトルを一覧から選択することで、その文書のテキスト、もしくはコンテンツを閲覧したり、印刷したり、ダウンロードしたりすることが可能である。この際、知識データベース検索部113は、アクセスログ格納部114に、“誰が”、“いつ”、“何を”、“どうしたか(閲覧/印刷/ダウンロード)”を含むアクセスログを出力する。   The knowledge database search unit 113 is a program that provides a search service for technical information that is centralized in the knowledge database 111 in a centralized manner, and the person in charge of searching for technical information always uses this search function to search for technical information. Shall be performed. The knowledge database search unit 113 performs a search using natural sentences or keywords, and displays a list of hit document titles as search results. The searcher can select the title of the hit document from the list, and can browse, print, or download the text or content of the document. At this time, the knowledge database search unit 113 outputs an access log including “who”, “when”, “what”, “how (view / print / download)” to the access log storage unit 114.

次に、漏洩情報追跡装置12について詳述する。この漏洩情報追跡装置12は、情報漏洩が発生し、その情報の公開が明らかになった場合の漏洩情報の追跡を行う際に使用される。本実施形態における漏洩情報は、インターネット上のWebサイト、掲示板サイトなどのネットワーク上に公開された情報であるが、広く公衆に公開された社外秘情報を示す。例えば、CD−Rなどに格納された電子ファイルや印刷された文書などであってもテキストデータとして読込むことで漏洩元の追跡が可能である。   Next, the leakage information tracking device 12 will be described in detail. The leakage information tracking device 12 is used when tracking leakage information when information leakage occurs and the disclosure of the information becomes clear. The leaked information in the present embodiment is information disclosed on a network such as a website on the Internet or a bulletin board site, but indicates confidential information widely disclosed to the public. For example, even an electronic file stored on a CD-R or a printed document can be traced by reading it as text data.

図3に示されるように、漏洩情報追跡装置12の漏洩元候補情報特定部121の機能は、テキスト抽出部121a、テキスト解析部121b、漏洩元候補情報抽出部121cおよび漏洩元候補情報出力部121dに分類される。
テキスト抽出部121aは、公開されている漏洩情報から漏洩内容をテキストとして抽出して取込むプログラムである。このテキスト抽出部121aは、特定のアプリケーションの形式に従うファイルをテキスト形式に変換する機能を有する。即ち、文書編集プログラム(ワープロ文書)、表計算プログラム等のアプリケーションで使用される書式のファイルや、HTML書式のファイル等のデータを特定の書式を含まない形式(テキスト形式)のファイルに変換する。そして、この時取込まれた漏洩内容のテキストが漏洩元情報の検索条件として用いられる。
As shown in FIG. 3, the functions of the leak source candidate information specifying unit 121 of the leak information tracking device 12 are a text extraction unit 121a, a text analysis unit 121b, a leak source candidate information extraction unit 121c, and a leak source candidate information output unit 121d. are categorized.
The text extraction unit 121a is a program that extracts leaked contents as text from publicly disclosed leaked information. The text extraction unit 121a has a function of converting a file conforming to a specific application format into a text format. That is, data such as a file in a format used by an application such as a document editing program (word processing document) or a spreadsheet program, or a file in an HTML format is converted into a file (text format) that does not include a specific format. The text of the leaked content captured at this time is used as a search condition for the leaked source information.

テキスト解析部121bは、テキスト抽出部121aで取込まれたテキストの形態素解析、構文解析および意味解析を行い、知識データベース111を実際に検索する検索キーワードを生成するプログラムである。「形態素解析」とは、文章を形態素に分割し、形態素の品詞分けを行うことである。「構文解析」とは、文の構造を解析し、係り・受けの関係を明らかにすることである。「意味解析」とは、シソーラス辞書に基づいて関連語を検索し、文の意味を派生的に捉えることで検索キーワードの精度を高める役割を果たす。テキスト解析部121bは、これらの解析結果により、入力テキストから検索キーワードを生成し、漏洩元候補情報抽出部121cへ出力する。   The text analysis unit 121b is a program that performs morphological analysis, syntax analysis, and semantic analysis of the text captured by the text extraction unit 121a, and generates a search keyword that actually searches the knowledge database 111. “Morphological analysis” is to divide a sentence into morphemes and divide the parts of speech of the morphemes. “Syntactic analysis” means analyzing the structure of a sentence and clarifying the relationship between dependency and reception. “Semantic analysis” plays a role of improving the accuracy of a search keyword by searching related terms based on a thesaurus dictionary and capturing the meaning of a sentence in a derivative manner. Based on these analysis results, the text analysis unit 121b generates a search keyword from the input text and outputs it to the leak source candidate information extraction unit 121c.

漏洩元候補情報抽出部121cは、テキスト解析部121bで生成・出力された検索キーワードに基づいて、知識データベース111を検索するプログラムである。
漏洩元候補情報出力部121dは、検索の結果をマッチングの度合いの高い順にソートして漏洩元候補情報格納部122に出力するプログラムである。
The leakage source candidate information extraction unit 121c is a program that searches the knowledge database 111 based on the search keyword generated and output by the text analysis unit 121b.
The leak source candidate information output unit 121d is a program that sorts the search results in descending order of matching and outputs them to the leak source candidate information storage unit 122.

また、図3に示されるように、漏洩情報追跡装置12のアクセスログ追跡部123の機能は、追跡条件入力部123a、追跡処理部123b、アクセス者抽出処理部123cおよびアクセスログ追跡結果出力部123dに分類される。
条件入力部123aは、知識共有サーバ11のアクセスログ格納部114に格納されているアクセスログを追跡する条件を入力させる画面を出力すると共に、画面上からマウスやキーボード等を用いて入力された情報を取得するプログラムである。
Further, as shown in FIG. 3, the function of the access log tracking unit 123 of the leakage information tracking device 12 is that a tracking condition input unit 123a, a tracking processing unit 123b, an accessor extraction processing unit 123c, and an access log tracking result output unit 123d. are categorized.
The condition input unit 123a outputs a screen for inputting conditions for tracking the access log stored in the access log storage unit 114 of the knowledge sharing server 11, and information input using a mouse or a keyboard from the screen. It is a program that acquires.

追跡処理部123bは、追跡条件入力部123aにおいて入力された追跡開始・終了日付条件と漏洩元候補情報検索結果の内容に基づいて知識共有サーバ11(アクセスログ格納部114)内のアクセスログを参照し、追跡するプログラムである。   The tracking processing unit 123b refers to the access log in the knowledge sharing server 11 (access log storage unit 114) based on the tracking start / end date condition input in the tracking condition input unit 123a and the content of the leakage source candidate information search result. And tracking program.

アクセス者抽出処理部123cは、追跡処理部123bが作成したワークファイル内のアクセス者IDに基づいてアクセス者情報を抽出し、ワークファイルへの追記を行うプログラムである。
アクセスログ追跡結果出力部123dは、アクセス者抽出処理部123cで更新したワークファイルの内容をアクセス者ID順にソートし、アクセス者ID毎にマッチングスコアの集計を行い、その集計結果を出力するプログラムである。
The accessor extraction processing unit 123c is a program that extracts accessor information based on the accessor ID in the work file created by the tracking processing unit 123b and adds the information to the work file.
The access log tracking result output unit 123d is a program that sorts the contents of the work file updated by the accessor extraction processing unit 123c in the order of accessor ID, aggregates matching scores for each accessor ID, and outputs the aggregation result. is there.

以下、本実施形態に係る漏洩情報追跡システム10を構成する各装置の動作を図面に基づいて説明する。図4は、図1に示す知識共有サーバ11内における処理の具体例を示すフローチャートである。   Hereinafter, the operation of each device constituting the leakage information tracking system 10 according to the present embodiment will be described with reference to the drawings. FIG. 4 is a flowchart showing a specific example of processing in the knowledge sharing server 11 shown in FIG.

S401において、知識データ収集・登録部112は、社内ネットワーク20(LAN)に接続された技術文書データサーバ30および技術情報管理システム40から技術情報をテキストとして抽出する。   In S401, the knowledge data collection / registration unit 112 extracts technical information as text from the technical document data server 30 and the technical information management system 40 connected to the in-house network 20 (LAN).

S402において、知識データ収集・登録部112は、抽出されたテキストデータを知識データベース111にXML形式で情報を登録、蓄積する。この際、収集された技術情報が文書データの場合には、抽出したテキストと共に文書コンテンツ自体の登録を行う。技術情報の収集・登録処理は夜間バッチ処理で行っても良く、収集元における技術情報の登録・更新に合せてリアルタイムで行っても良い。   In S402, the knowledge data collection / registration unit 112 registers and accumulates the extracted text data in the knowledge database 111 in the XML format. At this time, if the collected technical information is document data, the document content itself is registered together with the extracted text. The technical information collection / registration process may be performed by night-time batch processing, or may be performed in real time in accordance with the registration / update of the technical information at the collection source.

S403において、知識データ収集・登録部112は、技術情報の収集元のサーバまたはシステムにアクセスログが存在するか否かを判定する。ここで、収集元にアクセスログが存在すると判定された場合はS404へ進み、存在しないと判定された場合はS405へ進む。   In step S403, the knowledge data collection / registration unit 112 determines whether an access log exists in the server or system from which the technical information is collected. If it is determined that there is an access log at the collection source, the process proceeds to S404. If it is determined that no access log exists, the process proceeds to S405.

S404において、知識データ収集・登録部112は、技術情報の収集元に存在するアクセスログを取得し、これを一旦知識データベース111に登録した上で、アクセスログを所定の形式に変換してアクセスログ格納部114への登録を行う。   In S404, the knowledge data collection / registration unit 112 acquires an access log that exists at the collection source of the technical information, registers the access log in the knowledge database 111, converts the access log into a predetermined format, and then accesses the access log. Registration in the storage unit 114 is performed.

S405において、知識データベース検索部113は、知識データベース111に一元化された技術情報の検索要求の有無を判定する。ここで、ユーザより知識データベース111の検索要求有りと判定された場合には、S406へ進む。これに対し、検索要求無しと判定された場合には、検索要求が有るまで待機状態となる。   In step S <b> 405, the knowledge database search unit 113 determines whether or not there is a search request for technical information integrated in the knowledge database 111. If it is determined that there is a search request for the knowledge database 111 from the user, the process proceeds to S406. On the other hand, if it is determined that there is no search request, the system waits until there is a search request.

S406において、知識データベース検索部113は、入力された自然文やキーワードなどの検索条件に基づいて知識データベース111を検索し、ヒットした文書のタイトルなど検索結果として表示する。
S407において、知識データベース検索部113は、ユーザが画面上で選択した文書タイトルおよび操作区分を取得する。
In S <b> 406, the knowledge database search unit 113 searches the knowledge database 111 based on the input search conditions such as natural sentences and keywords, and displays the titles of hit documents as search results.
In step S407, the knowledge database search unit 113 acquires the document title and operation category selected by the user on the screen.

S408において、知識データベース検索部113は、ユーザが選択した文書のタイトルおよび操作区分(閲覧/印刷/ダウンロード等)に応じた処理を行う。
S409において、知識データベース検索部113は、S407の処理内容に基づいて“誰が”、“いつ”、“何を”、“どうしたか(閲覧/印刷/ダウンロード)”を含むアクセスログを作成すると共に、このアクセスログをアクセスログ格納部114へ出力し、処理を終了する。
In step S <b> 408, the knowledge database search unit 113 performs processing according to the title and operation classification (viewing / printing / downloading, etc.) of the document selected by the user.
In S409, the knowledge database search unit 113 creates an access log including “who”, “when”, “what”, “how (viewing / printing / downloading)” based on the processing content of S407, This access log is output to the access log storage unit 114, and the process ends.

図5は、図1に示す漏洩元候補情報特定部121内における処理の具体例を示すフローチャートである。
S501において、テキスト抽出部121aは、公開されている漏洩情報から漏洩内容をテキストとして抽出して取込む。この際、テキスト抽出部121aは、特定のアプリケーションの形式に従うファイルをテキスト形式に変換する。即ち、文書編集プログラム(ワープロ文書)、表計算プログラム等のアプリケーションで使用される書式のファイルやHTML書式のファイル等のデータを特定の書式を含まない形式(テキスト形式)のファイルに変換し、この時取込んだ漏洩内容のテキストを漏洩元情報の検索条件として用いる。
FIG. 5 is a flowchart showing a specific example of processing in leakage source candidate information specifying unit 121 shown in FIG.
In step S501, the text extraction unit 121a extracts the leakage content as text from the disclosed leakage information and takes it in. At this time, the text extraction unit 121a converts a file conforming to a specific application format into a text format. That is, data such as a file in a format used in an application such as a document editing program (word processing document) or a spreadsheet program or a file in HTML format is converted into a file (text format) that does not include a specific format. The text of the leaked content captured at that time is used as a search condition for the leaked source information.

S502において、テキスト解析部121bは、テキスト抽出部121aで取込まれたテキストの形態素解析、構文解析および意味解析を行い、知識データベース111を実際に検索する検索キーワードを生成する。
S503において、漏洩元候補情報抽出部121cは、テキスト解析部121bで生成・出力された検索キーワードに基づいて、知識データベース111を検索する。検索キーワードで知識データベース111の全文検索を行い、検索キーワードを含む技術情報を抽出する。検索は、入力テキストの形態素解析結果のキーワードだけでなく、意味解析の結果で生成された関連語や派生語も使用することでより精度の高い検索を行う。
In S502, the text analysis unit 121b performs morphological analysis, syntax analysis, and semantic analysis of the text captured by the text extraction unit 121a, and generates a search keyword for actually searching the knowledge database 111.
In S503, the leakage source candidate information extraction unit 121c searches the knowledge database 111 based on the search keyword generated and output by the text analysis unit 121b. A full text search of the knowledge database 111 is performed using the search keyword, and technical information including the search keyword is extracted. The search is performed with higher accuracy by using not only the keyword of the morphological analysis result of the input text but also the related word or derivative word generated from the result of the semantic analysis.

S504において、漏洩元候補情報抽出部121cは、検索キーワードを含む知識データ(技術情報)の有無を判定する。ここで、該当する知識データ有りと判定された場合にはS505へ進む。これに対し、該当する知識データ無しと判定された場合には、処理を終了する。   In S504, the leakage source candidate information extraction unit 121c determines whether there is knowledge data (technical information) including the search keyword. If it is determined that the corresponding knowledge data exists, the process proceeds to S505. On the other hand, if it is determined that there is no corresponding knowledge data, the process ends.

S505において、漏洩元候補情報出力部121dは、検索キーワードにヒットした回数のカウントを行ってマッチングスコアとすると共に、マッチングの度合いの高い順にソートして漏洩元候補情報検索結果ファイルに出力し、処理を終了する。図6は、漏洩元候補情報検索結果の出力フォーマットの具体例を示す図である。図6に示される主キーは、検索結果のタイトルをユニークに識別可能な知識データベース111のタイトルキーである。タイトル名称は知識データベース111に登録されている技術情報の文書などのタイトル名称である。マッチングスコアは、漏洩元候補情報抽出部121cで検索を行った際のキーワードヒット回数の集計結果である。ここでは、漏洩元候補情報検索結果はマッチングスコアの高い順に降順にソートされ、漏洩元情報の可能性の高い順に出力されている。   In step S505, the leakage source candidate information output unit 121d counts the number of times the search keyword has been hit to obtain a matching score, and sorts the results in descending order of matching and outputs the result to the leakage source candidate information search result file. Exit. FIG. 6 is a diagram illustrating a specific example of the output format of the leak source candidate information search result. The primary key shown in FIG. 6 is the title key of the knowledge database 111 that can uniquely identify the title of the search result. The title name is a title name of a technical information document registered in the knowledge database 111. The matching score is a result of counting the keyword hit count when a search is performed by the leakage source candidate information extraction unit 121c. Here, the leakage source candidate information search results are sorted in descending order from the highest matching score, and are output in descending order of possibility of the leakage source information.

図7は、図1に示す漏洩情報追跡装置12のアクセスログ追跡部123における処理の具体例を示すフローチャートである。   FIG. 7 is a flowchart showing a specific example of processing in the access log tracking unit 123 of the leaked information tracking device 12 shown in FIG.

S701において、追跡条件入力部123aは、ユーザが画面上からマウスまたはキーボードを使って入力したアクセスログの追跡条件を取得する。図8は、アクセスログ追跡条件設定画面の具体例を示す図である。日付条件は、アクセスログを「どの時点」から「どの時点」までを追跡するか指定する。通常は、漏洩情報が掲載・公開されたと思われる日付を「追跡終了日」に指定し、情報漏洩が発生した可能性がある時期の始点の日付を「追跡開始日」に指定する。ユーザが画面の「開始」ボタンをマウスでクリックすると、アクセスログの追跡が開始される。また、「中止」ボタンをクリックすると、追跡条件の入力が中止され、プログラムは終了する。   In step S <b> 701, the tracking condition input unit 123 a acquires the tracking condition of the access log input by the user using the mouse or the keyboard from the screen. FIG. 8 is a diagram showing a specific example of the access log tracking condition setting screen. The date condition specifies from what point in time to which point the access log is tracked. Usually, the date when the leakage information is supposed to be published / published is designated as the “tracking end date”, and the starting date of the time when the information leakage may occur is designated as the “tracking start date”. When the user clicks the “start” button on the screen with the mouse, tracking of the access log is started. When the “Cancel” button is clicked, the input of the tracking condition is canceled and the program ends.

S702において、追跡処理部123bは、漏洩元候補情報格納部122を参照し、漏洩元候補情報が存在するか否かを判定する。ここで、漏洩元候補情報が存在すると判定された場合には、S703へ進む。これに対し、漏洩元候補情報が存在しないと判定された場合には、漏洩者を特定すべき漏洩情報が存在していないので処理を終了する。   In step S <b> 702, the tracking processing unit 123 b refers to the leakage source candidate information storage unit 122 and determines whether leakage source candidate information exists. If it is determined that there is leakage source candidate information, the process proceeds to S703. On the other hand, when it is determined that there is no leak source candidate information, the leak is not specified and there is no leak information that should identify the leaker.

S703において、追跡処理部123bは、追跡条件入力部123aにおいて入力された追跡開始・終了日付条件と漏洩元候補情報(文書ファイル名など)の内容に基づいて、知識共有サーバ11(知識データベース111)に格納されているアクセスログを追跡する。具体的には、漏洩元候補情報検索結果の主キー・タイトル名称に基づいてアクセスログ内を検索し、追跡開始・終了日付の範囲内に該当するアクセスログレコードを抽出し、これをワークファイルに書き出す。図9は、アクセスログの具体例を示す図である。同図に示されるように、アクセスログレコードは知識データベース検索部113での情報閲覧/印刷/ダウンロード等の履歴を管理している。また、図9の操作区分はアクセス者が該当タイトルに対してどのような操作を行ったかを表す区分である。本実施形態において、追跡処理部123bは、この操作区分の内、タイトルの「閲覧:B」「印刷:P」「ダウンロード:D」を抽出対象としてアクセスログレコードの抽出を行い、他の操作区分については抽出対象とはしないものとするが、抽出対象は任意に変更可能である。   In step S <b> 703, the tracking processing unit 123 b determines the knowledge sharing server 11 (knowledge database 111) based on the tracking start / end date conditions input in the tracking condition input unit 123 a and the contents of the leakage source candidate information (document file name, etc.). Track access logs stored in. Specifically, the access log is searched based on the primary key / title name of the leakage source candidate information search result, the corresponding access log record is extracted within the range of the tracking start / end date, and this is stored in the work file. Write out. FIG. 9 is a diagram illustrating a specific example of an access log. As shown in the figure, the access log record manages a history of information browsing / printing / downloading and the like in the knowledge database search unit 113. Further, the operation category of FIG. 9 is a category representing what operation the access person has performed on the corresponding title. In the present embodiment, the tracking processing unit 123b extracts access log records with the titles “browsing: B”, “printing: P”, and “downloading: D” among the operation categories, and extracts other operation categories. However, the extraction target can be arbitrarily changed.

S704において、アクセス者抽出処理部123cは、追跡処理部123bが作成したワークファイル内のアクセス者IDに基づいてユーザ情報からアクセス者情報を抽出し、ワークファイルへの追記を行う。図10は、ワークファイルの具体例を示す図である。ワークファイル内のアクセス者IDを検索キーとして知識共有サーバ11で管理されているユーザ情報を検索する。ユーザ情報からアクセス者IDで示される該当者の氏名、所属部署名称を抽出し、ワークファイルに追記を行う。この結果、ワークファイルには図10の情報が管理されることになる。   In S704, the accessor extraction processing unit 123c extracts the accessor information from the user information based on the accessor ID in the work file created by the tracking processing unit 123b, and adds it to the work file. FIG. 10 is a diagram illustrating a specific example of a work file. User information managed by the knowledge sharing server 11 is searched using the accessor ID in the work file as a search key. The name and department name of the corresponding person indicated by the accessor ID are extracted from the user information and added to the work file. As a result, the information shown in FIG. 10 is managed in the work file.

S705において、アクセスログ追跡結果出力部123dは、アクセス者抽出処理部123cで更新した図10のワークファイルの内容をアクセス者ID順にソートし、アクセス者ID毎にマッチングスコアの集計を行い、アクセスログ追跡結果として出力する。図11は、アクセスログ追跡結果の表示例を示す図である。同図においては、ワークファイル内の全てのアクセス者ID毎のマッチングスコアの集計が完了した後、アクセスログ追跡結果の内容を、マッチングスコアの降順、アクセス者IDの昇順でソートされることが示されている。   In S705, the access log tracking result output unit 123d sorts the contents of the work file in FIG. 10 updated by the accessor extraction processing unit 123c in the order of the accessor ID, and totals the matching score for each accessor ID. Output as tracking results. FIG. 11 is a diagram illustrating a display example of the access log tracking result. In the figure, after the matching score for all the accessor IDs in the work file is completed, the contents of the access log tracking results are sorted in descending order of the matching score and ascending order of the accessor ID. Has been.

S706において、アクセスログ追跡結果出力部123dは、処理結果から漏洩情報追跡結果レポートを作成・出力し、処理を終了する。図12は、漏洩情報追跡結果レポートの具体例を示す図である。同図に示されるように、漏洩情報追跡結果レポートには、漏洩元の候補情報の漏洩元情報検索結果の内容からタイトル名称とマッチングスコアが、マッチングスコアの降順(漏洩元の可能性の高い順)に表示されている。また、アクセスログを追跡した結果であるアクセスログ追跡結果から、漏洩元候補情報アクセス者のランキングトップ5名の氏名、所属部署、マッチングスコア合計が表示されている。更に、ランキングトップ5名のアクセスログ明細にはワークファイルの氏名、アクセス年月日・時刻、タイトル名称、操作区分が表示されている。   In S706, the access log tracking result output unit 123d creates and outputs a leakage information tracking result report from the processing result, and ends the processing. FIG. 12 is a diagram illustrating a specific example of a leakage information tracking result report. As shown in the figure, the leakage information tracking result report includes the title name and matching score in descending order of the matching score (in order of high possibility of leakage source) from the content of the leakage source information search result of the leakage source candidate information. ) Is displayed. In addition, from the access log tracking result, which is the result of tracking the access log, the names, departments, and matching score totals of the top five rankings of accessor of leaked candidate information are displayed. Further, the name of the work file, the access date / time, the title name, and the operation classification are displayed in the access log details of the top five rankings.

このように、漏洩情報追跡システム10を設けることにより、以下の効果が期待できる。
(1)技術情報を知識データベース111に一元化して検索することにより、技術情報へのアクセスログの採取とその追跡を確実に行える。
(2)漏洩情報そのものを漏洩元候補情報の検索条件とすることで、精度の高い漏洩元情報の候補絞込み・特定を行える。
(3)従来、人手に頼っていた漏洩元情報の特定とアクセスログの追跡をシステム化することによって、情報漏洩発生時の特定・追跡作業にかかる手間隙を大幅に削減することが可能となる。
Thus, by providing the leakage information tracking system 10, the following effects can be expected.
(1) By collecting and searching technical information in the knowledge database 111, it is possible to reliably collect and track the access log to the technical information.
(2) By using leaked information itself as a search condition for leaked source candidate information, it is possible to narrow down and identify candidates for leaked source information with high accuracy.
(3) By systematizing the identification of leakage source information and the tracking of access logs, which conventionally depended on humans, it is possible to greatly reduce the time and labor required for the identification and tracking work when information leakage occurs.

尚、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、知識共有サーバ11と漏洩情報追跡装置12が社内ネットワーク20を介して接続される構成としたが、一体の装置として形成しても良い。また、漏洩情報の対象は技術情報に限られず、営業秘密などの業務情報が漏洩した際の追跡にも本システムは適用可能である。   Note that the present invention is not limited to the above-described embodiment as it is, and can be embodied by modifying the constituent elements without departing from the scope of the invention in the implementation stage. In addition, various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiment. For example, although the knowledge sharing server 11 and the leakage information tracking device 12 are connected via the in-house network 20, they may be formed as an integrated device. The target of leaked information is not limited to technical information, and the system can be applied to tracking when business information such as trade secrets leaks.

10…漏洩情報追跡システム
11…知識共有サーバ
12…漏洩情報追跡装置
20…社内ネットワーク
30…技術文書データサーバ
40…技術情報管理システム
50…ファイアーウォール
60…社外ネットワーク
70…社外Webサーバ
111…知識データベース
112…知識データ収集・登録部
113…知識データベース検索部
114…アクセスログ格納部
121…漏洩元候補情報特定部
121a…テキスト抽出部
121b…テキスト解析部
121c…漏洩元候補情報抽出部
121d…漏洩元候補情報出力部
122…漏洩元候補情報格納部
123…アクセスログ追跡部
123a…追跡条件入力部
123b…追跡処理部
123c…アクセス者抽出処理部
123d…アクセスログ追跡結果出力部
124…アクセスログ追跡結果格納部
131…CPU
132…RAM
133…ROM
134…LANアダプタ
135…ビデオアダプタ
136…キーボード
137…マウス
138…補助記憶装置
139…記憶媒体ドライブ
DESCRIPTION OF SYMBOLS 10 ... Leakage information tracking system 11 ... Knowledge sharing server 12 ... Leakage information tracking device 20 ... Internal network 30 ... Technical document data server 40 ... Technical information management system 50 ... Firewall 60 ... External network 70 ... External Web server 111 ... Knowledge database 112 ... Knowledge data collection / registration unit 113 ... Knowledge database search unit 114 ... Access log storage unit 121 ... Leakage source candidate information identification unit 121a ... Text extraction unit 121b ... Text analysis unit 121c ... Leakage source candidate information extraction unit 121d ... Leakage source Candidate information output unit 122 ... Leakage source candidate information storage unit 123 ... Access log tracking unit 123a ... Tracking condition input unit 123b ... Tracking processing unit 123c ... Accessor extraction processing unit 123d ... Access log tracking result output unit 124 ... Access log tracking result Storage unit 131 CP
132 ... RAM
133 ... ROM
134 ... LAN adapter 135 ... video adapter 136 ... keyboard 137 ... mouse 138 ... auxiliary storage device 139 ... storage medium drive

Claims (5)

技術情報の文書データを保有する技術文書データサーバおよび前記技術情報をデータベース内で保有する技術情報管理システムに社内ネットワークを介して接続され、前記技術文書データサーバおよび前記技術情報管理システムから前記文書データおよび前記データベースの保有データをそれぞれ収集し、これらをテキストデータ化した知識データを登録する知識データ収集・登録部と、
前記知識データが登録される知識データベースと、
外部入力された検索条件に基づいて前記知識データベースを検索すると共に、その検索に係るユーザの識別情報および操作区分を含むアクセスログを出力する知識データベース検索部と、
前記出力されたアクセスログを格納するアクセスログ格納部と、
前記社内ネットワーク外に公開された漏洩情報のテキストデータに基づいて前記知識データベース内の知識データを参照し、前記漏洩情報の元となる漏洩元候補情報を特定する漏洩元候補情報特定部と、
前記特定された漏洩元候補情報に基づいて前記アクセスログ格納部のアクセスログを追跡し、情報漏洩の可能性を有するユーザを抽出するアクセスログ追跡部と、
を備えることを特徴とする漏洩情報追跡システム。
A technical document data server that holds technical data document data and a technical information management system that holds the technical information in a database are connected via an in-house network, and the document data from the technical document data server and the technical information management system. And a knowledge data collection / registration unit for collecting knowledge data stored in the database and registering knowledge data obtained by converting the data into text data,
A knowledge database in which the knowledge data is registered;
A knowledge database search unit that searches the knowledge database based on an externally input search condition and outputs an access log including user identification information and operation classification related to the search;
An access log storage unit for storing the output access log;
Leakage source candidate information identifying unit for referring to knowledge data in the knowledge database based on text data of leaked information published outside the in-house network, and identifying leakage source candidate information that is the source of the leakage information;
An access log tracking unit that tracks an access log of the access log storage unit based on the identified leakage source candidate information and extracts a user having a possibility of information leakage;
A leakage information tracking system characterized by comprising:
前記漏洩元候補情報特定部は、
前記漏洩情報よりテキストデータを抽出するテキスト抽出部と、
前記抽出されたテキストデータに対して形態素解析、構文解析および意味解析を行い、漏洩元候補情報に係る検索キーを生成するテキスト解析部と、
前記生成された検索キーに基づいて前記知識データベースを参照して前記知識データ毎に前記検索キーのヒット回数をカウントし、このヒット回数に基づいて前記漏洩元候補情報を抽出する漏洩元候補情報抽出部と、
を備えることを特徴とする請求項1記載の漏洩情報追跡システム。
The leakage source candidate information specifying unit
A text extraction unit for extracting text data from the leakage information;
A text analysis unit that performs morphological analysis, syntax analysis, and semantic analysis on the extracted text data, and generates a search key according to leakage source candidate information;
Leakage source candidate information extraction that refers to the knowledge database based on the generated search key, counts the number of hits of the search key for each knowledge data, and extracts the leak source candidate information based on the number of hits And
The leakage information tracking system according to claim 1, further comprising:
前記アクセスログ追跡部は、
前記漏洩元候補情報抽出部において抽出された漏洩元候補情報毎に前記アクセスログを追跡し、アクセス者およびアクセス回数を求める追跡処理部と、
前記漏洩元候補情報毎に前記アクセス者のアクセス回数を集計し、前記アクセス回数が上位のアクセス者の抽出を行うアクセス者抽出処理部と、
を備えることを特徴とする請求項2記載の漏洩情報追跡システム。
The access log tracking unit
A tracking processing unit that tracks the access log for each leakage source candidate information extracted by the leakage source candidate information extraction unit and obtains an accessor and the number of accesses;
An accessor extraction processing unit that counts the number of accesses of the accessor for each leakage source candidate information, and extracts an accessor having a higher access number;
The leakage information tracking system according to claim 2, further comprising:
前記知識データベース検索部は、前記知識データベースに対して行われた操作を少なくとも閲覧、印刷およびダウンロードの操作区分に分類し、この操作区分を前記アクセスログに含めて出力することを特徴とする請求項1乃至請求項3のいずれか一項記載の漏洩情報追跡システム。   The knowledge database search unit categorizes operations performed on the knowledge database into at least browsing, printing, and downloading operation categories, and outputs the operation categories included in the access log. The leakage information tracking system according to any one of claims 1 to 3. 技術情報の文書データを保有する技術文書データサーバおよび前記技術情報をデータベース内で保有する技術情報管理システムに社内ネットワークを介して接続されており、前記技術情報をテキスト形式の知識データとして管理する知識データベースを備えるコンピュータに、
前記技術文書データサーバおよび前記技術情報管理システムから前記文書データおよび前記データベースの保有データをそれぞれ収集し、これらをテキストデータ化して前記知識データベースに登録する知識データ収集・登録ステップと、
外部入力された検索条件に基づいて前記知識データベースを検索すると共に、その検索に係るユーザの識別情報および操作区分を含むアクセスログを出力する知識データベース検索ステップと、
前記社内ネットワーク外に公開された漏洩情報のテキストデータに基づいて前記知識データベース内の知識データを参照し、前記漏洩情報の元となる漏洩元候補情報を特定する漏洩元候補情報特定ステップと、
前記特定された漏洩元候補情報に基づいて前記アクセスログを追跡し、情報漏洩の可能性を有するユーザを抽出するアクセスログ追跡ステップと、
を実行させることを特徴とする漏洩情報追跡プログラム。
Knowledge that manages the technical information as text-format knowledge data, connected to a technical document data server that holds technical data document data and a technical information management system that holds the technical information in a database via an in-house network On the computer with the database,
A knowledge data collection / registration step for collecting the document data and the data held in the database from the technical document data server and the technical information management system, respectively, converting them into text data and registering them in the knowledge database;
A knowledge database search step of searching the knowledge database based on an externally input search condition and outputting an access log including user identification information and operation classification related to the search;
Leakage source candidate information identifying step for referring to knowledge data in the knowledge database based on text data of leakage information published outside the in-house network, and identifying leakage source candidate information that is the source of the leakage information;
An access log tracking step of tracking the access log based on the specified leak source candidate information and extracting a user having a possibility of information leakage;
Leakage information tracking program characterized by causing
JP2009239270A 2009-10-16 2009-10-16 System and program for tracking of leaked information Withdrawn JP2011086156A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009239270A JP2011086156A (en) 2009-10-16 2009-10-16 System and program for tracking of leaked information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009239270A JP2011086156A (en) 2009-10-16 2009-10-16 System and program for tracking of leaked information

Publications (1)

Publication Number Publication Date
JP2011086156A true JP2011086156A (en) 2011-04-28

Family

ID=44079047

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009239270A Withdrawn JP2011086156A (en) 2009-10-16 2009-10-16 System and program for tracking of leaked information

Country Status (1)

Country Link
JP (1) JP2011086156A (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014013476A (en) * 2012-07-04 2014-01-23 Hitachi Ltd File search method, file search device and program
CN112487415A (en) * 2020-12-09 2021-03-12 华控清交信息科技(北京)有限公司 Method and device for detecting safety of computing task
CN115242531A (en) * 2022-07-27 2022-10-25 上海齐屹信息科技有限公司 Method for tracking user information in multiple scenes across systems

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014013476A (en) * 2012-07-04 2014-01-23 Hitachi Ltd File search method, file search device and program
CN112487415A (en) * 2020-12-09 2021-03-12 华控清交信息科技(北京)有限公司 Method and device for detecting safety of computing task
CN112487415B (en) * 2020-12-09 2023-10-03 华控清交信息科技(北京)有限公司 Method and device for detecting security of computing task
CN115242531A (en) * 2022-07-27 2022-10-25 上海齐屹信息科技有限公司 Method for tracking user information in multiple scenes across systems
CN115242531B (en) * 2022-07-27 2023-12-22 上海齐屹信息科技有限公司 Method for tracking user information in cross-system multi-scene mode

Similar Documents

Publication Publication Date Title
US9817888B2 (en) Supplementing structured information about entities with information from unstructured data sources
US9760570B2 (en) Finding and disambiguating references to entities on web pages
WO2019091026A1 (en) Knowledge base document rapid search method, application server, and computer readable storage medium
US8972413B2 (en) System and method for matching comment data to text data
Saier et al. unarXive: a large scholarly data set with publications’ full-text, annotated in-text citations, and links to metadata
US20080189273A1 (en) System and method for utilizing advanced search and highlighting techniques for isolating subsets of relevant content data
US20100198802A1 (en) System and method for optimizing search objects submitted to a data resource
JP5329540B2 (en) User-centric information search method, computer-readable recording medium, and user-centric information search system
US9824155B2 (en) Automated electronic discovery collections and preservations
JP2015525929A (en) Weight-based stemming to improve search quality
CN112231494B (en) Information extraction method and device, electronic equipment and storage medium
JP2010044462A (en) Content evaluation server, content evaluation method and content evaluation program
Chawla et al. Automatic bug labeling using semantic information from LSI
US20120254166A1 (en) Signature Detection in E-Mails
JP2009122807A (en) Associative retrieval system
Kerremans et al. Using data-mining to identify and study patterns in lexical innovation on the web: The NeoCrawler
US20110252313A1 (en) Document information selection method and computer program product
JP2011086156A (en) System and program for tracking of leaked information
JP6384469B2 (en) Information processing apparatus, information processing system, control method, and program
JP5499546B2 (en) Important word extraction method, apparatus, program, recording medium
KR20080028031A (en) System extracting and displaying keyword and contents related with the keyword and method using the system
JP2002049638A (en) Document information retrieval device, method, document information retrieval program and computer readable recording medium storing document information retrieval program
JP5187187B2 (en) Experience information search system
Xiao et al. Querying specific message from chat logs of suspects based on keywords expansion
Freire Word occurrence based extraction of work contributors from statements of responsibility

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20130108