JP7472652B2 - Classification program, classification method, and classification device - Google Patents
Classification program, classification method, and classification device Download PDFInfo
- Publication number
- JP7472652B2 JP7472652B2 JP2020089137A JP2020089137A JP7472652B2 JP 7472652 B2 JP7472652 B2 JP 7472652B2 JP 2020089137 A JP2020089137 A JP 2020089137A JP 2020089137 A JP2020089137 A JP 2020089137A JP 7472652 B2 JP7472652 B2 JP 7472652B2
- Authority
- JP
- Japan
- Prior art keywords
- classification
- information
- logs
- log
- specific
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 50
- 238000004891 communication Methods 0.000 claims description 24
- 239000000284 extract Substances 0.000 claims description 8
- 238000010586 diagram Methods 0.000 description 14
- 238000012545 processing Methods 0.000 description 13
- 238000000605 extraction Methods 0.000 description 9
- 230000010365 information processing Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000001174 ascending effect Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Description
本発明は、分類技術に関する。 The present invention relates to classification technology.
従来、例えば、企業の従業員が利用するPC(Personal Computer)のログに基づいて、当該従業員がどのような仕事にどれくらいの時間を費やしているかを把握できるようにする技術が知られている。また、管理システムが、予め設定された事業に関するキーワードに基づいてカレンダーの登録内容を分類する技術も知られている(例えば、特許文献1を参照)。 Conventionally, for example, technology is known that allows a company's employees to understand how much time they spend on what tasks based on logs from their personal computers (PCs). There is also known technology in which a management system classifies calendar entries based on pre-set business-related keywords (see, for example, Patent Document 1).
しかしながら、予め設定されているキーワードに基づく分類では、システムがログを適切に分類できない場合がある。 However, when classifying logs based on pre-defined keywords, the system may not be able to classify them properly.
一側面では、ログを適切に分類することを目的とする。 On one hand, the goal is to properly classify logs.
一つの案では、キーワードに基づく第1分類規則により第1ログを分類する処理と、前記第1ログを分類する処理によって特定のグループに分類された第2ログから、スケジュール情報、通信元情報、通信先情報、及び通信日時情報のうち少なくとも一つに関連する特定の情報を抽出する処理と、前記特定の情報に基づく第2分類規則により第3ログを分類する処理と、をコンピュータに実行させる分類プログラムを提供する。
In one proposal, a classification program is provided that causes a computer to execute the following processes: classifying a first log according to a first classification rule based on keywords; extracting specific information related to at least one of schedule information, communication source information, communication destination information, and communication date and time information from a second log classified into a specific group by the process of classifying the first log; and classifying a third log according to a second classification rule based on the specific information.
一側面によれば、ログが適切に分類される。 In one aspect, logs are properly classified.
以下、図面を参照して、本発明の実施形態を説明する。 The following describes an embodiment of the present invention with reference to the drawings.
[第1の実施形態]
第1の実施形態では、分類システム1が、設定されたキーワードに基づいて、ユーザの業務に関するログを分類する。そして、分類システム1が、特定のグループに分類されたログに基づいて、ログの分類に用いる情報を抽出する例について説明する。これにより、分類システム1は、ログを適切に分類することができる。
[First embodiment]
In the first embodiment, the
また、分類システム1は、例えば、ユーザが業務で使用するPC(Personal Computer)のログ(例えば、操作情報、スケジュール情報、通信情報)を各グループに分類することで、当該ユーザがどのような種別の業務等を行っているかを可視化してもよい。
The
<システム構成>
図1は、実施形態に係る分類システム1の構成例を示す図である。図1において、分類システム1は、サーバ10(「分類装置」の一例。)、端末20A、端末20B、端末20C(以下で、それぞれを区別する必要がない場合は、単に「端末20」と称する。)、管理者端末30を含む。なお、サーバ10、端末20、管理者端末30のそれぞれの数は、図1の例に限定されない。更に、サーバ10と管理者端末30とが1つの装置であってもよいし、端末20の1つと管理者端末30とが1つの装置であってもよい。
<System Configuration>
FIG. 1 is a diagram showing an example of the configuration of a
サーバ10と端末20と管理者端末30とは、それぞれ、例えば、インターネット、LAN(Local Area Network)、無線LAN、または携帯電話網等のネットワークNにより接続されている。
The
端末20、及び管理者端末30は、例えば、デスクトップPC、ノートPC、タブレットPC、スマートフォン等の情報処理装置(コンピュータ)である。端末20は、例えば、社員であるユーザが、各種の業務を行うために用いられてもよい。
The terminal 20 and the
サーバ10は、例えば、サーバ用の情報処理装置である。サーバ10は、端末20における各種のログを分類する。管理者端末30は、サーバ10により分類されたログに基づく情報を表示させる。
The
<ハードウェア構成>
図2は、実施形態に係るサーバ10、端末20、及び管理者端末30のハードウェア構成例を示す図である。以下では、サーバ10を例として説明する。端末20、及び管理者端末30のハードウェア構成は、サーバ10のハードウェア構成と同様でもよい。
<Hardware Configuration>
2 is a diagram showing an example of the hardware configuration of the
図2のサーバ10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、CPU104、インタフェース装置105、表示装置106、及び入力装置107等を有する。
The
サーバ10での処理を実現するプログラム(分類プログラム)は、記録媒体101によって提供されてもよい。この場合、プログラムを記録した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされてもよい。また、当該プログラムは、例えば、ネットワークを介して他のコンピュータからサーバ10にダウンロードされ、サーバ10にインストールされてもよい。
The program (classification program) that realizes the processing in the
補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。CPU104は、メモリ装置103に格納されたプログラムに従ってサーバ10に係る機能を実現する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
The
表示装置106はプログラムによるGUI(Graphical User Interface)等を表示する装置である。表示装置106は、例えば、液晶ディスプレイ、タッチパネル、及びプロジェクタ等でもよい。
The
入力装置107は様々な操作指示の入力を受け付ける。入力装置107は、例えば、キーボード、及びマウス等でもよい。
The
なお、記録媒体101の一例としては、CD-ROM、DVDディスク、又はUSBメモリ等の可搬型の記録媒体が挙げられる。また、補助記憶装置102の一例としては、HDD(Hard Disk Drive)又はフラッシュメモリ等が挙げられる。記録媒体101及び補助記憶装置102のいずれについても、コンピュータ読み取り可能な記録媒体に相当する。
Note that examples of the
<機能構成>
次に、図3を参照し、実施形態に係るサーバ10の機能構成について説明する。図3は、実施形態に係るサーバ10の機能構成の一例を示す図である。
<Functional configuration>
Next, a functional configuration of the
サーバ10は、記憶部11、受付部12、取得部13、分類部14、抽出部15、及び出力部16を有する。これら各部の機能は、サーバ10にインストールされた1以上のプログラムと、サーバ10のCPU104等との協働により実現されてもよい。
The
記憶部11は、各種の情報を記憶する。記憶部11は、例えば、端末20のログを分類するための規則(条件)の情報を含む分類規則データ501を記憶する。
The
受付部12は、管理者が管理者端末30に入力した各種の情報を、管理者端末30から受け付ける。受付部12は、例えば、取得部13により取得される端末20のログを分類するための、管理者により入力された特定のキーワード(文字列)に基づく規則(指定規則。「第1分類規則」の一例。)を管理者端末30から受け付ける。取得部13は、各種の情報を取得する。取得部13は、例えば、端末20のログを取得する。取得部13は、端末20のログを端末20から直接取得してもよい。また、取得部13は、各端末20から収集されたログを記憶するデータベースから、端末20のログを取得してもよい。
The
分類部14は、取得部13により取得された端末20のログを、分類用の規則に基づいて、各種別(グループ)に分類する。抽出部15は、分類部14により特定の種別に分類されたログに基づいて、端末20のログを当該特定の種別に分類するための規則で用いる情報を抽出し、抽出した情報に基づく規則を生成する。
The
出力部16は、各種の情報を管理者端末30に出力する。出力部16は、例えば、分類部14による分類結果に基づく情報を管理者端末30に出力する。
The
<処理>
次に、図4、図5を参照し、第1の実施形態に係るサーバ10において実行される処理の一例について説明する。図4は、第1の実施形態に係るサーバ10において実行される処理の一例を示すフローチャートである。図5は、第1の実施形態に係る分類規則データ501の一例について説明する図である。図6は、実施形態に係るログの一例について説明する図である。図7は、実施形態に係る管理者端末30の表示画面の一例について説明する図である。以下では、ユーザAが使用する端末20Aの第1期間におけるログを分類する例について説明する。
<Processing>
Next, an example of processing executed in the
サーバ10の受付部12は、分類用の指定規則の登録要求を管理者端末30から受け付ける(ステップS1)。ここで、分類用の指定規則は、例えば、ユーザA、及びユーザAの上司に対するヒアリングに基づいて管理者により抽出されたキーワードに基づく分類の規則でもよい。
The
続いて、サーバ10の記憶部11は、分類用の指定規則を、分類規則データ501に登録する(ステップS2)。図5の分類規則データ501の例では、指定規則として、メールの件名に「コンプライアンス」という文字列(キーワード)が含まれる場合、「教育」の種別に分類する等の規則が登録されている。
Next, the
続いて、サーバ10の取得部13は、第1期間における端末20Aの各種のログを取得する(ステップS3)。ここで、サーバ10は、例えば、ユーザAの操作情報、ユーザAのスケジュール情報、及びユーザAの通信情報のログを端末20Aから取得する。
Then, the
ユーザAの操作情報には、端末20Aに対する操作履歴が含まれる。端末20Aに対する操作履歴は、例えば、端末20Aの電源ON/OFFの日時の情報、端末20Aの位置情報、ユーザAのプレゼンス(入力操作の受け付け状態)に関する情報、各種アプリケーションに対する操作履歴が含まれてもよい。各種アプリケーションには、例えば、文書作成アプリケーション、メールを送受信するアプリケーション(メーラー)、及びインスタントメッセンジャー等が含まれてもよい。アプリケーションに対する操作履歴は、例えば、動作したアプリケーションの名前の情報、アプリケーションの起動/終了の日時の情報、アプリケーションのウィンドウのタイトル(例えば、ファイルのタイトル)の情報が含まれてもよい。
The operation information of user A includes an operation history for
ユーザAのスケジュール情報には、例えば、スケジュール管理アプリケーションに登録された情報が含まれる。スケジュール情報は、例えば、登録されている出張に関する情報、及び登録されている会議に関する情報が含まれてもよい。登録されている出張に関する情報には、例えば、出張開始日時、出張終了日時、出張先の場所、相手の氏名、及び同行者の氏名等の情報が含まれてもよい。登録されている会議に関する情報には、例えば、会議開始日時、会議終了日時、会議が開催される場所、会議の参加者の氏名、及び会議の参加者の所属する部署名、会議の参加者の職制等の情報が含まれてもよい。 User A's schedule information includes, for example, information registered in a schedule management application. The schedule information may include, for example, information related to registered business trips and information related to registered conferences. The registered information related to business trips may include, for example, information such as the start date and time of the business trip, the end date and time of the business trip, the location of the business trip destination, the names of the people traveling with the business trip, and the names of the people accompanying the business trip. The registered information related to conferences may include, for example, information such as the start date and time of the conference, the end date and time of the conference, the location where the conference is being held, the names of the conference participants, the names of the departments to which the conference participants belong, and the job titles of the conference participants.
ユーザAの通信情報には、例えば、ユーザAが送受信した、メール、インスタントメッセージ(チャット)、ユーザAが行った通話(IP電話)、オンライン会議の通信履歴が含まれてもよい。通信履歴は、例えば、送信/受信アドレス、送信/受信日時、通話相手、通話日時、会議参加者、会議日時の情報が含まれてもよい。また、ユーザAの通信情報には、例えば、ユーザAが閲覧していたWebサイトの閲覧履歴が含まれてもよい。 User A's communication information may include, for example, emails and instant messages (chats) sent and received by User A, calls (IP telephone calls) made by User A, and a communication history of online conferences. The communication history may include, for example, sending/receiving addresses, sending/receiving dates and times, call recipients, call dates and times, conference participants, and conference dates and times. User A's communication information may also include, for example, a browsing history of websites that User A viewed.
続いて、サーバ10の分類部14は、分類規則データ501に登録されている指定規則に基づいて、端末20Aから取得された第1期間におけるログを分類する(ステップS4)。ここで、サーバ10は、分類の対象となる第1期間におけるログのうち、特定の種別の指定規則に合致するものを、当該特定の種別のログとして分類する。なお、サーバ10は、例えば、図5に示す分類規則データ501に登録されている各種別の順に、各種別の各指定規則に合致するか否かを判定し、ログを分類してもよい。
The
図6には、端末20Aにより受信されたメールのうち、図5に示す分類規則データ501に登録されている指定規則により「教育」の種別に分類されたメール601の例が示されている。サーバ10は、件名に「コンプライアンス」という文字列が含まれているため、メール601を「教育」の種別に分類されている。また、図6の例では、メール601の送信元メールアドレス(From。「送信元情報」の一例。)は「education-no-reply@our-company.example.co.jp」(以下で、「アドレスA」とも称する。)であり、送信先メールアドレス(To。「送信先情報」の一例。)は「all-employee@our-company.example.co.jp」(以下で、「アドレスB」とも称する。)である。
Figure 6 shows an example of
なお、サーバ10は、図5に示す分類規則データ501に登録されている各規則のいずれにも合致しないため、いずれの種別にも分類されなかったログを、「その他」の種別に分類してもよい。
Note that the
続いて、サーバ10の抽出部15は、指定規則により各種別に分類された各ログに基づいて、分類用の第1追加規則(「第2分類規則」の一例。)の候補を1以上生成する(ステップS5)。ここで、サーバ10は、例えば、指定規則により「教育」の種別に分類されたメール601に基づいて、送信元メールアドレスがアドレスA(「特定の情報」の一例。)の場合は「教育」の種別に分類するという第1追加規則の候補を生成してもよい。また、サーバ10は、送信元メールアドレスがアドレスBの場合は「教育」の種別に分類するという第1追加規則の候補を生成してもよい。また、サーバ10は、送信元メールアドレスがアドレスAであり、送信元メールアドレスがアドレスBである場合は「教育」の種別に分類するという第1追加規則の候補を生成してもよい。
Next, the
なお、サーバ10は、指定規則により分類された端末20Aのログに含まれる各項目のうち、例えば、時間の経過による変化の頻度が比較的少ない特定の項目の情報に基づいて、第1追加規則の候補を生成してもよい。この場合、時間の経過による変化の頻度が比較的少ない項目は、例えば、管理者によりサーバ10に予め設定されてもよい。また、時間の経過による変化の頻度が比較的少ない項目は、例えば、ディープラーニング等を用いるAI(Artificial Intelligence)により決定(推論)されてもよい。
The
続いて、サーバ10の分類部14は、生成された第1追加規則の候補に基づいて、端末20から取得された第1期間におけるログを分類する(ステップS6)。なお、生成された第1追加規則の候補が複数ある場合、サーバ10は、各候補に基づいて、端末20から取得されたログをそれぞれ分類する。
Then, the
続いて、サーバ10の抽出部15は、指定規則による分類の結果と、第1追加規則の候補による分類の結果とに基づいて、各候補のうち、第1追加規則とするものを決定する(ステップS7)。ここで、サーバ10は、第1追加規則の候補により特定の種別に分類されるログが、指定規則により特定の種別に分類される第1度合いが閾値以上となる場合、当該候補を第1追加規則として決定する。この場合、サーバ10は、第1度合いを、第1追加規則の候補により特定の種別に分類されたログ(以下で、「ログB」とも称する。)が、指定規則により当該特定の種別に分類されたログ(以下で、「ログA」とも称する。)に含まれる度合い(部分集合となっている度合い)に基づいて決定してもよい。そして、サーバ10は、第1度合いが第1閾値以上である場合、当該候補を第1追加規則として決定してもよい。
Then, the
この場合、サーバ10は、例えば、ログAとログBとで共通するログの数を、ログAに含まれないログBの数で除算した値を、第1度合いの値してもよい。この場合、第1度合いの逆数E(以下で、適宜「誤り率E」とも称する。)は、以下の式(1)で表すことができる。式(1)において、AはログAの集合、BはログBの集合を示す。
In this case, the
E = (B-A)/A∩B ・・・(1)
続いて、サーバ10の記憶部11は、決定した第1追加規則を、図5に示す分類規則データ501に登録する(ステップS8)。なお、図5の例では、送信元メールアドレスがアドレスAである場合、「教育」の種別に分類するという第1追加規則が登録されている。
E = (B - A) / A ∩ B ... (1)
Next, the
続いて、サーバ10の分類部14は、分類規則データ501に登録されている第1追加規則に基づいて、端末20Aの第1期間より後の各期間におけるログを分類する(ステップS9)。ここで、サーバ10は、第1期間より後の各期間における端末20Aのログを、分類規則データ501に登録されている各規則に基づいて分類してもよい。この場合、サーバ10は、まず、各期間における端末20Aのログを、指定規則に基づいて分類してもよい。そして、サーバ10は、各期間における端末20Aのログのうち、指定規則によりいずれの種別にも分類されなかったログ(「その他」の種別に分類されたログ)を、第1追加規則に基づいて再分類してもよい。これにより、サーバ10は、例えば、ユーザAへのヒアリング等に基づいて設定されたキーワードでは分類できないログ等を、適切に分類することができる。例えば、e-learningの講座名等に含まれる特定のキーワードを用いた指定規則により「教育」に分類されたメールがアドレスAから送信されていた場合、サーバ10は、送信元メールアドレス等を用いた分類規則を生成する。これにより、サーバ10は、講座名に当該特定のキーワードが含まれない講座のメールも、適切に分類することができる。また、例えば、ユーザAが受講している講座がコンプライアンスの教育からセキュリティの教育に変化し、講座のメールの件名に「コンプライアンス」という文字列が含まれないように変化した場合でも、送信元メールアドレスがアドレスAであるため、追加規則により「教育」に分類される。
Next, the
また、サーバ10は、第1期間における端末20Aのログを、分類規則データ501に登録されている各規則に基づいて分類してもよい。
The
例えば、講座名等に含まれる特定のキーワードを用いた指定規則により「教育」に分類されたメールがアドレスAから送信されていた場合、サーバ10は、時間の経過による変化の頻度が比較的少ないと考えられる送信元メールアドレス等を用いた分類規則を生成する。これにより、例えば、「教育」に分類するための当該特定のキーワードを講座名に含む講座が終了する等により、別の講座名に変更された場合であっても、サーバ10はログを適切に分類することができる。また、例えば、「顧客対応」に分類するための特定のキーワードを含む会社名が変更された場合であっても、サーバ10はログを適切に分類することができる。
For example, if an email classified as "education" according to a designation rule using a specific keyword contained in the course name, etc., was sent from address A,
(分類結果の出力について)
サーバ10の出力部16は、端末20Aの所定期間におけるログの分類結果等に基づく情報を管理者端末30に出力する。図7の例では、管理者端末30は、サーバ10の出力部16により出力された情報に基づき、当該所定期間におけるユーザAの各分類の作業時間の比率を示す円グラフ701を画面に表示させている。円グラフ701において、領域702の面積は、「組織業務」の作業時間の比率を示している。同様に、領域703から領域707の各面積は、それぞれ、「社内対応」、「顧客対応」、「教育」、「その他」、「業務外」の作業時間の比率を示している。これにより、例えば、ユーザAの働き方の改善等に役立てることができる。
(About output of classification results)
The
なお、サーバ10の出力部16は、端末20Aの所定期間におけるログに含まれるユーザAの操作情報に基づいて、各分類の作業時間を算出してもよい。この場合、サーバ10は、例えば、インスタントメッセンジャーのプレゼンス機能によりユーザAが「在席中」であり、「教育」に分類されたメールを表示するウィンドウにフォーカスが付与されている時間長を、「教育」の作業時間と判定してもよい。なお、端末20Aは、ユーザAによりウィンドウがマウス等でクリックされた場合、当該ウィンドウにフォーカスを付与し、当該ウィンドウに対してキーボード等の操作による入力を受け付ける。
The
[第2の実施形態]
第2の実施形態では、第1の実施形態と同様に、サーバ10が、特定のグループに分類されたログに基づいて、ユーザの業務に関するログを当該特定のグループに分類するための第1情報を抽出する。そして、サーバ10は、第1情報に基づいてユーザの業務に関するログを分類し、第1情報により特定のグループに分類されたログに基づいて、ユーザの業務に関するログを当該特定のグループに分類するための第2情報を抽出する例について説明する。これにより、サーバ10は、各種のログを適切に分類することができる。なお、第2の実施形態は一部を除いて第1の実施形態と同様であるため、適宜説明を省略する。以下では、第1の実施形態と共通する部分については説明を省略し、異なる部分についてのみ説明する。なお、サーバ10は、第1の実施形態の各処理と、第2の実施形態の各処理とを、適宜組み合わせて行うことができる。
Second Embodiment
In the second embodiment, similarly to the first embodiment, the
<処理>
次に、図8を参照し、第2の実施形態に係るサーバ10において実行される処理の一例について説明する。図8は、第2の実施形態に係るサーバ10において実行される処理の一例を示すフローチャートである。図9は、第2の実施形態に係る分類規則データ501Aの一例について説明する図である。
<Processing>
Next, an example of processing executed in the
サーバ10は、図4の各処理が実行された後、一定時間が経過した場合に図8の処理を実行してもよい。この場合、サーバ10は、図4のステップS1からステップS7の処理が実行された後、所定の種別における指定規則、及び第1追加規則での分類の精度が低下した場合に、当該所定の種別に対して図8の処理を実行してもよい。
The
この場合、サーバ10は、例えば、運用当初(例えば、第1期間等を含む期間)のログが、各規則(指定規則、及び第1追加規則)により当該所定の種別へ分類される数(ログ数、件数)と、第1期間よりも後の第2期間のログが、当該各規則により当該所定の種別へ分類される数とに基づいて、図8の処理を実行してもよい。この場合、サーバ10は、例えば、運用当初のログが各規則により当該所定の種別へ分類される割合と、第1期間よりも後の第2期間のログが各規則により当該所定の種別へ分類される割合との比の値が閾値以上になった場合、図8の処理を実行してもよい。また、この場合、サーバ10は、分類対象のログの件数と、いずれの種別にも分類できないログ(「その他」の種別へ分類されたログ)の件数との比の値が閾値以上になった場合、図8の処理を実行してもよい。
In this case, the
以下では、第1期間よりも後の第2期間における端末20Aのログを分類する例について説明する。 The following describes an example of classifying the logs of terminal 20A in a second period that is later than the first period.
サーバ10の取得部13は、第2期間における端末20Aの各種のログを取得する(ステップS101)。続いて、サーバ10の分類部14は、分類規則データ501に登録されている第1追加規則に基づいて、端末20Aの第2期間におけるログを分類する(ステップS102)。
The
続いて、サーバ10の抽出部15は、第1追加規則により分類されたログに基づいて、分類用の第2追加規則(「第3分類規則」の一例。)の候補を1以上生成する(ステップS103)。ここで、サーバ10は、例えば、ステップS102の処理により各種別に分類された各ログに含まれる文章を形態素解析することにより名詞の単語を抽出してもよい。そして、サーバ10は、抽出した単語(キーワード)に基づく分類規則を、第2追加規則の候補としてもよい。
Next, the
続いて、サーバ10の分類部14は、第2追加規則の候補に基づいて、端末20Aのログを分類する(ステップS104)。続いて、サーバ10の抽出部15は、指定規則による端末20Aのログの分類の結果と、第2追加規則の候補による端末20Aのログの分類の結果とに基づいて、各候補のうち、第2追加規則とするものを決定する(ステップS105)。これにより、サーバ10は、時間の経過による変化の頻度が比較的少ない項目の情報を用いる第1追加規則による分類結果に基づいて、時間の経過により変化した後のキーワード等による規則の候補を生成できる。
The
ここで、サーバ10は、ステップS102の処理により種別Aに分類されたログにおける単語の出現頻度と、種別A以外の各種別に分類されたログにおける当該単語の出現頻度とに基づいて、当該単語を第2追加規則に用いる単語として抽出するか否かを判定してもよい。この場合、サーバ10は、ステップS102の処理により種別Aに分類されたログにおける出現頻度が比較的高く、種別A以外の各種別に分類されたログにおける出現頻度が比較的低い単語を抽出してもよい。そして、サーバ10は、当該単語に基づく分類規則を、種別Aに分類するための第2追加規則として決定してもよい。
Here, the
この場合、サーバ10は、例えば、以下の式(2)により、キーワードの候補である各単語に対するスコアSを算出し、第2閾値以上のスコアSを有する単語に基づく分類規則を、第2追加規則の候補としてもよい。式(2)において、iは各単語のインデックスを示す。また、jは各種別のインデックスを示す。
In this case, the
Si = αi,j + tfidfi,j ・・・(2)
ここで、αi,jは、インデックスiにより示される単語tiが、インデックスjにより示される種別djに分類されたログにのみ出現する場合は定数A(例えば、1)であり、それ以外の場合は定数Aよりも小さい定数B(例えば、0)である。また、tfidfi,jは、以下の式(3)により算出される。
S i = α i,j + t fidf i,j ... (2)
Here, α i,j is a constant A (e.g., 1) when the word t i indicated by index i appears only in logs classified into the type d j indicated by index j, and is a constant B (e.g., 0) smaller than the constant A otherwise. tfidf i,j is calculated by the following formula (3).
tfidfi,j = tfi,j・idfj ・・・(3)
ここで、tfi,jは、種別djにおける単語tiの出現頻度である。tfi,jは、例えば、種別djにおける単語tiの出現回数を、種別djにおける全ての単語の出現回数の和の値で除算した値でもよい。また、idfjは、種別の総数を、単語tiを含む種別の数で除算した値の対数(log)でもよい。
tfidf i,j = tfi ,j · idf j ... (3)
Here, tf i,j is the frequency of occurrence of word t i in type d j . tf i,j may be, for example, the value obtained by dividing the number of occurrences of word t i in type d j by the sum of the number of occurrences of all words in type d j . Also, idf j may be the logarithm (log) of the value obtained by dividing the total number of types by the number of types that include word t i .
(第2閾値について)
サーバ10は、指定規則に設定されているキーワードの運用当初(例えば、第1期間等を含む期間)のログに対するスコアSと、第2追加規則の候補に用いられるキーワードの第2期間のログに対するスコアSとが同様の程度となるように、第2閾値を決定してもよい。これにより、例えば、サーバ10は、ヒアリングに基づいて設定されたキーワードと同様の精度で、一定時間経過後のログを分類可能なキーワードを決定できる。
(Regarding the second threshold)
The
この場合、サーバ10は、以下のような処理を行ってもよい。まず、サーバ10は、第2期間よりも前の期間における端末20Aのログを取得する。そして、サーバ10は、第1追加規則に基づいて、端末20Aの第2期間よりも前の期間におけるログを分類する。そして、サーバ10は、第1追加規則による分類結果に基づいて、指定規則に設定されている種別Aの各キーワードに対するスコアSを、上述した式(2)によりそれぞれ算出する。そして、サーバ10は、種別Aの各キーワードに対するスコアSの代表値(例えば、平均値、最頻値、または中央値)に所定の係数を乗算等した値を、種別Aに対する第2閾値として決定する。そして、サーバ10は、種別A以外の各種別についても、同様に、第2閾値を決定する。
In this case, the
続いて、サーバ10の抽出部15は、第1追加規則の候補と、第2追加規則の候補とに基づいて、分類用の第3追加規則(「第3分類規則」の一例。)の候補を1以上生成する(ステップS106)。ここで、サーバ10は、第1追加規則の候補の規則と、第2追加規則の候補の規則とを組み合わせた規則を、第3追加規則の候補としてもよい。この場合、サーバ10は、例えば、図4のステップS7の処理で算出した式(1)誤り率Eが閾値以下である第1追加規則の候補と、ステップS105の処理で算出した式(2)のスコアSが閾値以上である第2追加規則の候補の規則とを組み合わせた規則を、第3追加規則の候補としてもよい。
Then, the
続いて、サーバ10の抽出部15は、各候補のうち、第3追加規則とするものを決定する(ステップS107)。ここで、サーバ10は、例えば、第3追加規則の候補に含まれる第1追加規則の候補に対するスコアSの値を、当該第3追加規則の候補に含まれる第1追加規則の候補に対する誤り率Eの値で除算したスコアS2(S2=S/E)を算出してもよい。そして、サーバ10は、スコアS2が閾値以上である場合のみ、当該第3追加規則の候補を第3追加規則として決定してもよい。
Next, the
続いて、サーバ10の記憶部11は、決定した第2追加規則、及び第3追加規則を、図9に示す分類規則データ501Aに登録する(ステップS108)。続いて、サーバ10の分類部14は、分類規則データ501に登録されている第2追加規則、及び第3追加規則のそれぞれに基づいて、端末20Aのログを分類する(ステップS109)。これにより、例えば、端末20から取得されたログのうち、指定規則に基づいて分類されず、第1追加規則に基づいても分類されないログを、第2追加規則、または第3追加規則に基づいて分類させることができる。なお、サーバ10は、例えば、第2追加規則を用いないようにしてもよい。
Then, the
なお、図9に示す分類規則データ501Aの例では、メールの件名に「法令遵守」という文字列が含まれる場合、「教育」の種別に分類するという第2追加規則が登録されている。また、メールの件名に「優秀活動事例」という文字列が含まれる、かつ、送信先メールアドレスがアドレスBである場合、「教育」の種別に分類するという第3追加規則が登録されている。
In the example of
(分類用の規則の適用順について)
サーバ10は、分類規則データ501に登録されている各規則を、所定の順番で適用して、端末20のログを分類してもよい。この場合、サーバ10は、例えば、まず、指定規則に含まれる各規則を、当該各規則に対して予め設定されている所定の順番で適用してログを分類してもよい。そして、サーバ10は、第1追加に含まれる各規則を、図4のステップS7の処理で算出した式(1)の誤り率Eが小さい順番で適用してログを分類してもよい。
(Regarding the order of application of classification rules)
The
そして、サーバ10は、第2追加に含まれる各規則を、ステップS105の処理で算出した式(2)のスコアSが小さい順番で適用してログを分類してもよい。そして、サーバ10は、第3追加に含まれる各規則を、ステップS107の処理で算出したスコアS2が小さい順番で適用してログを分類してもよい。
The
<変形例>
サーバ10の各機能部は、例えば1以上のコンピュータにより提供されるクラウドコンピューティングにより実現されていてもよい。
<Modification>
Each functional unit of the
以上、本発明の実施例について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the above describes in detail an embodiment of the present invention, the present invention is not limited to such a specific embodiment, and various modifications and variations are possible within the scope of the gist of the present invention described in the claims.
以上の説明に関し、更に以下の項を開示する。
(付記1)
キーワードに基づく第1分類規則により第1ログを分類する処理と、
前記第1ログを分類する処理によって特定のグループに分類された第2ログから、操作情報、スケジュール情報、及び通信情報のうち少なくとも一つに関連する特定の情報を抽出する処理と、
前記特定の情報に基づく第2分類規則により第3ログを分類する処理と、
をコンピュータに実行させることを特徴とする分類プログラム。
(付記2)
抽出された前記特定の情報と、前記特定のグループの情報とに基づいて、前記第2分類規則を生成する処理、
を前記コンピュータに実行させることを特徴とする付記1に記載の分類プログラム。
(付記3)
前記第3ログを分類する処理は、前記第3ログが前記第2分類規則に合致する場合、前記第3ログを前記特定のグループに分類する処理を含む、
ことを特徴とする付記1または2に記載の分類プログラム。
(付記4)
前記第2分類規則により前記第1ログを分類した場合に前記特定のグループに分類される第4ログのうち、前記第2ログと共通のログの割合は閾値以上である、
ことを特徴とする付記1乃至3のいずれか一項に記載の分類プログラム。
(付記5)
前記特定の情報は、前記通信情報に含まれるメッセージの送信元情報とメッセージの送信先情報との少なくとも一方の情報を含む、
ことを特徴とする付記1乃至4のいずれか一項に記載の分類プログラム。
(付記6)
前記特定のグループに分類されたログにおける単語の出現頻度と、前記特定のグループ以外のグループに分類されたログにおける単語の出現頻度とに基づいて、特定の単語を抽出する処理と、
抽出された前記特定の単語に基づく第3分類規則により第4ログを分類する処理と、
を前記コンピュータに実行させることを特徴とする付記1乃至5のいずれか一項に記載の分類プログラム。
(付記7)
前記特定の単語を抽出する処理は、第1期間に取得されたログのうち前記特定のグループに分類されるログの数と、前記第1期間よりも後の第2期間に取得されたログのうち前記特定のグループに分類されるログの数との比較に基づいて、実行される、
ことを特徴とする付記6に記載の分類プログラム。
(付記8)
キーワードに基づく第1分類規則により第1ログを分類する処理と、
前記第1ログを分類する処理によって特定のグループに分類された第2ログから、操作情報、スケジュール情報、及び通信情報のうち少なくとも一つに関連する特定の情報を抽出する処理と、
前記特定の情報に基づく第2分類規則により第3ログを分類する処理と、
をコンピュータが実行する分類方法。
(付記9)
キーワードに基づく第1分類規則により第1ログを分類する分類部と、
前記第1ログを分類する処理によって特定のグループに分類された第2ログから、操作情報、スケジュール情報、及び通信情報のうち少なくとも一つに関連する特定の情報を抽出する抽出部と、を備え、
前記分類部は、前記特定の情報に基づく第2分類規則に合致するログを前記特定のグループに分類する、分類装置。
In addition to the above description, the following items are disclosed.
(Appendix 1)
A process of classifying the first log according to a first classification rule based on a keyword;
A process of extracting specific information related to at least one of operation information, schedule information, and communication information from the second logs classified into the specific groups by the process of classifying the first logs;
A process of classifying the third log according to a second classification rule based on the specific information;
A classification program characterized by causing a computer to execute the above steps.
(Appendix 2)
generating the second classification rule based on the extracted specific information and information of the specific group;
The classification program according to
(Appendix 3)
The process of classifying the third log includes a process of classifying the third log into the specific group when the third log matches the second classification rule.
3. The classification program according to
(Appendix 4)
a ratio of logs common to the second log among the fourth logs classified into the specific group when the first log is classified according to the second classification rule is equal to or greater than a threshold value;
4. The classification program according to
(Appendix 5)
The specific information includes at least one of source information of a message included in the communication information and destination information of the message.
5. The classification program according to
(Appendix 6)
A process of extracting a specific word based on the frequency of appearance of a word in the log classified into the specific group and the frequency of appearance of a word in the log classified into a group other than the specific group;
A process of classifying the fourth log according to a third classification rule based on the extracted specific word;
6. The classification program according to
(Appendix 7)
the process of extracting the specific word is executed based on a comparison between the number of logs classified into the specific group among logs acquired in a first period and the number of logs classified into the specific group among logs acquired in a second period that is later than the first period.
7. The classification program according to claim 6,
(Appendix 8)
A process of classifying the first log according to a first classification rule based on a keyword;
a process of extracting specific information related to at least one of operation information, schedule information, and communication information from the second logs classified into the specific groups by the process of classifying the first logs;
A process of classifying the third log according to a second classification rule based on the specific information;
A classification method performed by a computer.
(Appendix 9)
a classification unit that classifies the first log according to a first classification rule based on a keyword;
an extracting unit that extracts specific information related to at least one of operation information, schedule information, and communication information from the second log classified into the specific group by the processing for classifying the first log,
The classification unit classifies logs that match a second classification rule based on the specific information into the specific group.
1 分類システム
10 サーバ
11 記憶部
12 受付部
13 取得部
14 分類部
15 抽出部
16 出力部
20 端末
30 管理者端末
Claims (9)
前記第1ログを分類する処理によって特定のグループに分類された第2ログから、スケジュール情報、通信元情報、通信先情報、及び通信日時情報のうち少なくとも一つに関連する特定の情報を抽出する処理と、
前記特定の情報に基づく第2分類規則により第3ログを分類する処理と、
をコンピュータに実行させることを特徴とする分類プログラム。 A process of classifying the first log according to a first classification rule based on a keyword;
a process of extracting specific information related to at least one of schedule information, communication source information, communication destination information, and communication date and time information from the second logs classified into the specific groups by the process of classifying the first logs;
A process of classifying the third log according to a second classification rule based on the specific information;
A classification program characterized by causing a computer to execute the above steps.
を前記コンピュータに実行させることを特徴とする請求項1に記載の分類プログラム。 generating the second classification rule based on the extracted specific information and information of the specific group;
2. The classification program according to claim 1, wherein the computer executes the steps of:
ことを特徴とする請求項1または2に記載の分類プログラム。 The process of classifying the third log includes a process of classifying the third log into the specific group when the third log matches the second classification rule.
3. The classification program according to claim 1 or 2.
ことを特徴とする請求項1乃至3のいずれか一項に記載の分類プログラム。 a ratio of logs common to the second log among the fourth logs classified into the specific group when the first log is classified according to the second classification rule is equal to or greater than a threshold value;
4. The classification program according to claim 1, wherein the classification program is a program for performing a classification process.
前記通信先情報は、メッセージの送信先情報である、
ことを特徴とする請求項1乃至4のいずれか一項に記載の分類プログラム。 The communication source information is information about a sender of a message,
The communication destination information is message destination information.
5. The classification program according to claim 1, wherein the classification program is a program for performing a classification process.
抽出された前記特定の単語に基づく第3分類規則により第4ログを分類する処理と、
を前記コンピュータに実行させることを特徴とする請求項1乃至5のいずれか一項に記載の分類プログラム。 A process of extracting a specific word based on the frequency of appearance of a word in the log classified into the specific group and the frequency of appearance of a word in the log classified into a group other than the specific group;
A process of classifying the fourth log according to a third classification rule based on the extracted specific word;
6. The classification program according to claim 1, wherein the classification program is executed by the computer.
ことを特徴とする請求項6に記載の分類プログラム。 the process of extracting the specific word is executed based on a comparison between the number of logs classified into the specific group among logs acquired in a first period and the number of logs classified into the specific group among logs acquired in a second period that is later than the first period.
7. The classification program according to claim 6.
前記第1ログを分類する処理によって特定のグループに分類された第2ログから、スケジュール情報、通信元情報、通信先情報、及び通信日時情報のうち少なくとも一つに関連する特定の情報を抽出する処理と、
前記特定の情報に基づく第2分類規則により第3ログを分類する処理と、
をコンピュータが実行する分類方法。 A process of classifying the first log according to a first classification rule based on a keyword;
a process of extracting specific information related to at least one of schedule information, communication source information, communication destination information, and communication date and time information from the second logs classified into the specific groups by the process of classifying the first logs;
A process of classifying the third log according to a second classification rule based on the specific information;
A classification method performed by a computer.
前記第1ログを分類する処理によって特定のグループに分類された第2ログから、スケジュール情報、通信元情報、通信先情報、及び通信日時情報のうち少なくとも一つに関連する特定の情報を抽出する抽出部と、を備え、
前記分類部は、前記特定の情報に基づく第2分類規則に合致するログを前記特定のグループに分類する、分類装置。 a classification unit that classifies the first log according to a first classification rule based on a keyword;
an extracting unit that extracts specific information related to at least one of schedule information, communication source information, communication destination information, and communication date and time information from the second log classified into a specific group by the process of classifying the first log,
The classification unit classifies logs that match a second classification rule based on the specific information into the specific group.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020089137A JP7472652B2 (en) | 2020-05-21 | 2020-05-21 | Classification program, classification method, and classification device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020089137A JP7472652B2 (en) | 2020-05-21 | 2020-05-21 | Classification program, classification method, and classification device |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021184164A JP2021184164A (en) | 2021-12-02 |
JP7472652B2 true JP7472652B2 (en) | 2024-04-23 |
Family
ID=78767398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020089137A Active JP7472652B2 (en) | 2020-05-21 | 2020-05-21 | Classification program, classification method, and classification device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7472652B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070664A (en) | 2002-08-06 | 2004-03-04 | Nippon Telegr & Teleph Corp <Ntt> | Sorting filter updating method, sorting filter updating system, sorting filter updating program, and recording medium recorded with program |
JP2004199363A (en) | 2002-12-18 | 2004-07-15 | Fuji Xerox Co Ltd | Text data classification device and method therefor |
WO2020044558A1 (en) | 2018-08-31 | 2020-03-05 | 富士通株式会社 | Classification rule generation program, classification rule generation method, and classification rule generation device |
-
2020
- 2020-05-21 JP JP2020089137A patent/JP7472652B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004070664A (en) | 2002-08-06 | 2004-03-04 | Nippon Telegr & Teleph Corp <Ntt> | Sorting filter updating method, sorting filter updating system, sorting filter updating program, and recording medium recorded with program |
JP2004199363A (en) | 2002-12-18 | 2004-07-15 | Fuji Xerox Co Ltd | Text data classification device and method therefor |
WO2020044558A1 (en) | 2018-08-31 | 2020-03-05 | 富士通株式会社 | Classification rule generation program, classification rule generation method, and classification rule generation device |
Also Published As
Publication number | Publication date |
---|---|
JP2021184164A (en) | 2021-12-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10768787B2 (en) | Collecting and presenting data including links from communications sent to or from a user | |
US7827165B2 (en) | Providing a social network aware input dictionary | |
US10387972B2 (en) | Impact assessment for shared media submission | |
US11087414B2 (en) | Distance-based social message pruning | |
US20130159847A1 (en) | Dynamic Personal Dictionaries for Enhanced Collaboration | |
US9633140B2 (en) | Automated contextual information retrieval based on multi-tiered user modeling and dynamic retrieval strategy | |
US20170200093A1 (en) | Adaptive, personalized action-aware communication and conversation prioritization | |
US20100205663A1 (en) | Systems and methods for consumer-generated media reputation management | |
US20140074843A1 (en) | Systems and methods for dynamic analysis, sorting and active display of semantic-driven reports of communication repositories | |
US20100275128A1 (en) | Systems and methods for consumer-generated media reputation management | |
US20160217488A1 (en) | Systems and methods for consumer-generated media reputation management | |
AU2007257092B2 (en) | Systems and methods for consumer-generated media reputation management | |
US9209992B2 (en) | Method, data processing program, and computer program product for handling instant messaging sessions and corresponding instant messaging environment | |
US20090112781A1 (en) | Predicting and using search engine switching behavior | |
US20080281922A1 (en) | Automatic generation of email previews and summaries | |
US20130191395A1 (en) | Social media data analysis system and method | |
US8949358B2 (en) | Method and system for building an entity profile from email address and name information | |
US20170300823A1 (en) | Determining user influence by contextual relationship of isolated and non-isolated content | |
WO2017034936A1 (en) | Interactive preview teasers in communications | |
WO2017105808A1 (en) | Providing relevance based dynamic hashtag navigation | |
EP3387556A1 (en) | Providing automated hashtag suggestions to categorize communication | |
JP7472652B2 (en) | Classification program, classification method, and classification device | |
US20230161778A1 (en) | Providing contact information and connection history with collaboration applications | |
US10872486B2 (en) | Enriched polling user experience | |
JP2020170416A (en) | Information processing apparatus, information processing method, and information processing program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20231220 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231226 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20240222 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240312 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240325 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7472652 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |