JP6680666B2 - Information analysis device, information analysis system, information analysis method, and information analysis program - Google Patents

Information analysis device, information analysis system, information analysis method, and information analysis program Download PDF

Info

Publication number
JP6680666B2
JP6680666B2 JP2016227589A JP2016227589A JP6680666B2 JP 6680666 B2 JP6680666 B2 JP 6680666B2 JP 2016227589 A JP2016227589 A JP 2016227589A JP 2016227589 A JP2016227589 A JP 2016227589A JP 6680666 B2 JP6680666 B2 JP 6680666B2
Authority
JP
Japan
Prior art keywords
user
character string
identification information
unit
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016227589A
Other languages
Japanese (ja)
Other versions
JP2018084953A (en
Inventor
義裕 安藤
義裕 安藤
山本 浩司
浩司 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2016227589A priority Critical patent/JP6680666B2/en
Publication of JP2018084953A publication Critical patent/JP2018084953A/en
Application granted granted Critical
Publication of JP6680666B2 publication Critical patent/JP6680666B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報解析装置、情報解析システム、情報解析方法、および情報解析プログラムに関する。   The present invention relates to an information analysis device, an information analysis system, an information analysis method, and an information analysis program.

SNS(Social Networking Service)などで利用されるユーザの識別情報(以下、ユーザIDと称する)から複数の特徴量を抽出して、この抽出した複数の特徴量を機械学習することで、ユーザIDを大量に取得している不正なユーザを検出する技術が知られている。   By extracting a plurality of feature quantities from user identification information (hereinafter referred to as user ID) used in SNS (Social Networking Service) and the like, and performing machine learning on the extracted plurality of feature quantities, the user ID is obtained. A technique for detecting a large number of unauthorized users is known.

ZAFARANI, Reza LIU, Huan. 10 Bits of Surprise: Detecting Malicious Users with Minimum Information. In: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management. ACM, 2015. p. 423431.ZAFARANI, Reza LIU, Huan. 10 Bits of Surprise: Detecting Malicious Users with Minimum Information.In: Proceedings of the 24th ACM International on Conference on Information and Knowledge Management.ACM, 2015.p. 423431.

しかしながら、従来の技術では、抽出される特徴量が多岐に亘り、その特徴量の組み合わせによっては、不正に取得されたユーザIDの検出精度が向上しない場合があった。   However, in the related art, the feature amounts extracted are diverse, and the detection accuracy of the illegally acquired user ID may not be improved depending on the combination of the feature amounts.

本発明は、このような事情を考慮してなされたものであり、不正に取得されたユーザIDの検出精度を向上させることを目的の一つとする。   The present invention has been made in consideration of such circumstances, and an object thereof is to improve the detection accuracy of an illegally acquired user ID.

本発明の一態様は、ユーザの識別情報を取得する取得部と、前記取得部により取得された前記ユーザの識別情報が示す文字列から、文字列または文字の存在確率に関する特徴量、文字列に含まれる特定の記号に関する特徴量、および地域によって異なるキーボードの配列に関する特徴量のうち少なくとも一部を抽出する抽出部と、前記抽出部により前記文字列から抽出された特徴量の中から、不正に取得されたユーザの識別情報を検出するための特徴量を、機械学習を用いて選択する機械学習部と、を備える情報解析装置である。   One aspect of the present invention is an acquisition unit that acquires identification information of a user, and a character string indicated by the identification information of the user acquired by the acquisition unit, into a character string or a feature amount related to the probability of existence of a character, and a character string. An illegal extraction is performed from the feature amount related to a specific symbol included and the feature amount extracted from the character string by the extraction unit that extracts at least a part of the feature amount related to the keyboard layout that differs depending on the region. It is an information analysis device comprising: a machine learning unit that selects, using machine learning, a feature amount for detecting the acquired identification information of a user.

本発明の一態様によれば、不正に取得されたユーザIDの検出精度を向上させることができる。   According to one aspect of the present invention, it is possible to improve the detection accuracy of an illegally acquired user ID.

実施形態における情報解析装置100を含む情報解析システム1の一例を示す図である。It is a figure showing an example of information analysis system 1 containing information analysis device 100 in an embodiment. 実施形態における端末装置10の構成の一例を示す図である。It is a figure which shows an example of a structure of the terminal device 10 in embodiment. 実施形態におけるサーバ装置50の構成の一例を示す図である。It is a figure which shows an example of a structure of the server apparatus 50 in embodiment. アカウント情報54の一例を示す図である。It is a figure showing an example of account information 54. 実施形態における情報解析装置100の構成の一例を示す図である。It is a figure showing an example of composition of information analysis device 100 in an embodiment. 二値分類問題を解くためのパターン識別モデルを生成する処理の一例を示すフローチャートである。It is a flowchart which shows an example of the process which produces | generates the pattern identification model for solving a binary classification problem. 教師データ132の一例を示す図である。It is a figure which shows an example of the teacher data 132. 特徴量情報134の一例を示す図である。It is a figure showing an example of feature amount information 134. QWERTY配列のキーボードと、DVORAK配列のキーボードの一例を示す図である。It is a figure which shows an example of the keyboard of QWERTY arrangement | positioning, and the keyboard of DVORAK arrangement | positioning. 実際の評価結果の一例を示す図である。It is a figure which shows an example of an actual evaluation result. 生成したパターン認識モデルを用いて、未分類のユーザIDを正例または負例に分類する処理の一例を示すフローチャートである。It is a flow chart which shows an example of processing which classifies unclassified user ID into a positive example or a negative example using the generated pattern recognition model. ユーザIDの文字数の制限の有無に応じたInformation Surpriseの特徴量の一例を示す図である。It is a figure which shows an example of the feature-value of Information Surprise according to the presence or absence of limitation of the number of characters of a user ID. ユーザIDの認証時に端末装置10の表示部13に表示される画面の一例を示す図である。6 is a diagram showing an example of a screen displayed on the display unit 13 of the terminal device 10 when authenticating a user ID. FIG. 実施形態の端末装置10、サーバ装置50、および情報解析装置100のハードウェア構成の一例を示す図である。It is a figure which shows an example of the hardware constitutions of the terminal device 10, the server apparatus 50, and the information analysis apparatus 100 of embodiment.

以下、図面を参照し、本発明の情報解析装置、情報解析システム、情報解析方法、および情報解析プログラムの実施形態について説明する。   An embodiment of an information analysis device, an information analysis system, an information analysis method, and an information analysis program of the present invention will be described below with reference to the drawings.

[概要]
実施形態の情報解析装置は、一以上のプロセッサによって実現される。情報解析装置は、ユーザIDを取得し、このユーザIDが示す文字列から、文字列または文字の存在確率に関する特徴量、文字列に含まれる特定の記号に関する特徴量、および地域によって異なるキーボードの配列に関する特徴量を抽出する。本実施形態におけるユーザIDは、例えば、アルファベットなどの文字、数字、アンダーバーなどの記号のうち一部または全部を含む文字列によって表されるユーザの識別情報である。
[Overview]
The information analysis device of the embodiment is realized by one or more processors. The information analysis device acquires a user ID, and from the character string indicated by the user ID, a feature amount regarding the probability of existence of a character string or a character, a feature amount regarding a specific symbol included in the character string, and a keyboard arrangement that differs depending on the region. The feature amount regarding The user ID in the present embodiment is, for example, user identification information represented by a character string including some or all of letters such as alphabets, numbers, and symbols such as underscores.

情報解析装置は、文字列から抽出した複数の特徴量の中から、不正に取得されたユーザIDを検出するための特徴量を、機械学習を用いて選択する。そして、情報解析装置は、不正に取得されたユーザIDを検出するための特徴量に基づいて、取得した複数のユーザIDの中から、不正に取得されたユーザIDを検出する。これによって、不正に取得されたユーザIDの検出精度を向上させることができる。   The information analysis device selects a feature amount for detecting an illegally acquired user ID from a plurality of feature amounts extracted from a character string by using machine learning. Then, the information analysis device detects the illegally acquired user ID from the plurality of acquired user IDs based on the characteristic amount for detecting the illegally acquired user ID. As a result, it is possible to improve the detection accuracy of the illegally acquired user ID.

なお、本実施形態における「不正に取得」とは、例えば、ある観測期間内に、所定数以上(例えば100個以上)のユーザIDが取得されることをいう。   The “illegal acquisition” in the present embodiment means that a predetermined number or more (for example, 100 or more) user IDs are acquired within a certain observation period, for example.

[全体構成]
図1は、実施形態における情報解析装置100を含む情報解析システム1の一例を示す図である。実施形態における情報解析システム1は、一つ以上の端末装置10と、サーバ装置50と、情報解析装置100とを備える。これらの装置は、ネットワークNWを介して互いに接続される。ネットワークNWは、例えば、無線基地局、Wi−Fiアクセスポイント、通信回線、プロバイダ、インターネットなどを含む。なお、図1に示す各装置の全ての組み合わせが相互に通信可能である必要はなく、ネットワークNWは、一部にローカルなネットワークを含んでもよい。
[overall structure]
FIG. 1 is a diagram illustrating an example of an information analysis system 1 including an information analysis device 100 according to the embodiment. The information analysis system 1 according to the embodiment includes one or more terminal devices 10, a server device 50, and an information analysis device 100. These devices are connected to each other via the network NW. The network NW includes, for example, a wireless base station, Wi-Fi access point, communication line, provider, Internet, and the like. Note that it is not necessary that all combinations of the respective devices illustrated in FIG. 1 can communicate with each other, and the network NW may partially include a local network.

端末装置10は、ユーザによって使用される装置である。端末装置10は、例えば、スマートフォンなどの携帯電話、タブレット端末、パーソナルコンピュータなどのコンピュータ装置である。例えば、端末装置10は、ショッピングサイトなどのウェブサイト、メールサービス、SNSサービス、情報提供サービスなどにおいてユーザIDを登録するために利用されてよい。   The terminal device 10 is a device used by a user. The terminal device 10 is, for example, a mobile phone such as a smartphone, a tablet terminal, or a computer device such as a personal computer. For example, the terminal device 10 may be used to register a user ID on a website such as a shopping site, a mail service, an SNS service, an information providing service, or the like.

サーバ装置50は、各種サービスを提供する。例えば、サーバ装置50は、端末装置10において起動されるウェブブラウザを介して、各種サービスを提供するためのウェブサイトを提供するウェブサーバ装置であってよい。また、サーバ装置50は、所定のアプリケーションプログラムが起動(実行)された端末装置10と通信を行うことで、各種情報の受け渡しを行うアプリケーションサーバ装置であってもよい。所定のアプリケーションプログラムが起動された端末装置10には、サーバ装置50との通信により、各種サービスを提供可能な画面が表示される。以下、説明を簡略化するために、サーバ装置50がウェブサーバ装置であるものとして説明する。   The server device 50 provides various services. For example, the server device 50 may be a web server device that provides a website for providing various services via a web browser activated on the terminal device 10. Further, the server device 50 may be an application server device that delivers various information by communicating with the terminal device 10 in which a predetermined application program is started (executed). A screen capable of providing various services is displayed on the terminal device 10 in which a predetermined application program has been activated, by communication with the server device 50. Hereinafter, in order to simplify the description, it is assumed that the server device 50 is a web server device.

例えば、サーバ装置50は、サービスの提供前にユーザIDの認証を行い、ユーザの確認を行う。サーバ装置50は、認証の結果、既にユーザIDが登録されたユーザであれば各種サービスを提供し、ユーザIDが登録されていないユーザであれば、ユーザIDが未登録であることを通知したり、ユーザIDの登録を促したりする。ユーザIDが未登録であることを受けて、ユーザが新規にユーザIDの登録した場合、サーバ装置50は、新たに登録されたユーザIDを発行する。これによって、ユーザは新規にユーザIDを取得することができる。   For example, the server device 50 authenticates the user ID before providing the service and confirms the user. As a result of the authentication, the server device 50 provides various services if the user has already registered the user ID, and notifies that the user has not registered the user ID if the user has not registered the user ID. , Prompt user ID registration. When the user newly registers the user ID in response to the fact that the user ID has not been registered, the server device 50 issues the newly registered user ID. This allows the user to newly acquire the user ID.

情報解析装置100は、サーバ装置50と通信を行って、サーバ装置50が提供するサービスを利用するユーザのユーザIDを取得し、このユーザIDを機械学習により解析することで、不正に取得されたユーザIDが存在しているかどうかを検出する。本実施形態における機械学習は、SVM(Support Vector Machine)やロジスティック回帰などの教師あり学習である。   The information analysis device 100 communicates with the server device 50, acquires the user ID of the user who uses the service provided by the server device 50, and analyzes this user ID by machine learning, whereby the information is illegally acquired. It detects whether or not the user ID exists. The machine learning in this embodiment is supervised learning such as SVM (Support Vector Machine) and logistic regression.

[端末装置の構成]
以下、各装置の構成について説明する。図2は、実施形態における端末装置10の構成の一例を示す図である。図示のように、端末装置10は、例えば、端末側通信部11と、受付部12と、表示部13と、端末側記憶部14と、端末側制御部15とを備える。
[Configuration of terminal device]
The configuration of each device will be described below. FIG. 2 is a diagram illustrating an example of the configuration of the terminal device 10 according to the embodiment. As illustrated, the terminal device 10 includes, for example, a terminal side communication unit 11, a reception unit 12, a display unit 13, a terminal side storage unit 14, and a terminal side control unit 15.

端末側通信部11は、ネットワークNWを介してサーバ装置50と通信する。端末側通信部11は、サーバ装置50から情報を受信した場合、受信した情報を端末側制御部15に出力する。また、端末側通信部11は、端末側制御部15による制御を受けて、サーバ装置50に情報を送信する。   The terminal-side communication unit 11 communicates with the server device 50 via the network NW. When receiving information from the server device 50, the terminal-side communication unit 11 outputs the received information to the terminal-side control unit 15. The terminal-side communication unit 11 also receives information from the terminal-side control unit 15 and transmits information to the server device 50.

受付部12は、例えば、キーボード、ボタン、マウス、マイク、タッチパネル等のユーザインターフェースであり、ユーザからの操作を受け付ける。また、受付部12は、例えば、音声による入力を受け付けるものであってもよい。なお、表示部13がタッチパネルである場合、受付部12の一部は表示部13と一体として形成される。   The reception unit 12 is, for example, a user interface such as a keyboard, a button, a mouse, a microphone, and a touch panel, and receives an operation from a user. Further, the receiving unit 12 may receive, for example, a voice input. When the display unit 13 is a touch panel, part of the reception unit 12 is formed integrally with the display unit 13.

表示部13は、例えば、LCD(Liquid Crystal Display)や有機EL(Electroluminescence)ディスプレイなどの表示装置である。表示部13は、端末側制御部15から入力される情報に基づいて各種画像を表示する。   The display unit 13 is a display device such as an LCD (Liquid Crystal Display) or an organic EL (Electroluminescence) display, for example. The display unit 13 displays various images based on the information input from the terminal-side control unit 15.

端末側記憶部14は、例えば、HDD(Hard Disc Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、ROM(Read Only Memory)、またはRAM(Random Access Memory)などにより実現される。   The terminal-side storage unit 14 is realized by, for example, an HDD (Hard Disc Drive), a flash memory, an EEPROM (Electrically Erasable Programmable Read Only Memory), a ROM (Read Only Memory), a RAM (Random Access Memory), or the like.

端末側制御部15は、例えば、CPU(Central Processing Unit)などのプロセッサが端末側記憶部14に格納されたプログラムを実行することにより実現される。また、端末側制御部15は、LSI(Large Scale Integration)、ASIC(Application Specific Integrated Circuit)、またはFPGA(Field-Programmable Gate Array)などのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。   The terminal-side control unit 15 is realized by, for example, a processor such as a CPU (Central Processing Unit) executing a program stored in the terminal-side storage unit 14. The terminal-side control unit 15 may be realized by hardware such as an LSI (Large Scale Integration), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array), or may be realized by software and hardware. It may be realized by collaboration.

端末側制御部15は、例えば、ウェブブラウザなどのUA(User Agent)を起動し、受付部12に対して所定の操作がなされることで、端末側通信部11を用いて、サーバ装置50に対してHTTP(Hypertext Transfer Protocol)リクエストを送信する。そして、端末側制御部15は、サーバ装置50から返信されたウェブページに基づいてウェブ画面を生成し、これを表示部13に表示させる。   The terminal-side control unit 15 activates a UA (User Agent) such as a web browser, and a predetermined operation is performed on the reception unit 12, so that the terminal-side communication unit 11 causes the server device 50 to operate. In response, an HTTP (Hypertext Transfer Protocol) request is transmitted. Then, the terminal-side control unit 15 generates a web screen based on the web page returned from the server device 50 and causes the display unit 13 to display the web screen.

[サーバ装置の構成]
図3は、実施形態におけるサーバ装置50の構成の一例を示す図である。図示のように、サーバ装置50は、例えば、サーバ側通信部51と、サーバ側記憶部52と、サーバ側制御部55とを備える。サーバ側制御部55は、「認証部」の一例である。
[Configuration of server device]
FIG. 3 is a diagram illustrating an example of the configuration of the server device 50 according to the embodiment. As illustrated, the server device 50 includes, for example, a server-side communication unit 51, a server-side storage unit 52, and a server-side control unit 55. The server-side control unit 55 is an example of an “authentication unit”.

サーバ側通信部51は、ネットワークNWを介して端末装置10または情報解析装置100と通信する。サーバ側通信部51は、端末装置10または情報解析装置100から情報を受信した場合、受信した情報をサーバ側制御部55に出力する。また、サーバ側通信部51は、サーバ側制御部55による制御を受けて、端末装置10または情報解析装置100に情報を送信する。   The server-side communication unit 51 communicates with the terminal device 10 or the information analysis device 100 via the network NW. When receiving information from the terminal device 10 or the information analysis device 100, the server-side communication unit 51 outputs the received information to the server-side control unit 55. Further, the server-side communication unit 51 transmits information to the terminal device 10 or the information analysis device 100 under the control of the server-side control unit 55.

サーバ側記憶部52は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAMなどにより実現される。サーバ側記憶部52は、例えば、ウェブサイトを提供するための情報(以下、ウェブサイト情報53と称する)と、アカウント情報54とを記憶する。ウェブサイト情報53は、例えば、HTML(Hyper Text Markup Language)等のマークアップ言語で記述されたテキストデータや、スタイルシート、静止画像データ、動画データ、音声データなどを含むウェブページに関する情報である。アカウント情報54は、ウェブサイトにおいて登録されたユーザIDや、メールアドレス、パスワードなどの情報を含む。   The server-side storage unit 52 is realized by, for example, a HDD, a flash memory, an EEPROM, a ROM, a RAM, or the like. The server-side storage unit 52 stores, for example, information for providing a website (hereinafter referred to as website information 53) and account information 54. The website information 53 is information about a web page including text data described in a markup language such as HTML (Hyper Text Markup Language), style sheets, still image data, moving image data, and audio data. The account information 54 includes information such as a user ID registered on the website, a mail address, and a password.

図4は、アカウント情報54の一例を示す図である。図示の例のように、アカウント情報54は、ユーザIDに対して、メールアドレスやパスワードなどの情報が対応付けられた情報である。   FIG. 4 is a diagram showing an example of the account information 54. As in the illustrated example, the account information 54 is information in which information such as a mail address and a password is associated with the user ID.

サーバ側制御部55は、例えば、CPUなどのプロセッサがサーバ側記憶部52に格納されたプログラムを実行することにより実現される。また、サーバ側制御部55は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。   The server-side control unit 55 is realized, for example, by a processor such as a CPU executing a program stored in the server-side storage unit 52. The server-side control unit 55 may be realized by hardware such as LSI, ASIC, or FPGA, or may be realized by cooperation of software and hardware.

例えば、サーバ側制御部55は、サーバ側通信部51により端末装置10からHTTPリクエストが受信されると、ユーザIDを認証するためのウェブページを、サーバ側通信部51を介して端末装置10へと返信する。端末装置10においてユーザIDが入力された場合、サーバ側制御部55は、入力されたユーザIDとアカウント情報54とを比較して、入力されたユーザIDが既に登録されているか否かを判定する。   For example, when the server-side communication unit 51 receives the HTTP request from the terminal device 10, the server-side control unit 55 sends a web page for authenticating the user ID to the terminal device 10 via the server-side communication unit 51. Reply When the user ID is input to the terminal device 10, the server-side control unit 55 compares the input user ID with the account information 54 and determines whether or not the input user ID has already been registered. .

入力されたユーザIDが未だ登録されていない場合、サーバ側制御部55は、サーバ側通信部51を介して端末装置10にユーザIDが未登録であることを通知したり、ユーザIDの登録を促したりするための情報を送信する。端末装置10においてユーザIDの新規登録が行われた場合、サーバ側通信部51は、端末装置10から新規登録されたユーザIDを受信する。そして、サーバ側制御部55は、サーバ側通信部51により受信された、新たなユーザIDをアカウント情報54に追加する。これによって、ユーザIDが新たに発行される。   If the input user ID has not been registered yet, the server-side control unit 55 notifies the terminal device 10 via the server-side communication unit 51 that the user ID has not been registered or registers the user ID. Send information to encourage you. When the user ID is newly registered in the terminal device 10, the server-side communication unit 51 receives the newly registered user ID from the terminal device 10. Then, the server-side control unit 55 adds the new user ID received by the server-side communication unit 51 to the account information 54. As a result, a new user ID is issued.

一方、入力されたユーザIDが既に登録されている場合、サーバ側制御部55は、サーバ側通信部51を介して端末装置10にウェブサイト情報53を送信する。これによって、端末装置10は、ウェブブラウザの機能により、ウェブサイト情報53に基づいて、各種サービスを享受可能なウェブページが描画された画面を表示する。   On the other hand, if the input user ID is already registered, the server-side control unit 55 transmits the website information 53 to the terminal device 10 via the server-side communication unit 51. Thereby, the terminal device 10 displays a screen on which a web page where various services can be enjoyed is drawn based on the website information 53 by the function of the web browser.

[情報解析装置の構成]
図5は、実施形態における情報解析装置100の構成の一例を示す図である。図示のように、情報解析装置100は、例えば、解析装置側通信部102と、解析装置側制御部110と、解析装置側記憶部130とを備える。
[Configuration of information analysis device]
FIG. 5 is a diagram illustrating an example of the configuration of the information analysis device 100 according to the embodiment. As illustrated, the information analysis device 100 includes, for example, an analysis device side communication unit 102, an analysis device side control unit 110, and an analysis device side storage unit 130.

解析装置側通信部102は、例えば、NIC等の通信インターフェースを含む。解析装置側通信部102は、ネットワークNWを介してサーバ装置50と通信する。解析装置側通信部102は、サーバ装置50から情報を受信した場合、受信した情報を解析装置側制御部110に出力する。例えば、解析装置側通信部102は、サーバ装置50からアカウント情報54を受信する。また、解析装置側通信部102は、解析装置側制御部110による制御を受けて、サーバ装置50に情報を送信する。   The analyzer communication unit 102 includes, for example, a communication interface such as NIC. The analysis device side communication unit 102 communicates with the server device 50 via the network NW. When receiving the information from the server device 50, the analysis device-side communication unit 102 outputs the received information to the analysis device-side control unit 110. For example, the analysis device side communication unit 102 receives the account information 54 from the server device 50. Further, the analysis device side communication unit 102 is controlled by the analysis device side control unit 110 and transmits information to the server device 50.

解析装置側制御部110は、例えば、取得部112と、抽出部114と、機械学習部116と、検出部118と、出力制御部120とを備える。これらの構成要素の一部または全部は、CPUなどのプロセッサが解析装置側記憶部130に格納されたプログラムを実行することにより実現される。また、解析装置側制御部110の構成要素の一部または全部は、LSI、ASIC、またはFPGAなどのハードウェアにより実現されてもよいし、ソフトウェアとハードウェアの協働によって実現されてもよい。   The analyzer control unit 110 includes, for example, an acquisition unit 112, an extraction unit 114, a machine learning unit 116, a detection unit 118, and an output control unit 120. Some or all of these components are realized by a processor such as a CPU executing a program stored in the analysis device side storage unit 130. Further, some or all of the constituent elements of the analyzer control unit 110 may be realized by hardware such as LSI, ASIC, or FPGA, or may be realized by cooperation of software and hardware.

解析装置側記憶部130は、例えば、HDD、フラッシュメモリ、EEPROM、ROM、またはRAMなどにより実現される。解析装置側記憶部130は、例えば、教師データ132と、特徴量情報134と、学習条件情報136と、学習データ138と、不正ID情報140とを記憶する。これらの情報については後述する。   The analyzer storage unit 130 is realized by, for example, a HDD, a flash memory, an EEPROM, a ROM, a RAM, or the like. The analyzer storage unit 130 stores, for example, teacher data 132, feature amount information 134, learning condition information 136, learning data 138, and fraudulent ID information 140. These pieces of information will be described later.

[教師データによる機械学習]
まず、機械学習において、二値分類問題を解くためのパターン識別モデルを生成する処理についてフローチャートを用いて説明する。本実施形態における二値分類問題とは、学習対象のユーザIDを、そのユーザIDの取得が正常(通常)であるのか、またはユーザIDの取得が不正であるのかのいずれかに分類することをいう。ユーザIDの取得が正常である例については「正例」として扱われ、ユーザIDの取得が不正である例については「負例」として扱われる。
[Machine learning using teacher data]
First, in machine learning, a process of generating a pattern identification model for solving a binary classification problem will be described using a flowchart. The binary classification problem in the present embodiment is to classify a learning target user ID into whether the acquisition of the user ID is normal (normal) or the acquisition of the user ID is illegal. Say. An example in which the acquisition of the user ID is normal is treated as a “positive example”, and an example in which the acquisition of the user ID is incorrect is treated as a “negative example”.

図6は、二値分類問題を解くためのパターン識別モデルを生成する処理の一例を示すフローチャートである。まず、取得部112は、教師データ132を参照して、このデータからユーザIDを取得する(S100)。   FIG. 6 is a flowchart showing an example of processing for generating a pattern identification model for solving a binary classification problem. First, the acquisition unit 112 refers to the teacher data 132 and acquires a user ID from this data (S100).

図7は、教師データ132の一例を示す図である。教師データ132は、例えば、ユーザIDに対して、不正に取得されたユーザIDであるか否かを示すフラグが付与された情報である。言い換えれば、教師データ132は、不正か否かが既に判明した情報である。例えば、不正に取得されたユーザIDである場合、「1」のフラグに付与され、不正でなく正常に取得されたユーザIDである場合、「0」のフラグに付与される。例えば、教師データ132は、過去のある時点で不正であると判断されたユーザIDと、これと同時期に使用され、且つ不正でないと判断されたユーザIDとを集約した情報である。   FIG. 7 is a diagram showing an example of the teacher data 132. The teacher data 132 is, for example, information in which a flag indicating whether or not the user ID is an illegally acquired user ID is added to the user ID. In other words, the teacher data 132 is information that has already been determined to be fraudulent. For example, if the user ID is an illegally acquired user ID, it is given to the flag of "1", and if the user ID is not improperly acquired and is normally acquired, it is given to the flag of "0". For example, the teacher data 132 is information in which a user ID determined to be illegal at a certain point in the past and a user ID used at the same time as this and determined not to be illegal are aggregated.

次に、抽出部114は、取得部112が教師データ132から取得したユーザIDごとに、そのユーザIDが示す文字列から、特徴量情報134において指定された種々の特徴量を抽出する(S102)。例えば、抽出部114はユーザIDが示す文字列から、ユーザIDの入力のしやすさ、文字列に含める文字のランダム性などを表す特徴量を抽出する。   Next, the extraction unit 114 extracts, for each user ID acquired by the acquisition unit 112 from the teacher data 132, various feature amounts specified in the feature amount information 134 from the character string indicated by the user ID (S102). . For example, the extraction unit 114 extracts, from the character string indicated by the user ID, a feature amount indicating the ease of inputting the user ID, the randomness of characters included in the character string, and the like.

図8は、特徴量情報134の一例を示す図である。図示の例のように、特徴量情報134は、抽出対象の特徴量がどういったものであるのかを表している。例えば、抽出対象の特徴量には、以下の10種類が存在する。下記の(1)、(10)の特徴量は、「文字列または文字の存在確率に関する特徴量」の一例である。また、(2)、(5)の特徴量は、「文字列に含まれる特定の記号に関する特徴量」の一例であり、(3)、(4)、(6)〜(9)の特徴量は、「地域によって異なるキーボードの配列に関する特徴量」の一例である。   FIG. 8 is a diagram showing an example of the feature amount information 134. As in the illustrated example, the feature amount information 134 represents what the feature amount to be extracted is. For example, there are the following 10 types of feature quantities to be extracted. The following feature amounts (1) and (10) are examples of the “feature amount regarding the existence probability of a character string or a character”. Further, the feature amounts of (2) and (5) are examples of the “feature amount regarding a specific symbol included in the character string”, and the feature amounts of (3), (4), (6) to (9). Is an example of "a feature amount relating to the arrangement of keyboards which differs depending on the region".

(1)Information Surprise
(2)ユーザIDの文字列に含まれる数字の数
(3)QWERTY配列のTopRowにある文字がユーザIDに含まれている割合
(4)DVORAK配列のTopRowにある文字がユーザIDに含まれている割合
(5)ユーザIDの文字列に含まれる数字の割合
(6)DVORAK配列でユーザIDをタイプしたときの想定される指の移動量[m]
(7)QWERTY配列のHomeRowにある文字がユーザIDに含まれている割合
(8)QWERTY配列でユーザIDをタイプしたときの想定される指の移動量[m]
(9)DVORAK配列のBottomRowにある文字がユーザIDに含まれている割合
(10)ユーザIDのエントロピー(シャノン情報量)
(1) Information Surprise
(2) Number of numbers included in the character string of the user ID (3) Percentage of characters included in TopRow of the QWERTY array included in the user ID (4) Characters included in TopRow of the DVORAK array included in the user ID Proportion (5) Proportion of numbers included in the character string of the user ID (6) Expected amount of finger movement [m] when typing the user ID in the DVORAK array
(7) Proportion of characters in HomeRow of QWERTY array included in user ID (8) Amount of movement of finger [m] expected when user ID is typed in QWERTY array
(9) Ratio of characters in BottomRow of DVORAK array included in user ID (10) Entropy of user ID (Shannon information amount)

図9は、QWERTY配列のキーボードと、DVORAK配列のキーボードの一例を示す図である。例えば、QWERTY配列のキーボードの場合、TopRowにある文字は、数字キーの一段下にある「Q、W、E、…、O、P」の文字となる。また、HomeRowにある文字は、TopRowよりも更に一段下の「A、W、E、…、O、P」の文字であり、BottomRowにある文字とは、スペースキーの一段上(HomeRowの一段下)の「Z、X、C、…、N、M」の文字である。なおこれらの文字には、アンダーバーやスラッシュ、カンマ、不等号などの記号が含まれてもよい。   FIG. 9 is a diagram showing an example of a QWERTY keyboard and a DVORAK keyboard. For example, in the case of a QWERTY keyboard, the characters in TopRow are the characters "Q, W, E, ..., O, P" below the numeric key. The characters in HomeRow are “A, W, E, ..., O, P” one step below TopRow, and the characters in BottomRow are one step above the space key (one step below HomeRow). ) "Z, X, C, ..., N, M". Note that these characters may include symbols such as underscores, slashes, commas, and signs.

また、上記の各種特徴量は、国や地域によって、一部が省略されてもよいし、他の特徴量が追加されてもよい。例えば、日本国では、QWERTY配列のキーボードが主流であるため、DVORAK配列に関する各種特徴量((4)、(6)、(9))は、省略されてよい。   In addition, depending on the country or region, a part of the above various characteristic amounts may be omitted, or other characteristic amounts may be added. For example, in Japan, a keyboard having a QWERTY layout is the mainstream, so various feature quantities ((4), (6), (9)) relating to the DVORAK layout may be omitted.

例えば、抽出部114は、以下の数式(1)、(2)に基づいて、(1)Information Surpriseの特徴量を抽出する。   For example, the extraction unit 114 extracts the feature quantity of (1) Information Surprise based on the following mathematical expressions (1) and (2).

Figure 0006680666
Figure 0006680666

Figure 0006680666
Figure 0006680666

数式(1)におけるI(u)は、特徴量であるInformation Surpriseのエントロピー値を表している。また、数式(1)および(2)におけるuは、対象とするユーザIDの文字列を表し、p(u)は、文字列uの存在確率を表し、mは、文字列uの長さ(文字数)を表している。また、数式(2)におけるcは、対象となる文字列uの中でi番目の文字を表している。 I (u) in Expression (1) represents the entropy value of Information Surprise, which is a feature amount. Further, u in the equations (1) and (2) represents a character string of the target user ID, p (u) represents the existence probability of the character string u, and m represents the length of the character string u ( Represents the number of characters). Further, c i in Expression (2) represents the i-th character in the target character string u.

例えば、抽出部114は、数式(2)に示すように、n−gram法を用いて、文字列uをn文字(例えばn=6)ずつシフトさせながら分割し、分割した文字列uに含まれる各文字cが全文字列中に存在する存在確率p(=(c|ci−(n−1)…))を導出する。抽出部114は、文字cの存在確率pを、n−gram法により分割した文字列uごとに導出し、分割した各文字列u単位での文字cの存在確率pを全て乗算することで、文字列uの存在確率p(u)を導出する。 For example, the extraction unit 114 divides the character string u by shifting n characters (for example, n = 6) by using the n-gram method, as shown in Expression (2), and includes the divided character string u. to derive the | each character c i is the existence probability p present in the total character string (c i- (n-1) ...) = (c i) to be. Extraction unit 114, the existence probability p of characters c i, that derived for each string u obtained by dividing by n-gram method, multiplying all existence probability p of characters c i for each string u units divided Then, the existence probability p (u) of the character string u is derived.

そして、抽出部114は、数式(2)に基づき導出した文字列uの存在確率p(u)を、数式(1)に代入することで、Information Surpriseのエントロピー値を表すI(u)を導出する。これによって、(1)の特徴量が抽出される。   Then, the extraction unit 114 derives I (u) representing the entropy value of Information Surprise by substituting the existence probability p (u) of the character string u derived based on Expression (2) into Expression (1). To do. As a result, the feature quantity (1) is extracted.

また、抽出部114は、ユーザIDの文字列に含まれる0から9の数を計数することで、(2)の特徴量を抽出する。   The extraction unit 114 also extracts the feature amount (2) by counting the number of 0 to 9 included in the character string of the user ID.

また、抽出部114は、ユーザIDの文字列に含まれる全文字数に対する、当該ユーザIDの文字列に含まれる「Q、W、E、…、O、P」の文字数の割合を導出することで、(3)の特徴量を抽出する。   Further, the extraction unit 114 derives the ratio of the number of characters “Q, W, E, ..., O, P” included in the character string of the user ID to the total number of characters included in the character string of the user ID. , (3) are extracted.

また、抽出部114は、ユーザIDの文字列に含まれる全文字数に対する、当該ユーザIDの文字列に含まれる「P、Y、F、…、R、L」の文字数の割合を導出することで、(4)の特徴量を抽出する。   Further, the extraction unit 114 derives the ratio of the number of characters “P, Y, F, ..., R, L” included in the character string of the user ID to the total number of characters included in the character string of the user ID. , (4) are extracted.

また、抽出部114は、ユーザIDの文字列に含まれる全文字数に対する、当該ユーザIDの文字列に含まれる0から9の数の割合を導出することで、(5)の特徴量を抽出する。   In addition, the extraction unit 114 extracts the feature amount of (5) by deriving the ratio of the number of 0 to 9 included in the character string of the user ID to the total number of characters included in the character string of the user ID. .

また、抽出部114は、DVORAK配列のキーボードを二次元平面と捉えて、二次元平面における各キーの相対的な位置関係に基づいて、文字列に含まれる文字を、その列順にタイプしたときに想定されるユーザの指の移動距離を導出することで、(6)の特徴量を抽出する。例えば、抽出部114は、BottomRowの左下のキー(Ctrlキー)を原点座標O(0,0)とし、DVORAK配列における各キーの位置座標を原点座標Oからの相対座標として決定する。原点座標Oとして割り当てられるキーを含む全キーの座標は、例えば、各キーのキートップの領域での中心座標であってよい。抽出部114は、ユーザIDが示す文字列を一文字ずつ分割し、各文字に対応するキーの座標を導出する。そして、抽出部114は、文字列順に各文字に対応するキーの座標間の距離を導出する。例えば、抽出部114は、文字列が「ABC」であれば、「A」のキーの座標から「B」のキーの座標の間の距離と、「B」のキーの座標から「C」のキーの座標の間の距離とを合わせた合計の距離を、実際の想定されるキーボードの大きさに基づく倍率で乗算し、その乗算値(合計距離×倍率)を、所定値(例えば100)で除算することで、指の移動距離を導出する。これによって、(6)の特徴量が抽出される。   Further, the extraction unit 114 regards the DVORAK array keyboard as a two-dimensional plane, and when the characters included in the character string are typed in the column order based on the relative positional relationship of each key on the two-dimensional plane. The feature amount of (6) is extracted by deriving the expected moving distance of the user's finger. For example, the extraction unit 114 determines the lower left key of the Bottom Row (Ctrl key) as the origin coordinate O (0,0), and determines the position coordinate of each key in the DVORAK array as the relative coordinate from the origin coordinate O. The coordinates of all keys including the key assigned as the origin coordinate O may be, for example, the center coordinates of the key top area of each key. The extraction unit 114 divides the character string indicated by the user ID into characters, and derives the coordinates of the key corresponding to each character. Then, the extraction unit 114 derives the distance between the coordinates of the keys corresponding to each character in the character string order. For example, when the character string is “ABC”, the extraction unit 114 determines the distance between the coordinates of the “A” key and the coordinates of the “B” key and the “C” from the coordinates of the “B” key. The total distance, including the distance between the coordinates of the keys, is multiplied by a scaling factor based on the actual expected size of the keyboard, and the multiplication value (total distance x scaling factor) is set to a predetermined value (for example, 100). The moving distance of the finger is derived by performing the division. As a result, the feature amount (6) is extracted.

また、抽出部114は、ユーザIDの文字列に含まれる全文字数に対する、当該ユーザIDの文字列に含まれる「A、S、D、…、K、L」の文字数の割合を導出することで、(7)の特徴量を抽出する。   Further, the extraction unit 114 derives the ratio of the number of characters “A, S, D, ..., K, L” included in the character string of the user ID to the total number of characters included in the character string of the user ID. , (7) are extracted.

また、抽出部114は、(6)の特徴量の抽出方法と同様に、QWERTY配列のキーボードを二次元平面と捉えて、二次元平面における各キーの相対的な位置関係に基づいて、文字列に含まれる文字を、その列順にタイプしたときに想定されるユーザの指の移動距離を導出することで、(8)の特徴量を抽出する。   In addition, the extraction unit 114 regards the QWERTY keyboard as a two-dimensional plane and uses the character string based on the relative positional relationship of each key in the two-dimensional plane, as in the feature amount extraction method of (6). The feature amount of (8) is extracted by deriving the moving distance of the user's finger assumed when the characters included in are typed in the column order.

また、抽出部114は、ユーザIDの文字列に含まれる全文字数に対する、当該ユーザIDの文字列に含まれる「Q、J、K、…、V、Z」の文字数の割合を導出することで、(9)の特徴量を抽出する。   Further, the extraction unit 114 derives the ratio of the number of characters “Q, J, K, ..., V, Z” included in the character string of the user ID to the total number of characters included in the character string of the user ID. , (9) are extracted.

また、抽出部114は、以下の数式(3)に基づいて、(10)ユーザIDのエントロピーの特徴量を抽出する。   Further, the extraction unit 114 extracts (10) the entropy feature amount of the user ID based on the following mathematical expression (3).

Figure 0006680666
Figure 0006680666

数式(3)におけるH(u)は、ユーザIDのエントロピー値を表している。例えば、抽出部114は、数式(3)に示すシャノンの情報量(平均情報量)の定義式に基づいて、ユーザIDのエントロピー値H(u)を導出する。これによって、(10)の特徴量が抽出される。   H (u) in the mathematical expression (3) represents the entropy value of the user ID. For example, the extraction unit 114 derives the entropy value H (u) of the user ID based on the definition formula of Shannon's information amount (average information amount) shown in Expression (3). As a result, the feature amount (10) is extracted.

ここで、図6のフローチャートの説明に戻る。次に、機械学習部116は、抽出部114により抽出された複数の特徴量のうち一部または全部を用いて機械学習を行い(S104)、特徴量の抽出元であるユーザIDを正例または負例に分類するためのパターン識別モデルを生成する。   Here, the description returns to the flowchart of FIG. Next, the machine learning unit 116 performs machine learning using some or all of the plurality of feature amounts extracted by the extraction unit 114 (S104), and extracts the user ID from which the feature amount is extracted as a positive example or A pattern identification model for classifying as a negative example is generated.

例えば、機械学習部116は、SVMにおいて、抽出部114により抽出された複数の特徴量のそれぞれを素性として扱い、各素性を特徴ベクトルとした特徴空間において、各特徴ベクトルを正例または負例に分類する超平面(特徴空間の次元数から1低下した次元を有する空間)を、パターン識別モデルとして導出する。このとき、機械学習部116は、教師データ132において、「0」のフラグが付与されたユーザIDが正例に、「1」のフラグが付与されたユーザIDが負例に分類されるように超平面を導出する。   For example, the machine learning unit 116 treats each of the plurality of feature amounts extracted by the extraction unit 114 as a feature in the SVM, and sets each feature vector as a positive example or a negative example in a feature space in which each feature is a feature vector. A hyperplane to be classified (a space having a dimension that is one less than the dimension of the feature space) is derived as a pattern identification model. At this time, the machine learning unit 116 classifies, in the teacher data 132, the user ID to which the flag of “0” is added as a positive example and the user ID to which the flag of “1” is added as a negative example. Derive the hyperplane.

また、機械学習部116は、機械学習としてロジスティック回帰を利用する場合、抽出部114により抽出された複数の特徴量のそれぞれを独立変数とし、正例または負例を従属変数として扱うことで、ロジスティック曲線(パターン識別モデルの他の例)を導出する。   When using logistic regression as machine learning, the machine learning unit 116 treats each of the plurality of feature quantities extracted by the extraction unit 114 as an independent variable and treats a positive example or a negative example as a dependent variable, thereby A curve (another example of the pattern identification model) is derived.

そして、機械学習部116は、導出したパターン識別モデルを評価する(S106)。例えば、機械学習部116は、SVMとロジスティック回帰における双方のパターン識別モデルについて、F値(F−measure)を用いて評価する。F値とは、パターン識別モデルによるユーザIDの分類結果が、真の結果とどの程度一致するのかを評価する指標である。F値は、「スコア」の一例である。例えば、F値は、以下の数式(4)から(6)に基づいて導出される。   Then, the machine learning unit 116 evaluates the derived pattern identification model (S106). For example, the machine learning unit 116 evaluates both the pattern identification models in the SVM and the logistic regression by using the F value (F-measure). The F value is an index for evaluating how much the user ID classification result by the pattern identification model matches the true result. The F value is an example of “score”. For example, the F value is derived based on the following formulas (4) to (6).

Figure 0006680666
Figure 0006680666

Figure 0006680666
Figure 0006680666

Figure 0006680666
Figure 0006680666

precision(精度)は、パターン識別モデルにより正例として分類されたユーザIDのうち、実際に正例であるユーザID(教師データ132において「0」のフラグが付与されたユーザID)の割合を表している。TPは、パターン識別モデルによる分類結果が正であり、真の結果も正であるユーザIDの数を表し、FPは、パターン識別モデルによる分類結果が正であり、真の結果が負であるユーザIDの数を表している。Recall(再現率)は、実際に正例であるユーザIDのうち、パターン識別モデルにより正例として分類されたユーザIDの割合を表している。FNは、パターン識別モデルによる分類結果が負であり、真の結果が正であるユーザIDの数を表している。例えば、F値(F−measure)が100[%]であれば、教師データ132を完全に正例と負例に分類できたことを意味する。   The precision indicates the proportion of user IDs that are actually positive examples (user IDs to which a “0” flag is added in the teacher data 132) among the user IDs that are classified as positive examples by the pattern identification model. ing. TP represents the number of user IDs whose classification result by the pattern identification model is positive and whose true result is also positive, and FP is a user whose classification result by the pattern identification model is positive and whose true result is negative. It represents the number of IDs. “Recall” (reproduction rate) represents the ratio of user IDs classified as positive examples by the pattern identification model among the user IDs that are actually positive examples. FN represents the number of user IDs whose classification result by the pattern identification model is negative and whose true result is positive. For example, if the F value (F-measure) is 100 [%], it means that the teacher data 132 can be completely classified into a positive example and a negative example.

機械学習部116は、特徴量の組み合わせごとのパターン識別モデルの評価結果(F値)に基づいて、学習条件を決定する(S108)。学習条件には、(1)抽出部114により抽出された複数の特徴量のうち、機械学習において用いる特徴量の組み合わせを指定すること、(2)機械学習の対象とするユーザIDの文字数に制限を設けること(例えば10文字未満のユーザIDは、機械学習の対象から除外する)、(3)複数の機械学習の手法うち好適な手法を選択すること、といった条件が含まれる。機械学習部116により決定された学習条件は、学習条件情報136として解析装置側記憶部130に記憶される。   The machine learning unit 116 determines the learning condition based on the evaluation result (F value) of the pattern identification model for each combination of feature amounts (S108). The learning conditions include (1) designating a combination of feature amounts used in machine learning among a plurality of feature amounts extracted by the extraction unit 114, and (2) limiting the number of characters of a user ID targeted for machine learning. Is provided (for example, a user ID having less than 10 characters is excluded from the target of machine learning), and (3) a suitable method is selected from among a plurality of machine learning methods. The learning condition determined by the machine learning unit 116 is stored in the analyzer storage unit 130 as learning condition information 136.

ユーザIDの文字数に制限を設ける意味は、機械学習におけるノイズの影響を抑制するためである。一般的に、成長期(過渡期)を過ぎて成熟期(定常期)に移行したサービスでは、そのサービスにおいてユーザにより取得されるユーザIDは、ある文字数以上に収束しやすくなる。これは、年月が増すにつれて、申請されたユーザIDが既に取得されたユーザIDと重複する確率が高くなるためである。従って、ユーザIDの文字数に制限を設けることによって、不正に取得されている蓋然性の高いユーザIDの文字数と異なる文字数のユーザIDを除外することができる。すなわち、不正に取得されている蓋然性の低いユーザIDを除外することができる。   The purpose of limiting the number of characters of the user ID is to suppress the influence of noise in machine learning. Generally, in a service that has transitioned from a growth period (transitional period) to a maturity period (steady period), the user ID acquired by the user in the service tends to converge to a certain number of characters or more. This is because the probability that the applied user ID overlaps with the already acquired user ID increases as the years increase. Therefore, by limiting the number of characters of the user ID, it is possible to exclude the user ID having the number of characters different from the number of characters of the user ID which is highly likely to be illegally acquired. That is, it is possible to exclude a user ID that has a low probability of being illegally acquired.

図10は、実際の評価結果の一例を示す図である。図中(a)に示すように、ある観測時期にログイン(認証)に成功したユーザ(通常ユーザ)のユーザIDの数は「2.4×10」程度であり、上記の観測時期と同時期に100個以上のユーザIDを取得したユーザ(不正ユーザ)のユーザIDの数は「12.1×10」程度であった。また、不正ユーザのうち、そのユーザIDの文字数が10文字以上のユーザIDの数は、「9.4×10」程度であった。 FIG. 10 is a diagram showing an example of an actual evaluation result. As shown in (a) in the figure, the number of user IDs of users (normal users) who have successfully logged in (authenticated) at a certain observation time is about “2.4 × 10 6 ”, which is the same as the above observation time. The number of user IDs of users (illegal users) who acquired 100 or more user IDs at the time was about “12.1 × 10 3 ”. In addition, the number of user IDs of which the number of characters of the user ID is 10 or more among the unauthorized users was about “9.4 × 10 3 ”.

解析装置側制御部110は、上記(a)を学習データ138として扱い、SVMおよびロジスティック回帰の双方の機械学習を行うことで、各機械学習におけるパターン識別モデルを評価した。このとき、クラスインバランスを考慮して、上記(a)の観測データのうち、学習データ138として扱う通常ユーザのユーザID数を、不正ユーザのユーザID数と同程度とした。また、SVMについては、特徴空間において特徴ベクトル同士の重なりを考慮して(特徴ベクトルを線形分離できない場合を考慮して)、ソフトマージンSVM(C‐SVM)を用いた。また、ロジスティック回帰については、過学習が生じるのを抑制するために、L1正則化ロジスティック回帰を用いた。また、F値の導出時には、K−分割交差検証(例えばK=10)を用いた。   The analyzer control unit 110 treats (a) as learning data 138 and performs machine learning of both SVM and logistic regression to evaluate the pattern identification model in each machine learning. At this time, in consideration of class imbalance, the number of user IDs of normal users treated as the learning data 138 in the observation data of (a) is set to be approximately the same as the number of user IDs of unauthorized users. As for the SVM, the soft margin SVM (C-SVM) is used in consideration of the overlap between the feature vectors in the feature space (in consideration of the case where the feature vectors cannot be linearly separated). Regarding logistic regression, L1 regularized logistic regression was used in order to suppress the occurrence of overfitting. Further, when deriving the F value, K-split cross validation (for example, K = 10) was used.

同図の(b)は、各パターン識別モデルの評価結果を表している。図示の例では、ユーザIDの長さ(文字数)を指定せずに、F値が最も大きくなる学習条件は、ソフトマージンSVM(C‐SVM)において、(1)〜(10)の10個の特徴量を全て組み合わせて学習したときであった(F値=85.49[%])。また、ユーザIDの文字数(ユーザIDの長さ)を10文字以上に指定したときのF値が最も大きくなる学習条件は、ソフトマージンSVM(C‐SVM)において、(1)、(2)、(4)〜(7)、(10)の7つの特徴量を組み合わせて学習したときであった(F値=89.77[%])。   FIG. 7B shows the evaluation result of each pattern identification model. In the illustrated example, the learning condition that maximizes the F value without specifying the length (the number of characters) of the user ID is 10 in the soft margin SVM (C-SVM) (1) to (10). It was when the learning was performed by combining all the feature amounts (F value = 85.49 [%]). Further, the learning condition that maximizes the F value when the number of characters of the user ID (the length of the user ID) is specified to be 10 characters or more is (1), (2) in the soft margin SVM (C-SVM), It was when learning was performed by combining the seven feature amounts of (4) to (7) and (10) (F value = 89.77 [%]).

ユーザIDの文字数に制限を設ける場合、Information Surpriseの特徴量が変動するため、F値の結果が変わる。上述したように、Information Surpriseのエントロピー値I(u)は、対象とするユーザIDの文字列uの存在確率p(u)に起因しているため、文字列uが短ければ、その存在確率p(u)は大きくなる。これにより、I(u)は大きくなり、F値が向上する。   When the number of characters of the user ID is limited, the result of the F value changes because the characteristic amount of Information Surprise changes. As described above, since the entropy value I (u) of Information Surprise is caused by the existence probability p (u) of the character string u of the target user ID, if the character string u is short, its existence probability p (U) becomes large. This increases I (u) and improves the F value.

このように、機械学習部116は、評価結果のF値を参照して、最もF値が高くなる学習条件を選出し、その学習条件を次回以降の学習におけるパラメータとして設定する。図10の例の場合、F値は89.77[%]が最大であるため、機械学習部116は、学習条件として、機械学習において用いる特徴量の組み合わせを、(1)、(2)、(4)〜(7)、(10)の7つの特徴量に、ユーザIDの制限文字数を10文字以上に、更に、機械学習の手法をSVM(C‐SVM)に決定する。   In this way, the machine learning unit 116 refers to the F value of the evaluation result, selects the learning condition having the highest F value, and sets the learning condition as a parameter for the learning after the next time. In the example of FIG. 10, since the F value is 89.77 [%], the machine learning unit 116 sets the combination of the feature amounts used in machine learning as (1), (2), For the seven feature quantities (4) to (7) and (10), the character limit of the user ID is determined to be 10 or more, and the machine learning method is determined to be SVM (C-SVM).

[学習データによる機械学習]
上述したフローチャートの処理により学習条件を決定した後、解析装置側制御部110は、生成したパターン認識モデルを用いて、サーバ装置50により登録されたユーザIDのうち、教師データ132として利用しなかったユーザIDを正例または負例に分類する。
[Machine learning using learning data]
After determining the learning condition by the process of the above-described flowchart, the analysis device-side control unit 110 did not use the generated pattern recognition model as the teacher data 132 among the user IDs registered by the server device 50. User IDs are classified into positive examples and negative examples.

図11は、生成したパターン認識モデルを用いて、未分類のユーザIDを正例または負例に分類する処理の一例を示すフローチャートである。まず、取得部112は、学習データ138を参照して、このデータからユーザIDを取得する(S200)。   FIG. 11 is a flowchart showing an example of a process of classifying unclassified user IDs into positive examples or negative examples using the generated pattern recognition model. First, the acquisition unit 112 refers to the learning data 138 and acquires the user ID from this data (S200).

学習データ138とは、サーバ装置50により登録されたユーザIDのうち、教師データ132として利用しなかったユーザIDであって、未だ不正か否かの判断がなされていないユーザIDの集合である。教師データ132において過去の時点で不正でないと判断されたユーザIDについては、現在においても使用され得ることが想定されるため、学習データ138には、教師データ132において「0」のフラグが付与されたユーザIDが含まれてよい。   The learning data 138 is a set of user IDs that have not been used as the teacher data 132 among the user IDs registered by the server device 50 and that have not been determined to be fraudulent. Since it is assumed that the user ID that was determined to be not illegal in the past in the teacher data 132 can be used even now, the learning data 138 is provided with a flag of “0” in the teacher data 132. User ID may be included.

次に、抽出部114は、取得部112により取得されたユーザID(未分類のユーザID)から(1)〜(10)の10個の特徴量を抽出する(S202)。   Next, the extraction unit 114 extracts 10 feature amounts (1) to (10) from the user ID (unclassified user ID) acquired by the acquisition unit 112 (S202).

次に、機械学習部116は、教師データ132を用いて決定した学習条件に従って、機械学習を行う(S204)。例えば、機械学習部116は、上述した図10の例において決定した学習条件に従う場合、抽出部114により抽出された10個の特徴量のうち、(1)、(2)、(4)〜(7)、(10)の7個の特徴量を選択し、この7個の特徴量を素性としてSVM(C‐SVM)による機械学習を行う。この際、機械学習部116は、負例に分類するユーザIDの文字数を10文字以上とする。   Next, the machine learning unit 116 performs machine learning according to the learning condition determined using the teacher data 132 (S204). For example, when the machine learning unit 116 follows the learning condition determined in the example of FIG. 10 described above, (1), (2), (4) to ((10) of the 10 feature amounts extracted by the extraction unit 114. 7) of 7) and (10) are selected, and machine learning by SVM (C-SVM) is performed with these 7 feature quantities as features. At this time, the machine learning unit 116 sets the number of characters of the user ID classified as a negative example to 10 or more.

次に、検出部118は、機械学習部116による機械学習の結果に基づいて、学習データ138に含まれるユーザIDの中から、不正に取得されたユーザIDを検出する(S206)。例えば、検出部118は、SVMによる機械学習が行われる場合、特徴空間において負例に分類された特徴ベクトル(素性)を抽出し、この特徴ベクトルが示す特徴量の抽出元であるユーザIDを特定することで、不正に取得されたユーザIDを検出する。検出部118により検出された不正なユーザIDは、不正ID情報140として解析装置側記憶部130に記憶される。   Next, the detection unit 118 detects an illegally acquired user ID from the user IDs included in the learning data 138 based on the result of the machine learning by the machine learning unit 116 (S206). For example, when machine learning by SVM is performed, the detection unit 118 extracts a feature vector (feature) classified as a negative example in the feature space, and identifies the user ID from which the feature amount indicated by the feature vector is extracted. By doing so, the illegally acquired user ID is detected. The unauthorized user ID detected by the detector 118 is stored in the analyzer storage unit 130 as the unauthorized ID information 140.

なお、検出部118は、機械学習部116による機械学習の結果に基づいて不正に取得されたユーザIDを検出する代わりに、抽出部114により抽出されたInformation Surpriseの特徴量に基づいて、不正に取得されたユーザIDを検出してもよい。   It should be noted that the detection unit 118 illegally detects, based on the feature amount of Information Surprise extracted by the extraction unit 114, instead of detecting the user ID obtained illegally based on the result of machine learning by the machine learning unit 116. The acquired user ID may be detected.

図12は、ユーザIDの文字数の制限の有無に応じたInformation Surpriseの特徴量の一例を示す図である。図中(a)は、ユーザIDの文字数に制限を設けていない場合のInformation Surpriseの特徴量の結果を表し、(b)は、ユーザIDの文字数に10文字以上の制限を設けた場合のInformation Surpriseの特徴量の結果を表している。いずれも横軸は、Information Surpriseの特徴量を、その特徴量の標準偏差で正規化した値を表し、縦軸は、Information Surpriseの特徴量の抽出元の文字列uの存在確率p(u)を表している。   FIG. 12 is a diagram showing an example of the Information Surprise feature amount depending on whether or not there is a limit on the number of characters of the user ID. In the figure, (a) shows the result of the feature amount of Information Surprise when the number of characters of the user ID is not limited, and (b) shows Information when the number of characters of the user ID is limited to 10 or more. It shows the result of Surprise features. In each case, the horizontal axis represents the value of the Information Surprise feature quantity normalized by the standard deviation of the feature quantity, and the vertical axis represents the existence probability p (u) of the character string u from which the Information Surprise feature quantity is extracted. Is represented.

例えば、検出部118は、Information Surpriseの特徴量が閾値TH1(例えば250)以上のときに、文字列uの存在確率p(u)の値が閾値TH2(例えば5[%])以上である場合に、そのInformation Surpriseの特徴量の抽出元のユーザIDを、不正に取得されたユーザIDとして検出してよい。   For example, when the feature amount of Information Surprise is equal to or greater than the threshold TH1 (eg, 250), the detection unit 118 determines that the value of the existence probability p (u) of the character string u is equal to or greater than the threshold TH2 (eg, 5 [%]). In addition, the user ID from which the feature amount of the Information Surprise is extracted may be detected as the illegally acquired user ID.

次に、出力制御部120は、解析装置側通信部102を用いて、検出部118による検出結果である不正ID情報140をサーバ装置50に送信する(S208)。これによって、本フローチャートの処理が終了する。   Next, the output control unit 120 uses the analysis device-side communication unit 102 to transmit the fraudulent ID information 140, which is the detection result of the detection unit 118, to the server device 50 (S208). This completes the processing of this flowchart.

サーバ装置50は、情報解析装置100から不正ID情報140を受信した場合、不正ID情報140に含まれるユーザIDによるサービスの利用を禁止してもよいし、そのユーザIDの認証方法を変更してもよい。   When the server device 50 receives the unauthorized ID information 140 from the information analysis device 100, the server device 50 may prohibit the use of the service by the user ID included in the unauthorized ID information 140, or change the authentication method of the user ID. Good.

図13は、ユーザIDの認証時に端末装置10の表示部13に表示される画面の一例を示す図である。例えば、サーバ側制御部55は、サーバ側通信部51により端末装置10から受信されたユーザIDが不正ID情報140に含まれているか否かを判定する。すなわち、サーバ側制御部55は、認証時に入力されたユーザIDが不正に取得されたユーザIDであるのか否かを判定する。認証時に入力されたユーザIDが、不正ID情報140に含まれていない場合、サーバ側制御部55は、正常なユーザIDであると判断し、ウェブサイトを介してサービスを提供する。   FIG. 13 is a diagram showing an example of a screen displayed on the display unit 13 of the terminal device 10 at the time of authenticating the user ID. For example, the server-side control unit 55 determines whether or not the user ID received from the terminal device 10 by the server-side communication unit 51 is included in the illegal ID information 140. That is, the server-side control unit 55 determines whether or not the user ID input at the time of authentication is an illegally acquired user ID. When the user ID input at the time of authentication is not included in the unauthorized ID information 140, the server-side control unit 55 determines that the user ID is a normal user ID and provides the service via the website.

一方、認証時に入力されたユーザIDが、不正ID情報140に含まれている場合、サーバ側制御部55は、新たに画像認証を求める画面を、端末装置10の表示部13に表示させる。これによって、不正なユーザIDの蓋然性が高いIDについては、ユーザIDの認証の難易度を高めることによって、サービスの利用を抑制することができる。また、サーバ側制御部55は、画像認証に代えて或いは加えて、予め設定した情報(例えば生年月日や家族の名前など)の入力を求めるキーワード認証やその他の認証を行ってもよい。また、サーバ側制御部55は、画像認証において表示する画像の文字数を増やしたり、文字の歪み度合を大きくしたりすることで、その画像認証自体の難易度を高めてもよい。すなわち、サーバ側制御部55は、認証回数を増加させたり、各認証の難易度を高めたりすることで、不正に取得されたユーザIDを用いたサービスの利用を抑制してよい。   On the other hand, when the user ID input at the time of authentication is included in the fraudulent ID information 140, the server-side control unit 55 causes the display unit 13 of the terminal device 10 to display a new screen for image authentication. This makes it possible to suppress the use of services for IDs that have a high probability of being an unauthorized user ID by increasing the difficulty level of authenticating the user ID. Further, the server-side control unit 55 may perform, in addition to or in addition to the image authentication, keyword authentication for requesting input of preset information (for example, date of birth or family name) and other authentication. The server-side control unit 55 may increase the difficulty level of the image authentication itself by increasing the number of characters of the image displayed in the image authentication or increasing the degree of character distortion. That is, the server-side control unit 55 may suppress the use of the service using the illegally acquired user ID by increasing the number of times of authentication or increasing the difficulty level of each authentication.

以上説明した実施形態によれば、ユーザIDを取得する取得部112と、取得部112により取得されたユーザIDが示す文字列から、(1)から(10)の特徴量のうち少なくとも一部を抽出する抽出部114と、抽出部により文字列から抽出された特徴量の中から、不正に取得されたユーザIDを検出するための特徴量(例えば、(1)、(2)、(4)〜(7)、(10)の特徴量)を、機械学習を用いて選択する機械学習部116と、を備えることにより、不正に取得されたユーザIDの検出精度を向上させることができる。   According to the embodiment described above, at least a part of the feature quantities (1) to (10) is obtained from the acquisition unit 112 that acquires the user ID and the character string that is indicated by the user ID acquired by the acquisition unit 112. From the extraction unit 114 to extract and the feature amount extracted from the character string by the extraction unit, a feature amount for detecting an illegally acquired user ID (for example, (1), (2), (4)). To (7) and (10) (feature amount) are provided by the machine learning unit 116 that selects using machine learning, it is possible to improve the detection accuracy of the illegally acquired user ID.

また、上述した実施形態によれば、負例に分類するユーザIDの文字数に制限を設けることにより、機械学習におけるノイズの影響を抑制することができる。   Further, according to the above-described embodiment, the influence of noise in machine learning can be suppressed by limiting the number of characters of the user ID classified as a negative example.

また、上述した実施形態によれば、機械学習を用いて選択した特徴量に基づいて、不正に取得されたユーザIDを検出し、サービス利用のための認証時に、検出したユーザIDが使用された場合、認証回数を増加させたり、各認証の難易度を高めたりすることで、不正に取得されたユーザIDを用いたサービスの利用を抑制することができる。   Further, according to the above-described embodiment, the illegally acquired user ID is detected based on the feature amount selected by using machine learning, and the detected user ID is used at the time of authentication for using the service. In this case, by increasing the number of times of authentication or increasing the difficulty level of each authentication, it is possible to suppress the use of the service using the illegally acquired user ID.

<ハードウェア構成>
上述した実施形態の端末装置10、サーバ装置50、および情報解析装置100は、例えば、図14に示すようなハードウェア構成により実現される。図14は、実施形態の端末装置10、サーバ装置50、および情報解析装置100のハードウェア構成の一例を示す図である。本図は、端末装置10がスマートフォンである例を示している。
<Hardware configuration>
The terminal device 10, the server device 50, and the information analysis device 100 of the above-described embodiment are realized by, for example, a hardware configuration as shown in FIG. FIG. 14 is a diagram illustrating an example of a hardware configuration of the terminal device 10, the server device 50, and the information analysis device 100 according to the embodiment. This figure shows an example in which the terminal device 10 is a smartphone.

端末装置10は、CPU10−1、RAM10−2、ROM10−3、フラッシュメモリなどの二次記憶装置10−4、タッチパネル10−5、および無線通信モジュール10−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。無線通信モジュール10−6は、無線基地局にアクセスすることでネットワークNWに接続する。無線通信モジュール10−6は端末側通信部11に対応し、タッチパネル10−5は受付部12および表示部13に対応する。RAM10−2、ROM10−3、二次記憶装置10−4は、端末側記憶部14に対応する。また、二次記憶装置10−4に格納されたプログラムがDMAコントローラ(不図示)などによってRAM10−2に展開され、CPU10−1によって実行されることで、端末側制御部15が実現される。   In the terminal device 10, the CPU 10-1, the RAM 10-2, the ROM 10-3, the secondary storage device 10-4 such as a flash memory, the touch panel 10-5, and the wireless communication module 10-6 are connected by an internal bus or a dedicated communication line. It is connected to each other. The wireless communication module 10-6 connects to the network NW by accessing the wireless base station. The wireless communication module 10-6 corresponds to the terminal side communication unit 11, and the touch panel 10-5 corresponds to the reception unit 12 and the display unit 13. The RAM 10-2, the ROM 10-3, and the secondary storage device 10-4 correspond to the terminal-side storage unit 14. Further, the program stored in the secondary storage device 10-4 is expanded in the RAM 10-2 by a DMA controller (not shown) or the like and executed by the CPU 10-1, so that the terminal-side control unit 15 is realized.

サーバ装置50は、NIC50−1、CPU50−2、RAM50−3、ROM50−4、フラッシュメモリやHDDなどの二次記憶装置50−5、およびドライブ装置50−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置50−6には、光ディスクなどの可搬型記憶媒体が装着される。NIC50−1は、サーバ側通信部51に対応し、RAM50−3、ROM50−4、二次記憶装置50−5は、サーバ側記憶部52に対応する。二次記憶装置50−5、またはドライブ装置50−6に装着された可搬型記憶媒体に格納されたプログラムがDMAコントローラ(不図示)などによってRAM50−3に展開され、CPU50−2によって実行されることで、サーバ側制御部55が実現される。サーバ側制御部55が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。   In the server device 50, the NIC 50-1, CPU 50-2, RAM 50-3, ROM 50-4, secondary storage device 50-5 such as flash memory and HDD, and drive device 50-6 are connected by an internal bus or a dedicated communication line. It is connected to each other. A portable storage medium such as an optical disk is attached to the drive device 50-6. The NIC 50-1 corresponds to the server-side communication unit 51, and the RAM 50-3, the ROM 50-4, and the secondary storage device 50-5 correspond to the server-side storage unit 52. A program stored in a portable storage medium mounted on the secondary storage device 50-5 or the drive device 50-6 is expanded in the RAM 50-3 by a DMA controller (not shown) or the like and executed by the CPU 50-2. As a result, the server-side control unit 55 is realized. The program referred to by the server-side control unit 55 may be downloaded from another device via the network NW.

情報解析装置100は、NIC100−1、CPU100−2、RAM100−3、ROM100−4、フラッシュメモリやHDDなどの二次記憶装置100−5、およびドライブ装置100−6が、内部バスあるいは専用通信線によって相互に接続された構成となっている。ドライブ装置100−6には、光ディスクなどの可搬型記憶媒体が装着される。NIC100−1は、解析装置側通信部102に対応し、RAM100−3、ROM100−4、二次記憶装置100−5は、解析装置側記憶部130に対応する。二次記憶装置100−5、またはドライブ装置100−6に装着された可搬型記憶媒体に格納されたプログラムがDMA(Direct Memory Access)コントローラ(不図示)などによってRAM100−3に展開され、CPU100−2によって実行されることで、解析装置側制御部110の各機能部が実現される。解析装置側制御部110が参照するプログラムは、ネットワークNWを介して他の装置からダウンロードされてもよい。   In the information analysis device 100, the NIC 100-1, the CPU 100-2, the RAM 100-3, the ROM 100-4, the secondary storage device 100-5 such as a flash memory or an HDD, and the drive device 100-6 are an internal bus or a dedicated communication line. Are connected to each other by. A portable storage medium such as an optical disk is attached to the drive device 100-6. The NIC 100-1 corresponds to the analysis device side communication unit 102, and the RAM 100-3, the ROM 100-4, and the secondary storage device 100-5 correspond to the analysis device side storage unit 130. The program stored in the secondary storage device 100-5 or the portable storage medium mounted in the drive device 100-6 is expanded in the RAM 100-3 by a DMA (Direct Memory Access) controller (not shown), and the CPU 100- By being executed by 2, each functional unit of the analysis device side control unit 110 is realized. The program referenced by the analyzer control unit 110 may be downloaded from another device via the network NW.

以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。   As described above, the embodiments for carrying out the present invention have been described by using the embodiments, but the present invention is not limited to these embodiments at all, and various modifications and substitutions are made without departing from the gist of the present invention. Can be added.

1…情報解析システム、10…端末装置、11…端末側通信部、12…受付部、13…表示部、14…端末側記憶部、15…端末側制御部、50…サーバ装置、51…サーバ側通信部、52…サーバ側記憶部、55…サーバ側制御部、100…情報解析装置、102…解析装置側通信部、110…解析装置側制御部、112…取得部、114…抽出部、116…機械学習部、118…検出部、120…出力制御部、130…解析装置側記憶部、132…教師データ、134…特徴量情報、136…学習条件情報、138…学習データ、140…不正ID情報、NW…ネットワーク   DESCRIPTION OF SYMBOLS 1 ... Information analysis system, 10 ... Terminal device, 11 ... Terminal side communication part, 12 ... Reception part, 13 ... Display part, 14 ... Terminal side storage part, 15 ... Terminal side control part, 50 ... Server device, 51 ... Server Side communication unit, 52 ... Server side storage unit, 55 ... Server side control unit, 100 ... Information analysis device, 102 ... Analysis device side communication unit, 110 ... Analysis device side control unit, 112 ... Acquisition unit, 114 ... Extraction unit, 116 ... Machine learning unit, 118 ... Detection unit, 120 ... Output control unit, 130 ... Analysis device side storage unit, 132 ... Teacher data, 134 ... Feature amount information, 136 ... Learning condition information, 138 ... Learning data, 140 ... Illegal ID information, NW ... Network

Claims (12)

ユーザの識別情報を取得する取得部と、
前記取得部により取得された前記ユーザの識別情報が示す文字列から、文字列または文字の存在確率に関する特徴量、文字列に含まれる特定の記号に関する特徴量、および地域によって異なるキーボードの配列に関する特徴量のうち少なくとも一部を抽出する抽出部と、
前記抽出部により前記文字列から抽出された特徴量の中から、不正に取得されたユーザの識別情報を検出するための特徴量を、機械学習を用いて選択する機械学習部と、
を備える情報解析装置。
An acquisition unit that acquires user identification information,
From a character string indicated by the identification information of the user acquired by the acquisition unit, a characteristic amount relating to a character string or a probability of existence of a character, a characteristic amount relating to a specific symbol included in the character string, and a characteristic relating to a keyboard arrangement which varies depending on regions. An extraction unit for extracting at least a part of the amount,
From the feature amount extracted from the character string by the extraction unit, a machine learning unit that selects a feature amount for detecting illegally acquired user identification information using machine learning,
An information analysis device including.
前記文字列または文字の存在確率に関する特徴量は、前記文字列または文字の存在確率のエントロピー値に基づく特徴量である、
請求項1に記載の情報解析装置。
The feature amount relating to the existence probability of the character string or the character is a feature amount based on the entropy value of the existence probability of the character string or character,
The information analysis device according to claim 1.
前記機械学習部は、
前記抽出部により抽出された複数の特徴量のそれぞれを素性として、前記素性を正例および負例に分類する2値分類問題を解き、
前記2値分類問題におけるスコアが最も高い特徴量の組み合わせを、前記不正に取得されたユーザの識別情報を検出するための特徴量として選択する、
請求項1または2に記載の情報解析装置。
The machine learning unit is
Solving a binary classification problem that classifies the features into positive examples and negative examples, using each of the plurality of feature quantities extracted by the extraction unit as a feature,
A combination of feature amounts having the highest score in the binary classification problem is selected as a feature amount for detecting the illegally acquired identification information of the user.
The information analysis apparatus according to claim 1.
前記文字列または文字の存在確率に関する特徴量は、前記文字列の長さに応じて値が変動する特徴量であり、
前記機械学習部は、前記ユーザの識別情報が示す文字列の長さに制限を設けて前記スコアを導出する、
請求項3に記載の情報解析装置。
The feature amount relating to the existence probability of the character string or the character is a feature amount whose value varies according to the length of the character string,
The machine learning unit derives the score by limiting the length of a character string indicated by the identification information of the user,
The information analysis device according to claim 3.
前記地域が日本国である場合、前記キーボードの配列に関する特徴量を、QWERTY配列に関する特徴量とする、
請求項1から4のうちいずれか1項に記載の情報解析装置。
When the region is Japan, the feature amount related to the keyboard layout is set to the feature amount related to the QWERTY layout,
The information analysis device according to any one of claims 1 to 4.
前記機械学習部により選択された特徴量に基づいて、前記取得部により取得された複数のユーザの識別情報の中から、前記不正に取得されたユーザの識別情報を検出する検出部を更に備える、
請求項1から5のうちいずれか1項に記載の情報解析装置。
Based on the feature amount selected by the machine learning unit, further includes a detection unit that detects the illegally acquired user identification information from among the plurality of user identification information acquired by the acquisition unit,
The information analysis device according to any one of claims 1 to 5.
前記抽出部により抽出された複数の特徴量のうち、前記文字列または文字の存在確率に関する特徴量に基づいて、前記取得部により取得された複数のユーザの識別情報の中から、前記不正に取得されたユーザの識別情報を検出する検出部を更に備える、
請求項1から5のうちいずれか1項に記載の情報解析装置。
Of the plurality of characteristic amounts extracted by the extraction unit, based on the characteristic amount related to the probability of existence of the character string or the character, the illegally acquired from the identification information of the plurality of users acquired by the acquisition unit Further comprising a detection unit for detecting the identified user identification information,
The information analysis device according to any one of claims 1 to 5.
前記検出部は、前記文字列または文字の存在確率に関する特徴量が閾値を超える場合に、閾値を超えた前記文字列または文字の存在確率に関する特徴量の抽出元であるユーザの識別情報を、前記不正に取得されたユーザの識別情報として検出する、
請求項7に記載の情報解析装置。
The detection unit, when the feature amount related to the existence probability of the character string or character exceeds a threshold value, the identification information of the user who is the extraction source of the feature amount related to the existence probability of the character string or character exceeding the threshold value, Detected as the illegally acquired user identification information,
The information analysis device according to claim 7.
ユーザの識別情報を取得する取得部と、
前記取得部により取得された前記ユーザの識別情報が示す文字列から、文字列または文字の存在確率に関する特徴量を抽出する抽出部と、
前記文字列または文字の存在確率に関する特徴量が閾値を超える場合に、閾値を超えた前記文字列または文字の存在確率に関する特徴量の抽出元であるユーザの識別情報を、不正に取得されたユーザの識別情報として検出する検出部と、
を備える情報解析装置。
An acquisition unit that acquires user identification information,
An extraction unit that extracts a feature amount relating to the existence probability of a character string or a character from the character string indicated by the identification information of the user acquired by the acquisition unit,
When the feature amount relating to the existence probability of the character string or the character exceeds a threshold value, the identification information of the user who is the extraction source of the feature amount relating to the existence probability of the character string or the character value exceeding the threshold value is illegally acquired by the user. A detection unit that detects the identification information of
An information analysis device including.
請求項7から9のうちいずれか1項に記載の情報解析装置と、
前記ユーザの識別情報の入力操作を受け付ける受付部と、
前記受付部により受け付けられた前記ユーザの識別情報の入力操作に基づいて、ユーザの認証を行う認証部と、を備え、
前記認証部は、前記検出部により前記不正に取得されたユーザの識別情報として検出されたユーザの識別情報が、前記受付部によって受け付けられた場合、前記認証の難易度を変更する、
情報解析システム。
An information analysis apparatus according to any one of claims 7 to 9,
A reception unit that receives an input operation of the user identification information,
An authentication unit that authenticates the user based on an input operation of the identification information of the user received by the reception unit,
When the identification information of the user detected as the identification information of the illegally acquired user by the detection unit is accepted by the reception unit, the authentication unit changes the difficulty level of the authentication,
Information analysis system.
コンピュータが、
ユーザの識別情報を取得し、
前記取得した前記ユーザの識別情報が示す文字列から、文字列または文字の存在確率に関する特徴量、文字列に含まれる特定の記号に関する特徴量、および地域によって異なるキーボードの配列に関する特徴量のうち少なくとも一部を抽出し、
前記文字列から抽出した特徴量の中から、不正に取得されたユーザの識別情報を検出するための特徴量を、機械学習を用いて選択する、
情報解析方法。
Computer
Obtain the user's identification information,
From the character string indicated by the acquired identification information of the user, at least one of a characteristic amount relating to the probability of existence of a character string or a character, a characteristic amount relating to a specific symbol included in the character string, and a characteristic amount relating to a keyboard layout that differs depending on a region. Extract some,
From the characteristic amounts extracted from the character string, a characteristic amount for detecting the illegally acquired identification information of the user is selected using machine learning,
Information analysis method.
コンピュータに、
ユーザの識別情報を取得させ、
前記取得させた前記ユーザの識別情報が示す文字列から、文字列または文字の存在確率に関する特徴量、文字列に含まれる特定の記号に関する特徴量、および地域によって異なるキーボードの配列に関する特徴量のうち少なくとも一部を抽出させ、
前記文字列から抽出させた特徴量の中から、不正に取得されたユーザの識別情報を検出するための特徴量を、機械学習を用いて選択させる、
情報解析プログラム。
On the computer,
Get user identification information,
From the character string indicated by the acquired identification information of the user, of the characteristic amount relating to the existence probability of the character string or the character, the characteristic amount relating to a specific symbol included in the character string, and the characteristic amount relating to the keyboard layout which differs depending on the region. Let at least a portion be extracted,
From among the feature amounts extracted from the character string, a feature amount for detecting illegally acquired user identification information is selected using machine learning,
Information analysis program.
JP2016227589A 2016-11-24 2016-11-24 Information analysis device, information analysis system, information analysis method, and information analysis program Active JP6680666B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016227589A JP6680666B2 (en) 2016-11-24 2016-11-24 Information analysis device, information analysis system, information analysis method, and information analysis program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016227589A JP6680666B2 (en) 2016-11-24 2016-11-24 Information analysis device, information analysis system, information analysis method, and information analysis program

Publications (2)

Publication Number Publication Date
JP2018084953A JP2018084953A (en) 2018-05-31
JP6680666B2 true JP6680666B2 (en) 2020-04-15

Family

ID=62238406

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016227589A Active JP6680666B2 (en) 2016-11-24 2016-11-24 Information analysis device, information analysis system, information analysis method, and information analysis program

Country Status (1)

Country Link
JP (1) JP6680666B2 (en)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008192122A (en) * 2007-01-09 2008-08-21 Nec Corp Malicious mail detector, detecting method and program
JP5414416B2 (en) * 2008-09-24 2014-02-12 キヤノン株式会社 Information processing apparatus and method
JP2011164779A (en) * 2010-02-05 2011-08-25 Sony Corp Information processing apparatus, information processing method, and program
JP6142613B2 (en) * 2013-03-27 2017-06-07 株式会社リコー Image processing system, operation unit, control method, and program
JP6290659B2 (en) * 2014-03-07 2018-03-07 株式会社日立システムズ Access management method and access management system

Also Published As

Publication number Publication date
JP2018084953A (en) 2018-05-31

Similar Documents

Publication Publication Date Title
US11475143B2 (en) Sensitive data classification
US10728761B2 (en) Method, device, and system of detecting a lie of a user who inputs data
US10733387B1 (en) Optimizing machine translations for user engagement
US10558792B2 (en) Touch-screen user key-press behavior pattern construction and analysis system and identity recognition method thereof
US11516210B1 (en) Image-based authentication systems and methods
JP6130609B2 (en) Client-side search templates for online social networks
US9497312B1 (en) Dynamic unlock mechanisms for mobile devices
CN109033798B (en) Click verification code identification method and device based on semantics
Mehrnezhad et al. Touchsignatures: identification of user touch actions and PINs based on mobile sensor data via javascript
JP2020030868A (en) Image based captcha challenges
US20140095308A1 (en) Advertisement distribution apparatus and advertisement distribution method
US20170195274A1 (en) Computerized system and method for modifying a message to apply security features to the message&#39;s content
US20180007049A1 (en) Computerized systems and methods for authenticating users on a network device via dynamically allocated authenticating state machines hosted on a computer network
US10133859B2 (en) Managing registration of user identity using handwriting
US11188719B1 (en) Predictive text system
US20210157900A1 (en) Securing passwords by using dummy characters
US10318640B2 (en) Identifying risky translations
US10719234B2 (en) Systems and methods for selecting a symbol input by a user
Samet et al. TouchMetric: a machine learning based continuous authentication feature testing mobile application
US20170006421A1 (en) Social Networking Interface
KR102470639B1 (en) Improving Data Integrity with Trusted Proof-of-Code Tokens
JP6680666B2 (en) Information analysis device, information analysis system, information analysis method, and information analysis program
Kim et al. Spyware resistant smartphone user authentication scheme
JP2020129239A (en) Post Analysis System, Post Analysis Device, and Post Analysis Method
Thao et al. Human factors in homograph attack recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190325

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A712

Effective date: 20191101

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20191108

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200122

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200303

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200319

R150 Certificate of patent or registration of utility model

Ref document number: 6680666

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350