JP6423529B2 - ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム - Google Patents
ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム Download PDFInfo
- Publication number
- JP6423529B2 JP6423529B2 JP2017522234A JP2017522234A JP6423529B2 JP 6423529 B2 JP6423529 B2 JP 6423529B2 JP 2017522234 A JP2017522234 A JP 2017522234A JP 2017522234 A JP2017522234 A JP 2017522234A JP 6423529 B2 JP6423529 B2 JP 6423529B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- page
- request
- data representing
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Information Transfer Between Computers (AREA)
Description
第1の実施形態のユーザ推定装置10は、図1に示すように、抽出部11と、学習部12と、モデル記憶部13と、推定部14と、出力部15とを備える。
次に、第2の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第2の実施形態のユーザ推定装置10は、モデルの作成時およびユーザの推定時に、特徴量抽出部113において、セッションの開始ページ、セッションに含まれるユニークページ数、および、セッション長の少なくともいずれか1つ以上をユーザのページ閲覧の特徴量として抽出する。
次に、第3の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第3の実施形態のユーザ推定装置10は、入力部111において、入力データから有意なものを選別してセッション情報構築部112に渡すことを特徴とする。
次に、第4の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第4の実施形態のユーザ推定装置10は、入力部111において、入力データのリクエスト先のURLのパスを抽象化してセッション情報構築部112に渡すことを特徴とする。
入力部111は、入力データのリクエスト先のURLのパスの「/」で区切られた階層を予め定めた階層で打ち切る。例えば、入力部111は、図8に示すようにURLのパスの3階層目より後ろ(図8の下線部)を削除する。そして、入力部111は、入力データのリクエスト先のURLのパスの「/」で区切られた階層を、予め定めた階層で打ち切ったリクエストをセッション情報構築部112に渡す。これにより、特徴量抽出部113は、リクエスト先のURLのパスの「/」で区切られた階層のうち、予め定めた階層までのパスに基づき、ユーザのページ閲覧の特徴量を抽出する。
入力部111は、入力データのリクエスト先のURLを予め指定した正規表現のパターンで置換する。例えば、入力部111が、リクエスト先のURLに3桁以上の数字が含まれていた場合、当該数字を「%NUM」に置換する。この場合、入力部111は、「置換前:”[0-9]{3,}”置換後:”%NUM”」のように指定し、図9に示すように、リクエスト先のURLの3桁以上の数字の部分(図9の下線部)を「%NUM」に置換する。そして、入力部111は、上記のようにして置換したリクエストをセッション情報構築部112に渡す。これにより、特徴量抽出部113は、リクエスト先のURLにセッションごとに固有のIDが付与されている場合、このID部分を「%NUM」等の正規表現に置換したURLに基づき、ユーザのページ閲覧の特徴量を抽出する。
また、上記実施形態に係るユーザ推定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成し、実行することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータに読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、システムと同様の機能を実現するユーザ推定プログラムを実行するコンピュータの一例を説明する。
11 抽出部
12 学習部
13 モデル記憶部
14 推定部
15 出力部
111 入力部
112 セッション情報構築部
113 特徴量抽出部
Claims (6)
- 学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURL(Uniform Resource Locator)のうち、所定階層までのURLにおける前記ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出し、また、推定対象となる、いずれかのユーザによるウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する抽出部と、
前記抽出部により抽出された、学習対象となる、ユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習部と、
前記抽出部により抽出された、推定対象となる、前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定部とを備えることを特徴とするユーザ推定装置。 - 前記抽出部は、前記ユーザのページ閲覧の特徴量として、さらに、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザの閲覧の開始ページ、前記閲覧のユニークページ数、および、前記ウェブサイトの閲覧に要したセッション長の少なくともいずれか1つ以上を抽出することを特徴とする請求項1に記載のユーザ推定装置。
- 前記抽出部は、前記ウェブサイトへのリクエストを表すデータに、画像、JavaScript(登録商標)、または、CSS(Cascading Style Sheets)を取得するリクエストを表す第2のデータが含まれていた場合、前記第2のデータを除外したデータから、前記ユーザのページ閲覧の特徴量を抽出することを特徴とする請求項1に記載のユーザ推定装置。
- 前記抽出部は、前記リクエストを表すデータにおけるリクエスト先のURLにセッションごとに固有のIDが含まれている場合、前記ID部分以外のURLに基づき、前記ユーザのページ閲覧の特徴量を抽出することを特徴とする請求項1に記載のユーザ推定装置。
- 学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURL(Uniform Resource Locator)のうち、所定階層までのURLにおける前記ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第1の抽出ステップと、
前記第1の抽出ステップにより抽出されたユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習ステップと、
推定対象となる、いずれかのユーザによる前記ウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第2の抽出ステップと、
前記第2の抽出ステップにより抽出された前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定ステップとを含んだことを特徴とするユーザ推定方法。 - 学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURL(Uniform Resource Locator)のうち、所定階層までのURLにおける前記ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第1の抽出ステップと、
前記第1の抽出ステップにより抽出されたユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習ステップと、
推定対象となる、いずれかのユーザによる前記ウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第2の抽出ステップと、
前記第2の抽出ステップにより抽出された前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定ステップとをコンピュータに実行させることを特徴とするユーザ推定プログラム。
Applications Claiming Priority (3)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| JP2015114983 | 2015-06-05 | ||
| JP2015114983 | 2015-06-05 | ||
| PCT/JP2016/066344 WO2016194996A1 (ja) | 2015-06-05 | 2016-06-02 | ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム |
Publications (2)
| Publication Number | Publication Date |
|---|---|
| JPWO2016194996A1 JPWO2016194996A1 (ja) | 2017-11-09 |
| JP6423529B2 true JP6423529B2 (ja) | 2018-11-14 |
Family
ID=57441270
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| JP2017522234A Active JP6423529B2 (ja) | 2015-06-05 | 2016-06-02 | ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム |
Country Status (3)
| Country | Link |
|---|---|
| US (1) | US10860669B2 (ja) |
| JP (1) | JP6423529B2 (ja) |
| WO (1) | WO2016194996A1 (ja) |
Families Citing this family (4)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| JP6915487B2 (ja) * | 2017-09-29 | 2021-08-04 | 富士通株式会社 | メッセージ出力制御方法、メッセージ出力制御プログラム、およびメッセージ出力制御装置 |
| JP6706701B1 (ja) * | 2019-02-06 | 2020-06-10 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
| WO2020196939A1 (ko) * | 2019-03-25 | 2020-10-01 | 본와이즈 주식회사 | 치아의 골 연령을 결정하기 위한 장치, 방법 및 명령을 기록한 기록 매체 |
| JP7145901B2 (ja) * | 2020-02-13 | 2022-10-03 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Family Cites Families (10)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US8756342B1 (en) * | 2000-02-07 | 2014-06-17 | Parallel Networks, Llc | Method and apparatus for content synchronization |
| JP2006127321A (ja) * | 2004-10-29 | 2006-05-18 | Solid Technology Kk | 端末属性後付装置および端末属性後付方法 |
| US7698422B2 (en) * | 2007-09-10 | 2010-04-13 | Specific Media, Inc. | System and method of determining user demographic profiles of anonymous users |
| US8255384B2 (en) * | 2009-09-30 | 2012-08-28 | Fujitsu Limited | Client-tier validation of dynamic web applications |
| US8635334B2 (en) * | 2009-12-10 | 2014-01-21 | Riverbed Technology, Inc. | Web transaction analysis |
| US20110191664A1 (en) * | 2010-02-04 | 2011-08-04 | At&T Intellectual Property I, L.P. | Systems for and methods for detecting url web tracking and consumer opt-out cookies |
| US9665703B2 (en) * | 2010-11-29 | 2017-05-30 | Biocatch Ltd. | Device, system, and method of detecting user identity based on inter-page and intra-page navigation patterns |
| US8566866B1 (en) * | 2012-05-09 | 2013-10-22 | Bluefin Labs, Inc. | Web identity to social media identity correlation |
| JP2014106661A (ja) | 2012-11-27 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | ユーザ状態予測装置及び方法及びプログラム |
| JP5906176B2 (ja) * | 2012-12-12 | 2016-04-20 | 日本電信電話株式会社 | 興味分野比較分析装置及び方法及びプログラム |
-
2016
- 2016-06-02 US US15/578,799 patent/US10860669B2/en active Active
- 2016-06-02 WO PCT/JP2016/066344 patent/WO2016194996A1/ja not_active Ceased
- 2016-06-02 JP JP2017522234A patent/JP6423529B2/ja active Active
Also Published As
| Publication number | Publication date |
|---|---|
| JPWO2016194996A1 (ja) | 2017-11-09 |
| WO2016194996A1 (ja) | 2016-12-08 |
| US10860669B2 (en) | 2020-12-08 |
| US20180165369A1 (en) | 2018-06-14 |
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| CN104899219B (zh) | 伪静态url的筛除方法、系统及网页爬取方法、系统 | |
| US20090193044A1 (en) | Web graph compression through scalable pattern mining | |
| JP6423529B2 (ja) | ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム | |
| CN104035972B (zh) | 一种基于微博的知识推荐方法与系统 | |
| CN106233296B (zh) | Url匹配装置以及url匹配方法 | |
| CN103761279B (zh) | 一种基于关键词检索的网络爬虫调度方法及系统 | |
| CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
| JP2011022705A (ja) | 証跡管理方法、システム、及びプログラム | |
| CN102446255A (zh) | 一种检测页面篡改的方法及装置 | |
| JP2009181459A (ja) | アクセス解析装置及びアクセス解析方法及びアクセス解析プログラム | |
| CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 | |
| JP4322887B2 (ja) | スレッド順位付け装置及び方法 | |
| CN104036189A (zh) | 页面篡改检测方法及黑链数据库生成方法 | |
| CN104036190A (zh) | 一种检测页面篡改的方法及装置 | |
| CN103488675A (zh) | 一种多网页新闻评论内容自动精确提取装置 | |
| JP5159451B2 (ja) | ネットワーク行動を分析する情報処理装置、分析システム、ネットワーク行動の分析方法およびプログラム | |
| US9336316B2 (en) | Image URL-based junk detection | |
| CN104199893A (zh) | 一种快速将全媒体内容发布的系统和方法 | |
| CN104951566B (zh) | 一种关键词搜索排名确定方法及装置 | |
| Bhat et al. | Browser simulation-based crawler for online social network profile extraction | |
| CN104572874B (zh) | 一种网页信息的抽取方法及装置 | |
| CN107239520A (zh) | 一种通用论坛正文提取方法 | |
| CN108280102A (zh) | 上网行为记录方法、装置及用户终端 | |
| Mohammed et al. | Data Collection and Preprocessing in Web Usage Mining: Implementation and Analysis | |
| CN105912547A (zh) | 一种基于网络爬虫实现数据快速处理的方法和装置 |
Legal Events
| Date | Code | Title | Description |
|---|---|---|---|
| A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170727 |
|
| A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
| A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180927 |
|
| TRDD | Decision of grant or rejection written | ||
| A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
| A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181018 |
|
| R150 | Certificate of patent or registration of utility model |
Ref document number: 6423529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
| S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
| R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |