JP6423529B2 - ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム - Google Patents
ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム Download PDFInfo
- Publication number
- JP6423529B2 JP6423529B2 JP2017522234A JP2017522234A JP6423529B2 JP 6423529 B2 JP6423529 B2 JP 6423529B2 JP 2017522234 A JP2017522234 A JP 2017522234A JP 2017522234 A JP2017522234 A JP 2017522234A JP 6423529 B2 JP6423529 B2 JP 6423529B2
- Authority
- JP
- Japan
- Prior art keywords
- user
- page
- request
- data representing
- feature amount
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 21
- 238000000605 extraction Methods 0.000 claims description 60
- 230000007704 transition Effects 0.000 claims description 59
- 239000000284 extract Substances 0.000 claims description 22
- 238000010276 construction Methods 0.000 description 13
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 230000006399 behavior Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 206010000210 abortion Diseases 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9535—Search customisation based on user profiles and personalisation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
- H04L67/025—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP] for remote control or remote monitoring of applications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/2866—Architectures; Arrangements
- H04L67/30—Profiles
- H04L67/306—User profiles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/50—Network services
- H04L67/535—Tracking the activity of the user
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Information Transfer Between Computers (AREA)
Description
第1の実施形態のユーザ推定装置10は、図1に示すように、抽出部11と、学習部12と、モデル記憶部13と、推定部14と、出力部15とを備える。
次に、第2の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第2の実施形態のユーザ推定装置10は、モデルの作成時およびユーザの推定時に、特徴量抽出部113において、セッションの開始ページ、セッションに含まれるユニークページ数、および、セッション長の少なくともいずれか1つ以上をユーザのページ閲覧の特徴量として抽出する。
次に、第3の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第3の実施形態のユーザ推定装置10は、入力部111において、入力データから有意なものを選別してセッション情報構築部112に渡すことを特徴とする。
次に、第4の実施形態のユーザ推定装置10を説明する。前記した実施形態と同じ構成は、同じ符号を付して説明を省略する。第4の実施形態のユーザ推定装置10は、入力部111において、入力データのリクエスト先のURLのパスを抽象化してセッション情報構築部112に渡すことを特徴とする。
入力部111は、入力データのリクエスト先のURLのパスの「/」で区切られた階層を予め定めた階層で打ち切る。例えば、入力部111は、図8に示すようにURLのパスの3階層目より後ろ(図8の下線部)を削除する。そして、入力部111は、入力データのリクエスト先のURLのパスの「/」で区切られた階層を、予め定めた階層で打ち切ったリクエストをセッション情報構築部112に渡す。これにより、特徴量抽出部113は、リクエスト先のURLのパスの「/」で区切られた階層のうち、予め定めた階層までのパスに基づき、ユーザのページ閲覧の特徴量を抽出する。
入力部111は、入力データのリクエスト先のURLを予め指定した正規表現のパターンで置換する。例えば、入力部111が、リクエスト先のURLに3桁以上の数字が含まれていた場合、当該数字を「%NUM」に置換する。この場合、入力部111は、「置換前:”[0-9]{3,}”置換後:”%NUM”」のように指定し、図9に示すように、リクエスト先のURLの3桁以上の数字の部分(図9の下線部)を「%NUM」に置換する。そして、入力部111は、上記のようにして置換したリクエストをセッション情報構築部112に渡す。これにより、特徴量抽出部113は、リクエスト先のURLにセッションごとに固有のIDが付与されている場合、このID部分を「%NUM」等の正規表現に置換したURLに基づき、ユーザのページ閲覧の特徴量を抽出する。
また、上記実施形態に係るユーザ推定装置10が実行する処理をコンピュータが実行可能な言語で記述したプログラムを作成し、実行することもできる。この場合、コンピュータがプログラムを実行することにより、上記実施形態と同様の効果を得ることができる。さらに、かかるプログラムをコンピュータに読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータに読み込ませて実行することにより上記実施形態と同様の処理を実現してもよい。以下に、システムと同様の機能を実現するユーザ推定プログラムを実行するコンピュータの一例を説明する。
11 抽出部
12 学習部
13 モデル記憶部
14 推定部
15 出力部
111 入力部
112 セッション情報構築部
113 特徴量抽出部
Claims (6)
- 学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURL(Uniform Resource Locator)のうち、所定階層までのURLにおける前記ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出し、また、推定対象となる、いずれかのユーザによるウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する抽出部と、
前記抽出部により抽出された、学習対象となる、ユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習部と、
前記抽出部により抽出された、推定対象となる、前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定部とを備えることを特徴とするユーザ推定装置。 - 前記抽出部は、前記ユーザのページ閲覧の特徴量として、さらに、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザの閲覧の開始ページ、前記閲覧のユニークページ数、および、前記ウェブサイトの閲覧に要したセッション長の少なくともいずれか1つ以上を抽出することを特徴とする請求項1に記載のユーザ推定装置。
- 前記抽出部は、前記ウェブサイトへのリクエストを表すデータに、画像、JavaScript(登録商標)、または、CSS(Cascading Style Sheets)を取得するリクエストを表す第2のデータが含まれていた場合、前記第2のデータを除外したデータから、前記ユーザのページ閲覧の特徴量を抽出することを特徴とする請求項1に記載のユーザ推定装置。
- 前記抽出部は、前記リクエストを表すデータにおけるリクエスト先のURLにセッションごとに固有のIDが含まれている場合、前記ID部分以外のURLに基づき、前記ユーザのページ閲覧の特徴量を抽出することを特徴とする請求項1に記載のユーザ推定装置。
- 学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURL(Uniform Resource Locator)のうち、所定階層までのURLにおける前記ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第1の抽出ステップと、
前記第1の抽出ステップにより抽出されたユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習ステップと、
推定対象となる、いずれかのユーザによる前記ウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第2の抽出ステップと、
前記第2の抽出ステップにより抽出された前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定ステップとを含んだことを特徴とするユーザ推定方法。 - 学習対象となる、ユーザのウェブサイトへのリクエストを表すデータから、前記ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURL(Uniform Resource Locator)のうち、所定階層までのURLにおける前記ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第1の抽出ステップと、
前記第1の抽出ステップにより抽出されたユーザそれぞれのページ閲覧の特徴量を学習することにより、前記ユーザごとのページ閲覧の特徴を示すモデルを作成する学習ステップと、
推定対象となる、いずれかのユーザによる前記ウェブサイトへのリクエストを表すデータから、当該ユーザのページ閲覧の特徴量として、前記リクエストを表すデータにおけるリクエスト先のURLのうち、前記所定階層までのURLにおける当該ユーザのページの遷移順序および各ページへの遷移時間間隔の少なくともいずれかを抽出する第2の抽出ステップと、
前記第2の抽出ステップにより抽出された前記ユーザのページ閲覧の特徴量と、前記モデルとを参照して、前記ユーザがどのユーザかを推定する推定ステップとをコンピュータに実行させることを特徴とするユーザ推定プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015114983 | 2015-06-05 | ||
JP2015114983 | 2015-06-05 | ||
PCT/JP2016/066344 WO2016194996A1 (ja) | 2015-06-05 | 2016-06-02 | ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016194996A1 JPWO2016194996A1 (ja) | 2017-11-09 |
JP6423529B2 true JP6423529B2 (ja) | 2018-11-14 |
Family
ID=57441270
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017522234A Active JP6423529B2 (ja) | 2015-06-05 | 2016-06-02 | ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US10860669B2 (ja) |
JP (1) | JP6423529B2 (ja) |
WO (1) | WO2016194996A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6915487B2 (ja) * | 2017-09-29 | 2021-08-04 | 富士通株式会社 | メッセージ出力制御方法、メッセージ出力制御プログラム、およびメッセージ出力制御装置 |
JP6706701B1 (ja) * | 2019-02-06 | 2020-06-10 | ヤフー株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
US11961235B2 (en) | 2019-03-25 | 2024-04-16 | Bonewise Inc. | Apparatus, method and recording medium storing instructions for determining bone age of teeth |
JP7145901B2 (ja) * | 2020-02-13 | 2022-10-03 | ヤフー株式会社 | 情報処理装置、情報処理方法および情報処理プログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8756342B1 (en) * | 2000-02-07 | 2014-06-17 | Parallel Networks, Llc | Method and apparatus for content synchronization |
JP2006127321A (ja) | 2004-10-29 | 2006-05-18 | Solid Technology Kk | 端末属性後付装置および端末属性後付方法 |
US7698422B2 (en) * | 2007-09-10 | 2010-04-13 | Specific Media, Inc. | System and method of determining user demographic profiles of anonymous users |
US8255384B2 (en) * | 2009-09-30 | 2012-08-28 | Fujitsu Limited | Client-tier validation of dynamic web applications |
US8635334B2 (en) * | 2009-12-10 | 2014-01-21 | Riverbed Technology, Inc. | Web transaction analysis |
US20110191664A1 (en) * | 2010-02-04 | 2011-08-04 | At&T Intellectual Property I, L.P. | Systems for and methods for detecting url web tracking and consumer opt-out cookies |
US9665703B2 (en) * | 2010-11-29 | 2017-05-30 | Biocatch Ltd. | Device, system, and method of detecting user identity based on inter-page and intra-page navigation patterns |
US8566866B1 (en) * | 2012-05-09 | 2013-10-22 | Bluefin Labs, Inc. | Web identity to social media identity correlation |
JP2014106661A (ja) | 2012-11-27 | 2014-06-09 | Nippon Telegr & Teleph Corp <Ntt> | ユーザ状態予測装置及び方法及びプログラム |
JP5906176B2 (ja) * | 2012-12-12 | 2016-04-20 | 日本電信電話株式会社 | 興味分野比較分析装置及び方法及びプログラム |
-
2016
- 2016-06-02 WO PCT/JP2016/066344 patent/WO2016194996A1/ja active Application Filing
- 2016-06-02 US US15/578,799 patent/US10860669B2/en active Active
- 2016-06-02 JP JP2017522234A patent/JP6423529B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US10860669B2 (en) | 2020-12-08 |
JPWO2016194996A1 (ja) | 2017-11-09 |
WO2016194996A1 (ja) | 2016-12-08 |
US20180165369A1 (en) | 2018-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6423529B2 (ja) | ユーザ推定装置、ユーザ推定方法、および、ユーザ推定プログラム | |
US8429177B2 (en) | Using exceptional changes in webgraph snapshots over time for internet entity marking | |
CN102597993B (zh) | 利用统一资源标识符管理应用状态信息 | |
CN105446973B (zh) | 社交网络中用户推荐模型的建立及应用方法和装置 | |
JP5989919B2 (ja) | Urlマッチング装置、urlマッチング方法、および、urlマッチングプログラム | |
US20090193044A1 (en) | Web graph compression through scalable pattern mining | |
CN103761279B (zh) | 一种基于关键词检索的网络爬虫调度方法及系统 | |
CN104899219B (zh) | 伪静态url的筛除方法、系统及网页爬取方法、系统 | |
CN102436564A (zh) | 一种识别被篡改网页的方法及装置 | |
US10073886B2 (en) | Search results based on a search history | |
JP5178219B2 (ja) | アクセス解析装置及びアクセス解析方法及びアクセス解析プログラム | |
JP2011022705A (ja) | 証跡管理方法、システム、及びプログラム | |
JP2011138248A (ja) | 検索支援プログラム、検索支援装置、及び検索支援方法 | |
CN105302815B (zh) | 网页的统一资源定位符url的过滤方法和装置 | |
CN108874870A (zh) | 一种数据抽取方法、设备及计算机可存储介质 | |
US9336316B2 (en) | Image URL-based junk detection | |
JP5159451B2 (ja) | ネットワーク行動を分析する情報処理装置、分析システム、ネットワーク行動の分析方法およびプログラム | |
Bhat et al. | Browser simulation-based crawler for online social network profile extraction | |
CN108280102A (zh) | 上网行为记录方法、装置及用户终端 | |
JP5216654B2 (ja) | 重要度判定装置、重要度判定方法、およびプログラム | |
CN104008190B (zh) | 一种爬虫系统及其方法 | |
US20170177590A1 (en) | Natural classification of content using unsupervised learning | |
JP6749865B2 (ja) | 情報収集装置、および、情報収集方法 | |
JP5430128B2 (ja) | URL変換装置、URL変換方法、URL変換プログラム及びWeb情報収集システム | |
JP5394512B2 (ja) | 教師データ生成装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170727 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180927 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181016 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181018 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6423529 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |