JP2019204475A - Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 - Google Patents
Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 Download PDFInfo
- Publication number
- JP2019204475A JP2019204475A JP2018147291A JP2018147291A JP2019204475A JP 2019204475 A JP2019204475 A JP 2019204475A JP 2018147291 A JP2018147291 A JP 2018147291A JP 2018147291 A JP2018147291 A JP 2018147291A JP 2019204475 A JP2019204475 A JP 2019204475A
- Authority
- JP
- Japan
- Prior art keywords
- file
- active user
- visitor
- files
- popularity prediction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 230000003247 decreasing effect Effects 0.000 abstract 1
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 4
- 244000046052 Phaseolus vulgaris Species 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000005034 decoration Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 238000004590 computer program Methods 0.000 description 2
- 238000012417 linear regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtである。
と
が線形関係の関連パラメータであり、線形回帰法によって最適値をアカウントすることができる。本発明の対数線形モデルにおいて記載された観測期間の長さtの定義は:ユーザアクセスログレコードのレコード行のアクセス開始時刻要素とユーザアクセスログレコードを収集した時刻との時間差である。例えば、収集されたユーザアクセスログレコードの時点が30/Jan/2018:17:38:20で、ユーザアクセスログレコードのレコード行のアクセス開始時刻が29/Jan/2018:10:35:15で、観測期間の長さが29/Jan/2018:10:35:15から30/Jan/2018:17:38:20までの時間差であり、アカウントしやすいために、期間の長さが時間単位にする。
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtである。
と
が線形関係の関連パラメータであり、線形回帰法によって最適値をアカウントすることができる。本発明の対数線形モデルにおいて記載された観測期間の長さtの定義は:ユーザアクセスログレコードのレコード行のアクセス開始時刻要素とユーザアクセスログレコードを収集した時刻との時間差である。例えば、収集されたユーザアクセスログレコードの時点が30/Jan/2018:17:38:20で、ユーザアクセスログレコードのレコード行のアクセス開始時刻が29/Jan/2018:10:35:15で、観測期間の長さが29/Jan/2018:10:35:15から30/Jan/2018:17:38:20までの時間差であり、アカウントしやすいために、期間の長さが時間単位にする。
Claims (1)
- Hadoopに基づく大量の小さなファイルのキャッシュメソッドは、ユーザアクセスログレコードを取得し、前記ユーザアクセスログレコードからアクティブユーザセットを統計し、対数線形モデルを合わせ、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順でソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記ホットスポットファイルを取得し、Hbaseデータベースによって前記ホットスポットファイルの関連情報をキャッシュし、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には:アクセスされたソースの接尾辞がjpgであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザID、アクセスページURL、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターIPと小さなファイルの名前をストレージし、ビジターIPを前記二次元配列でトラバースし、HashMapコレクションを使用して各ビジターIPのトラフィックを統計し、前記HashMapコレクションのKey値がビジターIPであり、Value値がトラフィックであり、前記HashMapコレクションをValue値の降順でソートし、ビジターIPの上位20%をフィルタリングし、ArrayListコレクションを使用して該IPサブセットをストレージし、アクティブユーザセットとしてマークし、前記対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、具体的には、ArrayListコレクションから抽出されたビジターIPを、前記二次元配列から抽出されたビジターIPと照合し、一致が出たら、合致するビジターIPをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデルを合わせ、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、具体的には、ArrayListコレクションから抽出されたビジターIPを、前記二次元配列から抽出されたビジターIPと照合し、一致が出たら、合致するビジターIPをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデルを合わせ、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記対数線形モデルは:
であり、その中に、
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtである。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810500093.2A CN108932288B (zh) | 2018-05-22 | 2018-05-22 | 一种基于Hadoop的海量小文件缓存方法 |
CN201810500093.2 | 2018-05-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204475A true JP2019204475A (ja) | 2019-11-28 |
JP6696062B2 JP6696062B2 (ja) | 2020-05-20 |
Family
ID=64449348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018147291A Expired - Fee Related JP6696062B2 (ja) | 2018-05-22 | 2018-08-04 | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6696062B2 (ja) |
CN (1) | CN108932288B (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115695333A (zh) * | 2022-10-31 | 2023-02-03 | 湖南快乐阳光互动娱乐传媒有限公司 | pcdn节点资源淘汰方法、系统及相关设备 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111190926B (zh) * | 2019-11-25 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 资源缓存方法、装置、设备及存储介质 |
CN112685634A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 数据查询方法、装置、电子设备及存储介质 |
CN113094368B (zh) * | 2021-04-13 | 2022-08-05 | 成都信息工程大学 | 一种提升缓存访问命中率的系统及方法 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111900B (zh) * | 2013-04-22 | 2017-06-20 | 中国移动通信集团公司 | 一种缓存中数据替换方法及装置 |
CN103795781B (zh) * | 2013-12-10 | 2017-03-08 | 西安邮电大学 | 一种基于文件预测的分布式缓存方法 |
CN103856567B (zh) * | 2014-03-26 | 2017-05-17 | 西安电子科技大学 | 基于Hadoop分布式文件系统的小文件存储方法 |
CN105183839A (zh) * | 2015-09-02 | 2015-12-23 | 华中科技大学 | 一种基于Hadoop的小文件分级索引的存储优化方法 |
CN106528451B (zh) * | 2016-11-14 | 2019-09-03 | 哈尔滨工业大学(威海) | 针对小文件的二级缓存预取的云存储框架及构建方法 |
CN107045531A (zh) * | 2017-01-20 | 2017-08-15 | 郑州云海信息技术有限公司 | 一种优化hdfs小文件存取的系统及方法 |
CN107066512A (zh) * | 2017-01-23 | 2017-08-18 | 重庆邮电大学 | 一种基于Hadoop的用户偏好评估方法及系统 |
CN107368608A (zh) * | 2017-08-07 | 2017-11-21 | 杭州电子科技大学 | 基于arc替换算法的hdfs小文件缓存管理方法 |
CN108446340B (zh) * | 2018-03-02 | 2019-11-05 | 哈尔滨工业大学(威海) | 一种面向海量小文件的用户热点数据访问预测方法 |
-
2018
- 2018-05-22 CN CN201810500093.2A patent/CN108932288B/zh active Active
- 2018-08-04 JP JP2018147291A patent/JP6696062B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115695333A (zh) * | 2022-10-31 | 2023-02-03 | 湖南快乐阳光互动娱乐传媒有限公司 | pcdn节点资源淘汰方法、系统及相关设备 |
Also Published As
Publication number | Publication date |
---|---|
JP6696062B2 (ja) | 2020-05-20 |
CN108932288A (zh) | 2018-12-04 |
CN108932288B (zh) | 2022-04-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6695537B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 | |
JP6642650B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 | |
JP6696062B2 (ja) | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 | |
JP6642651B2 (ja) | ユーザアクセスプリファレンスモデルを用いたストレージ方法 | |
He et al. | Optimization strategy of Hadoop small file storage for big data in healthcare | |
CN103177056B (zh) | 存储为行存储和列存储二者的混合数据库表 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
CN107122126B (zh) | 数据的迁移方法、装置和系统 | |
CN107040422A (zh) | 一种基于物化缓存的网络大数据可视化方法 | |
CN103366015A (zh) | 一种基于Hadoop的OLAP数据存储与查询方法 | |
CN107045531A (zh) | 一种优化hdfs小文件存取的系统及方法 | |
CN102902775B (zh) | 互联网实时计算的方法和系统 | |
CN107291806A (zh) | 一种Web可视化环境中的数据视图副本迭代方法 | |
Zhang et al. | Sapprox: Enabling efficient and accurate approximations on sub-datasets with distribution-aware online sampling | |
US11210312B2 (en) | Storing data items and identifying stored data items | |
CN107832333A (zh) | 基于分布式处理和dpi数据构建用户网络数据指纹的方法和系统 | |
US20240078234A1 (en) | Apparatus, method and storage medium for database pagination | |
CN110457626A (zh) | 一种异常访问请求筛选方法及装置 | |
CN112148690A (zh) | 一种文件缓存方法、文件访问请求处理方法及装置 | |
CN103200269A (zh) | 互联网信息统计方法及系统 | |
Khodaei et al. | Temporal-textual retrieval: Time and keyword search in web documents | |
CN106055572B (zh) | 页面转化参数的处理方法及装置 | |
CN106599005A (zh) | 一种数据归档方法及装置 | |
Colosi et al. | Time series data management optimized for smart city policy decision | |
CN112667149A (zh) | 一种数据热度感知方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181119 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6696062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |