JP6696062B2 - Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 - Google Patents
Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 Download PDFInfo
- Publication number
- JP6696062B2 JP6696062B2 JP2018147291A JP2018147291A JP6696062B2 JP 6696062 B2 JP6696062 B2 JP 6696062B2 JP 2018147291 A JP2018147291 A JP 2018147291A JP 2018147291 A JP2018147291 A JP 2018147291A JP 6696062 B2 JP6696062 B2 JP 6696062B2
- Authority
- JP
- Japan
- Prior art keywords
- files
- file
- visitor
- user
- record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 25
- 235000010627 Phaseolus vulgaris Nutrition 0.000 description 2
- 244000046052 Phaseolus vulgaris Species 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtである。
と
が線形関係の関連パラメータであり、線形回帰法によって最適値をアカウントすることができる。本発明の対数線形モデルにおいて記載された観測期間の長さtの定義は:ユーザアクセスログレコードのレコード行のアクセス開始時刻要素とユーザアクセスログレコードを収集した時刻との時間差である。例えば、収集されたユーザアクセスログレコードの時点が30/Jan/2018:17:38:20で、ユーザアクセスログレコードのレコード行のアクセス開始時刻が29/Jan/2018:10:35:15で、観測期間の長さが29/Jan/2018:10:35:15から30/Jan/2018:17:38:20までの時間差であり、アカウントしやすいために、期間の長さが時間単位にする。
Claims (1)
- Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法であって、前記方法は、
HDFSが、ユーザアクセスログレコードを取得し、前記ユーザアクセスログレコードからアクティブユーザセットを統計し、対数線形モデルを用いて、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順でソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記ホットスポットファイルを取得し、Hbaseデータベースによって前記ホットスポットファイルの関連情報をキャッシュし、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には:アクセスされたソースの接尾辞がjpgであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザID、アクセスページURL、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターIPと小さなファイルの名前をストレージし、ビジターIPを前記二次元配列でトラバースし、HashMapコレクションを使用して各ビジターIPのトラフィックを統計し、前記HashMapコレクションのKey値がビジターIPであり、Value値がトラフィックであり、前記HashMapコレクションをValue値の降順でソートし、ビジターIPの上位20%をフィルタリングし、ArrayListコレクションを使用して該IPサブセットをストレージし、アクティブユーザセットとしてマークし、具体的には、ArrayListコレクションから抽出されたビジターIPを、前記二次元配列から抽出されたビジターIPと照合し、一致が出たら、合致するビジターIPをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデルを用いて、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記対数線形モデルは:
であり、その中に、
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtであることを特徴とするHadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810500093.2A CN108932288B (zh) | 2018-05-22 | 2018-05-22 | 一种基于Hadoop的海量小文件缓存方法 |
CN201810500093.2 | 2018-05-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204475A JP2019204475A (ja) | 2019-11-28 |
JP6696062B2 true JP6696062B2 (ja) | 2020-05-20 |
Family
ID=64449348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018147291A Expired - Fee Related JP6696062B2 (ja) | 2018-05-22 | 2018-08-04 | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6696062B2 (ja) |
CN (1) | CN108932288B (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111190926B (zh) * | 2019-11-25 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 资源缓存方法、装置、设备及存储介质 |
CN112685634A (zh) * | 2020-12-29 | 2021-04-20 | 平安普惠企业管理有限公司 | 数据查询方法、装置、电子设备及存储介质 |
CN113094368B (zh) * | 2021-04-13 | 2022-08-05 | 成都信息工程大学 | 一种提升缓存访问命中率的系统及方法 |
CN115695333B (zh) * | 2022-10-31 | 2024-08-30 | 湖南快乐阳光互动娱乐传媒有限公司 | pcdn节点资源淘汰方法、系统及相关设备 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104111900B (zh) * | 2013-04-22 | 2017-06-20 | 中国移动通信集团公司 | 一种缓存中数据替换方法及装置 |
CN103795781B (zh) * | 2013-12-10 | 2017-03-08 | 西安邮电大学 | 一种基于文件预测的分布式缓存方法 |
CN103856567B (zh) * | 2014-03-26 | 2017-05-17 | 西安电子科技大学 | 基于Hadoop分布式文件系统的小文件存储方法 |
CN105183839A (zh) * | 2015-09-02 | 2015-12-23 | 华中科技大学 | 一种基于Hadoop的小文件分级索引的存储优化方法 |
CN106528451B (zh) * | 2016-11-14 | 2019-09-03 | 哈尔滨工业大学(威海) | 针对小文件的二级缓存预取的云存储框架及构建方法 |
CN107045531A (zh) * | 2017-01-20 | 2017-08-15 | 郑州云海信息技术有限公司 | 一种优化hdfs小文件存取的系统及方法 |
CN107066512A (zh) * | 2017-01-23 | 2017-08-18 | 重庆邮电大学 | 一种基于Hadoop的用户偏好评估方法及系统 |
CN107368608A (zh) * | 2017-08-07 | 2017-11-21 | 杭州电子科技大学 | 基于arc替换算法的hdfs小文件缓存管理方法 |
CN108446340B (zh) * | 2018-03-02 | 2019-11-05 | 哈尔滨工业大学(威海) | 一种面向海量小文件的用户热点数据访问预测方法 |
-
2018
- 2018-05-22 CN CN201810500093.2A patent/CN108932288B/zh active Active
- 2018-08-04 JP JP2018147291A patent/JP6696062B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN108932288B (zh) | 2022-04-12 |
JP2019204475A (ja) | 2019-11-28 |
CN108932288A (zh) | 2018-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6695537B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 | |
JP6696062B2 (ja) | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 | |
JP6642650B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 | |
JP6642651B2 (ja) | ユーザアクセスプリファレンスモデルを用いたストレージ方法 | |
CN103856567B (zh) | 基于Hadoop分布式文件系统的小文件存储方法 | |
CN103812939B (zh) | 一种大数据存储系统 | |
Wang et al. | Sharkdb: An in-memory column-oriented trajectory storage | |
KR101672901B1 (ko) | 분산 파일 시스템에서 소형 파일에 대한 접근성 향상을 위한 캐시 관리 시스템 | |
CN103778148B (zh) | Hadoop分布式文件系统数据文件的生命周期管理方法和设备 | |
CN104407879B (zh) | 一种电网时序大数据并行加载方法 | |
CN102651008A (zh) | 在关系数据库中组织数据记录的方法和设备 | |
CN107040422A (zh) | 一种基于物化缓存的网络大数据可视化方法 | |
CN108139968A (zh) | 确定垃圾收集器线程数量及活动管理的方法及设备 | |
Wang et al. | The impact of solid state drive on search engine cache management | |
CN109543089A (zh) | 一种网络安全情报数据的分类方法、系统及相关装置 | |
Li et al. | R-Store: A scalable distributed system for supporting real-time analytics | |
Chou et al. | Bc-store: A scalable design for blockchain storage | |
Zhou et al. | Improving big data storage performance in hybrid environment | |
CN103324762A (zh) | 基于Hadoop的索引创建方法及其索引方法 | |
Hu et al. | Efficient provenance management via clustering and hybrid storage in big data environments | |
CN109144431A (zh) | 数据块的缓存方法、装置、设备及存储介质 | |
US9275091B2 (en) | Database management device and database management method | |
CN104794237B (zh) | 网页信息处理方法及装置 | |
D’silva et al. | Secondary indexing techniques for key-value stores: Two rings to rule them all | |
CN108932258A (zh) | 数据索引处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181119 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190920 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191007 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200107 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200109 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200122 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200219 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200318 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6696062 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |