JP6642651B2 - ユーザアクセスプリファレンスモデルを用いたストレージ方法 - Google Patents
ユーザアクセスプリファレンスモデルを用いたストレージ方法 Download PDFInfo
- Publication number
- JP6642651B2 JP6642651B2 JP2018147290A JP2018147290A JP6642651B2 JP 6642651 B2 JP6642651 B2 JP 6642651B2 JP 2018147290 A JP2018147290 A JP 2018147290A JP 2018147290 A JP2018147290 A JP 2018147290A JP 6642651 B2 JP6642651 B2 JP 6642651B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- user
- merged
- queue
- access
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
によって二つの異なるユーザアクセス作動の類似性をカウンタする。その中に、本発明はピアソン相関係数を使用して類似のユーザを決定し、スコアリング行列Rを指定し、ユーザaとユーザbの類似性をsim(a,b)で表し、ra及びrbが「ユーザ−トラフィック」ストアリングマトリックスのストアリングデータである。
Claims (1)
- ユーザアクセスプリファレンスモデルを用いたストレージ方法であって、HDFSが以下を実行する方法:
ステップA:クライアントがストレージされるファイルをアップロードした後で、HDFSのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを用いて前記ストレージされるファイルの関連ファイルセットを見つけ、ここで、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものである、ステップB:前記関連ファイルセットのミドルファイルと前記ストレージされるファイルをマージするキューに追加し、ステップC:前記マージするキューのすべてのファイルの総サイズが128 MBを超えるかどうかを判断し、イエスであれば、ステップDに進み、そうでなければ、ステップEに進み、ステップD:マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップBに進み、ステップE:前記関連ファイルセットのファイルと前記ストレージされるファイルが全部前記マージするキューに追加されたかどうかを判断し、イエスであれば、前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップFに進み、そうでなければ、ステップBに戻り、ステップF:マージしたすべてのデータブロックをHDFSシステムにストレージし、前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものであり、具体的には:前記ユーザアクセスログレコードからアクティブユーザセットを統計し、前記アクティブユーザセットにアクセスされた小さなファイルをbeanオブジェクトで表し、前記小さなファイルがサイズが2MB又は2MB以下のファイルであり、その中に、前記beanオブジェクトのプロパティが該小さなファイルにアクセスしたユーザID、ユーザにアクセスされた小さなファイルの名前及び該小さなファイルがアクセスされた回数を含み、JDBCテクノロジを用いて、前記beanオブジェクトをMysqlデータベースに永続化してストレージし、ストレージされたデータによって、任意の二つの異なるアクセス動作の類似性をアカウントし、任意の二つの異なるアクセス動作の類似性が正の場合、前記任意の二つの異なるアクセス動作のユーザが類似ユーザであり、類似ユーザのIDレコードを記録して関連ファイルセットによってすべての類似ユーザにアクセスされ、関連付けられたファイル情報をストレージし、前記関連ファイルセットによって、前記ユーザアクセスプリファレンスモデルを構築する、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には:アクセスされたソースの接尾辞がjpgであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザID、アクセスページURL、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターIPと小さなファイルの名前をストレージし、ビジターIPを前記二次元配列でトラバースし、HashMapコレクションを使用して各ビジターIPのトラフィックを統計し、前記HashMapコレクションのKey値がビジターIPであり、Value値がトラフィックであり、前記HashMapコレクションをValue値の降順でソートし、ビジターIPの上位20%をフィルタリングし、ArrayListコレクションを使用して該IPサブセットをストレージし、アクティブユーザセットとしてマークすることを特徴とするユーザアクセスプリファレンスモデルを用いたストレージ方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810500258.6 | 2018-05-22 | ||
CN201810500258.6A CN108846021B (zh) | 2018-05-22 | 2018-05-22 | 一种基于用户访问偏好模型的海量小文件存储方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204474A JP2019204474A (ja) | 2019-11-28 |
JP6642651B2 true JP6642651B2 (ja) | 2020-02-12 |
Family
ID=64213287
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018147290A Expired - Fee Related JP6642651B2 (ja) | 2018-05-22 | 2018-08-04 | ユーザアクセスプリファレンスモデルを用いたストレージ方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6642651B2 (ja) |
CN (1) | CN108846021B (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110069466B (zh) * | 2019-04-15 | 2021-02-19 | 武汉大学 | 一种面向分布式文件系统的小文件存储方法及装置 |
CN113377733B (zh) * | 2021-06-09 | 2022-12-27 | 西安理工大学 | 一种针对Hadoop分布式文件系统的存储优化方法 |
CN113590566B (zh) * | 2021-06-23 | 2023-10-27 | 河海大学 | 基于堆结构的SequenceFile存储优化方法、装置、设备及存储介质 |
CN114461591A (zh) * | 2021-12-27 | 2022-05-10 | 天翼云科技有限公司 | 一种对象存储方法、装置和电子设备 |
CN115630021B (zh) * | 2022-12-13 | 2023-03-28 | 中国华能集团清洁能源技术研究院有限公司 | 大数据环境下对象存储中小文件合并方法和装置 |
CN117519608B (zh) * | 2023-12-27 | 2024-03-22 | 泰安北航科技园信息科技有限公司 | 一种以Hadoop为核心的大数据服务器 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9171084B1 (en) * | 2014-08-04 | 2015-10-27 | Media Group Of America Holdings, Llc | Sorting information by relevance to individuals with passive data collection and real-time injection |
CN105828096B (zh) * | 2016-05-19 | 2020-05-15 | 网宿科技股份有限公司 | 媒体流文件的处理方法和装置 |
-
2018
- 2018-05-22 CN CN201810500258.6A patent/CN108846021B/zh active Active
- 2018-08-04 JP JP2018147290A patent/JP6642651B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
CN108846021A (zh) | 2018-11-20 |
CN108846021B (zh) | 2021-10-26 |
JP2019204474A (ja) | 2019-11-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6642651B2 (ja) | ユーザアクセスプリファレンスモデルを用いたストレージ方法 | |
JP6695537B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 | |
JP6642650B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 | |
WO2020024799A1 (zh) | 一种时序数据的聚合优化处理方法 | |
CN107122126B (zh) | 数据的迁移方法、装置和系统 | |
JP6696062B2 (ja) | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 | |
WO2015024474A1 (zh) | 基于缓存数据多线程处理的电力可靠性指标快速计算方法 | |
CN103366015A (zh) | 一种基于Hadoop的OLAP数据存储与查询方法 | |
US11625412B2 (en) | Storing data items and identifying stored data items | |
WO2017161540A1 (zh) | 数据查询的方法、数据对象的存储方法和数据系统 | |
CN111026709A (zh) | 基于集群访问的数据处理方法及装置 | |
CN103324762A (zh) | 基于Hadoop的索引创建方法及其索引方法 | |
Thacker et al. | Performance of elasticsearch in cloud environment with ngram and non-ngram indexing | |
CN110858210A (zh) | 数据查询方法及装置 | |
US9594785B2 (en) | Database management device and database management method | |
CN116611914A (zh) | 一种基于分组统计的薪资预测方法及设备 | |
CN103986606B (zh) | 一种基于MapReduce算法的并行识别、统计网页URL的方法 | |
Lu et al. | Research on Cassandra data compaction strategies for time-series data | |
Imawan et al. | Road traffic analytic query processing based on a timeline modeling | |
CN110990394B (zh) | 分布式面向列数据库表的行数统计方法、装置和存储介质 | |
Singh | NoSQL: A new horizon in big data | |
US10037155B2 (en) | Preventing write amplification during frequent data updates | |
CN109145059A (zh) | 用于数据统计的数据处理方法、服务器及存储介质 | |
CN104794238B (zh) | 检索方法 | |
Wei et al. | MDDM: A method to improve multiple dimension data management performance in HBase |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180812 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180822 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181025 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181106 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190911 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191209 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191216 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6642651 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |