JP6695537B2 - Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 - Google Patents
Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 Download PDFInfo
- Publication number
- JP6695537B2 JP6695537B2 JP2018147288A JP2018147288A JP6695537B2 JP 6695537 B2 JP6695537 B2 JP 6695537B2 JP 2018147288 A JP2018147288 A JP 2018147288A JP 2018147288 A JP2018147288 A JP 2018147288A JP 6695537 B2 JP6695537 B2 JP 6695537B2
- Authority
- JP
- Japan
- Prior art keywords
- file
- user
- files
- access
- small
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 60
- 235000010627 Phaseolus vulgaris Nutrition 0.000 claims description 13
- 244000046052 Phaseolus vulgaris Species 0.000 claims description 13
- 238000011068 loading method Methods 0.000 claims description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005034 decoration Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
によって二つの異なるユーザアクセス作動の類似性をカウンタする。その中に、本発明はピアソン相関係数を使用して類似のユーザを決定し、スコアリング行列Rを指定し、ユーザaとユーザbの類似性をsim(a,b)で表し、ra及びrbが「ユーザ−トラフィック」ストアリングマトリックスのストアリングデータである。
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtである。
と
が線形関係の関連パラメータであり、線形回帰法によって最適値をアカウントすることができる。
Claims (1)
- Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法であって、
前記HDFSが、前記読み込む方法はデータマージモジュールとHBaseキャッシュモジュールを備えるHDFSシステムに適用され、前記読み込む方法は:ユーサーによってインプットされる小さなファイルの読み込みコマンドを受信し、前記読み込みコマンド中に前記ユーザIDと小さなファイルの名前を含み、前記前記ユーザIDと前記小さなファイルの名前にしたがって前記HBaseキャッシュモジュールを照会し、対応するファイルコンテンツが出たら、前記HBaseキャッシュモジュールによって照会されたファイルコンテンツを戻し、そうでなければ、前記小さなファイルの名前によって前記HDFSシステムのデータベースを照会して対応するファイルコンテンツが照会されたかどうかを判断し、イエスであれば前記データベースによって照会されたファイルコンテンツを戻し、そうでなければ、HadooparchiveツールのAPIを呼び出して前記小さなファイルの名前の対応するHARファイルにアクセスして前記HARファイルを戻し、前記データマージモジュールの採用するデータマージメソッドが以下を含む:ステップA:クライアントがストレージされるファイルをアップロードした後で、HDFSのすべてのファイルをトラバースし、ユーザアクセスプリファレンスモデルを用いて、前記ストレージされるファイルの関連ファイルコレクションを見つけ、ここで、前記ユーザアクセスプリファレンスモデルはユーザアクセスログレコードに基づいている,ステップB:前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルを順にマージするキューに追加する,ステップC:前記マージするキューのすべてのファイルの総サイズが128 MBを超えるかどうかを判断し、イエスであれば、ステップDに進み、そうでなければ、ステップEに進む,ステップD:前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップBを戻す,ステップE:前記関連ファイルコレクションのミドルファイルと前記ストレージされるファイルが全部前記マージするキューに追加されたかどうかを判断し、イエスであれば、前記マージするキューのすべてのファイルを一つのデータブロックにマージし、前記マージするキューのファイル情報をクリアし、マージしたファイルのソースファイルを削除して、ステップFに進み、そうでなければ、ステップBに進む,ステップF:すべてのマージしたデータブロックをHDFSシステムにストレージする,前記ユーザアクセスプリファレンスモデルがユーザアクセスログレコードから統計されたものであり、具体的には:ユーザアクセスログレコードからアクティブユーザセットを統計し、beanオブジェクトが前記アクティブユーザセットによってアクセスされた小さなファイルを表すために使用され、その中に、前記beanオブジェクトのプロパティが該小さなファイルをアクセスするユーザID、ユーザがアクセスした小さなファイルの名前及び該小さなファイルがアクサスされた回数を含み、JDBCテクノロジを用いて、前記beanオブジェクトを永続にMysql前記データベースにストレージし、ストレージされたデータにしたがって、任意の二つの異なるアクセス動作の類似性を計算し、前記任意の二つの異なるアクセス動作の類似性が正の場合、前記任意の二つのアクセス動作のユーザが類似ユーザであり、類似ユーザのIDを記録し、関連ファイルコレクションを使って、類似ユーザによってアクサスされ、関連付けられたファイル情報をストレージし、前記関連ファイルコレクションにしたがって、前記ユーザアクセスプリファレンスモデルを構築し、前記HBaseキャッシュモジュールの採用するキャッスメソッドにおいて、ユーザアクセスログレコードを取得し、前記ユーザアクセスログレコードより前記アクティブユーザセットを統計し、対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記ホットスポットファイルを取得し、Hbaseデータベースを採用して前記ホットスポットファイルの関連情報をキャッシュし、前記前記ユーザアクセスログレコードからアクティブユーザセットを統計するについて、具体的には、アクセスされたソースの接尾辞がjpgであるレコード行を前記ユーザアクセスログレコードからフィルタリングし、前記レコード行がユーザID、アクセスページURL、アクセス開始時刻、アクセス状況、アクセストラフィックを含み、レコード解析クラスを作成して前記レコード行を解析し、二次元配列を使用してビジターIPと小さなファイルの名前をストレージし、ビジターIPを前記二次元配列でトラバースし、HashMapコレクションを使用して各ビジターIPのトラフィックを統計し、前記HashMapコレクションのKey値がビジターIPであり、Value値がトラフィックであり、前記HashMapコレクションをValue値の降順でソートし、ビジターIPの上位20%をフィルタリングし、ArrayListコレクションを使用して該IPサブセットをストレージし、アクティブユーザセットとしてマークし、前記対数線形モデルをあわせて、前記アクティブユーザセットの各アクティブユーザにアクサスされたファイルの人気予測値をアカウントして、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、具体的には、ArrayListコレクションから抽出されたビジターIPを、前記二次元配列から抽出されたビジターIPと照合し、一致が出たら、合致するビジターIPをキーワードとして、各ユーザのアクセス開始時刻を照会して、対数線形モデを用いて、前記アクティブユーザセットの各アクティブユーザにアクセスされたファイルの人気予測値をアカウントし、人気予測値によって各ファイルを降順にソートし、ファイルの上位20%をホットスポットファイルとしてマークし、前記対数線形モデルは:
であり、その中に、
がファイルiの人気予測値であり、
がファイルiが観測期間中のトラフィックであり、観測期間の長さがtであることを特徴とするHadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810499647.1A CN108804566B (zh) | 2018-05-22 | 2018-05-22 | 一种基于Hadoop的海量小文件读取方法 |
CN201810499647.1 | 2018-05-22 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019204472A JP2019204472A (ja) | 2019-11-28 |
JP6695537B2 true JP6695537B2 (ja) | 2020-05-20 |
Family
ID=64091399
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018147288A Expired - Fee Related JP6695537B2 (ja) | 2018-05-22 | 2018-08-04 | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6695537B2 (ja) |
CN (1) | CN108804566B (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109766318B (zh) * | 2018-12-17 | 2021-03-02 | 新华三大数据技术有限公司 | 文件读取方法及装置 |
CN109656958B (zh) * | 2018-12-18 | 2021-11-16 | 北京小米移动软件有限公司 | 数据查询方法以及系统 |
CN110647497A (zh) * | 2019-07-19 | 2020-01-03 | 广东工业大学 | 一种基于hdfs的高性能文件存储与管理系统 |
CN111190926B (zh) * | 2019-11-25 | 2023-04-07 | 腾讯云计算(北京)有限责任公司 | 资源缓存方法、装置、设备及存储介质 |
CN111159120A (zh) * | 2019-12-16 | 2020-05-15 | 西门子电力自动化有限公司 | 电力系统处理文件的方法、装置与系统 |
CN111460229B (zh) * | 2020-02-23 | 2023-06-09 | 华中科技大学 | 单用户多工作负载之间json解析优化方法和系统 |
CN111367857B (zh) * | 2020-03-03 | 2023-06-16 | 中国联合网络通信集团有限公司 | 数据存储方法、装置、ftp服务器及存储介质 |
CN111930684A (zh) * | 2020-07-28 | 2020-11-13 | 苏州亿歌网络科技有限公司 | 基于hdfs的小文件处理方法、装置、设备及存储介质 |
CN112532724A (zh) * | 2020-11-27 | 2021-03-19 | 上海爱数信息技术股份有限公司 | 一种文件传输系统及其方法 |
CN113190577B (zh) * | 2021-03-11 | 2022-08-30 | 新华三大数据技术有限公司 | 一种表连接查询方法、装置及存储介质 |
CN117519608B (zh) * | 2023-12-27 | 2024-03-22 | 泰安北航科技园信息科技有限公司 | 一种以Hadoop为核心的大数据服务器 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106294374B (zh) * | 2015-05-15 | 2019-06-04 | 北京国双科技有限公司 | 小文件合并的方法和数据查询系统 |
CN104820714B (zh) * | 2015-05-20 | 2018-02-09 | 国家电网公司 | 基于hadoop的海量瓦片小文件存储管理方法 |
CN107577809A (zh) * | 2017-09-27 | 2018-01-12 | 北京锐安科技有限公司 | 离线小文件处理方法及装置 |
CN108053863B (zh) * | 2017-12-22 | 2020-09-11 | 中国人民解放军第三军医大学第一附属医院 | 适合大小文件的海量医疗数据存储系统及数据存储方法 |
-
2018
- 2018-05-22 CN CN201810499647.1A patent/CN108804566B/zh active Active
- 2018-08-04 JP JP2018147288A patent/JP6695537B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2019204472A (ja) | 2019-11-28 |
CN108804566A (zh) | 2018-11-13 |
CN108804566B (zh) | 2019-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6695537B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSから複数の2MB以下の小さなファイルを読み込む方法 | |
JP6642650B2 (ja) | Hadoopに基づいて、データマージモジュールとHBaseキャッシュモジュールを備えるHDFSに複数の2MB以下の小さなファイルを書き込む方法 | |
US11238098B2 (en) | Heterogenous key-value sets in tree database | |
JP6642651B2 (ja) | ユーザアクセスプリファレンスモデルを用いたストレージ方法 | |
US9805077B2 (en) | Method and system for optimizing data access in a database using multi-class objects | |
Sharma et al. | A brief review on leading big data models | |
US20210056217A1 (en) | Methods and apparatus to provide group-based row-level security for big data platforms | |
US9558258B2 (en) | Hybrid database table stored as both row and column store | |
CN103177056B (zh) | 存储为行存储和列存储二者的混合数据库表 | |
KR102564170B1 (ko) | 데이터 객체 저장 방법, 장치, 및 이를 이용한 컴퓨터 프로그램이 저장되는 컴퓨터 판독가능한 저장 매체 | |
WO2017097231A1 (zh) | 话题处理方法及装置 | |
CN110291518A (zh) | 合并树无用单元指标 | |
JP6696062B2 (ja) | Hadoopに基づいて、複数の2MB以下のファイルをキャッシュする方法 | |
CN105683928B (zh) | 用于数据高速缓存策略的方法、服务器和存储器设备 | |
BR112016007295B1 (pt) | Método de otimizar execução de consultas em um armazenamento de dados, servidor para otimizar execução de consultas em um armazenamento de dados e meio legível por computador não transitório | |
CN107180043B (zh) | 分页实现方法和分页系统 | |
CN108763458B (zh) | 内容特征查询方法、装置、计算机设备及存储介质 | |
US9275091B2 (en) | Database management device and database management method | |
CN109144431A (zh) | 数据块的缓存方法、装置、设备及存储介质 | |
US9594785B2 (en) | Database management device and database management method | |
CN114416741A (zh) | 基于多级索引的kv数据写入读取方法、装置及存储介质 | |
CN103810209B (zh) | 一种保存数据的方法及系统 | |
US20240078234A1 (en) | Apparatus, method and storage medium for database pagination | |
CN110334073A (zh) | 一种元数据预取方法、装置、终端、服务器及存储介质 | |
CN114860663A (zh) | 一种数据存储方法、装置、设备和计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181119 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20181119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181120 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190814 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20190903 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190910 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190917 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20191112 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200226 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200319 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6695537 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |