JP6474367B2 - 分散システム用ファイル処理方法、および装置 - Google Patents

分散システム用ファイル処理方法、および装置 Download PDF

Info

Publication number
JP6474367B2
JP6474367B2 JP2016160184A JP2016160184A JP6474367B2 JP 6474367 B2 JP6474367 B2 JP 6474367B2 JP 2016160184 A JP2016160184 A JP 2016160184A JP 2016160184 A JP2016160184 A JP 2016160184A JP 6474367 B2 JP6474367 B2 JP 6474367B2
Authority
JP
Japan
Prior art keywords
file
distributed system
subfiles
unit
subfile
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016160184A
Other languages
English (en)
Other versions
JP2017076370A (ja
Inventor
チュエンガン ジェン
チュエンガン ジェン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2017076370A publication Critical patent/JP2017076370A/ja
Application granted granted Critical
Publication of JP6474367B2 publication Critical patent/JP6474367B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/13File access structures, e.g. distributed indices
    • G06F16/134Distributed indices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • G06F16/1767Concurrency control, e.g. optimistic or pessimistic approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/604Tools and structures for managing or administering access control systems
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B99/00Subject matter not provided for in other groups of this subclass
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1008Server selection for load balancing based on parameters of servers, e.g. available memory or workload
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • H04L67/1004Server selection for load balancing
    • H04L67/1014Server selection for load balancing based on the content of a request
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Automation & Control Theory (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Description

本発明は、コンピュータ技術分野に関し、具体には、インターネット技術分野に関し、特に分散システム用ファイル処理方法、および装置に関する。
ユーザは、通常、遺伝子情報ファイルを検出処理して処理後のファイルを取得し、さらに処理後のファイルに基づいて人の将来の疾患リスクを予測する。遺伝子情報ファイルが大きいため、遺伝子情報ファイルの検出処理は、時間がかかり、繁雑になることをもたらす。
従来技術において、遺伝子情報ファイルを処理するシステムには、通常、単一のサーバーのみ備えている。そのため、システムにおける単一のサーバーの助けを借りて遺伝子情報ファイルを処理するしかないので、処理時間が長くなってしまう。また、遺伝子情報ファイルが大きすぎる場合、遺伝子情報ファイルを処理するシステムのメモリ不足に起因してこのような遺伝子情報ファイルを処理することができなくなる恐れもある。
したがって、遺伝子情報ファイルの処理効率をさらに向上させるために、遺伝子情報ファイルを並列処理する方法を必要としている。
本発明は、改善された分散システム用ファイル処理方法、および装置を提供することにより、上記の背景技術に記載された技術的問題を解決することを目的とする。
第1の態様において、本発明は、分散システム用ファイル処理方法を提供し、この方法は、所定マークを含むファイルを受信するステップと、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルをそれぞれ同じ数の所定マークを含む複数のサブファイルに分割するステップと、前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理するステップとを含むことを特徴とする。
いくつかの実施例において、前記サブファイルの数は、前記分散システムに含まれるサーバーの数の整数倍である。
いくつかの実施例において、前記の相応のサーバーへサブファイルを送信して前記ファイルを並行処理するステップの後で、前記方法は、前記相応のサーバーにより処理されたサブファイルをマージしてマージファイルを生成するステップと、前記マージファイルのアクセス権限を、共有権限または非共有権限に設定するステップとをさらに含む。
いくつかの実施例において、前記ファイルは、遺伝子情報ファイルである。
前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルを複数のサブファイルに分割するステップにおいては、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、分割・生成しようとするサブファイルの数、および各サブファイルに含まれる所定マークの数を確定するステップと、前記分割・生成しようとするサブファイルの数および各サブファイルに含まれる所定マークの数に基づいて、前記ファイルを複数のサブファイルに分割するステップとを含む。
第2の態様において、本発明は、分散システム用ファイル処理装置を提供し、この装置は、所定マークを含むファイルを受信するための受信ユニットと、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルをそれぞれ同じ数の所定マークを含む複数のサブファイルに分割するための分割ユニットと、前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理するための並行ユニットとを備えることを特徴とする。
いくつかの実施例において、前記サブファイルの数は、前記分散システムに含まれるサーバーの数の整数倍である。
いくつかの実施例において、前記並行ユニットは、さらに、前記相応のサーバーにより処理されたサブファイルをマージしてマージファイルを生成し、前記マージファイルのアクセス権限を、共有権限または非共有権限に設定するように構成される。
いくつかの実施例において、前記ファイルは、遺伝子情報ファイルである。
いくつかの実施例において、前記分割ユニットは、具体的に、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、分割・生成しようとするサブファイルの数、および各サブファイルに含まれる所定マークの数を確定し、前記分割・生成しようとするサブファイルの数および各サブファイルに含まれる所定マークの数に基づいて、前記ファイルを複数のサブファイルに分割するように構成される。
本発明の実施例に係る分散システム用ファイル処理方法、および装置では、遺伝子情報ファイルの処理効率を向上させ、ロードバランシングを実現した。
以下、図面を参照しながら非限定的な実施例を詳細に説明することにより、本発明の他の特徴、目的、および利点は、より明らかになる。
本発明が適用された例示的なシステムアーキテクチャ図である。 本発明に係る分散システム用ファイル処理方法の一実施例を示すフローチャートである。 本発明に係る分散システム用ファイル処理方法の一応用場面の模式図である。 本発明に係る分散システム用ファイル処理装置の一実施例の構造模式図である。 本発明の実施例を実現するための端末装置またはサーバーに適されるコンピュータシステムを示す構造概略図である。
以下、図面および実施例を参照しながら、本発明をさらに詳しく説明する。ただし、ここで説明されている具体的な実施例は、係る発明を解釈するためのものに過ぎず、本発明の範囲を制限するものではないと理解されるべきである。また、説明の便宜上、図面に本発明と関連する部分のみが示されている。
ただし、衝突がない限り、本願における実施例、および実施例における特徴は、互いに組み合せてもよい。以下、図面を参照しながら実施例に基づいて本発明を詳細に説明する。
図1は、本発明に係る分散システム用ファイル処理方法、または分散システム用ファイル処理装置の実施例を適用できる例示的なシステムアーキテクチャ100を示した。
図1に示すように、システムアーキテクチャ100は、端末装置101、102、103、ネットワーク104、および分散システム105(分散システム105は、サーバー106、107、108を含み)を備えてもよい。ネットワーク104は、端末装置101、102、103とサーバー105との間に通信リンクの媒質を提供することに用いられる。ネットワーク104は、例えば有線、無線通信リンク、または光ファイバケーブルなどのさまざまな接続タイプを備えてもよい。
ユーザは、メッセージ等を受信したり送信したりするために、端末装置101、102、103を使用してネットワーク104を介してサーバー105と対話することができる。端末装置101、102、103には、様々な通信クライアントアプリ、例えば、文書処理アプリ、買い物アプリ、検索アプリ、即時通信ツール、電子メールクライアント、ソーシャルプラットフォームソフトウェアなどがインストールされてもよい。
端末装置101、102、103は、スクリーンを備え、且つデータ処理をサポートする各種の電子機器であってもよく、スマートフォン、タブレットPC、電子ブックリーダー、MP3(Moving Picture Experts Group Audio Layer III)プレーヤー、MP4(Moving Picture Experts Group Audio Layer IV)プレーヤー、ノートブック型パソコンやデスクトップコンピュータなどを含むが、これらに限らない。
分散システム105は、サーバー106、107、108を備え、サーバー106、107、108は、各種のサービスを提供可能なサーバー、例えば、端末装置101、102、103へアップロードされたファイルにサポートを提供するバックエンドサーバーであってもよい。バックエンドサーバーは、受信されたデータに対して分析等の処理を行い、処理後のファイルを端末装置にフィードバックすることができる。
ここで、本発明の実施例に係る分散システム用ファイル処理方法は、通常、分散システム105により実行され、それに応じて、分散システム用ファイル処理装置は、通常、分散システム105に設けられていることを注意すべきである。
図1における端末装置、ネットワーク、およびサーバーの数は、例示的なものに過ぎないと理解すべきである。実際の必要に応じて、任意の数の端末装置、ネットワーク、およびサーバーを備えてもよい。
続いて、本発明に係る分散システム用ファイル処理方法の一実施例のフローチャート200を示す図2を参照する。前記分散システム用ファイル処理方法は、以下のステップを含む。
ステップ201:所定マークを含むファイルを受信する。
本実施例において、分散システム用ファイル処理方法が実行される電子機器(例えば、図1に示す分散システム105)は、有線接続形態、または無線接続形態により、ユーザがファイルを閲覧するために用いる端末から、所定マークを含むファイルを受信してもよく、その中で、前記所定マークを含むファイルはユーザが処理しようとするファイルを含み、当該ファイルは所定マークを有する。ただし、前記無線接続形態は、3G/4G接続、WiFi接続、ブルートゥース(Bluetooth)接続、WiMAX接続、Zigbee接続、UWB(ultra wideband)接続、および他の従来既知のまたは将来に開発される無線接続方式を含むが、これらに限定されない。
通常、ユーザは、端末にインストールされたファイル処理クライアントを利用してファイルを送信する場合、直接にファイルの内容を入力したり、ファイルをアップロードしたりして分散システム105へ所定マークを含むファイルを送信してもよい。本実施例において、前記ファイルは、fasta形式、fastq形式のファイルまたは他の将来に開発される形式のファイルを含んでもよく、前記所定マークは、「>」または「@」であってもよい。
本実施例のいくつかの代替的な実現形態において、前記ファイルは、遺伝子情報ファイルである。
ステップ202:ファイルのサイズ、ファイルにおける所定マークの数、および分散システムに含まれるサーバーの数に基づいて、ファイルを複数のサブファイルに分割し、その中で、各サブファイルが同じ数の所定マークを含む。
本実施例において、ステップ201により所定マークを含むファイルが得られ、前記電子機器(例えば、図1に示す分散システム105)は、まず、前記ファイルを取得し、その後、様々な分析手段を利用して前記ファイルおよびファイルの内容を分析し、それにより検出してファイルのサイズ、ファイルにおける所定マークの数が得られ、さらに、検出して分散システムに含まれるサーバーの数が得られる。その後、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルを複数のサブファイルに分割し、その中で、各サブファイルにおける所定マークの数が同じである。
具体的な実施例において、前記ファイルのサイズが100Mで、前記ファイルにおける所定マークの数が200個の「@」で、前記分散システムに含まれるサーバーの数が10個であると仮定すれば、ファイルを10個のサブファイルに分割し、各サブファイルが20個の所定マークを含むように確保する。
本実施例のいくつかの代替的な実現形態において、前記サブファイルの数は、前記分散システムに含まれるサーバーの数の整数倍である。以上で述べたように、前記分散システムに含まれるサーバーの数が10個である場合、サブファイルの数を10、20、30などの10の整数倍にするように考えればよく、サブファイルの数を確定した後に、さらにファイルを複数のサブファイルに分割する。
本実施例のいくつかの代替的な実現形態において、ファイルのサイズ、ファイルにおける所定マークの数、および分散システムに含まれるサーバーの数に基づいて、分割・生成しようとするサブファイルの数、および各サブファイルに含まれる所定マークの数を確定し、分割・生成しようとするサブファイルの数および各サブファイルに含まれる所定マークの数に基づいて、ファイルを複数のサブファイルに分割する。以上で述べたように、前記ファイルのサイズが100Mで、前記ファイルにおける所定マークの数が200個の「@」で、前記分散システムに含まれるサーバーの数が10個であると仮定すれば、前記ファイルを10の倍数のサブファイルに分割し、分割・生成しようとするサブファイルの数が10個であり、且つ各サブファイルに20個の所定マークを含むように設定し、分割・生成しようとするサブファイルの数、および各サブファイルに含まれる所定マークの数に基づいて、各サブファイルが20個の所定マークを含むことを確保すると共に、ファイルを10個のサブファイルに分割する。
ステップ203:前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理する。
本実施例において、まず、前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーは、ファイルの処理要求を送信し、分散システムは、前記ファイルの処理要求を受信した後に、相応のサーバーへサブファイルを送信することで前記ファイルの処理要求に応答し、したがって、前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーで前記ファイルの処理を並行し、分散システムにおける複数のサーバーにより、ファイルの処理要求のロードバランシングを実現する。
本実施例のいくつかの代替的な実現形態において、前記相応のサーバーにより処理されたサブファイルをマージしてマージファイルを生成し、前記マージファイルのアクセス権限を、共有権限または非共有権限に設定する。その中で、テキストまたはパターンの表示形態により、所定マークのファイルおよびマージファイルを表示する。非共有権限は、予め設定されたユーザのダウンロード、閲覧、変更、呼び出し、または削除が可能な権限であり、共有権限は、全てのユーザが読み取りおよびコピーが可能な権限である。
続いて、本実施例に係る分散システム用ファイル処理方法の応用場面の1つの模式図300を参照する。図3の応用場面において、分散システムは、まず、所定マークを含むファイル301を受信し、その後、前記ファイル301のサイズ、ファイル301における所定マークの数、および分散システムに含まれるサーバー303の数に基づいて、ファイルを複数のサブファイル302に分割し、その中で、各サブファイル302が同じ数の所定マークを含み、それから、分散システムに含まれるサーバー303のうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバー303へサブファイルを送信して前記ファイルを並行処理する。前記相応のサーバー303により処理されたサブファイルをマージしてマージファイル304を生成する。
本発明の実施例により、遺伝子情報ファイルの処理効率を向上させ、負荷均衡を実現した。
さらに、図4を参照し、本発明は、前記各図に示す方法の実現形態として、分散システム用ファイル処理装置の一実施例を提供した。当該装置の実施例は、図2に示す方法の実施例に対応している。
図4に示すように、本実施例に係る分散システム用ファイル処理装置400は、所定マークを含むファイルを受信するための受信ユニット401と、
前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルをそれぞれ同じ数の所定マークを含む複数のサブファイルに分割するための分割ユニット402と、
前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理するための並行ユニット403とを備える。
本実施例において、分散システム用ファイル処理装置400の受信ユニット401は、有線接続形態、または無線接続形態により、ユーザがファイルを閲覧するために用いる端末から、所定マークを含むファイルを受信してもよく、その中で、前記所定マークを含むファイルはユーザが処理しようとするファイルを含み、当該ファイルは所定マークを有する。
本実施例において、ユニット401によりファイルが得られ、前記分割ユニット402は、まず、前記ファイルを取得することができ、その後、さらに様々な分析手段を利用して前記ファイルおよびファイルの内容を分析し、それにより検出してファイルのサイズ、ファイルにおける所定マークの数が得られ、さらに、検出して分散システムに含まれるサーバーの数が得られる。
本実施例において、並行ユニット403は、前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理する。
前記分散システム用ファイル処理装置400が、プロセッサ、メモリなどのいくつかの他の公知の構造をさらに備えてもよく、本発明の実施例を曖昧にすることを回避するために、これらの公知の構造を図4に示さなかったことを、当業者は理解することができる。
以下、本発明の実施例を実現するための端末装置またはサーバーに適用されるコンピュータシステム500を示す構造模式図である図5を参照する。
図5に示すように、コンピュータシステム500は、読み出し専用メモリ(ROM)502に記憶されているプログラムまたは記憶部508からランダムアクセスメモリ(RAM)503にロードされたプログラムに基づいて様々な適当な動作および処理を実行することができる中央処理装置(CPU)501を備える。RAM503には、システム500の操作に必要な様々なプログラムおよびデータがさらに記憶されている。CPU501、ROM502およびRAM503は、バス504を介して互いに接続されている。入力/出力(I/O)インターフェース505もバス504に接続されている。
キーボード、マウスなどを含む入力部506、陰極線管(CRT)、液晶ディスプレイ(LCD)など、およびスピーカなどを含む出力部507、ハードディスクなどを含む記憶部508、およびLANカード、モデムなどを含むネットワークインターフェースカードの通信部509は、I/Oインターフェース505に接続されている。通信部509は、例えばインターネットのようなネットワークを介して通信処理を実行する。ドライバ510は、必要に応じてI/Oインターフェース505に接続される。リムーバブルメディア511は、例えば、マグネチックディスク、光ディスク、光磁気ディスク、半導体メモリなどのようなものであり、必要に応じてドライバ510に取り付けられ、したがって、ドライバ510から読み出されたコンピュータプログラムが必要に応じて記憶部508にインストールされる。
特に、本発明の実施例によれば、上記のフローチャートを参照しながら記載されたプロセスは、コンピュータのソフトウェアプログラムとして実現されてもよい。例えば、本発明の実施例は、コンピュータプログラム製品を含み、当該コンピュータプログラム製品は、機械可読媒体に有形に具現化されるコンピュータプログラムを含み、前記コンピュータプログラムは、フローチャートで示される方法を実行するためのプログラムコードを含む。このような実施例では、当該コンピュータプログラムは、通信部509を介してネットワークからダウンロードされてインストールされてもよく、および/またはリムーバブルメディア511からインストールされてもよい。
図面におけるフローチャートおよびブロック図は、本発明の各実施例に係るシステム、方法およびコンピュータプログラム製品により実現可能なアーキテクチャ、機能および操作を示す。ここで、フローチャートまたはブロック図における各枠は、1つのモジュール、プログラムセグメント、またはコードの一部を代表してもよく、前記モジュール、プログラムセグメント、またはコードの一部は、規定された論理機能を実現するための1つ以上の実行可能な命令を含む。なお、いくつかの代替実施態様として、枠に示された機能は、図面に示された順番と異なる順番で実行されてもよい。例えば、連続して示された2つの枠は、関連する機能に応じて、実際にほぼ並行に実行されてもよく、逆の順番で実行されてもよい。なお、ブロック図および/またはフローチャートにおける各枠と、ブロック図および/またはフローチャートにおける枠の組合せは、規定された機能または操作を実行する、ハードウェアに基づく専用システムで実現されてもよく、あるいは、専用ハードウェアとコンピュータの命令との組合せで実行されてもよい。
本発明の実施例に記載されたユニットは、ソフトウェアで実現されてもよく、ハードウェアで実現されてもよい。記載されたユニットは、プロセッサに設定されてもよく、例えば、「受信ユニット、分析ユニット、情報選取ユニット、および生成ユニットを備えるプロセッサ」として記載されてもよい。その中でも、これらのユニットの名称は、ある場合において当該ユニットその自体を限定するものではなく、例えば、受信ユニットは、「ユーザのウェブページ閲覧の請求を受信するユニット」として記載されてもよい。
一方、本発明は、不揮発性コンピュータ記憶媒体をさらに提供し、当該不揮発性コンピュータ記憶媒体は、上記の実施例の前記装置に含まれる不揮発性コンピュータ記憶媒体であってもよく、独立に存在して端末に組み立てられていない不揮発性コンピュータ記憶媒体であってもよい。前記不揮発性コンピュータ記憶媒体は、1つ以上のプログラムが記憶され、前記1つ以上のプログラムが1つの機器により実行された場合、前記機器に、所定マークを含むファイルを受信し、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルをそれぞれ同じ数の所定マークを含む複数のサブファイルに分割し、前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理するようにさせる。
以上の記載は、本発明の好ましい実施例、および使用された技術的原理の説明に過ぎない。本発明に係る特許請求の範囲が、上記した技術的特徴の特定な組合せからなる技術案に限定されることではなく、本発明の趣旨を逸脱しない範囲で、上記の技術的特徴または同等の特徴の任意の組合せからなる他の技術案をも含むべきであることを、当業者は理解すべきである。例えば、上記の特徴と、本発明に開示された類似の機能を持っている技術的特徴(これらに限定されていない)とを互いに置き換えてなる技術案が挙げられる。

Claims (8)

  1. 受信ユニット、分割ユニットおよび並行ユニットを備えるファイル処理装置と、複数のサーバーとを有する分散システムにてファイル処理を行う方法であって、
    前記受信ユニットが所定マークを含むファイルを受信するステップであって、前記ファイルは、遺伝子情報ファイルである、ステップと、
    前記分割ユニットが、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルを、それぞれ同じ数の所定マークを含む複数のサブファイルに分割するステップであって、前記サブファイルのサイズは、個々のサーバーのサイズより小さい、ステップと、
    前記並行ユニットが、前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理するステップと、を含むことを特徴とする、分散システム用ファイル処理方法。
  2. 前記サブファイルの数は、前記分散システムに含まれるサーバーの数の整数倍であることを特徴とする、請求項1に記載の方法。
  3. 前記並行ユニットが前記の相応のサーバーへサブファイルを送信して前記ファイルを並行処理するステップの後で、前記方法は、
    前記並行ユニットが前記相応のサーバーにより処理されたサブファイルをマージしてマージファイルを生成するステップと、
    前記並行ユニットが前記マージファイルのアクセス権限を、共有権限または非共有権限に設定するステップとをさらに含むことを特徴とする、請求項1に記載方法。
  4. 前記分割ユニットが、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルを複数のサブファイルに分割するステップにおいては、
    前記分割ユニットが、前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、分割・生成しようとするサブファイルの数、および各サブファイルに含まれる所定マークの数を確定するステップと、
    前記分割ユニットが、前記分割・生成しようとするサブファイルの数および各サブファイルに含まれる所定マークの数に基づいて、前記ファイルを複数のサブファイルに分割するステップとを含むことを特徴とする、請求項1または2に記載方法。
  5. 分散システム用ファイル処理装置であって、
    所定マークを含むファイルを受信するための受信ユニットであって、前記ファイルは、遺伝子情報ファイルである、受信ユニットと、
    前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、前記ファイルをそれぞれ同じ数の所定マークを含む複数のサブファイルに分割するための分割ユニットであって、前記サブファイルのサイズは、個々のサーバーのサイズより小さい、分割ユニットと、
    前記分散システムに含まれるサーバーのうちの少なくとも1つのサーバーから送信されたファイルの処理要求に応答し、相応のサーバーへサブファイルを送信して前記ファイルを並行処理するための並行ユニットと、を備えることを特徴とする、分散システム用ファイル処理装置。
  6. 前記サブファイルの数は、前記分散システムに含まれるサーバーの数の整数倍であることを特徴とする、請求項に記載の装置。
  7. 前記並行ユニットは、さらに、
    前記相応のサーバーにより処理されたサブファイルをマージしてマージファイルを生成し、
    前記マージファイルのアクセス権限を、共有権限または非共有権限に設定するために構成されることを特徴とする、請求項に記載の装置。
  8. 前記分割ユニットは、具体的に、
    前記ファイルのサイズ、前記ファイルにおける所定マークの数、および前記分散システムに含まれるサーバーの数に基づいて、分割・生成しようとするサブファイルの数、および各サブファイルに含まれる所定マークの数を確定し、
    前記分割・生成しようとするサブファイルの数および各サブファイルに含まれる所定マークの数に基づいて、前記ファイルを複数のサブファイルに分割するために構成されることを特徴とする、請求項またはに記載の装置。
JP2016160184A 2015-10-14 2016-08-17 分散システム用ファイル処理方法、および装置 Active JP6474367B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510661956.0 2015-10-14
CN201510661956.0A CN105205174B (zh) 2015-10-14 2015-10-14 用于分布式系统的文件处理方法和装置

Publications (2)

Publication Number Publication Date
JP2017076370A JP2017076370A (ja) 2017-04-20
JP6474367B2 true JP6474367B2 (ja) 2019-02-27

Family

ID=54952857

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016160184A Active JP6474367B2 (ja) 2015-10-14 2016-08-17 分散システム用ファイル処理方法、および装置

Country Status (4)

Country Link
US (1) US20170109371A1 (ja)
JP (1) JP6474367B2 (ja)
KR (1) KR101941336B1 (ja)
CN (1) CN105205174B (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869048A (zh) * 2016-03-28 2016-08-17 中国建设银行股份有限公司 一种数据处理方法及系统
CN105912609B (zh) * 2016-04-06 2019-04-02 中国农业银行股份有限公司 一种数据文件处理方法和装置
CN106446254A (zh) * 2016-10-14 2017-02-22 北京百度网讯科技有限公司 文件检测方法和装置
CN108076110B (zh) * 2016-11-14 2021-02-26 北京京东尚科信息技术有限公司 电子数据交换系统和包含电子数据交换系统的装置
CN109088907B (zh) * 2017-06-14 2021-10-01 北京京东尚科信息技术有限公司 文件传递方法及其设备
CN107451427A (zh) * 2017-07-27 2017-12-08 江苏微锐超算科技有限公司 一种可重构基因比对的计算系统及加速平台
CN110858191A (zh) * 2018-08-24 2020-03-03 北京三星通信技术研究有限公司 文件处理方法、装置、电子设备及可读存储介质
CN109254733B (zh) * 2018-09-04 2021-10-01 北京百度网讯科技有限公司 用于存储数据的方法、装置和系统
CN110162991B (zh) * 2019-05-29 2023-01-03 华南师范大学 基于大数据插入和异构类型的信息隐藏方法和机器人系统
CN112463739A (zh) * 2019-09-09 2021-03-09 山东省计算中心(国家超级计算济南中心) 基于海洋模式roms的数据处理方法及系统
CN112463735B (zh) * 2020-11-26 2023-04-07 四三九九网络股份有限公司 一种大体积json文件拆分并按需请求的方法
CN113190511B (zh) * 2021-04-21 2022-09-13 中国海洋大学 基于众核集群的大数据并发调度及加速处理方法

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0950438A (ja) * 1995-08-07 1997-02-18 Hitachi Ltd 生体高分子配列ホモロジ検索方法
KR100717216B1 (ko) * 2005-09-05 2007-05-11 주식회사 태울엔터테인먼트 클러스터 시스템을 제어하는 방법
JP4942142B2 (ja) * 2005-12-06 2012-05-30 キヤノン株式会社 画像処理装置及びその制御方法、プログラム
US9262763B2 (en) * 2006-09-29 2016-02-16 Sap Se Providing attachment-based data input and output
JP2008159015A (ja) * 2006-11-27 2008-07-10 Toshiba Corp 頻出パターン発見装置および頻出パターン発見方法
CN101582064B (zh) * 2008-05-15 2011-12-21 阿里巴巴集团控股有限公司 一种大数据量数据处理方法及系统
CN101510203B (zh) * 2009-02-25 2011-09-21 南京联创科技集团股份有限公司 基于拆分机制并行处理实现大数据量高性能处理的方法
KR101969848B1 (ko) * 2011-06-10 2019-04-17 삼성전자주식회사 유전자 데이터를 압축하는 방법 및 장치
JP5506629B2 (ja) * 2010-10-19 2014-05-28 日本電信電話株式会社 準頻出構造パターンマイニング装置と頻出構造パターンマイニング装置とそれらの方法、及びプログラム
US9054920B2 (en) * 2011-03-31 2015-06-09 Alcatel Lucent Managing data file transmission
EP2634717A2 (en) * 2012-02-28 2013-09-04 Koninklijke Philips Electronics N.V. Compact next generation sequencing dataset and efficient sequence processing using same
KR101332270B1 (ko) * 2012-04-09 2013-11-22 삼성에스디에스 주식회사 유전 정보 관리 장치 및 방법
CN102685266B (zh) * 2012-05-14 2015-04-15 中国科学院计算机网络信息中心 区文件签名方法及系统
CN102790771B (zh) * 2012-07-25 2016-12-21 山东中创软件商用中间件股份有限公司 一种文件传输方法及系统
CN103095800A (zh) * 2012-12-07 2013-05-08 江苏乐买到网络科技有限公司 一种基于云计算的数据处理系统
US9384239B2 (en) * 2012-12-17 2016-07-05 Microsoft Technology Licensing, Llc Parallel local sequence alignment
CN103237300B (zh) * 2013-04-28 2015-09-09 小米科技有限责任公司 一种文件下载的方法、装置及系统
JP6260359B2 (ja) * 2014-03-07 2018-01-17 富士通株式会社 データ分割処理プログラム,データ分割処理装置及びデータ分割処理方法

Also Published As

Publication number Publication date
CN105205174A (zh) 2015-12-30
JP2017076370A (ja) 2017-04-20
KR20170043998A (ko) 2017-04-24
CN105205174B (zh) 2019-10-11
US20170109371A1 (en) 2017-04-20
KR101941336B1 (ko) 2019-01-22

Similar Documents

Publication Publication Date Title
JP6474367B2 (ja) 分散システム用ファイル処理方法、および装置
US11582284B2 (en) Optimization of publication of an application to a web browser
JP6629697B2 (ja) 仮想マシンイメージファイルを抽出する方法および装置
US20160330266A1 (en) Remotely controlling a device via a web browser
US20140250158A1 (en) Method and device for obtaining file
US20140304384A1 (en) Uploading large content items
EP3572995B1 (en) Case management by a state machine
US9917915B2 (en) Information processing system, information processing apparatus, terminal apparatus and information transmission method for ordered transmission of stored information to be synchronously displayed at terminal apparatuses
CN106817388B (zh) 虚拟机、宿主机获取数据的方法、装置及访问数据的系统
US10404797B2 (en) Supporting multiple clipboard items in a virtual desktop infrastructure environment
CN114586325A (zh) 用于基于5g通用媒体应用格式的媒体流式传输的内容准备模板的方法
US20170060517A1 (en) Information processing system
JP6079161B2 (ja) 印刷処理装置、印刷処理方法、及び印刷処理プログラム
TW201426309A (zh) 薄化書本
CN110647327A (zh) 基于卡片的用户界面动态控制的方法和装置
CN105743890B (zh) 权限信息生成方法和装置
US9729619B2 (en) Information processing system, processing apparatus, and distributed processing method
CN109218339B (zh) 请求处理方法和装置
KR102246581B1 (ko) 클라우드 컴퓨팅 환경을 통한 파일 업로드 방법 및 이를 수행하기 위한 프록시 서버
JP7073703B2 (ja) ゲートウェイ装置、クライアントサーバシステムおよびプログラム
KR20160070255A (ko) 리얼타임 캔버스 제공 시스템, 리얼타임 캔버스 제공방법, 그 프로그램 및 이를 기록한 기록매체
CN107749858A (zh) 一种端点之间切换方法及装置
JP6875334B2 (ja) サーバ、システム、クライアント装置、ログ情報記憶方法、クライアント情報送信方法及びプログラム
US20150295776A1 (en) Apparatus and method of content containment
CN105260324A (zh) 用于分布式缓存系统的键值对数据操作方法和装置

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170829

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171204

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20180508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180907

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20181012

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190129

R150 Certificate of patent or registration of utility model

Ref document number: 6474367

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250