JP2023546040A

JP2023546040A - データ処理方法、装置、電子機器、及びコンピュータプログラム

Info

Publication number: JP2023546040A
Application number: JP2023521789A
Authority: JP
Inventors: ▲曉▼森李; 杰 ▲許▼; 文欧▲陽▼; ▲陽▼宇陶; 品肖
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-12-31
Filing date: 2021-11-23
Publication date: 2023-11-01
Also published as: WO2022142859A1; EP4198771A1; US20230033019A1; CN113515672A; EP4198771A4

Abstract

本出願は、人工知能の技術分野に属し、具体的に、データ処理方法、データ処理装置、コンピュータ可読媒体及び電子機器に関する。当該方法は、インタラクションオブジェクトを表すためのノードと、複数のインタラクションオブジェクト間のインタラクション関係を表すためのエッジとを含む関係グラフネットワークを取得するステップと、複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行うことで、前記関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新するステップと、前記ノードコア次数に基づいて、前記関係グラフネットワークに対してプルーニング処理を行うことで、前記関係グラフネットワーク内の一部のノードおよび一部のエッジを除去するステップと、前記関係グラフネットワークのネットワーク規模が所定のネットワーク圧縮条件を満たす場合、前記デバイスクラスタに対して圧縮処理を行うことで、前記デバイスクラスタにおける一部のコンピューティングデバイスを除去するステップと、を含む。当該方法は、コンピューティングリソースの消費を削減しながらデータ処理効率を向上させることができる。

Description

本出願は、２０２０年１２月３１日に中国特許局へ提出された、出願番号が２０２０１１６２６９０６６であって、発明の名称が「データ処理方法、装置、コンピュータ可読媒体及び電子機器」である中国特許出願の優先権を主張し、その内容全体が援用により本明細書に組み込まれる。

本出願は、人工知能の技術分野に関し、具体的に、データ処理技術に関する。

コンピュータ及びネットワーク技術の発展につれて、ネットワークプラットフォームで提供されるビジネスサービスを基として、ユーザ同士間に様々なインタラクション関係を築くことができる。たとえば、ユーザはソーシャルネットワークプラットフォーム上で他のユーザとソーシャル関係を築いてもよいし、オンライン決済プラットフォーム上で他のユーザと取引関係を築いてもよい。それに基づいて、ネットワークプラットフォームは、ユーザがネットワークプラットフォームを使用する際に生成されるユーザ自身の属性に関連するデータや、異なるユーザ間でインタラクション関係を築くことによって生成されるインタラクションデータを含む、大量のユーザデータを収集するようになる。

ユーザデータを合理的に整理してマイニングすることによって、ネットワークプラットフォームはユーザの特性をまとめ、さらに、ユーザの特性に合わせて、便利で効率的なプラットフォームサービスをユーザに提供することができる。しかしながら、ユーザデータが継続的に蓄積されると、増加し続けるデータ規模はデータ処理の負荷を増加させる可能性があり、ネットワークプラットフォームはユーザデータの分析処理操作を実行するためにより多くのコンピューティングリソースや時間を費やす必要がある。そのため、ビッグデータの分析効率をいかに向上させ、関連するコストを削減するかは喫緊の課題となっている。

本出願の実施例は、ビッグデータ分析における高コンピューティングリソース消費、低データ処理効率などの技術的問題をある程度解決することができるデータ処理方法、データ処理装置、コンピュータ可読媒体、電子機器及びコンピュータプログラム製品を提供する。

本出願の他の特性及び利点は、以下の詳細な記述から明らかになり、又は、部分的に本出願の実践によって習得される。

本出願の実施例の一局面によれば、電子機器が実行するデータ処理方法を提供し、前記方法は、インタラクションオブジェクトを表すためのノードと、複数のインタラクションオブジェクト間のインタラクション関係を表すためのエッジとを含む関係グラフネットワークを取得するステップと、複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行うことで、前記関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新するステップと、前記ノードコア次数に基づいて、前記関係グラフネットワークに対してプルーニング処理を行うことで、前記関係グラフネットワーク内の一部のノードおよび一部のエッジを除去するステップと、前記関係グラフネットワークのネットワーク規模が所定のネットワーク圧縮条件を満たす場合、前記デバイスクラスタに対して圧縮処理を行うことで、前記デバイスクラスタにおける一部のコンピューティングデバイスを除去するステップと、を含む。

本出願の実施例の一局面によれば、データ処理装置を提供し、当該装置は、インタラクションオブジェクトを表すためのノードと、複数のインタラクションオブジェクト間のインタラクション関係を表すためのエッジとを含む関係グラフネットワークを取得するように構成されるグラフネットワーク取得モジュールと、複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行うことで、前記関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新するように構成されるコア次数マイニングモジュールと、前記ノードコア次数に基づいて、前記関係グラフネットワークに対してプルーニング処理を行うことで、前記関係グラフネットワーク内の一部のノードおよび一部のエッジを除去するように構成されるネットワークプルーニングモジュールと、前記関係グラフネットワークのネットワーク規模が所定のネットワーク圧縮条件を満たす場合、前記デバイスクラスタに対して圧縮処理を行うことで、前記デバイスクラスタにおける一部のコンピューティングデバイスを除去するように構成されるクラスタ圧縮モジュールと、を含む。

本出願の実施例の一局面によれば、前記コンピュータプログラムがプロセッサによって実行されると、上記の技術案におけるデータ処理方法を実現させるコンピュータプログラムを記憶しているコンピュータ可読媒体を提供する。

本出願の実施例の一局面によれば、電子機器を提供し、当該電子機器は、プロセッサと、前記プロセッサの実行可能な命令を記憶するためのメモリと、を含み、前記プロセッサは、前記実行可能な命令を実行することで、上記の技術案におけるデータ処理方法を実行するように構成される。

本出願の実施例の一局面によれば、コンピュータ可読記憶媒体に記憶されているコンピュータ命令を含むコンピュータプログラム製品又はコンピュータプログラムを提供する。コンピュータ機器のプロセッサはコンピュータ可読記憶媒体から当該コンピュータ命令を読み取り、プロセッサは当該コンピュータ命令を実行することによって、上記の技術案におけるデータ処理方法を当該コンピュータ機器に実行させる。

本出願の実施例による技術案では、インタラクションオブジェクト間のインタラクション関係に関するビジネスデータに基づいて関係グラフネットワークを確立し、関係グラフネットワークの構造特性とスパース性を利用して、デバイスクラスタによって分散コンピューティングを行い、コア次数マイニングを領域別に行うことができる。ノードコア次数の継続的な反復更新につれて、関係グラフネットワークに対してプルーニング処理を行い、反復収束したノード及び対応するエッジを「除去する」ことによって、関係グラフネットワークがノードコア次数の反復更新につれて継続的に圧縮され小さくなり、コンピューティングリソースの消費が削減される。これに基づいて、関係グラフネットワークが適切なサイズに圧縮されると、コア次数マイニングを行うためのデバイスクラスタに対して圧縮処理をさらに行うことができる。こうすれば、大量のコンピューティングリソースを解放するだけでなく、並行計算によるデータ配信などの追加の時間コストを削減し、データ処理効率を向上させることができる。

以上の一般的な説明及び以下の詳細な説明は、例示的及び解釈的なものに過ぎず、本出願を制限するものではないことが理解されるべきであろう。

ここでの図面は明細書に組み込まれ本明細書の一部を構成し、本出願を満たす実施例を示し、明細書と共に本出願の原理を説明するために用いられる。明らかに、以下の説明における図面は本出願のいくつかの実施例に過ぎず、当業者にとって、創造的な労力を要することなく、これらの図面に基づいて他の図面を取得することができる。

本出願の技術案を適用するデータ処理システムのアーキテクチャブロック図を示す。本出願の一実施例におけるデータ処理方法のステップフローチャートを示す。本出願の一実施例における分散コンピューティングに基づくコア次数マイニング方法のステップフローチャートを示す。本出願の一実施例におけるパーティショングラフネットワークに対してコア次数マイニングを行うステップフローチャートを示す。本出願の一実施例におけるコンピューティングノードを選択するステップフローチャートを示す。本出願の一実施例におけるコンピューティングノードのｈインデックスを決定するステップフローチャートを示す。本出願の一実施例におけるパーティショングラフネットワークのノードコア次数マイニング結果をまとめるステップフローチャートを示す。本出願の一実施例におけるノードコア次数の反復更新に基づいて関係グラフネットワークに対して圧縮プルーニングを行うプロセスの模式図を示す。本出願の実施例によるアプリケーションシナリオにおけるｋ－ｃｏｒｅマイニングの全体的なアーキテクチャおよび処理フローチャートを示す。本出願の実施例で提供されるデータ処理装置の構造ブロック図を模式的に示す。本出願の実施例に係る電子機器を実現するのに適するコンピュータシステムの構造ブロック図を模式的に示す。

以下、図面を参照しながら、例示的な実施形態をより包括的に説明する。しかしながら、例示の実施形態を、多様な形態で実施することができ、本明細書の範例に限定されるものであると理解すべきではなく、むしろ、これらの実施形態の提供により、本出願がより包括的かつ完全なものになり、例示の実施形態の構想を包括的に当業者に伝達することができる。

さらに、記述された特徴、構造又は特性は、任意の適切な方法で１つ又は複数の実施例に組み込まれてもよい。以下の記述では、本出願の実施例を十分理解させるために、多くの詳細を提供する。しかしながら、当業者は、特定の詳細のうちの１つ又は複数の詳細なしに、又は、他の方法、構成要素、装置、ステップなどを採用して本出願の技術案を実施できることを認識できるだろう。他の場合では、本出願の各態様の曖昧さを回避するために、周知の方法、装置、実現又は操作を詳細に表示又は記述しない。

図面に示すブロック図は機能エンティティに過ぎず、必ずしも物理的に独立したエンティティに対応するものである必要がない。即ち、ソフトウェアの形態を採用してこれらの機能エンティティを実現してもよいし、１つ又は複数のハードウェアモジュール若しくは集積回路にこれらの機能エンティティを実現してもよく、または、異なるネットワーク及び／又はプロセッサ装置及び／又はマイクロコントローラ装置にこれらの機能エンティティを実現してもよい。

図面に示すフローチャートは例示的な説明に過ぎず、必ずしもコンテンツ及び操作／ステップを全部含む必要がなく、必ずしも記述された順序に従って実行される必要もない。たとえば、分解できる操作／ステップがある一方、統合するか又は部分的に統合することができる操作／ステップがあるため、実際に実行する順序は、実際の状況に応じて変更されてもよい。

図１は、本出願の実施例の技術案を適用できるデータ処理システムのアーキテクチャブロック図を示す。

図１に示すように、データ処理システム１００は、端末デバイス１１０、ネットワーク１２０及びサーバ１３０を含むことができる。

端末デバイス１１０はスマートフォン、タブレットパソコン、ノートパソコン、デスクトップパソコン、スマートスピーカー、スマートウォッチ、スマートメガネ、車載端末などの様々な電子機器を含むことができる。端末デバイス１１０は、ユーザがアプリケーションプログラムのクライアントに基づいて対応するアプリケーションサービスを利用するように、ビデオアプリケーションクライアント、音楽アプリケーションクライアント、ソーシャルアプリケーションクライアント、決済アプリケーションクライアントなどの様々なアプリケーションクライアントがインストールすることができる。

サーバ１３０は独立した物理サーバであってもよく、複数の物理サーバからなるサーバクラスタ又は分散システムであってもよく、クラウドサービス、クラウドデータベース、クラウドコンピューティング、クラウド関数、クラウド記憶、ネットワークサービス、クラウド通信、ミドルウェアサービス、ドメイン名サービス、セキュリティサービス、ＣＤＮ、ビッグデータ及び人工知能プラットフォームなどの基本的なクラウドコンピューティングサービスを提供するクラウドサーバーであってもよい。ネットワーク１２０は、端末デバイス１１０とサーバ１３０との間で通信リンクを提供可能な様々な接続タイプの通信媒体であってもよく、たとえば有線通信リンク又は無線通信リンクであってもよい。

実現の必要に応じて、本出願の実施例におけるシステムアーキテクチャは、任意数の端末デバイス、ネットワーク及びサーバを具備してもよい。たとえば、サーバ１３０は複数のサーバデバイスからなるサーバグループであってもよい。また、本出願の実施例で提供される技術案は、端末デバイス１１０又はサーバ１３０に適用されてもよく、または、端末デバイス１１０及びサーバ１３０によって共同で実現されてもよく、本出願の実施例では特に限定しない。

たとえば、ユーザは、端末デバイス１１０上でソーシャルアプリケーションプログラムを使用する場合、ソーシャルネットワークプラットフォーム上で他のユーザと互いに情報を送ったり、音声会話やビデオ会話などのソーシャルネットワーキング行動を行ったりすることができ、それに基づいて他のユーザとソーシャル関係を築くことができ、これと同時にソーシャルネットワークプラットフォーム上で相応するソーシャルビジネスデータを生成することができる。また、例えば、ユーザは、端末デバイス１１０上で決済アプリケーションプログラムを使用する場合、オンライン決済プラットフォーム上で他のユーザに対して支払ったりお金を受け取ったりする行動を行うことができ、それに基づいて他のユーザと取引関係を築くことができ、これと同時にオンライン決済プラットフォーム上で相応する取引ビジネスデータを生成することができる。

ソーシャルビジネスデータや取引ビジネスデータなどの関連するユーザデータが収集された後、本出願の実施例では、ユーザデータに対応するインタラクション関係に基づいてグラフネットワークモデルを構築し、当該グラフネットワークモデルに対してデータマイニングを行うことによって、インタラクション関係におけるユーザのサービス属性を得ることができる。取引アプリケーションシナリオを例にとると、事業者と消費者の間の取引関係を反映するためのグラフネットワークモデルでは、ノードは事業者または消費者を表し、エッジは２つのノード間に取引関係があることを表す。一般的に、事業者ノードはネットワークの中心に位置することが多く、ノードのコア次数（ｃоｒｅ値）はトポロジー特徴として下流の機械学習タスクに入力することによって、ビジネスモードマイニングタスクを実現し、グラフネットワークモデルにおけるノードが事業者か消費者かを識別することができる。さらに、決済ビジネスのリスク管理シナリオでは、グラフネットワークモードに基づいてデータマイニングを行い、あるノード（またはエッジ）上に異常な取引行動があるかどうかを検出することによって、違法な信用仲介、キャッシュアウト、多重債務、ギャンブルなどの異常な取引行動などの検出タスクを実行することもできる。

ビッグデータの分析及びマイニング効率を向上させるために、本出願の実施例では、クラウドテクノロジーを使用して分散コンピューティングを実行することができる。

クラウドテクノロジー（ｃｌｏｕｄｔｅｃｈｎｏｌｏｇｙ）とは、ワイドエリアネットワーク又はローカルエリアネットワークにハードウェア、ソフトウェア、ネットワークなどの一連のリソースを統合して、データの計算、保存、処理及び共有を実現するホスティング技術を意味する。クラウドテクノロジーは、クラウドコンピューティングビジネスモードが応用するネットワーク技術、情報技術、統合技術、管理プラットフォーム技術、応用技術などに係り、必要に応じて柔軟かつ便利に利用できるリソースプールを構成してもよい。テクノロジーネットワークシステムのバックエンドサービスには、ビデオウェブサイト、画像ウェブサイト及び他のポータルウェブサイトなどの大量のコンピューティング及びストレージリソースが必要である。インターネット産業の急速な発展と応用に伴い、将来的には、各アイテムに独自の識別子を持つ可能性があり、論理処理のためにバックエンドシステムに伝送する必要がある。異なるレベルのデータは個別に処理され、様々な業界データは強力なシステムのサポートを必要とし、クラウドコンピューティングでしか実現できない。

クラウドコンピューティング（ｃｌｏｕｄｃｏｍｐｕｔｉｎｇ）は、大量のコンピュータで構成されるリソースプールにコンピューティングタスクを分散するコンピューティングモードであり、様々なアプリケーションシステムが必要に応じて計算力、記憶空間、および情報サービスを取得できるようにする。リソースを提供するネットワークは「クラウド」と呼ばれる。「クラウド」におけるリソースは使用者から見れば無限に拡張することができ、且つ随時取得し、必要に応じて使用し、随時拡張し、使用に応じて課金することができる。

クラウドコンピューティングの基本機能プロバイダーとして、クラウドコンピューティングリソースプール（略してクラウドプラットフォーム、一般的に、ＩａａＳ（ＩｎｆｒａｓｔｒｕｃｔｕｒｅａｓａＳｅｒｖｉｃｅ）と呼ばれる）プラットフォームを構築し、リソースプールには、クライアントの選択と使用のために多種類の仮想リソースを配置する。クラウドコンピューティングリソースプールには、主にコンピューティングデバイス（オペレーティングシステムを含む仮想マシン）、記憶デバイス、およびネットワークデバイスが含まれる。

論理的機能ごとに分けると、ＩａａＳ層上に（ＰｌａｔｆｏｒｍａｓａＳｅｒｖｉｃｅ）層を配置でき、ＰａａＳ層上にＳａａＳ（ＳｏｆｔｗａｒｅａｓａＳｅｒｖｉｃｅ）層をさらに配置でき、ＳａａＳをＩａａＳ上に直接配置してもよい。ＰａａＳは、データベース、Ｗｅｂコンテナーなどのソフトウェアが実行されるプラットフォームである。ＳａａＳは、Ｗｅｂポータル、マステキスティングデバイスなど様々なビジネスソフトウェアである。一般的に、ＳａａＳとＰａａＳはＩａａＳの上位層である。

ビッグデータ（Ｂｉｇｄａｔａ）とは、従来のソフトウェアツールで一定期間内にキャプチャ、管理及び処理できないデータの集合を指し、より強力な意思特定力、洞察発見力及びプロセス最適化機能を備えた新たな処理モードでなければ、大容量で、高成長率で、多様な情報資産（即ち、ビッグデータ）を処理することができない。クラウド時代の到来と伴い、ビッグデータもますます多くの注目を集めており、ビッグデータは、大量のデータを効果的に処理するために、特殊な技術を必要としている。ビッグデータに適用する技術は、大規模な並行処理データベースと、データマイニングと、分散ファイルシステムと、分散データベースと、クラウド計算プラットフォームと、インターネットと、拡張可能な記憶システムとを含む。

人工知能クラウドサービスは、一般的に、ＡＩａａＳ（ＡＩａｓａＳｅｒｖｉｃｅ、中国語は「ＡＩ即服務」である））とも称される。これは、現在の主流の人工知能プラットフォームのサービス方式であり、具体的には、ＡＩａａＳプラットフォームは、幾つかのタイプの一般的なＡＩサービスを分割し、そして、クラウドで独立した又はパッケージ化されたサービスを提供することができる。このようなサービスモードは、１つのＡ１テーマショッピングモールを開いたことと類似しており、全ての開発者は、ＡＰＩインターフェースによって、プラットフォームにより提供された１つ又は複数の人工知能サービスにアクセスすることができ、一部のベテラン開発者は、プラットフォームにより提供されたＡ１フレームワークとＡＩインフラを用いて独自のクラウド人工知能サービスを配備し、運営維持することもできる。

人工知能（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ、ＡＩ）は、デジタルコンピュータ又はデジタルコンピュータにより制御される機械シミュレーションを利用して、人の知能を延長・拡張し、環境を感知し、知識を取得し利用して最適な結果としての理論、方法、技術、及びアプリケーションシステムを取得する。言い換えると、人工知能はコンピュータ科学の総合技術であり、知能の実質を了解して、人間の知能に類似する方式で反応できる新たなスマートマシンを生成しようとする。人工知能は、各種のスマートマシンの設計原理及び実現方法を研究して、マシンに感知、推理及び決定の機能を具備させる。

人工知能技術は総合学科であり、幅広い分野に関わり、ハードウェア層面の技術もあれば、ソフトウェア層面の技術もある。人工知能の基礎技術は、一般的に、センサ、専用人工知能チップ、クラウドコンピューティング、分布式記憶、ビッグデータ処理技術、操作／インタラクションシステム、メカトロニクスなどの技術を含む。人工知能ソフトウェア技術は、主に、コンピュータビジョン技術、音声処理技術、自然言語処理技術及び機械学習／深層学習などのいくつかの方向を含む。

人工知能技術の研究及び進歩に伴い、人工知能技術は、通常のスマートホーム、スマートウェアラブルデバイス、仮想アシスタント、スマートスピーカー、スマートマーケティング、無人運転、自動運転、ドローン、ロボット、スマート医療、スマートカスタマーサービスなど、複数の分野において研究及び応用が展開されており、技術の発展に伴い、人工知能技術は、より多くの分野に適用され、ますます重要な価値を発揮するだろう。

以下で、具体的な実施形態と結合して、本出願の実施例で提供されるデータ処理方法、データ処理装置、コンピュータ可読媒体、電子機器及びコンピュータプログラム製品などの技術案について詳細に説明する。

図２は、本出願の一実施例におけるデータ処理方法のステップフローチャートを示す。当該データ処理方法は電子機器によって実行されることができ、たとえば、図１に示す端末デバイス１１０上で実行されてもよく、図１に示すサーバ１３０上で実行されてもよく、または端末デバイス１１０およびサーバ１３０によって共同で実行されてもよい。図２に示すように、当該データ処理方法は、主に、以下のステップＳ２１０からステップＳ２４０を含むことができる。

ステップＳ２１０において、インタラクションオブジェクトを表すためのノードと、複数のインタラクションオブジェクト間のインタラクション関係を表すためのエッジとを含む関係グラフネットワークを取得する。

ステップＳ２２０において、複数のコンピューティングデバイスを含むデバイスクラスタによって、関係グラフネットワークに対してコア次数マイニングを行うことで、関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新する。

ステップＳ２３０において、ノードコア次数に基づいて、関係グラフネットワークに対してプルーニング処理を行うことで、関係グラフネットワーク内の一部のノードおよび一部のエッジを除去する。

ステップＳ２４０において、関係グラフネットワークのネットワーク規模が所定のネットワーク圧縮条件を満たす場合、デバイスクラスタに対して圧縮処理を行うことで、デバイスクラスタにおける一部のコンピューティングデバイスを除去する。

本出願の実施例で提供されるデータ処理方法では、インタラクションオブジェクト間のインタラクション関係に関するビジネスデータに基づいて関係グラフネットワークを確立し、関係グラフネットワークの構造特性とスパース性を利用して、デバイスクラスタによって分散コンピューティングを行い、コア次数マイニングを領域別に行うことができる。ノードコア次数の継続的な反復更新につれて、関係グラフネットワークに対してプルーニング処理を行い、反復収束したノード及び対応するエッジを「除去する」ことによって、関係グラフネットワークがノードコア次数の反復更新につれて継続的に圧縮され小さくなり、コンピューティングリソースの消費が削減される。これに基づいて、関係グラフネットワークが適切なサイズに圧縮されると、コア次数マイニングを行うためのデバイスクラスタに対して圧縮処理をさらに行うことができる。こうすれば、大量のコンピューティングリソースを解放するだけでなく、並行計算によるデータ配信などの追加の時間コストを削減し、データ処理効率を向上させることができる。

以下、上記の実施例におけるデータ処理方法の各方法ステップについて詳細に説明する。

インタラクションオブジェクトは、ネットワークサービスプラットフォーム上でサービスインタラクションを行うユーザオブジェクトであり得る。たとえば、商品取引に関するオンライン決済シナリオでは、インタラクションオブジェクトは、オンライン決済を開始する消費者と、決済を受け取る事業者を含んでもよく、インタラクションオブジェクト間のインタラクション関係は、決済イベントに基づいて消費者と事業者との間に確立されたネットワーク取引関係である。

本出願の実施例では、複数のインタラクションオブジェクト間のビジネス取引中に生成されるビジネスデータを収集することで、複数のインタラクションオブジェクトおよびこれらのインタラクションオブジェクト間のインタラクション関係を抽出することができ、それによって、ノード（Ｎоｄｅ）とエッジ（Ｅｄｇｅ）とで構成される関係グラフネットワークを確立することができる。ここで、各ノードは１つのインタラクションオブジェクトを表し、２つのノードを接続するエッジは、２つのノードのそれぞれに対応するインタラクションオブジェクト間のインタラクション関係を表すことができる。

ノードコア次数は、グラフネットワークにおける各ノードの重要度を測るためのパラメータである。本出願の実施例では、グラフネットワークのｋコア分解（ｋ－ｃоｒｅｄｅｃоｍｐоｓｉｔｉоｎ）により定められた各ノードのコアネス（ｃоｒｅｎｅｓｓ）を用いて、ノードのノードコア次数を表すことができる。１つのグラフのｋコア（ｋ－ｃｏｒｅ）とは、次数がｋ以下のノードを繰り返して除去した後に残ったサブグラフを指す。なお、ノードの次数は、当該ノードと直接隣接関係がある隣接ノードの数に等しい。一般的に、ノードの次数は、グラフネットワークのローカルエリアにおける当該ノードの重要度をある程度で反映することができ、ノードのコアネスをマイニングすることによって、当該ノードの重要度をグローバル範囲内でより効果的に測ることができる。

あるノードがｋ－ｃｏｒｅに存在し、（ｋ＋１）－ｃｏｒｅから除去された場合、当該ノードのコアネスはｋである。ｋ－ｃｏｒｅマイニングは、グラフネットワーク内のすべてのノードのコアネスを計算するアルゴリズムである。たとえば、原始のグラフネットワークは０コアのグラフであり、１コアは、グラフネットワークからすべての孤立点を削除したグラフであり、２コアは、グラフネットワークから次数が２よりも小さいすべてのノードを除去し、次に残りのグラフから次数が２よりも小さいノードを除去し、このように除去できなくなるまで繰り返したものであり、３コアは、グラフネットワークから次数が３よりも小さいすべてのノードを除去し、次に残りのグラフから次数が３よりも小さいノードを削除し、このように除去できなくなるまで繰り返したものであり、……あるノードのコアネスは、当該ノードが所在する最大コアの次数として定義される。たとえば、あるノードが最大５コアに存在し、６コアに存在しない場合、当該ノードのコアネスは５となる。

図３は、本出願の一実施例における分散コンピューティングに基づくコア次数マイニング方法のステップフローチャートを示す。図３に示すように、上記の実施例に基づいて、ステップＳ２２０において、複数のコンピューティングデバイスを含むデバイスクラスタによって、関係グラフネットワークに対してコア次数マイニングを行うことで、関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新するステップは、以下のステップＳ３１０からステップＳ３３０を含むことができる。

ステップＳ３１０において、関係グラフネットワークに対して分割処理を行うことで、関係グラフネットワーク内の一部のノード及び一部のエッジからなるパーティショングラフネットワークを得る。

比較的大きなネットワーク規模の関係グラフネットワークを分割処理することによって、比較的小さな規模の複数のパーティショングラフネットワークを得ることができる。本出願の一実施例では、関係グラフネットワークに対して分割処理を実行する方法は、まず、所定の分割数に従って、関係グラフネットワークにおいて複数の分割中心点を選択し、次に、分割中心点をクラスタリング中心とし、関係グラフネットワーク内のすべてのノードに対してクラスタリング処理を実行することによって、各ノードをそれに最も近い分割中心点に割り当て、最後に、ノードのクラスタリング結果に従って、関係グラフネットワークを複数のパーティショングラフネットワークに分割することを含み得る。分割中心点は、関係グラフネットワークにおいて所定のルールに従って選択されたノード、またはランダムに選択されたノードであり得る。

本出願の一実施例では、隣接する２つのパーティショングラフネットワーク間に特定の重複領域があることができ、２つのパーティショングラフネットワークは重複領域において一部のノードおよび一部のエッジを共有することで、一定の計算冗長を生成し、パーティショングラフネットワークごとのコア次数マイニングの信頼性を向上させることができる。

ステップＳ３２０において、パーティショングラフネットワークを、複数のコンピューティングデバイスを含むデバイスクラスタに割り当て、パーティショングラフネットワークに対してコア次数マイニングを行うためのコンピューティングデバイスを決定する。

複数のパーティショングラフネットワークを異なるコンピューティングデバイスにそれぞれ割り当てることは、コンピューティングデバイスから構成されるデバイスクラスタによりコア次数マイニングの分散コンピューティングを実現し、データ処理効率を向上させることができる。

本出願の一実施例では、関係グラフネットワークに対して分割処理を実行する場合、関係グラフネットワークは、デバイスクラスタ内の利用可能なコンピューティングデバイスの数に基づいて、対応する数のパーティショングラフネットワークに分割され得る。たとえば、分散コンピューティングを行うデバイスクラスタがＭ個のコンピューティングデバイスを含むと仮定すると、それに対応して、関係グラフネットワークをＭ個のパーティショングラフネットワークに分割し得る。

本出願の別の実施例では、単一のコンピューティングデバイスのコンピューティング能力に基づいて、関係グラフネットワークを、複数の規模の近いパーティショングラフネットワークに分割し、そして、各パーティショングラフネットワークを、同じ数のコンピューティングデバイスに割り当てることもできる。たとえば、関係グラフネットワークがＮ個のノードを含むと仮定すると、関係グラフネットワークを、Ｎ／Ｔ個のパーティショングラフネットワークに分割し得る。ここで、Ｔは、単一のコンピューティングデバイスのコンピューティング能力に基づいて決定される、処理できる単一のパーティショングラフネットワークのノード数である。関係グラフネットワークの規模が大きく、パーティショングラフネットワークの数が多い場合、各パーティショングラフネットワークに含まれるノードは、当該ノード数にほぼ等しい。関係グラフネットワークの分割が完了したら、デバイスクラスタからＮ／Ｔ個のコンピューティングデバイスを選択し、各コンピューティングデバイスに１つのパーティショングラフネットワークを割り当てる。デバイスクラスタにおけるデバイス数がＮ／Ｔよりも小さいと、コンピューティングデバイスのコンピューティング能力及び動作状態に応じて、複数のパーティショングラフネットワークを一部またはすべてのコンピューティングデバイスに割り当てることができる。

ステップＳ３３０において、割り当てられたコンピューティングデバイスによって、パーティショングラフネットワークに対してコア次数マイニングを行うことで、パーティショングラフネットワーク内の各ノードのノードコア次数を反復的に更新する。

本出願の一実施例では、所定のルールに従って、関係グラフネットワーク内の各ノードのノードコア次数に対して初期化割り当てを行い、次に、各反復ラウンドで各ノードのノードコア次数を反復的に更新することができる。

いくつかの選択可能な実施形態では、ノードの次数に基づいて、ノードコア次数を初期化することができる。具体的には、関係グラフネットワークでは、ノードごとに、当該ノードと隣接関係がある隣接ノードのノード数を取得し、次に、ノードごとに、当該ノードと隣接関係がある隣接ノードの数に応じて、当該ノードのノードコア次数を初期化する。ノードの次数は、１つのノードと隣接関係がある隣接ノードのノード数を表す。他のいくつかの実施形態では、ノード自体の属性と結合して重み情報を決定し、そして、ノードの次数と重み情報の両方に基づいてノードコア次数に対して初期化割り当てを行うことができる。

図４は、本出願の一実施例におけるパーティショングラフネットワークに対してコア次数マイニングを行うステップのフローチャートを示す。図４に示すように、上記の実施例に基づいて、ステップＳ３３０において、パーティショングラフネットワークに対してコア次数マイニングを行うことで、パーティショングラフネットワーク内の各ノードのノードコア次数を反復的に更新するステップは、以下のステップＳ４１０からステップＳ４４０を含むことができる。

ステップＳ４１０において、パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択し、コンピューティングノードと隣接関係がある隣接ノードを決定する。

ノードコア次数に対して初期化割り当てを行った後の１回目の反復ラウンドにおいて、パーティショングラフネットワーク内のすべてのノードをコンピューティングノードとして決定することができる。コンピューティングノードは、現在の反復ラウンドにおけるコア次数マイニングコンピューティングを必要とするノードであり、マイニング結果に従って、各ノードのノードコア次数を更新するかどうかを決定することができる。

コア次数マイニングを行う各反復ラウンドにおいて、前の反復ラウンドのコア次数マイニング結果およびノードコア次数の更新結果に基づいて、現在の反復ラウンドにおけるコア次数マイニングを必要とするコンピューティングノードを決定することができる。これらのコンピューティングノードのうちの一部またはすべてのノードは、現在の反復ラウンドでノードコア次数が更新される。コンピューティングノード以外の他のノードは、現在の反復ラウンドでコア次数マイニングが実行されず、もちろん、ノードコア次数も更新されない。

本出願の実施例における隣接ノードとは、１つのノードと直接接続関係がある他のノードを指す。各ノードのノードコア次数はその隣接ノードからの影響を受けるため、反復が続くと、現在の反復ラウンドでノードコア次数が更新されていないノードは、後続の反復でコンピューティングノードとして選択される可能性もある。

図５は、本出願の一実施例におけるコンピューティングノードを選択するステップフローチャートを示す。図５に示すように、ステップＳ４１０において、パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択するステップは、以下のステップＳ５１０からステップＳ５２０を含むことができる。

ステップＳ５１０において、第１の記憶空間から更新すべきノードのノード識別子を読み取り、更新すべきノードは、前の反復ラウンドにおけるノードコア次数が更新されたアクティブノード、及びアクティブノードと隣接関係がある隣接ノード含む。

関係グラフネットワークを構成するパーティショングラフネットワークは、異なるコンピューティングデバイス上で分散的に処理されるが、互いに隣接する２つのパーティショングラフネットワークのエッジ領域に関係グラフネットワーク内で元々隣接していたノードが含まれる場合があり、かつこれら２つのノードコア次数は引き続き互いに影響し合うことがある。従って、分散コンピューティングの中に、各パーティショングラフネットワーク内のノードコア次数更新の同期性と一貫性を保つために、本出願の実施例では、システムには、関係グラフネットワーク内のすべての更新すべきノードのノード識別子を保存するための第１の記憶空間を割り当てる。

１つの反復ラウンドにおいて、あるパーティショングラフネットワーク内のノードはコア次数マイニング結果に従ってそのノードコア次数が更新されると、そのノードをアクティブノードとしてラベル付けし得る。アクティブノードとアクティブノードの隣接ノードは更新すべきノードとされ、更新すべきノードのノード識別子は第１の記憶空間内に書き込まれる。

ステップＳ５２０において、更新すべきノードのノード識別子に基づいて、パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択する。

１つの反復ラウンドが開始すると、各コンピューティングデバイスは、第１の記憶空間から更新すべきノードのノード識別子を読み取ることができ、さらに読み取られた更新すべきノードのノード識別子に基づいて、当該コンピューティングデバイスに割り当てられたパーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択することができる。

上述のようなステップＳ５１０からステップＳ５２０を実行することによって、第１の記憶空間を通じて、反復ラウンドが完了するたびに関係グラフネットワーク内のすべての更新すべきノードのノード識別子をまとめ、新しい反復ラウンドが開始する際に、すべての更新すべきノードのノード識別子を異なるコンピューティングデバイスに割り当てることができ、これによって、各コンピューティングデバイスは、それらによって保守されるパーティショングラフネットワークからコンピューティングノードを選択することができるようになる。

ステップＳ４２０において、現在の反復ラウンドにおけるコンピューティングノード及びコンピューティングノードの隣接ノードの現在のノードコア次数を取得する。

本出願の実施例では、各反復ラウンドにおけるコア次数マイニング結果に従って、ノードのノードコア次数をリアルタイムで監視および更新することができる。現在の反復ラウンドにおける各ノードの現在のノードコア次数は、前の反復ラウンドで決定された最新のノードコア次数である。

選択可能な実施形態では、本出願の実施例は、システム内に、関係グラフネットワーク内のすべてのノードのノードコア次数を記憶するための第２の記憶空間を割り当てることができる。コンピューティングデバイスは既存のコア次数データに基づいてコア次数マイニングおよび更新を行う必要がある場合、第２の記憶空間から現在の反復ラウンドにおけるコンピューティングノード及びその隣接ノードの現在のノードコア次数を読み取ることができる。

ステップＳ４３０において、隣接ノードの現在のノードコア次数に基づいて、コンピューティングノードの一時ノードコア次数を決定し、当該コンピューティングノードの一時ノードコア次数が当該コンピューティングノードの現在のノードコア次数よりも小さいかどうかを判断し、当該コンピューティングノードの現在のノードコア次数よりも小さいと判断されると、当該コンピューティングノードをアクティブノードとしてラベル付けする。

コアネス（ｃｏｒｅｎｅｓｓ）をコア次数とする例を挙げると、本出願の関連技術では、ｋ－ｃｏｒｅの定義に基づいて、再帰的プルーニング法を使用して関係グラフネットワークに対してコア次数マイニングを行うことができる。具体的には、ｋ＝１から始まり、残りのグラフ内のすべてのノードの次数がｋよりも大きくなるまで、次数がｋ以下のノードとその接続エッジをグラフから連続的に削除することができる。再帰的プルーニングは「タマネギの皮をむく」ように、ｋ回目のラウンドにおける剥かれたすべてのノードのｃｏｒｅ値はｋである。しかしながら、この方法では、グラフネットワーク全体を外から内へ徐々に減縮することでコアネスを算出するため、グラフネットワーク全体のデータを集中計算でシリアルに処理するしかなく、分散並列処理はほとんど適用できない。超大規模（１００億／１０００オーダー）の関係グラフネットワークの場合、計算時間が長すぎたり、計算パフォーマンスが低下したりするなどの問題がある。

この問題を解消するために、本出願の一実施例では、ｈインデックスに基づく反復法を使用してコア次数マイニングを行うことができる。具体的には、本出願の実施例では、隣接ノードの現在のノードコア次数に基づいてコンピューティングノードのｈインデックスを決定し、ｈインデックスをコンピューティングノードの一時ノードコア次数とすることができ、ｈインデックスは、コンピューティングノードのすべての隣接ノードに現在のノードコア次数がｈ以上である最大ｈ個の隣接ノードを含むことを表すために使用される。

たとえば、あるコンピューティングノードは５つの隣接ノードを有し、これらの５つの隣接ノードの現在のノードコア次数はそれぞれ２、３、４、５および６である。ノードコア次数が小さい順から、当該コンピューティングノードの５つの隣接ノードには、現在のノードコア次数が１以上である５つの隣接ノードを含み、現在のノードコア次数が２以上である５つの隣接ノードを含み、現在のノードコア次数が３以上である４つの隣接ノードを含み、現在のノードコア次数が４以上である３つの隣接ノードを含み、現在のノードコア次数が５以上である２つの隣接ノードを含み、現在のノードコア次数が６以上である１つの隣接ノードを含む。このように、当該コンピューティングノードのすべての隣接ノードに、現在のノードコア次数が３以上である最大３つの隣接ノードを含むため、当該コンピューティングノードのｈインデックスは３であり、さらに、当該コンピューティングノードの一時ノードコア次数は３であると決定され得る。

図６は、本出願の一実施例におけるコンピューティングノードのｈインデックスを決定するステップフローチャートを示す。図６に示すように、上記の実施例に基にして、隣接ノードの現在のノードコア次数に基づいて、コンピューティングノードのｈインデックスを決定する方法は、以下のステップＳ６１０からステップＳ６３０を含むことができる。

ステップＳ６１０において、コンピューティングノードのすべての隣接ノードを、現在のノードコア次数の高い順にシーケンシングし、０から各隣接ノードに配列シーケンス番号を割り当てる。

ステップＳ６２０において、各隣接ノードの配列シーケンス番号と現在のノードコア次数をそれぞれに比較し、比較結果に基づいて、配列シーケンス番号が現在のノードコア次数以上である隣接ノードをフィルタリングする。

ステップＳ６３０において、フィルタリングされた隣接ノードのうち、配列シーケンス番号が最も小さい隣接ノードの現在のノードコア次数を、コンピューティングノードのｈインデックスとして決定する。

本出願の実施例では、シーケンシング及びフィルタリングによって、コンピューティングノードのｈインデックスを迅速かつ効率的に決定することができ、特に、コンピューティングノード数の規模が比較的大きい場合に適用する。

ステップＳ４４０において、一時ノードコア次数に基づいて、アクティブノードの現在のノードコア次数を更新し、アクティブノード及びアクティブノードと隣接関係がある隣接ノードを、次の反復ラウンドでコア次数マイニングを行うコンピューティングノードとして決定する。

アクティブノードの一時ノードコア次数が得られた後、当該アクティブノードの一時ノードコア次数と当該アクティブノードの現在のノードコア次数の大きさを比較することができ、一時ノードコア次数が現在のノードコア次数よりも小さいと、現在のノードコア次数を、当該一時ノードコア次数に置き換えることができる。両者が同じであると、現在の反復ラウンドにおいて当該コンピューティングノードを更新する必要がないことを意味する。

本出願の一実施例では、一時ノードコア次数に基づいてアクティブノードの現在のノードコア次数を更新し後、各パーティショングラフネットワークにおけるノードコア次数の更新結果に従って、関係グラフネットワークにおける更新結果全体をまとめることができ、さらに、次の反復ラウンドにおけるコア次数マイニングの基礎を提供することができる。

図７は、本出願の一実施例におけるパーティショングラフネットワークのノードコア次数マイニング結果をまとめるステップフローチャートを示す。図７に示すように、上記の実施例に基づいて、各パーティショングラフネットワークのノードコア次数マイニング結果をまとめるための方法は、以下のステップＳ７１０からステップＳ７３０を含むことができる。

ステップＳ７１０において、更新されたアクティブノードの現在のノードコア次数を第２の記憶空間に書き込み、第２の記憶空間は、関係グラフネットワーク内のすべてのノードのノードコア次数を記憶するために使用される。

ステップＳ７２０において、アクティブノードのノード識別子とアクティブノードの隣接ノードのノード識別子を取得し、取得したノード識別子を第３の記憶空間に書き込み、第３の記憶空間は、次の反復ラウンドでコア次数マイニングを行うコンピューティングノードのノード識別子を記憶するために使用される。

ステップＳ７３０において、現在の反復ラウンドにおけるすべてのパーティショングラフネットワークのコア次数マイニングが完了した後、第１の記憶空間におけるデータを第３の記憶空間におけるデータで上書きし、第３の記憶空間をリセットする。

本出願の実施例では、第３の記憶空間を配置し、各反復ラウンドにおける第３の記憶空間の更新およびリセットに基づいて、パーティショングラフネットワークのノードコア次数マイニング結果をまとめて配信することを実現するため、分散コンピューティングを利用してデータ処理効率を向上させる上で、データ処理の安定性及び信頼性を確保する。

ノードコア次数のマイニングと反復更新に伴い、グラフネットワークのノードとエッジは徐々に収束し安定状態になり、以降の反復でノードコア次数を更新せず、他のノードのコア次数マイニング結果に影響することもない。関係グラフネットワーク及びパーティショングラフネットワークのデータ規模を小さくするために、これらの収束したノードについて、プルーニングで除去することができる。

選択可能な実施形態では、本出願の実施例は、現在の反復ラウンドにおけるアクティブノードの最小コア次数と、前の反復ラウンドにおけるアクティブノードの最小コア次数を取得することができる。現在の反復ラウンドにおけるアクティブノードの最小コア次数が、前の反復ラウンドにおけるアクティブノードの最小コア次数よりも大きいと、前の反復ラウンドにおけるアクティブノードの最小コア次数に基づいて、関係グラフネットワーク内の収束ノードをフィルタリングする。収束ノードは、ノードコア次数が前の反復ラウンドにおけるアクティブノードの最小コア次数以下のノードである。関係グラフネットワークから収束ノード及び収束ノードに接続されるエッジを除去する。

図８は、本出願の一実施例におけるノードコア次数の反復更新に基づいて関係グラフネットワークに対して圧縮プルーニングを行うプロセスの模式図を示す。

圧縮プルーニング方法の鍵は、各反復ラウンドにおけるノードのｃоｒｅ値の変化を分析することである。
は、ｔ回目の反復ラウンドにおけるノードｖのｃоｒｅ値を表し、ｍｉｎＣｏｒｅ^（ｔ）は、ｔ回目の反復ラウンドにおけるｃоｒｅ値が更新されたノードの最小ｃоｒｅ値を表す。

１つのノードのｃоｒｅ値が更新されると、更新されたｃоｒｅ値は元のｃоｒｅ値よりも小さくなる。ノードのｃоｒｅ値が各反復ラウンドの進行につれて漸減するというルールに従って、ｍｉｎＣｏｒｅ^（ｔ）＞ｍｉｎＣｏｒｅ^{（ｔ－１）}の場合、ｃоｒｅ値がｍｉｎＣｏｒｅ^{（ｔ－１）}以下のノードのすべては収束し後で更新されないことを意味する。ｋ－ｃｏｒｅマイニングの特徴によれば、ｃоｒｅ値が小さいノードはｃоｒｅ値が大きいノードの反復に影響を与えないため、各反復ラウンドにおける収束したノードとそれに対応するエッジを「除去」でき、これにより、反復が進むにつれて、グラフネットワークは徐々に圧縮され小さくなることがわかる。

図８に示されるように、初期化されたｃоｒｅ値に基づいて、初期最小ｃоｒｅ値がｍｉｎＣｏｒｅ^（０）＝１であると決定することができる。１回目の反復ラウンドの後、そのうちの一部のノードのｃоｒｅ値が更新され、これらのｃоｒｅ値が更新されたノードの中で、最小ｃоｒｅ値はｍｉｎＣｏｒｅ^（１）＝１である。そして２回目の反復ラウンドの後、そのうち別の一部のノードのｃоｒｅ値が更新され、これらのｃоｒｅ値が更新されたノードの中で、最小ｃоｒｅ値はｍｉｎＣｏｒｅ^（２）＝１である。

ｍｉｎＣｏｒｅ^（２）＞ｍｉｎＣｏｒｅ^（１）であるため、関係グラフネットワークのプルーニング処理をトリガーし、その中のｃоｒｅ値が１であるノードを除去することによって、関係グラフネットワークを圧縮するという目的を達成することができる。

関係グラフネットワークのネットワーク規模が次第に圧縮され小さくなるにつれて、それに対してノードコア次数マイニングを行うのに必要なコンピューティングリソースも徐々に減少し、この場合、反復の進行につれて、一部のコンピューティングリソースを解放して、リソースの消費を削減することができる。

本出願の一実施例では、ネットワーク圧縮条件は、関係グラフネットワーク内のエッジの数が所定の数量閾値よりも小さいことを含むことができる。デバイスクラスタを圧縮処理する方法として、プルーニング処理された関係グラフネットワークのネットワーク規模に応じて、関係グラフネットワークを再分割することで、数が減少したパーティショングラフネットワークを得るとともに、減少後のグラフネットワークの数に応じて、比較的少ないコンピューティングデバイスを呼び出すことができる。

本出願の一実施例では、圧縮された関係グラフネットワークのネットワーク規模が一定の条件を満たす場合、当該関係グラフモデルに対してスタンドアロンコンピューティングを行うためのターゲットデバイスとして、デバイスクラスタから１つのコンピューティングデバイスを選択し、デバイスクラスタから、ターゲットデバイス以外の他のコンピューティングデバイスを除去することができる。これによって、複数のコンピューティングデバイスによる分散コンピューティングモードから単一のコンピューティングデバイスによる集中型コンピューティングモードへの変換を実現することができる。

ここで、添付の図面において特定の順序で本出願の実施例における方法の各ステップを記載したが、当該特定の順序に従ってこれらのステップを実行しなければならないわけでなく、又は示した全てのステップを実行しなければ、期待結果を実現できないわけでもない。付加的又は選択的に、いくつかのステップを省略して、複数のステップを１つのステップに合併して実行してもよいし、及び／又は１つのステップを複数のステップに分解して実行してもよい。

上記の実施例におけるデータ処理方法の説明に基づいて分かるように、本出願の実施例で提供されるデータ処理方法は、圧縮プルーニングの考え方に基づくｋ－ｃоｒｅマイニングの方法に関する。いくつかの選択可能な実施形態では、当該方法はｈインデックスの反復更新に依存して行われることができ、指定された条件を満たす場合にグラフネットワークの圧縮プルーニングを自動的に実行することができる。本出願の実施例で提供されるデータ処理方法のアプリケーションシナリオでの方法の流れは、以下のステップを含むことができる。

（１）関係グラフネットワークＧ（Ｖ，Ｅ）内の各ノードｖに対して、ノード次数を使用してそのｃоｒｅ値を初期化し、
である。その中、ｄｅｇ（ｖ）はノード次数、即ちノードの隣接ノードの個数を表す。最小ノード次数でｍｉｎＣｏｒｅを初期化し、即ち、
である。

（２）ｎｕｍＭｓｇｓパラメータをセットし、各反復ラウンドでｃｏｒｅ値が変化したノードの個数を表し、ｎｕｍＭｓｇｓは０で初期化される。

（３）Ｇ(Ｖ，Ｅ)内のノードごとに、その隣接ノードのｃоｒｅ値に基づいてｈインデックス（即ち、ｈ－ｉｎｄｅ値）を算出し、今回の反復ラウンドにおけるｃоｒｅ値
とし、
である。ここで、Ｎ（ｖ）はノードｖの隣接ノードの集合を表す。
の場合、当該ノードのｃоｒｅ値を更新し、ｎｕｍＭｓｇを１だけ増加させるとともに、今回更新されたノードの最小ｃоｒｅ値ｍｉｎＣｏｒｅ^（ｔ）を算出し、
である。

（４）ｎｕｍＭｓｇｓが０であるかどうかを判断する。ｎｕｍＭｓｇｓが０の場合は、すべてのノードのｃоｒｅ値が更新されなくなり、反復が停止することを表す。そうでない場合は、ステップ（５）を実行する。

（５）ｍｉｎＣｏｒｅ^（ｔ）＞ｍｉｎＣｏｒｅ^{（ｔ－１）}が成立するかどうかを判断し、成立すると、圧縮プルーニングポリシーを実行し、即ち、ｃоｒｅ値がｍｉｎＣｏｒｅ^{（ｔ－１）}以下のノード及び対応するｃоｒｅ値を保存し、これと同時にこれらのノード及び対応する接続エッジを、Ｇ(Ｖ，Ｅ)反復グラフから除去することで、圧縮されたサブグラフＧ’(Ｖ，Ｅ)を得る。Ｇ’(Ｖ，Ｅ)に対してステップ３～５の反復を実行し続ける。ｍｉｎＣｏｒｅ^（ｔ）＞ｍｉｎＣｏｒｅ^{（ｔ－１）}を満足しないと、元のグラフに対してステップ３～５の反復を実行し続ける。

大規模なグラフネットワークのｋ－ｃｏｒｅマイニングの場合、上記の反復ステップでは、最初に分散並列コンピューティングの方式で展開する。圧縮されたサブグラフＧ’(Ｖ，Ｅ)の規模が所定の条件を満たす（たとえば、エッジ数が３０００万未満）場合は、分散コンピューティングからスタンドアロンコンピューティングモードに変換することができる。スタンドアロンコンピューティングモードは、大量のコンピューティングリソースを解放できるだけでなく、並列コンピューティングによるデータ配信などの追加の時間コストを削減することができる。特に、長鎖構造を含むグラフネットワークの場合は、反復の後期で通常、長鎖ノードの更新に焦点が置かれるため、この際、スタンドアロンコンピューティングモードを使用する方がより適切である。

本出願の実施例におけるｋ－ｃｏｒｅマイニングアルゴリズムは、ＳｐａｒｋｏｎＡｎｇｅｌプラットフォーム上で分散コンピューティングを実現することができる。ここで、Ｓｐａｒｋは大規模なデータ処理用に設計された高速で汎用的なコンピューティングエンジンであり、Ａｎｇｅｌはパラメータサーバ（ＰａｒａｍｅｔｅｒＳｅｒｖｅｒ、ＰＳ)の概念に基づいて設計および開発された高性能分散型機械学習プラットフォームである。ＳｐａｒｋｏｎＡｎｇｅｌプラットフォームは、Ａｎｇｅｌの強力なパラメータサーバ機能とＳｐａｒｋの大規模データ処理機能を組み合わせた高性能分散型コンピューティングプラットフォームであり、従来の機械学習、深層学習、および様々なグラフアルゴリズムをサポートする。

図９は、本出願の実施例に係るアプリケーションシナリオでｋ－ｃｏｒｅマイニングを実行する全体的なアーキテクチャおよび処理を示すフローチャートである。図９に示すように、ＳｐａｒｋＤｒｉｖｅｒによって駆動され、各Ｅｘｅｃｕｔоｒは、隣接リストパーティションデータ（つまり、パーティショングラフネットワークＧｒａｐｈＰａｒｔｉоｎのネットワークデータ）を記憶し、ｈ－ｉｎｄｅｘ値を計算し、圧縮プルーニング操作を実行する役割を担う。ＡｎｇｅｌＰａｒａｍｅｔｅｒＳｅｒｖｅｒは、ノードのｃоｒｅ値、即ち、図９におけるｃоｒｅｎｅｓｓベクトルを記憶および更新する役割を担う。ｋ－ｃｏｒｅマイニングのスパース性を利用して反復収束を高速化するために、ＰＳには現在の反復ラウンドと次の反復ラウンドとで計算される必要のあるノードが同時に記憶され、それぞれ、図９におけるＲｅａｄＭｅｓｓａｇｅベクトルとＷｒｉｔｅＭｅｓｓａｇｅベクトルである。今回の反復ラウンドで更新されたノードは、アクティブノードと呼ばれ、ノードのｃоｒｅ値は、その隣接ノードによって決定されるという特性によれば、アクティブノードのコア値の変化は、その隣接ノードのｃоｒｅ値に影響することとなるため、その隣接ノードは次の反復ラウンドで計算される必要がある。そのため、ＷｒｉｔｅＭｅｓｓａｇｅにリアルタイムに格納されるものは、現在の反復ラウンドにおけるアクティブノードの隣接ノードである。

ＥｘｅｃｕｔоｒとＰＳは、反復ラウンドごとに以下のインタラクション方式でデータ処理を実行する。

（１）ＥｘｅｃｕｔоｒでｍｉｎＣｏｒｅ^（ｔ）＝ｍｉｎＣｏｒｅ^{（ｔ－１）}を初期化するとともに、現在の反復ラウンドに対してｃｈａｎｇｅｄＣｏｒｅとｋｅｙｓ２ｃａｌｃの２つのベクトル空間を作成し、それぞれに現在の反復ラウンドにおける更新されたノードと次の反復ラウンドにおける計算される必要のあるノードを記憶する。

（２）ＰＳのＲｅａｄＭｅｓｓａｇｅから、今回の反復ラウンドで計算される必要のあるノード（以下、コンピューティングノードという）を引き出し、１回目の反復であればすべてのノードを引き出す。

（３）ステップ２にて得られたコンピューティングノードに従って、現在の反復ラウンドにおける計算に関するすべてのノード（コンピューティングノードとそれに対応する隣接ノード）を決定し、対応するｃоｒｅ値をＰＳのｃоｒｅｎｅｓｓから引き出す。

（４）コンピューティングノードの各ノードｖについて、その隣接ノードのｃоｒｅ値のｈ－ｉｎｄｅｘ値を算出し、当該ノードの新しいラウンドにおけるｃоｒｅ値
とする。
の場合、
をｃｈａｎｇｅｄＣｏｒｅに書き込むとともに、ノードｖのｃоｒｅ値がｍｉｎＣｏｒｅ^{（ｔ－１）}よりも大きい隣接ノードをｋｅｙｓ２ｃａｌｃに書き込み、ｍｉｎＣｏｒｅ^（ｔ）を決定し、
である。

（５）ＰＳのｃоｒｅｎｅｓｓベクトルをｃｈａｎｇｅｄＣｏｒｅで更新し、ＰＳ上のＷｒｉｔｅＭｅｓｓａｇｅベクトルをｋｅｙｓ２ｃａｌｃで更新する。

最後に、すべてのパーティションデータに対する反復ラウンドが完了したら、ＰＳでＲｅａｄＭｅｓｓａｇｅをＷｒｉｔｅＭｅｓｓａｇｅに置き換え、ＷｒｉｔｅＭｅｓｓａｇｅをリセットし、次のラウンドのＰＳの読み取り・書き込みを用意する。すべてのデータパーティションをまとめてローバルなｍｉｎＣｏｒｅ^（ｔ）を得た後、ｍｉｎＣｏｒｅ^（ｔ）＞ｍｉｎＣｏｒｅ^{（ｔ－１）}が成立するかどうかを判断する。成立する場合は、すべてのデータパーティションに対して上記の圧縮プルーニング方法を実行する。

本出願の実施例で提供される圧縮の考え方に基づくｋ－ｃｏｒｅマイニング方法によれば、超大規模ネットワーク中のｋ－ｃｏｒｅマイニングに起因してリソースコストが高くなったり時間が長く掛かったりする問題を解決することができる。ｋ－ｃｏｒｅマイニングの反復特性に従って、反復の進行につれて一部のコンピューティングリソースを解放することが可能なリアルタイム圧縮法を設計し、分散並列コンピューティングとスタンドアロンコンピューティングの利点を組み合わせてｋ－ｃｏｒｅマイニング性能を向上させることができる。ＳｐａｒｋｏｎＡｎｇｅｌ高性能グラフコンピューティングプラットフォームで圧縮の考え方に基づくｋ－ｃｏｒｅマイニング方法を実現し、数百億／数千億のエッジを持つ超大規模ネットワークをサポートでき、リソースコストが小さくかつパフォーマンスが高くなる。

以下で、本出願の前記実施例におけるデータ処理方法を実行できる本出願の装置の実施例について説明する。図１０は、本出願の実施例で提供されるデータ処理装置の構造ブロック図を模式的に示す。図１０に示すように、データ処理装置１０００は、主に、インタラクションオブジェクトを表すためのノードと、複数のインタラクションオブジェクト間のインタラクション関係を表すためのエッジとを含む関係グラフネットワークを取得するように構成されるグラフネットワーク取得モジュール１０１０と、複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行うことで、前記関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新するように構成されるコア次数マイニングモジュール１０２０と、前記ノードコア次数に基づいて、前記関係グラフネットワークに対してプルーニング処理を行うことで、前記関係グラフネットワーク内の一部のノードおよび一部のエッジを除去するように構成されるネットワークプルーニングモジュール１０３０と、前記関係グラフネットワークのネットワーク規模が所定のネットワーク圧縮条件を満たす場合、前記デバイスクラスタに対して圧縮処理を行うことで、前記デバイスクラスタにおける一部のコンピューティングデバイスを除去するように構成されるクラスタ圧縮モジュール１０４０と、を含むことができる。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記クラスタ圧縮モジュール１０４０は、前記関係グラフモデルに対してスタンドアロンコンピューティングを行うためのターゲットデバイスとして、前記デバイスクラスタから１つのコンピューティングデバイスを選択し、前記デバイスクラスタから、前記ターゲットデバイス以外の他のコンピューティングデバイスを除去するように構成されるスタンドアロン計算ユニットを含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記コア次数マイニングモジュール１０２０は、前記関係グラフネットワークに対して分割処理を行うことで、前記関係グラフネットワーク内の一部のノード及び一部のエッジからなるパーティショングラフネットワークを得るように構成されるネットワーク分割ユニットと、前記パーティショングラフネットワークを複数のコンピューティングデバイスを含むデバイスクラスタに割り当て、前記パーティショングラフネットワークに対してコア次数マイニングを行うためのコンピューティングデバイスを決定するように構成されるネットワーク割当ユニットと、割り当てられたコンピューティングデバイスによって、前記パーティショングラフネットワークに対してコア次数マイニングを行うことで、前記パーティショングラフネットワーク内の各ノードのノードコア次数を反復的に更新するように構成されるパーティションマイニングユニットと、を含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記パーティションマイニングユニットは、前記パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択し、前記コンピューティングノードと隣接関係がある隣接ノードを決定するように構成されるノード選択サブユニットと、現在の反復ラウンドにおける前記コンピューティングノード及び前記隣接ノードの現在のノードコア次数を取得するように構成されるコア次数取得サブユニットと、前記隣接ノードの現在のノードコア次数に基づいて、前記コンピューティングノードの一時ノードコア次数を決定し、前記コンピューティングノードの一時ノードコア次数が前記コンピューティングノードの現在のノードコア次数よりも小さいかどうかを判断し、前記コンピューティングノードの現在のノードコア次数よりも小さいと判断されると、前記コンピューティングノードをアクティブノードとしてラベル付けするように構成されるコア次数計算サブユニットと、前記一時ノードコア次数に基づいて、前記アクティブノードの現在のノードコア次数を更新し、前記アクティブノード及び前記アクティブノードと隣接関係がある隣接ノードを、次の反復ラウンドでコア次数マイニングを行うコンピューティングノードとして決定するように構成されるコア次数更新サブユニットと、を含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記コア次数計算サブユニットは、前記隣接ノードの現在のノードコア次数に基づいて、前記コンピューティングノードのｈインデックスを決定し、前記ｈインデックスを前記コンピューティングノードの一時ノードコア次数とするように構成され、前記ｈインデックスは、前記コンピューティングノードのすべての隣接ノードに現在のノードコア次数がｈ以上である最大ｈ個の隣接ノードを含むことを表すために使用される。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記ｈインデックス計算サブユニットは、前記コンピューティングノードのすべての隣接ノードを、前記現在のノードコア次数の高い順にシーケンシングし、０から前記隣接ノードごとに配列シーケンス番号を割り当てるように構成されるノードシーケンシングサブユニットと、各隣接ノードの配列シーケンス番号と現在のノードコア次数とをそれぞれ比較し、比較結果に基づいて、配列シーケンス番号が現在のノードコア次数以上である隣接ノードをフィルタリングするように構成されるノードフィルタリングサブユニットと、フィルタリングされた隣接ノードのうち、配列シーケンス番号が最も小さい隣接ノードの現在のノードコア次数を、前記コンピューティングノードのｈインデックスとして決定するように構成されるｈインデックス特定サブユニットと、を含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記ノード選択サブユニットは、第１の記憶空間から、更新すべきノードのノード識別子を読み取むように構成され、前記更新すべきノードは、前の反復ラウンドでノードコア次数が更新されたアクティブノードと、前記アクティブノードと隣接関係がある隣接ノードとを含む識別子読み取りユニットと、前記更新すべきノードのノード識別子に基づいて、前記パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択するように構成される識別子選択サブユニットと、を含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記データ処理装置は、更新されたアクティブノードの現在のノードコア次数を第２の記憶空間に書き込むように構成され、前記第２の記憶空間は前記関係グラフネットワーク内のすべてのノードのノードコア次数を記憶するために使用されるコア次数書き込みモジュールと、前記アクティブノードのノード識別子と前記アクティブノードの隣接ノードのノード識別子を取得するとともに、取得された前記ノード識別子を第３の記憶空間に書き込むように構成され、前記第３の記憶空間は次の反復ラウンドでコア次数マイニングを行うコンピューティングノードのノード識別子を記憶するために使用される識別子書き込みモジュールと、現在の反復ラウンドですべてのパーティショングラフネットワークのコア次数マイニングが完了した後、第１の記憶空間におけるデータを前記第３の記憶空間におけるデータで上書きし、前記第３の記憶空間をリセットするように構成される空間上書モジュールと、をさらに含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記コア次数取得サブユニットは、第２の記憶空間から現在の反復ラウンドにおける前記コンピューティングノード及び前記隣接ノードの現在のノードコア次数を読み取るように構成され、前記第２の記憶空間は、前記関係グラフネットワーク内のすべてのノードのノードコア次数を記憶するために使用されるコア次数読み取りユニットを含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記ネットワークプルーニングモジュール１０３０は、現在の反復ラウンドにおけるアクティブノードの最小コア次数と、前の反復ラウンドにおけるアクティブノードの最小コア次数を取得するように構成される最小コア次数取得ユニットと、現在の反復ラウンドにおけるアクティブノードの前記最小コア次数が前の反復ラウンドにおけるアクティブノードの前記最小コア次数よりも大きい場合、前の反復ラウンドにおけるアクティブノードの前記最小コア次数に基づいて、前記関係グラフネットワーク内の収束ノードをフィルタリングするように構成され、前記収束ノードは、ノードコア次数が前の反復ラウンドにおけるアクティブノードの前記最小コア次数以下のノードである収束ノードフィルタリングユニットと、前記関係グラフネットワークから前記収束ノード及び前記収束ノードに接続されるエッジを除去するように構成される収束ノード取除ユニットと、を含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記ネットワーク圧縮条件は、前記関係グラフネットワーク内のエッジの数が所定の数量閾値よりも小さいことを含む。

本出願のいくつかの実施例では、上記の各実施例に基づいて、前記装置は、コア次数初期化モジュールをさらに含み、前記コア次数初期化モジュールは、前記関係グラフネットワークにおいて、ノードごとに、前記ノードと隣接関係がある隣接ノードのノード数を取得し、ノードごとに、前記ノードと隣接関係がある隣接ノードのノード数に基づいて、前記ノードのノードコア次数を初期化するように構成される。

本出願の各実施例で提供される情報処理装置の具体的な詳細について、対応する方法実施例において詳しく記載したため、ここで贅言しない。

図１１は、本出願の実施例による電子機器を実現するためのコンピュータシステムの構造ブロック図を概略的に示す。

ここで、図１１に示す電子機器のコンピュータシステム１１００は、１つの例示に過ぎず、本出願の実施例の機能及び使用範囲に対して何らかの限定もないものである。

図１１に示すように、コンピュータシステム１１００は、読み取り専用メモリ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＲＯＭ）１１０２に記憶されるプログラム、又は記憶部１１０８からランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、ＲＡＭ）１１０３に読み込んだプログラムに基づき、各種の適切な動作及び処理を実行できる中央処理ユニット（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ、ＣＰＵ）１１０１を含む。ＲＡＭ１１０３には、システム操作に必要な様々なプログラム及びデータがさらに記憶される。中央処理ユニット１１０１、読み取り専用メモリ１１０２及びランダムアクセスメモリ１１０３はバス１１０４によって互いに接続される。入力／出力インターフェース（Ｉｎｐｕｔ／Ｏｕｔｐｕｔ、Ｉ／Ｏインターフェース）１１０５もバス１１０４に接続される。

キーボード、マウスなどを含む入力部１１０６、たとえば、陰極線管（ＣａｔｈｏｄｅＲａｙＴｕｂｅ、ＣＲＴ）、液晶ディスプレイ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ、ＬＣＤ）、及びスピーカなどを含む出力部１１０７、ハードディスクなどを含む記憶部１１０８、及び、たとえばＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、ローカルネットワーク）カード、変調復調器などのネットワークインターフェースカードを含む通信部１１０９という構成要素はＩ／Ｏインターフェース１１０５に接続される。通信部１１０９は、インターネットのようなネットワークによって通信処理を実行する。ドライブ１１１０も必要に応じてＩ／Ｏインターフェース１１０５に接続される。取り外し可能な媒体１１１１、たとえば磁気ディスク、光ディスク、光磁気ディスク、半導体メモリなどは、必要に応じてドライブ１１１０に搭載されることで、その中から読み出されたコンピュータプログラムは、必要に応じて記憶部１１０８にインストールされる。

特に、本出願の実施例によれば、各方法のフローチャートに記載のプロセスをコンピュータソフトウェアプログラムとして実現できる。たとえば、本出願の実施例は、コンピュータ可読記憶媒体にキャリアされるコンピュータプログラムが含まれるコンピュータプログラム製品を含み、当該コンピュータプログラムは、フローチャートの方法を実行するためのプログラムコードを含む。このような実施例において、当該コンピュータプログラムは通信部１１０９を介してネットワークからダウンロードされてインストールされ、及び／又は取り外し可能な媒体１１１１からインストールされる。当該コンピュータプログラムは中央処理ユニット１１０１に実行される場合、本出願のシステムに限定される様々な機能を実行する。

ここで、本出願の実施例に示すコンピュータ可読記憶媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体、或いは上記の両者の任意の組み合わせであり得る。コンピュータ可読記憶媒体は、たとえば電気、磁気、光、電磁、赤外線、又は半導体のシステム、装置若しくはデバイス、或いは以上の任意の組み合わせであり得るが、これらに限定されない。コンピュータ可読記憶媒体の例は、１つ又は複数のリード線を有する電気接続、ポータブルコンピュータ磁気ディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読み取り専用メモリ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＥＰＲＯＭ）、フラッシュメモリ、光ファイバ、ポータブルコンパクト磁気ディスク読み取り専用メモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ－ＯｎｌｙＭｅｍｏｒｙ、ＣＤ－ＲＯＭ）、光メモリ、磁気メモリ、又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。本出願において、コンピュータ可読記憶媒体はプログラムを包含するか、又は記憶する任意の有形媒体であってもよく、当該プログラムは、命令実行システム、装置又はデバイスに使用されてもよく、又は結合されて使用されてもよい。また本出願において、コンピュータ可読信号媒体は、ベースバンド、又はキャリアの一部として伝播されるデータ信号を含み、コンピュータ可読プログラムコードがキャリアされる。このように伝播されるデータ信号は、多種の形態を採用でき、電磁信号、光信号又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。コンピュータ可読信号媒体は、さらにコンピュータ可読記憶媒体以外の、任意のコンピュータ可読記憶媒体であってもよく、当該コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスに使用され、又は結合されて使用されるプログラムを送信、伝播又は伝送し得る。コンピュータ可読記憶媒体に含まれるプログラムコードは任意の適切な媒体で伝送されてもよく、無線、有線など、又は上記の任意の適切な組み合わせを含んでもよいが、これらに限定されない。

図面のフローチャート及びブロック図は、本出願の各種実施例によるシステム、方法及びコンピュータプログラム製品の実現可能なシステムアーキテクチャ、機能及び操作を示す。これについて、フローチャート又はブロック図における各ブロックは、１つのモジュール、プログラムセグメント、又はコードの一部を代表でき、上記のモジュール、プログラムセグメント、又はコードの一部は、規定の論理機能を実現するための１つ又は複数の実行可能な命令を含む。ここで、置換としてのいくつかの実現において、ブロックに明記される機能を図面と異なる順序で発生させてもよい。たとえば、連続的に示した２つのブロックは、実際、基本的に並行実行されてもよく、逆の順序に従って実行されてもよく、係る機能に基づき決定される。また、ブロック図又はフローチャートにおける各ブロック、及びブロック図又はフローチャートにおけるブロックの組み合わせは、ハードウェアによる、規定の機能又は操作を実行するための専用システムを利用して実現されてもよいし、専用ハードウェアとコンピュータ命令との組み合わせを利用して実現されてもよい。

ここで、以上の詳細な記載において、動作実行のための装置のいくつかのモジュール又はユニットを言及したが、このような分割は強制的なものではない。実際に、本出願の実施形態によれば、１つのモジュール又はユニットにおいて、以上記載された２つ又は複数のモジュール又はユニットの特徴及び機能を具体化できる。一方、複数のモジュール又はユニットにより具体化するように、以上記載された１つモジュール又はユニットの特徴及び機能を分割してもよい。

以上の実施形態の記載によって、ここに記載の例示的な実施形態はソフトウェアによって実現されてもよく、ソフトウェアに必要なハードウェアを結合する方式で実現されてもよいことは、当業者に理解されやすいだろう。従って、本出願の実施形態による技術案はソフトウェア製品の形態として体現され、当該ソフトウェア製品は非揮発性記憶媒体（ＣＤ－ＲＯＭ、Ｕディスク、モバイルハードディスクなど）、又はネットワークに記憶されて、１台のコンピューティングデバイス（パーソナルコンピュータ、サーバ、タッチ制御端末、又はネットワークデバイスなど）に、本出願の実施形態による方法を実行させるための若干の命令を含むことができる。

当業者は、明細書を考慮しここに開示の発明を実践した後、本出願の他の実施手法を容易に想到し得る。本出願は、本出願の任意の変形、用途又は適切な変更をカバーするように意図され、これらの変形、用途又は適切な変更は、本出願の一般的な原理に従うとともに、本出願が開示していない当分野の公知常識又は慣用の技術手段も含む。

ここで、本出願は、以上に記載され図示された精確な構成に限定されず、その範囲から逸脱しない場合、様々な修正や変更を行うことができることは理解されるべきであろう。本出願の範囲は、添付の請求項のみに限定される。

1000 データ処理装置
1010 グラフネットワーク取得モジュール
1020 コア次数マイニングモジュール
1030 ネットワークプルーニングモジュール
1040 クラスタ圧縮モジュール
1105 Ｉ／Ｏインターフェース
1106 入力部
1107 出力部
1108 記憶部
1109 通信部
1110 ドライバ
1111 取り外し可能な媒体

Claims

電子機器が実行するデータ処理方法であって、
インタラクションオブジェクトを表すためのノードと、複数のインタラクションオブジェクト間のインタラクション関係を表すためのエッジとを含む関係グラフネットワークを取得するステップと、
複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行うことで、前記関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新するステップと、
前記ノードコア次数に基づいて、前記関係グラフネットワークに対してプルーニング処理を行うことで、前記関係グラフネットワーク内の一部のノードおよび一部のエッジを除去するステップと、
前記関係グラフネットワークのネットワーク規模が所定のネットワーク圧縮条件を満たす場合、前記デバイスクラスタに対して圧縮処理を行うことで、前記デバイスクラスタにおける一部のコンピューティングデバイスを除去するステップと、を含む、
データ処理方法。
前記デバイスクラスタに対して圧縮処理を行うことで、前記デバイスクラスタにおける一部のコンピューティングデバイスを除去するステップは、
前記関係グラフモデルに対してスタンドアロンコンピューティングを行うためのターゲットデバイスとして、前記デバイスクラスタから１つのコンピューティングデバイスを選択し、前記デバイスクラスタから前記ターゲットデバイス以外の他のコンピューティングデバイスを除去するステップを含む、
請求項１に記載のデータ処理方法。
複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行うことで、前記関係グラフネットワーク内の各ノードのノードコア次数を反復的に更新するステップは、
前記関係グラフネットワークに対して分割処理を実行することで、前記関係グラフネットワーク内の一部のノード及び一部のエッジからなるパーティショングラフネットワークを得るステップと、
前記パーティショングラフネットワークを、複数のコンピューティングデバイスを含むデバイスクラスタに割り当て、前記パーティショングラフネットワークに対してコア次数マイニングを行うためのコンピューティングデバイスを決定するステップと、
割り当てられたコンピューティングデバイスによって、前記パーティショングラフネットワークに対してコア次数マイニングを行うことで、前記パーティショングラフネットワーク内の各ノードのノードコア次数を反復的に更新するステップと、を含む、
請求項１に記載のデータ処理方法。
前記パーティショングラフネットワークに対してコア次数マイニングを行うことで、前記パーティショングラフネットワーク内の各ノードのノードコア次数を反復的に更新するステップは、
前記パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択し、前記コンピューティングノードと隣接関係がある隣接ノードを決定するステップと、
現在の反復ラウンドにおける前記コンピューティングノード及び前記隣接ノードの現在のノードコア次数を取得するステップと、
前記隣接ノードの現在のノードコア次数に基づいて、前記コンピューティングノードの一時ノードコア次数を決定し、前記コンピューティングノードの一時ノードコア次数が前記コンピューティングノードの現在のノードコア次数よりも小さいかどうかを判断し、前記コンピューティングノードの現在のノードコア次数よりも小さいと判断されると、前記コンピューティングノードをアクティブノードとしてラベル付けするステップと、
前記一時ノードコア次数に基づいて前記アクティブノードの現在のノードコア次数を更新し、前記アクティブノード及び前記アクティブノードと隣接関係がある隣接ノードを、次の反復ラウンドでコア次数マイニングを行うコンピューティングノードとして決定するステップと、を含む、
請求項３に記載のデータ処理方法。
前記隣接ノードの現在のノードコア次数に基づいて、前記コンピューティングノードの一時ノードコア次数を決定するステップは、
前記隣接ノードの現在のノードコア次数に基づいて、前記コンピューティングノードのｈインデックスを決定し、前記ｈインデックスを前記コンピューティングノードの一時ノードコア次数とするステップであって、前記ｈインデックスは、前記コンピューティングノードのすべての隣接ノードに現在のノードコア次数がｈ以上である最大ｈ個の隣接ノードを含むことを表すために使用されるステップを含む、
請求項４に記載のデータ処理方法。
前記隣接ノードの現在のノードコア次数に基づいて、前記コンピューティングノードのｈインデックスを決定するステップは、
前記コンピューティングノードのすべての隣接ノードを、前記現在のノードコア次数の高い順にシーケンシングし、０から前記隣接ノードごとに配列シーケンス番号を割り当てるステップと、
各隣接ノードの配列シーケンス番号と現在のノードコア次数とをそれぞれ比較し、比較結果に基づいて、配列シーケンス番号が現在のノードコア次数以上である隣接ノードをフィルタリングするステップと、
フィルタリングされた隣接ノードのうち、配列シーケンス番号が最も小さい隣接ノードの現在のノードコア次数を、前記コンピューティングノードのｈインデックスとして決定するステップと、を含む、
請求項５に記載のデータ処理方法。
前記パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択するステップは、
第１の記憶空間から更新すべきノードのノード識別子を読み取り、前記更新すべきノードは、前の反復ラウンドでノードコア次数が更新されたアクティブノードと、前記アクティブノードと隣接関係がある隣接ノードとを含むステップと、
前記更新すべきノードのノード識別子に基づいて、前記パーティショングラフネットワークから、現在の反復ラウンドでコア次数マイニングを行うコンピューティングノードを選択するステップと、を含む、
請求項４に記載のデータ処理方法。
前記一時ノードコア次数に基づいて、前記アクティブノードの現在のノードコア次数を更新した後に、
更新された前記アクティブノードの現在のノードコア次数を第２の記憶空間に書き込むステップであって、前記第２の記憶空間は、前記関係グラフネットワーク内のすべてのノードのノードコア次数を記憶するために使用されるステップと、
前記アクティブノードのノード識別子、及び前記アクティブノードの隣接ノードのノード識別子を取得し、取得した前記ノード識別子を第３の記憶空間に書き込むステップであって、前記第３の記憶空間は、次の反復ラウンドでコア次数マイニングを行うコンピューティングノードのノード識別子を記憶するために使用されるステップと、
現在の反復ラウンドですべてのパーティショングラフネットワークのコア次数マイニングが完了した後、第１の記憶空間におけるデータを前記第３の記憶空間におけるデータで上書きし、前記第３の記憶空間をリセットするステップと、をさらに含む、
請求項７に記載のデータ処理方法。
現在の反復ラウンドにおける前記コンピューティングノード及び前記隣接ノードの現在のノードコア次数を取得するステップは、
第２の記憶空間から現在の反復ラウンドにおける前記コンピューティングノード及び前記隣接ノードの現在のノードコア次数を読み取るステップであって、前記第２の記憶空間は、前記関係グラフネットワーク内のすべてのノードのノードコア次数を記憶するために使用されるステップを含む、
請求項４に記載のデータ処理方法。
前記ノードコア次数に基づいて、前記関係グラフネットワークに対してプルーニング処理を行うことで、前記関係グラフネットワーク内の一部のノードおよび一部のエッジを除去するステップは、
現在の反復ラウンドにおけるアクティブノードの最小コア次数、及び前の反復ラウンドにおけるアクティブノードの最小コア次数を取得するステップと、
前記現在の反復ラウンドにおけるアクティブノードの最小コア次数が前記前の反復ラウンドにおけるアクティブノードの最小コア次数よりも大きい場合、前記前の反復ラウンドにおけるアクティブノードの最小コア次数に基づいて、前記関係グラフネットワーク内の収束ノードをフィルタリングするステップであって、前記収束ノードは、ノードコア次数が前記前の反復ラウンドにおけるアクティブノードの最小コア次数以下のノードであるステップと、
前記関係グラフネットワークから、前記収束ノード及び前記収束ノードに接続されるエッジを除去するステップと、を含む、
請求項１に記載のデータ処理方法。
前記ネットワーク圧縮条件は、前記関係グラフネットワーク内のエッジの数が所定の数量閾値よりも小さいことを含む、
請求項１に記載のデータ処理方法。
複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行う前に、
前記関係グラフネットワークにおいて、ノードごとに、前記ノードと隣接関係がある隣接ノードのノード数を取得するステップと、
ノードごとに、前記ノードと隣接関係がある隣接ノードのノード数に基づいて、前記ノードのノードコア次数を初期化するステップと、をさらに含む、
請求項１に記載のデータ処理方法。
インタラクションオブジェクトを表すためのノードと、複数のインタラクションオブジェクト間のインタラクション関係を表すためのエッジとを含む関係グラフネットワークを取得するように構成されるグラフネットワーク取得モジュールと、
複数のコンピューティングデバイスを含むデバイスクラスタによって、前記関係グラフネットワークに対してコア次数マイニングを行うことで、前記関係グラフネットワーク内のすべてのノードまたは一部のノードのノードコア次数を反復的に更新するように構成されるコア次数マイニングモジュールと、
前記ノードコア次数に基づいて、前記関係グラフネットワークに対してプルーニング処理を行うことで、前記関係グラフネットワーク内の一部のノードおよび一部のエッジを除去するように構成されるネットワークプルーニングモジュールと、
前記関係グラフネットワークのネットワーク規模が所定のネットワーク圧縮条件を満たす場合、前記デバイスクラスタに対して圧縮処理を行うことで、前記デバイスクラスタにおける一部のコンピューティングデバイスを除去するように構成されるクラスタ圧縮モジュールと、を含む、
データ処理装置。
前記コンピュータプログラムがプロセッサによって実行されると、請求項１～１２のいずれか１項に記載のデータ処理方法を実現させるコンピュータプログラムを記憶している、
コンピュータ可読媒体。
プロセッサと、
前記プロセッサの実行可能な命令を記憶するためのメモリと、を含み、
前記プロセッサは、前記実行可能な命令を実行することで、請求項１～１２のいずれか１項に記載のデータ処理方法を実行するように構成される、
電子機器。
コンピュータで実行されると、請求項１～１２のいずれか１項に記載のデータ処理方法をコンピュータに実現させる命令を含む、
コンピュータプログラム製品。