JP2023536005A - データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体 - Google Patents

データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体 Download PDF

Info

Publication number
JP2023536005A
JP2023536005A JP2023514827A JP2023514827A JP2023536005A JP 2023536005 A JP2023536005 A JP 2023536005A JP 2023514827 A JP2023514827 A JP 2023514827A JP 2023514827 A JP2023514827 A JP 2023514827A JP 2023536005 A JP2023536005 A JP 2023536005A
Authority
JP
Japan
Prior art keywords
cluster
atoms
data
historical
atom
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023514827A
Other languages
English (en)
Other versions
JP7423859B2 (ja
Inventor
モー,ユアンウー
スレービン,ケン
ツァイ,チュンカン
フォン,チエ
ワン,チンロン
シオン,ホイ
Original Assignee
エバオテック コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by エバオテック コーポレーション filed Critical エバオテック コーポレーション
Publication of JP2023536005A publication Critical patent/JP2023536005A/ja
Application granted granted Critical
Publication of JP7423859B2 publication Critical patent/JP7423859B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本願はデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に関する。前記データクラスタリング方法は、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含む。本願のデータクラスタリング方法はクラスタデータの効率を高めることができる。【選択図】 図2

Description

本願はデータ加工分野に関し、特に、データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に関する。
例えばコーパスデータに基づいて行われるテキストは、多くの場合、履歴テキストにおける内容を採用することができ、もし新しいテキストを作る度に新たにコーパスを作成して構築すると、効率が非常に低い。又、現にあるコーパスデータは一般的にいずれも比較的長時間の検査を経て、その安定性、正確性が比較的高い。もしテキストを改めて作成すると、おそらく語義上の手抜かりを避けることは困難になる。
通常、履歴テキスト中のコーパスデータは規則によって配列又は組織化されたものであり、かつこれらのコーパスデータの間にも語義属性上の関連が存在しているので、これらのコーパスデータを材料として新しいテキストの要求によって新しいテキストを作成するのは考慮可能な方向である。
本願の実施例はデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体を提供し、データ記憶方法及びシステムは履歴クラスタデータをクラスタ原子にばらばらにして記憶するのに用いられ、データクラスタリング方法及びシステムは、さらにクラスタ原子に基づいて要求に適合した新クラスタデータを作ることによって、クラスタデータの効率を向上させ、データをクラスタリングする時のミス発生確率を低減させることができる。
本願の一態様によれば、データクラスタリング方法であって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含むデータクラスタリング方法を提供する。
本願のいくつかの実施例では、好ましくは、前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である。
本願のいくつかの実施例では、好ましくは、前記探索はさらにコーパスマッチングに基づいて行われる。
本願のいくつかの実施例では、好ましくは、前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される。
本願のいくつかの実施例では、好ましくは、前記探索はグラフ検索方法に基づいて行われる。
本願のいくつかの実施例では、好ましくは、前記クラスタ原子には階層関係が存在し、上位クラスタ原子を前記候補クラスタ原子とすると共に、その下位クラスタ原子も前記候補クラスタ原子とし、及び前記候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることが可能で、前記上位クラスタ原子を前記候補クラスタ原子とする。
本願のいくつかの実施例では、好ましくは、前記クラスタ属性は対象、種類、地区、性別、年齢、期間を含む。
本願のいくつかの実施例では、好ましくは、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。
本願の一態様によれば、データ記憶方法であって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、を含むデータ記憶方法を提供する。
本願のいくつかの実施例では、好ましくは、前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である。
本願のいくつかの実施例では、好ましくは、前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される。
本願のいくつかの実施例では、好ましくは、前記クラスタ属性は対象、種類、地区、性別、年齢、期間を含む。
本願の他の態様によれば、指令を記憶したコンピュータ読み取り可能な記憶媒体において、前記指令がプロセッサーにより実行された場合、前記プロセッサーに上記のいずれか1つの方法を実行させることを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。
本願の他の態様によれば、データクラスタリングシステムであって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、前記クラスタ原子の性質に基づいて前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置されるプール化ユニットと、前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される探索ユニットと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される組立ユニットと、を備えるデータクラスタリングシステムを提供する。
本願の他の態様によれば、データ記憶システムであって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置される記憶ユニットと、を備えるデータ記憶システムを提供する。
本出願の前記内容ならびにその他の目的および利点は、図面を参照した以下の詳細な説明からより完全に明らかになる。なお、同一又は類似の要素は同一の符号で表される。
図1は本願の一実施例によるデータクラスタリング原理を示す概略図である。 図2は本願の一実施例によるデータクラスタリング方法を示す図である。 図3は本願の一実施例によるデータ記憶方法を示す図である。 図4は本願の一実施例によるデータクラスタリングシステムを示す図である。 図5は本願の一実施例によるデータ記憶システムを示す図である。
簡潔化及び説明のために、この文章は主にその例示的な実施例を参照して本願の原理を記述する。しかし、当業者は同一の原理をあらゆる類型のデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に等価的に用いることができると共に、その中でこれらの同一又は類似の原理を実施することができ、如何なるこのような変更が本願の要旨と範囲を逸脱しないことを容易に認識する。
本願の一態様によれば、データクラスタリング方法を提供する。図2に示すように、データクラスタリング方法20は、以下のステップを含む。ステップS201では、履歴クラスタデータを解析してその各部分の性質をクラスタ原子に分解し、クラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。ステップS202では、クラスタ原子の性質に基づいて、クラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。ステップS203では、クラスタ原子プールからクラスタ原子を探索して候補クラスタ原子を構成し、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われる。ステップS204では、候補クラスタ原子を引用してターゲットクラスタデータを形成する。
本願における履歴クラスタデータ、ターゲットクラスタデータは同一種類のアプリケーションに属するデータであり、例えば、両者のいずれも広告宣伝テキスト、法律文書、合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよいし、プログラムコード等の再組織化可能なクラスタ原子のアプリケーションデータであってもよいし、さらに保険財テク契約書のオリジナル製品(製品によって最終的な契約書を形成してもよい)を構築するためのものであってもよい。
本願中の履歴クラスタデータ、ターゲットクラスタデータのいずれもクラスタ原子を含み、文脈において、クラスタ原子は履歴クラスタデータ、ターゲットクラスタデータのうち、さらに細分割することができない最小構成単位であってもよく、さらに細分割することはクラスタリングにおいて無意味であり、又、クラスタ原子は若干の最小構成単位の集合であってもよい。クラスタ原子はそれぞれその性質を有し、これらのそれぞれ性質を有するクラスタ原子は履歴クラスタデータを構成した。例えば、合意文書は条項、標的、責任等を含んでもよい。「条項」部分、「標的」部分、「責任」部分はクラスタ原子としてもよいと共に、これらのクラスタ原子の性質は条項、標的、責任であってもよい。さらに、例えば、プログラムコードにとって、クラスタ原子は特定の機能を実現する関数であってもよく、これらの関数の機能は関数の性質を構成した。
本願のデータクラスタリング方法20は、ステップS201で履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解する。図1に示すように、異なる類型の履歴クラスタデータについて異なる解析手段を用いてもよい。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」に対する索引により履歴クラスタデータへの分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の例示では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義識別によって「段落」の性質を分析でき、又、「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。
図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含み、かつそれぞれ対応の「性質」を有する。履歴クラスタデータ102は4つの「段落」(クラスタ原子)1021、1022、1023及び1024を含み、かつそれぞれ対応の「性質」を有する。履歴クラスタデータ103は5つの「段落」(クラスタ原子)1031、1032、1033、1034及び1035を含み、かつそれぞれ対応の「性質」を有する。これでわかるように、履歴クラスタデータは構造上において異なる種類と数の「段落」を含み得る。従って、構造化の形(例えば、テーブル)でこれらの履歴クラスタデータに対して索引を作成するのに適合しない。
履歴クラスタデータを分解してなったクラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。クラスタ原子は所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承又は関連付けた。クラスタ原子に属性を与えることで、これらのクラスタ原子の関連付け及び再組織化を容易にすることができる。
図1に示すように、履歴クラスタデータ101は属性A、B及びCを含み、履歴クラスタデータ102は属性A、D及びEを含み、履歴クラスタデータ103は属性A、D、F及びGを含む。履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012は属性A、B及びCに関連付けられ、クラスタ原子1013は属性AとBに関連付けられる。履歴クラスタデータ102に基づいて区分されたクラスタ原子1021、1022及び1023は属性AとDに関連付けられ、クラスタ原子1024は属性A、D及びEに関連付けられる。履歴クラスタデータ103に基づいて区分されたクラスタ原子1031は属性Aに関連付けられ、クラスタ原子1032は属性AとDに関連付けられ、クラスタ原子1033は属性AとFに関連付けられ、クラスタ原子1034は属性AとGに関連付けられ、クラスタ原子1035は属性A、D及びGに関連付けられる。
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はこれらに関連付けられてもよく、さらに後続の技術的課題の解決に用いられる。クラスタ原子が継承した、又は関連付けたクラスタ属性は、クラスタ原子を選択する根拠とすることができ、これによって無闇な選択による効率の低下を避けた。
本願のデータクラスタリング方法20は、ステップS202でクラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化する。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶してもよい。
図1を参照し、その中で、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における 「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶すると、異なるデータソース(例えば、101、102及び103)に適応可能になり、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
本願のデータクラスタリング方法20は、ステップS203でクラスタ原子プールからクラスタ原子を探索して候補クラスタ原子を構成する。探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われる。本願のいくつかの実施例では、探索はグラフ検索方法に基づいて行われる。例えば、図1に示すようなターゲットクラスタデータ105を構築しようとし、かつターゲットクラスタデータ105がターゲットクラスタ属性Aを有し、ターゲットクラスタデータ105を構成する5つの「段落」を4つの階層に分け、それぞれ対応の「性質」甲、乙、丙、丁、戊を有する。この時、原子プール104から関連付けられたクラスタ属性がAであり、「性質」がそれぞれ甲、乙、丙、丁、戊であるクラスタ原子を探索して、要求に適合したクラスタ原子を候補としてリストアップすることができる。なお、ノード「性質」の間には図1に示される関連が存在するため、4つの階層の「段落」に対する探索は一回又は数回(4回未満)の探索過程の中で実現した可能性があり、これもグラフ検索の特性によって決まったものである。
本願のデータクラスタリング方法20は、ステップS204で候補クラスタ原子を引用してターゲットクラスタデータを形成する。ステップS203により探索することで、多種の候補オプションを得る可能性があり、この時、さらに必要に応じてこれらの候補クラスタ原子から適切なオプションを選択してターゲットクラスタデータ105を構築することができる。図1に示すように、ターゲットクラスタデータ105は5つの「段落」、4つの階層を含み、かつ5つの「段落」がそれぞれ上記の「性質」甲(1011)、乙(1022)、丙(1023)、丁(1024)、戊(1035)を有する。
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
本願のいくつかの実施例では、探索はさらにコーパスマッチングに基づいて行われる。上記では、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われることをが記載されたが、その他の例示では、コーパスマッチングに基づいてさらに探索結果を制限し、候補クラスタ原子を語義においてさらに探索要求に適合させてもよい。コーパスマッチングはキーワードマッチング、類義語マッチング等を含んでもよい。
本願のいくつかの実施例では、クラスタ原子には階層関係が存在し、その中で、上位クラスタ原子を候補クラスタ原子としたと共に、その下位クラスタ原子も候補クラスタ原子とし、候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることができ、上位クラスタ原子を候補クラスタ原子とする。さらに図1を参照し、その中で、例えば、上文のいずれか1種の探索ステップによりクラスタ原子1022を候補クラスタ原子とすることができ、この時、クラスタ原子1022の下位クラスタ原子1023と1024を候補クラスタ原子とすることもできる。また、クラスタ原子1022の上位クラスタ原子1021を候補クラスタ原子とすることもできる。この方式で、候補クラスタ原子に対する拡充をさらに実現することができ、その中から要求に最も適合した候補クラスタ原子を規模的に引用してターゲットクラスタデータを構成し易い。
本願のいくつかの実施例では、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。ある例示では、2つ又は複数の候補クラスタ原子が同時に引用されるべきではない。もし引用によるコンフリクトが出てくると、提示情報が生成されてもよい。例えば、クラスタ原子1012とクラスタ原子1022は性質が同一であり、かついずれも探索条件に適合すると、クラスタ原子1012とクラスタ原子1022が同時に候補クラスタ原子に入選する。ターゲットクラスタデータ105は、1つの特定性質に適合する段落のみを必要とするため、クラスタ原子1012、1022を同時に引用することができない。ある例示では、もしユーザが同時にクラスタ原子1012、1022の引用を起こすと、システムはユーザに提示情報を返すことによって引用中のコンフリクトを提示してもよい。以上は「相容れない」の1つの具体的なケースのみを示しており、本発明の保護範囲はこれに限らない。
本願の一態様によれば、データ記憶方法を提供する。図3に示すように、データクラスタリング方法30は以下のステップを含んでいる。ステップS301では、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。ステップS302では、クラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールにはクラスタ原子の非構造化関係が含まれる。
ステップS301では、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解する。図1に示すように、異なる類型の履歴クラスタデータについて、異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」に対する索引により履歴クラスタデータに対する分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析でき、又、「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含んでおり、かつそれぞれ対応の「性質」を有する。
履歴クラスタデータを分解してなったクラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられる。クラスタ原子は所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承、又は関連付けた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。
図1に示すように、履歴クラスタデータ101は属性A、B及びCを備え、履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012が属性A、B及びCに関連付けられ、クラスタ原子1013が属性A及びBに関連付けられる。
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承、又はこれらのクラスタ属性に関連付けられてもよい、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。
ステップS302では、クラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化する。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶してもよい。
図1を参照し、その中で、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶すると、異なるデータソース(例えば、101、102及び103)に適応可能になり、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
本願の他の態様によれば、データクラスタリングシステムを提供する。図4に示すように、データクラスタリングシステム40は解析ユニット401と、プール化ユニット402と、探索ユニット403と組立ユニット404とを備える。その中で、解析ユニット401は履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される。図1に示すように、異なる類型の履歴クラスタデータについて、異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」に対する索引により履歴クラスタデータに対する分解を実現でき、かつ分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析でき、かつ「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含んでおり、それぞれ対応の「性質」を有する。
解析ユニット401は履歴クラスタデータに基づいて分解してなったクラスタ原子をその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けることができる。クラスタ原子が所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承し、又はそれに関連付けられた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。
図1に示すように、履歴クラスタデータ101は属性A、B及びCを含み、履歴クラスタデータ102は属性A、D及びEを含み、履歴クラスタデータ103は属性A、D、F及びGを含む。解析ユニット401は履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012を属性A、B及びCに関連付け、クラスタ原子1013を属性AとBに関連付けることができ、履歴クラスタデータ102に基づいて区分されたクラスタ原子1021、1022及び1023を属性AとDに関連付け、クラスタ原子1024を属性A、D及びEに関連付けることができ、履歴クラスタデータ103に基づいて区分されたクラスタ原子1031を属性Aに関連付け、クラスタ原子1032を属性AとDに関連付け、クラスタ原子1033を属性AとFに関連付け、クラスタ原子1034を属性AとGに関連付け、クラスタ原子1035を属性A、D及びGに関連付けることができる。
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はそれに関連付けられてもよい、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した、又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。
プール化ユニット402は前記クラスタ原子の性質に基づいてクラスタ原子プールを形成し、前記クラスタ原子プールが前記クラスタ原子の非構造化関係を含むように配置される。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化するものである。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶することができる。
図1を参照し、その中で、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶すると、異なるデータソース(例えば、101、102及び103)に適応可能になり、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
探索ユニット403は前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される。例えば、図1に示すようなターゲットクラスタデータ105を構築しようとし、かつターゲットクラスタデータ105がターゲットクラスタ属性Aを有し、ターゲットクラスタデータ105を構成する5つの「段落」を4つの階層に分け、かつそれぞれ対応の「性質」甲、乙、丙、丁、戊を有する。この時、原子プール104から関連付けられたクラスタ属性がAであり、「性質」がそれぞれ甲、乙、丙、丁、戊であるクラスタ原子を探索して、要求に適合したクラスタ原子を候補としてリストアップすることができる。なお、ノード「性質」の間には図1に示される関連が存在するため、4つの階層の「段落」に対する探索は一回又は数回(4回未満)の探索過程の中で実現した可能性があり、これもグラフ検索の特性によって決まったものである。
組立ユニット404は前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される。探索ユニット403により探索することで、多種の候補オプションを得る可能性があり、この時、さらに必要に応じてこれらの候補クラスタ原子から適切なオプションを選択してターゲットクラスタデータ105を構築することができる。図1に示すように、ターゲットクラスタデータ105は5つの「段落」、4つの階層を含み、かつ5つの「段落」がそれぞれ上記の「性質」甲、乙、丙、丁、戊を有する。
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
本願のいくつかの実施例では、探索はコーパスマッチングにさらに基づいて行われる。上記では、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われることが記載されたが、その他の例示では、コーパスマッチングに基づいてさらに探索結果を制限し、候補クラスタ原子を語義においてさらに探索要求に適合させてもよい。コーパスマッチングはキーワードマッチング、類義語マッチング等を含んでもよい。
本願のいくつかの実施例では、クラスタ原子には階層関係が存在し、その中で、上位クラスタ原子を候補クラスタ原子としたと共に、その下位クラスタ原子も候補クラスタ原子とし、候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることができ、上位クラスタ原子を候補クラスタ原子とする。さらに図1を参照し、その中で、例えば、上文のいずれか1種の探索ステップによりクラスタ原子1022を候補クラスタ原子とすることができ、この時、クラスタ原子1022の下位クラスタ原子1023と1024を候補クラスタ原子とすることもできる。また、クラスタ原子1022の上位クラスタ原子1021を候補クラスタ原子とすることもできる。この方式で、候補クラスタ原子に対する拡充をさらに実現することができ、その中から要求に最も適合した候補クラスタ原子を規模的に引用してターゲットクラスタデータを構成し易い。
本願のいくつかの実施例では、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。ある例示では、2つ又は複数の候補クラスタ原子が同時に引用されるべきではない。もし引用によるコンフリクトが出てくると、提示情報が生成されてもよい。例えば、クラスタ原子1012とクラスタ原子1022性質が同一であり、かついずれも探索条件に適合すると、クラスタ原子1012とクラスタ原子1022が同時に候補クラスタ原子に入選する。ターゲットクラスタデータ105が1つの特定性質に適合する段落のみを必要とするため、クラスタ原子1012、1022を同時に引用することができない。ある例示では、もしユーザが同時にクラスタ原子1012、1022の引用を起こすと、システムはユーザに提示情報を返すことによって引用中のコンフリクトを提示してもよい。以上は「相容れない」の1つの具体的なケースのみを示しており、本発明の保護範囲はこれに限らない。
本願の他の態様によれば、データ記憶システムを提供する。図5に示すように、データ記憶システム50は解析ユニット501及び記憶ユニット502を備える。その中で、解析ユニット501は履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される。図1に示すように、異なる類型の履歴クラスタデータについて異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」(例えば、「条項部分」、「標的部分」、「責任部分」等)を含んでいると、「段落記号」対する索引により履歴クラスタデータに対する分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析できると共に、「段落」の性質は若干の予め設定した「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)から選ばれる1つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。図1に示すように、履歴クラスタデータ101は3つの「段落」(クラスタ原子)1011、1012及び1013を含んでおり、かつそれぞれ対応の「性質」を有する。
履歴クラスタデータを分解してなったクラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付ける。クラスタ原子が所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承し、又はそれに関連付けられた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。
図1に示すように、履歴クラスタデータ101は属性A、B及びCを含み、履歴クラスタデータ102は属性A、D及びEを含み、履歴クラスタデータ103は属性A、D、F及びGを含む。履歴クラスタデータ101に基づいて区分されたクラスタ原子1011、1012が属性A、B及びCに関連付けられ、クラスタ原子1013が属性AとBに関連付けられる。履歴クラスタデータ102に基づいて区分されたクラスタ原子1021、1022及び1023が属性AとDに関連付けられ、クラスタ原子1024が属性A、D及びEに関連付けられる。履歴クラスタデータ103に基づいて区分されたクラスタ原子1031が属性Aに関連付けられ、クラスタ原子1032が属性AとDに関連付けられ、クラスタ原子1033が属性AとFに関連付けられ、クラスタ原子1034が属性AとGに関連付けられ、クラスタ原子1035が属性A、D及びGに関連付けられる。
本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象(標的)、種類、地区、性別、年齢、(効力発生)期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しAPI等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はそれに関連付けられてもよく、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。
記憶ユニット502は前記クラスタ原子の性質に基づいてクラスタ原子プールを形成し、前記クラスタ原子プールが前記クラスタ原子の非構造化関係を含むように配置される。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図1に示すように、一つの可能なクラスタ原子プール104を示し、本発明の原理を明確に示すために、図中の原子プール104はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化するものである。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶することができる。
図1を参照し、クラスタ原子1011、1012及び1013は履歴クラスタデータ101からのものであり、又、それらの履歴クラスタデータ101における「段落」関係に基づき、クラスタ原子(ノード)1011、1012及び1013は図で示すように原子プール104に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称(例えば、1011)及び属性(例えば、A、B、C)を含む。なお、図中の関係は原子プール104中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶することで、異なるデータソース(例えば、101、102及び103)に適応可能になりし、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。
本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節(「段落」ともいう)であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」(例えば、「条項部分」、「標的部分」、「責任部分」等)を有する。
本願の他の態様によれば、指令を記憶したコンピュータ読み取り可能な記憶媒体を提供し、前記指令がプロセッサーにより実行される時、前記プロセッサーに上記のいずれか1つの方法を実行させる。本願で言われるコンピュータ読み取り可能な媒体は各種類型のコンピュータ記憶媒体を含み、汎用又は専用のコンピュータがアクセス可能な如何なる使用可能な媒体であってもよい。例えば、コンピュータ読み取り可能な媒体はRAM、ROM、EPROM、E2PROM、レジスター、ハードディスク、リムーバブルディスク、CD-ROM又はその他の光ディスクメモリ、磁気ディスクメモリ或いはその他の磁気記憶装置、又は指令やデータ構造形式を有する所望のプログラムコードユニットを携帯・記憶するために用いられて汎用又は特定用途のコンピュータ、又は汎用又は特定用途のプロセッサーでアクセス可能な如何なるその他の一時的又は非一時的な媒体であってもよい。本文に使用されるディスクは、通常、磁性的にデータを複製し、光ディスクはレーザーを用いて光学的にデータを複製する。上記の組合せもコンピュータ読み取り可能な媒体の保護範囲内に含まれるべきである。例示的な記憶媒体をプロセッサーに結合させ、該プロセッサーが該記憶媒体から情報を読み出すようにすること及び該記憶媒体に情報を書き込むようにすることができる。代替案において、記憶媒体はプロセッサーに統合されてもよい。プロセッサーと記憶媒体はASICに常駐してもよい。ASICはユーザ端末に常駐してもよい。代替案において、プロセッサーと記憶媒体はディスクリートコンポーネントとしてユーザ端末に常駐してもよい。
以上はただ本願の具体的な実施形態だけであるが、本願の保護範囲はこれに限らない。当業者は本願に開示された技術範囲に基づいてその他の実行可能な変更または置換を想到することができ、これらの変更または置換のいずれも本願の保護範囲内に含まれる。コンフリクトしない場合には、本願の実施形態及び実施形態中の特徴をさらに互いに組み合わせることも可能である。本願の保護範囲は特許請求の範囲の記載に準ずる。

Claims (15)

  1. データクラスタリング方法であって、
    履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、
    前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、
    前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、
    前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含むデータクラスタリング方法。
  2. 前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である請求項1に記載の方法。
  3. 前記探索はさらにコーパスマッチングに基づいて行われる請求項2に記載の方法。
  4. 前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される請求項1に記載の方法。
  5. 前記探索はグラフ検索方法に基づいて行われる請求項4に記載の方法。
  6. 前記クラスタ原子には階層関係が存在し、
    上位クラスタ原子を前記候補クラスタ原子とすると共に、その下位クラスタ原子も前記候補クラスタ原子とし、及び
    前記候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼって、前記上位クラスタ原子を前記候補クラスタ原子とすることが可能である請求項4に記載の方法。
  7. 前記クラスタ属性は、対象、種類、地区、性別、年齢、期間を含む請求項1に記載の方法。
  8. もし引用された候補クラスタ原子の間は相容れないと、提示情報が生成される請求項1に記載の方法。
  9. データ記憶方法であって、
    履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるステップと、
    前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、を含むデータ記憶方法。
  10. 前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である請求項9に記載の方法。
  11. 前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される請求項9に記載の方法。
  12. 前記クラスタ属性は対象、種類、地区、性別、年齢、期間を含む請求項9に記載の方法。
  13. 指令を記憶したコンピュータ読み取り可能な記憶媒体において、前記指令がプロセッサーにより実行された場合、前記プロセッサーに請求項1~12のいずれか1項に記載の方法を実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。
  14. データクラスタリングシステムであって、
    履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、
    前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置されるプール化ユニットと、
    前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される探索ユニットと、
    前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される組立ユニットと、を備えるデータクラスタリングシステム。
  15. データ記憶システムであって、
    履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも1つに関連付けられるように配置される解析ユニットと、
    前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置される記憶ユニットと、を備えるデータ記憶システム。
JP2023514827A 2020-11-18 2021-11-03 データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体 Active JP7423859B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011292917.5 2020-11-18
CN202011292917.5A CN114519101B (zh) 2020-11-18 2020-11-18 数据聚类方法和系统、数据存储方法和系统以及存储介质
PCT/CN2021/128330 WO2022105601A1 (zh) 2020-11-18 2021-11-03 数据聚类方法和系统、数据存储方法和系统以及存储介质

Publications (2)

Publication Number Publication Date
JP2023536005A true JP2023536005A (ja) 2023-08-22
JP7423859B2 JP7423859B2 (ja) 2024-01-29

Family

ID=81594648

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023514827A Active JP7423859B2 (ja) 2020-11-18 2021-11-03 データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体

Country Status (5)

Country Link
US (1) US20230273946A1 (ja)
EP (1) EP4191436A4 (ja)
JP (1) JP7423859B2 (ja)
CN (1) CN114519101B (ja)
WO (1) WO2022105601A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117151934B (zh) * 2023-10-30 2024-01-30 国网冀北电力有限公司 一种配电网不停电作业项目多维聚类分析方法及装置

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7305133B2 (en) * 2002-11-01 2007-12-04 Mitsubishi Electric Research Laboratories, Inc. Pattern discovery in video content using association rules on multiple sets of labels
JP4272076B2 (ja) 2004-01-19 2009-06-03 日本電信電話株式会社 情報処理装置および情報処理プログラム
US7979404B2 (en) * 2004-09-17 2011-07-12 Quest Software, Inc. Extracting data changes and storing data history to allow for instantaneous access to and reconstruction of any point-in-time data
US7502765B2 (en) * 2005-12-21 2009-03-10 International Business Machines Corporation Method for organizing semi-structured data into a taxonomy, based on tag-separated clustering
CN101178720B (zh) * 2007-10-23 2010-12-15 浙江大学 一种面向互联网微内容的分布式聚类方法
CN102663089B (zh) * 2012-04-09 2014-11-26 中国科学院软件研究所 一种基于球极映射的非结构化数据可视化方法
CN103425740B (zh) * 2013-07-11 2016-06-22 南京邮电大学 一种面向物联网的基于语义聚类的物资信息检索方法
CN105468605B (zh) 2014-08-25 2019-04-12 济南中林信息科技有限公司 一种实体信息图谱生成方法及装置
CN107077364B (zh) * 2014-09-02 2021-06-04 起元科技有限公司 基于特定数据端口连接的识别使用图组件的自动聚类的基于图的程序规范的编译
CN104699767B (zh) * 2015-02-15 2018-02-02 首都经济贸易大学 一种面向中文语言的大规模本体映射方法
US10311499B1 (en) * 2015-03-23 2019-06-04 Amazon Technologies, Inc. Clustering interactions for user missions
CN105354542B (zh) * 2015-10-27 2018-09-25 杭州电子科技大学 一种拥挤场景下视频异常事件检测方法
US10515125B1 (en) * 2016-07-26 2019-12-24 The Thought & Expression Company LLC Structured text segment indexing techniques
CN106469212B (zh) 2016-09-05 2019-10-15 北京百度网讯科技有限公司 基于人工智能的人机交互方法和装置
CN106886613B (zh) * 2017-05-03 2020-06-26 成都云数未来信息科学有限公司 一种并行化的文本聚类方法
CN110163458A (zh) * 2018-02-23 2019-08-23 徐峰 基于人工智能技术的数据资产管理与监测方法
WO2019171111A1 (en) * 2018-03-04 2019-09-12 Pratik Sharma Application level object provenance service in cloud
CN110895706B (zh) * 2019-11-07 2022-12-27 苏宁云计算有限公司 一种目标聚类数的获取方法、装置及计算机系统
CN110955658B (zh) * 2019-11-19 2022-11-18 杭州趣链科技有限公司 一种基于Java智能合约的数据组织和存储方法
CN111222540A (zh) * 2019-11-22 2020-06-02 江苏省环境监测中心 基于聚类的无监督学习的异常判断二噁英检测方法
CN110659123B (zh) * 2019-11-29 2020-03-20 中国人民解放军国防科技大学 一种基于消息的分布式任务分发调度方法及装置
CN111813905B (zh) * 2020-06-17 2024-05-10 平安科技(深圳)有限公司 语料生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN114519101B (zh) 2023-06-06
CN114519101A (zh) 2022-05-20
EP4191436A1 (en) 2023-06-07
EP4191436A4 (en) 2023-11-29
WO2022105601A1 (zh) 2022-05-27
US20230273946A1 (en) 2023-08-31
JP7423859B2 (ja) 2024-01-29

Similar Documents

Publication Publication Date Title
JP2957702B2 (ja) 関係データベーススキーマを生成する意味オブジェクトモデリングシステム
US9424294B2 (en) Method for facet searching and search suggestions
US9201931B2 (en) Method for obtaining search suggestions from fuzzy score matching and population frequencies
US9158838B2 (en) Determining query return referents for concept types in conceptual graphs
US10394803B2 (en) Method and system for semantic-based queries using word vector representation
CN109840256B (zh) 一种基于业务实体的查询实现方法
US20080222129A1 (en) Inheritance of attribute values in relational database queries
US9064004B2 (en) Extensible surface for consuming information extraction services
US9026529B1 (en) Method and apparatus for determining search result demographics
WO2018097846A1 (en) Edge store designs for graph databases
JP2006309446A (ja) 分類辞書更新装置、分類辞書更新プログラムおよび分類辞書更新方法
EP2463785A1 (en) Database and search-engine query system
Delpeuch A survey of OpenRefine reconciliation services
JP7423859B2 (ja) データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体
Talburt et al. A practical guide to entity resolution with OYSTER
RU2605387C2 (ru) Способ и система для хранения данных графов
CN111475534B (zh) 一种数据查询方法及相关设备
JP2024504556A (ja) データ処理システムによって管理されるデータエンティティにアクセスするためのシステム及び方法
CN108241624A (zh) 一种查询脚本的生成方法及装置
Dorssers et al. Ranking triples using entity links in a large web crawl-the chicory triple scorer at wsdm cup 2017
Chein et al. Sudocad: a knowledge-based system for the author linkage problem
CN116756375B (zh) 一种基于图谱的异构数据的处理系统
RU2572367C1 (ru) Способ поиска информации в предварительно преобразованном структурированном массиве данных
CN112988668B (zh) 基于PostgreSQL的流式文档处理方法、装置以及装置的应用方法
US20210141773A1 (en) Configurable Hyper-Referenced Associative Object Schema

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230228

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230228

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230829

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231127

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240117

R150 Certificate of patent or registration of utility model

Ref document number: 7423859

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150