JP2023536005A

JP2023536005A - データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体

Info

Publication number: JP2023536005A
Application number: JP2023514827A
Authority: JP
Inventors: モー，ユアンウー; スレービン，ケン; ツァイ，チュンカン; フォン，チエ; ワン，チンロン; シオン，ホイ
Original assignee: エバオテックコーポレーション
Priority date: 2020-11-18
Filing date: 2021-11-03
Publication date: 2023-08-22
Anticipated expiration: 2041-11-03
Also published as: EP4191436A1; US20230273946A1; EP4191436A4; CN114519101A; CN114519101B; WO2022105601A1; JP7423859B2

Abstract

本願はデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に関する。前記データクラスタリング方法は、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含む。本願のデータクラスタリング方法はクラスタデータの効率を高めることができる。【選択図】図２

Description

本願はデータ加工分野に関し、特に、データクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に関する。

例えばコーパスデータに基づいて行われるテキストは、多くの場合、履歴テキストにおける内容を採用することができ、もし新しいテキストを作る度に新たにコーパスを作成して構築すると、効率が非常に低い。又、現にあるコーパスデータは一般的にいずれも比較的長時間の検査を経て、その安定性、正確性が比較的高い。もしテキストを改めて作成すると、おそらく語義上の手抜かりを避けることは困難になる。

通常、履歴テキスト中のコーパスデータは規則によって配列又は組織化されたものであり、かつこれらのコーパスデータの間にも語義属性上の関連が存在しているので、これらのコーパスデータを材料として新しいテキストの要求によって新しいテキストを作成するのは考慮可能な方向である。

本願の実施例はデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体を提供し、データ記憶方法及びシステムは履歴クラスタデータをクラスタ原子にばらばらにして記憶するのに用いられ、データクラスタリング方法及びシステムは、さらにクラスタ原子に基づいて要求に適合した新クラスタデータを作ることによって、クラスタデータの効率を向上させ、データをクラスタリングする時のミス発生確率を低減させることができる。

本願の一態様によれば、データクラスタリング方法であって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含むデータクラスタリング方法を提供する。

本願のいくつかの実施例では、好ましくは、前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である。

本願のいくつかの実施例では、好ましくは、前記探索はさらにコーパスマッチングに基づいて行われる。

本願のいくつかの実施例では、好ましくは、前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される。

本願のいくつかの実施例では、好ましくは、前記探索はグラフ検索方法に基づいて行われる。

本願のいくつかの実施例では、好ましくは、前記クラスタ原子には階層関係が存在し、上位クラスタ原子を前記候補クラスタ原子とすると共に、その下位クラスタ原子も前記候補クラスタ原子とし、及び前記候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることが可能で、前記上位クラスタ原子を前記候補クラスタ原子とする。

本願のいくつかの実施例では、好ましくは、前記クラスタ属性は対象、種類、地区、性別、年齢、期間を含む。

本願のいくつかの実施例では、好ましくは、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。

本願の一態様によれば、データ記憶方法であって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるステップと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、を含むデータ記憶方法を提供する。

本願の他の態様によれば、指令を記憶したコンピュータ読み取り可能な記憶媒体において、前記指令がプロセッサーにより実行された場合、前記プロセッサーに上記のいずれか１つの方法を実行させることを特徴とするコンピュータ読み取り可能な記憶媒体を提供する。

本願の他の態様によれば、データクラスタリングシステムであって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるように配置される解析ユニットと、前記クラスタ原子の性質に基づいて前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置されるプール化ユニットと、前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される探索ユニットと、前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される組立ユニットと、を備えるデータクラスタリングシステムを提供する。

本願の他の態様によれば、データ記憶システムであって、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるように配置される解析ユニットと、前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置される記憶ユニットと、を備えるデータ記憶システムを提供する。

本出願の前記内容ならびにその他の目的および利点は、図面を参照した以下の詳細な説明からより完全に明らかになる。なお、同一又は類似の要素は同一の符号で表される。

図１は本願の一実施例によるデータクラスタリング原理を示す概略図である。図２は本願の一実施例によるデータクラスタリング方法を示す図である。図３は本願の一実施例によるデータ記憶方法を示す図である。図４は本願の一実施例によるデータクラスタリングシステムを示す図である。図５は本願の一実施例によるデータ記憶システムを示す図である。

簡潔化及び説明のために、この文章は主にその例示的な実施例を参照して本願の原理を記述する。しかし、当業者は同一の原理をあらゆる類型のデータクラスタリング方法及びシステム、データ記憶方法及びシステム並びに記憶媒体に等価的に用いることができると共に、その中でこれらの同一又は類似の原理を実施することができ、如何なるこのような変更が本願の要旨と範囲を逸脱しないことを容易に認識する。

本願の一態様によれば、データクラスタリング方法を提供する。図２に示すように、データクラスタリング方法２０は、以下のステップを含む。ステップＳ２０１では、履歴クラスタデータを解析してその各部分の性質をクラスタ原子に分解し、クラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられる。ステップＳ２０２では、クラスタ原子の性質に基づいて、クラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。ステップＳ２０３では、クラスタ原子プールからクラスタ原子を探索して候補クラスタ原子を構成し、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われる。ステップＳ２０４では、候補クラスタ原子を引用してターゲットクラスタデータを形成する。

本願における履歴クラスタデータ、ターゲットクラスタデータは同一種類のアプリケーションに属するデータであり、例えば、両者のいずれも広告宣伝テキスト、法律文書、合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよいし、プログラムコード等の再組織化可能なクラスタ原子のアプリケーションデータであってもよいし、さらに保険財テク契約書のオリジナル製品（製品によって最終的な契約書を形成してもよい）を構築するためのものであってもよい。

本願中の履歴クラスタデータ、ターゲットクラスタデータのいずれもクラスタ原子を含み、文脈において、クラスタ原子は履歴クラスタデータ、ターゲットクラスタデータのうち、さらに細分割することができない最小構成単位であってもよく、さらに細分割することはクラスタリングにおいて無意味であり、又、クラスタ原子は若干の最小構成単位の集合であってもよい。クラスタ原子はそれぞれその性質を有し、これらのそれぞれ性質を有するクラスタ原子は履歴クラスタデータを構成した。例えば、合意文書は条項、標的、責任等を含んでもよい。「条項」部分、「標的」部分、「責任」部分はクラスタ原子としてもよいと共に、これらのクラスタ原子の性質は条項、標的、責任であってもよい。さらに、例えば、プログラムコードにとって、クラスタ原子は特定の機能を実現する関数であってもよく、これらの関数の機能は関数の性質を構成した。

本願のデータクラスタリング方法２０は、ステップＳ２０１で履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解する。図１に示すように、異なる類型の履歴クラスタデータについて異なる解析手段を用いてもよい。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」（例えば、「条項部分」、「標的部分」、「責任部分」等）を含んでいると、「段落記号」に対する索引により履歴クラスタデータへの分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の例示では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義識別によって「段落」の性質を分析でき、又、「段落」の性質は若干の予め設定した「性質」（例えば、「条項部分」、「標的部分」、「責任部分」等）から選ばれる１つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。

図１に示すように、履歴クラスタデータ１０１は３つの「段落」（クラスタ原子）１０１１、１０１２及び１０１３を含み、かつそれぞれ対応の「性質」を有する。履歴クラスタデータ１０２は４つの「段落」（クラスタ原子）１０２１、１０２２、１０２３及び１０２４を含み、かつそれぞれ対応の「性質」を有する。履歴クラスタデータ１０３は５つの「段落」（クラスタ原子）１０３１、１０３２、１０３３、１０３４及び１０３５を含み、かつそれぞれ対応の「性質」を有する。これでわかるように、履歴クラスタデータは構造上において異なる種類と数の「段落」を含み得る。従って、構造化の形（例えば、テーブル）でこれらの履歴クラスタデータに対して索引を作成するのに適合しない。

履歴クラスタデータを分解してなったクラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられる。クラスタ原子は所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承又は関連付けた。クラスタ原子に属性を与えることで、これらのクラスタ原子の関連付け及び再組織化を容易にすることができる。

図１に示すように、履歴クラスタデータ１０１は属性Ａ、Ｂ及びＣを含み、履歴クラスタデータ１０２は属性Ａ、Ｄ及びＥを含み、履歴クラスタデータ１０３は属性Ａ、Ｄ、Ｆ及びＧを含む。履歴クラスタデータ１０１に基づいて区分されたクラスタ原子１０１１、１０１２は属性Ａ、Ｂ及びＣに関連付けられ、クラスタ原子１０１３は属性ＡとＢに関連付けられる。履歴クラスタデータ１０２に基づいて区分されたクラスタ原子１０２１、１０２２及び１０２３は属性ＡとＤに関連付けられ、クラスタ原子１０２４は属性Ａ、Ｄ及びＥに関連付けられる。履歴クラスタデータ１０３に基づいて区分されたクラスタ原子１０３１は属性Ａに関連付けられ、クラスタ原子１０３２は属性ＡとＤに関連付けられ、クラスタ原子１０３３は属性ＡとＦに関連付けられ、クラスタ原子１０３４は属性ＡとＧに関連付けられ、クラスタ原子１０３５は属性Ａ、Ｄ及びＧに関連付けられる。

本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象（標的）、種類、地区、性別、年齢、（効力発生）期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しＡＰＩ等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はこれらに関連付けられてもよく、さらに後続の技術的課題の解決に用いられる。クラスタ原子が継承した、又は関連付けたクラスタ属性は、クラスタ原子を選択する根拠とすることができ、これによって無闇な選択による効率の低下を避けた。

本願のデータクラスタリング方法２０は、ステップＳ２０２でクラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図１に示すように、一つの可能なクラスタ原子プール１０４を示し、本発明の原理を明確に示すために、図中の原子プール１０４はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化する。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶してもよい。

図１を参照し、その中で、クラスタ原子１０１１、１０１２及び１０１３は履歴クラスタデータ１０１からのものであり、又、それらの履歴クラスタデータ１０１における「段落」関係に基づき、クラスタ原子（ノード）１０１１、１０１２及び１０１３は図で示すように原子プール１０４に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称（例えば、１０１１）及び属性（例えば、Ａ、Ｂ、Ｃ）を含む。なお、図中の関係は原子プール１０４中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶すると、異なるデータソース（例えば、１０１、１０２及び１０３）に適応可能になり、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。

本願のデータクラスタリング方法２０は、ステップＳ２０３でクラスタ原子プールからクラスタ原子を探索して候補クラスタ原子を構成する。探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われる。本願のいくつかの実施例では、探索はグラフ検索方法に基づいて行われる。例えば、図１に示すようなターゲットクラスタデータ１０５を構築しようとし、かつターゲットクラスタデータ１０５がターゲットクラスタ属性Ａを有し、ターゲットクラスタデータ１０５を構成する５つの「段落」を４つの階層に分け、それぞれ対応の「性質」甲、乙、丙、丁、戊を有する。この時、原子プール１０４から関連付けられたクラスタ属性がＡであり、「性質」がそれぞれ甲、乙、丙、丁、戊であるクラスタ原子を探索して、要求に適合したクラスタ原子を候補としてリストアップすることができる。なお、ノード「性質」の間には図１に示される関連が存在するため、４つの階層の「段落」に対する探索は一回又は数回（４回未満）の探索過程の中で実現した可能性があり、これもグラフ検索の特性によって決まったものである。

本願のデータクラスタリング方法２０は、ステップＳ２０４で候補クラスタ原子を引用してターゲットクラスタデータを形成する。ステップＳ２０３により探索することで、多種の候補オプションを得る可能性があり、この時、さらに必要に応じてこれらの候補クラスタ原子から適切なオプションを選択してターゲットクラスタデータ１０５を構築することができる。図１に示すように、ターゲットクラスタデータ１０５は５つの「段落」、４つの階層を含み、かつ５つの「段落」がそれぞれ上記の「性質」甲（１０１１）、乙（１０２２）、丙（１０２３）、丁（１０２４）、戊（１０３５）を有する。

本願のいくつかの実施例では、履歴クラスタデータは履歴コーパスクラスタデータであり、クラスタ原子はコーパスクラスタ原子である。例えば、履歴クラスタデータは合意文書等の再組織化可能なクラスタ原子を有するアプリケーションデータであってもよく、クラスタ原子は合意文書の各章節（「段落」ともいう）であり、これらの章節がその他の合意文書を組み立てるのに用いられてもよい。章節は合意文書及び組み立てた合意文書において同一の「性質」（例えば、「条項部分」、「標的部分」、「責任部分」等）を有する。

本願のいくつかの実施例では、探索はさらにコーパスマッチングに基づいて行われる。上記では、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われることをが記載されたが、その他の例示では、コーパスマッチングに基づいてさらに探索結果を制限し、候補クラスタ原子を語義においてさらに探索要求に適合させてもよい。コーパスマッチングはキーワードマッチング、類義語マッチング等を含んでもよい。

本願のいくつかの実施例では、クラスタ原子には階層関係が存在し、その中で、上位クラスタ原子を候補クラスタ原子としたと共に、その下位クラスタ原子も候補クラスタ原子とし、候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼることができ、上位クラスタ原子を候補クラスタ原子とする。さらに図１を参照し、その中で、例えば、上文のいずれか１種の探索ステップによりクラスタ原子１０２２を候補クラスタ原子とすることができ、この時、クラスタ原子１０２２の下位クラスタ原子１０２３と１０２４を候補クラスタ原子とすることもできる。また、クラスタ原子１０２２の上位クラスタ原子１０２１を候補クラスタ原子とすることもできる。この方式で、候補クラスタ原子に対する拡充をさらに実現することができ、その中から要求に最も適合した候補クラスタ原子を規模的に引用してターゲットクラスタデータを構成し易い。

本願のいくつかの実施例では、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。ある例示では、２つ又は複数の候補クラスタ原子が同時に引用されるべきではない。もし引用によるコンフリクトが出てくると、提示情報が生成されてもよい。例えば、クラスタ原子１０１２とクラスタ原子１０２２は性質が同一であり、かついずれも探索条件に適合すると、クラスタ原子１０１２とクラスタ原子１０２２が同時に候補クラスタ原子に入選する。ターゲットクラスタデータ１０５は、１つの特定性質に適合する段落のみを必要とするため、クラスタ原子１０１２、１０２２を同時に引用することができない。ある例示では、もしユーザが同時にクラスタ原子１０１２、１０２２の引用を起こすと、システムはユーザに提示情報を返すことによって引用中のコンフリクトを提示してもよい。以上は「相容れない」の１つの具体的なケースのみを示しており、本発明の保護範囲はこれに限らない。

本願の一態様によれば、データ記憶方法を提供する。図３に示すように、データクラスタリング方法３０は以下のステップを含んでいる。ステップＳ３０１では、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられる。ステップＳ３０２では、クラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールにはクラスタ原子の非構造化関係が含まれる。

ステップＳ３０１では、履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解する。図１に示すように、異なる類型の履歴クラスタデータについて、異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」（例えば、「条項部分」、「標的部分」、「責任部分」等）を含んでいると、「段落記号」に対する索引により履歴クラスタデータに対する分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析でき、又、「段落」の性質は若干の予め設定した「性質」（例えば、「条項部分」、「標的部分」、「責任部分」等）から選ばれる１つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。図１に示すように、履歴クラスタデータ１０１は３つの「段落」（クラスタ原子）１０１１、１０１２及び１０１３を含んでおり、かつそれぞれ対応の「性質」を有する。

履歴クラスタデータを分解してなったクラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられる。クラスタ原子は所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承、又は関連付けた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。

図１に示すように、履歴クラスタデータ１０１は属性Ａ、Ｂ及びＣを備え、履歴クラスタデータ１０１に基づいて区分されたクラスタ原子１０１１、１０１２が属性Ａ、Ｂ及びＣに関連付けられ、クラスタ原子１０１３が属性Ａ及びＢに関連付けられる。

本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象（標的）、種類、地区、性別、年齢、（効力発生）期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しＡＰＩ等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承、又はこれらのクラスタ属性に関連付けられてもよい、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。

ステップＳ３０２では、クラスタ原子の性質に基づいてクラスタ原子プールを形成し、クラスタ原子プールはクラスタ原子の非構造化関係を含む。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図１に示すように、一つの可能なクラスタ原子プール１０４を示し、本発明の原理を明確に示すために、図中の原子プール１０４はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化する。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶してもよい。

本願の他の態様によれば、データクラスタリングシステムを提供する。図４に示すように、データクラスタリングシステム４０は解析ユニット４０１と、プール化ユニット４０２と、探索ユニット４０３と組立ユニット４０４とを備える。その中で、解析ユニット４０１は履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるように配置される。図１に示すように、異なる類型の履歴クラスタデータについて、異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」（例えば、「条項部分」、「標的部分」、「責任部分」等）を含んでいると、「段落記号」に対する索引により履歴クラスタデータに対する分解を実現でき、かつ分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析でき、かつ「段落」の性質は若干の予め設定した「性質」（例えば、「条項部分」、「標的部分」、「責任部分」等）から選ばれる１つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。図１に示すように、履歴クラスタデータ１０１は３つの「段落」（クラスタ原子）１０１１、１０１２及び１０１３を含んでおり、それぞれ対応の「性質」を有する。

解析ユニット４０１は履歴クラスタデータに基づいて分解してなったクラスタ原子をその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けることができる。クラスタ原子が所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承し、又はそれに関連付けられた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。

図１に示すように、履歴クラスタデータ１０１は属性Ａ、Ｂ及びＣを含み、履歴クラスタデータ１０２は属性Ａ、Ｄ及びＥを含み、履歴クラスタデータ１０３は属性Ａ、Ｄ、Ｆ及びＧを含む。解析ユニット４０１は履歴クラスタデータ１０１に基づいて区分されたクラスタ原子１０１１、１０１２を属性Ａ、Ｂ及びＣに関連付け、クラスタ原子１０１３を属性ＡとＢに関連付けることができ、履歴クラスタデータ１０２に基づいて区分されたクラスタ原子１０２１、１０２２及び１０２３を属性ＡとＤに関連付け、クラスタ原子１０２４を属性Ａ、Ｄ及びＥに関連付けることができ、履歴クラスタデータ１０３に基づいて区分されたクラスタ原子１０３１を属性Ａに関連付け、クラスタ原子１０３２を属性ＡとＤに関連付け、クラスタ原子１０３３を属性ＡとＦに関連付け、クラスタ原子１０３４を属性ＡとＧに関連付け、クラスタ原子１０３５を属性Ａ、Ｄ及びＧに関連付けることができる。

本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象（標的）、種類、地区、性別、年齢、（効力発生）期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しＡＰＩ等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はそれに関連付けられてもよい、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した、又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。

プール化ユニット４０２は前記クラスタ原子の性質に基づいてクラスタ原子プールを形成し、前記クラスタ原子プールが前記クラスタ原子の非構造化関係を含むように配置される。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図１に示すように、一つの可能なクラスタ原子プール１０４を示し、本発明の原理を明確に示すために、図中の原子プール１０４はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化するものである。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶することができる。

探索ユニット４０３は前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される。例えば、図１に示すようなターゲットクラスタデータ１０５を構築しようとし、かつターゲットクラスタデータ１０５がターゲットクラスタ属性Ａを有し、ターゲットクラスタデータ１０５を構成する５つの「段落」を４つの階層に分け、かつそれぞれ対応の「性質」甲、乙、丙、丁、戊を有する。この時、原子プール１０４から関連付けられたクラスタ属性がＡであり、「性質」がそれぞれ甲、乙、丙、丁、戊であるクラスタ原子を探索して、要求に適合したクラスタ原子を候補としてリストアップすることができる。なお、ノード「性質」の間には図１に示される関連が存在するため、４つの階層の「段落」に対する探索は一回又は数回（４回未満）の探索過程の中で実現した可能性があり、これもグラフ検索の特性によって決まったものである。

組立ユニット４０４は前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される。探索ユニット４０３により探索することで、多種の候補オプションを得る可能性があり、この時、さらに必要に応じてこれらの候補クラスタ原子から適切なオプションを選択してターゲットクラスタデータ１０５を構築することができる。図１に示すように、ターゲットクラスタデータ１０５は５つの「段落」、４つの階層を含み、かつ５つの「段落」がそれぞれ上記の「性質」甲、乙、丙、丁、戊を有する。

本願のいくつかの実施例では、探索はコーパスマッチングにさらに基づいて行われる。上記では、探索はターゲットクラスタデータのターゲットクラスタ属性、クラスタ原子に関連付けられたクラスタ属性及びクラスタ原子の性質に基づいて行われることが記載されたが、その他の例示では、コーパスマッチングに基づいてさらに探索結果を制限し、候補クラスタ原子を語義においてさらに探索要求に適合させてもよい。コーパスマッチングはキーワードマッチング、類義語マッチング等を含んでもよい。

本願のいくつかの実施例では、もし引用される候補クラスタ原子の間は相容れないと、提示情報が生成される。ある例示では、２つ又は複数の候補クラスタ原子が同時に引用されるべきではない。もし引用によるコンフリクトが出てくると、提示情報が生成されてもよい。例えば、クラスタ原子１０１２とクラスタ原子１０２２性質が同一であり、かついずれも探索条件に適合すると、クラスタ原子１０１２とクラスタ原子１０２２が同時に候補クラスタ原子に入選する。ターゲットクラスタデータ１０５が１つの特定性質に適合する段落のみを必要とするため、クラスタ原子１０１２、１０２２を同時に引用することができない。ある例示では、もしユーザが同時にクラスタ原子１０１２、１０２２の引用を起こすと、システムはユーザに提示情報を返すことによって引用中のコンフリクトを提示してもよい。以上は「相容れない」の１つの具体的なケースのみを示しており、本発明の保護範囲はこれに限らない。

本願の他の態様によれば、データ記憶システムを提供する。図５に示すように、データ記憶システム５０は解析ユニット５０１及び記憶ユニット５０２を備える。その中で、解析ユニット５０１は履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるように配置される。図１に示すように、異なる類型の履歴クラスタデータについて異なる解析手段を用いることができる。例えば、もし履歴クラスタデータ中の各部分のいずれも特定の「段落記号」（例えば、「条項部分」、「標的部分」、「責任部分」等）を含んでいると、「段落記号」対する索引により履歴クラスタデータに対する分解を実現できると共に、分解後の各「段落」の性質は対応する「段落記号」であってもよい。その他の示例では、履歴クラスタデータは所定の「段落記号」を含まないテキストであってもよい。この時、語義の識別により「段落」の性質を分析できると共に、「段落」の性質は若干の予め設定した「性質」（例えば、「条項部分」、「標的部分」、「責任部分」等）から選ばれる１つであってもよい。これらの分解後の「段落」はクラスタ原子を構成する。図１に示すように、履歴クラスタデータ１０１は３つの「段落」（クラスタ原子）１０１１、１０１２及び１０１３を含んでおり、かつそれぞれ対応の「性質」を有する。

履歴クラスタデータを分解してなったクラスタ原子はその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付ける。クラスタ原子が所属する履歴クラスタデータの分解によって得られたので、少なくとも部分的にその所属する履歴クラスタデータの属性を継承し、又はそれに関連付けられた。クラスタ原子に属性を与えることで、これらのクラスタ原子に対する関連付け及び再組織化を容易にすることができる。

図１に示すように、履歴クラスタデータ１０１は属性Ａ、Ｂ及びＣを含み、履歴クラスタデータ１０２は属性Ａ、Ｄ及びＥを含み、履歴クラスタデータ１０３は属性Ａ、Ｄ、Ｆ及びＧを含む。履歴クラスタデータ１０１に基づいて区分されたクラスタ原子１０１１、１０１２が属性Ａ、Ｂ及びＣに関連付けられ、クラスタ原子１０１３が属性ＡとＢに関連付けられる。履歴クラスタデータ１０２に基づいて区分されたクラスタ原子１０２１、１０２２及び１０２３が属性ＡとＤに関連付けられ、クラスタ原子１０２４が属性Ａ、Ｄ及びＥに関連付けられる。履歴クラスタデータ１０３に基づいて区分されたクラスタ原子１０３１が属性Ａに関連付けられ、クラスタ原子１０３２が属性ＡとＤに関連付けられ、クラスタ原子１０３３が属性ＡとＦに関連付けられ、クラスタ原子１０３４が属性ＡとＧに関連付けられ、クラスタ原子１０３５が属性Ａ、Ｄ及びＧに関連付けられる。

本願のいくつかの実施例では、普通の語義テキストにとって、クラスタ属性は言語の種類、文学スタイル等を含んでもよい。普通の契約書にとって、クラスタ属性は対象（標的）、種類、地区、性別、年齢、（効力発生）期間等を含んでもよい。例えば保険財テク契約書を構築するためのオリジナル製品にとって、クラスタ属性は保険の種類、販売時間等をさらに含んでもよい。プログラムコードにとって、クラスタ属性はその解決する課題又は実現する機能であってもよく、例えば、クローラ機能、メールボックス呼び出しＡＰＩ等である。これらのクラスタ属性は履歴クラスタデータが履歴技術課題を解決する際の役割を反映し、分解後のクラスタ原子はこれらのクラスタ属性を継承し、又はそれに関連付けられてもよく、さらに続いてくる技術課題の解決に用いられる。クラスタ原子が継承した又は関連付けたクラスタ属性はクラスタ原子を選択する根拠とすることができ、これによって、無闇な選択による効率の低下を避けた。

記憶ユニット５０２は前記クラスタ原子の性質に基づいてクラスタ原子プールを形成し、前記クラスタ原子プールが前記クラスタ原子の非構造化関係を含むように配置される。本願の例示においてクラスタ原子をプール化することで、高効率の組織化形式を形成し、さらには関連付けられたクラスタ原子の間での呼び出しを容易にする。図１に示すように、一つの可能なクラスタ原子プール１０４を示し、本発明の原理を明確に示すために、図中の原子プール１０４はクラスタ原子間のある可能な構造上の関係のみを示している。履歴クラスタデータのマルチソースのため、通常、非構造化の形でこれらのクラスタ原子を組織化するものである。本願のいくつかの実施例では、グラフデータベースの形で履歴クラスタデータのクラスタ原子を組織化して記憶することができる。

図１を参照し、クラスタ原子１０１１、１０１２及び１０１３は履歴クラスタデータ１０１からのものであり、又、それらの履歴クラスタデータ１０１における「段落」関係に基づき、クラスタ原子（ノード）１０１１、１０１２及び１０１３は図で示すように原子プール１０４に記憶され、ここで、ノード間の各矢印はその間の関係を表し、ノードは名称（例えば、１０１１）及び属性（例えば、Ａ、Ｂ、Ｃ）を含む。なお、図中の関係は原子プール１０４中の一部分である。グラフデータベースの形で分解してなったクラスタ原子を記憶することで、異なるデータソース（例えば、１０１、１０２及び１０３）に適応可能になりし、かつグラフデータベースが従来の関係型データベースに対してデータ間の関係をより処理し易い。

本願の他の態様によれば、指令を記憶したコンピュータ読み取り可能な記憶媒体を提供し、前記指令がプロセッサーにより実行される時、前記プロセッサーに上記のいずれか１つの方法を実行させる。本願で言われるコンピュータ読み取り可能な媒体は各種類型のコンピュータ記憶媒体を含み、汎用又は専用のコンピュータがアクセス可能な如何なる使用可能な媒体であってもよい。例えば、コンピュータ読み取り可能な媒体はＲＡＭ、ＲＯＭ、ＥＰＲＯＭ、Ｅ２ＰＲＯＭ、レジスター、ハードディスク、リムーバブルディスク、ＣＤ－ＲＯＭ又はその他の光ディスクメモリ、磁気ディスクメモリ或いはその他の磁気記憶装置、又は指令やデータ構造形式を有する所望のプログラムコードユニットを携帯・記憶するために用いられて汎用又は特定用途のコンピュータ、又は汎用又は特定用途のプロセッサーでアクセス可能な如何なるその他の一時的又は非一時的な媒体であってもよい。本文に使用されるディスクは、通常、磁性的にデータを複製し、光ディスクはレーザーを用いて光学的にデータを複製する。上記の組合せもコンピュータ読み取り可能な媒体の保護範囲内に含まれるべきである。例示的な記憶媒体をプロセッサーに結合させ、該プロセッサーが該記憶媒体から情報を読み出すようにすること及び該記憶媒体に情報を書き込むようにすることができる。代替案において、記憶媒体はプロセッサーに統合されてもよい。プロセッサーと記憶媒体はＡＳＩＣに常駐してもよい。ＡＳＩＣはユーザ端末に常駐してもよい。代替案において、プロセッサーと記憶媒体はディスクリートコンポーネントとしてユーザ端末に常駐してもよい。

以上はただ本願の具体的な実施形態だけであるが、本願の保護範囲はこれに限らない。当業者は本願に開示された技術範囲に基づいてその他の実行可能な変更または置換を想到することができ、これらの変更または置換のいずれも本願の保護範囲内に含まれる。コンフリクトしない場合には、本願の実施形態及び実施形態中の特徴をさらに互いに組み合わせることも可能である。本願の保護範囲は特許請求の範囲の記載に準ずる。

Claims

データクラスタリング方法であって、
履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるステップと、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、
前記クラスタ原子プールから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるステップと、
前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するステップと、を含むデータクラスタリング方法。
前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である請求項１に記載の方法。
前記探索はさらにコーパスマッチングに基づいて行われる請求項２に記載の方法。
前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される請求項１に記載の方法。
前記探索はグラフ検索方法に基づいて行われる請求項４に記載の方法。
前記クラスタ原子には階層関係が存在し、
上位クラスタ原子を前記候補クラスタ原子とすると共に、その下位クラスタ原子も前記候補クラスタ原子とし、及び
前記候補クラスタ原子としての下位クラスタ原子によりその上位クラスタ原子にさかのぼって、前記上位クラスタ原子を前記候補クラスタ原子とすることが可能である請求項４に記載の方法。
前記クラスタ属性は、対象、種類、地区、性別、年齢、期間を含む請求項１に記載の方法。
もし引用された候補クラスタ原子の間は相容れないと、提示情報が生成される請求項１に記載の方法。
データ記憶方法であって、
履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるステップと、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するステップと、を含むデータ記憶方法。
前記履歴クラスタデータは履歴コーパスクラスタデータであり、前記クラスタ原子はコーパスクラスタ原子である請求項９に記載の方法。
前記クラスタ原子はグラフデータベースの形で組織化されてクラスタ原子プールに記憶される請求項９に記載の方法。
前記クラスタ属性は対象、種類、地区、性別、年齢、期間を含む請求項９に記載の方法。
指令を記憶したコンピュータ読み取り可能な記憶媒体において、前記指令がプロセッサーにより実行された場合、前記プロセッサーに請求項１～１２のいずれか１項に記載の方法を実行させることを特徴とするコンピュータ読み取り可能な記憶媒体。
データクラスタリングシステムであって、
履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるように配置される解析ユニットと、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置されるプール化ユニットと、
前記プール化ユニットから前記クラスタ原子を探索して候補クラスタ原子を構成し、前記探索がターゲットクラスタデータのターゲットクラスタ属性、前記クラスタ原子に関連付けられたクラスタ属性及び前記クラスタ原子の性質に基づいて行われるように配置される探索ユニットと、
前記候補クラスタ原子を引用して前記ターゲットクラスタデータを形成するように配置される組立ユニットと、を備えるデータクラスタリングシステム。
データ記憶システムであって、
履歴クラスタデータを解析してその各部分の性質に基づいてクラスタ原子に分解し、前記クラスタ原子がその所属する履歴クラスタデータのクラスタ属性のうちの少なくとも１つに関連付けられるように配置される解析ユニットと、
前記クラスタ原子の性質に基づいて、前記クラスタ原子の非構造化関係を含むクラスタ原子プールを形成するように配置される記憶ユニットと、を備えるデータ記憶システム。