JP2020166843A - 方法、プログラム、及び演算装置 - Google Patents

方法、プログラム、及び演算装置 Download PDF

Info

Publication number
JP2020166843A
JP2020166843A JP2020034203A JP2020034203A JP2020166843A JP 2020166843 A JP2020166843 A JP 2020166843A JP 2020034203 A JP2020034203 A JP 2020034203A JP 2020034203 A JP2020034203 A JP 2020034203A JP 2020166843 A JP2020166843 A JP 2020166843A
Authority
JP
Japan
Prior art keywords
ranked
list
data
clustered
arithmetic unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020034203A
Other languages
English (en)
Inventor
ジアン ジャオ
Zhiqiang Zhao
ジアン ジャオ
チェン フランシーン
Francine Chen
チェン フランシーン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of JP2020166843A publication Critical patent/JP2020166843A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/904Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5838Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9038Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】検索照会に関連するデータを可視化する方法及びシステムを提供する。【解決手段】本方法は、各データ項目が関連するランク情報を有するデータセットと、データ項目と1又は複数の他のデータ項目との類似性を示す類似性情報とを受信すること、ランク情報に基づいてデータセットをランク付きリストにソートすること、境界パラメータに基づいて、ランク付きリストの連続部分をマスクすること、クラスタ化されたランク付きデータリストを作成するために、類似性情報に基づいて、ランク付きリストのマスクされた連続部分以外の部分を繰り返しクラスタリングすること、及びクラスタ化されたランク付きデータリストの可視表示を生成し表示すること、を含み、可視表示はクラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を含む。【選択図】図1

Description

本開示は、ランク付き項目をソートし、ランク付き結果の可視表示を生成することに関し、より詳細には、効果的なデータ探索のためにランク付き項目を階層的クラスタリングするシステム及び方法に関する。
関連技術のシステムにおけるデータ検索結果表示及びデータ可視化システムでは、データ項目を整理する方法として階層的クラスタリングが用いられることがある。これら関連技術のシステムの階層的クラスタリングではツリー構造を作成することがあり、大きなデータセットを理解し、ナビゲートする必要があるユーザにとって有益なサマリを提供する。より詳細には、関連技術のシステムでは、累進的に類似項目をグループ分けすることでツリー構造が生成されることがあり、葉ノードが元項目を表し、内部ノード(すなわち、クラスタ)が集積項目を表す。関連技術の手法は、集積(ボトムアップ)又は分割(トップダウン)のいずれかによる。この階層を用いて、関連技術システムのユーザは、大きく、マルチスケールになることが多いデータセットの全体を参照し、要約することが可能になり得る。
米国特許第8214764号明細書
FERRAGINA, P. et al., A Personalized Search Engine Based on Web‐Snippet Hierarchical Clustering, International World Wide Web Conference(IW3C2), WWW 2005, May 10-14-2005, Chiba, Japan, 10pgs. ZENG, H-J, et al., Learning to Cluster Web Search Results, In Proceedings of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, July 25-29, 2004, Sheffield, South Yorkshire, UK, 8pgs. IBM Knowledge Center, Cluster Results,[online]retrieved 11/20/2018, 2pgs, URL: https://www.ibm.com/support/knowledgecenter/en/SS8NLW_9.0.0/com.ibm.swg.im.infosphere.dataexpl.engine.doc/c_functional-overview-clustering.html
しかしながら、関連技術の階層的クラスタリングアルゴリズムはデータ項目を区別しないため、検索結果などのシーケンシャルデータ又はランク付きデータに階層的クラスタリングが使用される際に問題が発生する。例えば、多くの実場面で、データ項目が一定の順序又はランクで表示されることがある。例えば、特定の順序又はランクで提示されるデータに関わる実場面では、検索結果、再生推奨メディアの一覧、及び、重み又は可能性の不随したアルゴリズムの出力(例えば、テキストコーパス中のトピックキーワード)などが含まれることがある。ところが、関連技術の階層的クラスタリングアルゴリズムでは、大抵の場合にすべてのデータ項目が順不同で同等に扱われる(例えば、ランクや順序は考慮されない)。
関連技術の階層的クラスタリングアルゴリズムはユーザがデータセットを概観するためには役立つが、ランク付けされた大きなデータの場合には、ランク情報を考慮しないことで探索の有効性が低下することがある。例えば、グルーピング基準によっては、ある重みの大きい項目がツリーの非常に深い階層に配置されることがあり、ユーザが単純にその階層の前にツリーの展開を止めてしまう、或いは、クラスタ化されたツリー中に事実上(effectively)埋もれているためにその項目を見落とすことにより、データセットを閲覧するユーザがこの重要な(例えばランクの高い)項目を見逃すことがある。関連技術のシステムの一部では、ビジュアルインタフェース上に最も重みの大きい項目を代表例として選択することでこの問題に対応することがあるが、ランクの高い項目が非常に深いレベルにある場合に多くの内部ノードは同じ又は類似していることがあるため、このような関連技術のシステムはこの問題を解決しないことがある。
本開示の技術は、ランク付き項目をソートし、ランク付き結果の可視表示を生成する方法、プログラム、及び演算装置を提供することを目的とする。
本願の側面は、検索照会に関連付けられたデータを可視化する方法を含むことがある。本方法は、各データ項目が関連するランク情報を有するデータセットと、データ項目と1又は複数の他のデータ項目との類似性を示す類似性情報とを受信すること、ランク情報に基づいてデータセットをランク付きリストにソートすること、境界パラメータに基づいて、ランク付きリストの連続部分(contiguous portion)をマスクすること、クラスタ化されたランク付きデータリストを作成するために、類似性情報に基づいて、ランク付きリストのマスクされた連続部分以外の部分を繰り返しクラスタリングすること、及びクラスタ化されたランク付きデータリストの可視表示を生成し表示すること、を含み、可視表示はクラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を含む。
本願の更なる側面は、検索照会に関連するデータを可視化する方法を演算装置に実行させる命令がコード化された、コンピュータ読み取り可能な非一時的媒体であって、本方法は、各データ項目が関連するランク情報を有するデータセットと、データ項目と1又は複数の他のデータ項目との類似性を示す類似性情報と、を受信すること、ランク情報に基づいてデータセットをランク付きリストにソートすること、境界パラメータに基づいて、ランク付きリストの連続部分をマスクすること、クラスタ化されたランク付きデータリストを作成するために、類似性情報に基づいて、ランク付きリストのマスクされた連続部分以外の部分を繰り返しクラスタリングすること、及びクラスタ化されたランク付きデータリストの可視表示を生成し表示すること、を含み、可視表示はクラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を含む。
本願の更なる側面は、データ項目のデータベースを記憶するよう構成されたメモリ記憶装置と、前記メモリ記憶装置に通信可能に接続されたプロセッサとを備える演算装置とを含むことがある。プロセッサは検索照会を受信し、検索照会に関連付けられたデータを可視化する方法を実行するよう構成されることがある。本方法は、各データ項目が関連するランク情報を有するデータセットと、データ項目と1又は複数の他のデータ項目との類似性を示す類似性情報とを受信すること、ランク情報に基づいてデータセットをランク付きリストにソートすること、境界パラメータに基づいて、ランク付きリストの連続部分をマスクすること、クラスタ化されたランク付きデータリストを作成するために、類似性情報に基づいて、ランク付きリストのマスクされた連続部分以外の部分を繰り返しクラスタリングすること、及びクラスタ化されたランク付きデータリストの可視表示を生成し表示すること、を含み、可視表示はクラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を含む。
本願の更なる側面は、データ項目のデータベースを記憶する手段と、検索照会を受信する手段と、各データ項目が関連するランク情報を有するデータセットと、データ項目と1又は複数の他のデータ項目との類似性を示す類似性情報とを受信する手段と、ランク情報に基づいてデータセットをランク付きリストにソートする手段と、境界パラメータに基づいて、ランク付きリストの連続部分をマスクする手段と、クラスタ化されたランク付きデータリストを作成するために、類似性情報に基づいて、ランク付きリストのマスクされた連続部分以外の部分を繰り返しクラスタリングする手段と、及びクラスタ化されたランク付きデータリストの可視表示を生成し表示する手段を含む演算装置を含むことがあり、可視表示はクラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を含む。
図1は、本願の実施例に係わる、ランク付き項目の階層的クラスタリング及びランク付き項目の可視表示をエクスポートする工程のフローチャートを示す。 図2は、比較例に係わる階層的凝集型クラスタリング(HAC)アルゴリズムによって生成されたデータツリー(data tree)を示す。 図3は、本願の実施例に係わる、ランク付き階層的凝集型クラスタリング(RHAC)によって生成されたデータツリーを示す。 図4は、関連技術を実証する比較例に係わる図2のデータツリーにおいて、上位N個の文書にアクセスする際の平均パス長のプロットを示す。 図5は、本願の実施例に係わる図3のデータツリーにおいて、上位N個の文書にアクセスする際の平均パス長のプロットを示す。 図6は、実施例に係わる工程を用いて生成されたユーザインタフェースを表す。 図7は、本願の他の実施例に係わる、ランク付き項目の階層的クラスタリング及びランク付き項目の可視表示をエクスポートする工程のフローチャートを示す。 図8は、本願の一部の実施例で用いられるのに適した、例示的コンピュータデバイスを用いた例示的コンピューティング環境を示す。
以下の詳細の説明では、本願の図面及び実施例の更なる詳細を提供する。図面間で重複する要素の参照番号及び説明は明確化のために省略される。説明中で使用される用語は一例として提供され、限定を意図するものではない。例えば、「自動」という用語が使用された場合、本願を実施する各当業者が所望に合わせて実施することにより、完全な自動、或いは、実施例の一定の側面についてユーザ又は操作者による制御が行われる半自動に係わることがある。さらに、本明細書及び請求項中で「第1」「第2」「第3」など順序を表す用語はラベリングの目的でのみ使用されることがあり、記載された動作や項目が記載された順序で実施されることに限定されない。動作又は項目は、本願の範囲内から逸脱することなく異なる順序に並べられることがあり、並行して、或いは、動的に実施されることがある。
本願において、コンピュータ読み取り可能な媒体という用語は、ローカルの記憶装置、クラウドベースの記憶装置、遠隔サーバ、又は、当業者には自明であろうその他の記憶装置を含むことがある。
上述したように、関連技術の階層的クラスタリングアルゴリズムはデータ項目を区別しないため、検索結果などのシーケンシャルデータ又はランク付きデータに階層的クラスタリングが使用される際に問題が発生する可能性がある。
特に、関連技術の階層的クラスタリングアルゴリズムでは、大抵の場合にすべてのデータ項目が順不同で同等に扱われる(例えば、ランクや順序は考慮されない)。このような関連技術の階層的クラスタリングアルゴリズムはユーザがデータセットを概観するためには役立つかもしれないが、ランク付けされた大きなデータの場合には、ランク情報を考慮しないことで探索の有効性が低下することがある。例えば、グルーピング基準によっては、ある重みの大きい項目がツリーの非常に深いレベルに位置することがあり、ユーザが単純にそのレベルの前にツリーの展開を止めてしまう、或いは、クラスタ化されたツリー中に事実上埋もれているためにその項目を見落とすことにより、データセットを閲覧するユーザがこの重要な(例えばランクの高い)項目を見逃すことがある。
このような状況に対処するため、本願の実施例は、構造化データを編成する際、類似性とランクの両方を考慮したデータ項目の階層的クラスタリングのためにランク付き階層的凝集型クラスタリング(RHAC)と呼ばれる新規の方法を含むことがある。これらの実施例では、ランクの高い項目又は重みの大きい項目を階層中でより上位に配置することが可能になるのと同時に、類似性による項目のクラスタを維持する。例えば、実施例では、多くの類似項目を乖離させることなく(例えば、重み付き項目に関連付けられたクラスタの統一性は維持され得る)、階層中のランクの高い又は重みの大きい項目が上位に配置され得る。この工程は、ユーザがツリー構造に従って、例えばツリー視覚化技術などでデータセットを探索する場合、より重要な項目をより早く見つけることを可能にすることがある。
本願の実施例は検索結果の分析やソートにも用いられることがあり、これによってメディアを準備してユーザに表示し、文書の電子ライブラリ中で文書を編成する。
図1は、本願の実施例に係わる、ランク付き項目の階層的クラスタリング及びランク付き項目の可視表示をエクスポートする方法100のフローチャートを示す。後述するように、本願の一部の実施形態の一側面は、初めに最も高いランクの項目の一部をクラスタリングから除外し、除外されなかった項目で最も関連性が高い項目を繰り返しクラスタリングすることに関連することがある。各繰り返しで、除外された項目の一定割合が再度クラスタリング対象に入れられる。これによって、階層的クラスタリングの際に、高いランクの項目がマージ対象として考慮され、階層中でより高い階層に配置されることがある。この工程は図8に示すコンピューティング環境800に存在する演算装置805などの演算装置によって実施されることがある。
図1に示されるように、方法100は、105でシステムがランク付きデータ情報を含むデータセット受信するか、識別することで開始する。ランク付きデータ情報は、インターネット又はウェブ検索エンジンによって生成された検索結果、メディア視聴プラットフォーム(例えば、ストリーミングメディアサービス、画像ライブラリ、又は他のメディア視聴プラットフォーム)に生成された又は関連するメディアファイル(例えば、歌、画像、動画)、電子ライブラリ又は文書保存プラットフォームに記憶された文書又は論文、及び、予測アルゴリズム(認識アルゴリズムなど)の出力に関連した予測同定又は可能性であってもよい。
データセットの受信後、110で、データセットの各項目に関連付けられたランク情報に基づいて、データ項目はリストにソートされる。例えば、ユーザが提供した検索要求との関連性に基づいて、データセット中のすべてのデータ項目にランクが付けられることがある。検索要求と最も関連性が高いと決定された項目に最も高いランクが付けられ、検索要求に最も関連が低いと決定された項目に最も低いランクが付けられる。本明細書中では説明のためリストはLで示されることがあり、|L|=Nである。
ランクに基づいてデータ項目がリストにソートされた後、初回の115で、システムはリストの最初(例えば、リストの先頭又は最もランクの高い項目)から、ランク付き項目を、更なる分析からマスクするか、除外することがある。マスクされた又は除外されたランク付き項目は、リスト先頭の特定された境界指標の中に含まれることがある。つまり、システムはリストLの最初(先頭)から閾値tによって定められた境界指標bまでの項目をマスクすることがある。ここで、b=|t・N|、0<t<1である。
一部の実施例では、境界指標はシステム設計者、システム管理者、又はユーザによって予め定義されることがある、或いは、受信データセット及び期待される又は所望のツリーの深さに基づいて、システムによって自動的に決定されることがある。さらに、一部の実施例では、境界指標はシステムによって自動的に動的に決定されることがある、或いは、ユーザによってフィードバックとして又は生成された可視表示の制御として動的に調節されることがある。このような実施例では、境界指標の値が調節されると、クラスタリングの結果に関連付けられた可視表示が更新されることがある。例えば、ユーザが新しい境界指標を指定すると、その結果として、新しい境界指標を用いて再度クラスタリングされることにより可視表示が更新されることがある。
例えば、ユーザは、クラスタリングにおけるランクの影響を減少させるために境界指標を下げるよう調節することがある。或いは、クラスタリングにおけるランクの影響を増加させるために、境界指標を上げるよう調節することがある。本明細書に記載された実験的実施例では、境界指標は40%に設定された(例えば、初回の繰り返しでb=40%、つまり、ランク付きデータの上位40%が除外又はマスクされた)。後述するように、130において、bはb=40からbFinal=0まで漸次減少し、除外された項目の全てがクラスタリング工程に漸次戻される。
リストの最初又は先頭項目がマスク又は除外された後、120で、残りのマスクされていない項目に対して階層的凝集型クラスタリング工程の1回が実施される。L|b…N|によって特定されるリスト中の項目から、類似性(又は関連性)メトリックに基づいて2つの最も近似した項目(又は、すでにマージされている場合、項目群)をマージする。一部の実施例では、類似性は1又は複数の著者、主題、より大きな全体の一編又は一部、又は、当業者には自明であろうその他のクラスタリング類似性に基づくことがある。
125で、リストLに残るのが単一項目のみであるかということが決定される(例えば、ツリーの根)。当業者には自明であろうことだが、クラスタリング工程にリストの項目全て(例えば、bFinal=0)が含まれた(例えば、マスクが外された)場合、リストには単一項目のみの可能性がある(例えば、ツリーの根)。
リスト中に残る項目が2つ以上の場合(125で「いいえ」)、方法100は、130に進む、そして、その後のいずれかの繰り返しtにおける値bがb=bt−1−|s・N|、0<s<1と定義され得るように、境界指標bは特定量又はステップsの分減少又は低下される。sはステップパラメータである。これにより境界指標bが下げられ、元リストのより多くのデータ項目がクラスタリング工程でマージの対象として考慮される。
一部の実施例では、ステップパラメータはシステム設計者、システム管理者、又はユーザによって予め定義されることがある、或いは、受信データセット及び期待される又は所望のツリーの深さに基づいて、システムによって自動的に決定されることがある。さらに、一部の実施例では、ステップパラメータはシステムによって自動的に動的に決定されることがある、或いは、ユーザによってフィードバックとして又は生成された可視表示の制御として動的に調節されることがある。このような実施例では、ステップパラメータの値が調節されると、クラスタリングの結果に関連付けられた可視表示が更新されることがある。例えば、ユーザが新しいステップパラメータを指定すると、その結果として、新しいステップパラメータを用いて再度クラスタリングされることにより可視表示が更新されることがある。
例えば、ユーザは、クラスタリングにおけるランクの影響を減少させるためにステップパラメータを上げるよう調節することがある。或いは、クラスタリングにおけるランクの影響を増加させるためにステップパラメータを下げるよう調節することがある。本明細書に記載された実験的実施例では、ステップパラメータは1%に設定された(例えば、s=1%、つまり、除外された又はマスクされたランク付きデータの最低1%が、その後の繰り返しでクラスタリングに含まれる)。
境界指標が下げられると、図1の方法100は115に戻り、130で計算された新たに下げられた境界指標bに基づいてランク付きリストの項目がマスクされる。115、120及び125は、ランク付きリストLに残る項目が1つのみになり(例えば、ツリーの根)、b=0(例えば、リストLが全ての項目を含む)になるまで繰り返される。
ランク付きリストLの項目が1つに減少し、全ての項目がリストLに含まれると(例えば、125で「はい」)、方法100は135に進み、ランク付きクラスタ化リストLに基づく可視表示がエクスポートされ、ユーザに表示され、データの対話的探索が可能になる。ランク付きクラスタ化リストLに基づく可視表示の実施例が以下の図4に提供される。
一部の実施例では、方法100は、ランク付きリストLの項目が1つに減少する前に、125で抜けるように構成されることがある。例えば、別の又は追加の停止基準によって125で早期停止が引き起こされることがある。例えば、所望のクラスタ数に到達することにより125で停止することがあり、クラスタ数の決定が125の停止条件の一部として検査されることがある(例えば、2つの条件の論理和が使用されることがある)。その他の停止条件は当業者には自明であろう。
可視表示がエクスポート又は表示された後、一部の実施例では方法100が終了することがある。他の実施例では、ユーザが境界指標、ステップパラメータ、又はその両方のいずれかを更新又は変更する場合には、方法100は繰り返されることがある。
図2は、比較例に係わる階層的凝集型クラスタリング(HAC)アルゴリズムによって生成されたデータツリー200を示す。さらに、図3は、本願の実施例に係わる、ランク付き階層的凝集型クラスタリング(RHAC)によって生成されたデータツリー300を示す。図2及び図3は、100個の文書を含むデータセットを用いて、関連技術に類似したHACアルゴリズムの結果と、実施例に係わるRHACアルゴリズムの結果とを示す。これらの図を作成するためのクラスタリングで用いられる文書間の距離メトリックには、bags-of-wordモデルに基づいたコサイン類似度を用いた。クラスタ距離の計算には単連結法を用いた。
図2と図3との比較では、図3のデータツリー300の生成に使用されたRHACアルゴリズムがよりバランスのとれたツリーを生成していることを示し得る。加えて、本願の実施例によると、RHACアルゴリズムによって生成されたデータツリー300において、高ランクの項目(例えば、照会(inquiry)と関連性の高い項目)がツリーのより高位に配置される。例えば、図3に示す楕円305で強調されるように、ランク♯0及び♯1のノードはRHACの6階層目に現れる。一方、図2に示す楕円205で強調されるように、従来のHACでは同じノードが18階層目に示される。
これら2つのように、高ランクのデータ項目は視認されることが重要となることがあるが、図3に示す非常に浅いレベル(6階層)と比較して、図2の階層を用いるとユーザはこれらのデータ項目を見つけるためにかなり深く(18階層)まで拡大表示しなければならず、実際のアプリケーションにおけるデータの視覚的探索の際にこれらデータ項目にたどり着く機会を著しく減少させる。より大きなデータセットではこの問題はより深刻になることがある。
さらに、出願人はクラスタの質についても調査を行なった。ツリーの各階層において、(例えば、内部ノードによって表される)各クラスタはその内部ノードの葉ノードを含む。これらのクラスタに関して、メンバ文書間のペアワイズ距離の平均、これら距離の標準偏差、及びクラスタの直径(つまり、最大距離)を含む幾つかのメトリックを計算した。(上記の)表1は、これらメトリックに関する全てのクラスタの統計を示す。
当業者は、最も高ランクの要素にマスクすることを取り入れることでクラスタリングの有効性(effectiveness)が阻害され、また、当然の帰結としてクラスタリング処理の全体としての整合性(coherence)が低下することを懸念するかもしれない。しかしながら、表1に見られるように、本願の実施例のRHACアルゴリズムは、関連のHACアルゴリズムと同等のコヒーレンス値(coherence values)を生成するのみでなく、実際に改善されたコヒーレンス値(例えば、RHACアルゴリズムで小さい値)を生成した。これはRHACが従来のHACと比較してクラスタの質を低下させないことを示している。
図4は、関連技術を実証する比較例に係わる図2のデータツリーにおいて、上位N個の文書にアクセスする際の平均パス長のプロット400を示す。図5は、本願の実施例に係わる図3のデータツリーにおいて、上位N個の文書にアクセスする際の平均パス長のプロット500を示す。
さらに、2つの階層(図2及び図3)でN未満のランクの文書にアクセスする際の平均パス長も計算された。図4及び図5に示すように、N=25の場合、HAC(関連技術のアルゴリズム)の平均長は37.16で、RHAC(本願の実施例)の平均長は23.68である。これは、ユーザがデータセット内で上位ランクの文書にアクセスするのに費やす労力がはるかに少なくなり得ることを意味する。
さらに、図4及び図5は、N毎にこの2つの方法で測定した比較を示す。図4と図5との比較が示すように、RHACははるかに短い平均パス長を生成し、つまり、階層でデータセットを視覚的に探索するにはより有効である。
図6は、実施例に係わる工程を用いて生成されたユーザインタフェース600を表す。ユーザインタフェース600は、本願の実施例に係わるRHACアルゴリズムによって生成されたランク付きデータのクラスタ階層を用いて作成されたマルチスケールのデータツリーマップを示す。可視表示(visualization)は通信装置によって送信されるか、後述する図8に示すコンピューティング環境800の演算装置805などの演算装置に関連する表示装置によって表示されることがある。例えば、ユーザインタフェース600は、携帯演算装置のコンピュータ画面又はタッチディスプレイなどの表示装置に表示されることがある。
図1の方法100の135に関して上述したように、データの階層的クラスタリングの結果に基づいて可視表示が生成、エクスポート又は表示されることがある。例えば、拡大表示可能なツリーマップを用いてマルチスケールの可視表示を構築することができる。
ユーザインタフェース600において、各長方形又は正方形(例えば、605a、605b、605c)は、RHACアルゴリズムによって生成された別々のクラスタに対応し得る。さらに、一部の実施例では、各正方形又は長方形(例えば、605a、605b、605c)の大きさは、関連するクラスタの大きさを表すことがある。例えば、より高い正方形又は長方形605aは、より低い正方形又は長方形605bに関連するクラスタよりも内部レベルがより多いクラスタに対応することがある。さらに、幅の広い正方形又は長方形605bは、幅のより狭い正方形又は長方形605cに関連するクラスタよりも、より広い階層のクラスタ(例えば、より多くの並行したサブクラスタ)に対応することがある。
さらに、一部の実施例では、ユーザインタフェース600の正方形又は長方形の他の側面はランクの優先度に対応することがある(例えば、より高ランクのデータエントリを含むクラスタ)。例えば、ユーザインタフェース600の正方形又は長方形の色がランクの優先度に対応することがある。
図6は、文書群のツリーマップ可視表示を示す。実施例において、異なる階層の各クラスタの文書サマリを作成するのに、テキスト分析技術が用いられることがある。例えば、ユーザはデータベースの照会で読み出された文書を探索したいことがある。そこで、ユーザはテキストサマリと階層を利用して、この大きな結果の集まりを閲覧してもよい。RHACは上位ランクの文書の検索結果を上位に配置するので、ユーザは検索が提供する利点を損なうことなくデータの概観をつかみ得る。つまり、ユーザはトピック又は文書に関連する最も大きなクラスタを視認するのと同時に、最も高いランクの(例えば、検索に最も関連性のある)項目をより容易に視認することができる。階層中の一定階層までの文書のみが初めに可視表示され、ユーザはデータの基本的な理解を得ることができる。その後、ユーザは図6の600などのインタフェースを介してデータツリーマップで階層の該当部分を拡大することで1又は複数の関心領域を更に探索してもよい。
図7は、本願の他の実施例に係わる、ランク付き項目の階層的クラスタリング及びランク付き項目の可視表示をエクスポートする方法700のフローチャートを示す。後述するように、本願の一部の実施形態の一側面は、初めに最もランクの低い項目の一部をクラスタリングから除外し、除外されない最も関連性のある項目を繰り返しクラスタリングすることに関連することがある。各繰り返しで、除外された項目の一定割合が再度クラスタリング対象に入れられる。これによって、階層的クラスタリングの際に、低いランクの項目が考慮に含まれ、階層中でより低いレベルに配置されることがある。この工程は図8に示すコンピューティング環境800に存在する演算装置805などの演算装置によって実施されることがある。
図7に示されるように、方法700は、705でシステムがランク付きデータ情報を含むデータセット受信するか、識別することで開始する。ランク付きデータ情報は、インターネット又はウェブ検索エンジンによって生成された検索結果、メディア視聴プラットフォーム(例えば、ストリーミングメディアサービス、画像ライブラリ、又は他のメディア視聴プラットフォーム)に生成された又は関連するメディアファイル(例えば、歌、画像、又は動画)、電子ライブラリ又は文書保存プラットフォームに記憶された文書又は論文、及び、予測アルゴリズム(認識アルゴリズムなど)の出力に関連した予測同定又は可能性であってもよい。
データセットの受信後、710で、データセットの各項目に関連付けられたランク情報に基づいて、データ項目はリストにソートされる。例えば、ユーザが提供した検索要求との関連性に基づいて、データセット中のすべてのデータ項目にランクが付けられることがある。検索要求と最も関連性が高いと決定された項目に最も高いランクが付けられ、検索要求に最も関連性が低いと決定された項目に最も低いランクが付けられる。本明細書中では説明のためリストはLで示されることがあり、|L|=Nである。
ランクに基づいてデータ項目がリストにソートされた後、初回の715で、システムはリストの最後(例えば、リストの後尾又は最もランクの低い項目)から、ランク付き項目を、更なる分析からマスクするか、除外することがある。マスクされた又は除外されたランク付き項目は、リスト後尾の特定された境界指標の中に含まれることがある。つまり、システムはリストLの最後(後尾)から閾値tによって定められた境界指標bまでの項目をマスクすることがある。ここで、b=|t・N|、0<t<1である。
一部の実施例では、境界指標はシステム設計者、システム管理者、又はユーザによって予め定義されることがある、或いは、受信データセット及び期待される又は所望のツリーの深さに基づいて、システムによって自動的に決定されることがある。さらに、一部の実施例では、境界指標はシステムによって自動的に動的に決定されることがある、又は、ユーザによってフィードバックとして或いは生成された可視表示の制御として動的に調節されることがある。このような実施例では、境界指標の値が調節されると、クラスタリングの結果に関連付けられた可視表示が更新されることがある。例えば、ユーザが新しい境界指標を指定すると、その結果として、新しい境界指標を用いて再度クラスタリングされることにより可視表示が更新されることがある。
例えば、ユーザは、クラスタリングにおけるランクの影響を減少させるために境界指標を下げるよう調節することがある。或いは、クラスタリングにおけるランクの影響を増加させるために、境界指標を上げるよう調節することがある。本明細書に記載された実験的実施例では、境界指標は40%に設定された(例えば、初回の繰り返しでb=40%、つまり、ランク付きデータの下位40%が除外又はマスクされた)。後述するように、730において、bはb=40からbFinal=0まで漸次減少し、除外された項目の全てがクラスタリング工程に漸次戻される。
740で、方法700の繰り返しの中でいずれかの項目のマスクが新しく外された場合、新しくマスクが外された項目は1又は複数の別の項目との類似性に基づいて既存のいずれかのクラスタ周辺にクラスタ化される。
720で、マスクが外された項目に対して階層的決定クラスタリング工程の1回が実施される。L|1…b|によって特定されるリスト中の項目から、類似性(又は関連性)メトリックに基づいて、最も大きいクラスタ(又は、すでにマージされている場合、項目群)が、類似性の平均が最も遠い2つのクラスタに分割又は分離される。一部の実施例では、類似性は1又は複数の著者、主題、より大きな全体の一編又は一部、又は、当業者には自明であろうその他のクラスタリング類似性に基づくことがある。つまり、最も関連性の低い項目が分離又は分割されて、別々の枝に定義される。
725で、リストLに分割できるクラスタが残っているか(例えば、ツリーの更なる枝や葉となるクラスタがあるか)ということが決定される。当業者には自明であろうことだが、クラスタリング工程(例えば、bFinal=0)にリストの項目全てが含まれた(例えば、マスクが外された)場合、リストには単一項目のみが存在する可能性がある(例えば、ツリーの根)。
リスト中に分割に適したクラスタが残っている場合(725で「はい」)、方法700は730に進む、そして、その後のいずれかの繰り返しtにおける値bがb=bt−1+|s・N|、0<s<1と定義され得るように、境界指標bは特定量又はステップsの分増加される。sはステップパラメータである。これにより境界指標bが上げられ、元リストのより多くのデータ項目がクラスタリング工程でマージの対象として考慮される。
一部の実施例では、ステップパラメータはシステム設計者、システム管理者、又はユーザによって予め定義されることがある、或いは、受信データセット及び期待される又は所望のツリーの深さに基づいて、システムによって自動的に決定されることがある。さらに、一部の実施例では、ステップパラメータはシステムによって自動的に動的に決定されることがある、又は、ユーザによってフィードバックとして生成される、或いは、可視表示の制御として動的に調節されることがある。このような実施例では、ステップパラメータの値が調節されると、クラスタリングの結果に関連付けられた可視表示が更新されることがある。例えば、ユーザが新しいステップパラメータを指定すると、その結果として、新しいステップパラメータを用いて再度クラスタリングされることにより可視表示が更新されることがある。
例えば、ユーザは、クラスタリングにおけるランクの影響を減少させるためにステップパラメータを上げるよう調節することがある。或いは、クラスタリングにおけるランクの影響を増加させるためにステップパラメータを下げるよう調節することがある。本明細書に記載された実験的実施例では、ステップパラメータは1%に設定された(例えば、s=1%、つまり、除外された又はマスクされたランク付きデータの最低1%が、その後の繰り返しでクラスタリングに含まれる)。
境界指標が上げられると、図7の方法700は715に戻り、730で計算された新たに上げられた境界指標bに基づいてランク付きリストの項目がマスクされる。715、740、720及び725は、ランク付きリストLに分割に適したクラスタ(例えば、ツリー中の更なる枝の可能性)がそれ以上なくなり、b=0(例えば、リストLが全ての項目を含む)になるまで繰り返される。
ランク付きリストLに分割に適さない単一クラスタが識別され、全ての項目がリストLに含まれると(例えば、725で「いいえ」)、方法700は735に進み、ランク付きクラスタ化リストLに基づく可視表示がエクスポートされ、ユーザに表示され、データの対話的探索が可能になる。ランク付きクラスタ化リストLに基づく可視表示の実施例は上記図4に提供される。
一部の実施例では、方法700は、ランク付きリストLに分割に適さない単一クラスタが識別される前に、725で抜けるように構成されることがある。例えば、別の又は追加の停止基準によって725で早期停止が引き起こされることがある。例えば、所望のクラスタ数に到達することにより725で停止することがあり、クラスタ数の決定が725の停止条件の一部として検査されることがある(例えば、2つの条件の論理和が使用されることがある)。その他の停止条件は当業者には自明であろう。
可視表示がエクスポート又は表示された後、一部の実施例では方法700が終了することがある。他の実施例では、ユーザが境界指標値、ステップパラメータ、又はその両方を更新又は変更する場合に、方法700が繰り返されることがある。
例示的コンピューティング環境
図8は、一部の実施例で用いられるのに適した、例示的演算装置805を用いた例示的コンピューティング環境800を示す。コンピューティング環境800の演算装置805は、1又は複数のプロセッシングユニット、コア、又はプロセッサ810、メモリ815(例えば、RAM、ROMなど)、内部記憶装置820(例えば、磁気、光学、ソリッドステート、及び/又はオーガニック)、及び/又はI/Oインタフェース825を含むことがあり、そのいずれかが情報通信のために通信機構或いはバス830に接続できる、又は演算装置805に組み込まれ得る。
演算装置805は、入力/インタフェース835及び出力装置/インタフェース840に通信可能に接続できる。入力/インタフェース835及び出力装置/インタフェース840のいずれか又は両方は、有線又は無線インタフェースの可能性があり、脱着可能であってもよい。入力/インタフェース835は、いずれかの物理的又は仮想的デバイス、構成要素、センサ、又はインタフェースを含むことがあり、入力を提供するために用いることができる(例えば、ボタン、タッチスクリーンインタフェース、キーボード、ポインティング/カーソルコントロール、マイク、カメラ、点字、動きセンサ、光学リーダーなど)。
出力装置/インタフェース840は、表示装置、テレビ、モニター、プリンタ、スピーカー、点字などを含むことがある。一部の実施例では、入力/インタフェース835(例えばユーザインタフェース)及び出力装置/インタフェース840は演算装置805に組み込まれ得る、或いは、物理的に接続され得る。他の実施例では、他の演算装置が演算装置805の入力/インタフェース835及び出力装置/インタフェース840として機能する、又は機能を提供することがある。これら要素は、ユーザがAR(拡張現実)環境で対話することを可能にするため、周知のARハードウェア入力を含むことがあるが、限定されない。
演算装置805の例は、高移動性デバイス(例えば、スマートフォン、車載又はその他の機械に搭載されたデバイス、人や動物が運ぶデバイスなど)、携帯装置(例えば、タブレット、ノートブック、ラップトップ、パーソナルコンピュータ、携帯テレビ、ラジオなど)及び移動性を考慮して設計されていない装置(例えば、デスクトップコンピュータ、サーバ装置、他のコンピュータ、インフォメーションセンター、1又は複数のプロセッサが組み込まれる及び/又は接続されるテレビ、ラジオなど)を含むことがあるが、これらに限られない。
演算装置805は、同じ又は異なる構成の1又は複数の演算装置を含む幾つかのネットワークコンポネント、デバイス、システムと通信するため、外部記憶装置845及びネットワーク850に(例えば、I/Oインタフェース825を通して)通信可能に接続できる。演算装置805又はいずれかの接続された演算装置は、サーバ、クライアント、 シンサーバ、汎用機、専用機、又は別の名称のものとして機能する、サービスを提供する、又は称されることがある。
I/Oインタフェース825は、コンピューティング環境800の接続されたコンポネント、デバイス、及びネットワーク全てと少なくとも情報を通信するため、いずれかの通信又はI/Oプロトコル又は標準(例えば、Ethernet(登録商標)、802.11xs、ユニバーサルシステムバス、WiMAX、モデム、携帯ネットワークプロトコルなど)を用いた有線及び/又は無線インタフェースを含むことがあるが、これらに限られない。ネットワーク850は、いずれかのネットワーク又はネットワークの組み合わせでもよい(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、テレフォンネットワーク、携帯ネットワーク、衛星ネットワークなど)。
演算装置805は、一時的媒体及び非一時的媒体を含む、コンピュータで使用可能な又はコンピュータで読み取り可能な媒体を使用できる及び/又は用いて通信できる。一時的媒体は、伝送媒体(例えば、金属ケーブル、光ファイバー)、信号、搬送波などを含む。非一時的媒体は、磁気媒体(例えば、ディスク及びテープ)、光媒体(例えば、CD ROM、デジタルビデオディスク、ブルーレイディスク)、ソリッドステートメディア(例えば、RAM、ROM、フラッシュメモリ、ソリッドステート記憶装置)、及び他の不揮発性記憶装置又はメモリを含む。
演算装置805は、一部の例示的コンピューティング環境において、技術、方法、アプリケーション、工程、又はコンピュータ実行可能な命令を実施するために用いることができる。コンピュータ実行可能な命令は一時的媒体から読み出され、非一時的媒体に記憶され、読み出されることができる。実行可能な命令は1又は複数のプログラム、スクリプト及び機械語(例えば、C、C++、C#、Java(登録商標)、Visual Basic、Python、Perl、JavaScript(登録商標)など)に由来する。
プロセッサ810は、いずれのオペレーティングシステム(OS)(図示せず)でも、ネイティブ環境でも仮想環境でも実行できる。1又は複数のアプリケーションが展開でき、これには、論理部855、アプリケーションプログラミングインタフェース(API)部860、入力部865、出力部870、ランク付け部875、マスク付け部880、クラスタリング部885、及び、可視表示部890、それに加えて、各部を互いに、OSと、及び他のアプリケーション(図示せず)と通信させる部間通信機構895を含む。
例えば、ランク付け部875、マスク付け部880、クラスタリング部885、及び、可視表示部890は、図1〜図7に示される1又は複数の工程を実施することがある。記載された部及び要素は、設計、機能、構成又は実装を変化させることができ、記載された事項に制限されない。
一部の実施例では、情報又は実行命令がAPI部860によって受信された場合、1又は複数のその他の部(例えば、ランク付け部875、マスク付け部880、クラスタリング部885及び可視表示部890)に通信されることがある。例えば、ランク付け部875は、ランク付きリストの一部を作成するため、ネットワーク又は入力部を介して受信したデータ項目にランクを付けることがある。さらに、マスク付け部880は、ランク付きリストの一部をマスクする又は隠すことがあり、クラスタリング部885はランク付きリストのマスクが外された一部を繰り返しクラスタ化することがある。また、可視表示部890は、ランク付きリストのクラスタリングの可視表示を生成し、この可視表示を出力部870を介してエクスポートすることがある。
一部の事例では、論理部855は、部間の情報の流れを制御し、上述した一部の実施例中のAPI部860、入力部865、ランク付け部875、マスク付け部880、クラスタリング部885及び可視表示部890によって提供されるサービスを指示するよう構成されることがある。例えば、1又は複数の工程又は実施のフローが論理部855のみによって、又はAPI部860と連携して制御されることがある。
少数の実施例が図示され、記載されたが、これらの実施例は本明細書中に記載された主題を当業者に伝達するために提供される。本明細書中に記載の主題は、記載された実施例に限定されることなく、様々な形式で実装されることがある。本明細書中に記載の主題は、詳細に定義又は記載された事項を伴わずに、又は、記載されないその他の又は異なる要素又は事項と共に実行できる。当業者には当然のことながら、付属の請求項の範囲及びその等価物で定義される本明細書中に記載の主題から逸脱することなくこれら実施例に変更がなされ得る。

Claims (20)

  1. 検索照会に関連するデータを可視化する方法であって、
    演算装置によって、各データ項目が前記データ項目の前記検索照会との関連性を示す関連付けられたランク情報を有する複数のデータ項目を備えるデータセットと、前記データ項目と前記複数のデータ項目中の1又は複数の他の項目との類似性を示す類似性情報と、を受信すること、
    前記演算装置によって、前記複数のデータ項目のそれぞれに関連付けられた前記ランク情報に基づいて、前記データセットをランク付きリストにソートすること、
    前記演算装置によって、境界パラメータに基づいて、前記ランク付きリストの連続部分をマスクすること、
    前記演算装置によって、クラスタ化されたランク付きデータリストを作成するために、前記複数のデータ項目に関連付けられた前記類似性情報に基づいて、前記ランク付きリストの前記マスクされた連続部分以外の部分を繰り返しクラスタリングすること、
    及び、前記クラスタ化されたランク付きデータリストの可視表示を生成し表示すること、を含み、
    前記可視表示は前記クラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を備える、方法。
  2. 前記ランク付きリストの前記マスクされた連続部分以外の部分を繰り返しクラスタリングすることは、
    各逐次反復において、
    ステップパラメータによって、前記境界パラメータの値を変更すること、
    前記境界パラメータの前記変更に基づいて、前記ランク付きリストのすでにマスクされた連続部分の一部のマスクを外すこと、
    前記マスクを外した部分を前記ランク付きリストの前記マスクされた連続部分以外の部分に加えること、
    及び、前記マスクを外した部分と、前記ランク付きリストの前記マスクされた連続部分以外の部分との組み合わせをクラスタリングすること、
    を含む、請求項1に記載の方法。
  3. 1又は複数の前記境界パラメータ及び前記ステップパラメータは、ユーザ調整可能な制御変数である、請求項2に記載の方法。
  4. 前記1又は複数の前記境界パラメータ及び前記ステップパラメータに対して新しい値を定めたユーザ命令をユーザ調整可能な制御変数として受信すること、
    前記ランク付きリスト全体のマスクを外すこと、
    前記演算装置によって、前記ランク付きリストの新しい連続部分をマスクすること、
    前記演算装置によって、クラスタ化されたランク付きデータリストを生成するため、前記1又は複数の前記境界パラメータ及び前記ステップパラメータに対して定められた前記新しい値を踏まえ、前記複数のデータ項目に関連付けられた前記類似性情報に基づいて前記ランク付きリストの前記マスクされた新しい連続部分以外の新しい部分を繰り返しクラスタリングすること、
    及び、前記クラスタ化されたランク付きデータリストの新しい可視表示を生成し表示すること、を更に含み、
    前記新しい可視表示は前記クラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を備える、請求項2に記載の方法。
  5. 前記ランク付きリストの前記連続部分は、最高ランクのデータ項目から前記境界パラメータに基づいて計算された最低ランクのデータ項目までに亘るよう定められた、請求項2に記載の方法。
  6. 前記ランク付きリストの前記連続部分は、最低ランクのデータ項目から前記境界パラメータに基づいて計算された最高ランクのデータ項目までに亘るよう定められた、請求項2に記載の方法。
  7. 前記可視表示の生成は、
    各形状オブジェクトに関連付けられた前記クラスタ化されたランク付きデータリストのクラスタの大きさを表現するため、各形状オブジェクトの大きさを定めること、
    及び、各形状オブジェクトに関連付けられた前記クラスタ化されたランク付きデータリスト中の前記クラスタ内の最高ランクの項目を表現するため、各形状オブジェクトに色を定めること、
    を含む、請求項2に記載の方法。
  8. 検索照会に関連するデータを可視化する方法を、コンピュータに実行させるためのプログラムであって、
    前記方法は、
    演算装置によって、各データ項目が前記データ項目の前記検索照会との関連性を示す関連付けられたランク情報を有する複数のデータ項目を備えるデータセットと、前記データ項目と前記複数のデータ項目中の1又は複数の他の項目との類似性を示す類似性情報と、を受信すること、
    前記演算装置によって、前記複数のデータ項目のそれぞれに関連付けられた前記ランク情報に基づいて、前記データセットをランク付きリストにソートすること、
    前記演算装置によって、境界パラメータに基づいて、前記ランク付きリストの連続部分をマスクすること、
    前記演算装置によって、クラスタ化されたランク付きデータリストを作成するために、前記複数のデータ項目に関連付けられた前記類似性情報に基づいて、前記ランク付きリストの前記マスクされた連続部分以外の部分を繰り返しクラスタリングすること、
    及び、前記クラスタ化されたランク付きデータリストの可視表示を生成し表示すること、を含み、
    前記可視表示は前記クラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を備える、プログラム。
  9. 前記ランク付きリストの前記マスクされた連続部分以外の部分を繰り返しクラスタリングすることは、
    各逐次反復において、
    ステップパラメータによって、前記境界パラメータの値を変更すること、
    前記境界パラメータの前記変更に基づいて、前記ランク付きリストの前記すでにマスクされた連続部分の一部のマスクを外すこと、
    前記マスクを外した部分を前記ランク付きリストの前記マスクされた連続部分以外の部分に加えること、
    及び、前記マスクを外した部分と、前記ランク付きリストの前記マスクされた連続部分以外の部分との組み合わせをクラスタリングすること、
    を含む、請求項8に記載のプログラム。
  10. 1又は複数の前記境界パラメータ及び前記ステップパラメータは、ユーザ調整可能な制御変数である、請求項9に記載のプログラム。
  11. 前記1又は複数の前記境界パラメータ及び前記ステップパラメータに対して新しい値を定めたユーザ命令をユーザ調整可能な制御変数として受信すること、
    前記ランク付きリスト全体のマスクを外すこと、
    前記演算装置によって、前記ランク付きリストの新しい連続部分をマスクすること、
    前記演算装置によって、クラスタ化されたランク付きデータリストを生成するため、前記1又は複数の前記境界パラメータ及び前記ステップパラメータに対して前記定められた新しい値を踏まえ、前記複数のデータ項目に関連付けられた前記類似性情報に基づいて前記ランク付きリストの前記マスクされた新しい連続部分以外の新しい部分を繰り返しクラスタリングすること、
    及び、前記クラスタ化されたランク付きデータリストの新しい可視表示を生成し表示すること、を更に含み、
    前記新しい可視表示は前記クラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を備える、請求項9に記載のプログラム。
  12. 前記ランク付きリストの前記連続部分は、最高ランクのデータ項目から前記境界パラメータに基づいて計算された最低ランクのデータ項目までに亘るよう定められた、請求項9に記載のプログラム。
  13. 前記ランク付きリストの前記連続部分は、最低ランクのデータ項目から前記境界パラメータに基づいて計算された最高ランクのデータ項目までに亘るよう定められた、請求項9に記載のプログラム。
  14. 前記可視表示の生成は、
    各形状オブジェクトに関連付けられた前記クラスタ化されたランク付きデータリストのクラスタの大きさを表現するため、各形状オブジェクトの大きさを定めること、
    及び、各形状オブジェクトに関連付けられた前記クラスタ化されたランク付きデータリスト中の前記クラスタ内の最高ランクの項目を表現するため、各形状オブジェクトに色を定めること、
    を含む、請求項9に記載のプログラム。
  15. データ項目のデータベースを記憶するよう構成されたメモリ記憶装置と、前記メモリ記憶装置に通信可能に接続されたプロセッサと、を備える演算装置であって、
    前記プロセッサは検索照会を受信し、検索照会に関連付けられたデータを可視化する方法を実行するよう構成され、
    前記方法は、
    前記データ項目のデータベースより、各データ項目が前記データ項目の前記検索照会との関連性を示す関連付けられたランク情報を有する複数のデータ項目を備えるデータセットと、前記データ項目と前記複数のデータ項目中の1又は複数の他の項目との類似性を示す類似性情報と、を受信すること、
    前記演算装置によって、前記複数のデータ項目のそれぞれに関連付けられた前記ランク情報に基づいて、前記データセットをランク付きリストにソートすること、
    前記演算装置によって、境界パラメータに基づいて、前記ランク付きリストの連続部分をマスクすること、
    前記演算装置によって、クラスタ化されたランク付きデータリストを作成するために、前記複数のデータ項目に関連付けられた前記類似性情報に基づいて、前記ランク付きリストの前記マスクされた連続部分以外の部分を繰り返しクラスタリングすること、
    及び、前記クラスタ化されたランク付きデータリストの可視表示を生成し表示すること、を含み、
    前記可視表示は前記クラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を備える、演算装置。
  16. 前記ランク付きリストの前記マスクされた連続部分以外の部分を繰り返しクラスタリングすることは、
    各逐次反復において、
    ステップパラメータによって、前記境界パラメータの値を変更すること、
    前記境界パラメータの前記変更に基づいて、前記ランク付きリストの前記すでにマスクされた連続部分の一部のマスクを外すこと、
    前記マスクを外した部分を前記ランク付きリストの前記マスクされた連続部分以外の部分に加えること、
    及び、前記マスクを外した部分と、前記ランク付きリストの前記マスクされた連続部分以外の部分との組み合わせをクラスタリングすること、
    を含む、請求項15に記載の演算装置。
  17. 1又は複数の前記境界パラメータ及び前記ステップパラメータは、ユーザ調整可能な制御変数であり、
    前記1又は複数の前記境界パラメータ及び前記ステップパラメータに対して新しい値を定めたユーザ命令を前記ユーザ調整可能な制御変数として受信すること、
    前記ランク付きリスト全体のマスクを外すこと、
    前記演算装置によって、前記ランク付きリストの新しい連続部分をマスクすること、
    前記演算装置によって、クラスタ化されたランク付きデータリストを生成するため、前記1又は複数の前記境界パラメータ及び前記ステップパラメータに対して定められた前記新しい値を踏まえ、前記複数のデータ項目に関連付けられた前記類似性情報に基づいて前記ランク付きリストの前記マスクされた新しい連続部分以外の新しい部分を繰り返しクラスタリングすること、
    及び、前記クラスタ化されたランク付きデータリストの新しい可視表示を生成し表示すること、を更に含み、
    前記新しい可視表示は前記クラスタ化されたランク付きデータリストの各クラスタの形状オブジェクト表現を備える、請求項16記載の演算装置。
  18. 前記ランク付きリストの前記連続部分は、最高ランクのデータ項目から前記境界パラメータに基づいて計算された最低ランクのデータ項目までに亘るよう定められた、請求項16に記載の演算装置。
  19. 前記ランク付きリストの前記連続部分は、最低ランクのデータ項目から前記境界パラメータに基づいて計算された最高ランクのデータ項目までに亘るよう定められた、請求項16に記載の演算装置。
  20. 前記可視表示の生成は、
    各形状オブジェクトに関連付けられた前記クラスタ化されたランク付きデータリストのクラスタの大きさを表現するため、各形状オブジェクトの大きさを定めること、
    及び、各形状オブジェクトに関連付けられた前記クラスタ化されたランク付きデータリスト中の前記クラスタ内の最高ランクの項目を表現するため、各形状オブジェクトに色を定めること、
    を含む、請求項16に記載の演算装置。
JP2020034203A 2019-03-29 2020-02-28 方法、プログラム、及び演算装置 Pending JP2020166843A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/370,820 2019-03-29
US16/370,820 US11010411B2 (en) 2019-03-29 2019-03-29 System and method automatically sorting ranked items and generating a visual representation of ranked results

Publications (1)

Publication Number Publication Date
JP2020166843A true JP2020166843A (ja) 2020-10-08

Family

ID=72607765

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020034203A Pending JP2020166843A (ja) 2019-03-29 2020-02-28 方法、プログラム、及び演算装置

Country Status (3)

Country Link
US (1) US11010411B2 (ja)
JP (1) JP2020166843A (ja)
CN (1) CN111753152A (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7231020B2 (ja) * 2019-05-21 2023-03-01 日本電信電話株式会社 情報処理装置、情報処理方法及びプログラム
US20220229853A1 (en) * 2019-05-21 2022-07-21 Nippon Telegraph And Telephone Corporation Information processing apparatus, information processing method and program
US11455357B2 (en) 2019-11-06 2022-09-27 Servicenow, Inc. Data processing systems and methods
US11468238B2 (en) * 2019-11-06 2022-10-11 ServiceNow Inc. Data processing systems and methods
US11481417B2 (en) 2019-11-06 2022-10-25 Servicenow, Inc. Generation and utilization of vector indexes for data processing systems and methods

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7334195B2 (en) * 2003-10-14 2008-02-19 Microsoft Corporation System and process for presenting search results in a histogram/cluster format
US9569499B2 (en) * 2011-03-03 2017-02-14 Nec Corporation Method and apparatus for recommending content on the internet by evaluating users having similar preference tendencies
US20180018382A1 (en) * 2016-07-12 2018-01-18 Sap Se System for defining clusters for a set of objects
US11645317B2 (en) * 2016-07-26 2023-05-09 Qualtrics, Llc Recommending topic clusters for unstructured text documents
KR102575272B1 (ko) * 2017-01-13 2023-09-06 삼성전자주식회사 유전 정보에 기반하여 가이드 정보를 제공하는 전자 장치 및 그 방법

Also Published As

Publication number Publication date
CN111753152A (zh) 2020-10-09
US11010411B2 (en) 2021-05-18
US20200311106A1 (en) 2020-10-01

Similar Documents

Publication Publication Date Title
JP7411651B2 (ja) コンテンツアイテム推奨をランク付けするための技術
JP2020166843A (ja) 方法、プログラム、及び演算装置
US9361318B2 (en) Adjacent search results exploration
US10489448B2 (en) Method and system for dynamically ranking images to be matched with content in response to a search query
US9613132B2 (en) Method of and system for displaying a plurality of user-selectable refinements to a search query
US9721006B2 (en) Systems and methods for enabling searches of a document corpus and generation of search queries
KR100672277B1 (ko) 개인화 검색 방법 및 검색 서버
US20160357872A1 (en) Event networks and event view construction and display
JP2017157192A (ja) キーワードに基づいて画像とコンテンツアイテムをマッチングする方法
EP3513328A1 (en) Method and apparatus for ranking electronic information by similarity association
US9418145B2 (en) Method and system for visualizing documents
JP6363682B2 (ja) 画像とコンテンツのメタデータに基づいてコンテンツとマッチングする画像を選択する方法
US10275472B2 (en) Method for categorizing images to be associated with content items based on keywords of search queries
US10212240B2 (en) Method for tracking content and electronic device using the same
US10650191B1 (en) Document term extraction based on multiple metrics
US9996535B1 (en) Efficient hierarchical user interface
JP2023545945A (ja) コンテンツ管理システムにおけるコンテンツのスマートなカテゴリ化のためのシステムおよび方法
US20170286522A1 (en) Data file grouping analysis
JP2003323454A (ja) メタ情報を有するコンテンツをマッピングする方法、装置、及びコンピュータプログラム
JP6275758B2 (ja) 情報処理システム、情報処理方法、およびプログラム
KR102367087B1 (ko) 콘텐츠를 추적하는 방법 및 이를 사용하는 전자 장치
JP6810780B2 (ja) Cnn基盤イメージ検索方法および装置
JP2009086859A (ja) コンテンツ表示装置、コンテンツ表示方法、プログラムおよび記録媒体
JP2017072964A (ja) 情報分析装置及び情報分析方法
US20230316096A1 (en) Method and a system for optimally displaying a knowledge graph

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230120

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231107

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240507