JP2022523917A - データを編成し見出すためのシステム及び方法 - Google Patents

データを編成し見出すためのシステム及び方法 Download PDF

Info

Publication number
JP2022523917A
JP2022523917A JP2021544919A JP2021544919A JP2022523917A JP 2022523917 A JP2022523917 A JP 2022523917A JP 2021544919 A JP2021544919 A JP 2021544919A JP 2021544919 A JP2021544919 A JP 2021544919A JP 2022523917 A JP2022523917 A JP 2022523917A
Authority
JP
Japan
Prior art keywords
data
variables
topic
node
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021544919A
Other languages
English (en)
Other versions
JP7307914B2 (ja
Inventor
アダム ブライ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CiSTEM Inc.
Original Assignee
CiSTEM Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CiSTEM Inc. filed Critical CiSTEM Inc.
Publication of JP2022523917A publication Critical patent/JP2022523917A/ja
Application granted granted Critical
Publication of JP7307914B2 publication Critical patent/JP7307914B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/285Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データを編成し、表現し、見出し、発見し、当該データにアクセスするための、システム及びそれに纏わる方法。実施形態は、「特徴グラフ」と呼ばれるデータ構造の形の情報及びデータを表現する。特徴グラフは、ノード及びエッジを含み、エッジは、或るノードを1つ以上の他のノードに「連結する」ように働く。特徴グラフ内のノードは、変数、つまり、測定可能なオブジェクト、特質、又は因子を表現し得る。特徴グラフ内のエッジは、1つ以上のソースから取り出された或るノードと1つ以上の他のノードとの間の統計的連関の測度を表現し得る。統計的連関を論証若しくはサポートするか、又は、連関する変数を測定する、データセットは、特徴グラフから「リンキング」される。【選択図】図1(a)

Description

発明の詳細な説明
[関連出願の相互参照]
本願は、本明細書においてあらゆる目的のために、その全体が(付属書類を含め)参照により組み込まれる、2019年2月1日に出願され、「データを編成し見出すためのシステム及び方法(Systems and Methods for Organizing and Finding Data)」と題された米国仮特許出願第62/799981号の利益を主張する。
[背景技術]
多くの学習及び意思決定のプロセスの一部として、データが使用される。このようなデータは、トピック、エンティティ、概念等に関連し得る。しかしながら、このようなデータは、有用であるために、効率的な発見、アクセス及び処理、その他の利用、が可能でなければならない。さらに、データは、実施されているタスク又は行われている意思決定に、関連性を有している(又は、場合によっては、充分な関連性を有している)ことが望ましい。信頼性のあるデータ駆動型の意思決定又は予測が必要とするのは、単に、意思決定の所望される成果又は予測のターゲットについてのデータではなく、当該成果又はターゲットに統計的に連関する(理想的には全てだが、少なくとも最も強く連関する)変数についてのデータである。残念ながら、今日、従来のアプローチを使用して、どの変数が成果又はターゲットに統計的に連関していると立証されたかを発見すること、および、当該変数についてのデータにアクセスすることは、非常に難しい。
この問題は、機械学習のケースにおいても存在しており、ここでは、学習プロセスに適切なトレーニングセットを特定し構築することが重要である。しかしながら、本発明者により認識されるように、信頼性のあるトレーニングデータの調達は、情報及びデータが編成される従来の手法のため、今日、大部分において非常に難しい。
多くの状況において、データの発見及びデータへのアクセスは、データを特定のフォーマット又は構造で表現することにより、より効率化されている。フォーマット又は構造は、データレコード内の1つ以上の列、行、又はフィールドについてのラベルを含み得る。興味のあるデータを特定し発見する従来のアプローチは、典型的に、データセット内の(又は、データセットを参照しているか、又は、データセットについての)ラベルと意味的にマッチングしている語に基づいている。この方法は、関連性を有し得るトピック(例えば、ターゲット又は成果)についてのデータの発見及び当該データへのアクセスには有用であるが、興味のあるトピックを誘起するか、興味のあるトピックに影響を及ぼすか、興味のあるトピックを予測するか、又はさもなければ、興味のあるトピックに統計的に連関する、トピック(変数)についてのデータの発見及び当該データへのアクセスの問題には対処していない。
本発明のシステム、装置、及び方法の実施形態は、個々に及び包括的に、の両方において、データを編成し、表現し、見出し、発見し、データにアクセスするための従来の解決策の、これらの及び他の問題又は不利益に対処し、当該問題又は不利益を解決することが意図されている。
[発明の概要]
本明細書において使用されるような、「発明(invention)」、「前記発明(the invention)」、「この発明(this invention)」、及び「本発明(the present invention)」という用語は、この文書に記載される主題の全て及び請求項を広く指すことが意図される。これらの用語を包含する言明は、本明細書に記載される主題を限定しないものと、又は、請求項の意味若しくは範囲を限定しないものと、理解されるべきである。この特許が及ぶ本発明の実施形態は、請求項により定義され、この概要によって定義されない。この概要は、本発明の様々な態様の高いレベルでの概観であり、以下の詳細な説明の章にてさらに説明される概念のうちのいくつかを紹介している。この概要は、請求項に記載された主題の鍵となる、必要とされる、又は、不可欠な特徴を特定することが意図されないだけではなく、請求項に記載された主題の範囲を判定するために単独で使用されることも意図されない。主題は、この特許の明細書全体の適切な部分と、いずれかの又は全ての図面と、各請求項と、を参照することにより理解されるべきである。
本明細書においては、データを編成し、表現し、見出し、発見し、当該データにアクセスするための、システム及びそれに纏わる方法、の実施形態について説明する。いくつかの実施形態において、情報及びデータは、本明細書において「特徴グラフ(Feature Graph)」(係属中の商標登録出願の主題であり、「システム(System)」もまた、係属中の商標登録出願の主題であることに留意されたい。)と呼ばれる新規のデータ構造の形で表現される。特徴グラフは、ノード及びエッジを含むグラフ又は図であり、ここで、エッジは、或るノードを1つ以上の他のノードに「連結する」ように働く。特徴グラフ内のノードは、変数、つまり、測定可能な量、オブジェクト、特質、特徴、又は因子を表現し得る。特徴グラフ内のエッジは、或るノードと1つ以上の他のノードとの間の統計的連関の測度を表現し得る。
統計的連関は、典型的には(いくつかの実施形態においては、これに限らないが)、科学的方法(Scientific Method)のアプローチに見受けられる1つ以上のステップを、調査((1)観測を行うこと、(2)推察(仮定)を行うこと、(3)それらから論理的帰結として予測を導出すること、及び、次に、(4)当該予測に基づいて実験を実施して、当初の推察が正しかったのかどうか判定すること、といったステップ又はステージを含むものとして典型的に説明される)に対して実施することから生じる。連関は、数値的な及び/又は統計的なターム(用語)で表され、観測された(又は可能性として、裏付けに乏しい)関係から、測定された相関関係、因果関係に至るまで、多様であり得る。特徴グラフを構築するために使用される情報及びデータは、学術論文、実験、機械学習の実験の結果、人間による又は機械による観測、2つの変数間の連関の、裏付けに乏しいエビデンス等のうちの1つ以上から取得され得る。
特徴グラフにおいて表現される統計的連関のタイプが広範囲であること、並びに、特徴グラフを構築するために使用される情報及び/又はデータのソースが多様性に富んでいること、を理由に、本明細書に記載されるシステム及び方法の実施形態は、数学的で、言語ベースの、視覚的な方法を用いて、所与の統計的連関をサポートする情報及び/又はデータの品質、厳密性、信憑性、再現性、信頼性、及び/又は完全性、を表現する。
1つの実施形態において、本発明は、興味のあるトピックに関連するモデルをトレーニングする際に使用するための関連性を有するデータセットを特定するための、コンピュータにより実行される方法を対象とする。この実施形態は、プログラムされた処理要素によって実行されるべき命令(例えば、ソフトウェアモジュール又はルーチン)のセットを含む。この方法は、研究のトピックと当該研究において考察された1つ以上の変数との間の統計的連関についての情報を含んでいるソースのセットにアクセスすることを含む。ソースに包含されている情報は、ノードと、ノードを連結しているエッジと、を含むデータ構造又は表現を構築するために使用される。エッジは、2つのノード間の統計的連関についての情報に連関し得る。1つ以上のノードは、それに連関するデータセットを有し得、当該データセットには、リンク又は他の形のアドレス若しくはアクセス要素を使用してアクセス可能である。実施形態は、ユーザがデータ構造にわたる検索を記述及び実行して、機械学習モデルのトレーニングに関連性を有し得るデータセットを特定する、ことを可能にする機能性を含み得、当該モデルは、特定の決定又は分類を行う際に使用される。
他の実施形態は、ノードと、エッジと、データセットへのリンクと、を含むデータ構造によって表現され得る。ノード及びエッジは、概念、興味のあるトピック、又は、以前の研究のトピックを表現している。エッジは、ノード間の統計的連関についての情報を表現している。リンク(又は別の形のアドレス若しくはアクセス要素)は、研究の一部であった1つ以上の変数間の、又は、変数と概念若しくはトピックとの間の、統計的連関を確立する(又は、サポートする、論証する等)データセットへのアクセスを提供する。
他の実施形態は、本明細書に記載される方法及びデータ構造を使用して特定された1つ以上のデータセットを使用して、特定の機械学習モデルをトレーニングすることを含み得る。トレーニングされたモデルは次に、決定若しくは「予測」を行うために、又は、入力データのセットの分類を実施するために、使用され得る。トレーニングされたモデルは、信号処理又は画像処理、適応制御システム、センサシステム等において使用され得る。
本発明の他の目的及び利点は、本発明の詳細な説明及び含まれている図を検討すると、当業者に明らかになるであろう。
本開示による本発明の実施形態について、図面を参照して説明する。
図1(a)は、本明細書に記載されるシステム及び方法の一実施形態を実施するために使用され得るアーキテクチャを例示するブロック図である。 図1(b)は、ユーザが検索を制御すること、及び、検索クエリを挿入すべき位置を特定すること、をより容易に可能にするために、本明細書に記載されるシステム及び方法の一実施形態の実施において使用され得るユーザインターフェイスアイコンを例示するスクリーンショットである。 図1(c)は、標準的な又は従来の意味的検索のために使用され得るユーザインターフェイスアイコンを例示する図である。 図1(d)は、図1(c)において例示されるのと同じ検索入力についての、統計的検索のために使用され得るユーザインターフェイスアイコンを例示する図である。 図2(a)は、本明細書に記載されるシステム及び方法の一実施形態の実装を使用して、特徴グラフを(中央データベース又は「システムDB(SystemDB)」に包含されるデータから)構築するためのプロセス、方法、機能、又は動作を例示するフローチャート又はフロー図である(中央データベース又は「システムDB」は、複数個の特徴グラフにおいて使用されるデータを提供することがあり得、特徴グラフの中央インスタンスである)。 図2(b)は、潜在的に関連性を有するデータセットを特定するために特徴グラフがトラバースされる例示的な使用事例のための、本明細書に記載されるシステム及び方法の一実施形態において実装され得る、プロセス、方法、機能、又は動作を例示するフローチャート又はフロー図である。 図3は、データ及び情報を編成し、データ及び情報にアクセスするために使用され得る、且つ、本明細書に記載されるシステム及び方法の一実施形態の実施により作成され得る、特徴グラフデータ構造の一部の一例を例示する図である。 図4は、本発明の一実施形態による方法、プロセス、機能、又は動作を実施するように構成されたコンピュータデバイス又はシステム内に存在し得る要素又はコンポーネントを例示する図である。 図5は、本明細書に記載されるシステム及び方法の一実施形態を実施する際に使用され得るサービスプラットフォームのための例示的なシステムアーキテクチャを例示する図である。
同様の構成部分及び特徴を参照するために、開示及び図の全体にわたって同じ番号が使用されることに留意されたい。
[詳細な説明]
ここでは、本発明の実施形態の主題について、法的な要件に見合う具体性を伴って説明するが、この説明は、請求項の範囲を限定することは必ずしも意図されていない。請求項に記載された主題は、他の手法で具現化されてよく、異なる要素又はステップを含んでよく、他の既存の又は今後の技術と併せて使用されてよい。この説明は、様々なステップ又は要素の両者間又は三者以上の間における、いずれかの特定の順序又は配列を暗示するものとして解釈されるべきではないが、個々のステップの順序又は要素の配列が明示的に説明されるときは、この限りではない。
以下においては、本発明の実施形態について、本発明の一部を成し、且つ、本発明が実施され得る例示的な実施形態を例示によって示す、添付の図面を参照して、より存分に説明する。しかしながら、本発明は、多くの異なる形で具現化されてよく、本明細書において明記される実施形態に限定されるものと解釈されるべきではなく、これらの実施形態は、むしろ、この開示が法的な要件を満たし、且つ、本発明の範囲を当業者に伝えるように、提供されている。
とりわけ、本発明は、全体又は一部において、システムとして、1つ以上の方法として、又は、1つ以上のデバイスとして、具現化され得る。本発明の実施形態は、ハードウェア実装の実施形態、ソフトウェア実装の実施形態、又は、ソフトウェア態様及びハードウェア態様を組み合わせる一実施形態、の形を取り得る。例えば、いくつかの実施形態において、本明細書に記載される動作、機能、プロセス、又は方法のうちの1つ以上は、クライアントデバイス、サーバ、ネットワーク要素、又は、他の形の計算デバイス/プラットフォーム若しくはデータ処理デバイス/プラットフォームの一部である、1つ以上の好適な処理要素(例として、プロセッサ、マイクロプロセッサ、CPU、GPU、コントローラ等)により実装され得る。1つ以上の処理要素は、実行可能な命令(例えば、ソフトウェア命令)のセットでプログラムされており、ここで、命令は、好適なデータストレージ要素内に格納され得る。
いくつかの実施形態において、本明細書に記載される動作、機能、プロセス、又は方法のうちの1つ以上は、プログラマブルゲートアレイ(programmable gate array:PGA若しくはFPGA)、又は特定用途向け集積回路(application specific integrated circuit:ASIC)等といった特化された形のハードウェアにより実装され得る。本発明の方法の一実施形態は、アプリケーション、より大きなアプリケーションの一部であるサブルーチン、「プラグイン」、データ処理システム若しくはプラットフォームの機能性の拡張、の形で、又は、他の好適な形で、実装され得ることに留意されたい。したがって、以下の詳細な説明は、限定の意味合いに取られるべきではない。
述べたように、機械学習は、記載されるシステム及び方法の一実施形態を使用することから利益を得る一般的ケースを表現している。有用な機械学習モデルとは、ユーザが意思決定を行うための根拠として使用するのに足る信頼度を有することが可能になる出力を生成するものである。成功するモデルを築くためには、モデルにより表現される学習プロセスをトレーニングするのに適切なデータセットを特定及び構築する必要がある。しかしながら、本発明者により認識されるように、トレーニングデータを特定し、トレーニングデータにアクセスすること(時として「特徴の調達」と称される)は、情報及びデータが編成される従来の手法のため、今日、大部分において非常に難しい。
さらに、本発明者によりやはり認識されるように、最も関連性を有しており、正確であり、且つ、効果的なトレーニングデータとは、モデルの使用によって行われている意思決定に関連性を有していると、経験的な(又はさもなければ信頼性のある)研究により示されたデータであろう。例えば、或るデータセットが1つ以上の変数と或る成果との間における論証可能な統計的連関を示す場合、当該データセットはおそらく、当該成果が生じるかを判定するために使用されているモデルの適正なトレーニング用に依拠することができる。同様に、或るトピックの研究で使用されたデータセットが充分な統計的連関をサポートしておらず、或る特定の変数を全く示さないか、又は、考察していない場合、そのデータセットはモデルのトレーニングに有用ではないと考えられるだろう。
本明細書に記載されるシステム及び方法の実施形態は、グラフデータベースの構築又は作成を含み得る。この説明の文脈において、グラフは、何らかの種類の密接な又は関連性を有する関係を有している場合に共に対にされたオブジェクトのセットである。一例が、ノードを表現しており、且つ、パスにより連結されている、2つのデータである。1つのノードが多くのノードに連結され得、多くのノードが特定のノードに連結され得る。第1のノード及び第2のノード、又は複数のノードを連結しているパス又はラインを、「エッジ」と呼ぶ。エッジは、1つ以上の値に連関し得、このような値は、連結されたノードの特質、1つ以上のノード間の関係の計量又は測度(例として、統計的パラメータ)等を表現し得る。グラフフォーマットは、変数又は関係のセットのより中心にあるもの、より重要ではないもの、等といった、或る特定のタイプの関係を特定することをより容易にし得る。グラフは、典型的に、2つの主要なタイプ、即ち、グラフの表現する関係が対称である「無向」タイプと、当該関係が対称ではない「有向」タイプ(有向グラフのケースにおいては、ノード間の関係の態様を示すために、ラインの代わりに矢印が使用され得る)と、において生じる。
いくつかの実施形態において、本明細書に記載される動作、機能、プロセス、又は方法のうちの1つ以上は、全体又は一部において、構造化されたソースからの変数と構造化されていないソースからの変数との間の種々の程度の統計的連関についての情報を(当該連関を実証又はサポートするデータ又はデータセットと共に)取り出し、且つ、取り出した情報を、本明細書において「特徴グラフ」と呼ばれるものを生成するために使用することが可能なデータ構造で構造化し格納する、システムによって実装され得る。特徴グラフは、研究のトピック、研究において吟味された変数、或る変数と1つ以上の変数との間の、及び/又は、或る変数とトピックとの間の、統計的連関、を表現しており、データのセット(データセットと称される)へのリンク若しくは他の形のアクセスか、又は、統計的連関についてのサポートを提供する測定可能な量、を含む。リンクは、付加的に又は代替的に、様々な母集団(例えば、18歳以上の女性、日本)における変数を測定するデータセットに至り得る。
いくつかの実施形態において、統計的連関は、数値的な及び/又は統計的なタームで表され、有意性の点で、観測された連関から、測定された関係、因果関係に至るまで、多様であり得る。システムのいくつかの実施形態により、数学的及び視覚的な、言語ベースの方法が用いられて、所与の統計的連関又は観測された連関をサポートする情報及び/又はデータの品質、厳密性、信憑性、再現性、及び/又は、完全性、を表す。
例えば、所与の統計的連関は、当該連関をさらに調査すべきか否かをユーザに示すために、その科学的な「品質」又は信頼性に(全体的に、及び、「査読付き」といった特定のパラメータに)基づいて、ユーザインターフェイスにおける特定のスコア、ラベル、及び/又は、アイコンに連関され得る。他の実施形態において、特徴グラフを検索することによって取り出された統計的連関は、それらの科学的な品質スコアに基づいて、フィルタリングされ得る。或る特定の実施形態において、品質スコアの計算は、特徴グラフ内に格納されたデータ(例えば、所与の連関の統計的有意性、又は、当該連関が文書化されている程度)を、特徴グラフ外に格納されたデータ(例えば、当該連関が取り出された雑誌記事の被引用回数、又は、当該記事の著者のh指数)と組み合わせ得る。特徴グラフは、統計的に関連性を有するデータ又は情報を表現して、当該データ又は情報にアクセスする、ために使用されており、したがって、このような品質測度は、本明細書に記載される使用事例にとって、従来の知識グラフ又は意味的検索の結果にて使用される場合におけるような測度よりも、より関連性が高いことに留意されたい。
注記したように、データは、従来のアプローチを使用して、主として言語に基づいて、検索可能になるように編成されている。例えば、この形の編成は、データセット(例えば、著者名)、データセット内の列、行、若しくはフィールドのラベル、又は、ユーザの検索入力と当該データラベルとの間の意味的関係(例として、等価性、充分な類似性、共通同義語である、等)、についてのメタデータに基づき得る。この後者のアプローチは、トピックに関連する事実と、それらの間の意味的関係と、を表現する「知識グラフ」の核となる前提である。例えば、リンゴ「は或るタイプの」、ニューヨーク「で生産される」果物である。知識グラフを用いると、「リンゴ」についてのデータセットの検索は、次に、理論的には、他の果物(例えば、オレンジ)、又は、ニューヨークで生産される他の果物(例えば、カボチャ)についてのデータセットを取り出し得る。パブリックドメイン及び企業におけるデータはたいてい、言語と、ラベル間又はターム間の意味的関係と、に基づいて編成されている。
知識グラフに基づいた検索の一例として、カリフォルニア州司法省(the State of California Department of Justice)により生産された2つのデータセットが、2017年にカリフォルニアで発生した犯罪についてのデータを包含しており、データセットの一方が器物破損行為についてのデータを包含しており、他方が窃盗についてのデータを包含していることを想定されたい。知識グラフに基づいた、従来のデータ(又は、機械学習のタームでは「特徴」)検索又は管理プラットフォームは、検索タームとしての、「カリフォルニア」、「カリフォルニア州司法省」、及び/又は、「2017年」のうちの1つ以上の検索に応答して、両方のデータセットを取り出すであろう。さらに、知識グラフを用いたデータ/特徴検索又は管理プラットフォームは、「器物破損行為」又は「窃盗」のいずれかの検索により、両方のデータセットを取り出すことが考えられるが、その理由は、両方のタームが、知識グラフ内の「犯罪」という共通のカテゴリ又はラベルに意味的に関連することが期待されるであろうためである。
それ故に、従来のアプローチを用いると、データセット内の又はデータセットについての言語(即ち、ラベル又はメタデータに「マッチングしている」検索ターム)に基づいて、データセットを見出すことに加え、データセット内の及びデータセットについてのワード並びに検索ターム間の意味的関係に基づいて(例として、他のものが意味的に連関しているか又はリンキングされている、一般的なカテゴリ又はラベルを参照することによって)、データセットを見出すことも、可能である。その結果、データサイエンティストが、どのトピック(又は変数)を検索すべきか知得している場合、このデータサイエンティストは、少なくとも理論的には、潜在的に関連性を有しているデータを見出すことができる(但し、これは、知識グラフ内の意味的連関に完全性が想定されることを前提とする)。
しかしながら、データを編成し見出す知識グラフの構造又は方法は、予測モデリング及び機械学習といったいくつかの用途には不適切である。その理由は、典型的な予測分析又は機械学習のタスクにおいて、データサイエンティスト又はリサーチャが、自身のトピック又はターゲット(即ち、最終目標、研究の結果若しくは目的)については知得しているものの、当該トピック又はターゲット或いはその値(例えば、何らかの状況の有無)を予測するのにどのデータ(例として、因子、変数、又は特質)が最も有用であるのかについては知得していないためである。したがって、データサイエンティストは、どのトピック又は寄与因子(即ち、研究の目的に関連性を有し得るか、若しくは、研究の目的を最も予測し得ることが考えられ得るもの)を検索すべきかについて知得していない。この状況により、従来のデータ管理プラットフォーム又は知識グラフのアプローチを使用して関連性を有するデータを特定し、当該データにアクセスすることが、非効率的であって且つ潜在的に信頼性のないものとなる。実際に、広範にわたって認識されていることとして、現時点で、機械学習の実装のうちの最も困難な部分の1つが、機械学習モデルのための適切なトレーニングデータの調達である。
以下の表に、データを編成する従来のアプローチ、及び、それらの不利益のうちのいくつかを示す。
Figure 2022523917000002
図1は、本明細書に記載されるシステム及び方法の一実施形態を実装するために使用され得るアーキテクチャ100を例示するブロック図である。例示的なアーキテクチャの簡潔な説明を以下に提供する。
アーキテクチャ
●いくつかの実施形態において、図1に例示されるアーキテクチャの要素又はコンポーネントは、それらの機能に基づいて、及び/又は、当該要素若しくはコンポーネントへのアクセスがいかに提供されるかに基づいて、区別され得る。機能的に、システムのアーキテクチャ100は、以下のものを区別している。
○情報/データへのアクセス及び取り出し(アプリケーション112、追加/編集118、及びオープンサイエンス103として例示)-これらは、特徴グラフ又は類似するデータ構造を生成するための根拠として働く、データ、変数、トピック、概念、及び統計的情報を提供する、実験、研究、機械学習モデル等の情報及び記述のソースである)。
○データベース(システムDB(SystemDB108として例示))-電子データのストレージ媒体又は要素であり、好適なデータ構造又はスキーマと、データ取り出しプロトコル/方法論と、を利用している。
○アプリケーション(アプリケーション112及びウェブサイト116として例示)-これらは、パブリックユーザ(パブリック102)、顧客104、及び/又は管理者106から受信された命令又はコマンドに応じて実行される。アプリケーションは、以下のもののような、1つ以上の有用な動作又は機能を実施し得る。
■システムDB108又は特徴グラフ110を検索し、ユーザクエリに対する関連性の変数、データセット、及び他の情報を取り出すこと、
■特徴グラフの特定のノード又は関係を特定すること、
■パブリック102、又は、データへのアクセスを所有若しくは制御する顧客若しくは企業104(この意味合いにおいて、顧客104は、情報/データ取り出しアーキテクチャ/ソースの要素として働いていることに留意されたい。)以外の他者、によりデータがアクセスされ得るように、システムDB108にデータを書き込むこと、
■指定されたデータセットから特徴グラフを生成すること、
■複雑性、統計的有意性の相対次数等の1つ以上のメトリック(測定基準)又は測度に従って、特定的な特徴グラフを特徴付けること、並びに/或いは、
■機械学習モデルをトレーニングする際に使用するデータセットについてのレコメンデーションを得ること。
●システムへのアクセス及びその能力の観点から、システムのアーキテクチャは、パブリック102にとってアクセス可能な要素又はコンポーネントと、定義された顧客、企業、組織、又は、企業若しくは組織のセット(例として、社会セクタにおける産業コンソーシアム若しくは「データコラボレーション」)104にとってアクセス可能な要素又はコンポーネントと、システム106の管理者にとってアクセス可能な要素又はコンポーネントと、を区別している。
●トピック、因子、若しくは変数間の統計的連関についての情報/データ、又は、当該統計的連関を論証する情報/データは、多数のソースから取り出され(即ち、アクセス及び取得され)得る。これらは、雑誌記事、技術的及び科学的な刊行物及びデータベース、リサーチ及びデータサイエンス用のデジタル「ノートブック」、実験プラットフォーム(例えば、A/Bテスト用)、データサイエンス及び機械学習のプラットフォーム、並びに/又は、観測された変数とトピック、概念、若しくは目標との間の観測された統計的(若しくは裏付けに乏しい)関係をユーザが入力することができるパブリックウェブサイト(要素/ウェブサイト116)を含み得る(が、これらに限定されない)。
○情報/データ取り出しアーキテクチャのコンポーネントは、例えば、自然言語処理(NLP)、自然言語理解(NLU)、及び/又は、画像を処理するためのコンピュータビジョン(入力/ソース処理要素120により例示)を使用して、刊行されたか又はさもなければアクセス可能な科学的雑誌記事を、(例として、光学文字認識(optical character recognition:OCR)を使用することによって)スキャンする又は「読み取る」ことと、(例えば、「増加する(increases)」というターム又は別の関連性を有するターム若しくは記述を認識することによって)統計的連関が測定されたことを示すワード及び/又は画像を特定することと、それに応答して、連関についての、及び、当該連関を測定する(例えば、サポートする)データセットについての、情報/データを取り出すこと(図において「オープンサイエンス」103とラベリングされた要素により、及び、図2(a)のステップ若しくはステージ202により、示唆されるように。)と、を行い得る。
○情報/データ取り出しアーキテクチャの他のコンポーネント(図示せず)は、ユーザに対し、自身のデジタル「ノートブック」(例えば、ジュピターノートブック(Jupitor Notebook))にコードを入力して、機械学習実験(例えば、所与のモデルで使用された特徴の「特徴重要度」の測定)と、当該実験で使用されたデータセットについての情報と、のメタデータ出力を取り出す、手法を提供し得る。
○いくつかの実施形態において、情報/データの取り出しは、一般に、定期的又は継続的に起こり、システムに対し、格納して、構造化して、それによってユーザに公表すべき、新たな情報を提供することに留意されたい。
●いくつかの実施形態においては、アルゴリズム/モデルのタイプ(例えば、ロジスティック回帰(Logistic Regression))、モデルパラメータ、数値(例えば、0.725)、単位(例えば、ログ損失)、統計的特性(例えば、p値=0.03)、特徴重要度、特徴ランク、モデル性能(例えば、AUCスコア)、及び、連関についての他の統計値が、取り出された状態で特定されて格納される。
○リサーチャ及びデータサイエンティストが同じ又は密接に類似する概念を記述するために異なるワードを用い得ると仮定すると、変数名(例えば、「有酸素運動」)は、取り出された状態で格納され、次に、パブリックドメインのオントロジ(例えば、Wikidata)に意味的にグラウンディングされ(即ち、リンキングされ又は関連付けられ)て、共通の、又は、典型的に同義の若しくは密接に関連する、ターム及び概念に基づいた、変数(及び連関する統計的連関)のクラスタリングを容易にし得る。
■例えば、所与のユーザにより「log_house_sale_price」とラベリングされた変数は、システムにより、一意のIDであるQ58081362を有している、Wikidata内のトピック「不動産価格」に意味的に連関され(及び、ユーザによりさらに確認され)得る。
●本明細書に記載されるように、中央データベース(「システムDB」108)は、取り出された情報/データと、それに連関するデータ構造(即ち、ノード、エッジ、値)と、を格納する。システムDB内に格納された情報/データの全て又はサブセットを包含する中央データベースのインスタンス又は射影は、定義された顧客、企業、又は組織104(若しくはそのグループ)にとって、自身の使用のために(例えば、「特徴グラフ」110の形で)利用可能となる。
○特定の特徴グラフへのアクセスが、所与の企業又は組織に連関する或る特定の個人に制限され得るが故に、当該特徴グラフは、所与の企業又は組織104にとって私的であると又は所有権を有していると考えられ得る変数及び統計的連関についての情報/データ(例として、雇用データ、財務データ、製品開発データ、R&Dデータ等)を表現するために使用され得る。
○各顧客/ユーザは、特徴グラフの形で、システムDBの自身のインスタンスを有している。全ての特徴グラフは、並行して、及び、ほとんどのケースにおいて頻繁に、システムDBからデータを読み取り、特徴グラフのユーザがシステムDB内に格納されている最新の知識を得ることを保証する。
●アプリケーション112は、特徴グラフ110の上に策定され(「築かれ」)得、いくつかのアプリケーションが、そこからデータを読み取り得、いくつかのアプリケーションが、そこに書き込みを行い得、いくつかのアプリケーションが、その両方を行い得る。アプリケーションの一例が、データセットについてのレコメンダシステム(本明細書において「データレコメンダ」と称される)であり、これについては、より詳しく説明する。特徴グラフ110を使用する顧客104は、自身の組織以外の、より広いユーザのグループと、又はパブリックと、或る特定の情報/データの共有を望む場合、好適なアプリケーション112を使用してシステムDB108に情報/データを「書き込む」ことができる。
○アプリケーション112は、顧客104のデータプラットフォーム及び/又は機械学習(ML)のプラットフォーム114と統合され得る。データプラットフォームの一例が、Googleクラウドストレージ(Google Cloud Storage)である。ML(又はデータサイエンス)のプラットフォームは、ジュピターノートブックといったソフトウェアを含み得る。
■このようなデータプラットフォーム統合は、例えば、顧客のデータストレージ又は他のデータリポジトリ内のデータレコメンダアプリケーションによってレコメンドされた特徴に、ユーザがアクセスすることを可能にするであろう。別の例として、データサイエンス/MLプラットフォーム統合は、例えば、ノート内から特徴グラフにユーザがクエリを行うことを可能にするであろう。
○留意されたいこととして、顧客のデータプラットフォーム及び/又は機械学習(ML)のプラットフォームとのこのような統合に加えて又はその代わりに、アプリケーションへのアクセスが、サービスとしてのソフトウェア(Software-as-a-Service:SaaS)又は類似するマルチテナントアーキテクチャといった好適なサービスプラットフォームアーキテクチャを使用して、管理者により顧客に提供され得る。このようなアーキテクチャの主要な要素又は特徴のさらなる説明は、図5を参照して本明細書において記載される。
●いくつかの実施形態においては、パブリック102にとって、ウェブベースのアプリケーションがアクセス可能となり得る。ユーザは、ウェブサイト(例として、「System.com」116)上で、Wikipediaといったウェブサイトで経験した方式に類似する方式で、(図において、追加/編集の機能性118により示唆されるように)システムDB108からの読み取り及びシステムDB108への書き込みが可能にされ得る。
●いくつかの実施形態においては、システムDB108内に格納されてSystem.com116上でパブリックに公表されたデータは、Wikipediaといったウェブサイトで経験した方式に類似する方式で、パブリックにとって自由に利用可能なものとなり得る。
図1(b)は、統計的検索(Statistical Search)(本明細書に記載される検索のタイプに本発明者が与えた名前又はラベル)を差別化し、統計的検索のトリガ及び制御をユーザがより容易に行えるようにし、統計的検索クエリ160を挿入すべき位置(縁取られたクエリ入力「ボックス」)を特定する、ために、本明細書に記載されるシステム及び方法の一実施形態の実装において使用され得るユーザインターフェイスアイコン150(図1(d)にも図示)を例示するスクリーンショットである。
留意されたいこととして、例えば、Google及び他の普及している検索エンジンが、自身の提供する検索の深度を(図1(c)に示されるように)視覚的にシグナリングするために使用する検索バー及び虫眼鏡のアイコンとは対照的に、一実施形態は、その代わりに、2つのノードと当該ノードを連結する1つのエッジとを備え、標準的な意味的検索よりもより広い意味合いで(即ち、統計的連関を探し求める)統計的検索が実装されていることをユーザにシグナリングし、且つ、この検索の態様に対する制御をユーザに与えている、「マイクログラフ」150を用い得る。ユーザは、ソースノード151、ターゲットノード152、又は両方のノードを選択することにより、特徴グラフのトラバーサルに関して、自身の意図を指定し得る。例えば、
●ユーザは、ノードのうちの下側のノード151を選択することにより、検索入力が、何に関連しているのか、何を予測するのか、及び、何を誘起するのか、の知得に興味があることを指定し得、
●ユーザは、ノードのうちの上側のノード152を選択することにより、検索入力が、何により予測されるのか、又は誘起されるのか、の知得に興味があることを指定し得、或いは、
●ユーザは、ノード151及びノード152の両方を選択することにより、2つ以上の検索入力がいかに関連しているのか、の知得に興味があることを指定し得る。
動作時に、ユーザインターフェイス要素において一方又は両方のノードをユーザが選択することにより、検索入力(ターゲットとしての入力)から上流の連関について、検索入力(ソースとしての入力)から下流の連関について、又は、2つの入力をリンキングするパス(及び関連する変数)について、の統計的検索の結果がフィルタリングされる。
本願における図1(b)の説明及び他の情報により示されるように、標準的な意味的検索と、本明細書に記載されるような「統計的検索」との間には、根本的な差異が存在する。統計的検索を実施し、且つ、その結果を提示する能力は、ユーザの入力に統計的に連関する1つ以上の変数をユーザが取り出すことを可能にすることにより、本明細書に記載されるシステム及び方法の利益及び利点のうちの1つである。このような検索プロセスは、特徴グラフのデータ構造を用いてのみ可能である。
●意味的関係を用いる従来の検索は、以下の特質を有しているであろう。
入力:変数又は概念
出力:入力にマッチングしているか、又は、入力に意味的に関連している、全てのノードであって、ユーザ指定のタイプ(例えば、データセット)によりフィルタリング可能である。
例:
入力=喫煙者(Smoker)
出力=喫煙(Smoking)、喫煙者ら(Smokers)、たばこ(Cigarettes)等
検索バー又はユーザ入力は、図1(c)に示されるように出現する。
●対照的に、本明細書に記載されるシステム及び方法の一実施形態により実装されるような統計的検索は、以下の特質を有する。
入力:変数又は概念
出力:入力に統計的に連関する変数及び/又は概念であって、ユーザ指定のタイプ(例えば、データセット)によりフィルタリング可能である。
例:
入力=喫煙者(Smoker)
出力=高血圧(High Blood Pressure)、週間収入(Weekly Earnings)、性別は男性である(Gender is Male)等
検索バー又はユーザ入力は、図1(d)に示されるように出現する。
さらには、出力結果のランキングが、連関の値及び品質を考慮し得る。
図2(a)は、本明細書に記載されるシステム及び方法の一実施形態の実装を使用して、特徴グラフを構築する200ためのプロセス、方法、機能、又は動作を例示するフローチャート又はフロー図である。図2(b)は、潜在的に関連性を有するデータセットを特定する220ために特徴グラフがトラバースされる例示的な使用事例のための、本明細書に記載されるシステム及び方法の一実施形態において実装され得る、プロセス、方法、機能、又は動作を例示するフローチャート又はフロー図である。
図(具体的には図2(a))において示されるように、特徴グラフは(ステップ又はステージ202により示唆されるように)、研究において使用された変数又は因子間の統計的連関についての情報及びデータを包含するソースのセットを特定し、当該セットにアクセスする、ことによって構築又は作成される。このタイプの情報は(204により示唆されるように)、変数、統計的連関、及び、当該連関をサポートするために使用されたデータ、についての情報を提供するために、定期的に又は継続的に取り出され得る。注記したように、この情報及びデータは、処理されて、当該ソースにおいて使用又は記述された変数に加え、当該変数のうちの1つ以上と当該変数のうちの他の1つ以上との間の統計的連関も特定される。
図2(a)を続けると、202において、データ/情報のソースがアクセスされる。アクセスされたデータ/情報は、処理されて、1つ以上のソースにおいて見出された変数及び統計的連関が特定される204。記載されたように、このような処理には、画像処理(例として、OCR)、自然言語処理(NLP)、自然言語理解(NLU)、又は、雑誌論文か、リサーチノートか、実験ログか、若しくは研究の他のレコードのコンテンツの理解を支援する、他の形の分析が含まれ得る。
さらなる処理は(ステップ又はステージ206により示唆されるように)、変数のうちの或る特定のものを、オントロジ(例えば、国際疾病分類(International Classification of Diseases))か、又は、当該変数について使用されたタームに対する意味的な等価物若しくは意味的に類似するタームを提供するデータの他のセット、にリンキングすることを含み得る。このことは、特定の研究において使用された変数名を、他の研究において使用されていたかもしれない、実質的に等価であるか又は類似するエンティティ又は概念の、より大きなセットに拡張することを支援する。変数(注記したように、異なる名前又はラベルによって知得され得る)及び統計的連関は、一旦特定されると、データベース、例えば、図1のシステムDB108内に格納される(208)。アクセスされた情報及びデータを処理した結果は(ステップ又はステージ210により示唆されるように)、次に、特定のデータモデルに従って、構造化又は表現される。このモデルについては、本明細書においてより詳しく説明するが、一般に、特徴グラフを構築するために使用される要素(即ち、トピック又は変数を表現するノードと、統計的連関を表現するエッジと、統計的連関のメトリック又は評価を含む測度と)を含んでいる。データモデルは、次に、データベース内に格納され(212)、特定のユーザ又はユーザのセットのための特徴グラフを構築又は作成するためにアクセスされ得る。
注記したように、図2(a)を参照して説明したプロセス又は動作により、ノードと、当該ノードのうちの或る特定のものをリンキングするエッジと、を包含するグラフ(図3にその一例を例示)の構築が可能になる。ノードは、研究又は観測のトピック、ターゲット、又は変数を表現しており、エッジは、或るノードと1つ以上の他のノードとの間の統計的連関を表現している。各統計的連関は、数値と、モデルのタイプ又はアルゴリズムと、エッジにより連結されたノード(変数、因子、又はトピック)間の統計的連関の強度、信頼度、又は信頼性を記述する統計的特性と、のうちの1つ以上に関連付けられてもよい。留意されたいこととして、エッジに関連付けられる、数値、モデルのタイプ又はアルゴリズム、及び統計的特性は、相関関係、予測関係、因果関係、裏付けに乏しい観測等を示し得る。
一旦、情報及びデータがアクセスされて、データベース(例として、システムDBであり、これは、未処理のデータ及び情報と処理されたデータ及び情報との両方、並びに、データモデルの形で格納されたデータ及び情報、を包含し得る)における格納用に処理されると、変数、トピック、ターゲット、又は因子の指定されたセットを包含する特徴グラフが構築され得る。特定のユーザのための特徴グラフは、システムDB内のデータ及び情報の全て、又は、そのサブセット、を含み得る。例えば、特定の顧客104のための特徴グラフ(図1における110)は、システムDB110内の所与のドメイン(例えば、公衆衛生)が顧客の関心の対象となるドメイン(例えば、メディア)に適用可能であるといった条件を満たすデータ及び情報を、システムDBから選択することに基づいて、構築され得る。
●留意されたいこととして、特定の顧客又はユーザのための特徴グラフを配備する/生成する/構築する際に、システムDB内のデータは、性能を改善するために、調査されている問題又は概念/トピックに関連性を有さないであろうデータを除去することにより、フィルタリングされ得る。
以下の表は、特徴グラフと知識グラフとの間の或る特定の差異の概要を提供する。
Figure 2022523917000003
特定のユーザ又はユーザのセットのための特徴グラフを構築した後に、このグラフは、研究、モデル、又は調査のトピック又は目標にとって興味のある変数を特定するために、また、所望される場合には、当該変数の関連性をサポート若しくは確証するか、又は、興味のある変数を測定する、データセットを取り出すために、トラバースされ得る。留意されたいこととして、特徴グラフがトラバースされるプロセスは、以下の2つの方法、即ち、(a)検索パラメータの、明示的なユーザチューニング、又は、(b)変数/データを取り出すためのパラメータの、アルゴリズムベースのチューニング、のうちの一方により制御され得る。例えば、「本発明のプロセスが価値を有するであろう他の使用事例又は環境」と題される本願の章に記載される使用事例においては、ユーザチューニングが典型的には利用され、一方、データレコメンダアプリケーションが使用された使用事例においては、アルゴリズム的チューニングが典型的には利用されるであろう。
例えば、及び、図2(b)において示されるように、構築又は作成された特徴グラフ(222)は、特定の調査、トピック、研究、又は分析に対して潜在的な価値を有するデータセットを特定するために、トラバースされ得る。図において例示される例示的なプロセスにおいて、ユーザは、検索クエリを定義する一部として使用されるべき因子を入力し得る(ステップ又はステージ224)。これらの因子は、興味のあるターゲット/トピック、変数、又は因子(例えば、「住宅価格」)、及び、構築されているモデルのパラメータ(例えば、「国勢統計区(census tract)」というキーに結び付けることが可能であり、「シカゴ、2017年」という母集団において測定されたもの)を含み得る。データレコメンダアプリケーション(例として、図1の112)は、次に、特徴グラフをトラバースして、関連性を有しており、且つ、モデルのトレーニングに有用であることが期待されるデータセットを特定する(ステップ又はステージ226)。特定されたデータセットには、次に、ランキング、フィルタリング、又はさもなければ順序付けが行われ得(ステップ又はステージ228であり、これについてはより詳しく説明する)、その後、ユーザへの提示が行われる(ステップ又はステージ230)。
図3は、データ及び情報を編成し、データ及び情報にアクセスするために使用され得る、且つ、本明細書に記載されるシステム及び方法の一実施形態の実装を使用して作成され得る、特徴グラフデータ構造300の一部の一例を例示する図である。特徴グラフ300の要素又はコンポーネントと、実装されている、関連付けられたデータモデルと、についての説明を以下に提供する。
特徴グラフ
●注記したように、特徴グラフとは、トピックと、これらに連関する変数、因子、カテゴリ等と、の間の統計的連関を構造化し、表現し、格納する手法である。特徴グラフの核となる要素又はコンポーネント(即ち、「ビルディングブロック」)は、変数(図3においてはV1、V2等として識別される。)と、統計的連関(変数間を連結するライン又はエッジとして識別される。)と、である。変数は、「概念」(図においてはC1として識別される。)にリンキングされ又は関連付けられることができ、この「概念」は、それ自体では必ずしも測定可能ではない意味の概念又はトピックである(例えば、「強盗の件数」という変数は、「犯罪」という概念にリンキングされ得る)。変数は、測定可能な経験的オブジェクト又は因子である。統計学において、連関は、「2つのランダムな変数間の、因果関係であるか否かを問わない、任意の統計的関係」として定義される。統計的連関は、科学的方法と呼ばれるものの1つ以上のステップ又はステージから生じ、例えば、弱い、強い、観測された、測定された、相関的な、因果関係の、予測的な、等と特徴付けられ得る。
○一例として、及び、図3を参照すると、入力変数V1の統計的検索は、以下のものを取り出す。(i)V1に統計的に連関する変数(例えば、V6、V2)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(ii)当該変数に統計的に連関する変数(例えば、V5、V3、V4)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(iii)入力変数V1に統計的に連関する1つ以上の変数(例えば、V2)に、共通の概念(例えば、C1)により意味的に関連する変数(例えば、V7)、及び、(iv)当該変数に統計的に連関する変数(例えば、V8)と、連関する変数を測定するか、又は、取り出された変数の統計的連関を論証する、データセット(例えば、D6、D2、D5、D3、D4、D7、D8)。
■留意されたいこととして、対照的に、入力変数V1の意味的検索は、(1)変数V1、及び、(2)当該変数を測定するデータセット(例えば、D1)しか取り出さない。
●特徴グラフには、(例えば)雑誌記事、科学的及び技術的なデータベース、リサーチ及びデータサイエンス用のデジタル「ノートブック」、実験ログ、データサイエンス及び機械学習のプラットフォーム、観測又は知覚された統計的連関をユーザが入力することのできるパブリックウェブサイト、並びに、他の可能なソース、から取り出された統計的連関についての情報/データが投入される。
○注記したように、自然言語処理(NLP)、自然言語理解(NLU)、及び/又は画像処理(OCR、視覚的認識)の技法を使用することにより、情報/データ取り出しアーキテクチャのコンポーネントは、刊行された科学的な雑誌記事をスキャンする又は「読み取る」ことと、統計的連関が測定された(例えば、「増大する」)ことを示すワード又は画像を特定することと、当該連関についての、及び、当該連関を測定/確証するデータセットについての、情報/データを取り出すことと、が可能である。
○情報/データ取り出しアーキテクチャの他のコンポーネントは、データサイエンティスト及びリサーチャに対し、自身のデジタル「ノートブック」(例えば、ジュピターノートブック)にコードを入力して、機械学習実験(例えば、所与のモデルで使用された特徴の「特徴重要度」の測定)と、当該実験で使用されたデータセットについての情報と、のメタデータ出力を取り出す、手法を提供する。留意されたいこととして、情報/データの取り出しは、定期的に、いくつかのケースにおいては継続的に、起こり、システムに対し、格納して、構造化して、ユーザに公表すべき、新たな情報を提供する。
●1つの実施形態において、データセットは、関連性を有するデータセット/バケット/パイプラインのURIへのリンク(例えば、UCI国勢調査所得データセット(the UCI Census Income Dataset)は、https://archive.ics.uci.edu/ml/machine-learning-databases/adult/_にある)、又は、別の形のアクセス若しくはアドレス、を用いて、特徴グラフ内の変数に連関される。
○これにより、特徴グラフのユーザは、(知識グラフにおけるように、特定されたターゲット/トピックに意味的に関連するトピックについて、潜在的に関連性がより低いか、又は関連性がないデータセットよりもむしろ、)特定されたターゲット/トピックについての当該データのこれまでに論証又は判定された予測力に基づいた、データセットの取り出しが可能になる。
○例えば、本明細書に記載されるシステム及び方法の一実施形態を使用して、データサイエンティストが研究のターゲットトピック又は目標として「器物破損行為」を検索する場合、器物破損行為のインスタンスを測定するデータセットよりもむしろ、当該ターゲット/トピックを予測することが示されたトピック-例えば、「家計所得」、「明度」、及び「交通密度」(並びに、当該ターゲットへの当該統計的連関のエビデンス)-についてのデータセットを取り出すであろう。
●連関の、数値(例えば、0.725)及び統計的特性(例えば、p値=0.03)は、取り出された状態で、システムDB(又は構築された特徴グラフ)内に格納される。注記したように、リサーチャ及びデータサイエンティストが同じ概念を記述するために異なるワードを用い得ると仮定すると、変数名(例えば、「有酸素運動」)は、取り出された状態で格納され、且つ、パブリックドメインのオントロジ(例えば、Wikidata)に意味的にグラウンディングされて、共通の又は類似する概念(例として、同義のターム)に基づいた、変数(及び統計的連関)のクラスタリングを容易にする。
●このシステムは、数学的及び視覚的な、言語ベースの方法を用いて、記録されたエビデンスの認識論的特性、例えば、所与の統計的連関をサポートする情報及び/又はデータの品質、厳密性、信憑性、再現性、及び完全性、を表す。
○例えば、所与の統計的連関は、当該連関をさらに調査すべきか否かをユーザにひと目で示すために、その科学的な品質に基づいて(全体的に、及び、「査読付き」といった特定的なパラメータについて)、ユーザインターフェイスにおける特定のスコア、ラベル、及び/又は、アイコンを携え得る。いくつかの実施形態において、特徴グラフを検索することによって取り出された統計的連関は、それらの科学的な品質スコアに基づいて、フィルタリングされる。或る特定の実施形態において、品質スコアの計算は、特徴グラフ内に格納されたデータ(例えば、所与の連関の統計的有意性、又は、当該連関が文書化されている程度)を、特徴グラフ外に格納されたデータ(例えば、当該連関が取り出された雑誌記事の被引用回数、又は、当該記事の著者のh指数)と組み合わせ得る。
○例えば、高い曲線下面積(area under the curve:AUC)スコアを有しており、部分従属プロット(partial dependence plot:PDP)を有しており、再現性のために文書化されている、モデルにおいて測定された、高く且つ有意な「特徴重要度」スコアとの統計的連関は、特徴グラフにおいて「強い」統計的連関と考えられ得、グラフィカルユーザインターフェイスにおいて識別色又は識別アイコンが与えられ得る。
○留意されたいこととして、一実施形態は、変数及び統計的連関を取り出すことに加え、実験において使用された他の変数を取り出して、ユーザのために統計的連関をコンテキスト化もし得る。このことは、例えば、或る特定の変数が実験において制御されたのか、又は、どのような他の変数(若しくは特徴)がモデルに含まれているのか、をユーザが知得したいと望む場合、助けになり得る。
データモデル
特徴グラフ(又はシステムDB)内の主要なオブジェクトは、典型的に、以下のもののうちの1つ以上を含む。
●変数(又は特徴)--何をどのような母集団で測定しているのか?
●概念--研究しているトピック又は概念は何か?
●近傍--測定している主題は何か?
●統計的連関--この関係の数学的な根拠及び値は何か?
●モデル(又は実験)--この測定のソースは何か?
●データセット--関係(例えば、トレーニングセット)を測定するために使用された、又は、変数を測定する、データセットは何か?
これらのオブジェクトは、(図3において例示されるように)以下のように、特徴グラフ内で関連付けられている。
●変数は、統計的連関を介して他の変数にリンキングされている。
●統計的連関は、モデルから生じており、データセットによりサポートされている。
●変数は、概念にリンキングされており、概念は、近傍にリンキングされている。
例えば、「7~12年生における皮膚のトラブル(skin problems in grades 7-12)」という変数は、特徴グラフにおいて(及びシステムDB、つまり中央データベースにおいて)、線形確率モデルに基づいて、連関値が0.126、標準誤差が0.047、及び、有意水準が0.1において、「個人収入」という変数にリンキングされ得、最初の変数については1994~1995年に、また、2番目の変数については2007~2008年に、Hugo M.Mialon及びErik Nessonにより実施され、DOI:10.2139/ssrn.2964045において公開され(ニキビは報われるのか?ざ瘡、ヒューマンキャピタル、及び労働市場(Do Pimples Pay? Acne, Human Capital,and the Labor Market))、https://www.cpc.unc.edu/projects/addhealth/documentation/publicdataにあるデータセットにより実証されている、米国国内の女性のサンプルにおいて測定されている。「7~12年生における皮膚のトラブル」という変数は、付加的に、「尋常性ざ瘡」という概念に意味的にグラウンディング/リンキングされ得、「個人収入」という変数は、「個人所得」という概念に意味的にグラウンディングされ得、両方の概念名は、Wikidataといったオントロジから調達されている。
注記したように、図2(b)及び図3を参照すると、特徴グラフの1つの使用とは、研究のターゲットトピック、変数、又は概念に、統計的に連関していることが示された変数を包含する1つ以上のデータセットを求めて、ユーザが特徴グラフを検索することを可能にすることである。以下のものを一例として挙げる。
●ユーザは、ターゲット変数を入力し、当該ターゲット変数を予測するモデルをトレーニングするために使用され得る全てのデータセット、即ち、そのターゲット変数に統計的に連関する変数にリンキングされたデータセット、を取り出したいと望んでいる(図2(b)において224により示唆)。
○例えば、及び、図3を参照すると、統計的検索入力V1は、アルゴリズム(例えば、幅優先探索(BFS))にグラフをトラバースさせて以下のものを返させる。即ち、(i)V1に統計的に連関する変数(例えば、V6、V2)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(ii)当該変数に統計的に連関する変数(例えば、V5、V3、V4)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(iii)入力変数V1に統計的に連関する1つ以上の変数(例えば、V2)に、共通の概念(例えば、C1)により意味的に関連する変数(例えば、V7)、及び、(iv)当該変数に統計的に連関する変数(例えば、V8)と、取り出された変数の統計的有意性を測定又は論証するデータセット(例えば、D6、D2、D5、D3、D4、D7、D8)。
●特徴グラフをトラバースし、潜在的に関連性を有するデータセットを取り出した後に、当該データセットには、アプリケーション又は使用事例に基づいて、「フィルタリング」、ランキング、又はさもなければ順序付けが行われ得る。
○上で記載されたトラバーサルプロセスを通じて取り出されたデータセットは、その後、ユーザにより、それらの検索によって入力された基準に基づいて、及び/又は、ソフトウェアのインスタンスの管理者により入力された基準に基づいて、フィルタリングされ得る。例示的な検索データセットフィルタは、以下のもののうちの1つ以上を含み得る。
■母集団及びキー:関心の対象となる変数は、ユーザにとって興味のある母集団及びキー(例えば、ユーザ、種、都市、企業等の一意の識別子)において測定されているか?これは、機械学習用のトレーニングセットにデータを結び付けるユーザの能力に影響を与える。
■コンプライアンス:このデータセットは、適用可能な規制上の考慮事項(例えば、GDPRコンプライアンス)に見合っているか?
■解釈可能性/説明可能性:この変数は、人間により解釈可能か?
■即時使用可能性:この変数は、モデルのユーザにより即時の使用が可能か?
1つの実施形態において、ユーザは、「犯罪」、「財産」、「高血圧」等といった概念(図3においてC1により表現)を入力し得る。それに応答して、本明細書に記載されるシステム及び方法は、意味的な検索技法及び/又は統計的な検索技法の組み合わせを使用することにより、以下のものを特定し得る。
●C1に意味的に連関する概念(C2)(留意されたいこととして、このステップはオプションであり得る)、
●C1及び/又はC2に意味的に連関する変数(V)、
●変数Vの各々に統計的に連関する変数、
●特定された統計的連関の、測度又は測度、並びに、
●変数Vの各々を測定する、及び/又は、変数Vの各々に統計的に連関する変数の統計的連関を論証若しくはサポートする、データセット。
本明細書に記載されるシステム及び方法のいくつかの実施形態においては、複数個のエッジ(統計的連関)が、ノード(変数、因子、又は概念)の所与の対をリンキングして、所与のノード対間の統計的連関についての複数個のエビデンスを示す。システムが情報を取り出し得るソースの幅と、サイエンス及び技術の発展性と、を仮定すると、このグループのエッジが、連関値(及び/又は関係)の範囲を包含又は表現するであろうことも考えられる。
●このようなケースにおいて、システムは、データベース内において関連性を有する情報を「読み取り」、情報(例えば、値の分布、連関の性質及び強度についてのコンセンサスの程度、連関が測定された母集団等)の統計的及び認識論的な要約を表現する付加的なエッジ(「要約連関」と呼ばれる)を生成する。留意されたいこととして、要約連関のエッジは、アプリケーションにより取り出されて、例えば、興味のある所与のドメインの「鳥瞰図」をユーザに提供すること、並びに、統計的連関の特定のセットをめぐるコンセンサスについて、また、統計的連関の特定のセットが経時的にいかに変化したのかについて、また、どの母集団において、何が研究されたのか、又は何が研究されていないのかについて、の質問に答えること、ができる。
データセットのレコメンデーション
いくつかの実施形態においては、データレコメンダアプリケーションが使用されて、特徴グラフの利益を強化し得る。典型的な使用事例において、ユーザ(データサイエンティスト)は、所望されるターゲット又はトピック(「ターゲット」)とモデルの目的とを入力し、データレコメンダは、ユーザが当該モデルのトレーニング用に使用するのに「最良の」データセットを取り出す。1つの実施形態において、データレコメンダアルゴリズム/プロセスは、特徴グラフをトラバースし、特徴グラフ内に格納されている統計的情報及びメタデータに基づいて、最も予測的な関係をランキングし、或る特定のデータ有用性因子(例えば、データの結び付けに必要とされるキー)に基づいて、及び/又は、モデルの特定の目的(例えば、モデルは、解釈可能な/説明可能な特徴を必要とする、若しくは、モデルは、保護対象階層の情報を使用してはならない、等)に基づいて、結果をフィルタリングし、次に、1つ以上のデータセット(及び、利用可能な又は有用なデータセットを伴わない変数)をユーザに返す。
ユーザが変数及びデータセットの取り出しのキーパラメータ(例えば、最小連関強度又はメタデータ品質)を制御する、特徴グラフの統計的検索とは対照的に、データレコメンダアプリケーションは、ユーザのためにパラメータチューニング作業を実施して、ユーザにとって最高の関連性を有するものと期待される変数及びデータセットを返す、ものであってもよい。アプリケーションは、データセットレコメンデーションを生成するために、例えば、以下のものを含む、多数の特質又は信号を考慮してもよい。
●ターゲットへのホップ数:或る変数とターゲットとの間の直接的な連関のエビデンスが、或る変数とターゲットに直接的に連関する別の変数との間の間接的な連関のエビデンスよりも大きな重みを有する、
●意味的な関連性:概念を通じたトラバースにより取り出された変数は、当該概念に意味的に関連性を有しているはずである。強い関連性は、弱い関連性よりも、より一層重み付けされるべきである、
●因果律:因果関係を介してターゲットに連関する変数は、非因果関係を介して連関する変数よりも大きな重みを有する、
●モデル正確度:より正確なモデルを介して連関する変数は、正確度のより低いモデルを介して連関する変数よりも大きな重みを有する、並びに/又は、
●特徴重要度:連関が調達されたモデル内で相対的に高い及び/若しくは有意な特徴重要度を有している変数は、より低い及び/若しくは重要でない特徴重要度を有している変数よりも大きな重みを有する。
本発明のシステム及びプロセスの一実施形態の、他の潜在的な使用
本発明者は、システムDBをさらに強化して、インターネット上のコンテンツの読者及び閲覧者にコンテキストを提供するユーザ、を構想している。例えば、ニュースのウェブサイトは、記事内で参照された概念又は変数を、システムDB内の連関するオブジェクトにリンキングし、当該ニュース記事内に埋め込まれ得るグラフを(APIを介して)取り出す、ことがあり得、それにより、当該記事で参照された概念又は変数への知得された統計的連関についてのコンテキストを、読者に提供する。
本発明者は、組織内で特徴グラフを強化して、様々なML(機械学習)モデル及び特徴の性能について、データサイエンティスト間での知識の共有及びコラボレーションを容易にするユーザ、も構想している。本発明者は、組織内で特徴グラフを強化して、ML実験及びモデルをドキュメント化するユーザ、も構想している。
本発明者は、組織内で特徴グラフを強化して、データサイエンスに必要な、変数ターム(又はラベル)、トピックターム、概念ターム、キーターム、及び他の概念のセントラルディクショナリをメンテナンスするユーザ、も構想している。このディクショナリは、例えば、ユーザが共通のエンティティ/オブジェクトの共通の命名を促すために新たな変数を作成するときに、特徴グラフにより参照されるであろう。
本発明者は、組織内で特徴グラフを強化して、非技術系従業員が自身のシステムに影響を与える統計的連関についての自身の観測及び仮定を共有することを促すユーザ、も構想している。例えば、この企業にとっての外生変数が、それらのサプライチェーンにおいて或る特定の物品の価格に影響するという、裏付けに乏しいエビデンスをマネージャが有しているかもしれず、企業のデータサイエンティストが研究すべき、「立証されていない」統計的連関として、その観測を特徴グラフに提出する。
本発明者は、大きな政府組織及び非政府組織内で特徴グラフをさらに強化して、それらがチーム及びリソースをいかに編成しているかについて通知して、戦略的プランニングを行うユーザ、も構想している。例えば、組織は、自身の特徴グラフを参照することにより、キービジネス変数間又はキービジネスメトリック間の或る特定の関係を認識し、チーム又はプロジェクトを調整して当該メトリックをよりシステム化された様式で改善する、ことがあり得る。
本発明者は、世界又は世界の一部を複雑系として理解し、モデリングし、視覚化するためにシステムDBを強化するユーザ、も構想している。一般ユーザは、例えば、データ視覚化アプリケーション、仮想現実若しくは拡張現実のアプリケーション、又は、没入型インスタレーションを通じて、システムDBの特定の近傍内において複合的相互依存を操り得る。又は、例えば、技術系ユーザは、所与の近傍における多数の統計的連関を強化することにより、特定の系のダイナミクスを研究及びモデリングし、様々な母集団を横断して当該ダイナミクスを比較する、ことがあり得る。
本発明者は、所与のサブグラフにネットワークサイエンスを実施するために、及び、リンク予測のために、システムDB又は特徴グラフを強化するユーザ、も構想している。例えば、技術系ユーザが、或る特定の形の統計的連関を選択し、当該連関を特定のドメイン内に包含するサブグラフを生成し、次に、(例えば、公衆衛生システムにおける変数の中心性を理解するために)中心性といったネットワークサイエンス特性を測定すること、を可能にするアプリケーションが作成され得る。別の例として、ユーザは、所与のノードにリンキングされたエッジについての、特徴グラフ内の情報及びデータを強化して、類似するノードについてのエッジを予測し得る。
●この使用事例において、ユーザは、所与の母集団における変数Aと他の変数との間の連関についての、特徴グラフ内に包含される知識を強化して、変数Aに物質的に類似する或る特定の変数B(ここで、このような物質性は、当の変数の性質、例えば、分子の形状と、身体に対するその影響への関連性と、についての事前知識によって判定され得る)との間の連関についての予測を行い得る。
本発明者は、因果関係を推論するためにシステムDB又は特徴グラフを強化するユーザ、も構想しており、ここで、鍵となる課題は、潜在的な交絡因子の特定である。本発明者の論点とは、大規模な因果推論の技術的なプロセスが、集合知を通じて、つまり、具体的には、システムDBに包含されており、様々な母集団を横断して種々の実験及び研究から調達されており、且つ、異なるユーザにより供与された、先例のない量、リッチネス、及び多様性の連関を強化することにより、有意に改善されるであろう、というものである。
本発明者は、特定の事象、意思決定、及びアクションの生じ得る帰結をシミュレートするためにシステムDB及び特徴グラフを強化するユーザ、も構想している。例えば、ユーザが、変数のセットについての条件の或る特定のセットを定義し、他の変数に対して生じ得る影響をシミュレートする、ことを可能にするアプリケーションが、システムDB上に築かれ得る。
本発明者は、投資の意思決定を誘導するためにシステムDB及び特徴グラフを強化するユーザ、も構想している。例えば、ユーザは、システムDBを使用して、特定の財務事象(例えば、所与の物品の価格変化)の意図しない帰結を考察して、投資をヘッジし得る。
本発明者は、汎用人工知能(Artificial General Intelligence:AGI)用のトレーニングデータとしてシステムDB及び特徴グラフを強化するユーザ、も構想している。例えば、システムDBは、世界において知得された統計的連関についてAIをトレーニングするために使用され得る。
図4は、本発明の一実施形態による方法、プロセス、機能、又は動作を実装するように構成されたコンピュータデバイス又はシステム内に存在し得る要素又はコンポーネントを例示する図である。注記したように、いくつかの実施形態において、本発明のシステム及び方法は、処理要素及び実行可能な命令のセットを含んでいる装置、システム、又はデバイスの形で実装され得る。実行可能な命令は、ソフトウェアアプリケーションの一部であり得、ソフトウェアアーキテクチャ内へと配列され得る。
一般に、本発明の一実施形態は、好適にプログラムされた処理要素(例として、CPU、マイクロプロセッサ、プロセッサ、GPU、コントローラ、計算デバイス等)により実行されるように設計されたソフトウェア命令のセットを使用して実装され得る。複雑なアプリケーション又はシステムにおいて、このような命令は、典型的に、「モジュール」内へと配列され、このようなモジュールの各々は、典型的に、特定のタスク、プロセス、機能、又は動作を実施する。モジュールのセットの全体は、オペレーティングシステム(OS)又は他の形の組織的プラットフォームにより、それらの動作が制御又は調整され得る。各アプリケーションモジュール又はサブモジュールは、当該モジュール又はサブモジュールにより実装されている特定の機能、方法、プロセス、又は動作に対応し得る。このような機能、方法、プロセス、又は動作は、本発明のシステム及び方法の1つ以上の態様を実装又は表現するために使用されるもの(以下のものに限定されないが、図1(a)、図1(b)、図1(c)、図1(d)、図2(a)、図2(b)、及び図3を参照して説明されたもの)を含み得る。
例えば、アプリケーションモジュール又はサブモジュールは、実行されるとシステム又は装置に以下の動作又は機能のうちの1つ以上を実施させるソフトウェア命令を包含し得る。
●ユーザインターフェイスを生成して、統計的検索及び/若しくは意味的検索、並びに/又は、検索のための1つ以上の制御、を開始するために、ユーザが検索ターム又は概念C1(例えば、興味のあるトピック又は当該トピックに関連する変数)を入力することを可能にすること。
○留意されたいこととして、このようなユーザインターフェイスの一例については、図1(b)、図1(c)、及び図1(d)を参照して説明している。
●C1に意味的に連関する概念(C2)を判定すること(これは、オプションとしての特徴であり得、好適なオントロジ又は参照文献へのアクセスに基づく)。
●特徴グラフにわたる検索を実行することにより、C1及び/又はC2に意味的に連関する変数(V)を判定すること。
●特徴グラフにわたる検索を実行することにより、変数Vの各々に統計的に連関する変数を判定すること。
●特定された統計的連関の測度又は測度を判定すること。
●変数Vの各々を測定する、及び/又は、変数Vの各々に統計的に連関する変数の統計的連関を論証若しくはサポートする、データセットを特定すること。
●特定されたデータセットのランキング又はリスティングをユーザに提示することであって、このようなランキング又はリスティングが、(所望される場合に)1つ以上のユーザ指定の基準によるフィルタリングにかけられる、提示すること。
アプリケーションモジュール及び/又はサブモジュールは、プログラミング言語に対応するコンピュータ実行可能なコードといった、任意の好適な、コンピュータ実行可能なコード又は命令のセット(例えば、好適にプログラムされたプロセッサ、マイクロプロセッサ、GPU、又はCPUにより実行されるようなもの)を含み得る。例えば、プログラミング言語ソースコードは、コンピュータ実行可能なコードへとコンパイルされ得る。代替的に又は加えて、プログラミング言語は、スクリプト言語といった、インタプリタ型プログラミング言語であり得る。
説明されたように、本発明の一実施形態を実装するためのシステム、装置、方法、プロセス、機能、及び/又は動作は、全体的に又は部分的に、中央処理ユニット(central processing unit:CPU)、GPU、又はマイクロプロセッサといった、1つ以上のプログラムされたコンピュータプロセッサにより実行される命令のセットの形で実装され得る。このようなプロセッサは、当該システムの他のコンポーネントにより作動させるか、又は、当該他のコンポーネントと通信する、装置、サーバ、クライアント、又は他の計算若しくはデータ処理デバイス内に組み込まれ得る。
一例として、図4は、本発明の一実施形態による方法、プロセス、機能、又は動作を実装するように構成されたコンピュータデバイス又はシステム400内に存在し得る要素又はコンポーネントを例示する図である。図4に示されるサブシステムは、システムバス402を介して相互接続されている。付加的なサブシステムには、プリンタ404と、キーボード406と、固定ディスク408と、ディスプレイアダプタ412に結合されたモニタ410と、が含まれる。入力/出力(I/O)コントローラ414に結合している周辺機器及びI/Oデバイスは、シリアルポート416といった、当該技術で公知の任意の数の手段により、コンピュータシステムに接続されることが可能である。例えば、シリアルポート416又は外部インターフェイス418は、図4には示されていない、インターネットといったワイドエリアネットワーク、マウス入力デバイス、及び/又は文書スキャナを含めた、さらなるデバイス及び/又はシステムに、コンピュータデバイス400を接続するために利用することが可能である。システムバス402を介した相互接続により、1つ以上の電子プロセッサ420は、各サブシステムと通信すること、並びに、サブシステム間で情報を交換することだけではなく、システムメモリ422及び/又は固定ディスク408内に格納され得る命令の実行を制御すること、が可能になる。システムメモリ422及び/又は固定ディスク408は、有形のコンピュータ読み取り可読媒体を具現化し得る。
述べたように、図1~図3を参照して説明した方法、プロセス、機能、又は動作は、1人以上のユーザ又はユーザのセットのためのサービスとして実装され得る。いくつかの実施形態において、このサービスは、複数人の顧客のためのサービスを提供するように動作可能なサービスプラットフォームの使用を通じて提供され得、各顧客は、別個のアカウントを有している。このようなプラットフォームは、SaaS(サービスとしてのソフトウェア)プラットフォームと称され得る、マルチテナントプラットフォーム又はシステムに類似するアーキテクチャを有し得る。このようなプラットフォームの例示的なアーキテクチャについて、図5を参照して説明する。
図5は、本明細書に記載されるシステム及び方法の一実施形態を実装する際に使用され得るサービスプラットフォームのための例示的なシステムアーキテクチャ500を例示する図である。いくつかの実施形態において、データ、アプリケーション、及びデータ処理能力のうちの1つ以上へのアクセスを提供するサービスプラットフォーム(マルチテナント又は他の「クラウドベースの」システム)は、ウェブサイト(例えば、ServicePlatform.com)、API(Restfulウェブサービス)、及び他のサポートサービスを含み、ウェブサイトの動作は、標準的なMVC(モデルビューコントローラ(model-view-controller))アーキテクチャに従う。
●モデル-モデルオブジェクトは、アプリケーションのデータドメインについてのロジックを実装するアプリケーションの一部である。モデルオブジェクトはしばしば、モデル状態を取り出し、データベース内に格納する。例えば、Billオブジェクトは、データベースから情報を取り出し、それに作用し、次に、更新された情報を、SQLサーバデータベース内のBillテーブルにライトバックする、ことがあり得る。
●ビュー-ビューは、アプリケーションのユーザインターフェイス(user interface:UI)を表示するコンポーネントである。典型的に、このUIは、モデルデータから作成される。一例が、Billオブジェクトの現在の状態に基づいて、テキストボックス、ドロップダウンリスト、及びチェックボックスを表示するBillテーブルの編集ビューであろう。
●コントローラ-コントローラは、ユーザ対話をハンドリングし、モデルと作業し、最終的に、UIを表示するレンダリングビューを選択する、コンポーネントである。MVCアプリケーションにおいて、ビューは情報を表示するのみであり、コントローラは、ユーザ入力及びユーザ対話をハンドリングし、それらに応答する。例えば、コントローラは、クエリストリング値をハンドリングし、これらの値をモデルに渡し、モデルは次いで、これらの値を使用してデータベースにクエリし得る。
1つの実施形態において、Serviceplatform.comのウェブサイト(要素、コンポーネント、又はプロセス502)は、データ、データストレージ、アプリケーション、及びデータ処理能力のうちの1つ以上へのアクセスを提供する。アプリケーション又はデータ処理能力又は機能性は、図1~図3を参照して説明したデータ処理動作のうちの1つ以上を含み得るが、必ずしもこれに限定されない。ウェブサイトアーキテクチャは、標準的なMVCアーキテクチャに基づいており、そのコントローラは、APIウェブサービス(要素、コンポーネント、又はプロセス504)を利用して、サービスプロセス及びリソース(例として、モデル又はデータ)と間接的に対話する。APIウェブサービスは、ウェブサービスモジュール(要素、コンポーネント、又はプロセス508)と、本明細書において開示されたプロセス又は機能性の一実施形態を実行し、且つ、特徴グラフ構築及び検索(又は他のアプリケーションの)サービスモジュール(要素、コンポーネント、又はプロセス510)の1つ以上と、から成る。ウェブサービスモジュール(508)は、直接的に、サービスユーザから、又は、Serviceplatform.comコントローラから、のいずれかで要求を受信すると、入力からデータを読み取り、サービスモジュール(510)を起動又はインスタンス化する。ウェブサービスモジュール508及び特徴グラフサービスモジュール510の両方は、このアーキテクチャ又はプラットフォームのウェブサービスレイヤ506の一部であり得る。
APIサービスは、標準的な「Restful」ウェブサービスの形で実装され得、ここで、RESTfulウェブサービスは、インターネット上のコンピュータシステム間の相互運用性を提供する手法である。REST準拠のウェブサービスにより、要求を行うシステムが、ステートレスな動作の、一様であって且つ予め定義されたセットを使用して、ウェブリソースのテキスト表現にアクセスし、当該テキスト表現を操作する、ことが可能になる。
述べたように、図5を参照すると、図1~図3を参照して説明した1つ以上のプロセスの一実施形態は、サービスプラットフォームウェブサイト502又はサービスプラットフォームAPI504のいずれかを介してアクセス又は利用され得る。サービスプラットフォームは、典型的にはサーバの一部として実装されている、1つ以上のプロセッサ又は他のデータ処理要素を含む。サービスプラットフォームは、UIレイヤ520、アプリケーションレイヤ530、ウェブサービスレイヤ506、及びデータストレージレイヤ540を含む、レイヤ又はティアのセットとして実装され得る。ユーザインターフェイスレイヤ520は、1つ以上のユーザインターフェイス522を含み得、各ユーザインターフェイスは、1つ以上のユーザインターフェイス要素524から成る。
アプリケーションレイヤ530は、典型的に、1つ以上のアプリケーションモジュール532から成り、各アプリケーションモジュールは、1つ以上のサブモジュール534から成る。本明細書に記載されるように、各サブモジュールは、プログラムされたプロセッサにより実行されると、図1~図3を参照して説明されたもののような特定の機能又はプロセスを実装する、実行可能なソフトウェア命令又はコードを表現し得る。
こうして、各アプリケーションモジュール532又はサブモジュール534は、当該モジュール又はサブモジュールにより実装された特定の機能、方法、プロセス、又は動作(例えば、プラットフォームのユーザに或る特定の機能性を提供することに関連する、機能、方法、プロセス、又は動作)に対応し得る。このような機能、方法、プロセス、又は動作は、例として以下のことを行うことにより、本発明のシステム及び方法の1つ以上の態様を実装するために使用されるものを含み得る。
●ユーザインターフェイスを生成して、統計的検索及び/若しくは意味的検索、並びに/又は、検索のための1つ以上の制御、を開始するために、ユーザが検索ターム又は概念C1を入力することを可能にすること、
●C1に意味的に連関する概念(C2)を判定すること(これは、オプションとしての特徴であり得、好適なオントロジ又は参照文献へのアクセスに基づき得る)、
●特徴グラフにわたる検索を実行することにより、C1及び/又はC2に意味的に連関する変数(V)を判定すること、
●特徴グラフにわたる検索を実行することにより、変数Vの各々に統計的に連関する変数を判定すること、
●特定された統計的連関の測度又は測度を判定すること、
●変数Vの各々を測定する、及び/又は、変数Vの各々に統計的に連関する変数の統計的連関を論証若しくはサポートする、データセットを特定すること、並びに、
●特定されたデータセットのランキング又はリスティングをユーザに提示することであって、このようなランキング又はリスティングが、(所望される場合に)1つ以上のユーザ指定の基準によるフィルタリングにかけられる、提示すること。
留意されたいこととして、アプリケーションモジュール532又はサブモジュール534は、リスティングされた動作又は機能に加えて、プログラムされたプロセッサにより実行されるとサービスプラットフォームの動作に関連する機能をシステム又は装置に実施させる、コンピュータ実行可能な命令を包含し得る。このような機能には、ユーザ登録、ユーザアカウント管理、アカウント間のデータセキュリティ、データ処理及び/又はデータ格納能力の割り当て、システムDB以外のデータソース(例として、オントロジ、参照資料等)へのアクセスの提供、に関するものが含まれ得るが、これらに限定されない。
アプリケーションモジュール及び/又はサブモジュールは、プログラミング言語に対応するコンピュータ実行可能なコードといった、任意の好適な、コンピュータ実行可能なコード又は命令のセット(例えば、好適にプログラムされたプロセッサ、マイクロプロセッサ、又はCPUにより実行されるようなもの)を含み得る。例えば、プログラミング言語ソースコードは、コンピュータ実行可能なコードへとコンパイルされ得る。代替的に又は加えて、プログラミング言語は、スクリプト言語といった、インタプリタ型プログラミング言語であり得る。各アプリケーションサーバは、各アプリケーションモジュールを含み得る。代替的に、異なるアプリケーションサーバは、アプリケーションモジュールの異なるセットを含み得る。このようなセットは、互いに共通要素を持たないこと、又は、持つこと、があり得る。
同様に、ウェブサービスレイヤ506は、1つ以上のウェブサービスモジュール508から成り得、ここでもまた、各モジュールは、1つ以上のサブモジュールを含む(また、各サブモジュールは、プログラムされたプロセッサにより実行されると、特定の機能又はプロセスを実装する実行可能な命令を表現する)。例えば、ウェブサービスモジュール508は、サポートサービス(サポートサービスモジュール512により示唆される)を提供するために、並びに、本明細書に記載されるサービス及びプロセスに連関する機能性(特徴グラフサービスモジュール510により示唆される)を提供するために使用されるモジュール又はサブモジュールを含み得る。それ故に、いくつかの実施形態において、モジュール510は、実行されると他の図(具体的には、図1~図3)を参照して説明した機能のうちの1つ以上を実装するソフトウェア命令を含み得る。
データストレージレイヤ540は、1つ以上のデータオブジェクト542を含み得、各データオブジェクトは、属性及び/又は挙動といった1つ以上のオブジェクトコンポーネント544から成る。例えば、データオブジェクトは、リレーショナルデータベースのテーブルに対応し得、データオブジェクトコンポーネントは、そのようなテーブルの列又はフィールドに対応し得る。代替的に又は加えて、データオブジェクトは、フィールド及び連関するサービスを有するデータレコードに対応し得る。代替的に又は加えて、データオブジェクトは、構造及びクラスといったプログラマティックデータオブジェクトの永続インスタンスに対応し得る。データストレージレイヤ内の各データストアは、各データオブジェクトを含み得る。代替的に、異なるデータストアは、データオブジェクトの異なるセットを含み得る。このようなセットは、互いに共通要素を持たないこと、又は、持つこと、があり得る。
図5のアーキテクチャは、様々なデータストア及び実行可能なアプリケーション又は機能性へのアクセスをユーザに提供する(時として、サービスとしてのソフトウェア(SaaS)の提供と称される)ために使用され得るマルチテナントアーキテクチャの一例である。図5及びその添付の説明は、図1から図3を参照して説明されたプロセスに連関する機能性を提供するためのサービスプラットフォームに焦点を合わせているが、留意されたいこととして、他のサービス又は機能性を提供する能力を含む、より一般的な形のマルチテナントプラットフォームが使用されてよい。例えば、サービスプロバイダが、或る特定のデータ分析、課金、アカウントのメンテナンス、スケジューリング、eコマース、ERPの機能性、CRMの機能性等を行う能力をユーザに提供してもよい。
留意されたいこととして、図に描かれている例示的な計算環境は、例を限定することを意図していない。代替的に又は加えて、本発明の一実施形態が実装され得る計算環境は、ユーザが、ネットワークを通じてリモートにアクセスすることが可能なデータストレージ要素(例えば、データベース)にデータを提供し、当該データストレージ要素内に格納されたデータにアクセスし、処理し、利用することを許容する、任意の好適なシステムを含む。本発明の一実施形態が実装され得るさらなる例示的な環境は、複数人のユーザにより、データエントリ、データ処理、アプリケーション実行、データレビュー等のために使用され得、且つ、ユーザにインターフェイスを提示するように構成されることが可能なユーザインターフェイス又はユーザインターフェイスコンポーネントを有する、デバイス(モバイルデバイスを含む)、ソフトウェアアプリケーション、システム、装置、ネットワーク、又は他の構成可能なコンポーネントを含む。さらなる例が、図に描かれた例示的な計算環境を参照し得るが、当業者には、これらの例を、代替の計算デバイス、システム、装置、プロセス、及び環境のために適応させてよいことが明らかであろう。留意されたいこととして、本発明の方法の一実施形態は、アプリケーション、より大きなアプリケーションの一部であるサブルーチン、「プラグイン」、データ処理システム若しくはプラットフォームの機能性の拡張、の形で、又は、任意の他の好適な形で、実装され得る。
理解されるべきこととして、上に記載された本発明は、モジュラー方式又は統合方式でコンピュータソフトウェアを使用して、制御ロジックの形で実装されることが可能である。当業者は、本明細書において提供される開示及び教示に基づいて、ハードウェアと、ハードウェア及びソフトウェアの組み合わせと、を使用して本発明を実装する他の手法及び/又は方法について、知得及び認識するであろう。
図面に描かれたか又は上に記載されたコンポーネントの異なる配列、ならびに、図示又は記載が行われていないコンポーネント及びステップもまた、可能である。同様に、いくつかの特徴及びサブコンビネーションは有用であって、他の特徴及びサブコンビネーションと関係なく用いてもよい。本発明の実施形態は、制限する目的ではなく例示の目的で記載されており、この特許の読者には、代替的な実施形態が明らかになるであろう。よって、本発明は、上で記載されたか又は図面に描かれている実施形態に限定されず、以下の特許請求の範囲から逸脱することなく、様々な実施形態及び改変例の作成が可能である。
本願に記載されたソフトウェアコンポーネント、プロセス、又は機能のいずれも、例えば、従来の技法又はオブジェクト指向の技法を使用する、例えば、Python、Java、JavaScript、C++、又はPerlといった任意の好適なコンピュータ言語を使用するプロセッサによって実行されるべきソフトウェアコードとして実装され得る。ソフトウェアコードは、ランダムアクセスメモリ(random-access memory:RAM)、読み取り専用メモリ(read only memory:ROM)といった非一時的なコンピュータ可読媒体、ハードドライブ若しくはフロッピーディスクといった磁気媒体、又は、CD-ROMといった光学媒体内に(又は上に)、一連の命令又はコマンドとして格納され得る。この文脈において、非一時的なコンピュータ可読媒体は、一時的な波形を除く、データ又は命令セットの格納に好適な、ほぼあらゆる媒体である。このようなコンピュータ可読媒体のいずれも、単一の計算装置上又は内にあってよく、システム又はネットワーク内の異なる計算装置上又は内に存在してよい。
1つの例示的な実装によると、本明細書において使用されるようなターム処理要素又はプロセッサは、中央処理ユニット(CPU)であり得、又は、CPUとして概念化され得る(例として、仮想機械)。この例示的な実装において、CPU又はCPUが組み込まれたデバイスは、ディスプレイといった1つ以上の周辺デバイスに結合され、接続され、及び/又は、当該周辺デバイスと通信する、ことがあり得る。別の例示的な実装において、処理要素又はプロセッサは、スマートフォン又はタブレットコンピュータといったモバイル計算デバイスに組み込まれ得る。
本明細書において言及される非一時的なコンピュータ可読ストレージ媒体は、レイド(redundant array of independent disks:RAID)、フロッピーディスクドライブ、フラッシュメモリ、USBフラッシュドライブ、外部ハードディスクドライブ、サムドライブ、ペンドライブ、キードライブ、高密度デジタル多用途ディスク(High-Density Digital Versatile Disc:HD-DVD)光学ディスクドライブ、内部ハードディスクドライブ、ブルーレイ(Blu-Ray)光学ディスクドライブ、又は、ホログラフィックデジタルデータストレージ(Holographic Digital Data Storage:HDDS)光学ディスクドライブ、同期ダイナミックランダムアクセスメモリ(synchronous dynamic random access memory:SDRAM)、又は、類似する技術に基づいた、類似するデバイス若しくは他の形のメモリ、といった多数の物理ドライブユニットを含み得る。このようなコンピュータ可読ストレージ媒体により、処理要素又はプロセッサは、取り外し可能及び取り外し不可能なメモリ媒体内に格納された、コンピュータ実行可能なプロセスステップ及びアプリケーションプログラム等にアクセスして、デバイスからデータをオフロードすること、又は、デバイスにデータをアップロードすること、が可能になる。述べたように、本明細書に記載される実施形態に関して、非一時的なコンピュータ可読媒体は、一時的な波形又は類似する媒体を除く、ほぼあらゆる構造、技術、又は方法を含み得る。
システムのブロック図、及び/又は、機能、動作、プロセス、若しくは方法のフローチャート若しくはフロー図、を参照して、開示された技術の或る特定の実装が、本明細書において記載されている。理解されるであろうこととして、ブロック図の1つ以上のブロック、又は、フローチャート若しくはフロー図の1つ以上のステージ若しくはステップ、及び、ブロック図のブロックと、フローチャート又はフロー図のステージ又はステップとの組み合わせは、それぞれ、コンピュータ実行可能なプログラム命令によって実装されることが可能である。留意されたいこととして、いくつかの実施形態において、ブロックか、ステージか、又はステップのうちの1つ以上は、提示された順序で必ずしも実施される必要がないことがあり得、又は、必ずしも実施される必要が全くないことがあり得る。
これらのコンピュータ実行可能なプログラム命令は、汎用コンピュータ、特殊用途コンピュータ、プロセッサ、又は他のプログラマブルデータ処理装置にロードされて、機械の特定の例を生じ得、それにより、コンピュータ、プロセッサ、又は他のプログラマブルデータ処理装置により実行される命令が、本明細書に記載される機能、動作、プロセス、又は方法のうちの1つ以上を実装するための手段を生じるようにする。これらのコンピュータプログラム命令は、コンピュータ又は他のプログラマブルデータ処理装置を特定の方式で機能するようにさせることが可能なコンピュータ可読メモリ内にも格納され得、それにより、コンピュータ可読メモリ内に格納された命令が、本明細書に記載される機能、動作、プロセス、又は方法のうちの1つ以上を実装する命令手段を含む製造品を生じるようにする。
開示された技術の或る特定の実装について、最も実用的であって様々な実装であるものと現在考えられているものをめぐって説明してきたが、理解されるべきこととして、開示された技術は、開示された実装に限定されるべきではない。その代わりに、開示された実装は、添付の特許請求の範囲内に含まれる様々な改変及び均等の構成に及ぶことが意図されている。本明細書において特定の用語が用いられているが、これらは、総称的且つ記述的な意味合いでのみ使用され、限定の目的では使用されていない。
本明細書における書面説明は、例を使用して、開示された技術の或る特定の実装を開示しており、また、いずれかのデバイス又はシステムの製作及び使用と、組み込まれたいずれかの方法の実施と、を含めた、開示された技術の或る特定の実装の実施を、あらゆる当業者が行えるようにしている。開示された技術の或る特定の実装の、特許可能な範囲は、特許請求の範囲に定義されており、当業者が想到する他の例を含み得る。このような他の例は、それらが請求項の文言とは異ならない構造上及び/若しくは機能上の要素を有している場合、又は、それらが請求項の文言とは実質的でない差異を有する構造上及び/若しくは機能上の要素を含んでいる場合、特許請求の範囲内にあることが意図される。
刊行物、特許出願、及び特許を含め、本明細書において引用された全ての参照文献は、各参照文献は、参照によって本明細書中に組み込まれるが、それは、各参照文献が、個々に、特に参照によって組み込まれることが示され、並びに/又は、その全体が本明細書に明記されているのと同じ程度においてである。
明細書及び以下の特許請求の範囲における、「1つの(a)」、「1つの(an)」、及び「その(the)」という用語の使用と、類似する指示対象とは、本明細書において特段示されないか、又は、文脈により明らかに矛盾しない限り、単数形及び複数形の両方に及ぶと解釈されるべきである。明細書及び以下の請求項における、「有する(having)」、「含む(including)」、及び「包含する(containing)」という用語と、類似する指示対象とは、特段注記されない限り、オープンエンドの用語(例えば、「含むが、限定されない」を意味する)と解釈されるべきである。本明細書における値の範囲の陳述は、本明細書において特段示されない限り、当該範囲内に包括的に含まれる別個の各値を個々に指すための略記方法として働くように意図されているに過ぎず、別個の各値は、本明細書においてあたかも個々に陳述されるかのように明細書中に組み込まれる。本明細書に記載される全ての方法は、本明細書において別の示唆がされない限り、又は、文脈により明らかに矛盾しない限り、任意の好適な順序で実施することができる。本明細書において提供される、任意の及び全ての例又は例示的な言語(例えば、「…といった/例として」(such as))の使用は、本発明の実施形態をより良好に解明することを意図しているに過ぎず、特段主張されない限り、本発明の範囲に限定を課すものではない。明細書の言語はいずれも、請求項に記載されていないいずれかの要素が本発明の一実施形態に不可欠であることを示すものと解釈されるべきではない。

Claims (28)

  1. 興味のあるトピックに関連するモデルをトレーニングする際に使用するための関連性を有するデータセットを特定するための、コンピュータにより実行される方法であって、
    1つ以上のソースにアクセスすることであって、各ソースが、前記ソース内で記述された研究のトピックと前記研究において考察された1つ以上の変数との間の統計的連関についての情報を含む、アクセスすることと、
    各ソースからの前記アクセスされた情報を処理して、前記ソース内で記述された前記研究において考察された前記1つ以上の変数を特定し、且つ、各変数について、前記変数と前記研究の前記トピックとの間の前記統計的連関についての情報を特定する、ことと、
    前記ソースのうちの少なくとも1つについて、前記1つ以上の変数のうちの少なくとも1つに、又は、前記ソース内で記述された前記研究の前記トピックに、データセットを連関させることであって、前記データセットが、前記統計的連関を論証するために前記研究によって使用されたデータ、又は、前記データセットが連関する前記1つ以上の変数の測度を表現するデータ、のうちの1つ以上を含む、連関させることと、
    前記アクセスされた1つ以上のソースを処理した結果をデータベース内に格納することであって、前記格納された結果が、各ソースについて、前記1つ以上の変数の各々への参照と、前記ソース内で記述された前記研究の前記トピックへの参照と、前記統計的連関についての情報と、該当する場合には、前記連関するデータセットへのアクセスを可能にするリンク又は他の要素と、を含む、格納することと、
    前記格納された、前記アクセスされた1つ以上のソースを処理した結果に基づいて、特徴グラフを構築することであって、前記特徴グラフが、ノードのセット及びエッジのセットを含み、エッジの前記セット内の各エッジが、ノードの前記セット内の或るノードを1つ以上の他のノードに連結し、さらに、各ノードが、ソース内で記述された研究のトピックに統計的に連関することが分かっている変数を表現し、各エッジが、或るノードと前記ソース内で記述された前記研究の前記トピックとの間の、又は、第1のノードと第2のノードとの間の、統計的連関を表現する、構築することと、
    ユーザから検索要求を受け取ることであって、前記検索要求が、前記興味のあるトピックを指定する、受け取ることと、
    前記特徴グラフをトラバースして、前記興味のあるトピックに統計的に連関するか、又は、前記興味のあるトピックに統計的に連関する1つ以上の変数に意味的に関連する、1つ以上の変数に連関する1つ以上のデータセットを特定することと、
    前記特定された1つ以上のデータセットにフィルタリング及びランキングを行うことと、
    前記特定された1つ以上のデータセットのフィルタリング及びランキングの結果を前記ユーザに提示することと、
    を含む、方法。
  2. 前記1つ以上のソースが、実験、研究、機械学習モデル、又は、裏付けに乏しい観測、の記述のうちの1つ以上を含む、請求項1に記載の方法。
  3. 前記1つ以上のソースを処理することがさらに、前記アクセスされたソースのうちの1つ以上に対し、光学文字認識、画像処理、自然言語処理、又は、自然言語理解、の技法のうちの1つ以上を適用することを含む、請求項2に記載の方法。
  4. 前記アクセスされた1つ以上のソースを処理した前記結果をデータベース内に格納することがさらに、前記結果をグラフの表現で格納することを含み、前記グラフが、複数のノード及び複数のエッジを含み、各エッジが、或るノードを別のノードに連結する、請求項1に記載の方法。
  5. 前記複数のエッジのうちの1つ以上が、前記統計的連関の測度に連関する、請求項4に記載の方法。
  6. 前記特定された1つ以上のデータセットにフィルタリング及びランキングを行うことがさらに、(a)母集団及びキー、(b)コンプライアンス、(c)解釈可能性、又は、(d)即時使用可能性のうちの1つ以上に基づいて、フィルタリング及びランキングを行うことを含む、請求項1に記載の方法。
  7. 前記提示されたデータセットのうちの1つ以上を使用して、前記モデルをトレーニングすることをさらに含み、前記モデルが、機械学習の技法を実装する、請求項1に記載の方法。
  8. 前記トレーニングされたモデルを使用して、前記モデルへの入力についての決定又は分類を行うことをさらに含む、請求項7に記載の方法。
  9. 前記アクセスされた1つ以上のソースを処理することがさらに、オントロジ又は参照文献にアクセスして、前記1つ以上の変数についての1つ以上の潜在的なトピック又は概念ラベルを取得することを含む、請求項1に記載の方法。
  10. 前記統計的連関についての前記情報が、観測された連関、測定された関係、又は、因果関係のうちの1つである、請求項1に記載の方法。
  11. ユーザから前記検索要求を受け取ることがさらに、前記ユーザからの前記検索についての1つ以上の制御パラメータを受け取ることを含み、前記制御パラメータが、データ、母集団、品質、方法論、又は著者のうちの1つ以上を含む、請求項1に記載の方法。
  12. 1つ以上のソースにアクセスすることがさらに、研究の前記トピックが前記興味のあるトピックである情報にアクセスすることを含む、請求項2に記載の方法。
  13. 前記格納された、前記アクセスされた1つ以上のソースを処理した結果のサブセットをユーザに提供することと、前記格納された結果の前記サブセットに基づいて、前記ユーザのために前記特徴グラフを構築することと、をさらに含む、請求項1に記載の方法。
  14. 前記格納された結果の前記サブセットが、前記ユーザにより提供された1つ以上のパラメータにより判定される、請求項13に記載の方法。
  15. 情報を表現する電子的形態であって、
    グラフを表現するデータ構造であって、前記グラフが、複数のノード及び複数のエッジを含み、各エッジが、第1のノードを第2のノードに連結する、データ構造と、
    1つ以上のエッジに連関する値のセットと、
    データセットへのアクセスを可能にする少なくとも1つのリンク又は他の要素であって、前記リンク又は他の要素が、前記第1のノード又は前記第2のノードに連関する、少なくとも1つのリンク又は他の要素と、を備え、
    各ノードが、興味のあるトピックに統計的に連関することが分かっている変数を表現し、エッジに連関する各値が、ノードと前記興味のあるトピックとの間の統計的連関の測度、第1のノードと第2のノードとの間の統計的連関の測度、を表現するか、又は、前記統計的連関における信頼度の測度を表現する、情報を表現する電子的形態。
  16. 前記データセットが、前記第1のノードにより表現された第1の変数と前記第2のノードにより表現された第2の変数との間の前記統計的連関を確立するために使用されたデータ、前記第1の変数の測度を表現するデータ、又は、前記第2の変数の測度を表現するデータ、のうちの1つ以上を含む、請求項15に記載の、情報を表現する電子的形態。
  17. 前記統計的連関が、観測された連関、測定された関係、又は、因果関係のうちの1つである、請求項15に記載の、情報を表現する電子的形態。
  18. 前記データセットが、実験、研究、機械学習モデル、又は、裏付けに乏しい観測、の記述のうちの1つに連関する、請求項15に記載の、情報を表現する電子的形態。
  19. データ処理システムであって、
    コンピュータ実行可能な命令のセットでプログラムされた電子プロセッサと、
    コンピュータ実行可能な命令の前記セットを格納する非一時的な電子的ストレージ要素と、を備え、
    コンピュータ実行可能な命令の前記セットが、さらに、
    実行されると、前記システムに、ソース又はソースのセットにアクセスさせるコンピュータ実行可能な命令であって、各ソースが、前記ソース内で記述された研究のトピックと前記研究において考察された1つ以上の変数との間の統計的連関についての情報を含む、コンピュータ実行可能な命令と、
    実行されると、前記システムに、前記アクセスされた1つ以上のソースを処理させて、各ソースについて、前記ソース内で記述された前記研究において考察された前記1つ以上の変数を特定させ、且つ、各変数について、前記変数と前記研究の前記トピックとの間の前記統計的連関についての情報を特定させる、コンピュータ実行可能な命令と、
    実行されると、前記システムに、少なくとも1つのソースについて、前記1つ以上の変数のうちの少なくとも1つに、又は、前記ソース内で記述された前記研究の前記トピックに、データセットを連関させる、コンピュータ実行可能な命令であって、前記データセットが、前記統計的連関を論証するために前記研究によって使用されたデータ、又は、前記データセットが連関する前記1つ以上の変数の測度を表現するデータ、のうちの1つ以上を含む、コンピュータ実行可能な命令と、
    実行されると、前記システムに、前記アクセスされた1つ以上のソースを処理した結果をデータベース内に格納させる、コンピュータ実行可能な命令であって、前記格納された結果が、各ソースについて、前記1つ以上の変数の各々への参照と、前記研究において記述された前記トピックへの参照と、前記統計的連関についての情報と、該当する場合には、前記データセットへのアクセスを可能にするリンク又は他の要素と、を含む、コンピュータ実行可能な命令と、
    を含む、データ処理システム。
  20. 実行されると、前記システムに、前記格納された、前記アクセスされた1つ以上のソースを処理した結果に基づいて、特徴グラフを構築させる、コンピュータ実行可能な命令であって、前記特徴グラフが、ノードのセット及びエッジのセットを含み、エッジの前記セット内の各エッジが、ノードの前記セット内の或るノードを1つ以上の他のノードに連結し、さらに、各ノードが、ソース内で記述された研究のトピックに統計的に連関することが分かっている変数を表現し、各エッジが、或るノードと前記ソース内で記述された前記研究の前記トピックとの間の、又は、第1のノードと第2のノードとの間の、統計的連関を表現する、コンピュータ実行可能な命令と、
    実行されると、前記システムに、ユーザから検索要求を受け取らせるコンピュータ実行可能な命令であって、前記検索要求が、興味のあるトピックを指定する、コンピュータ実行可能な命令と、
    実行されると、前記システムに、前記特徴グラフをトラバースさせて、前記興味のあるトピックに統計的に連関するか、又は、前記興味のあるトピックに統計的に連関する1つ以上の変数に意味的に関連する、1つ以上の変数に連関する1つ以上のデータセットを特定させる、コンピュータ実行可能な命令と、
    実行されると、前記システムに、前記特定された1つ以上のデータセットにフィルタリング及びランキングを行わせるコンピュータ実行可能な命令と、
    実行されると、前記システムに、前記特定された1つ以上のデータセットのフィルタリング及びランキングの結果を前記ユーザに提示させるコンピュータ実行可能な命令と、をさらに含む、請求項19に記載のデータ処理システム。
  21. 前記1つ以上のソースが、実験、研究、機械学習モデル、又は、裏付けに乏しい観測、の記述のうちの1つ以上を含む、請求項19に記載のデータ処理システム。
  22. 前記アクセスされた1つ以上のソースを処理することがさらに、前記アクセスされたソースのうちの1つ以上に対し、光学文字認識、画像処理、自然言語処理、又は、自然言語理解、の技法のうちの1つ以上を適用することを含む、請求項19に記載のデータ処理システム。
  23. 前記アクセスされた1つ以上のソースを処理した前記結果をデータベース内に格納することがさらに、前記結果をグラフという表現で格納することを含み、前記グラフが、複数のノード及び複数のエッジを含み、各エッジが、或るノードを別のノードに連結する、請求項19に記載のデータ処理システム。
  24. 実行されると、前記システムに、前記特定されたデータセットのうちの1つ以上を使用して、モデルをトレーニングさせる、コンピュータ実行可能な命令をさらに含む、請求項20に記載のデータ処理システム。
  25. 実行されると、前記システムに、前記モデルについての入力データのセットを受け取らせ、それに応答して、前記モデルから出力を生成させる、コンピュータ実行可能な命令をさらに含む、請求項24に記載のデータ処理システム。
  26. 前記出力が、分類又は決定のうちの1つ以上である、請求項25に記載のデータ処理システム。
  27. 実行されると、前記システムに、前記格納された、前記アクセスされた1つ以上のソースを処理した結果のサブセットをユーザに提供させ、前記格納された結果の前記サブセットに基づいて、前記ユーザのために前記特徴グラフを構築させる、コンピュータ実行可能な命令をさらに含む、請求項20に記載のデータ処理システム。
  28. 前記格納された結果の前記サブセットが、前記ユーザにより提供された1つ以上のパラメータにより判定される、請求項27に記載のデータ処理システム。
JP2021544919A 2019-02-01 2020-01-30 データを編成し見出すためのシステム及び方法 Active JP7307914B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962799981P 2019-02-01 2019-02-01
US62/799,981 2019-02-01
PCT/US2020/015871 WO2020160264A1 (en) 2019-02-01 2020-01-30 Systems and methods for organizing and finding data

Publications (2)

Publication Number Publication Date
JP2022523917A true JP2022523917A (ja) 2022-04-27
JP7307914B2 JP7307914B2 (ja) 2023-07-13

Family

ID=71838109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021544919A Active JP7307914B2 (ja) 2019-02-01 2020-01-30 データを編成し見出すためのシステム及び方法

Country Status (7)

Country Link
US (2) US11354587B2 (ja)
EP (1) EP3917383A4 (ja)
JP (1) JP7307914B2 (ja)
CN (1) CN113453611B (ja)
CA (1) CA3126470A1 (ja)
DE (1) DE202020006040U1 (ja)
WO (1) WO2020160264A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024157498A1 (ja) * 2023-01-27 2024-08-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11403327B2 (en) * 2019-02-20 2022-08-02 International Business Machines Corporation Mixed initiative feature engineering
US10705861B1 (en) 2019-03-28 2020-07-07 Tableau Software, LLC Providing user interfaces based on data source semantics
US11275791B2 (en) * 2019-03-28 2022-03-15 International Business Machines Corporation Automatic construction and organization of knowledge graphs for problem diagnoses
US11783266B2 (en) 2019-09-18 2023-10-10 Tableau Software, LLC Surfacing visualization mirages
US11556847B2 (en) * 2019-10-17 2023-01-17 International Business Machines Corporation Method and apparatus for employing machine learning solutions
US11100429B2 (en) * 2019-12-27 2021-08-24 The Joan and Irwin Jacobs Technion-Cornell Institute System and method for creating electronic document chronologies using machine learning
CN113469478A (zh) * 2020-03-31 2021-10-01 日本电气株式会社 一种信息处理方法、电子设备和计算机程序产品
US11552785B2 (en) * 2020-04-02 2023-01-10 Epidaurus Health, Inc. Methods and systems for a synchronized distributed data structure for federated machine learning
US11687710B2 (en) * 2020-04-03 2023-06-27 Braincat, Inc. Systems and methods for cloud-based productivity tools
US11397746B2 (en) 2020-07-30 2022-07-26 Tableau Software, LLC Interactive interface for data analysis and report generation
US11550815B2 (en) 2020-07-30 2023-01-10 Tableau Software, LLC Providing and surfacing metrics for visualizations
US11579760B2 (en) 2020-09-08 2023-02-14 Tableau Software, LLC Automatic data model generation
US11954605B2 (en) * 2020-09-25 2024-04-09 Sap Se Systems and methods for intelligent labeling of instance data clusters based on knowledge graph
US11360763B2 (en) * 2020-10-13 2022-06-14 International Business Machines Corporation Learning-based automation machine learning code annotation in computational notebooks
US20220147509A1 (en) * 2020-10-18 2022-05-12 Trigyan Corporation Inc. Methods and systems for data management, integration, and interoperability
US11526558B2 (en) 2020-11-30 2022-12-13 Microsoft Technology Licensing, Llc System and method of providing accessibility to visualization tools
EP4248369A4 (en) * 2020-12-08 2024-07-24 Amazon Tech Inc USING GRAPH QUERIES TO OBTAIN RESULTS FROM MACHINE LEARNING MODELS
US11423424B2 (en) 2020-12-10 2022-08-23 Noonum, Inc. Associating thematic concepts and organizations
US20220187969A1 (en) * 2020-12-14 2022-06-16 Cerner Innovation, Inc. Optimizing Service Delivery through Partial Dependency Plots
CN113051152B (zh) * 2021-02-20 2023-03-24 武汉木仓科技股份有限公司 一种任务数据的生成方法、装置以及处理设备
US11366861B1 (en) * 2021-02-26 2022-06-21 Noonum, Inc. Modeling conformance to thematic concepts
US11907311B2 (en) * 2021-03-11 2024-02-20 Jatin V. Mehta Dynamic website characterization for search optimization
US11714813B2 (en) * 2021-04-07 2023-08-01 Clarifai, Inc. System and method for proposing annotations
CN115238674A (zh) * 2021-04-23 2022-10-25 伊姆西Ip控股有限责任公司 文章处理方法、电子设备和程序产品
US11657415B2 (en) * 2021-05-10 2023-05-23 Microsoft Technology Licensing, Llc Net promoter score uplift for specific verbatim topic derived from user feedback
US20220366269A1 (en) * 2021-05-11 2022-11-17 International Business Machines Corporation Interactive feature engineering in automatic machine learning with domain knowledge
US12079572B2 (en) 2021-05-17 2024-09-03 Microsoft Technology Licensing, Llc Rule-based machine learning classifier creation and tracking platform for feedback text analysis
US12019593B2 (en) * 2021-08-13 2024-06-25 Josh Shapiro System and method of joining research studies to extract analytical insights for enabling cross-study analysis
US11972209B2 (en) * 2021-11-03 2024-04-30 iSchoolConnect Inc. Machine learning system for analyzing the quality and efficacy of essays for higher education admissions
US11775267B2 (en) * 2021-12-07 2023-10-03 Google Llc Identification and application of related source code edits
US11893032B2 (en) 2022-01-11 2024-02-06 International Business Machines Corporation Measuring relevance of datasets to a data science model
CN114443783B (zh) * 2022-04-11 2022-06-24 浙江大学 一种供应链数据分析和增强处理方法及装置
US20230394351A1 (en) * 2022-06-02 2023-12-07 Adp, Inc. Intelligent Data Ingestion

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070179354A1 (en) * 2004-07-10 2007-08-02 Stupp Steven E Apparatus for determining association variables
US20120089621A1 (en) * 2010-10-11 2012-04-12 Peng Liu Topic-oriented diversified item recommendation
US20150112978A1 (en) * 2013-10-18 2015-04-23 Google Inc. Distance based search ranking demotion
JP2017134582A (ja) * 2016-01-27 2017-08-03 ヤフー株式会社 グラフインデックス探索装置及びグラフインデックス探索装置の動作方法
US9811438B1 (en) * 2015-12-02 2017-11-07 Color Genomics, Inc. Techniques for processing queries relating to task-completion times or cross-data-structure interactions

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8015143B2 (en) * 2002-05-22 2011-09-06 Estes Timothy W Knowledge discovery agent system and method
JP2009217724A (ja) 2008-03-12 2009-09-24 Panasonic Corp 関連文書推定装置、関連文書推定方法及びプログラム、並びに記録媒体
CN102663016B (zh) * 2012-03-21 2015-12-16 上海触乐信息科技有限公司 电子设备上输入候选框进行输入信息扩展的系统及其方法
CN106650922B (zh) * 2016-09-29 2019-05-03 清华大学 硬件神经网络转换方法、计算装置、软硬件协作系统
CN108073929B (zh) * 2016-11-15 2023-11-24 北京三星通信技术研究有限公司 基于动态视觉传感器的物体检测方法及设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070179354A1 (en) * 2004-07-10 2007-08-02 Stupp Steven E Apparatus for determining association variables
US20120089621A1 (en) * 2010-10-11 2012-04-12 Peng Liu Topic-oriented diversified item recommendation
US20150112978A1 (en) * 2013-10-18 2015-04-23 Google Inc. Distance based search ranking demotion
US9811438B1 (en) * 2015-12-02 2017-11-07 Color Genomics, Inc. Techniques for processing queries relating to task-completion times or cross-data-structure interactions
JP2017134582A (ja) * 2016-01-27 2017-08-03 ヤフー株式会社 グラフインデックス探索装置及びグラフインデックス探索装置の動作方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024157498A1 (ja) * 2023-01-27 2024-08-02 日本電気株式会社 情報処理装置、情報処理方法、及び、記録媒体

Also Published As

Publication number Publication date
CN113453611B (zh) 2024-05-03
US20200250562A1 (en) 2020-08-06
CA3126470A1 (en) 2020-08-06
CN113453611A (zh) 2021-09-28
EP3917383A1 (en) 2021-12-08
DE202020006040U1 (de) 2024-07-11
EP3917383A4 (en) 2022-03-30
US11354587B2 (en) 2022-06-07
US20230046324A1 (en) 2023-02-16
JP7307914B2 (ja) 2023-07-13
WO2020160264A1 (en) 2020-08-06

Similar Documents

Publication Publication Date Title
JP7307914B2 (ja) データを編成し見出すためのシステム及び方法
US11281626B2 (en) Systems and methods for management of data platforms
US12056120B2 (en) Deriving metrics from queries
Venkatram et al. Review on big data & analytics–concepts, philosophy, process and applications
Fernández-García et al. A recommender system for component-based applications using machine learning techniques
US20230060252A1 (en) Systems and Methods for Organizing, Finding, and Using Data
US20110078160A1 (en) Recommending one or more concepts related to a current analytic activity of a user
Enríquez et al. Entity reconciliation in big data sources: A systematic mapping study
US10866992B2 (en) System and methods for identifying, aggregating, and visualizing tested variables and causal relationships from scientific research
US10210461B2 (en) Ranking data analytics results using composite validation
US20110078101A1 (en) Recommending one or more existing notes related to a current analytic activity of a user
US20170090729A1 (en) Organization and Visualization of Content from Multiple Media Sources
WO2023172541A1 (en) System and methods for monitoring related metrics
Martins et al. Information organization and representation in digital cultural heritage in Brazil: Systematic mapping of information infrastructure in digital collections for data science applications
Fadloun et al. EpidVis: A visual web querying tool for animal epidemiology surveillance
EP3152678A1 (en) Systems and methods for management of data platforms
Lyra et al. Toward computer-supported semi-automated timelines of future events
McGee et al. Towards visual analytics of multilayer graphs for digital cultural heritage
Wang et al. A Markov logic network method for reconstructing association rule-mining tasks in library book recommendation
Liu Apache spark machine learning blueprints
Verma et al. Multi-structured data analytics using interactive visualization to aid business decision making
Dalal et al. Cloud enabled predictive big data analytics framework for healthcare
US9430518B2 (en) Spiritual research system and method
Macedo et al. Knowledge graph: A strategy for knowledge management?
Seo et al. Study on Big Data Based Decision Making Support System for Development of Software Education Model

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230214

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20230512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230529

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230606

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230622

R150 Certificate of patent or registration of utility model

Ref document number: 7307914

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150