JP2022523917A - データを編成し見出すためのシステム及び方法 - Google Patents
データを編成し見出すためのシステム及び方法 Download PDFInfo
- Publication number
- JP2022523917A JP2022523917A JP2021544919A JP2021544919A JP2022523917A JP 2022523917 A JP2022523917 A JP 2022523917A JP 2021544919 A JP2021544919 A JP 2021544919A JP 2021544919 A JP2021544919 A JP 2021544919A JP 2022523917 A JP2022523917 A JP 2022523917A
- Authority
- JP
- Japan
- Prior art keywords
- data
- variables
- topic
- node
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 152
- 238000012545 processing Methods 0.000 claims description 59
- 230000008569 process Effects 0.000 claims description 47
- 238000013456 study Methods 0.000 claims description 38
- 238000010801 machine learning Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 19
- 238000002474 experimental method Methods 0.000 claims description 16
- 238000011160 research Methods 0.000 claims description 13
- 230000001364 causal effect Effects 0.000 claims description 9
- 238000003058 natural language processing Methods 0.000 claims description 8
- 238000012015 optical character recognition Methods 0.000 claims description 7
- 238000003860 storage Methods 0.000 claims description 6
- 230000004044 response Effects 0.000 claims description 4
- 238000001914 filtration Methods 0.000 claims 5
- 238000010586 diagram Methods 0.000 abstract description 19
- 230000006870 function Effects 0.000 description 29
- 230000008520 organization Effects 0.000 description 11
- 238000013500 data storage Methods 0.000 description 10
- 238000013459 approach Methods 0.000 description 8
- 230000006399 behavior Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000009471 action Effects 0.000 description 5
- 238000013499 data model Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000007 visual effect Effects 0.000 description 4
- 208000002874 Acne Vulgaris Diseases 0.000 description 3
- 206010000496 acne Diseases 0.000 description 3
- 235000013399 edible fruits Nutrition 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 206010020772 Hypertension Diseases 0.000 description 2
- 241000220225 Malus Species 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000005180 public health Effects 0.000 description 2
- 238000005728 strengthening Methods 0.000 description 2
- 235000000832 Ayote Nutrition 0.000 description 1
- 241000219122 Cucurbita Species 0.000 description 1
- 235000009854 Cucurbita moschata Nutrition 0.000 description 1
- 235000009804 Cucurbita pepo subsp pepo Nutrition 0.000 description 1
- 235000008694 Humulus lupulus Nutrition 0.000 description 1
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241001465805 Nymphalidae Species 0.000 description 1
- 235000004522 Pentaglottis sempervirens Nutrition 0.000 description 1
- 238000012356 Product development Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 235000021016 apples Nutrition 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 235000019504 cigarettes Nutrition 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013479 data entry Methods 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000013079 data visualisation Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 239000011521 glass Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 206010025482 malaise Diseases 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000001000 micrograph Methods 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 235000015136 pumpkin Nutrition 0.000 description 1
- 239000012925 reference material Substances 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000005808 skin problem Effects 0.000 description 1
- 230000000391 smoking effect Effects 0.000 description 1
- 241000894007 species Species 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000003813 thumb Anatomy 0.000 description 1
- 230000000699 topical effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本願は、本明細書においてあらゆる目的のために、その全体が(付属書類を含め)参照により組み込まれる、2019年2月1日に出願され、「データを編成し見出すためのシステム及び方法(Systems and Methods for Organizing and Finding Data)」と題された米国仮特許出願第62/799981号の利益を主張する。
多くの学習及び意思決定のプロセスの一部として、データが使用される。このようなデータは、トピック、エンティティ、概念等に関連し得る。しかしながら、このようなデータは、有用であるために、効率的な発見、アクセス及び処理、その他の利用、が可能でなければならない。さらに、データは、実施されているタスク又は行われている意思決定に、関連性を有している(又は、場合によっては、充分な関連性を有している)ことが望ましい。信頼性のあるデータ駆動型の意思決定又は予測が必要とするのは、単に、意思決定の所望される成果又は予測のターゲットについてのデータではなく、当該成果又はターゲットに統計的に連関する(理想的には全てだが、少なくとも最も強く連関する)変数についてのデータである。残念ながら、今日、従来のアプローチを使用して、どの変数が成果又はターゲットに統計的に連関していると立証されたかを発見すること、および、当該変数についてのデータにアクセスすることは、非常に難しい。
本明細書において使用されるような、「発明(invention)」、「前記発明(the invention)」、「この発明(this invention)」、及び「本発明(the present invention)」という用語は、この文書に記載される主題の全て及び請求項を広く指すことが意図される。これらの用語を包含する言明は、本明細書に記載される主題を限定しないものと、又は、請求項の意味若しくは範囲を限定しないものと、理解されるべきである。この特許が及ぶ本発明の実施形態は、請求項により定義され、この概要によって定義されない。この概要は、本発明の様々な態様の高いレベルでの概観であり、以下の詳細な説明の章にてさらに説明される概念のうちのいくつかを紹介している。この概要は、請求項に記載された主題の鍵となる、必要とされる、又は、不可欠な特徴を特定することが意図されないだけではなく、請求項に記載された主題の範囲を判定するために単独で使用されることも意図されない。主題は、この特許の明細書全体の適切な部分と、いずれかの又は全ての図面と、各請求項と、を参照することにより理解されるべきである。
ここでは、本発明の実施形態の主題について、法的な要件に見合う具体性を伴って説明するが、この説明は、請求項の範囲を限定することは必ずしも意図されていない。請求項に記載された主題は、他の手法で具現化されてよく、異なる要素又はステップを含んでよく、他の既存の又は今後の技術と併せて使用されてよい。この説明は、様々なステップ又は要素の両者間又は三者以上の間における、いずれかの特定の順序又は配列を暗示するものとして解釈されるべきではないが、個々のステップの順序又は要素の配列が明示的に説明されるときは、この限りではない。
アーキテクチャ
●いくつかの実施形態において、図1に例示されるアーキテクチャの要素又はコンポーネントは、それらの機能に基づいて、及び/又は、当該要素若しくはコンポーネントへのアクセスがいかに提供されるかに基づいて、区別され得る。機能的に、システムのアーキテクチャ100は、以下のものを区別している。
○情報/データへのアクセス及び取り出し(アプリケーション112、追加/編集118、及びオープンサイエンス103として例示)-これらは、特徴グラフ又は類似するデータ構造を生成するための根拠として働く、データ、変数、トピック、概念、及び統計的情報を提供する、実験、研究、機械学習モデル等の情報及び記述のソースである)。
○データベース(システムDB(SystemDB108として例示))-電子データのストレージ媒体又は要素であり、好適なデータ構造又はスキーマと、データ取り出しプロトコル/方法論と、を利用している。
○アプリケーション(アプリケーション112及びウェブサイト116として例示)-これらは、パブリックユーザ(パブリック102)、顧客104、及び/又は管理者106から受信された命令又はコマンドに応じて実行される。アプリケーションは、以下のもののような、1つ以上の有用な動作又は機能を実施し得る。
■システムDB108又は特徴グラフ110を検索し、ユーザクエリに対する関連性の変数、データセット、及び他の情報を取り出すこと、
■特徴グラフの特定のノード又は関係を特定すること、
■パブリック102、又は、データへのアクセスを所有若しくは制御する顧客若しくは企業104(この意味合いにおいて、顧客104は、情報/データ取り出しアーキテクチャ/ソースの要素として働いていることに留意されたい。)以外の他者、によりデータがアクセスされ得るように、システムDB108にデータを書き込むこと、
■指定されたデータセットから特徴グラフを生成すること、
■複雑性、統計的有意性の相対次数等の1つ以上のメトリック(測定基準)又は測度に従って、特定的な特徴グラフを特徴付けること、並びに/或いは、
■機械学習モデルをトレーニングする際に使用するデータセットについてのレコメンデーションを得ること。
●システムへのアクセス及びその能力の観点から、システムのアーキテクチャは、パブリック102にとってアクセス可能な要素又はコンポーネントと、定義された顧客、企業、組織、又は、企業若しくは組織のセット(例として、社会セクタにおける産業コンソーシアム若しくは「データコラボレーション」)104にとってアクセス可能な要素又はコンポーネントと、システム106の管理者にとってアクセス可能な要素又はコンポーネントと、を区別している。
●トピック、因子、若しくは変数間の統計的連関についての情報/データ、又は、当該統計的連関を論証する情報/データは、多数のソースから取り出され(即ち、アクセス及び取得され)得る。これらは、雑誌記事、技術的及び科学的な刊行物及びデータベース、リサーチ及びデータサイエンス用のデジタル「ノートブック」、実験プラットフォーム(例えば、A/Bテスト用)、データサイエンス及び機械学習のプラットフォーム、並びに/又は、観測された変数とトピック、概念、若しくは目標との間の観測された統計的(若しくは裏付けに乏しい)関係をユーザが入力することができるパブリックウェブサイト(要素/ウェブサイト116)を含み得る(が、これらに限定されない)。
○情報/データ取り出しアーキテクチャのコンポーネントは、例えば、自然言語処理(NLP)、自然言語理解(NLU)、及び/又は、画像を処理するためのコンピュータビジョン(入力/ソース処理要素120により例示)を使用して、刊行されたか又はさもなければアクセス可能な科学的雑誌記事を、(例として、光学文字認識(optical character recognition:OCR)を使用することによって)スキャンする又は「読み取る」ことと、(例えば、「増加する(increases)」というターム又は別の関連性を有するターム若しくは記述を認識することによって)統計的連関が測定されたことを示すワード及び/又は画像を特定することと、それに応答して、連関についての、及び、当該連関を測定する(例えば、サポートする)データセットについての、情報/データを取り出すこと(図において「オープンサイエンス」103とラベリングされた要素により、及び、図2(a)のステップ若しくはステージ202により、示唆されるように。)と、を行い得る。
○情報/データ取り出しアーキテクチャの他のコンポーネント(図示せず)は、ユーザに対し、自身のデジタル「ノートブック」(例えば、ジュピターノートブック(Jupitor Notebook))にコードを入力して、機械学習実験(例えば、所与のモデルで使用された特徴の「特徴重要度」の測定)と、当該実験で使用されたデータセットについての情報と、のメタデータ出力を取り出す、手法を提供し得る。
○いくつかの実施形態において、情報/データの取り出しは、一般に、定期的又は継続的に起こり、システムに対し、格納して、構造化して、それによってユーザに公表すべき、新たな情報を提供することに留意されたい。
●いくつかの実施形態においては、アルゴリズム/モデルのタイプ(例えば、ロジスティック回帰(Logistic Regression))、モデルパラメータ、数値(例えば、0.725)、単位(例えば、ログ損失)、統計的特性(例えば、p値=0.03)、特徴重要度、特徴ランク、モデル性能(例えば、AUCスコア)、及び、連関についての他の統計値が、取り出された状態で特定されて格納される。
○リサーチャ及びデータサイエンティストが同じ又は密接に類似する概念を記述するために異なるワードを用い得ると仮定すると、変数名(例えば、「有酸素運動」)は、取り出された状態で格納され、次に、パブリックドメインのオントロジ(例えば、Wikidata)に意味的にグラウンディングされ(即ち、リンキングされ又は関連付けられ)て、共通の、又は、典型的に同義の若しくは密接に関連する、ターム及び概念に基づいた、変数(及び連関する統計的連関)のクラスタリングを容易にし得る。
■例えば、所与のユーザにより「log_house_sale_price」とラベリングされた変数は、システムにより、一意のIDであるQ58081362を有している、Wikidata内のトピック「不動産価格」に意味的に連関され(及び、ユーザによりさらに確認され)得る。
●本明細書に記載されるように、中央データベース(「システムDB」108)は、取り出された情報/データと、それに連関するデータ構造(即ち、ノード、エッジ、値)と、を格納する。システムDB内に格納された情報/データの全て又はサブセットを包含する中央データベースのインスタンス又は射影は、定義された顧客、企業、又は組織104(若しくはそのグループ)にとって、自身の使用のために(例えば、「特徴グラフ」110の形で)利用可能となる。
○特定の特徴グラフへのアクセスが、所与の企業又は組織に連関する或る特定の個人に制限され得るが故に、当該特徴グラフは、所与の企業又は組織104にとって私的であると又は所有権を有していると考えられ得る変数及び統計的連関についての情報/データ(例として、雇用データ、財務データ、製品開発データ、R&Dデータ等)を表現するために使用され得る。
○各顧客/ユーザは、特徴グラフの形で、システムDBの自身のインスタンスを有している。全ての特徴グラフは、並行して、及び、ほとんどのケースにおいて頻繁に、システムDBからデータを読み取り、特徴グラフのユーザがシステムDB内に格納されている最新の知識を得ることを保証する。
●アプリケーション112は、特徴グラフ110の上に策定され(「築かれ」)得、いくつかのアプリケーションが、そこからデータを読み取り得、いくつかのアプリケーションが、そこに書き込みを行い得、いくつかのアプリケーションが、その両方を行い得る。アプリケーションの一例が、データセットについてのレコメンダシステム(本明細書において「データレコメンダ」と称される)であり、これについては、より詳しく説明する。特徴グラフ110を使用する顧客104は、自身の組織以外の、より広いユーザのグループと、又はパブリックと、或る特定の情報/データの共有を望む場合、好適なアプリケーション112を使用してシステムDB108に情報/データを「書き込む」ことができる。
○アプリケーション112は、顧客104のデータプラットフォーム及び/又は機械学習(ML)のプラットフォーム114と統合され得る。データプラットフォームの一例が、Googleクラウドストレージ(Google Cloud Storage)である。ML(又はデータサイエンス)のプラットフォームは、ジュピターノートブックといったソフトウェアを含み得る。
■このようなデータプラットフォーム統合は、例えば、顧客のデータストレージ又は他のデータリポジトリ内のデータレコメンダアプリケーションによってレコメンドされた特徴に、ユーザがアクセスすることを可能にするであろう。別の例として、データサイエンス/MLプラットフォーム統合は、例えば、ノート内から特徴グラフにユーザがクエリを行うことを可能にするであろう。
○留意されたいこととして、顧客のデータプラットフォーム及び/又は機械学習(ML)のプラットフォームとのこのような統合に加えて又はその代わりに、アプリケーションへのアクセスが、サービスとしてのソフトウェア(Software-as-a-Service:SaaS)又は類似するマルチテナントアーキテクチャといった好適なサービスプラットフォームアーキテクチャを使用して、管理者により顧客に提供され得る。このようなアーキテクチャの主要な要素又は特徴のさらなる説明は、図5を参照して本明細書において記載される。
●いくつかの実施形態においては、パブリック102にとって、ウェブベースのアプリケーションがアクセス可能となり得る。ユーザは、ウェブサイト(例として、「System.com」116)上で、Wikipediaといったウェブサイトで経験した方式に類似する方式で、(図において、追加/編集の機能性118により示唆されるように)システムDB108からの読み取り及びシステムDB108への書き込みが可能にされ得る。
●いくつかの実施形態においては、システムDB108内に格納されてSystem.com116上でパブリックに公表されたデータは、Wikipediaといったウェブサイトで経験した方式に類似する方式で、パブリックにとって自由に利用可能なものとなり得る。
●ユーザは、ノードのうちの下側のノード151を選択することにより、検索入力が、何に関連しているのか、何を予測するのか、及び、何を誘起するのか、の知得に興味があることを指定し得、
●ユーザは、ノードのうちの上側のノード152を選択することにより、検索入力が、何により予測されるのか、又は誘起されるのか、の知得に興味があることを指定し得、或いは、
●ユーザは、ノード151及びノード152の両方を選択することにより、2つ以上の検索入力がいかに関連しているのか、の知得に興味があることを指定し得る。
●意味的関係を用いる従来の検索は、以下の特質を有しているであろう。
入力:変数又は概念
出力:入力にマッチングしているか、又は、入力に意味的に関連している、全てのノードであって、ユーザ指定のタイプ(例えば、データセット)によりフィルタリング可能である。
例:
入力=喫煙者(Smoker)
出力=喫煙(Smoking)、喫煙者ら(Smokers)、たばこ(Cigarettes)等
検索バー又はユーザ入力は、図1(c)に示されるように出現する。
●対照的に、本明細書に記載されるシステム及び方法の一実施形態により実装されるような統計的検索は、以下の特質を有する。
入力:変数又は概念
出力:入力に統計的に連関する変数及び/又は概念であって、ユーザ指定のタイプ(例えば、データセット)によりフィルタリング可能である。
例:
入力=喫煙者(Smoker)
出力=高血圧(High Blood Pressure)、週間収入(Weekly Earnings)、性別は男性である(Gender is Male)等
検索バー又はユーザ入力は、図1(d)に示されるように出現する。
さらには、出力結果のランキングが、連関の値及び品質を考慮し得る。
●留意されたいこととして、特定の顧客又はユーザのための特徴グラフを配備する/生成する/構築する際に、システムDB内のデータは、性能を改善するために、調査されている問題又は概念/トピックに関連性を有さないであろうデータを除去することにより、フィルタリングされ得る。
特徴グラフ
●注記したように、特徴グラフとは、トピックと、これらに連関する変数、因子、カテゴリ等と、の間の統計的連関を構造化し、表現し、格納する手法である。特徴グラフの核となる要素又はコンポーネント(即ち、「ビルディングブロック」)は、変数(図3においてはV1、V2等として識別される。)と、統計的連関(変数間を連結するライン又はエッジとして識別される。)と、である。変数は、「概念」(図においてはC1として識別される。)にリンキングされ又は関連付けられることができ、この「概念」は、それ自体では必ずしも測定可能ではない意味の概念又はトピックである(例えば、「強盗の件数」という変数は、「犯罪」という概念にリンキングされ得る)。変数は、測定可能な経験的オブジェクト又は因子である。統計学において、連関は、「2つのランダムな変数間の、因果関係であるか否かを問わない、任意の統計的関係」として定義される。統計的連関は、科学的方法と呼ばれるものの1つ以上のステップ又はステージから生じ、例えば、弱い、強い、観測された、測定された、相関的な、因果関係の、予測的な、等と特徴付けられ得る。
○一例として、及び、図3を参照すると、入力変数V1の統計的検索は、以下のものを取り出す。(i)V1に統計的に連関する変数(例えば、V6、V2)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(ii)当該変数に統計的に連関する変数(例えば、V5、V3、V4)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(iii)入力変数V1に統計的に連関する1つ以上の変数(例えば、V2)に、共通の概念(例えば、C1)により意味的に関連する変数(例えば、V7)、及び、(iv)当該変数に統計的に連関する変数(例えば、V8)と、連関する変数を測定するか、又は、取り出された変数の統計的連関を論証する、データセット(例えば、D6、D2、D5、D3、D4、D7、D8)。
■留意されたいこととして、対照的に、入力変数V1の意味的検索は、(1)変数V1、及び、(2)当該変数を測定するデータセット(例えば、D1)しか取り出さない。
●特徴グラフには、(例えば)雑誌記事、科学的及び技術的なデータベース、リサーチ及びデータサイエンス用のデジタル「ノートブック」、実験ログ、データサイエンス及び機械学習のプラットフォーム、観測又は知覚された統計的連関をユーザが入力することのできるパブリックウェブサイト、並びに、他の可能なソース、から取り出された統計的連関についての情報/データが投入される。
○注記したように、自然言語処理(NLP)、自然言語理解(NLU)、及び/又は画像処理(OCR、視覚的認識)の技法を使用することにより、情報/データ取り出しアーキテクチャのコンポーネントは、刊行された科学的な雑誌記事をスキャンする又は「読み取る」ことと、統計的連関が測定された(例えば、「増大する」)ことを示すワード又は画像を特定することと、当該連関についての、及び、当該連関を測定/確証するデータセットについての、情報/データを取り出すことと、が可能である。
○情報/データ取り出しアーキテクチャの他のコンポーネントは、データサイエンティスト及びリサーチャに対し、自身のデジタル「ノートブック」(例えば、ジュピターノートブック)にコードを入力して、機械学習実験(例えば、所与のモデルで使用された特徴の「特徴重要度」の測定)と、当該実験で使用されたデータセットについての情報と、のメタデータ出力を取り出す、手法を提供する。留意されたいこととして、情報/データの取り出しは、定期的に、いくつかのケースにおいては継続的に、起こり、システムに対し、格納して、構造化して、ユーザに公表すべき、新たな情報を提供する。
●1つの実施形態において、データセットは、関連性を有するデータセット/バケット/パイプラインのURIへのリンク(例えば、UCI国勢調査所得データセット(the UCI Census Income Dataset)は、https://archive.ics.uci.edu/ml/machine-learning-databases/adult/_にある)、又は、別の形のアクセス若しくはアドレス、を用いて、特徴グラフ内の変数に連関される。
○これにより、特徴グラフのユーザは、(知識グラフにおけるように、特定されたターゲット/トピックに意味的に関連するトピックについて、潜在的に関連性がより低いか、又は関連性がないデータセットよりもむしろ、)特定されたターゲット/トピックについての当該データのこれまでに論証又は判定された予測力に基づいた、データセットの取り出しが可能になる。
○例えば、本明細書に記載されるシステム及び方法の一実施形態を使用して、データサイエンティストが研究のターゲットトピック又は目標として「器物破損行為」を検索する場合、器物破損行為のインスタンスを測定するデータセットよりもむしろ、当該ターゲット/トピックを予測することが示されたトピック-例えば、「家計所得」、「明度」、及び「交通密度」(並びに、当該ターゲットへの当該統計的連関のエビデンス)-についてのデータセットを取り出すであろう。
●連関の、数値(例えば、0.725)及び統計的特性(例えば、p値=0.03)は、取り出された状態で、システムDB(又は構築された特徴グラフ)内に格納される。注記したように、リサーチャ及びデータサイエンティストが同じ概念を記述するために異なるワードを用い得ると仮定すると、変数名(例えば、「有酸素運動」)は、取り出された状態で格納され、且つ、パブリックドメインのオントロジ(例えば、Wikidata)に意味的にグラウンディングされて、共通の又は類似する概念(例として、同義のターム)に基づいた、変数(及び統計的連関)のクラスタリングを容易にする。
●このシステムは、数学的及び視覚的な、言語ベースの方法を用いて、記録されたエビデンスの認識論的特性、例えば、所与の統計的連関をサポートする情報及び/又はデータの品質、厳密性、信憑性、再現性、及び完全性、を表す。
○例えば、所与の統計的連関は、当該連関をさらに調査すべきか否かをユーザにひと目で示すために、その科学的な品質に基づいて(全体的に、及び、「査読付き」といった特定的なパラメータについて)、ユーザインターフェイスにおける特定のスコア、ラベル、及び/又は、アイコンを携え得る。いくつかの実施形態において、特徴グラフを検索することによって取り出された統計的連関は、それらの科学的な品質スコアに基づいて、フィルタリングされる。或る特定の実施形態において、品質スコアの計算は、特徴グラフ内に格納されたデータ(例えば、所与の連関の統計的有意性、又は、当該連関が文書化されている程度)を、特徴グラフ外に格納されたデータ(例えば、当該連関が取り出された雑誌記事の被引用回数、又は、当該記事の著者のh指数)と組み合わせ得る。
○例えば、高い曲線下面積(area under the curve:AUC)スコアを有しており、部分従属プロット(partial dependence plot:PDP)を有しており、再現性のために文書化されている、モデルにおいて測定された、高く且つ有意な「特徴重要度」スコアとの統計的連関は、特徴グラフにおいて「強い」統計的連関と考えられ得、グラフィカルユーザインターフェイスにおいて識別色又は識別アイコンが与えられ得る。
○留意されたいこととして、一実施形態は、変数及び統計的連関を取り出すことに加え、実験において使用された他の変数を取り出して、ユーザのために統計的連関をコンテキスト化もし得る。このことは、例えば、或る特定の変数が実験において制御されたのか、又は、どのような他の変数(若しくは特徴)がモデルに含まれているのか、をユーザが知得したいと望む場合、助けになり得る。
データモデル
特徴グラフ(又はシステムDB)内の主要なオブジェクトは、典型的に、以下のもののうちの1つ以上を含む。
●変数(又は特徴)--何をどのような母集団で測定しているのか?
●概念--研究しているトピック又は概念は何か?
●近傍--測定している主題は何か?
●統計的連関--この関係の数学的な根拠及び値は何か?
●モデル(又は実験)--この測定のソースは何か?
●データセット--関係(例えば、トレーニングセット)を測定するために使用された、又は、変数を測定する、データセットは何か?
これらのオブジェクトは、(図3において例示されるように)以下のように、特徴グラフ内で関連付けられている。
●変数は、統計的連関を介して他の変数にリンキングされている。
●統計的連関は、モデルから生じており、データセットによりサポートされている。
●変数は、概念にリンキングされており、概念は、近傍にリンキングされている。
●ユーザは、ターゲット変数を入力し、当該ターゲット変数を予測するモデルをトレーニングするために使用され得る全てのデータセット、即ち、そのターゲット変数に統計的に連関する変数にリンキングされたデータセット、を取り出したいと望んでいる(図2(b)において224により示唆)。
○例えば、及び、図3を参照すると、統計的検索入力V1は、アルゴリズム(例えば、幅優先探索(BFS))にグラフをトラバースさせて以下のものを返させる。即ち、(i)V1に統計的に連関する変数(例えば、V6、V2)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(ii)当該変数に統計的に連関する変数(例えば、V5、V3、V4)(いくつかの実施形態において、変数は、統計的連関値が、定義された閾値を上回る場合にのみ、取り出され得る)、(iii)入力変数V1に統計的に連関する1つ以上の変数(例えば、V2)に、共通の概念(例えば、C1)により意味的に関連する変数(例えば、V7)、及び、(iv)当該変数に統計的に連関する変数(例えば、V8)と、取り出された変数の統計的有意性を測定又は論証するデータセット(例えば、D6、D2、D5、D3、D4、D7、D8)。
●特徴グラフをトラバースし、潜在的に関連性を有するデータセットを取り出した後に、当該データセットには、アプリケーション又は使用事例に基づいて、「フィルタリング」、ランキング、又はさもなければ順序付けが行われ得る。
○上で記載されたトラバーサルプロセスを通じて取り出されたデータセットは、その後、ユーザにより、それらの検索によって入力された基準に基づいて、及び/又は、ソフトウェアのインスタンスの管理者により入力された基準に基づいて、フィルタリングされ得る。例示的な検索データセットフィルタは、以下のもののうちの1つ以上を含み得る。
■母集団及びキー:関心の対象となる変数は、ユーザにとって興味のある母集団及びキー(例えば、ユーザ、種、都市、企業等の一意の識別子)において測定されているか?これは、機械学習用のトレーニングセットにデータを結び付けるユーザの能力に影響を与える。
■コンプライアンス:このデータセットは、適用可能な規制上の考慮事項(例えば、GDPRコンプライアンス)に見合っているか?
■解釈可能性/説明可能性:この変数は、人間により解釈可能か?
■即時使用可能性:この変数は、モデルのユーザにより即時の使用が可能か?
●C1に意味的に連関する概念(C2)(留意されたいこととして、このステップはオプションであり得る)、
●C1及び/又はC2に意味的に連関する変数(VX)、
●変数VXの各々に統計的に連関する変数、
●特定された統計的連関の、測度又は測度、並びに、
●変数VXの各々を測定する、及び/又は、変数VXの各々に統計的に連関する変数の統計的連関を論証若しくはサポートする、データセット。
●このようなケースにおいて、システムは、データベース内において関連性を有する情報を「読み取り」、情報(例えば、値の分布、連関の性質及び強度についてのコンセンサスの程度、連関が測定された母集団等)の統計的及び認識論的な要約を表現する付加的なエッジ(「要約連関」と呼ばれる)を生成する。留意されたいこととして、要約連関のエッジは、アプリケーションにより取り出されて、例えば、興味のある所与のドメインの「鳥瞰図」をユーザに提供すること、並びに、統計的連関の特定のセットをめぐるコンセンサスについて、また、統計的連関の特定のセットが経時的にいかに変化したのかについて、また、どの母集団において、何が研究されたのか、又は何が研究されていないのかについて、の質問に答えること、ができる。
データセットのレコメンデーション
●ターゲットへのホップ数:或る変数とターゲットとの間の直接的な連関のエビデンスが、或る変数とターゲットに直接的に連関する別の変数との間の間接的な連関のエビデンスよりも大きな重みを有する、
●意味的な関連性:概念を通じたトラバースにより取り出された変数は、当該概念に意味的に関連性を有しているはずである。強い関連性は、弱い関連性よりも、より一層重み付けされるべきである、
●因果律:因果関係を介してターゲットに連関する変数は、非因果関係を介して連関する変数よりも大きな重みを有する、
●モデル正確度:より正確なモデルを介して連関する変数は、正確度のより低いモデルを介して連関する変数よりも大きな重みを有する、並びに/又は、
●特徴重要度:連関が調達されたモデル内で相対的に高い及び/若しくは有意な特徴重要度を有している変数は、より低い及び/若しくは重要でない特徴重要度を有している変数よりも大きな重みを有する。
本発明のシステム及びプロセスの一実施形態の、他の潜在的な使用
●この使用事例において、ユーザは、所与の母集団における変数Aと他の変数との間の連関についての、特徴グラフ内に包含される知識を強化して、変数Aに物質的に類似する或る特定の変数B(ここで、このような物質性は、当の変数の性質、例えば、分子の形状と、身体に対するその影響への関連性と、についての事前知識によって判定され得る)との間の連関についての予測を行い得る。
●ユーザインターフェイスを生成して、統計的検索及び/若しくは意味的検索、並びに/又は、検索のための1つ以上の制御、を開始するために、ユーザが検索ターム又は概念C1(例えば、興味のあるトピック又は当該トピックに関連する変数)を入力することを可能にすること。
○留意されたいこととして、このようなユーザインターフェイスの一例については、図1(b)、図1(c)、及び図1(d)を参照して説明している。
●C1に意味的に連関する概念(C2)を判定すること(これは、オプションとしての特徴であり得、好適なオントロジ又は参照文献へのアクセスに基づく)。
●特徴グラフにわたる検索を実行することにより、C1及び/又はC2に意味的に連関する変数(VX)を判定すること。
●特徴グラフにわたる検索を実行することにより、変数VXの各々に統計的に連関する変数を判定すること。
●特定された統計的連関の測度又は測度を判定すること。
●変数VXの各々を測定する、及び/又は、変数VXの各々に統計的に連関する変数の統計的連関を論証若しくはサポートする、データセットを特定すること。
●特定されたデータセットのランキング又はリスティングをユーザに提示することであって、このようなランキング又はリスティングが、(所望される場合に)1つ以上のユーザ指定の基準によるフィルタリングにかけられる、提示すること。
●モデル-モデルオブジェクトは、アプリケーションのデータドメインについてのロジックを実装するアプリケーションの一部である。モデルオブジェクトはしばしば、モデル状態を取り出し、データベース内に格納する。例えば、Billオブジェクトは、データベースから情報を取り出し、それに作用し、次に、更新された情報を、SQLサーバデータベース内のBillテーブルにライトバックする、ことがあり得る。
●ビュー-ビューは、アプリケーションのユーザインターフェイス(user interface:UI)を表示するコンポーネントである。典型的に、このUIは、モデルデータから作成される。一例が、Billオブジェクトの現在の状態に基づいて、テキストボックス、ドロップダウンリスト、及びチェックボックスを表示するBillテーブルの編集ビューであろう。
●コントローラ-コントローラは、ユーザ対話をハンドリングし、モデルと作業し、最終的に、UIを表示するレンダリングビューを選択する、コンポーネントである。MVCアプリケーションにおいて、ビューは情報を表示するのみであり、コントローラは、ユーザ入力及びユーザ対話をハンドリングし、それらに応答する。例えば、コントローラは、クエリストリング値をハンドリングし、これらの値をモデルに渡し、モデルは次いで、これらの値を使用してデータベースにクエリし得る。
●ユーザインターフェイスを生成して、統計的検索及び/若しくは意味的検索、並びに/又は、検索のための1つ以上の制御、を開始するために、ユーザが検索ターム又は概念C1を入力することを可能にすること、
●C1に意味的に連関する概念(C2)を判定すること(これは、オプションとしての特徴であり得、好適なオントロジ又は参照文献へのアクセスに基づき得る)、
●特徴グラフにわたる検索を実行することにより、C1及び/又はC2に意味的に連関する変数(VX)を判定すること、
●特徴グラフにわたる検索を実行することにより、変数VXの各々に統計的に連関する変数を判定すること、
●特定された統計的連関の測度又は測度を判定すること、
●変数VXの各々を測定する、及び/又は、変数VXの各々に統計的に連関する変数の統計的連関を論証若しくはサポートする、データセットを特定すること、並びに、
●特定されたデータセットのランキング又はリスティングをユーザに提示することであって、このようなランキング又はリスティングが、(所望される場合に)1つ以上のユーザ指定の基準によるフィルタリングにかけられる、提示すること。
Claims (28)
- 興味のあるトピックに関連するモデルをトレーニングする際に使用するための関連性を有するデータセットを特定するための、コンピュータにより実行される方法であって、
1つ以上のソースにアクセスすることであって、各ソースが、前記ソース内で記述された研究のトピックと前記研究において考察された1つ以上の変数との間の統計的連関についての情報を含む、アクセスすることと、
各ソースからの前記アクセスされた情報を処理して、前記ソース内で記述された前記研究において考察された前記1つ以上の変数を特定し、且つ、各変数について、前記変数と前記研究の前記トピックとの間の前記統計的連関についての情報を特定する、ことと、
前記ソースのうちの少なくとも1つについて、前記1つ以上の変数のうちの少なくとも1つに、又は、前記ソース内で記述された前記研究の前記トピックに、データセットを連関させることであって、前記データセットが、前記統計的連関を論証するために前記研究によって使用されたデータ、又は、前記データセットが連関する前記1つ以上の変数の測度を表現するデータ、のうちの1つ以上を含む、連関させることと、
前記アクセスされた1つ以上のソースを処理した結果をデータベース内に格納することであって、前記格納された結果が、各ソースについて、前記1つ以上の変数の各々への参照と、前記ソース内で記述された前記研究の前記トピックへの参照と、前記統計的連関についての情報と、該当する場合には、前記連関するデータセットへのアクセスを可能にするリンク又は他の要素と、を含む、格納することと、
前記格納された、前記アクセスされた1つ以上のソースを処理した結果に基づいて、特徴グラフを構築することであって、前記特徴グラフが、ノードのセット及びエッジのセットを含み、エッジの前記セット内の各エッジが、ノードの前記セット内の或るノードを1つ以上の他のノードに連結し、さらに、各ノードが、ソース内で記述された研究のトピックに統計的に連関することが分かっている変数を表現し、各エッジが、或るノードと前記ソース内で記述された前記研究の前記トピックとの間の、又は、第1のノードと第2のノードとの間の、統計的連関を表現する、構築することと、
ユーザから検索要求を受け取ることであって、前記検索要求が、前記興味のあるトピックを指定する、受け取ることと、
前記特徴グラフをトラバースして、前記興味のあるトピックに統計的に連関するか、又は、前記興味のあるトピックに統計的に連関する1つ以上の変数に意味的に関連する、1つ以上の変数に連関する1つ以上のデータセットを特定することと、
前記特定された1つ以上のデータセットにフィルタリング及びランキングを行うことと、
前記特定された1つ以上のデータセットのフィルタリング及びランキングの結果を前記ユーザに提示することと、
を含む、方法。 - 前記1つ以上のソースが、実験、研究、機械学習モデル、又は、裏付けに乏しい観測、の記述のうちの1つ以上を含む、請求項1に記載の方法。
- 前記1つ以上のソースを処理することがさらに、前記アクセスされたソースのうちの1つ以上に対し、光学文字認識、画像処理、自然言語処理、又は、自然言語理解、の技法のうちの1つ以上を適用することを含む、請求項2に記載の方法。
- 前記アクセスされた1つ以上のソースを処理した前記結果をデータベース内に格納することがさらに、前記結果をグラフの表現で格納することを含み、前記グラフが、複数のノード及び複数のエッジを含み、各エッジが、或るノードを別のノードに連結する、請求項1に記載の方法。
- 前記複数のエッジのうちの1つ以上が、前記統計的連関の測度に連関する、請求項4に記載の方法。
- 前記特定された1つ以上のデータセットにフィルタリング及びランキングを行うことがさらに、(a)母集団及びキー、(b)コンプライアンス、(c)解釈可能性、又は、(d)即時使用可能性のうちの1つ以上に基づいて、フィルタリング及びランキングを行うことを含む、請求項1に記載の方法。
- 前記提示されたデータセットのうちの1つ以上を使用して、前記モデルをトレーニングすることをさらに含み、前記モデルが、機械学習の技法を実装する、請求項1に記載の方法。
- 前記トレーニングされたモデルを使用して、前記モデルへの入力についての決定又は分類を行うことをさらに含む、請求項7に記載の方法。
- 前記アクセスされた1つ以上のソースを処理することがさらに、オントロジ又は参照文献にアクセスして、前記1つ以上の変数についての1つ以上の潜在的なトピック又は概念ラベルを取得することを含む、請求項1に記載の方法。
- 前記統計的連関についての前記情報が、観測された連関、測定された関係、又は、因果関係のうちの1つである、請求項1に記載の方法。
- ユーザから前記検索要求を受け取ることがさらに、前記ユーザからの前記検索についての1つ以上の制御パラメータを受け取ることを含み、前記制御パラメータが、データ、母集団、品質、方法論、又は著者のうちの1つ以上を含む、請求項1に記載の方法。
- 1つ以上のソースにアクセスすることがさらに、研究の前記トピックが前記興味のあるトピックである情報にアクセスすることを含む、請求項2に記載の方法。
- 前記格納された、前記アクセスされた1つ以上のソースを処理した結果のサブセットをユーザに提供することと、前記格納された結果の前記サブセットに基づいて、前記ユーザのために前記特徴グラフを構築することと、をさらに含む、請求項1に記載の方法。
- 前記格納された結果の前記サブセットが、前記ユーザにより提供された1つ以上のパラメータにより判定される、請求項13に記載の方法。
- 情報を表現する電子的形態であって、
グラフを表現するデータ構造であって、前記グラフが、複数のノード及び複数のエッジを含み、各エッジが、第1のノードを第2のノードに連結する、データ構造と、
1つ以上のエッジに連関する値のセットと、
データセットへのアクセスを可能にする少なくとも1つのリンク又は他の要素であって、前記リンク又は他の要素が、前記第1のノード又は前記第2のノードに連関する、少なくとも1つのリンク又は他の要素と、を備え、
各ノードが、興味のあるトピックに統計的に連関することが分かっている変数を表現し、エッジに連関する各値が、ノードと前記興味のあるトピックとの間の統計的連関の測度、第1のノードと第2のノードとの間の統計的連関の測度、を表現するか、又は、前記統計的連関における信頼度の測度を表現する、情報を表現する電子的形態。 - 前記データセットが、前記第1のノードにより表現された第1の変数と前記第2のノードにより表現された第2の変数との間の前記統計的連関を確立するために使用されたデータ、前記第1の変数の測度を表現するデータ、又は、前記第2の変数の測度を表現するデータ、のうちの1つ以上を含む、請求項15に記載の、情報を表現する電子的形態。
- 前記統計的連関が、観測された連関、測定された関係、又は、因果関係のうちの1つである、請求項15に記載の、情報を表現する電子的形態。
- 前記データセットが、実験、研究、機械学習モデル、又は、裏付けに乏しい観測、の記述のうちの1つに連関する、請求項15に記載の、情報を表現する電子的形態。
- データ処理システムであって、
コンピュータ実行可能な命令のセットでプログラムされた電子プロセッサと、
コンピュータ実行可能な命令の前記セットを格納する非一時的な電子的ストレージ要素と、を備え、
コンピュータ実行可能な命令の前記セットが、さらに、
実行されると、前記システムに、ソース又はソースのセットにアクセスさせるコンピュータ実行可能な命令であって、各ソースが、前記ソース内で記述された研究のトピックと前記研究において考察された1つ以上の変数との間の統計的連関についての情報を含む、コンピュータ実行可能な命令と、
実行されると、前記システムに、前記アクセスされた1つ以上のソースを処理させて、各ソースについて、前記ソース内で記述された前記研究において考察された前記1つ以上の変数を特定させ、且つ、各変数について、前記変数と前記研究の前記トピックとの間の前記統計的連関についての情報を特定させる、コンピュータ実行可能な命令と、
実行されると、前記システムに、少なくとも1つのソースについて、前記1つ以上の変数のうちの少なくとも1つに、又は、前記ソース内で記述された前記研究の前記トピックに、データセットを連関させる、コンピュータ実行可能な命令であって、前記データセットが、前記統計的連関を論証するために前記研究によって使用されたデータ、又は、前記データセットが連関する前記1つ以上の変数の測度を表現するデータ、のうちの1つ以上を含む、コンピュータ実行可能な命令と、
実行されると、前記システムに、前記アクセスされた1つ以上のソースを処理した結果をデータベース内に格納させる、コンピュータ実行可能な命令であって、前記格納された結果が、各ソースについて、前記1つ以上の変数の各々への参照と、前記研究において記述された前記トピックへの参照と、前記統計的連関についての情報と、該当する場合には、前記データセットへのアクセスを可能にするリンク又は他の要素と、を含む、コンピュータ実行可能な命令と、
を含む、データ処理システム。 - 実行されると、前記システムに、前記格納された、前記アクセスされた1つ以上のソースを処理した結果に基づいて、特徴グラフを構築させる、コンピュータ実行可能な命令であって、前記特徴グラフが、ノードのセット及びエッジのセットを含み、エッジの前記セット内の各エッジが、ノードの前記セット内の或るノードを1つ以上の他のノードに連結し、さらに、各ノードが、ソース内で記述された研究のトピックに統計的に連関することが分かっている変数を表現し、各エッジが、或るノードと前記ソース内で記述された前記研究の前記トピックとの間の、又は、第1のノードと第2のノードとの間の、統計的連関を表現する、コンピュータ実行可能な命令と、
実行されると、前記システムに、ユーザから検索要求を受け取らせるコンピュータ実行可能な命令であって、前記検索要求が、興味のあるトピックを指定する、コンピュータ実行可能な命令と、
実行されると、前記システムに、前記特徴グラフをトラバースさせて、前記興味のあるトピックに統計的に連関するか、又は、前記興味のあるトピックに統計的に連関する1つ以上の変数に意味的に関連する、1つ以上の変数に連関する1つ以上のデータセットを特定させる、コンピュータ実行可能な命令と、
実行されると、前記システムに、前記特定された1つ以上のデータセットにフィルタリング及びランキングを行わせるコンピュータ実行可能な命令と、
実行されると、前記システムに、前記特定された1つ以上のデータセットのフィルタリング及びランキングの結果を前記ユーザに提示させるコンピュータ実行可能な命令と、をさらに含む、請求項19に記載のデータ処理システム。 - 前記1つ以上のソースが、実験、研究、機械学習モデル、又は、裏付けに乏しい観測、の記述のうちの1つ以上を含む、請求項19に記載のデータ処理システム。
- 前記アクセスされた1つ以上のソースを処理することがさらに、前記アクセスされたソースのうちの1つ以上に対し、光学文字認識、画像処理、自然言語処理、又は、自然言語理解、の技法のうちの1つ以上を適用することを含む、請求項19に記載のデータ処理システム。
- 前記アクセスされた1つ以上のソースを処理した前記結果をデータベース内に格納することがさらに、前記結果をグラフという表現で格納することを含み、前記グラフが、複数のノード及び複数のエッジを含み、各エッジが、或るノードを別のノードに連結する、請求項19に記載のデータ処理システム。
- 実行されると、前記システムに、前記特定されたデータセットのうちの1つ以上を使用して、モデルをトレーニングさせる、コンピュータ実行可能な命令をさらに含む、請求項20に記載のデータ処理システム。
- 実行されると、前記システムに、前記モデルについての入力データのセットを受け取らせ、それに応答して、前記モデルから出力を生成させる、コンピュータ実行可能な命令をさらに含む、請求項24に記載のデータ処理システム。
- 前記出力が、分類又は決定のうちの1つ以上である、請求項25に記載のデータ処理システム。
- 実行されると、前記システムに、前記格納された、前記アクセスされた1つ以上のソースを処理した結果のサブセットをユーザに提供させ、前記格納された結果の前記サブセットに基づいて、前記ユーザのために前記特徴グラフを構築させる、コンピュータ実行可能な命令をさらに含む、請求項20に記載のデータ処理システム。
- 前記格納された結果の前記サブセットが、前記ユーザにより提供された1つ以上のパラメータにより判定される、請求項27に記載のデータ処理システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962799981P | 2019-02-01 | 2019-02-01 | |
US62/799,981 | 2019-02-01 | ||
PCT/US2020/015871 WO2020160264A1 (en) | 2019-02-01 | 2020-01-30 | Systems and methods for organizing and finding data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022523917A true JP2022523917A (ja) | 2022-04-27 |
JP7307914B2 JP7307914B2 (ja) | 2023-07-13 |
Family
ID=71838109
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021544919A Active JP7307914B2 (ja) | 2019-02-01 | 2020-01-30 | データを編成し見出すためのシステム及び方法 |
Country Status (7)
Country | Link |
---|---|
US (2) | US11354587B2 (ja) |
EP (1) | EP3917383A4 (ja) |
JP (1) | JP7307914B2 (ja) |
CN (1) | CN113453611B (ja) |
CA (1) | CA3126470A1 (ja) |
DE (1) | DE202020006040U1 (ja) |
WO (1) | WO2020160264A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024157498A1 (ja) * | 2023-01-27 | 2024-08-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
Families Citing this family (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11403327B2 (en) * | 2019-02-20 | 2022-08-02 | International Business Machines Corporation | Mixed initiative feature engineering |
US10705861B1 (en) | 2019-03-28 | 2020-07-07 | Tableau Software, LLC | Providing user interfaces based on data source semantics |
US11275791B2 (en) * | 2019-03-28 | 2022-03-15 | International Business Machines Corporation | Automatic construction and organization of knowledge graphs for problem diagnoses |
US11783266B2 (en) | 2019-09-18 | 2023-10-10 | Tableau Software, LLC | Surfacing visualization mirages |
US11556847B2 (en) * | 2019-10-17 | 2023-01-17 | International Business Machines Corporation | Method and apparatus for employing machine learning solutions |
US11100429B2 (en) * | 2019-12-27 | 2021-08-24 | The Joan and Irwin Jacobs Technion-Cornell Institute | System and method for creating electronic document chronologies using machine learning |
CN113469478A (zh) * | 2020-03-31 | 2021-10-01 | 日本电气株式会社 | 一种信息处理方法、电子设备和计算机程序产品 |
US11552785B2 (en) * | 2020-04-02 | 2023-01-10 | Epidaurus Health, Inc. | Methods and systems for a synchronized distributed data structure for federated machine learning |
US11687710B2 (en) * | 2020-04-03 | 2023-06-27 | Braincat, Inc. | Systems and methods for cloud-based productivity tools |
US11397746B2 (en) | 2020-07-30 | 2022-07-26 | Tableau Software, LLC | Interactive interface for data analysis and report generation |
US11550815B2 (en) | 2020-07-30 | 2023-01-10 | Tableau Software, LLC | Providing and surfacing metrics for visualizations |
US11579760B2 (en) | 2020-09-08 | 2023-02-14 | Tableau Software, LLC | Automatic data model generation |
US11954605B2 (en) * | 2020-09-25 | 2024-04-09 | Sap Se | Systems and methods for intelligent labeling of instance data clusters based on knowledge graph |
US11360763B2 (en) * | 2020-10-13 | 2022-06-14 | International Business Machines Corporation | Learning-based automation machine learning code annotation in computational notebooks |
US20220147509A1 (en) * | 2020-10-18 | 2022-05-12 | Trigyan Corporation Inc. | Methods and systems for data management, integration, and interoperability |
US11526558B2 (en) | 2020-11-30 | 2022-12-13 | Microsoft Technology Licensing, Llc | System and method of providing accessibility to visualization tools |
EP4248369A4 (en) * | 2020-12-08 | 2024-07-24 | Amazon Tech Inc | USING GRAPH QUERIES TO OBTAIN RESULTS FROM MACHINE LEARNING MODELS |
US11423424B2 (en) | 2020-12-10 | 2022-08-23 | Noonum, Inc. | Associating thematic concepts and organizations |
US20220187969A1 (en) * | 2020-12-14 | 2022-06-16 | Cerner Innovation, Inc. | Optimizing Service Delivery through Partial Dependency Plots |
CN113051152B (zh) * | 2021-02-20 | 2023-03-24 | 武汉木仓科技股份有限公司 | 一种任务数据的生成方法、装置以及处理设备 |
US11366861B1 (en) * | 2021-02-26 | 2022-06-21 | Noonum, Inc. | Modeling conformance to thematic concepts |
US11907311B2 (en) * | 2021-03-11 | 2024-02-20 | Jatin V. Mehta | Dynamic website characterization for search optimization |
US11714813B2 (en) * | 2021-04-07 | 2023-08-01 | Clarifai, Inc. | System and method for proposing annotations |
CN115238674A (zh) * | 2021-04-23 | 2022-10-25 | 伊姆西Ip控股有限责任公司 | 文章处理方法、电子设备和程序产品 |
US11657415B2 (en) * | 2021-05-10 | 2023-05-23 | Microsoft Technology Licensing, Llc | Net promoter score uplift for specific verbatim topic derived from user feedback |
US20220366269A1 (en) * | 2021-05-11 | 2022-11-17 | International Business Machines Corporation | Interactive feature engineering in automatic machine learning with domain knowledge |
US12079572B2 (en) | 2021-05-17 | 2024-09-03 | Microsoft Technology Licensing, Llc | Rule-based machine learning classifier creation and tracking platform for feedback text analysis |
US12019593B2 (en) * | 2021-08-13 | 2024-06-25 | Josh Shapiro | System and method of joining research studies to extract analytical insights for enabling cross-study analysis |
US11972209B2 (en) * | 2021-11-03 | 2024-04-30 | iSchoolConnect Inc. | Machine learning system for analyzing the quality and efficacy of essays for higher education admissions |
US11775267B2 (en) * | 2021-12-07 | 2023-10-03 | Google Llc | Identification and application of related source code edits |
US11893032B2 (en) | 2022-01-11 | 2024-02-06 | International Business Machines Corporation | Measuring relevance of datasets to a data science model |
CN114443783B (zh) * | 2022-04-11 | 2022-06-24 | 浙江大学 | 一种供应链数据分析和增强处理方法及装置 |
US20230394351A1 (en) * | 2022-06-02 | 2023-12-07 | Adp, Inc. | Intelligent Data Ingestion |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070179354A1 (en) * | 2004-07-10 | 2007-08-02 | Stupp Steven E | Apparatus for determining association variables |
US20120089621A1 (en) * | 2010-10-11 | 2012-04-12 | Peng Liu | Topic-oriented diversified item recommendation |
US20150112978A1 (en) * | 2013-10-18 | 2015-04-23 | Google Inc. | Distance based search ranking demotion |
JP2017134582A (ja) * | 2016-01-27 | 2017-08-03 | ヤフー株式会社 | グラフインデックス探索装置及びグラフインデックス探索装置の動作方法 |
US9811438B1 (en) * | 2015-12-02 | 2017-11-07 | Color Genomics, Inc. | Techniques for processing queries relating to task-completion times or cross-data-structure interactions |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8015143B2 (en) * | 2002-05-22 | 2011-09-06 | Estes Timothy W | Knowledge discovery agent system and method |
JP2009217724A (ja) | 2008-03-12 | 2009-09-24 | Panasonic Corp | 関連文書推定装置、関連文書推定方法及びプログラム、並びに記録媒体 |
CN102663016B (zh) * | 2012-03-21 | 2015-12-16 | 上海触乐信息科技有限公司 | 电子设备上输入候选框进行输入信息扩展的系统及其方法 |
CN106650922B (zh) * | 2016-09-29 | 2019-05-03 | 清华大学 | 硬件神经网络转换方法、计算装置、软硬件协作系统 |
CN108073929B (zh) * | 2016-11-15 | 2023-11-24 | 北京三星通信技术研究有限公司 | 基于动态视觉传感器的物体检测方法及设备 |
-
2019
- 2019-05-23 US US16/421,249 patent/US11354587B2/en active Active
-
2020
- 2020-01-30 EP EP20747877.7A patent/EP3917383A4/en active Pending
- 2020-01-30 CN CN202080011687.2A patent/CN113453611B/zh active Active
- 2020-01-30 DE DE202020006040.2U patent/DE202020006040U1/de active Active
- 2020-01-30 CA CA3126470A patent/CA3126470A1/en active Pending
- 2020-01-30 JP JP2021544919A patent/JP7307914B2/ja active Active
- 2020-01-30 WO PCT/US2020/015871 patent/WO2020160264A1/en unknown
-
2022
- 2022-05-04 US US17/736,897 patent/US20230046324A1/en not_active Abandoned
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070179354A1 (en) * | 2004-07-10 | 2007-08-02 | Stupp Steven E | Apparatus for determining association variables |
US20120089621A1 (en) * | 2010-10-11 | 2012-04-12 | Peng Liu | Topic-oriented diversified item recommendation |
US20150112978A1 (en) * | 2013-10-18 | 2015-04-23 | Google Inc. | Distance based search ranking demotion |
US9811438B1 (en) * | 2015-12-02 | 2017-11-07 | Color Genomics, Inc. | Techniques for processing queries relating to task-completion times or cross-data-structure interactions |
JP2017134582A (ja) * | 2016-01-27 | 2017-08-03 | ヤフー株式会社 | グラフインデックス探索装置及びグラフインデックス探索装置の動作方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024157498A1 (ja) * | 2023-01-27 | 2024-08-02 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
CN113453611B (zh) | 2024-05-03 |
US20200250562A1 (en) | 2020-08-06 |
CA3126470A1 (en) | 2020-08-06 |
CN113453611A (zh) | 2021-09-28 |
EP3917383A1 (en) | 2021-12-08 |
DE202020006040U1 (de) | 2024-07-11 |
EP3917383A4 (en) | 2022-03-30 |
US11354587B2 (en) | 2022-06-07 |
US20230046324A1 (en) | 2023-02-16 |
JP7307914B2 (ja) | 2023-07-13 |
WO2020160264A1 (en) | 2020-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7307914B2 (ja) | データを編成し見出すためのシステム及び方法 | |
US11281626B2 (en) | Systems and methods for management of data platforms | |
US12056120B2 (en) | Deriving metrics from queries | |
Venkatram et al. | Review on big data & analytics–concepts, philosophy, process and applications | |
Fernández-García et al. | A recommender system for component-based applications using machine learning techniques | |
US20230060252A1 (en) | Systems and Methods for Organizing, Finding, and Using Data | |
US20110078160A1 (en) | Recommending one or more concepts related to a current analytic activity of a user | |
Enríquez et al. | Entity reconciliation in big data sources: A systematic mapping study | |
US10866992B2 (en) | System and methods for identifying, aggregating, and visualizing tested variables and causal relationships from scientific research | |
US10210461B2 (en) | Ranking data analytics results using composite validation | |
US20110078101A1 (en) | Recommending one or more existing notes related to a current analytic activity of a user | |
US20170090729A1 (en) | Organization and Visualization of Content from Multiple Media Sources | |
WO2023172541A1 (en) | System and methods for monitoring related metrics | |
Martins et al. | Information organization and representation in digital cultural heritage in Brazil: Systematic mapping of information infrastructure in digital collections for data science applications | |
Fadloun et al. | EpidVis: A visual web querying tool for animal epidemiology surveillance | |
EP3152678A1 (en) | Systems and methods for management of data platforms | |
Lyra et al. | Toward computer-supported semi-automated timelines of future events | |
McGee et al. | Towards visual analytics of multilayer graphs for digital cultural heritage | |
Wang et al. | A Markov logic network method for reconstructing association rule-mining tasks in library book recommendation | |
Liu | Apache spark machine learning blueprints | |
Verma et al. | Multi-structured data analytics using interactive visualization to aid business decision making | |
Dalal et al. | Cloud enabled predictive big data analytics framework for healthcare | |
US9430518B2 (en) | Spiritual research system and method | |
Macedo et al. | Knowledge graph: A strategy for knowledge management? | |
Seo et al. | Study on Big Data Based Decision Making Support System for Development of Software Education Model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230214 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20230512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230529 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230606 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230622 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7307914 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |