JP2020513126A - データベースから調合物データ構造の実例内のデータを読み出すためのクエリおよびインデックス最適化のためのシステムならびに方法 - Google Patents

データベースから調合物データ構造の実例内のデータを読み出すためのクエリおよびインデックス最適化のためのシステムならびに方法 Download PDF

Info

Publication number
JP2020513126A
JP2020513126A JP2019553872A JP2019553872A JP2020513126A JP 2020513126 A JP2020513126 A JP 2020513126A JP 2019553872 A JP2019553872 A JP 2019553872A JP 2019553872 A JP2019553872 A JP 2019553872A JP 2020513126 A JP2020513126 A JP 2020513126A
Authority
JP
Japan
Prior art keywords
data
formulation
search
instance
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019553872A
Other languages
English (en)
Inventor
エリザベス ミシェル アルティザー,
エリザベス ミシェル アルティザー,
パトリック ニール ケネディ,
パトリック ニール ケネディ,
スコット マシュー コプリン,
スコット マシュー コプリン,
ブライアン ウォルター リンク,
ブライアン ウォルター リンク,
スーザン エレン ミラー,
スーザン エレン ミラー,
ピルフン ソン,
ピルフン ソン,
マシュー ジェイムズ トゥーサント,
マシュー ジェイムズ トゥーサント,
アマンダ ブルック ウィンドホフ,
アマンダ ブルック ウィンドホフ,
ジェフリー ディー. ウィサード,
ジェフリー ディー. ウィサード,
Original Assignee
アメリカン ケミカル ソサイエティ
アメリカン ケミカル ソサイエティ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by アメリカン ケミカル ソサイエティ, アメリカン ケミカル ソサイエティ filed Critical アメリカン ケミカル ソサイエティ
Publication of JP2020513126A publication Critical patent/JP2020513126A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのシステムならびに方法が、提供される。方法は、調合物の存在を検索するための情報源を提示することと、フィールドエントリから調合物データを生成することとを含む。調合物データは、見出される調合物と関連付けられる。方法は、調合物データ構造の実例を生成することを含む。方法は、調合物データ構造の実例内の読み出されたデータから、最適化されたインデックスデータを作成することを含む。最適化されたインデックスデータは、潜在的な検索分野用語と調合物データとの間のマッピングを含み、予測されるアクセスパターンに基づいて群化される。方法は、最適化されたインデックスデータにわたって検索クエリを起動することと、調合物データ構造の実例内の読み出されたデータと関連付けられる情報源と関連付けられる、情報を提供することとを含む。

Description

(優先権主張)
本出願は、2017年4月3日に出願された米国仮特許出願第62/481,076号から優先権を主張する。上記文献は、本出願においてその全体として参照することによって本明細書において援用される。
(技術分野)
本開示は、クエリおよびインデックス最適化のためのシステムならびに方法を提供する。特に、いくつかの実施形態では、クエリおよびインデックス最適化のためのシステムならびに方法は、データベースから調合物データ構造の実例内のデータの読み出すことに関し得る。
(背景)
調合物は、複数の成分の組み合わせである。そのような成分は、具体的な目的のために使用される、材料、化合物、および/または物質であり得る。例えば、調合物は、1つ以上の活性成分(例えば、医薬品、殺虫剤、または肥料)と、1つ以上の不活性成分との組み合わせを含み得る。不活性成分は、活性成分の有効性、それらの適用、貯蔵、または安全性を促進し得る。例えば、調合物は、複数の材料から成る、焼成された固形体であってもよい。他の実施例では、調合物は、材料の重合物または混合物であってもよい。調合物は、化学、農薬、医薬品、バイオテクノロジー、生命科学、製造、化粧品、健康、食品および飲料、消費財、塗料ならびにコーティング剤、ポリマー、プラスチック、ゴム、石油、ガス、金属、合金、セメント、自動車、航空宇宙、防衛等の分野に関連し得る。
調合物は、情報源において開示され得る。情報源は、例えば、文書、出版物、添付文書、研究論文、特許、特許出願書類、広告、プレゼンテーション、ウェブサイト、および/または雑誌であってもよい。調合物を開示する情報源は、公的に利用可能であるまたは個人蔵に保管されていてもよい。
ユーザは、電子的に記憶される情報源内の調合物の開示を検索し得る。例えば、ユーザは、文字ベースの検索を使用して検索してもよい。ユーザは、調合物の名称を含有する情報源を見出すように、調合物の名称の検索を試行してもよい。ユーザが2つの化合物を有する電子的に記憶される調合物の開示を見出すことを望む場合、ユーザは、2つの化合物の名称を含有する情報源を見出すように、2つの化合物の名称での検索を試行してもよい。しかしながら、ある場合には、ユーザは、両方の化合物に言及するが、関連しない文脈で言及する情報源を提示され得る。その結果、開示される情報源のいくつかのものは、両方の化合物から成る調合物を欠き得る。いくつかの事例では、ユーザは、両方の化合物を関連する文脈で言及するが、それにもかかわらず、両方の化合物から成る調合物が存在しない情報源を提示され得る。例えば、情報源は、検索された化合物のうちの1つを含有する調合物を説明し得るが、他の検索された化合物は、前者の化合物の代替物として情報源内に言及され得る。
加えて、調合物を含有するいくつかの情報源が、調合物を検索するユーザに種々の着目情報を提供し得る一方、それらは、いくつかの他の着目情報を明示的に開示し損ね得る。例えば、調合物の目的は、説明され得るが、調合物標的は、省略され得る。著者は、それが暗示的に開示されるまたは文脈から十分に明確であり、明示的な開示を要求しないものと考えるため、標的の言及が、省略され得る。いくつかの事例では、著者らが、情報を意図的に不明瞭にし(例えば、特許出願書類において)、公開を限定し得る。
さらに、いくつかの調合物は、調合物の名称等の規則的な文字ベースの説明による同定に適していない場合がある。これは、例えば、調合物が名称を有していない、または調合物の名称が非常に複雑であるときに、生じ得る。時として、例えば、登録番号(例えば、「329−65−7」等のCAS登録番号(登録商標))、識別子(例えば、「1/C2H6O/c1−2−3/h3H,2H2,1H3」)、化学結合表、具体的な数値プロパティ値(例えば、300Kにおいて、1.2mPa・s)、または構造図を用いて調合物を同定することが、より容易であり得る。従来のインターネット検索エンジンは、化学分野または他の技術分野に特有の検索分野およびクエリを用いた情報源検索をサポートしていない場合がある。例えば、従来のインターネット検索エンジンが、物質を含有する調合物を見出すために物質の名称を含有する情報源の検索を可能にする場合であっても、従来のインターネット検索エンジンは、ユーザが、物質に関連するパラメータを規定するクエリを使用して情報源を検索することを可能にするための能力を欠き得る。そのようなクエリの一実施例は、ある温度を上回る沸点等の、ある性質を伴う物質に関するものであり得る。従来のインターネット検索エンジンは、部分的には、物質を名称で含有する情報源が、その物質の沸点を決して示し得ないため、そのような検索を起動するための能力を欠き得る。いくつかの従来のインターネット検索エンジンが、化学分野または他の技術分野に特有の検索分野およびクエリを用いた検索を可能にする場合であっても、それらは、異なる材料と、化合物と、物質との間の関係(例えば、単一調合物内に含有されているものの関係)を包含する検索クエリを作成するための能力を欠き得る。
加えて、調合物または調合物を含有する情報源を検索するためのインデックスを生成する、既存のシステムおよび方法は、調合物または調合物を含有する情報源に関する情報の読出を要求するクエリに応答するために最適化されるインデックスと同程度に効率的に検索され得ない、インデックスを生成し得る。クエリ処理および最適化されたインデックスの生成を最適化するように設計されたデータ構造のない状態はさらに、既存のシステムならびに方法の非効率性に寄与し得る。
開示されるシステムおよび方法は、上記に述べられる問題ならびに/もしくは先行技術における他の問題または欠点のうちの1つ以上を克服することを対象とする。
(要約)
開示される実施形態と一貫して、本開示は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのシステムならびに方法を対象とする。
少なくとも1つの実施形態と一貫して、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのコンピュータ実装システムが、開示される。本システムは、命令のセットを記憶する、メモリデバイスと、命令のセットを実行し、ある方法を実施する、少なくとも1つのプロセッサとを備えてもよい。本方法は、1つ以上の調合物の存在を検索するための、情報源を提示することを含んでもよい。本方法は、フィールドエントリから調合物データを生成することを含んでもよい。調合物データは、1つ以上の見出される調合物と関連付けられてもよい。本方法は、調合物データ構造の実例を生成することを含んでもよい。調合物データ構造の実例は、情報源を1つ以上の見出される調合物と関連付けてもよい。本方法は、調合物データ構造の実例内の読み出されたデータから、最適化されたインデックスデータを作成することを含んでもよい。最適化されたインデックスデータは、1つ以上の潜在的な検索分野用語と調合物データとの間のマッピングを備えてもよい。最適化されたインデックスデータは、予測されるアクセスパターンに基づいて群化されてもよい。本方法は、最適化されたインデックスデータにわたって検索クエリを起動することを含んでもよい。本方法は、調合物データ構造の実例内の読み出されたデータと関連付けられる見出される情報源と関連付けられる、情報を提供することを含んでもよい。最適化されたインデックスデータは、逆インデックスであってもよい。最適化されたインデックスデータは、検索エンジンの最適化されたインデックスデータのアクセス時間が短縮されるように、予測されるアクセスパターンに基づいて群化されてもよい。調合物データは、1つ以上の成分と関連付けられる、成分データを含んでもよい。成分データは、1つ以上の物質と関連付けられる、物質データを含んでもよい。物質データは、登録番号、識別子、化学結合表、構造図、または具体的な数値プロパティ値のうちの少なくとも1つを含んでもよい。本方法は、代替検索統計値を提示することを含んでもよい。本方法は、見出される情報源に関連性の加重を割り当てることを含んでもよい。検索クエリは、1つ以上の検索分野と関連付けられる、1つ以上の検索用語を含んでもよい。1つ以上の検索分野は、科学分野に関してもよい。1つ以上の調合物は、化学調合物であってもよい。見出される情報源と関連付けられる調合物データ構造の実例内の読み出されたデータは、調合物識別子と関連付けられてもよい。
少なくとも1つの実施形態と一貫して、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための方法を実施するために、少なくとも1つのプロセッサによって実行可能である命令のセットを記憶する、非一過性コンピュータ可読媒体が、開示される。本方法は、1つ以上の調合物の存在を検索するための、情報源を提示することを含んでもよい。本方法は、フィールドエントリから調合物データを生成することを含んでもよい。調合物データは、1つ以上の見出される調合物と関連付けられてもよい。本方法は、調合物データ構造の実例を生成することを含んでもよい。調合物データ構造の実例は、情報源を1つ以上の見出される調合物と関連付けてもよい。本方法は、調合物データ構造の実例内の読み出されたデータから、最適化されたインデックスデータを作成することを含んでもよい。最適化されたインデックスデータは、1つ以上の潜在的な検索分野用語と調合物データとの間のマッピングを備えてもよい。最適化されたインデックスデータは、予測されるアクセスパターンに基づいて群化されてもよい。本方法は、最適化されたインデックスデータにわたって検索クエリを起動することを含んでもよい。本方法は、調合物データ構造の実例内の読み出されたデータと関連付けられる見出される情報源と関連付けられる、情報を提供することを含んでもよい。最適化されたインデックスデータは、逆インデックスであってもよい。最適化されたインデックスデータは、検索エンジンの最適化されたインデックスデータのアクセス時間が短縮されるように、予測されるアクセスパターンに基づいて群化されてもよい。調合物データは、1つ以上の成分と関連付けられる、成分データを含んでもよい。成分データは、1つ以上の物質と関連付けられる、物質データを含んでもよい。物質データは、登録番号、識別子、化学結合表、構造図、または具体的な数値プロパティ値のうちの少なくとも1つを含んでもよい。本方法は、代替検索統計値を提示することを含んでもよい。本方法は、見出される情報源に関連性の加重を割り当てることを含んでもよい。検索クエリは、1つ以上の検索分野と関連付けられる、1つ以上の検索用語を含んでもよい。1つ以上の検索分野は、科学分野に関してもよい。1つ以上の調合物は、化学調合物であってもよい。見出される情報源と関連付けられる調合物データ構造の実例内の読み出されたデータは、調合物識別子と関連付けられてもよい。
少なくとも1つの実施形態と一貫して、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための方法が、開示される。本方法は、1つ以上の調合物の存在を検索するための、情報源を提示することを含んでもよい。本方法は、フィールドエントリから調合物データを生成することを含んでもよい。調合物データは、1つ以上の見出される調合物と関連付けられてもよい。本方法は、調合物データ構造の実例を生成することを含んでもよい。調合物データ構造の実例は、情報源を1つ以上の見出される調合物と関連付けてもよい。本方法は、調合物データ構造の実例内の読み出されたデータから、最適化されたインデックスデータを作成することを含んでもよい。最適化されたインデックスデータは、1つ以上の潜在的な検索分野用語と調合物データとの間のマッピングを備えてもよい。最適化されたインデックスデータは、予測されるアクセスパターンに基づいて群化されてもよい。本方法は、最適化されたインデックスデータにわたって検索クエリを起動することを含んでもよい。本方法は、調合物データ構造の実例内の読み出されたデータと関連付けられる情報源と関連付けられる、情報を提供することを含んでもよい。
前述の一般的説明および以下の詳細説明は、例示的かつ説明的にすぎず、請求項を制限するものではない。
本明細書に組み込まれ、かつその一部を構成する添付図面は、説明とともに、種々の例示的実施形態および側面を図示し、かつその原理を説明する役割を果たす。
図1は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための、例示的情報フロー図である。 図2は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのシステムが動作し得る、例示的システム環境である。 図3は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのシステムに関する、例示的ソフトウェアアーキテクチャである。 図4は、XMLで表現される、例示的調合物記録である。 図5は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための例示的方法を図示する、フローチャートである。 図6は、代替検索統計値の例示的表示である。 図7は、代替検索情報を表示する、例示的ベン図である。 図8Aは、例示的分析表である。図8Bは、例示的分析円グラフである。 図9は、ユーザによって検索され、および/または検索結果の中にユーザに表示される、調合物データ構造もしくは他の構造データの実例内に調合物データとして記憶される、フィールドエントリから導出され得る、例示的情報である。 図10は、ブラウザの例示的表示である。 図11は、ブラウザの別の例示的表示である。 図12は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのシステムである。
(実施形態の説明)
本開示は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための、システムならびに方法を説明する。データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための、システムならびに方法は、限定ではないが、科学者、知的財産専門家、法律専門家、ビジネス専門家、特許庁審査官、規制機関、および教育機関を含む、商業、政府、ならびに教育エンティティによって使用されてもよい。本システムおよび方法は、アプリケーション(例えば、ウェブ対応サービス)に加えて、農薬、医薬品、バイオテクノロジー、生命科学、製造、化粧品、健康、食品ならびに飲料、消費財、塗料、コーティング剤、ポリマー、プラスチック、ゴム、石油、ガス、金属、合金、セメント、自動車、航空宇宙、および防衛等の、化学分野または他の分野からの調合物を含む、調合物を含有する情報源にわたる具体的なフィールド化かつ構造化された検索能力を可能にし得る、調合物データ構造ならびにデータベースエンジンを使用してもよい。本システムの少なくとも1つのコンポーネントが、検索エンジン技術を使用して(例えば、オフラインアーキテクチャを使用して)、既存の情報源から抽出される構造化されたデータおよび他のデータの収集を可能にし、検索可能なダイジェストを構築し得る。本システムの少なくとも1つのコンポーネントが、(例えば、オンラインアーキテクチャを使用して)ユーザが検索可能なダイジェスト内で検索を実施することを可能にし得る。
本システムおよび方法は、調合物または調合物に関する情報を包含する情報源に関する検索クエリを実施するための、1つ以上のウェブ対応ソフトウェアアプリケーションとして実装されてもよい。本システムおよび方法は、調合物または調合物に関する情報を包含する情報源に関する検索クエリを実施するための、1つ以上のアプリケーションプログラミングインターフェースとして実装されてもよい。本システムおよび方法は、調合物または調合物に関する情報を包含する情報源に関する検索クエリを実施するための、1つ以上のデータベーススキーマまたは設計として実装されてもよい。
ここで、その実施例が添付図面に図示され、かつ本明細書に開示される、例示的実施形態が、詳細に参照されるであろう。便宜的であるときはいつでも、同一の参照番号が、同一または同様の部分を指すために、図面全体を通して使用されるであろう。
図1は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための、例示的情報フロー図100を図示する。ある実施形態では、関連する技術知識を伴うヒトまたはヒトの群110が、ユーザ130が調合物、調合物情報、または他の情報を検索することを望み得る、情報源または出版物120を精査してもよい。ヒト110は、例えば、学芸員、索引作成者、および/または科学者であってもよい。いくつかの実施形態では、自動化されるシステムが、ヒト110の代わりに、またはそれに加えて、精査を実施してもよい。ヒト110は、ヒト110が精査する1つ以上の情報源120を説明し得る、フィールド化された電子フォーム140に記入してもよい。ヒト110は、情報源120から導出された情報で1つ以上のフォーム140に記入し、後に、調合物検索ツール150を用いて調合物または情報源検索を促進するために使用され得る、フィールドエントリを生成してもよい。フィールドエントリから同定される1つ以上の調合物と関連付けられる調合物データ構造(「調合物記録160」)の実例等の構造化されたデータが、生成されてもよい。構造化されたデータは、1つ以上の調合物を、ヒト110が調合物を見出した情報源と関連付けてもよい。1つ以上の調合物に関する構造化されたデータは、インデックス165内にインデックス化されてもよい。インデックス165は、構造化されたデータを検索するための、最適化されたインデックスであってもよい。構造化されたデータおよび/またはインデックスは、データベース170内に記憶されてもよい。インデックス165は、フィールドエントリから導出され、かつ調合物記録160内に記憶される情報と、これらのフィールドエントリ内の情報と関連付けられる1つ以上の調合物との間のマッピングを備えてもよい。ユーザ130は、インデックスまたはインデックから生成されるバイナリダイジェストにわたって検索クエリを起動することによって、フィールドエントリから導出され、かつ調合物記録160内に記憶される情報を検索してもよい。検索エンジンは、フィールドエントリから導出され、かつ調合物記録160内に記憶される情報によって同定される、1つ以上の調合物を返してもよい。ある実施形態では、1つ以上の調合物の代わりに、またはそれに加えて、検索エンジンは、フィールドエントリから導出される情報によって同定される調合物に関する情報を含有する、1つ以上の情報源を返してもよい。いくつかの実施形態では、情報源を返すことは、情報源が見出され得る、その題名、著者等の情報源および/またはその情報源へのハイパーリンクに関する情報を提供することを含んでもよい。いくつかの実施形態では、情報源は、構造化されたデータとして記憶されてもよい。
図2は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのシステムが動作し得る、例示的システム環境200を図示する。本環境は、サービスシステム210と、ネットワーク220と、第1のユーザデバイス230Aおよび第2のユーザデバイス240A等のユーザデバイスと、第1のユーザ110および第2のユーザ130等のユーザとを備えてもよい。本環境はさらに、サーバ270と、調合物記録160または別のタイプの構造化されたデータの実例を含む、データベース170とを備えてもよい。調合物記録160は、拡張マークアップ言語(XML)等の構造化されたマークアッププログラミング言語を使用して表現されてもよい。いくつかの実施形態では、データベース170は、最適化されたインデックスデータを含んでもよい。サービスシステム210、データベース170、および/または他のコンピューティングシステムが、ネットワーク220内のエンティティから情報を受信する、情報を処理する、かつ第1のユーザ110および第2のユーザ130等の、ネットワーク220内の他のエンティティと情報を通信するように構成される。例えば、サービスシステム210は、電子ネットワーク220(例えば、インターネット)を経由してデータを受信し、クエリおよびデータを処理/分析し、アプリケーションをユーザ110および130に提供するように構成されてもよい。これは、デバイス230Aおよび240Aに通じて行われてもよい。
図3は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのシステムに関する、例示的ソフトウェアアーキテクチャ300を図示する。本システムは、ユーザ130に、調合物データベースを使用して、調合物または情報源を検索するためのウェブアプリケーションへのアクセスを提供してもよい。ヒトキュレーションコンポーネント301が、ヒト110が関連付けられる調合物および情報源を分析するための、インターフェースを提供してもよい。ヒトキュレーションコンポーネント301は、ヒト110に、ヒト110が、情報源120を精査するにつれて、情報源120を精査する前、または情報源120を精査した後に記入し得るフィールド(例えば、フィールド化されたフォーム)を伴う、1つ以上の電子フォーム140を提供してもよい。フォーム140は、ヒト110が情報源120内に見出す調合物に関する情報を要求する、フィールドを含有してもよい。本情報は、図9に図示される例示的情報に関して下記に説明されるもの、または図9に図示される例示的情報が導出され得る情報等の、任意の情報であってもよい。例えば、フォーム140は、物質の名称を入力するためのフィールドを有してもよい。後に、本システムは、物質の沸点等の他の情報を導出するために、入力された名称を使用してもよい。ヒトキュレーションコンポーネント301は、フォーム140を処理し、フォーム140内にフィールドエントリからの調合物データを生成してもよい。編集システム304は、調合物データを処理し、構造化されたデータ(例えば、調合物記録160)を生成してもよい。構造化されたデータは、1つ以上の調合物を、その中で1つ以上の調合物がヒト110によって見出された、1つ以上の情報源(例えば、情報源120)と関連付けてもよい。構造化されたデータは、XML等の構造化されたマークアッププログラミング言語を使用して表現されてもよい。
構造化されたデータ(例えば、調合物記録160)は、エンタープライズデータハブ308内に記憶され、オフラインデータベースパイプライン312内で処理されてもよい。エンタープライズデータハブ308は、コンピュータ可読記憶媒体またはメモリであってもよい。オフラインデータベースパイプライン312では、構造化されたデータとして表現される1つ以上の調合物記録160が、処理され、インデックス165を生成してもよい。インデックス165は、逆インデックスであってもよい。インデックス165は、1つ以上の潜在的な検索用語と調合物記録160との間のマッピングであってもよい。インデックス165内の潜在的な検索用語によって指摘された調合物記録160は、特定の調合物が見出された情報源を規定してもよい。インデックス165は、予測されるアクセスパターンに基づいて群化される、潜在的な検索用語を含有してもよい。例えば、特定の検索フィールドが、物質の沸点の検索用語を受け取る場合、インデックス165は、検索エンジンが、インデックス165全体またはインデックス165の関連のない部分ではなく、インデックス165の沸点に関する部分を調査し得るように、潜在的な検索用語(例えば、98C、100C、摂氏100度、摂氏100度)をともに群化してもよい。インデックス165のそのような構造化は、検索エンジンが、インデックス165全体ではなく特定の検索用語に関する、インデックス165の関連する部分内のみで検索することを可能にし得るため、検索を最適化し得る。別の非限定的な実施例として、群化は、ユーザの検索におけるパターンを判定し、かつ将来において類似する検索を実施するために必要な時間を最小限にさせるために、群化することによって、実施され得る。例えば、インデックス165内のインデックスデータは、特定の機能を伴う物質を含有する情報源の検索等、既知または予測された頻繁な使用事例を最適化する様式でコンパイルされてもよい。インデックスコンパイルプロセスは、そのような検索クエリを最適化し得る。いくつかの実施形態では、インデックス165は、それらの用語が入力され得る検索フィールドによって、ともに群化されていない、潜在的な検索用語を含有してもよい。インデックス165は、オフラインデータベースパイプライン312内でバイナリダイジェストにエンコードされてもよく、ダイジェストは、オンラインデータベース316として記憶されてもよい。インデックス165は、Apache Hadoopおよび関連するソフトウェアパッケージ等の流通しているコンピューティングフレームワークを使用して、生成かつバイナリダイジェストにエンコードされてもよい。
バイナリダイジェストは、2014年12月18日に公開されたOlsen et al.の米国特許出願公開US 2014/0372448 A1に説明されるような、情報アクセスプラットフォーム(IAP)ダイジェストであってもよい。2014年12月18日に公開されたOlsen et al.の米国特許出願公開US 2014/0372448 A1は、参照することによって全体として本明細書に組み込まれる。オンラインデータベース316内のダイジェストは、検索エンジンによって検索されてもよい。検索エンジンは、Apache Solr等のエンタープライズ検索プラットフォームを使用して実装されてもよい。インデックス165内の検索またはインデックス165内の情報の調査の参照は、当業者によって、バイナリダイジェストまたはインデックス165内で検索することを含むこととして理解され得る。コンテンツデータベースアクセスコンポーネント320が、ウェブサーバ/ミドルウェア324とオンラインデータベース316との間の情報の交換を促進し得る。コンテンツデータベースアクセスコンポーネント320は、データベース管理システムであってもよい。ユーザアセットデータベース328が、個々のユーザ130に特有の情報を含有してもよい。そのような情報は、例えば、認証情報、以前の検索、頻繁に使用される物質、物質に対する別名、注釈、物質の別名、ユーザによって捕捉された文字に関するメモ帳、ユーザプロファイル情報、精査委任情報、職業、着目分野、および/または警告ならびに通知情報を含んでもよい。ウェブサーバおよびミドルウェアコンポーネント324が、ユーザ130のウェブブラウザ336とコンテンツデータベースアクセスコンポーネント320との間の通信を促進し得る。ウェブサーバおよびミドルウェアコンポーネント324のウェブサーバ部分は、ブラウザ336の要求を受け取り、かつそれを管理してもよい。これらの要求は、ハイパーテキスト転送プロトコル(HTTP)等のネットワークプロトコルを使用して行われてもよい。ウェブサーバおよびミドルウェアコンポーネント324のミドルウェア部分は、コンテンツデータベースアクセスコンポーネント320等のデータベース管理システムにアクセスするための、アプリケーションプログラミングインターフェースを備えてもよい。ウェブベースの調合物検索アプリケーションが、ウェブブラウザ336を通してアクセスされてもよい。いくつかの実施形態では、アクセス/認証モジュール340が、提供される認証情報を、ユーザアセットデータベース328内に記憶されているものと比較することによって、調合物検索アプリケーションへの認証されていないアクセスを防止してもよい。
XML405で表現される例示的調合物記録160の例示的部分が、図4に図示される。XML405は、調合物統一資源識別子410を含んでもよい。XML405は、調合物番号410で同定される調合物が見出された情報源の識別子を示す、文書番号420を含んでもよい。XML405は、情報源インデックス化発見識別子を示し、リンクが情報源XML420とインデックス化された調合物データとの間に作成されることを可能にする、インデックス化された値430を含んでもよい。XML405は、場所440を含んでもよい。場所440は、調合物番号410で同定される調合物を説明する文書番号420で識別される、情報源内の場所を示してもよい。XML405は、調合物統一資源識別子410で同定される調合物内の成分を識別する、成分識別子450を含んでもよい。XML405は、成分識別子450で同定される成分の量を識別する、成分量460を含んでもよい。XML405は、成分識別子450で同定される成分の機能を説明する、記述子470を含んでもよい。XML405は、成分識別子450で同定される成分内の物質を識別する、物質識別子480を含んでもよい。
図5は、データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための例示的方法500を図示する、フローチャートである。方法500は、ステップ510において、調合物検索のための情報源120を提示することを含んでもよい。情報源120は、例えば、ヒトキュレーションコンポーネント301によってヒト110に提示されてもよい。ヒト110は、フィールド化されたエントリを伴うフォーム140を取り込んでもよい。フォーム140は、ヒト110に加えて、またはその代わりに、自動化されたシステムによって取り込まれてもよい。方法500は、ステップ520において、フィールドエントリから調合物データを生成することを含んでもよい。調合物データは、1つ以上の成分と関連付けられる、成分データを含んでもよい。例えば、1つ以上の成分は、調合物内に存在するものであってもよい。成分データは、1つ以上の物質と関連付けられる、物質データを含んでもよい。例えば、1つ以上の物質は、成分内に存在するものであってもよい。物質データは、1つ以上のCAS登録番号および/または他の識別子を含んでもよい。1つ以上のCAS登録番号または他の識別子は、物質に関して一意の識別子であってもよい。調合物データは、調合物記録160等の構造化されたデータを生成するために使用されるまで、記憶されてもよい。ステップ530において、方法500は、ヒト110に提示される情報源120のうちの1つ以上を1つ以上の調合物と関連付ける、構造化されたデータを生成することを含んでもよい。構造化されたデータは、例えば、編集システム304によって生成されてもよい。構造化されたデータは、例えば、XMLファイル(例えば、XML405)であってもよい。方法500は、ステップ540において、構造化されたデータ内のデータを読み出すことと、そこからインデックスデータを生成することとを含んでもよい。インデックスデータを生成することは、最適化された逆インデックス(例えば、インデックス165)を生成することと、逆インデックスからバイナリダイジェストを生成することとを含んでもよい。バイナリダイジェストは、オフラインデータベースパイプライン312内に生成されてもよい。インデックスデータは、1つ以上の潜在的な検索分野用語と調合物データとの間のマッピングを備えてもよい。逆インデックス内の潜在的な検索用語等のインデックスデータは、潜在的な検索用語が入力され得る検索フィールドによって群化されてもよい(例えば、「ケルビン」および「摂氏」は、「沸点」の検索フィールドに入力され得るため、ともに群化され得る)。方法500は、ステップ550において、インデックスデータにわたって最適化された検索クエリを起動することを含んでもよい。最適化された検索クエリが、生成されたバイナリダイジェスト上で起動され得ることを理解されたい。最適化された検索クエリは、ユーザ130によって提供される要求から生成され、検索エンジンによって起動されてもよい。方法500は、ステップ560において、調合物と関連付けられる見出される情報に関する、情報を提供することを含んでもよい。調合物と関連付けられる見出される情報源に関する情報は、例えば、コンテンツデータベースアクセスモジュール320によって提供されてもよい。実施例として、検索エンジンは、最適化された検索クエリとインデックスデータ内の潜在的な検索用語との間の合致、および調合物に関する情報またはインデックスデータに従って合致した潜在的な検索用語と関連付けられる情報源を見出し得る。インデックスデータが合致した潜在的な検索用語からの調合物データを指し示す場合、調合物データは、関連のある調合物がヒト110によって見出された1つ以上の情報源を指し示し得る。調合物に関する情報および/または情報源が、ユーザ130に提供されてもよい。
ある実施形態では、代替検索統計値が、提供されてもよい。代替検索統計値は、ユーザ130に、ユーザ130が以前に起動した1つ以上の検索と異なる検索に関する情報を提供してもよい。図6は、代替検索統計値の例示的表示600を図示する。例えば、ウェブアプリケーション(例えば、調合物検索ツール150)は、検索内に含むべき1つ以上の分野に関する検索用語(例えば、変数)を示唆してもよい。例示的表示600は、「目的」変数610等の、示唆される変数の一覧を行内に表示してもよい。「機能1」変数620等の、示唆される変数の同一または別の一覧が、列内に表示されてもよい。第1および第2の変数で検索を実施した場合、第1の変数の行および第2の変数の列内にある表示600のセルは、陰影が付けられ、ユーザが得るであろう検索結果の相対数を表してもよい。いくつかの実施形態では、より濃い陰影が付けられたセルが、より多くの検索結果が見出されるであろうことを示し得る。例えば、表示600では、セル630がセル640より濃い陰影を有するという事実は、ウェブアプリケーションによって示唆された「目的」変数610および「機能1」変数620を使用して検索することによって、「目的」変数620および「機能2」変数650を使用して検索するより多くの検索結果が見出されるであろうことを示し得る。ある実施形態では、異なる色の陰影が、代替検索結果に関してより多くの詳細を提供し得る。例えば、セル内の緑色の陰影は、ユーザが、セルの行および列によって示される変数を使用して、検索を狭めるであろう(例えば、ユーザが、以前の検索より少ない検索結果を得るであろう)ことを示し得る。セル内の赤色の陰影は、ユーザが、セルの行および列によって示される変数を使用して、その検索を拡張するであろう(例えば、ユーザが、以前の検査より多くの検索結果を得るであろう)ことを示し得る。ユーザ130は、セルを選択し、選択されたセルの行および列によって規定される変数を用いた検索の結果を参照することが可能となり得る。いくつかの実施形態では、表示600内に提示される変数は、ウェブアプリケーションによって示唆されるものの代わりに、またはそれに加えて、ユーザ130によって入力されるものであってもよい。いくつかの実施形態では、表示600は、2つの変数を1つの行および/または列に組み合わせ、2次元表の表示を維持しながら、ある時間における2つを上回る変数に関する代替検索情報を示し得る。例えば、列660は、最も左の列内の変数に加えて「機能2」および「物質2」変数を使用するとき、読み出される検索結果の数を示してもよい。ある実施形態では、2次元の表より高次元の構造が、代替検索結果を表示するために使用されてもよい。
ある実施形態では、代替検索情報が、図7に図示される例示的ベン図等のベン図に表示されてもよい。ベン図700では、ウェブアプリケーションによって示唆されるまたはユーザ130によって規定される、異なる変数が、「A」、「B」、または「C」等のインジケータで標識されてもよい。ベン図700は、1つ以上の変数と関連付けられる、円A710、円B720、および円C730等の形状を含有してもよい。全ての形状の交差部分740(「X」とマーキングされている)は、全ての入力または示唆される変数を含む、検索のための検索結果に関する情報を提供し得る。ウェブアプリケーションは、例えば、ユーザ規定変数のうちの少なくとも1つを除去し、残りの変数の交差部分を表示することによって、代替検索に関する情報を提供し得る。例えば、ウェブアプリケーションは、変数Bを除去し、残りの変数AおよびCの交差部分750を表示することによって、検索を実施し得る。ユーザ130は、1つ以上の代替検索と関連付けられる、いくつかの検索結果を提示され得る。1つ以上の変数と関連付けられる形状の交差部分を選択することは、それらの変数を使用した検索の結果を示し得る。例えば、交差部分750を選択することは、変数AおよびCを使用した検索の結果を表示し得る。ウェブアプリケーションはまた、変数によって規定されるものより広い検索用語を示唆してもよい(例えば、ユーザが変数を「グルコース」に設定する場合、ウェブアプリケーションは、より広い用語「砂糖」を示唆してもよい)。例えば、ウェブアプリケーションは、変数Aと関連付けられる形状を表示し、かつ形状「A’」を標識することによって、そのようにしてもよい。ユーザ130は、より広い変数の交差部分A’、およびA’ならびにCの交差部分770等の別の変数を選択することが可能となり得る。いくつかの実施形態では、ウェブアプリケーションは、多くの場合、検索された変数を含有する同一の情報源内に出現する用語を表す、変数を示唆し得る。例えば、検索用語「アスコルビン酸」を表す変数が検索内で使用される場合、ウェブアプリケーションは、用語「アルファトコフェロール」での検索を示唆してもよい。いくつかの実施形態では、以前に検索されたそれらの用語と同一の情報源内に頻繁に出現する検索用語を示唆する代わりに、またはそれに加えて、ウェブアプリケーションは、同一の調合物内に頻繁に出現する検索用語を示唆してもよい。ある実施形態では、ウェブアプリケーションは、ユーザの検索履歴および/または現在の検索結果を分析することによって、狭めるもしくは広げるエンジン代替検索を提案するかどうかを判定してもよい。例えば、ユーザが、行内に、反復毎により少ない結果を生産する、閾値数を上回る検索を有する場合、ウェブアプリケーションは、狭める代替検索を提示してもよい。ユーザが、列内に、反復毎により多い結果を生産する、閾値数を上回る検索を有する場合、ウェブアプリケーションは、広げる代替検索を提示してもよい。本または他の様式で、ウェブアプリケーションは、ユーザ130が検索を狭めるもしくは広げようとしているかどうかを予期するように試みてもよい。前述の実施例に加え、またはその代わりとして、別の非限定的な可能性として、ウェブアプリケーションは、最後の検索が結果を生産しなかった場合、広げる代替検索を、または最後の検索が閾値数を上回る結果を生産した場合、狭める代替検索を提示してもよい。示唆された代替検索は、例えば、職業または着目分野等のユーザプロファイル内の1つ以上の設定に依存し得る。
いくつかの実施形態では、ユーザ130は、2つの着目パラメータを選択し、別のパラメータの実例内に生じる、1つのパラメータの実例の数を示す、表を構築してもよい。例えば、ユーザ130は、パラメータ「譲受人」およびパラメータ「年」を選択してもよい。図8Aに図示されるような、結果として生じる例示的分析表800Aは、1年以上の期間内に1人以上の譲渡人に譲渡された、特許の数を示し得る。ユーザ130は、特定の行または列を選択し、図8Bに図示される例示的円グラフ800B内等の、グラフィックでその中に示されるデータを精査してもよい。例示的分析円グラフ800Bは、ユーザ130によって選択された年に譲渡された特許譲渡人の相対数を示してもよい。
図9は、ユーザ130によって検索され、および/または検索結果の中にユーザ130に表示される、調合物データ構造(例えば、調合物記録160)もしくは他の構造化されたデータの実例内に調合物データとして記憶される、フィールドエントリから導出され得る、例示的情報を図示する。いくつかの実施形態では、本情報は、4層のエンティティ階層を含む、調合物データ構造の実例内に構造化されてもよい。最上層は、文書層910であってもよく、ヒロ110によって精査される情報源120と関連付けられる、情報を包含してもよい。情報源120と関連付けられる情報は、情報源識別子912、公開年914、言語916、譲受人918、要約920、題名922、または対応特許924のうちの少なくとも1つであってもよい。ある実施形態では、情報源が1つ以上の調合物930を含有する場合、情報源に関する情報が、データベース170内に記憶される。1つ以上の調合物930と関連付けられる情報は、それらの目的932、標的934、最終物理的形態936、適用技法938、情報源内の場所940、プロセス942、有効用量944、有効用量溶媒946、実験活動948、名称950、または調合物識別子952のうちの少なくとも1つであってもよい。調合物930と関連付けられる調合物識別子952は、例えば、英数字または数字の識別子等の、調合物930に関する識別子であってもよい。ある実施形態では、特定の調合物識別子952が、単一の調合物930と関連付けられてもよい。ある実施形態では、調合物930は、1つ以上の成分960を含んでもよい。1つ以上の成分960と関連付けられる情報は、それらの機能962、それらの選択性964、それらの量966、覚え書き968、製品内の場所970、それらの物理的形態972、またはそれらの名称974のうちの少なくとも1つを含んでもよい。いくつかの実施形態では、成分960は、1つ以上の物質980を含んでもよい。1つ以上の物質980と関連付けられる情報は、それらの機能982、それらの選択性983、それらの量984、覚え書き985、製品内のそれらの場所986、それらの物理的形態987、それらの名称988、それらの識別子989、それらの画像990、それらの分子式991、それらの融解点992、それらの沸点993、またはそれらの密度994のうちの少なくとも1つを含んでもよい。調合物記録160内の層間のデータの細分化は、調合物データ構造内に反映されてもよい。いくつかの実施形態では、他の構造および細分化が、使用されてもよい。
図10は、ブラウザ336の例示的表示1000を図示する。ユーザ130は、検索フィールド1003a−f等の検索フィールド内に、検索用語1002等の種々の検索用語を入力してもよい。いくつかの可能性として考えられる検索フィールドは、限定ではないが、調合物目的、最終物理的形態、標的、適用技法、機能、または物質の少なくとも1つを含んでもよい。検索セレクタ1005を選択することによって、検索が、開始されてもよい。単一フィールド内の検索用語が、例えば、文字(例えば、セミコロン)によって分離されてもよい。文字は、検索クエリを生成するために使用される、ブール論理を判定し得る。検索フィールドは、調合物詳細に関する群、成分詳細に関する群、および/または物質詳細に関する群等のカテゴリに群化されてもよい。検索は、調合物のための1つ以上の成分および/または調合物のための1つ以上の物質を含んでもよい。付加的な可能性として考えられる検索フィールドが、図9に関して上記に議論される。
図11は、ブラウザ336の別の例示的表示1100を図示する。ユーザ130によって入力される検索用語から導出される検索クエリ1105が、検索結果として情報源1110に伴って表示されてもよい。情報源の題名、要約、および/または概要が、表示されてもよい。情報源内に見出された調合物の数が、調合物概要ウィンドウ1115内に表示されてもよい。調合物概要ウィンドウ1115はまた、情報源内で調合物が概要情報1120として開示される場所(例えば、実施例では、請求項内等)を表示してもよい。ユーザ130は、ソートセレクタ1125を用いて、検索結果内に提示される情報源をソートしてもよい。情報源は、例えば、関連度によってソートされてもよい。関連度は、当業者に公知である少なくとも1つの様式で判定されてもよい。いくつかの実施形態では、関連性が、職業または着目分野等のユーザプロファイル内の1つ以上の設定によって判定されてもよい。いくつかの実施形態では、調合物、成分、または物質が情報源内に出現する場所は、情報源の関連性を部分的もしくは完全に判定し得る。例えば、調合物が、特許の請求項内に出現する場合、情報源は、調合物が特許の明細書に出現する場合より高い関連性が割り当てられ得る。加重の本または他のシステムが、関連性を割り当てるために使用されてもよい。検索結果として提示される情報源は、フィルタセレクタ1130を使用してフィルタリングされてもよい。フィルタセレクタ1130は、情報源を生産した企業等の1つ以上のパラメータによるフィルタリングを可能にしてもよい。ユーザ130は、検索結果が現在表示されている検索が異なる結果を生産するときに更新またはユーザ130に通知するであろう、警告もしくは通知特徴1135を選択してもよい。ユーザ130は、履歴特徴1140を選択することによって、検索履歴を参照してもよい。ユーザ130は、以前の検索を再起動するまたは以前の検索に関して警告もしくは通知を設定してもよい。
データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための、システムが、例示的システム1210として図12に図示される。システム1210の種々のコンポーネントは、メモリデバイス1220、1つ以上のプロセッサ1230を伴う中央処理ユニット(「CPU」)、ならびに/もしくは随意のユーザインターフェースユニット(「I/Oユニット」)1250を含む、ハードウェア、ソフトウェア、および/またはファームウェアのアセンブリを含んでもよい。メモリデバイス1220は、フロッピーディスク、ハードディスク、または磁気テープを含む、磁気記憶装置、ソリッドステートディスク(SSD)もしくはフラッシュメモリ等の半導体記憶装置、光ディスク記憶装置、または磁気光ディスク記憶装置等の物理的記憶媒体内に具現化される、任意のタイプのRAMもしくはROMを含んでもよい。1つ以上のプロセッサ1230は、メモリデバイス1220内に記録されるプログラム可能な命令1240のセットもしくはソフトウェアに従ってデータを処理してもよい。各プロセッサ1230の機能は、単一の専用プロセッサ1230または複数のそのようなプロセッサによって提供されてもよい。そのうえ、1つ以上のプロセッサ1230は、限定ではないが、デジタル信号プロセッサ(DSP)ハードウェア、もしくはソフトウェアを実行することが可能である任意の他のハードウェアを含んでもよい。I/Oユニット1250は、ディスプレイモニタ、キーボード、タッチスクリーン、および/またはマウス等の入力/出力デバイスの任意のタイプもしくは組み合わせを備えてもよい。I/Oユニット1250は、検索クエリを受信してもよい。1つ以上のプロセッサ1230は、命令1240を実行し、システムにI/Oユニット1250を通して調合物および/または情報源データを出力させてもよい。
前述の説明は、例証の目的のために提示されている。それは、包括的ではなく、また、開示される精密な形態または実施形態に限定されない。実施形態の修正および適合は、開示される実施形態の規定ならびに実践を考慮すると、明白であるであろう。例えば、説明される実装は、ハードウェアおよびソフトウェアを含むが、本開示と一貫したシステムならびに方法は、ハードウェアのみとして実装されることができる。
本明細書の記述される説明および方法に基づくコンピュタプログラムは、ソフトウェア開発者の技能の範囲内のものである。種々のプログラムまたはプログラムモジュールは、種々のプログラミング技法を使用して作成されることができる。例えば、プログラムセクションまたはプログラムモジュールは、JavaTM(https://docs.oracle.com/javase/8/docs/technotes/guides/language/を参照)、C、C++、アセンブリ言語、もしくは任意のそのようなプログラミング言語でまたはそれを用いて設計されることができる。そのようなソフトウェアセクションまたはモジュールのうちの1つ以上は、コンピュータシステム、非一過性コンピュータ可読媒体、もしくは既存の通信ソフトウェアに統合されることができる。
そのうえ、例証的実施形態が、本明細書に説明されているが、その範囲は、本開示に基づく、均等要素、修正、省略、組み合わせ(例えば、種々の実施形態にわたる側面の)、適合、または改変を有する、任意かつ全ての実施形態を含む。本請求項内の要素は、請求項内に採用される言い回しに基づいて広義に解釈されるべきであり、本明細書内または出願の審査の間に説明される実施例に限定されないものとする。これらの実施例は、非排他的であるものと解釈されるべきである。さらに、開示される方法のステップは、再度順序付けるステップまたは挿入もしくは削除するステップによることを含む、任意の様式で修正されることができる。したがって、本明細書および実施例が、例示的にすぎず、真の範囲ならびに精神が、以下の請求項およびそれらの均等物の完全な範囲によって示されていると見なされることが、意図される。

Claims (20)

  1. データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のためのコンピュータ実装システムであって、
    命令のセットを記憶するメモリデバイスと、
    前記命令のセットを実行し、方法を実施する、少なくとも1つのプロセッサと
    を備え、
    前記方法は、
    1つ以上の調合物の存在を検索するための情報源を提示することと、
    フィールドエントリから調合物データを生成することであって、前記調合物データは、1つ以上の見出される調合物と関連付けられる、ことと、
    調合物データ構造の実例を生成することであって、前記調合物データ構造の実例は、前記情報源を前記1つ以上の見出される調合物と関連付ける、ことと、
    前記調合物データ構造の実例内の読み出されたデータから、最適化されたインデックスデータを作成することであって、前記最適化されたインデックスデータは、(i)1つ以上の潜在的な検索分野用語と前記調合物データとの間のマッピングを備え、(ii)予測されるアクセスパターンに基づいて群化される、ことと、
    前記最適化されたインデックスデータにわたって検索クエリを起動することと、
    調合物データ構造の実例内の読み出されたデータと関連付けられる見出される情報源と関連付けられる、情報を提供することと
    を含む、システム。
  2. 前記最適化されたインデックスデータは、逆インデックスである、請求項1に記載のシステム。
  3. 前記最適化されたインデックスデータは、検索エンジンの前記最適化されたインデックスデータのアクセス時間が短縮されるように、予測されるアクセスパターンに基づいて群化される、請求項1に記載のシステム。
  4. 前記調合物データは、1つ以上の成分と関連付けられる成分データを含む、請求項1に記載のシステム。
  5. 前記成分データは、1つ以上の物質と関連付けられる物質データを含む、請求項4に記載のシステム。
  6. 前記物質データは、登録番号、識別子、化学結合表、構造図、または具体的な数値プロパティ値のうちの少なくとも1つを含む、請求項5に記載のシステム。
  7. 前記方法はさらに、代替検索統計値を提示することを含む、請求項1に記載のシステム。
  8. 前記方法はさらに、前記見出される情報源に関連性の加重を割り当てることを含む、請求項1に記載のシステム。
  9. 前記検索クエリは、1つ以上の検索分野と関連付けられる1つ以上の検索用語を含む、請求項1に記載のシステム。
  10. 前記1つ以上の検索分野は、科学分野に関する、請求項9に記載のシステム。
  11. 前記1つ以上の調合物は、化学調合物である、請求項1に記載のシステム。
  12. 前記見出される情報源と関連付けられる前記調合物データ構造の実例内の読み出されたデータは、調合物識別子と関連付けられる、請求項1に記載のシステム。
  13. データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための方法を実施するために、少なくとも1つのプロセッサによって実行可能である命令のセットを記憶する非一過性コンピュータ可読媒体であって、
    前記方法は、
    1つ以上の調合物の前記存在を検索するための情報源を提示することと、
    フィールドエントリから調合物データを生成することであって、前記調合物データは、1つ以上の見出される調合物と関連付けられる、ことと、
    調合物データ構造の実例を生成することであって、前記調合物データ構造の実例は、前記情報源を前記1つ以上の見出される調合物と関連付ける、ことと、
    前記調合物データ構造の実例内の読み出されたデータから、最適化されたインデックスデータを作成することであって、前記最適化されたインデックスデータは、(i)1つ以上の潜在的な検索分野用語と前記調合物データとの間のマッピングを備え、(ii)予測されるアクセスパターンに基づいて群化される、ことと、
    前記最適化されたインデックスデータにわたって検索クエリを起動することと、
    調合物データ構造の実例内の読み出されたデータと関連付けられる見出される情報源と関連付けられる、情報を提供することと
    を含む、非一過性コンピュータ可読媒体。
  14. 前記最適化されたインデックスデータは、逆インデックスであり、かつ検索エンジンの前記最適化されたインデックスデータのアクセス時間が短縮されるように、予測されるアクセスパターンに基づいて群化される、請求項13に記載の非一過性コンピュータ可読媒体。
  15. 前記調合物データは、1つ以上の成分と関連付けられる成分データを含み、前記成分データは、1つ以上の物質と関連付けられる物質データを含む、請求項13に記載の非一過性コンピュータ可読媒体。
  16. 前記物質データは、登録番号、識別子、化学結合表、構造図、または具体的な数値プロパティ値のうちの少なくとも1つを含む、請求項15に記載の非一過性コンピュータ可読媒体。
  17. 前記方法はさらに、代替検索統計値を提示することと、前記見出される情報源に関連性の加重を割り当てることとを含む、請求項13に記載の非一過性コンピュータ可読媒体。
  18. 前記検索クエリは、1つ以上の検索分野と関連付けられる1つ以上の検索用語を含み、
    前記1つ以上の検索分野は、科学分野に関し、
    前記1つ以上の調合物は、化学調合物である、請求項13に記載の非一過性コンピュータ可読媒体。
  19. 前記見出される情報源と関連付けられる前記調合物データ構造の実例内の読み出されたデータは、調合物識別子と関連付けられる、請求項13に記載の非一過性コンピュータ可読媒体。
  20. データベースから調合物データ構造の実例内のデータを読み出すための、クエリおよびインデックス最適化のための方法であって、前記方法は、
    1つ以上の調合物の前記存在を検索するための情報源を提示することと、
    フィールドエントリから調合物データを生成することであって、前記調合物データは、1つ以上の見出される調合物と関連付けられる、ことと、
    調合物データ構造の実例を生成することであって、前記調合物データ構造の実例は、前記情報源を前記1つ以上の見出される調合物と関連付ける、ことと、
    前記調合物データ構造の実例内の読み出されたデータから、最適化されたインデックスデータを作成することであって、前記最適化されたインデックスデータは、(i)1つ以上の潜在的な検索分野用語と前記調合物データとの間のマッピングを備え、(ii)予測されるアクセスパターンに基づいて群化される、ことと、
    前記最適化されたインデックスデータにわたって検索クエリを起動することと、
    調合物データ構造の実例内の読み出されたデータと関連付けられる情報源と関連付けられる、情報を提供することと
    を含む、方法。
JP2019553872A 2017-04-03 2018-04-03 データベースから調合物データ構造の実例内のデータを読み出すためのクエリおよびインデックス最適化のためのシステムならびに方法 Pending JP2020513126A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762481076P 2017-04-03 2017-04-03
US62/481,076 2017-04-03
PCT/US2018/025855 WO2018187306A1 (en) 2017-04-03 2018-04-03 Systems and methods for query and index optimization for retrieving data in instances of a formulation data structure from a database

Publications (1)

Publication Number Publication Date
JP2020513126A true JP2020513126A (ja) 2020-04-30

Family

ID=62092247

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553872A Pending JP2020513126A (ja) 2017-04-03 2018-04-03 データベースから調合物データ構造の実例内のデータを読み出すためのクエリおよびインデックス最適化のためのシステムならびに方法

Country Status (13)

Country Link
US (1) US20180285399A1 (ja)
EP (1) EP3607472A1 (ja)
JP (1) JP2020513126A (ja)
KR (1) KR20190128245A (ja)
CN (1) CN110741360A (ja)
AU (1) AU2018250135A1 (ja)
BR (1) BR112019017897A2 (ja)
CA (1) CA3056257A1 (ja)
CO (1) CO2019011941A2 (ja)
IL (1) IL269634A (ja)
MX (1) MX2019011597A (ja)
RU (1) RU2019134186A (ja)
WO (1) WO2018187306A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020039871A1 (ja) * 2018-08-23 2020-02-27 国立研究開発法人物質・材料研究機構 探索システムおよび探索方法
GB2593926A (en) * 2020-04-09 2021-10-13 Noetica Ltd Methods and systems for generating logical queries
US11822532B2 (en) * 2020-10-14 2023-11-21 Ocient Holdings LLC Per-segment secondary indexing in database systems
CN113297169B (zh) * 2021-02-26 2022-05-31 阿里云计算有限公司 数据库实例处理方法、系统、设备及存储介质
CN116312845A (zh) * 2022-12-14 2023-06-23 药融云数字科技(成都)有限公司 基于特征基团的化学结构预测方法、系统、存储介质及终端

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5577239A (en) * 1994-08-10 1996-11-19 Moore; Jeffrey Chemical structure storage, searching and retrieval system
AU722989B2 (en) * 1996-11-04 2000-08-17 3-Dimensional Pharmaceuticals, Inc. System, method, and computer program product for the visualization and interactive processing and analysis of chemical data
US6654736B1 (en) * 1998-11-09 2003-11-25 The United States Of America As Represented By The Secretary Of The Army Chemical information systems
US7250950B2 (en) * 2001-01-29 2007-07-31 Symyx Technologies, Inc. Systems, methods and computer program products for determining parameters for chemical synthesis
US7567953B2 (en) * 2002-03-01 2009-07-28 Business Objects Americas System and method for retrieving and organizing information from disparate computer network information sources
US7051023B2 (en) * 2003-04-04 2006-05-23 Yahoo! Inc. Systems and methods for generating concept units from search queries
GB0316806D0 (en) * 2003-07-17 2003-08-20 Ivis Group Ltd Improved search engine
US7496593B2 (en) * 2004-09-03 2009-02-24 Biowisdom Limited Creating a multi-relational ontology having a predetermined structure
EP1862916A1 (en) * 2006-06-01 2007-12-05 Microsoft Corporation Indexing Documents for Information Retrieval based on additional feedback fields
US8583655B2 (en) * 2011-10-17 2013-11-12 Hewlett-Packard Development Company, L.P. Using an inverted index to produce an answer to a query
WO2014201402A1 (en) 2013-06-14 2014-12-18 American Chemical Society Systems and methods for searching chemical structures
US10769127B2 (en) * 2015-06-12 2020-09-08 Quest Software Inc. Dynamically optimizing data access patterns using predictive crowdsourcing

Also Published As

Publication number Publication date
WO2018187306A1 (en) 2018-10-11
MX2019011597A (es) 2019-11-08
BR112019017897A2 (pt) 2020-05-12
CN110741360A (zh) 2020-01-31
CA3056257A1 (en) 2018-10-11
RU2019134186A (ru) 2021-05-05
IL269634A (en) 2019-11-28
EP3607472A1 (en) 2020-02-12
US20180285399A1 (en) 2018-10-04
KR20190128245A (ko) 2019-11-15
AU2018250135A1 (en) 2019-10-10
CO2019011941A2 (es) 2020-04-01

Similar Documents

Publication Publication Date Title
JP2020513126A (ja) データベースから調合物データ構造の実例内のデータを読み出すためのクエリおよびインデックス最適化のためのシステムならびに方法
CN103177075B (zh) 基于知识的实体检测和消歧
EP3593261A1 (en) Computerized tools to discover, form, and analyze dataset interrelations among a system of networked collaborative datasets
JP5423676B2 (ja) データ分類システム、データ分類方法、及びデータ分類プログラム
US20120233160A1 (en) System and method for assisting a user to identify the contexts of search results
US20160070751A1 (en) Database management system
US20120278308A1 (en) Custom search query suggestion tools
CN109791797B (zh) 在大数据库中根据化学结构相似性搜索和显示可用信息的系统、装置和方法
Batra et al. Entity attribute value style modeling approach for archetype based data
Kejriwal et al. myDIG: Personalized illicit domain-specific knowledge discovery with no programming
Papadaki et al. Towards interactive analytics over RDF graphs
Zhang et al. PubMedMiner: mining and visualizing MeSH-based associations in PubMed
Vergoulis et al. Bip! finder: Facilitating scientific literature search by exploiting impact-based ranking
Faba‐Pérez et al. Comparative analysis of webometric measurements in thematic environments
Hasan et al. A scalable framework to analyze data from heterogeneous sources at different levels of granularity
Tennakoon et al. Biological knowledge graph construction, search, and navigation
Moftah et al. Methods to access structured and semi-structured data in bioinformatics databases: A perspective
Fang Shuai et al. Intraspecific trait variation improves the detection of deterministic community assembly processes in early successional forests, but not in late successional forests.
Duklan et al. Classification of search engine optimization techniques: A data mining approach
Zhao et al. Targeted metabolomic analysis of phenylpropanoid metabolites in Astragalus membranaceus var. mongholicus in response to Fusarium solani infection.
Evelhoch et al. Open for Business: Open Access Journals in Commercial Databases
Barton et al. A case study of a semantically enhanced public health digital collection
US9607053B2 (en) Methods and systems for searching and displaying a plurality of entities within an interactive user interface
Shalabi et al. Towards improving XML search by using structure clustering technique
Zhang et al. BreastCancerMine: A Comprehensive Biological and Database for Breast Cancer