JP2020509519A - 化学情報を含む文書の検索および索引付けのためのシステムおよび方法 - Google Patents

化学情報を含む文書の検索および索引付けのためのシステムおよび方法 Download PDF

Info

Publication number
JP2020509519A
JP2020509519A JP2019569655A JP2019569655A JP2020509519A JP 2020509519 A JP2020509519 A JP 2020509519A JP 2019569655 A JP2019569655 A JP 2019569655A JP 2019569655 A JP2019569655 A JP 2019569655A JP 2020509519 A JP2020509519 A JP 2020509519A
Authority
JP
Japan
Prior art keywords
processor
data
chemical structure
text
string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019569655A
Other languages
English (en)
Other versions
JP6883120B2 (ja
Inventor
チュル オー,
チュル オー,
デイビッド ゴサルベス,
デイビッド ゴサルベス,
パヴェル コミアコフ,
パヴェル コミアコフ,
Original Assignee
パーキンエルマー インフォマティクス, インコーポレイテッド
パーキンエルマー インフォマティクス, インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パーキンエルマー インフォマティクス, インコーポレイテッド, パーキンエルマー インフォマティクス, インコーポレイテッド filed Critical パーキンエルマー インフォマティクス, インコーポレイテッド
Publication of JP2020509519A publication Critical patent/JP2020509519A/ja
Application granted granted Critical
Publication of JP6883120B2 publication Critical patent/JP6883120B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2425Iterative querying; Query formulation based on the results of a preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/90Programming languages; Computing architectures; Database systems; Data warehousing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Mathematical Physics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本明細書で説明するのは、ユーザーにとって関心のある化学構造に関連した文書を効率的に検索するシステムおよび方法である。ある実施形態では、ユーザークエリーで提供されたテキストデータおよび化学構造がテキストベース検索方法で同時に検索されて、検索結果を効率的に生成する。テキストベース検索の結果に関する後続の構造ベース検索で、特定のユーザークエリーに対する正確な結果を生成する。このアプローチは、構造ベース検索が検索するデータ量を削減することによって構造ベース検索の速度を向上させる。本明細書でさらに説明するのは、この効率的な検索を容易にするために文書データを索引付けするためのシステムおよび方法である。【選択図】図7

Description

関連出願
本出願は、2017年3月3日に出願された「Systems and Methods for Searching and Indexing Documents Comprising Chemical Information」というタイトルの米国仮特許出願第62/466,764号に対する優先権および利益を主張し、その内容が参照により全体として本明細書に組み込まれる。
発明の分野
本発明は一般に、化学情報を含む文書を効率的に検索および索引付けするためのシステムおよび方法に関する。
化学構造は典型的には、図式表記法を使用して文書内で提示されて、関連のある化学情報のより完全な理解を読者に提供する。例えば、化学構造は、とりわけ、ルイス構造、構造式、ニューマン投影式、のこぎり台投影、またはフィッシャー投影式などの表現を使用して描かれ得る。化学構造は、構造の全体的な表現を簡略化するために、ある一般的に理解される構成元素(例えば、結合または末端水素)を省略する簡略化した式によっても表され得る。化学構造の図式表現は、例えば、化学反応における対応する化学物質の役割を図示するため、反応生成物を記述するため、または構造的には類似しているが、化学的には異なる実体間の比較を提供するために、様々な文脈において文書内で提示され得る。しばしば、化学構造の図式表現は、化学物質を、特定の所望の目的のためにユーザーに関連するとして識別する文書内で主要な情報を表す。
文書内の化学構造を再現するために、ある範囲の標準形式が使用されて化学構造データを効率的に格納する。1つのタイプの形式は、原子および結合をエッジおよびノードとして関連させるために結合表、隣接行列、または同様のデータ構造を使用する。別のタイプの形式は、深さ優先走査または幅優先走査に基づく線状表記を使用する。化学構造データを格納するために標準化されたデータ形式を使用すると、データのアルゴリズム検索を可能にする。さらに、標準形式における化学構造データは、データベース内の文書で索引付けできる。
ユーザーは、一般に、1つまたは複数の関連のある化学構造を参照する文書を識別するために文書のデータベースの検索を実行する。ユーザーは、文書のデータベース内に格納された化学構造と比較可能な入力を入力する必要がある。ユーザーは、国際純正応用化学連合(IUPAC)規約に従ったものなど、化学構造データまたは特徴的な名前を提供することによってクエリーを入力し得る。ユーザーから提供された入力は、化学構造データをデータベース内に格納するために使用された標準形式に変換されて、様々な技術を使用して索引付けされた文書内に含まれる化学構造データと比較される。
一般に、ユーザーの検索に応答してデータベース内の文書が、グラフ理論に基づくアルゴリズム法を使用して、文書内の化学構造とユーザーから提供された入力との間で類似性を判断することによって識別される。しばしば、類似性は、ユーザーから提供された入力構造の断片(例えば、構成元素)が文書内の化学構造内に存在するかどうかを判断することによって確立される。これは、例えば、化学構造のバイナリフィンガープリントを使用して、行われ得る。ユーザーの入力内で識別された断片の十分な数または割合が文書内の化学構造内に存在する場合、類似性が確立される。類似性は、ユーザーに提供される検索結果を確立するために原子ごとの比較を使用して検査されていない文書内の化学構造を検索する前に、関係のない文書を排除するために使用され得る。代替として、検索入力に対するその類似性が閾値を超えている化学構造を含むすべての文書が検索結果としてユーザーに提供され得る。
ハッシュ化フィンガープリントを使用するアルゴリズムのクラスなど、様々なアルゴリズムで、検索速度を加速させるために、類似性を確立するこの基本アプローチを変更している。加速された検索方法は、大分子の効率的な検索および/または大規模なデータセット内での検索のために必要である。データベースが、化学構造を含む大量の文書を含む場合、各文書内の各化学構造が入力構造に対する類似性を検索される必要があるので、関連のある文書の検索は厄介である。かかる検索は低速で資源集約的である。
ユーザーは、化学構造だけ以外の何らかの基準に基づく全ての考えられる関連のある文書のサブセットにだけ関心があり得る。例えば、ユーザーは、ある望ましい特性を有するか、ある収率と合成され得るか、またはある反応性を示す入力構造と関連した化学構造に関心があり得る。これらの追加の検索制限は、ユーザーにより、特定のデータベースの文書内の任意のテキストデータを検索するために使用され得るテキストとして最も好都合に提供される。ユーザーの入力化学構造および任意の追加で提供されるテキストの両方を検索するために、化学構造に対する1つの検索およびテキストに対する1つの検索が連続的に実行される必要がある。
連続的な検索の使用は大規模なデータベースの検索を大幅には加速しない。標準的な化学構造検索はまず、化学構造入力に基づいて潜在的に関連のある文書のセットを確立するために実行され、その後に、テキスト検索語を含む文書に対するそのセットの検索が続く。しかし、このアプローチは、追加のテキスト用語を含んでいない検索と同様に速くない可能性がある。ユーザー入力テキスト用語を含んでいる文書の検索を最初に実行することは、潜在的に関連のある文書のセットから何らかの文書を素早く除外する。しかし、ユーザーが入力し得る多数の検索語は、検索の速度を大幅に加速するために、潜在的に関連のある文書の数を大幅には削減しない。例えば、ユーザーが、反応収率が90%を超える関連構造をもつ文書を検索している場合、反応収率が90%を超える文書のセットは依然として、関係のない化学構造をもつ大量の文書を含んでいるであろう。
ユーザーから提供された入力に基づいて、化学物質を参照している文書の大規模なデータベースをより効率的に検索するシステムおよび方法に対する必要性がある。追加として、より効率的に検索するために化学物質を参照している文書のデータベースを索引付けするためのシステムおよび方法に対する必要性がある。
本明細書で説明するのは、ユーザーにとって関心のある化学構造に関連した文書を効率的に検索するシステムおよび方法である。ある実施形態では、ユーザークエリーで提供されたテキストデータおよび化学構造データがテキストベース検索方法で同時に検索されて、検索結果を効率的に生成する。テキストベース検索の結果に関する後続の構造ベース検索で、特定のユーザークエリーに対する正確な結果を生成する。このアプローチは、構造ベース検索が検索するデータ量を削減することによって構造ベース検索の速度を向上させる。本明細書でさらに説明するのは、この効率的な検索を容易にするために文書データを索引付けするためのシステムおよび方法である。
構造ベース検索方法を使用した化学構造データ(例えば、文書のデータまたはユーザークエリー内の)の検索は、時間および資源集約的であり、他方、テキストベース検索方法は比較的高速である。テキストベース検索方法を使用して化学構造データを検索するために、化学構造データは補強されるか、またはテキストデータ(例えば、文字列)に変換される必要がある。化学構造データに対応する化学構造またはその構成元素のいずれかを識別、分類、および/または記述する、文字列タグが使用できる。化学構造データに対する文字列タグを生成することにより、化学構造データが、高速なテキストベース方法を使用して検索できる。このように、索引付け中に、文書データ内の化学構造データは、後続のテキストベース検索での使用のために文字列タグを含むように補強される。化学構造データから成るか、または化学構造データを含むユーザークエリーは、ユーザークエリーでテキストベース検索を可能にするために文字列タグを含むように補強できる。
その中の化学構造データに基づき文字列タグで補強された索引付けされた文書データのデータベースでは、索引付けされた文書データの化学構造データおよびテキストデータが同時に検索され得る。ユーザーは化学構造データおよびテキストデータの両方から成るクエリーを提供し得る。ユーザークエリーに関連のある文書のセットを識別するために、高速で効率的なテキストベース検索方法が採用されて同時検索を実行し得る。テキストベース検索方法は、化学構造データがそれらの関連付けられた文字列タグによって識別される化学構造データを検索するために使用され得る。テキストベース方法を使用して化学構造およびテキストを同時に検索すると、ユーザークエリーの化学構造データおよびテキストデータのいずれも含んでいない文書を同時に除外することによって潜在的に関連のある文書のセットを効率的に狭める。テキストベース検索から生じた関連のある文書のセットは、さらなる使用のためにユーザーに提供され得る。
ある実施形態では、検索結果をユーザーに提供する前にさらに精緻化するために、テキストベース検索から生じた関連のある文書データ内の化学構造データの構造ベース検索が実行され得る。構造ベース検索は、関連のある化学構造データを検索するために任意の構造ベース方法を使用し得る。ある実施形態では、構造ベース検索は原子ごとの検索方法である。構造ベース検索は、ユーザーによって入力された化学構造に対する類似性の閾値を満足する化学構造に関連した文書だけを含むようにテキストベース検索から生じた文書のセットを精緻化する。精緻化された検索結果は表示のためにユーザーに提供され得る。テキストデータおよび化学構造データを同時に検索するテキストベース検索をまず採用することにより、構造ベース検索がデータベース内の少量の文書に関して実行され、従って効率性を高める。
一態様では、本発明は、化学情報を含む文書のセットを検索するための方法を対象とし、本方法は、(a)コンピューティング装置のプロセッサによって、ユーザー入力された化学構造データおよびテキストデータ(例えば、英数字データ)を含むユーザークエリーを受信することであって、テキストデータおよびユーザー入力された化学構造データは少なくとも1つの化学構造に対応すること、(b)プロセッサによって、ビットスクリーニングデータおよび関係データをユーザー入力された化学構造データから識別または抽出することであって、ビットスクリーニングデータは少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、関係データは複数の1つまたは複数の構成元素間の1つまたは複数の関係(例えば、相互作用、結合)に対応すること、(c)プロセッサによって、ユーザークエリーを、ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成することにより補強し、そのため補強されたユーザークエリーは1つまたは複数の文字列タグを含むようになることであって、1つまたは複数の文字列タグは少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むこと、(d)テキストベース検索方法を使用して、プロセッサによって、文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、補強されたユーザークエリーの少なくとも一部を文書データと相関させて、1つまたは複数のテキストベース検索結果を生成することを含むこと、ならびに(e)任意選択として、プロセッサにより、1つまたは複数のテキストベース検索結果を出力すること、を行うステップを含む。
ある実施形態では、本方法は、プロセッサによって、ビットスクリーニングデータおよび関係データを1つまたは複数の文字列に変換することを含む。ある実施形態では、本方法は、(f)構造ベース検索方法を使用して、問い合わせを行うステップの後に、プロセッサにより、ユーザー入力された化学構造データの少なくとも一部を1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって1つまたは複数のテキストベース検索結果を検索して、1つまたは複数の精緻化された検索結果を生成することであって、1つまたは複数のテキストベース検索結果は関連のある化学構造データを含むフィルタ処理された文書データに対応すること、および(g)プロセッサによって、1つまたは複数の精緻化された検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行うステップをさらに含む。ある実施形態では、構造ベース検索方法は、文字列データを入力として使用する(例えば、テキスト検索エンジンを使用して実行される)。ある実施形態では、構造ベース検索は原子ごとの検索を含む。
ある実施形態では、1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む。
ある実施形態では、問い合わせを行うステップ(d)は、プロセッサにより、関連性検索を使用して、1つまたは複数のテキストベース検索結果を生成することを含む。ある実施形態では、関連性検索はヒットスコアリング検索である。
ある実施形態では、ステップ(f)は、プロセッサによって、1つまたは複数のテキストベース検索結果の関連のある化学構造データを最小スパニング木にまとめること、プロセッサによって、最小スパニング木を持続性コンピュータ可読媒体上に格納すること、およびプロセッサによって、最小スパニング木を検索することを含む。
ある実施形態では、ユーザー入力された化学構造データは、少なくとも1つの化学構造の部分構造または完全な構造に対応する。
ある実施形態では、文書のセットに対応する文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている。ある実施形態では、問い合わせを行うステップは、補強されたユーザークエリーの少なくとも一部を1つまたは複数の索引付け文字列タグの少なくとも1つと相関させることを含む。
別の態様では、本発明は、化学情報を含む文書のセットを検索するための方法を対象とし、本方法は、(a)コンピューティング装置のプロセッサによって、ユーザー入力された化学構造データ(例えば、バイナリデータ)を含むユーザークエリーを受信することであって、ユーザー入力された化学構造データは少なくとも1つの化学構造に対応すること、(b)プロセッサによって、ビットスクリーニングデータおよび関係データをユーザー入力された化学構造データから識別または抽出することであって、ビットスクリーニングデータは少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、関係データは複数の1つまたは複数の構成元素間の1つまたは複数の関係(例えば、相互作用、結合)に対応すること、(c)プロセッサによって、ユーザークエリーを、ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成し、任意選択として、関係データの少なくとも一部に基づいて1つまたは複数の符号化文字列を生成することにより補強して、そのため補強されたユーザークエリーが1つまたは複数の文字列タグを含むようになることであって、1つまたは複数の文字列タグは少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むこと、(d)テキストベース検索方法を使用して、プロセッサによって、文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、補強されたユーザークエリーの少なくとも一部を文書データと相関させて、1つまたは複数のテキストベース検索結果を生成することを含むこと、ならびに(e)任意選択として、プロセッサにより、1つまたは複数のテキストベース検索結果を出力すること、を行うステップを含む。ある実施形態では、本方法は、プロセッサによって、ビットスクリーニングデータおよび関係データを1つまたは複数の文字列に変換するステップをさらに含む。
ある実施形態では、本方法は、(f)構造ベース検索方法を使用して、問い合わせを行うステップの後に、プロセッサにより、ユーザー入力された化学構造データの少なくとも一部を1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって1つまたは複数のテキストベース検索結果を検索して、1つまたは複数の精緻化された検索結果を生成することであって、1つまたは複数のテキストベース検索結果は関連のある化学構造データを含むフィルタ処理された文書データに対応すること、および(g)プロセッサによって、1つまたは複数の精緻化された検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行うステップをさらに含む。
ある実施形態では、構造ベース検索方法は、文字列データを入力として使用する(例えば、テキスト検索エンジンを使用して実行される)。ある実施形態では、1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む。ある実施形態では、構造ベース検索は原子ごとの検索を含む。
ある実施形態では、問い合わせを行うステップ(d)は、プロセッサにより、関連性検索を使用して、1つまたは複数のテキストベース検索結果を生成することを含む。ある実施形態では、関連性検索はヒットスコアリング検索である。
ある実施形態では、ステップ(f)は、プロセッサによって、1つまたは複数のテキストベース検索結果の関連のある化学構造データを最小スパニング木にまとめること、プロセッサによって、最小スパニング木を持続性コンピュータ可読媒体上に格納すること、およびプロセッサによって、最小スパニング木を検索することを含む。
ある実施形態では、ユーザー入力された化学構造データは、少なくとも1つの化学構造の部分構造または完全な構造に対応する。
ある実施形態では、文書のセットに対応する文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている。ある実施形態では、問い合わせを行うステップは、補強されたユーザークエリーの少なくとも一部を1つまたは複数の索引付け文字列タグの少なくとも1つと相関させることを含む。
別の態様では、本発明は、化学情報を含む索引付けされた文書のセットのテキストベース検索のための方法を対象とし、本方法は、(a)コンピューティング装置のプロセッサによって、テキストデータ(例えば、英数字データ)を含むユーザークエリーを受信することであって、テキストデータは少なくとも1つの化学構造を記述する英数字文字のシーケンスを含むこと、(b)テキストベース検索方法を使用して、プロセッサによって、索引付けされた文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、文書データは1つまたは複数の索引文字列タグを含むように補強されており、問い合わせを行うことは、ユーザークエリーのテキストデータの少なくとも一部を1つまたは複数の索引文字列タグと相関させて1つまたは複数のテキストベース検索結果を生成することを含み、1つまたは複数の索引文字列タグは、少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むこと、ならびに(c)プロセッサにより、1つまたは複数のテキストベース検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行うステップを含む。ある実施形態では、1つまたは複数の索引文字列タグは、自然言語テキストを含む。
ある実施形態では、問い合わせを行うステップは、プロセッサにより、関連性検索を使用して、1つまたは複数のテキストベース検索結果を生成することを含む。ある実施形態では、関連性検索はヒットスコアリング検索である。
別の態様では、本発明は、化学構造検索を容易にするために文書を索引付けするための方法を対象とし、本方法は、コンピューティング装置のプロセッサによって、文書に対応する文書データを受信することであって、文書データは化学構造に対応する化学構造データを含むこと、プロセッサによって、化学構造データ内のビットスクリーニングデータおよび関係データを識別または抽出することであって、ビットスクリーニングデータは化学構造の1つまたは複数の構成元素に対応し、関係データは1つまたは複数の構成元素間の関係(例えば、相互作用、結合)に対応すること、プロセッサによって、識別されたビットスクリーニングデータの少なくとも一部に基づいて文字列タグを生成することであって、文字列タグは、化学構造データに対応する化学構造を記述するための英数字値を含むこと(例えば、化学構造データを含む文書の問い合わせでの使用のため)、任意選択として、プロセッサにより、関係データの少なくとも一部に基づいて符号化文字列を生成すること、プロセッサによって、文字列タグを化学構造データまたは文書データと関連付けること、ならびにプロセッサにより、文字列タグを(例えば、持続性コンピュータ可読媒体上への格納のために)出力すること、を行うステップを含む。ある実施形態では、本方法は、プロセッサによって、ビットスクリーニングデータおよび関係データを1つまたは複数の文字列に変換するステップを含む。ある実施形態では、文字列タグは、自然言語テキストを含む。
ある実施形態では、本方法は、プロセッサによって、文書データを補強するステップを含み、補強された文書データは文字列タグを含む。ある実施形態では、本方法は、プロセッサによって、文字列タグを第2の持続性コンピュータ可読媒体上に格納するステップを含む。ある実施形態では、本方法は、文字列タグを索引付けすることを含む。
ある実施形態では、文書データはメタデータを含む。ある実施形態では、メタデータは一意のIDおよびバケットID(例えば、バケットIDはマルチテナントシステム内でテナントを識別するために使用される)を含む。ある実施形態では、本方法は、プロセッサによって、メタデータを(例えば、文書を索引付けする方法の間)持続するステップを含む。
ある実施形態では、本方法は、関係データを1つまたは複数の符号化文字列に変換することを含む。ある実施形態では、関係データは格納されるが、索引付けはされない。
別の態様では、本発明は、化学情報を含む索引付けされた文書のセットを、連続的な検索を使用して検索するための方法を対象とし、本方法は、(a)コンピューティング装置のプロセッサによって、ユーザー入力された化学構造データおよびテキストデータを含むユーザークエリーを受信すること、(b)テキストベース検索方法を使用して、プロセッサによって、索引付けされた文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、ユーザー入力された化学構造データの少なくとも一部を文書データと(例えば、文書データと相関させる前に化学構造データを補強または変換することにより)、およびユーザークエリーのテキストデータの少なくとも一部を文書データと相関させてフィルタ処理された文書データを生成することを含むこと、(c)構造ベース検索方法を使用して、問い合わせを行うステップの後に、プロセッサにより、フィルタ処理された文書データを検索することであって、検索は、ユーザー入力された化学構造データの少なくとも一部をフィルタ処理された文書データ内の関連のあるフィルタ処理された化学構造データと相関させて1つまたは複数の検索結果を生成することを含むこと、ならびに(d)プロセッサによって、1つまたは複数の検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行うステップを含む。ある実施形態では、本方法は、プロセッサによって、化学構造データを1つまたは複数の文字列に変換するステップを含む。
ある実施形態では、構造ベース検索方法は、文字列データを入力として使用する(例えば、テキスト検索エンジンを使用して実行される)。
ある実施形態では、本方法は、ステップ(b)の前に、プロセッサによって、ユーザークエリーを、1つまたは複数の文字列タグを生成することにより補強し、そのため補強されたユーザークエリーが1つまたは複数の文字列タグを含むようになるステップを含み、1つまたは複数のクエリー文字列タグは化学構造を記述する。ある実施形態では、ステップ(b)は、1つまたは複数の文字列タグの少なくとも1つを文書データと相関させることを含む。
ある実施形態では、文書データは1つまたは複数の索引文字列タグを含む。ある実施形態では、ステップ(b)は、テキストデータの少なくとも一部を1つまたは複数の索引文字列タグと相関させることを含む。
別の態様では、本発明は、化学情報を含む文書のセットを検索するためのシステムを対象とし、本システムは、プロセッサ、および命令をその上に格納している持続性コンピュータ可読媒体を含み、命令は、プロセッサによって実行される場合に、プロセッサに、(a)プロセッサによって、ユーザー入力された化学構造データおよびテキストデータ(例えば、英数字データ)を含むユーザークエリーを受信することであって、テキストデータおよびユーザー入力された化学構造データは少なくとも1つの化学構造に対応すること、(b)プロセッサによって、ビットスクリーニングデータおよび関係データをユーザー入力された化学構造データから識別することであって、ビットスクリーニングデータは少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、関係データは複数の1つまたは複数の構成元素間の1つまたは複数の関係(例えば、相互作用、結合)に対応すること、(c)プロセッサによって、ユーザークエリーを、ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成することにより補強し、そのため補強されたユーザークエリーは1つまたは複数の文字列タグを含むようになることであって、1つまたは複数の文字列タグは少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むこと、(d)テキストベース検索方法を使用して、プロセッサによって、文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、補強されたユーザークエリーの少なくとも一部を文書データと相関させて、1つまたは複数のテキストベース検索結果を生成することを含むこと、ならびに(e)任意選択として、プロセッサにより、1つまたは複数のテキストベース検索結果を出力すること、を行わせる。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、ビットスクリーニングデータおよび関係データを1つまたは複数の文字列に変換させる。
ある実施形態では、本命令は、プロセッサによって実行される場合に、さらにプロセッサに、(f)構造ベース検索方法を使用して、問い合わせを行うステップの後に、プロセッサにより、ユーザー入力された化学構造データの少なくとも一部を1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって1つまたは複数のテキストベース検索結果を検索して、1つまたは複数の精緻化された検索結果を生成することであって、1つまたは複数のテキストベース検索結果は関連のある化学構造データを含むフィルタ処理された文書データに対応すること、および(g)プロセッサによって、1つまたは複数の精緻化された検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行わせる。
ある実施形態では、構造ベース検索方法は、文字列データを入力として使用する(例えば、テキスト検索エンジンを使用して実行される)。ある実施形態では、1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む。
ある実施形態では、構造ベース検索は原子ごとの検索である。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサにより、関連性検索を使用して、1つまたは複数のテキストベース検索結果を生成させる。ある実施形態では、関連性検索はヒットスコアリング検索である。
ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、1つまたは複数のテキストベース検索結果の関連のある化学構造データを最小スパニング木にまとめること、プロセッサによって、最小スパニング木を持続性コンピュータ可読媒体上に格納すること、およびプロセッサによって、最小スパニング木を検索すること、を行わせる。
ある実施形態では、ユーザー入力された化学構造データは、少なくとも1つの化学構造の部分構造または完全な構造に対応する。
ある実施形態では、文書のセットに対応する文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている。ある実施形態では、問い合わせを行うステップは、プロセッサによって、補強されたユーザークエリーの少なくとも一部を1つまたは複数の索引付け文字列タグの少なくとも1つと相関させる命令を含む。
別の態様では、本発明は、化学情報を含む文書のセットを検索するためのシステムを対象とし、本システムは、プロセッサ、および命令をその上に格納している持続性コンピュータ可読媒体を含み、本命令は、プロセッサによって実行される場合に、プロセッサに、(a)プロセッサによって、ユーザー入力された化学構造データ(例えば、バイナリデータ)を含むユーザークエリーを受信することであって、ユーザー入力された化学構造データは少なくとも1つの化学構造に対応すること、(b)プロセッサによって、ビットスクリーニングデータおよび関係データをユーザー入力された化学構造データから識別または抽出することであって、ビットスクリーニングデータは少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、関係データは複数の1つまたは複数の構成元素間の1つまたは複数の関係(例えば、相互作用、結合)に対応すること、(c)プロセッサによって、ユーザークエリーを、ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成し、任意選択として、関係データの少なくとも一部に基づいて1つまたは複数の符号化文字列を生成することにより補強して、そのため補強されたユーザークエリーが1つまたは複数の文字列タグを含むようになることであって、1つまたは複数の文字列タグは少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むこと、(d)テキストベース検索方法を使用して、プロセッサによって、文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、補強されたユーザークエリーの少なくとも一部を文書データと相関させて、1つまたは複数のテキストベース検索結果を生成することを含むこと、ならびに(e)任意選択として、プロセッサにより、1つまたは複数のテキストベース検索結果を出力すること、を行わせる。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、ビットスクリーニングデータおよび関係データを1つまたは複数の文字列に変換すること、を行わせる。
ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、(f)構造ベース検索方法を使用して、問い合わせを行うステップの後に、プロセッサにより、ユーザー入力された化学構造データの少なくとも一部を1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって1つまたは複数のテキストベース検索結果を検索して、1つまたは複数の精緻化された検索結果を生成することであって、1つまたは複数のテキストベース検索結果は関連のある化学構造データを含むフィルタ処理された文書データに対応すること、および(g)プロセッサによって、1つまたは複数の精緻化された検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行わせる。ある実施形態では、構造ベース検索方法は、文字列データを入力として使用する(例えば、テキスト検索エンジンを使用して実行される)。ある実施形態では、1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む。ある実施形態では、構造ベース検索は原子ごとの検索を含む。
ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサにより、関連性検索を使用して、1つまたは複数のテキストベース検索結果を生成させる。ある実施形態では、関連性検索はヒットスコアリング検索である。
ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、1つまたは複数のテキストベース検索結果の関連のある化学構造データを最小スパニング木にまとめること、プロセッサによって、最小スパニング木を持続性コンピュータ可読媒体上に格納すること、およびプロセッサによって、最小スパニング木を検索すること、を行わせる。
ある実施形態では、ユーザー入力された化学構造データは、少なくとも1つの化学構造の部分構造または完全な構造に対応する。
ある実施形態では、文書のセットに対応する文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている。ある実施形態では、問い合わせを行うステップは、プロセッサによって、補強されたユーザークエリーの少なくとも一部を1つまたは複数の索引付け文字列タグの少なくとも1つと相関させる命令を含む。
別の態様では、本発明は、化学情報を含む索引付けされた文書のセットのテキストベース検索のためのシステムを対象とし、本システムは、プロセッサ、および命令をその上に格納している持続性コンピュータ可読媒体を含み、本命令は、プロセッサによって実行される場合に、プロセッサに、(a)プロセッサによって、テキストデータ(例えば、英数字データ)を含むユーザークエリーを受信することであって、テキストデータは少なくとも1つの化学構造を記述する英数字文字のシーケンスを含むこと、(b)テキストベース検索方法を使用して、プロセッサによって、索引付けされた文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、文書データは1つまたは複数の索引文字列タグを含むように補強されており、問い合わせを行うことは、ユーザークエリーのテキストデータの少なくとも一部を1つまたは複数の索引文字列タグと相関させて1つまたは複数のテキストベース検索結果を生成することを含み、1つまたは複数の索引文字列タグは、少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むこと、ならびに(c)プロセッサにより、1つまたは複数のテキストベース検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行わせる。ある実施形態では、1つまたは複数の索引文字列タグは、自然言語テキストを含む。
ある実施形態では、問い合わせを行うステップは、プロセッサにより、関連性検索を使用して、1つまたは複数のテキストベース検索結果を生成する命令を含む。ある実施形態では、関連性検索はヒットスコアリング検索である。
別の態様では、本発明は、化学構造検索を容易にするために文書を索引付けするためのシステムを対象とし、本システムは、プロセッサ、および命令をその上に格納している持続性コンピュータ可読媒体を含み、本命令は、プロセッサによって実行される場合に、プロセッサに、コンピューティング装置のプロセッサによって、文書に対応する文書データを受信することであって、文書データは化学構造に対応する化学構造データを含むこと、プロセッサによって、化学構造データ内のビットスクリーニングデータおよび関係データを識別または抽出することであって、ビットスクリーニングデータは化学構造の1つまたは複数の構成元素に対応し、関係データは1つまたは複数の構成元素間の関係(例えば、相互作用、結合)に対応すること、プロセッサによって、識別されたビットスクリーニングデータの少なくとも一部に基づいて文字列タグを生成することであって、文字列タグは、化学構造データに対応する化学構造を記述するための英数字値を含むこと(例えば、化学構造データを含む文書の問い合わせでの使用のため)、プロセッサによって、文字列タグを化学構造データまたは文書データと関連付けること、ならびにプロセッサにより、文字列タグを(例えば、持続性コンピュータ可読媒体上への格納のために)出力すること、を行わせる。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、ビットスクリーニングデータおよび関係データを1つまたは複数の文字列に変換させる。ある実施形態では、文字列タグは、自然言語テキストを含む。
ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、文書データを補強させ、補強された文書データは文字列タグを含む。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、文字列タグを第2の持続性コンピュータ可読媒体上に格納させる。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに文字列タグを索引付けさせる。
ある実施形態では、文書データはメタデータを含む。ある実施形態では、メタデータは一意のIDおよびバケットID(例えば、バケットIDはマルチテナントシステム内でテナントを識別するために使用される)を含む。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、メタデータを(例えば、文書を索引付けしている間)持続させる。
ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに関係データを1つまたは複数の符号化文字列に変換させる。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに関係データを格納させるが、索引付けはさせない。
別の態様では、本発明は、化学情報を含む索引付けされた文書のセットを、連続的な検索を使用して検索するためのシステムを対象とし、本システムは、プロセッサ、および命令をその上に格納している持続性コンピュータ可読媒体を含み、本命令は、プロセッサによって実行される場合に、プロセッサに、(a)プロセッサによって、ユーザー入力された化学構造データおよびテキストデータを含むユーザークエリーを受信すること、(b)テキストベース検索方法を使用して、プロセッサによって、索引付けされた文書のセットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、ユーザー入力された化学構造データの少なくとも一部を文書データと(例えば、文書データと相関させる前に化学構造データを補強または変換することにより)、およびユーザークエリーのテキストデータの少なくとも一部を文書データと相関させてフィルタ処理された文書データを生成することを含むこと、(c)構造ベース検索方法を使用して、問い合わせを行うステップの後に、プロセッサにより、フィルタ処理された文書データを検索することであって、検索は、ユーザー入力された化学構造データの少なくとも一部をフィルタ処理された文書データ内の関連のあるフィルタ処理された化学構造データと相関させて1つまたは複数の検索結果を生成することを含むこと、ならびに(d)プロセッサによって、1つまたは複数の検索結果を出力する(例えば、表示のためにレンダリングする、または表示のためにレンダリングするために別のプロセッサに出力する)こと、を行わせる。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、化学構造データを1つまたは複数の文字列に変換させる。ある実施形態では、構造ベース検索方法は、文字列データを入力として使用する(例えば、テキスト検索エンジンを使用して実行される)。
ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、ステップ(b)の前に、プロセッサによって、ユーザークエリーを、1つまたは複数の文字列タグを生成することにより補強させ、そのため補強されたユーザークエリーが1つまたは複数の文字列タグを含むようになり、1つまたは複数のクエリー文字列タグは化学構造を記述する。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、1つまたは複数の文字列タグの少なくとも1つを文書データと相関させる。
ある実施形態では、文書データは1つまたは複数の索引文字列タグを含む。ある実施形態では、本命令は、プロセッサによって実行される場合に、プロセッサに、プロセッサによって、テキストデータの少なくとも一部を1つまたは複数の索引文字列タグと相関させる。
図面は、本明細書では、例示目的のために提示されており、限定のためではない。本発明の前述および他の目的、態様、特徴、および利点は、以下の説明を添付の図面と共に参照することによりさらに明らかになり、より良く理解され得る。
本発明の例示的な実施形態に従い、化学情報を含む文書に対応するデータ構造の階層を示す。 本発明の例示的な実施形態に従い、化学構造データを含む文書を索引付けするための方法のブロック図である。 本発明の例示的な実施形態に従い、ユーザークエリーに対応するデータ構造の階層を示す。 本発明の例示的な実施形態に従い、文字列タグで補強された文書を検索するための方法のブロック図である。 本発明の例示的な実施形態に従い、テキストベース検索を使用して文書のセットを検索するために、化学構造データを含むユーザークエリーを補強するための方法のブロック図である。 本発明の例示的な実施形態に従い、テキストベース検索、次いで構造ベース検索を使用して文書のセットを効率的に検索するために、化学構造データを含むユーザークエリーを補強するための方法のブロック図である。 本発明の例示的な実施形態に従い、化学情報を含む文書を索引付けおよび検索するために使用できるソフトウェアモジュールの例示的なシステムである。 本発明の例示的な実施形態に従い、ユーザークエリーを入力して検索結果を見るために使用されるインタフェースのスクリーンショットである。 例示的な実施形態に従い、本明細書で説明する方法およびシステムで使用するためのネットワーク環境例のブロック図である。 本発明の例示的な実施形態での使用のための、コンピューティング装置例およびモバイルコンピューティング装置例のブロック図である。
定義
本開示をより容易に理解するために、本明細書で使用されるある用語は以下のように定義される。以下の用語および他の用語に対する追加の定義は本明細書を通して説明される。
本出願では、「または」の使用は、特に明記しない限り「および/または」を意味する。本出願では、用語「含む(comprise)」ならびに「含み(comprising)」および「含む(comprises)」などの、その用語の変形は、他の付加物、構成要素、整数またはステップを排除することを意図しない。本出願では、用語「約(about)」および「略(approximately)」は同等に使用される。約/略の有無にかかわらず、本出願での任意の数字の使用は、当業者によって理解される任意の正常変動を包含することを意図する。ある実施形態では、用語「約」および「略」は、特に明記しないか、または文脈から明白でない限り(かかる数が可能値の100%を超え得る場合を除いて)、明言された参照値のいずれかの方向(大きいか、または小さい)の25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%またはそれ未満内に含まれる値の範囲を指す。
構成元素(constituent element):本明細書では、句「構成元素」は、化学構造の一部を指す。構成元素は、化学構造を全体または一部において形成する、結合、原子、断片、官能基、ヘテロ原子、成分またはそれらの任意の組合せであり得る。構成元素は、化学構造を識別、記述、および/または分類するために使用され得る。構成元素は、構成元素を含む化学構造に関連した文書を問い合わせる場合に検索語として使用され得る。
文書(document):本明細書では、用語「文書」は、化学情報を含む論文を指す。化学情報は、1つまたは複数の化学物質(例えば、その構造)を識別、分類、および/または記述する。ある実施形態では、文書は1つまたは複数の化学構造表現だけを含む論文である。文書に対応する文書データは、ユーザーが文書および/または文書の内容を検索し得るように、データベース内内に格納でき、かつ/または索引付けできる。文書は、例えば、追加の化学情報を提供するテキストまたは画像などの、追加の要素を含み得る。
テキストデータ(text data):本明細書では、用語「テキストデータ」は、化学物質および/またはその構造の識別、分類、および記述の少なくとも1つを行うテキストに対応するデータを指す。いくつかの実施形態では、ユーザーは、テキストフィールドまたはテキストボックスを使用してグラフィカルユーザーインタフェースでテキストデータを入力する。ある実施形態では、テキストデータは文字列として格納され、文字列は英数字文字のシーケンスである。テキストデータは自然言語の単語または句であり得る。
関連付ける(associate)、〜と関連付けられる(associated with):本明細書では、用語「関連付ける」および、第1のデータ構造が第2のデータ構造と関連付けられるにおけるような、「〜と関連付けられる」は、電子的に(例えば、コンピュータメモリ内に)格納される2つのデータ構造またはデータ要素間の関連性のコンピュータ表現を指す。いくつかの実施形態では、第1のデータ構造は第1のコンピュータ可読媒体上に格納され、第2のデータ構造は第2のコンピュータ可読媒体上に格納され、第1のデータ構造と第2のデータ構造との間の関連性は第1のコンピュータ可読媒体上に格納される。いくつかの実施形態では、第1のデータ構造は第1のコンピュータ可読媒体上に格納され、第2のデータ構造は第2のコンピュータ可読媒体上に格納され、第1のデータ構造と第2のデータ構造との間の関連性は第2のコンピュータ可読媒体上に格納される。
文字列タグ(string tag):本明細書では、用語「文字列タグ」は、化学構造を識別、分類、および/または記述する際に使用される英数字文字の文字列を含むデータを指す。ある実施形態では、英数字文字の文字列は、英数字文字の自然言語シーケンスである。
グラフィカル制御要素(graphical control element):本明細書では、「グラフィカル制御要素」は、ユーザーおよび/または個々の入力に提供するために使用され得るグラフィカルユーザーインタフェース要素の1つの要素を指す。グラフィカル制御要素は、テキストボックス、ドロップダウンリスト、ラジオボタン、データフィールド、チェックボックス、ボタン(例えば、選択可能アイコン)、リストボックス、またはスライダであり得る。
詳細な説明
クレームされた発明のシステム、装置、方法、およびプロセスは、本明細書で説明する実施形態からの情報を使用して展開された変形および適応を包含すると考えられる。本明細書で説明するシステム、装置、方法、およびプロセスの適応および/または修正は、当業者によって実行され得る。
説明を通して、物品、装置、およびシステムが、特定の構成要素を有するか、含むか、もしくは備えるとして説明されている場合、またはプロセスおよび方法が、特定のステップを有するか、含むか、もしくは備えるとして説明されている場合、追加として、列挙される構成要素を、本質的に構成するか、もしくは構成する本発明の物品、装置、およびシステムがあること、ならびに列挙される処理ステップを、本質的に構成するか、もしくは構成する本発明に従ったプロセスおよび方法があることが考えられる。
ステップの順序またはある動作を実行する順序は、本発明が使用可能なままである限り、重要ではないことが理解されるべきである。さらに、2つ以上のステップまたは動作が同時に実施され得る。
例えば、背景技術節での、任意の公開の本明細書での言及は、その公開は、本明細書で提示するクレームのいずれかに関して従来技術となると認めることではない。背景技術節は、明確にすることを目的として提示されており、任意のクレームに関する従来技術の説明を意図するものではない。ヘッダーは読者の便宜のために提供されており、クレームされた主題に関して限定することを意図していない。
本明細書で説明するシステムおよび方法は、効率的な方法を使用した化学情報を含む文書のセットの索引付けおよび検索に関する。文書のセットに対応する文書データは、文書内で参照される化学構造に対応する化学構造データを含む。化学構造データは、化学構造データおよび/または文書データと関連付けられる文字列タグ(例えば、単語または句)を生成するために使用される。文字列タグは、文書内の対応する化学構造および/またはそれらの表現を識別、分類、または記述するために使用される。文字列タグの使用は、高速テキストベース検索方法により、文書内の化学構造情報およびテキストの両方の検索を容易にする。文書の索引付けにおいて文字列タグを使用すると、その文書内の化学構造表現がテキストベース方法を使用して検索されるのを可能にする。
化学構造データおよびテキストデータを含むユーザークエリーは、クエリーが化学構造データに基づいて1つまたは複数の文字列タグを含むように補強されている場合、ユーザーの化学構造表現入力およびテキスト入力が同時に検索されるのを可能にする。同時検索は潜在的に関連のある文書のセットを迅速に狭めることができる。文書内の化学構造および記述テキストの同時検索は、化学構造および記述テキストの連続的な(いずれの順序でも)検索よりも迅速に関連のある検索結果を効率的にユーザーに提供する。
ある実施形態では、索引付けされて検索される文書はデータベースとして格納される。文書データのデータベースは検索での使用のために持続性コンピュータ可読媒体上に格納されて索引付けされ得る。データベースは、コンピューティング装置からユーザーに対してローカルにアクセス可能であり得る。例えば、ユーザーは、デスクトップコンピュータ、ラップトップコンピュータ、モバイル機器、タブレット、または同様のもの上に格納されたデータベースを使用し得る。データベースは、コンパクトディスク、ハードディスク、またはフラッシュメモリなどの、別個の記憶媒体上にも格納され得る。ある実施形態では、データベースは、ネットワークを通してアクセス可能なサーバーまたは類似のコンピューティング装置上に格納される(例えば、クラウドコンピューティングサービスとして)。データベースは、例えば、その大規模サイズに起因して、またはスケーラビリティを考慮して、リモートに格納され得る。ある実施形態では、文書データは索引付けエンジン内に格納される。ある実施形態では、文書データは、フォールトトレラントストア(fault tolerant store)内に格納される。ある実施形態では、索引付けされた文書データに対する索引付けデータは、1つまたは複数の別個の位置に格納されている文書データと共にデータベース内に格納されて検索される。ある実施形態では、データベースはウェブベースのインタフェースを使用して問い合わせされる。
文書は、それらがテキストベース検索方法で完全に検索できるような形式で索引付けされる。索引付けされる文書に対応する文書データは、ChemSearchなどのサービスにロード(例えば、アップロード)され得る。図1は、文書に対応するデータ構造の例示的な階層を示す。文書データ100は、化学構造データ110、テキストデータ130、およびメタデータ140を含む。化学構造データ110は、化学構造表現などの、化学構造情報に対応する。化学構造データは、任意の数の標準形式(例えば、SMILES(simplified molecular input line entry specification)もしくはSMARTS(SMILES arbitrary target specification)ベースの文字列またはフォーマット化バイナリデータとして)で格納され得る。化学構造データ110は、ビットスクリーニングデータ150および関係データ160を含む。ビットスクリーニングデータ150は化学構造の1つまたは複数の構成元素に対応する。関係データ160は、複数の1つまたは複数の構成元素間の1つまたは複数の関係(例えば、相互作用、結合)に対応する。ある実施形態では、化学構造データ(例えば、ビットスクリーニングデータおよび関係データ)は、文字列として格納されるか、または検索のために使用される全ての文書データがテキスト検索エンジンで検索できるように文字列に変換される。テキストデータ130は化学物質および/またはその構造に関する記述情報に対応する。例えば、テキストデータは、化学物質の特性(例えば、その構造)を記述し得、かつ/またはその化学物質を伴うプロセス、反応、もしくは組成/混合物を記述し得る。ある実施形態では、文書データは、文書およびその内容を識別するために使用できるメタデータを含み得る。例えば、文書のメタデータは一意のIDおよびバケットIDを含み得る。メタデータは、文書がデータベース内で参照されるのを可能にするために持続され得る。
文書データ100は、文字列タグ120を含むように(図1で2つを結合する破線で示されているとおり)索引付け中に補強されている。文字列タグは、文書データ内の化学構造データに対応する化学構造を識別、分類、および/または記述するための英数字テキストベースの文字列を提供する文字のシーケンスである。ある実施形態では、文字列タグは、ビットスクリーニングデータを使用して、ビットスクリーニングデータに対応する構成元素を識別するためにビットスクリーニングデータに関して原子ごとまたは類似の構造ベース検索をそこで実行し、構成元素を識別、分類、および/または記述する事前に定義されたリストまたは配列内の文字列を文字列タグに投入することによって、生成される。ある実施形態では、文字列タグは、文字列および文書データ内のビットスクリーニングデータと比較される対応する基準ビットスクリーニングデータを含む配列を使用して投入される。事前定義されたリストは、化学構造内の一般的な構成元素に対する文字列およびそれらの一般的な構成元素に対応する基準ビットスクリーニングデータに対する関連付けを格納することによって手動で作成され得る。従って、文書データ内のビットスクリーニングデータに対応する構成元素に対して事前に定義されたリストから適切な記述文字列を投入される文字列タグを生成するために、事前に定義された文字列と関連付けられた基準ビットスクリーニングデータが、構造ベース検索を使用して、文書データ内のビットスクリーニングデータと照合できる。文字列タグは、適切な記述文字列を文字列タグに投入する適切でアドホックな構造ベース方法を使用しても生成され得る。文字列タグは、化学構造データと、または化学構造データを含む文書データと直接、関連付けられ得る。図1を再度参照すると、文字列タグ120は文書データ100と関連付けられているが、化学構造データ110とは直接、関連付けられていない。
ある実施形態では、文字列タグは、関連付けられた化学構造または部分構造を記述するためにユーザーが使用し得る自然言語の単語または句である。例えば、ピリジンに対応する化学構造データ(例えば、ピリジンの構造表現に対応するか、またはピリジンに対応する埋め込まれた化学構造データ)は、文字列タグ「芳香族」と関連付けられ得る。化学構造データと関連付けられ得る文字列タグの他の例は、対応する化学構造内に存在する構成元素(例えば、官能基またはヘテロ原子)に対する一般名である。例えば、アセトンは、文字列タグ「ケトン」と関連付けられ得るか、またはクロロホルムは、文字列タグ「塩素」および/もしくは「塩素を含む」と関連付けられ得る。
図2は、化学構造情報を含む文書を索引付けするための例示的な方法のブロック図である。索引付け方法200は、文書データ内の化学構造データから1つまたは複数の文字列タグを生成することにより、文書データを補強するために使用される。ステップ210で、化学構造データを含む文書データが、コンピューティング装置のプロセッサによって受信される。ステップ220で、化学構造データ内のビットスクリーニングデータおよび関係データが識別されるか、または抽出される。ステップ230で、ステップ220で識別または抽出されたビットスクリーニングデータが文字列タグを生成するために使用される。ステップ240で、ステップ230で生成された文字列タグは、文書データと直接関連付けられる。ステップ250で、文字列タグが出力される。ステップ250で出力された文字列タグは、後の検索のために、文書データと共に格納される。いくつかの実施形態では、文書データは、文字列タグを含むように補強される。いくつかの実施形態では、文字列タグは、文書データとは別に格納される。文字列タグが文書データとは別に格納される場合、文書データは、文書データが検索されている際に文字列タグが検索できるように、文字列タグの文書データに対する関連付けを含むように補強され得る。
文書データは、内部構成された検索プロバイダサービスにそれをアップロードすることによって受信され得る。検索プロバイダは、1つまたは複数の特定の検索エンジンに対して構成される抽象化層である。構成された検索プロバイダは、検索プロセスの他の態様を妨げることなく、異なる特定の検索エンジンと共に働くように変更され得る。ある実施形態では、検索プロバイダサービス内に構成された検索プロバイダが1つだけある。ある実施形態では、内部構成された検索プロバイダサービスは、索引付けプロセスを通して文書データ内のメタデータを持続する。
ビットスクリーニングデータおよび関係データを識別または抽出するために、構成された検索プロバイダは、化学検索コアエンジンを呼び出して化学構造データを識別または抽出することができる。化学検索コアエンジンは、データが、エンジンによって認識される標準形式で格納される場合、化学構造に対応する文書データ内のデータを識別または抽出することができる。化学検索コアエンジンは、ビットスクリーニングデータおよび関係データの両方を抽出する。ビットスクリーニングデータは化学構造の構成元素に対応し、化学構造データ内で識別される対応する化学構造のそれらの構成元素を検索するために使用できる。関係データは、テキストベース検索に続き得る任意の補完的な構造ベース検索での使用のために格納される。ビットスクリーニングデータは、文字列タグを生成するために使用されて、化学構造データに対応する文字列タグをユーザークエリーと相関させることにより、ユーザーにとって関心のある化学構造データがテキストベース検索方法を使用して識別できるようにする。関係データは、符号化文字列として格納され得る。ある実施形態では、文書データ内の関係データおよびビットスクリーニングデータは、テキスト検索エンジンを使用して全ての検索(例えば、テキスト検索および構造検索)が実行できるようにするために、索引付け中に文字列に変換される。
一旦、化学検索コアエンジンが化学構造データを抽出または識別して、化学構造データ(すなわち、関係データおよびビットスクリーニングデータ)を適切な文字列(すなわち、それぞれ、符号化文字列および文字列タグ)に補強すると、文字列タグが出力される。文書データは、出力された文字列タグで補強され得る。文書データは初めに、関係データから変換された符号化文字列で補強され得る。補強されたデータは基礎となる索引付けエンジンに送信される。出力された文字列タグは、ユーザーによって入力されたテキストデータが文字列タグと相互に関連付けられて、検索時に検索結果を識別できるように、他のテキストデータと同様に索引付けされる。関係データは索引付けされないが、検索ワークフロー中に取得するために、文書と共に格納される。ある実施形態では、関係データまたは変換された関係データは、最初のテキストベース検索に続いて実行される構造ベース検索で使用される。データベース内の文書を索引付けした後、文書データはユーザーによる検索のために利用可能である。
文書の索引付けにおけるElasticsearchベースのアドバンスドサーチサービスモジュール(化学検索コアエンジンを含む)および検索エンジンモジュールと統合された内部構成された化学検索プロバイダサービスモジュール(例えば、ChemSearchサービス)の実施形態が図7に示されている。文書データは、処理のためにChemSearchサービスに入力される。処理は文書データ内のメタデータを持続することを含む。文書データは索引付けされて、Elasticsearchベースのアドバンスドサーチサービスに送信される。ElasticsearchベースのアドバンスドサーチサービスにおけるChemSearchコアエンジンは、索引付けされている文書データ内の化学構造データに対して文字列タグを生成するために使用されて、文字列タグを含むように文書データを補強する。索引付けされて補強された文書データは次いで、Elasticsearchモジュールに送信される。
ある実施形態では、ChemSearchサービスは、検索ワークフローに統合される。ある実施形態では、ChemSearchサービスは、密接に統合される。密接に統合された検索統合は、全ての検索(すなわち、任意のテキスト検索および構造検索)が1つの検索モジュール(例えば、ChemSearchサービス)によって処理できることを意味する。ある実施形態では、ChemSearchサービスは補完的である。補完的な統合では、主検索エンジンがほとんどの検索を実行し、他方、補助検索エンジンは化学データ検索を実行する。補助検索エンジンは、構造ベース検索が要求される場合にだけ起動される。ある実施形態では、補助検索エンジンは、文書データのサブセット(例えば、メタデータ)だけを索引付けすることによってビルドされる。
関心のある文書に対するユーザー検索は、検索インタフェースへの入力を提供する。検索入力は、コンピューティング装置上でローカルに実行されるインタフェースを使用して提供され得るか、またはウェブベースのインタフェースを使用してアクセスされ得る。ユーザーは、特定の化学構造に関する情報を含むデータベース内の一部または全部の文書を検索している可能性がある。一般に、ユーザーは構成元素のセットおよび/または構造の特性(例えば、その官能性、反応性、または生産)のリストによって識別される化学構造の属に関する情報を含む文書を検索している。関心のある属は、複数の構成元素の存在によって制約されるいくつかのメンバを含め、特定であり得るか、または、1つもしくは2、3だけの共通の構成元素をもつ多数のメンバを含め、広範であり得る。例えば、ユーザーは、構造の末端基だけが属のメンバ間で異なる複合化学構造の属に関心があり得るか、またはユーザーは芳香族の全ての化学構造に関心があり得る。
ある実施形態では、ユーザーに提供される検索インタフェースは、テキストデータを入力するための1つまたは複数のテキストフィールドおよび化学構造データを入力するためのサブインタフェースを含む。ユーザーは任意の記述テキストを1つまたは複数のテキストフィールドに入力することができる。ユーザーによって提供される記述テキストは、関心のある化学構造の特性または化学構造自体の構造を指し得る。例えば、ユーザーは「90%を超える収率」または「3つのカルボニル基を含む」を記述テキストとして入力し得る。ユーザーが複合化学構造に関心がある場合、ユーザーが、関連のある結果を生成するために、自然言語を使用して化学構造を十分に記述することは非現実的である。化学構造を入力するためのサブインタフェースは、データベースの検索で使用される化学構造もしくは部分的な化学構造を描くか、または同様に入力するためにユーザーによって使用され得る。いくつかの実施形態では、化学構造を描くためのサブインタフェースはChemDraw(登録商標)(米国マサチューセッツ州ケンブリッジのPerkinElmer Informatics,Incによる)インタフェースである。化学構造データは化学構造表現として、線表示文字列(例えば、SMILES(simplified molecular input line entry specification)またはSMARTS(SMILES arbitrary target specification)ベースの文字列)を使用してテキストフィールドに入力され得る。このようにして、検索において関心のある化学構造を識別するために、ユーザーが化学構造入力または記述テキスト入力を提供するかにかかわらず、化学構造はテキストベース方法を使用して検索できる。
図8は、いくつかの実施形態で、ユーザーがクエリーを入力して検索結果を見るための例示的な検索インタフェースのスクリーンショットを示す。検索インタフェース800は2つのタブ、すなわち、クエリーを入力する際に使用するためのクエリータブ802および検索の結果を見るための結果タブ804を有する。クエリータブ802は、検索で使用される用語を入力するための複数のグラフィカル制御要素を含む。テキストフィールド810は、ユーザーが検索で使用される英数字テキストを入力するためのグラフィカル制御要素を提供する。ドロップダウンリスト820は、ユーザーが、検索する1つのデータベース、データベースのセット、または1つまたは複数のデータベースのサブセット(複数可)を選択するのを可能にするグラフィカル制御要素である。テキストフィールド830は、ユーザークエリーに含められる様々なメタデータ用語を入力するための複数のグラフィカル制御要素である。ある実施形態では、検索は、何らかの閾値内で、ユーザー入力メタデータ値に一致するか、または対応するメタデータを含む文書のサブセットだけに関して実行される。例えば、ユーザーは、ユーザークエリーが特定のプロジェクト名のメタデータと関連付けられた文書内でのみ検索されるように、そのプロジェクト名を入力し得る。
グラフィカル制御要素842および844は、1つまたは複数の化学構造を描くことにより、化学構造データを入力するために使用される。グラフィカル制御要素844をクリックすると、化学構造を描くのを可能にする別個のインタフェース(例えば、結合および化学成分を描くツールを有する)をユーザーに提供する。例えば、グラフィカル制御要素844をクリックすると、ChemDraw(登録商標)(米国マサチューセッツ州ケンブリッジのPerkinElmer Informatics,Incによる)インタフェースをオープンし得る。ドロップダウンリスト842は、描いている構造のタイプを選択するために使用される。例えば、ドロップダウンリスト842は、ユーザーが「部分構造」、「完全な構造」、および「複数の構造」から選択するのを可能にする。このリストからの選択は、文字列タグを適切に生成して、検索アルゴリズムを実行するために使用される。ドロップダウンリスト842は「部分構造(substructure)」が選択されているのを示す。グラフィカル制御要素844は、ユーザークエリーの一部としてユーザーによって描かれた部分構造を示す。
グラフィカル制御要素852、854、856、858、および860は、ユーザーが、検索されている化学物質(複数可)に関連した関心のある特定の特性に対して追加のテキストデータを入力するのを可能にする。例えば、ユーザーはテキストフィールド852を使用して、関心のある化学物質(複数可)に関連した反応における反応物に対するテキストデータを提供し得る。ユーザーは、反応生成物に対するテキストデータをグラフィカル制御要素854内に入力し得る。例えば、ユーザーは、グラフィカル制御要素854で80パーセントを超える収率を選択している。ユーザーは、テキストフィールド856で、反応で使用される溶媒に対するテキストデータを入力し得る。ユーザーは、テキストフィールド858で、反応条件(例えば、温度および圧力またはその範囲)に対するテキストデータを入力し得る。ユーザーは、調製基準(preparation criteria)に対するテキストデータをテキストフィールド860に入力し得る。
グラフィカル制御要素852、854、856、858、および860は、テキストフィールド810への一般的なテキストデータ入力とは別に、関心のある特定の特性に対応するテキストデータをユーザーが入力するのを可能にするために、テキストフィールド810に加えて、検索インタフェース800に含まれる。例えば、文字列「収率>80%」(例えば、テキストフィールド810に入力された)のテキストベース検索では、80%を超える収率に言及している全ての文書に対する結果を生じ得るが、他方、グラフィカル制御要素854での「>80%」の選択は、描かれた化学構造および/または入力された生成物が反応において80%を超える収率でもたらされる文書に対してだけ結果を生じる。さらに、ある実施形態では、検索アルゴリズムは複数のステップを含み、グラフィカル制御要素810、852、854、856、858、および860の各々への入力は、別々のステップで検索される。ある実施形態では、かかる分割された検索アルゴリズムは検索時間を加速し、かつ/またはユーザーに強く関連のある結果を生じる。従って、検索インタフェース800では、テキストフィールド810は、ユーザーが一般的なテキストデータを入力するのを可能にし、他方、グラフィカル制御要素852、854、856、858、および860は、ユーザーにとって関心のある化学物質(複数可)に関連した特定の特性に対応する(例えば、反応の特性および/または条件に対応する)テキストデータをユーザーが入力するのを可能する。本明細書で説明するような検索で使用されるような、ユーザークエリーのテキストデータは、これらのグラフィカル制御要素の任意の1つまたは複数に入力されたデータを含み得る。いくつかの実施形態では、ユーザークエリーの全てのテキストデータは、インタフェースでユーザーに提供される1つだけのテキストフィールドに入力される。
図3は、ユーザークエリーと関連付けられたデータ構造の階層を示す。ユーザークエリー300は、化学構造データ310およびテキストデータ320を含む。化学構造データ310は、ビットスクリーニングデータ340および関係データ350を含む。ビットスクリーニングデータ340は、文字列タグ330を生成するために、関連付けられた化学構造データに対応する化学構造の1つまたは複数の構成元素を識別するために使用され得る。一旦、文字列タグ330が生成されると、ユーザークエリー300は、文字列タグ330と関連付けられるように補強される。文字列タグ330は、本明細書で前述したような事前に定義された文字列のリストを使用して生成できる。ユーザークエリー300は、テキストベース検索方法を使用して文書データのデータベースに問い合わせるためにコンピューティング装置のプロセッサによって受信できる。ある実施形態では、ユーザークエリーは、テキストデータおよび化学構造データの両方を含む。ある実施形態では、ユーザークエリーは、テキストデータを含むが、化学構造データは含まない。ある実施形態では、ユーザークエリーは、化学構造データは含むが、テキストデータは含まない。
図4は、テキストデータを含むユーザークエリーを使用して、補強された文書データ(すなわち、文書データは文字列タグを含む)のデータベースを検索するための方法のブロック図である。検索方法400は、テキストデータを含むユーザークエリーを使用して、文字列タグで補強された文書データのデータベースのテキストベース検索を実行するために使用される。ステップ410で、コンピューティング装置のプロセッサは、テキストデータを含むユーザークエリーを受信する。ステップ420で、文字列タグで補強された文書データのデータベースに、ステップ410で受信されたユーザークエリーでテキストベース検索方法を使用して問い合せてテキストベース検索結果を生成する。問い合わせを行うステップは、テキストベース検索方法を使用して、ステップ410でユーザークエリーの一部として受信されたテキストデータを、補強された文書データ内の文字列タグと相関させることを含む。このようにして、化学構造表現を有するが、化学物質を一般名によって明示的に識別するテキストを含んでいない文書が、問い合わせを行うステップで結果として識別できる。例えば、ベンゼンの表現が文書内に存在し得るが、文書のテキストは句「芳香環」を含むだけであり得る。対応する文書データは、(例えば、図2の方法に従い)索引付けの結果として文字列「ベンゼン」を含む文字列タグを含むように補強されたので、検索方法400は、テキストデータ「ベンゼン」を含むユーザークエリーに対する結果としてその文書を識別するであろう。ステップ430で、ステップ420で生成されたテキストベース検索結果が、例えば、ユーザーに対して表示するため、またはさらなる処理のために、出力される。
図5は、テキストデータおよび化学構造データを含むユーザークエリーを使用して、文書データのデータベースを検索する方法に対するブロック図である。検索方法500は、テキストデータを含むユーザークエリーを使用して、文字列タグで補強された文書データのデータベースのテキストベース検索を実行するために使用される。テキストベース検索結果は、ユーザーに対して表示するため、またはさらなる処理のために、出力され得る。テキストベース検索結果は、後の参照のために格納され得る。ステップ510で、コンピューティング装置のプロセッサは、テキストデータおよび化学構造データを含むユーザークエリーを受信する。ユーザークエリーは、本明細書で前述したようなインタフェースを使用してテキストデータおよび化学構造データを入力するためにユーザーによって使用された別のコンピューティング装置からプロセッサに送信され得る。ステップ520で、化学構造データが、ステップ510で受信されたユーザークエリーから抽出される。ステップ530で、抽出された化学構造データが文字列タグ(複数可)を生成するために使用される。ユーザークエリー内の化学構造データから生成された文字列タグは、本明細書で前述したように、文書の索引付け中に文字列タグを生成するための同じ方法を使用して生成できる。ある実施形態では、化学構造データは、文字列タグ(複数可)を生成するためにユーザークエリーから抽出される。いくつかの実施形態では、ユーザークエリー内の化学構造データは、1つまたは複数の文字列タグ(複数可)を生成するために識別される。ステップ540で、ユーザークエリーは、ステップ530で生成された文字列タグ(複数可)で補強される。ステップ550で、テキストベース検索が、補強されたユーザークエリーおよび検索されている文書に対応する文書データを使用して実行される。任意の2つの文字列(すなわち、ユーザークエリーの任意の文字列および文書データ内の任意の文字列)が相互に相関されるのを可能にする任意のテキストベース検索方法がステップ550で使用され得る。例えば、テキストベース検索方法は、関連性検索またはヒットランキング検索アルゴリズムを使用して結果を生成し得る。ステップ560で、ステップ550で生成されたテキストベース検索結果が、例えば、ユーザーに対して表示するため、またはさらなる処理のために、出力される。
ステップ550で使用されるテキストベース検索方法は、検索結果を生成するために、ユーザークエリーの任意の文字列を文書データの任意の文字列と相関させ得る。ステップ540でユーザークエリーを文字列タグ(複数可)で補強することにより、文字列ベースの形式で入力されない可能性があるユーザーによって入力される化学構造データが、テキストベース検索を実行するために使用できる。すなわち、補強されたユーザークエリー内の文字列タグは、文書データ内の文字列(例えば、テキストデータ)と相関されて結果を生成できる。従って、クエリー補強がなければ生成されていない可能性がある検索結果がユーザーに提供できる。テキストベース検索結果を生成するために使用された文書データ内の文字列は、索引付け中に生成された文書データ内の文字列タグ内であり得る。このようにして、1つの形式で格納される文書データ内の化学構造データが、別の形式におけるユーザークエリー内の化学構造データに対して検索できる。同様に、索引付け中に1つまたは複数の文字列タグを含むように補強されている文書データは、ユーザークエリー内のテキストデータの一部またはユーザークエリー内の化学構造データから生成された文字列タグ(複数可)の一部のいずれかを相関させることにより、ユーザークエリーに対する結果として識別できる。
化学構造データを含むが、テキストデータは含まないユーザークエリーは、方法500に従った検索のために補強されて使用できる。ユーザークエリーが化学構造データを含むが、テキストデータは含まない場合、テキストベース検索結果は、補強されたユーザークエリー内の文字列タグ(複数可)の少なくとも一部を文書データと相関させることによって生成される。いくつかの実施形態では、化学構造データを含むが、テキストデータは含まないユーザークエリーは、文字列タグ(複数可)を含むように補強され、文字列タグ(複数可)の少なくとも一部は、補強された文書データ内の索引文字列タグ(例えば、索引付け中に索引文字列タグが文書データに付加された場合)の少なくとも一部と相関される。従って、化学構造データの全体を含むユーザークエリーに関して高速なテキストベース検索を実行して、テキストだけ、または化学構造表現だけを使用して化学物質を記述する結果を返すことができる。これは、化学構造データの全体を含むユーザークエリーに対して低速な構造ベース方法を使用する必要がある現在の方法とは対照的である。
テキストデータおよび化学構造データを含むユーザークエリーに関して、テキストベース検索方法は、ユーザークエリーのテキストデータおよびユーザークエリーの化学構造データから生成された文字列タグを同時に使用して、関連のある文書を検索することにより、データベースを検索して結果を生成できる。これは、従来の(すなわち、補強されていない)ユーザークエリーによって必要とされる、連続的な、テキストベース、次いで構造ベース(またはその逆)検索を排除する。理論に縛られることを望むものではないが、かかる連続的な検索は構造ベース検索ステップの速度によって速度制限される。方法500等のテキストベース検索結果は、テキストベース検索結果がユーザーによって求められた情報により正確に関連するように、ユーザークエリー内で提供される全ての情報によって影響を受ける。
いくつかの検索に関して、ユーザークエリー内のテキストデータおよび化学構造データを同時に検索するテキストベース検索方法によって生成されたテキストベース検索結果でさえ、ユーザーにとっては広範すぎるか、または決定的ではない。図6は、構造ベース検索方法を使用した、検索のための方法、(例えば、方法500に従い)テキストデータおよび化学構造データを含むユーザークエリーに基づくテキストベース検索の結果を示す。方法600のステップ610〜650は、方法500のステップ510〜550と同じである。ステップ670で、ステップ610〜650で生成されたテキストベース検索結果が、ユーザークエリーの化学構造データに基づいたテキストベース検索結果の構造ベース検索を実行するために使用される。ある実施形態では、構造ベース検索は、全ての検索が単一の検索エンジンを使用して実行できるように、テキスト検索エンジンで実行される。単一のテキスト検索エンジンが構造ベース検索およびテキストベース検索に対して使用されるために、文書データ内の関係データおよびビットスクリーニングデータが索引付け中に文字列に変換される。精緻化された検索結果がステップ680で、例えば、ユーザーに対して表示するため、またはさらなる処理のために、出力される。
構造ベース検索は、原子ごとの検索または、ユーザーにとって関心のある化学構造と正確に、もしくはほぼ正確に一致する(すなわち、ユーザーによって提供された化学構造データに対応する)化学構造に関連した結果を生じる当技術分野で周知の任意の他の構造ベース検索であり得る。いくつかの実施形態では、テキストベース検索結果の文書データ内の化学構造データは、構造ベース検索が、クエリーの化学構造データを使用するメモリ内最小スパニング木の検索で構成されるように、メモリ内最小スパニング木に統合される。最小スパニング木の使用は、後続の構造ベース検索の費用(例えば、時間、処理容量)を削減できる。構造ベース検索は、ユーザー入力されたユーザークエリーの化学構造データをテキストベース検索結果の関連のある化学構造データと相関させる。
テキストデータおよび文字列タグを含む補強されたユーザークエリーを同時に使用して文書データを最初にテキストベース検索することによる構造ベース方法で検索される文書データをフィルタ処理すると、フィルタ処理された文書データのセットの小ささに比例して構造ベース検索方法の速度を向上できる。文字列タグの使用によってテキストベース検索から生じた文書データの量が(テキストデータだけで達成可能なものと比較して)大幅に削減される検索に対して、構造ベース検索は極めて高速である。構造ベース検索において検索されている文書データの量が文書データの初期量から大幅に削減されている(すなわち、テキストベース検索の前に)ので、かかる後続の構造ベース検索の速度は極めて高速である。ユーザークエリーの化学構造データは、フィルタ処理された文書データ(すなわち、テキストベース検索結果のデータ)内の関連のある化学構造と迅速に相関できる。
文字列タグを使用することなく後続の構造ベース検索の前にテキストベース検索方法を使用すると、多くの場合、構造ベース検索が検索される文書データの量を著しくは制限しない。例えば、ユーザーが、90%を超える反応収率をもつ化学物質の属を生成する方法に関連する文書を見つけたい場合、ユーザーはその属の部分的または完全な表現およびテキスト「90%を超える収率」を提供し得る。テキストデータが、(補強されたユーザークエリーにおけるような)文字列タグを使用しない最初のテキストベース検索方法で使用される場合、テキストベース検索結果の文書データは、ユーザーにとって関心のない化学構造を伴う90%を超える収率のプロセスに関連する文書に対する大量のデータを含む。任意の後続の構造ベース検索は、テキストベース検索によって返される任意の関連のあるデータに加えて、無関係のデータに関して実行され、従って検索方法全体が減速する。
ユーザークエリーの化学構造データに基づいて生成された文字列タグがテキストベース検索(例えば、方法600を使用)で使用される場合、無関係な文書データのかなりの部分(および最大で全部)が後続の構造ベース検索における検索から除外される。後続の構造ベース検索は、テキストベース検索結果を精緻化して、入力された化学構造表現に対する少なくともある程度の類似度の化学構造表現を含むものだけを含む。後続の構造ベース検索を使用して検索結果を精緻化することは、ユーザーが複合化学構造表現を入力する検索に対して特に有用である。複合化学構造に対応する化学構造データを含む補強されたユーザークエリーに基づく構造ベース検索を実行すると、複合化学構造とあまり類似していない(例えば、補強されたユーザークエリー内の文字列タグとの相関を生じるのに十分でない)テキストベース検索結果を除外するように検索結果を精緻化する。
ユーザークエリーは、内部構成された検索プロバイダサービスに対するAPI呼出しによって受信され得る。ビットスクリーニングデータおよび関係データを識別または抽出するために、構成された検索プロバイダは、化学構造データを識別または抽出するために化学検索コアエンジンを呼び出すことができる。化学検索コアエンジンは、データがエンジンによって認識される標準形式で格納される場合、化学構造に対応する文書データ内のデータを識別または抽出できる。化学検索コアエンジンは、ビットスクリーニングデータおよび関係データの両方を抽出する。ビットスクリーニングデータは化学構造の構成元素に対応して、化学構造データに対応する化学構造のそれらの構成元素を検索するために使用できる。関係データは、テキストベース検索に続き得る任意の補完的な構造ベース検索における使用のために格納される。ビットスクリーニングデータは文字列タグを生成するために使用されて、ユーザーにとって関心のある化学構造データが、化学構造データに対応する文字列タグをユーザークエリーと相関させることにより、テキストベース検索方法を使用して識別できるようにする。関係データは、符号化文字列として格納され得る。
一旦、化学検索コアエンジンが化学構造データを抽出または識別して、その化学構造データ(すなわち、関係データおよびビットスクリーニングデータ)を適切な文字列(すなわち、それぞれ、符号化文字列および文字列タグ)に変換していると、文字列タグが出力される。ユーザークエリーは、出力された文字列タグで補強される。補強されたユーザークエリーは、基礎となる検索エンジンに送信される。文字列タグは、検索中に、ユーザー入力されたテキストデータとして扱うことができる。化学検索コアエンジンがユーザークエリーを補強するために使用された後、補強されたユーザークエリーは、検索のために検索エンジンに送信できる。検索エンジンは、テキストベース検索および、任意選択として、原子ごとの検索方法を使用する構造ベース検索を実行して、検索結果をユーザーに提供する。
文書の検索におけるElasticsearchベースのアドバンスドサーチサービスモジュール(化学検索コアエンジンを含む)および検索エンジンモジュールと統合された内部構成された検索プロバイダサービス(例えば、ChemSearchサービス)モジュールの使用が図7に示されている。ユーザークエリーは、処理のためにChemSearchサービスに入力される。検索要求が、Elasticsearchベースのアドバンスドサーチサービスに送信される。ElasticsearchベースのアドバンスドサーチサービスにおけるChemSearchコアエンジンは、検索されているユーザークエリー内の化学構造データに対して文字列タグを生成するために使用されて、文字列タグを含むようにクエリーを補強する。補強されたユーザークエリーは次いで、テキストベース検索および原子ごとの検索を使用して検索するためにElasticsearchモジュールに送信されて、ユーザーに対して検索結果を生成する。
図9は、本明細書で説明する方法およびシステムで使用するための例示的なネットワーク環境900を示す。概略で、ここで図9を参照すると、例示的なクラウドコンピューティング環境900のブロック図が示されて説明されている。クラウドコンピューティング環境900は、1つまたは複数の資源プロバイダ902a、902b、902c(総称して、902)を含み得る。各資源プロバイダ902はコンピューティング資源を含み得る。いくつかの実装形態では、コンピューティング資源は、データを処理するために使用される任意のハードウェアおよび/またはソフトウェアを含み得る。例えば、コンピューティング資源は、アルゴリズム、コンピュータプログラム、および/またはコンピュータアプリケーションを実行可能なハードウェアおよび/またはソフトウェアを含み得る。いくつかの実施態様では、例示的なコンピューティング資源は、ストレージおよび検索能力を備えたアプリケーションサーバーおよび/またはデータベースを含み得る。各資源プロバイダ902は、クラウドコンピューティング環境900内の任意の他の資源プロバイダ902に接続され得る。いくつかの実施態様では、資源プロバイダ902は、コンピュータネットワーク908を通して接続され得る。各資源プロバイダ902は、1つまたは複数のコンピューティング装置904a、904b、904c(総称して、904)に、コンピュータネットワーク908を通して接続され得る。
クラウドコンピューティング環境900は、資源マネージャ906を含み得る。資源マネージャ906は、資源プロバイダ902およびコンピューティング装置904にコンピュータネットワーク908を通して接続され得る。いくつかの実施態様では、資源マネージャ906は、1つまたは複数の資源プロバイダ902によるコンピューティング資源の1つまたは複数のコンピューティング装置904への提供を容易にし得る。資源マネージャ906は、特定のコンピューティング装置904からのコンピューティング資源に対する要求を受信し得る。資源マネージャ906は、コンピューティング装置904によって要求されたコンピューティング資源を提供可能な1つまたは複数の資源プロバイダ902を識別し得る。資源マネージャ906は、コンピューティング資源を提供するための資源プロバイダ902を選択し得る。資源マネージャ906は、資源プロバイダ902と特定のコンピューティング装置904との間の接続を容易にし得る。いくつかの実施態様では、資源マネージャ906は、特定の資源プロバイダ902と特定のコンピューティング装置904との間の接続を確立し得る。いくつかの実施態様では、資源マネージャ906は、特定のコンピューティング装置904を、要求されたコンピューティング資源をもつ特定の資源プロバイダ902にリダイレクトし得る。
図10は、本開示で説明する方法およびシステムで使用できるコンピューティング装置1000およびモバイルコンピューティング装置1050の例を示す。コンピューティング装置1000は、様々な形式のデジタルコンピュータ、例えば、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバー、ブレードサーバー、メインフレーム、および他の適切なコンピュータなど、を表すことを意図する。モバイルコンピューティング装置1050は、様々な形式のモバイル機器、例えば、携帯情報端末、携帯電話、スマートフォン、および他の類似のコンピューティング装置など、を表すことを意図する。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示のみを意図し、限定することは意図していない。
コンピューティング装置1000は、プロセッサ1002、メモリ1004、記憶装置1006、メモリ1004および複数の高速拡張ポート1010に接続する高速インタフェース1008、ならびに低速拡張ポート1014および記憶装置1006に接続する低速インタフェース1012を含む。プロセッサ1002、メモリ1004、記憶装置1006、高速インタフェース1008、高速拡張ポート1010、および低速インタフェース1012の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で取り付けられ得る。プロセッサ1002は、高速インタフェース1008に結合されたディスプレイ1016などの、外部入力/出力装置上のGUIに対してグラフィック情報を表示するために、メモリ1004内に、または記憶装置1006上に格納された命令を含む、コンピューティング装置1000内での実行のための命令を処理できる。他の実施態様では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよびメモリのタイプと共に、使用され得る。また、複数のコンピューティング装置は、必要な操作の部分を提供する各装置と(例えば、サーバーバンク、ブレードサーバーのグループ、またはマルチプロセッサシステムとして)、接続され得る。
メモリ1004は、情報をコンピューティング装置1000内部に格納する。いくつかの実施態様では、メモリ1004は揮発性メモリユニットまたは複数のユニットである。いくつかの実施態様では、メモリ1004は、不揮発性メモリユニットまたは複数のユニットである。メモリ1004は、磁気または光ディスクなどの、別の形式のコンピュータ可読媒体でもあり得る。
記憶装置1006は、コンピューティング装置1000に対して大容量記憶を提供可能である。ある実施態様では、記憶装置1006は、コンピュータ可読媒体、例えば、フロッピィディスク装置、ハードディスク装置、光ディスク装置、もしくはテープ装置、フラッシュメモリもしくは他の類似のソリッドステートメモリ装置、またはストレージエリアネットワークもしくは他の構成内の装置を含む、装置のアレイなどである得るか、またはそれらを含み得る。命令は情報担体内に格納できる。命令は、1つまたは複数の処理装置(例えば、プロセッサ1002)によって実行される場合、前述のような、1つまたは複数の方法を実行する。命令は、コンピュータまたは機械可読媒体(例えば、メモリ1004、記憶装置1006、またはプロセッサ1002上のメモリ)などの、1つまたは複数の記憶装置によっても格納できる。
高速インタフェース1008は、コンピューティング装置1000に対する帯域幅集約型操作を管理し、他方、低速インタフェース1012は、低帯域幅集約型操作を管理する。かかる機能の割当ては例に過ぎない。いくつかの実施態様では、高速インタフェース1008は、メモリ1004、ディスプレイ1016(例えば、グラフィックプロセッサまたはアクセラレータを通して)、および高速拡張ポート1010に結合され、高速拡張ポート1010は様々な拡張カード(図示せず)を受け入れ得る。その実施態様では、低速インタフェース1012は、記憶装置1006および低速拡張ポート1014に結合される。低速拡張ポート1014は、様々な通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット(登録商標))を含み得、1つまたは複数の入力/出力装置、例えば、キーボード、ポインティングディバイス、スキャナ、またはスイッチもしくはルーターなどのネットワーキング装置などに、例えば、ネットワークアダプタを通して結合され得る。
コンピューティング装置1000は、図に示すような、いくつかの異なる形式で実装され得る。例えば、それは、標準サーバー1020として、またはかかるサーバーのグループ内で複数回、実装され得る。追加として、それは、ラップトップコンピュータ1022などの、パーソナルコンピュータ内で実装され得る。それは、ラックサーバーシステム1024の一部としても実装され得る。代替として、コンピューティング装置1000からの構成要素は、モバイルコンピューティング装置1050などの、モバイル機器(図示せず)内の他の構成要素と組み合わされ得る。かかる装置の各々は、コンピューティング装置1000およびモバイルコンピューティング装置1050の1つまたは複数を含み得、システム全体は相互に通信する複数のコンピューティング装置で構成され得る。
モバイルコンピューティング装置1050は、他の構成要素の中でとりわけ、プロセッサ1052、メモリ1064、ディスプレイ1054などの入力/出力装置、通信インタフェース1066、および送受信機1068を含む。モバイルコンピューティング装置1050は、追加のストレージを提供するために、マイクロドライブまたは他の装置などの、記憶装置も備え得る。プロセッサ1052、メモリ1064、ディスプレイ1054、通信インタフェース1066、および送受信機1068の各々は、様々なバスを使用して相互接続され、構成要素のいくつかは共通のマザーボード上に、または必要に応じて他の方法で取り付けられ得る。
プロセッサ1052は、メモリ1064内に格納された命令を含め、モバイルコンピューティング装置1050内部の命令を実行できる。プロセッサ1052は、別個で複数のアナログおよびデジタルプロセッサを含むチップのチップセットとして実装され得る。プロセッサ1052は、例えば、モバイルコンピューティング装置1050の他の構成要素の共調、例えば、ユーザーインタフェースの制御、モバイルコンピューティング装置1050によるアプリケーション実行、およびモバイルコンピューティング装置1050による無線通信など、を提供し得る。
プロセッサ1052は、ディスプレイ1054に結合された制御インタフェース1058およびディスプレイインタフェース1056を通してユーザーと通信し得る。ディスプレイ1054は、例えば、TFT(薄膜トランジスタ液晶ディスプレイ)ディスプレイもしくはOLED(有機発光ダイオード)ディスプレイ、または他の適切なディスプレイ技術であり得る。ディスプレイインタフェース1056は、グラフィックおよび他の情報をユーザーに提示するためにディスプレイ1054を駆動するための適切な回路を含み得る。制御インタフェース1058は、ユーザーからコマンドを受信し、それらをプロセッサ1052への提出のために変換し得る。加えて、外部インタフェース1062は、モバイルコンピューティング装置1050の他の装置との近距離通信(near area communication)を可能にするために、プロセッサ1052との通信を提供し得る。外部インタフェース1062は、例えば、いくつかの実施態様では有線通信を、または他の実施態様では無線通信を提供し得、複数のインタフェースも使用され得る。
メモリ1064は、モバイルコンピューティング装置1050内に情報を格納する。メモリ1064は、コンピュータ可読媒体もしくは複数の媒体、揮発性メモリユニットもしくは複数のユニット、または不揮発性メモリユニットもしくは複数のユニットの1つまたは複数として実装できる。拡張メモリ1074も提供されて、拡張インタフェース1072を通してモバイルコンピューティング装置1050に接続され得、拡張インタフェース1072は、例えば、SIMM(シングルインラインメモリモジュール)カードインタフェースを含み得る。拡張メモリ1074は、モバイルコンピューティング装置1050に対して追加の記憶空間を提供し得るか、またはモバイルコンピューティング装置1050に対するアプリケーションもしくは他の情報も格納し得る。具体的には、拡張メモリ1074は、前述のプロセスを実行するか、または補完する命令を含み得、安全情報も含み得る。従って、例えば、拡張メモリ1074は、モバイルコンピューティング装置1050に対するセキュリティモジュールとして提供され得、モバイルコンピューティング装置1050の安全な使用を許可する命令でプログラムされ得る。加えて、安全なアプリケーションがSIMMカードを経由して、識別情報をSIMMカード上にハッキング不能な方法で置くなど、追加情報と共に、提供され得る。
メモリは、例えば、以下で説明するように、フラッシュメモリおよび/またはNVRAMメモリ(不揮発性ランダムアクセスメモリ)を含み得る。いくつかの実施態様では、命令は情報担体内に格納され、1つまたは複数の処理装置(例えば、プロセッサ1052)によって実行される場合に、前述したものなどの、1つまたは複数の方法を実行する。命令は、1つまたは複数のコンピュータまたは機械可読媒体(例えば、メモリ1064、拡張メモリ1074、またはプロセッサ1052上のメモリ)などの、1つまたは複数の記憶装置によっても格納できる。いくつかの実施態様では、命令は伝播された信号内で、例えば、送受信機1068または外部インタフェース1062を通して、受信できる。
モバイルコンピューティング装置1050は、通信インタフェース1066を通して無線で通信し得、通信インタフェース1066は、必要であればデジタル信号処理回路を含み得る。通信インタフェース1066は、様々なモードまたはプロトコル、例えば、とりわけ、GSM(登録商標)音声通話(汎欧州デジタル移動電話方式)、SMS(ショートメッセージサービス)、EMS(拡張メッセージサービス)、もしくはMMSメッセージング(マルチメディアメッセージングサービス)、CDMA(符号分割多重アクセス)、TDMA(時分割多重アクセス)、PDC(パーソナルデジタルセルラー)、WCDMA(登録商標)(広帯域符号分割多重アクセス)、CDMA2000、またはGPRS(汎用パケット無線サービス)などの下での通信を提供し得る。かかる通信は、例えば、無線周波数を使用する送受信機1068を通して、生じ得る。加えて、近距離通信は、Bluetooth(登録商標)、Wi−Fi(商標)、または他のかかる送受信機(図示せず)の使用など、を生じ得る。追加として、GPS(全地球測位システム)受信機モジュール1070は、追加のナビゲーションおよび位置関連無線データをモバイルコンピューティング装置1050に提供し得、それは、モバイルコンピューティング装置1050上で実行しているアプリケーションにより必要に応じて使用され得る。
モバイルコンピューティング装置1050は、音声コーデック1060を使用して可聴的にも通信し得、音声コーデック1060は、ユーザーから口頭での情報を受信して、それを利用可能なデジタル情報に変換し得る。音声コーデック1060は同様に、例えば、モバイルコンピューティング装置1050のハンドセット内の、スピーカーを通してなど、ユーザーに対する可聴音を生成し得る。かかる音は、音声電話からの音を含み得、録音された音(例えば、音声メッセージ、音楽ファイルなど)を含み得、モバイルコンピューティング装置1050上で動作しているアプリケーションによって生成された音も含み得る。
モバイルコンピューティング装置1050は、図に示すように、いくつかの異なる形式で実装され得る。例えば、それは、携帯電話1080として実装され得る。それは、スマートフォン1082、携帯情報端末、または他の類似のモバイル機器の一部としても実装され得る。
本明細書で説明するシステムおよび技術の様々な実施態様は、デジタル電子回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現できる。これらの様々な実施態様は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムでの実施態様を含み得、それは、データおよび命令を、記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置から受信し、かつデータおよび命令を記憶システム、少なくとも1つの入力装置、および少なくとも1つの出力装置に送信するために結合された、専用または汎用であり得る。
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている)は、プログラマブルプロセッサに対する機械命令を含み、高水準手続き型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ言語/機械語で、実装できる。本明細書では、機械可読媒体およびコンピュータ可読媒体という用語は、機械命令および/またはデータを、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、機器および/または装置(例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理装置(PLD))を指す。機械可読信号という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
ユーザーとのやり取りを提供するために、本明細書で説明するシステムおよび技術は、ユーザーに対して情報を表示するためのディスプレイ装置(例えば、CRT(ブラウン管)またはLCD(液晶ディスプレイ)モニター)ならびにユーザーがそれによって入力をコンピュータに提供できるキーボードおよびポインティングディバイス(例えば、マウスまたはトラックボール)を有するコンピュータ上で実装できる。ユーザーとのやり取りのために他の種類の装置も使用でき、例えば、ユーザーに提供されたフィードバックは任意の形式の感覚フィードバック(例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック)であり得、ユーザーからの入力は、音響、音声、または触覚入力を含む、任意の形式で受信できる。
本明細書で説明するシステムおよび技術は、バックエンド構成要素(例えば、データサーバーとして)を含むか、もしくはミドルウェア構成要素(例えば、アプリケーションサーバー)を含むか、もしくはフロントエンド構成要素(例えば、ユーザーがそれを通して、本明細書で説明するシステムおよび技術の実施態様とやり取りできるグラフィカルユーザーインタフェースまたはウェブブラウザを有するクライアントコンピュータ)を含むか、またはかかるバックエンド、ミドルウェア、もしくはフロントエンド構成要素の任意の組合せを含むコンピューティングシステムで実装できる。システムの構成要素は、デジタルデータ通信(例えば、通信ネットワーク)の任意の形式または媒体によって相互接続できる。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、およびインターネットを含む。
コンピューティングシステムはクライアントおよびサーバーを含むことができる。クライアントおよびサーバーは一般に、相互に遠く離れており、典型的には通信ネットワークを通してやり取りする。クライアントおよびサーバーの関係は、それぞれのコンピュータ上で実行していて、相互にクライアント−サーバー関係を有するコンピュータプログラムのおかげで生じる。
本発明のある実施形態が上で説明された。しかし、本発明はそれらの実施形態に限定されず、むしろ、意図は、本明細書で明示的に説明されたものに対する追加および修正も本発明の範囲に含まれるということに特に留意されたい。さらに、本明細書で説明する様々な実施形態の特徴は相互に排他的ではなく、たとえ様々な組合せおよび置換が本明細書で明示的に行われていなくても、本発明の精神および範囲から逸脱することなく、かかる組合せおよび置換で存在できることが理解される。実際に、本明細書で説明したものの変形、修正、および他の実施態様は、本発明の精神および範囲から逸脱することなく、当業者が思い付くであろう。そのため、本発明は、前述の例示的な説明によってのみ定義されることはない。
化学情報を含む文書の索引付けおよび検索のための方法およびシステムのある実施態様を説明してきたが、ここで、本開示の概念を包含している他の実施態様が使用され得ることが当業者には明らかになるであろう。従って、本開示は、ある実施態様に限定されるべきではなく、以下のクレームの精神および範囲によってのみ限定されるべきである。

Claims (92)

  1. 化学情報を含む文書のセットを検索するための方法であって、
    (a)コンピューティング装置のプロセッサによって、ユーザー入力された化学構造データおよびテキストデータを含むユーザークエリーを受信するステップであって、
    前記テキストデータおよび前記ユーザー入力された化学構造データは少なくとも1つの化学構造に対応する、ステップと、
    (b)前記プロセッサによって、ビットスクリーニングデータおよび関係データを前記ユーザー入力された化学構造データから識別または抽出するステップであって、前記ビットスクリーニングデータは前記少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、かつ前記関係データは複数の前記1つまたは複数の構成元素間の1つまたは複数の関係に対応する、ステップと、
    (c)前記プロセッサによって、前記ユーザークエリーを、前記ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成することにより補強するステップであって、前記補強されたユーザークエリーは前記1つまたは複数の文字列タグを含むようになり、
    前記1つまたは複数の文字列タグは前記少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含む、ステップと、
    (d)テキストベース検索方法を使用して、前記プロセッサによって、文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うステップであって、問い合わせを行うステップは、前記補強されたユーザークエリーの少なくとも一部を前記文書データと相関させて、1つまたは複数のテキストベース検索結果を生成する、ステップを含むことと、
    (e)任意選択として、前記プロセッサにより、前記1つまたは複数のテキストベース検索結果を出力するステップと
    を含む、方法。
  2. 前記プロセッサによって、前記ビットスクリーニングデータおよび前記関係データを1つまたは複数の文字列に変換する
    ステップをさらに含む、請求項1に記載の方法。
  3. (f)構造ベース検索方法を使用して、前記問い合わせを行うステップの後に、前記プロセッサにより、前記ユーザー入力された化学構造データの少なくとも一部を前記1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって前記1つまたは複数のテキストベース検索結果を検索するステップと、1つまたは複数の精緻化された検索結果を生成するステップであって、前記1つまたは複数のテキストベース検索結果は前記関連のある化学構造データを含むフィルタ処理された文書データに対応する、ステップと、
    (g)前記プロセッサによって、前記1つまたは複数の精緻化された検索結果を出力するステップと
    をさらに含む、請求項1または請求項2に記載の方法。
  4. 前記構造ベース検索方法は、文字列データを入力として使用する、請求項3に記載の方法。
  5. 前記1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む、先行する請求項のいずれか1項に記載の方法。
  6. 前記構造ベース検索は原子ごとの検索を含む、請求項3〜請求項5のいずれか1項に記載の方法。
  7. 前記問い合わせを行うステップ(d)は、前記プロセッサにより、関連性検索を使用して、前記1つまたは複数のテキストベース検索結果を生成することを含む、先行する請求項のいずれか1項に記載の方法。
  8. 前記関連性検索はヒットスコアリング検索である、請求項7に記載の方法。
  9. ステップ(f)は、
    前記プロセッサによって、前記1つまたは複数のテキストベース検索結果の前記関連のある化学構造データを最小スパニング木にまとめるステップと、
    前記プロセッサによって、前記最小スパニング木を持続性コンピュータ可読媒体上に格納するステップと、
    前記プロセッサによって、前記最小スパニング木を検索する、ステップと
    を含む、請求項3〜請求項8のいずれか1項に記載の方法。
  10. 前記ユーザー入力された化学構造データは、前記少なくとも1つの化学構造の部分構造または完全な構造に対応する、先行する請求項のいずれか1項に記載の方法。
  11. 文書の前記セットに対応する前記文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている、先行する請求項のいずれか1項に記載の方法。
  12. 前記問い合わせを行うステップは、前記補強されたユーザークエリーの前記少なくとも一部を前記1つまたは複数の索引付け文字列タグの少なくとも1つと相関させることを含む、請求項11に記載の方法。
  13. 化学情報を含む文書のセットを検索するための方法であって、
    (a)コンピューティング装置のプロセッサによって、ユーザー入力された化学構造データを含むユーザークエリーを受信するステップと、
    前記ユーザー入力された化学構造データは少なくとも1つの化学構造に対応することと、
    (b)前記プロセッサによって、ビットスクリーニングデータおよび関係データを前記ユーザー入力された化学構造データから識別または抽出するステップであって、前記ビットスクリーニングデータは前記少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、かつ前記関係データは複数の前記1つまたは複数の構成元素間の1つまたは複数の関係に対応するステップと、
    (c)前記プロセッサによって、前記ユーザークエリーを、前記ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成し、任意選択として、前記関係データの少なくとも一部に基づいて1つまたは複数の符号化文字列を生成することにより補強するステップであって、前記補強されたユーザークエリーが前記1つまたは複数の文字列タグを含むようになり、
    前記1つまたは複数の文字列タグは前記少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含む、ステップと、
    (d)テキストベース検索方法を使用して、前記プロセッサによって、文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うステップであって、問い合わせを行うステップは、前記補強されたユーザークエリーの少なくとも一部を前記文書データと相関させて、1つまたは複数のテキストベース検索結果を生成するステップを含むことと、
    (e)任意選択として、前記プロセッサにより、前記1つまたは複数のテキストベース検索結果を出力する、ステップと
    を含む、方法。
  14. 前記プロセッサによって、前記ビットスクリーニングデータおよび前記関係データを1つまたは複数の文字列に変換する
    ステップをさらに含む、請求項13に記載の方法。
  15. (f)構造ベース検索方法を使用して、前記問い合わせを行うステップの後に、前記プロセッサにより、前記ユーザー入力された化学構造データの少なくとも一部を前記1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって前記1つまたは複数のテキストベース検索結果を検索して、1つまたは複数の精緻化された検索結果を生成するステップであって、前記1つまたは複数のテキストベース検索結果は前記関連のある化学構造データを含むフィルタ処理された文書データに対応するステップと、
    (g)前記プロセッサによって、前記1つまたは複数の精緻化された検索結果を出力する、ステップと
    をさらに含む、請求項13または請求項14に記載の方法。
  16. 前記構造ベース検索方法は、文字列データを入力として使用する、請求項15に記載の方法。
  17. 前記1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む、請求項13〜請求項16のいずれか1項に記載の方法。
  18. 前記構造ベース検索は原子ごとの検索を含む、請求項15〜請求項17のいずれか1項に記載の方法。
  19. 前記問い合わせを行うステップ(d)は、前記プロセッサにより、関連性検索を使用して、前記1つまたは複数のテキストベース検索結果を生成することを含む、請求項13〜請求項18のいずれか1項に記載の方法。
  20. 前記関連性検索はヒットスコアリング検索である、請求項19に記載の方法。
  21. ステップ(f)は、
    前記プロセッサによって、前記1つまたは複数のテキストベース検索結果の前記関連のある化学構造データを最小スパニング木にまとめることと、
    前記プロセッサによって、前記最小スパニング木を持続性コンピュータ可読媒体上に格納することと、
    前記プロセッサによって、前記最小スパニング木を検索することと
    を含む、請求項15〜請求項20のいずれか1項に記載の方法。
  22. 前記ユーザー入力された化学構造データは、前記少なくとも1つの化学構造の部分構造または完全な構造に対応する、請求項13〜請求項21のいずれか1項に記載の方法。
  23. 文書の前記セットに対応する前記文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている、請求項13〜請求項22のいずれか1項に記載の方法。
  24. 前記問い合わせを行うステップは、前記補強されたユーザークエリーの前記少なくとも一部を前記1つまたは複数の索引付け文字列タグの少なくとも1つと相関させることを含む、請求項23に記載の方法。
  25. 化学情報を含む索引付けされた文書のセットのテキストベース検索のための方法であって、
    (a)コンピューティング装置のプロセッサによって、テキストデータを含むユーザークエリーを受信するステップであって、前記テキストデータは少なくとも1つの化学構造を記述する英数字文字のシーケンスを含むステップと、
    (b)テキストベース検索方法を使用して、前記プロセッサによって、索引付けされた文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うステップであって、前記文書データは1つまたは複数の索引文字列タグを含むように補強されており、問い合わせを行うことは、前記ユーザークエリーの前記テキストデータの少なくとも一部を前記1つまたは複数の索引文字列タグと相関させて1つまたは複数のテキストベース検索結果を生成するステップを含み、
    前記1つまたは複数の索引文字列タグは、前記少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むステップと、
    (c)前記プロセッサにより、前記1つまたは複数のテキストベース検索結果を出力する、ステップと
    を含む、方法。
  26. 前記1つまたは複数の索引文字列タグは、自然言語テキストを含む、請求項25に記載の方法。
  27. 前記問い合わせを行うステップは、前記プロセッサにより、関連性検索を使用して、前記1つまたは複数のテキストベース検索結果を生成するステップを含む、請求項25または請求項26に記載の方法。
  28. 前記関連性検索はヒットスコアリング検索である、請求項26または請求項27に記載の方法。
  29. 化学構造検索を容易にするために文書を索引付けするための方法であって、
    コンピューティング装置のプロセッサによって、前記文書に対応する文書データを受信するステップであって、前記文書データは化学構造に対応する化学構造データを含むステップと、
    前記プロセッサによって、前記化学構造データ内のビットスクリーニングデータおよび関係データを識別または抽出するステップであって、
    前記ビットスクリーニングデータは前記化学構造の1つまたは複数の構成元素に対応し、かつ
    前記関係データは前記1つまたは複数の構成元素間の関係に対応するステップと、
    前記プロセッサによって、前記識別されたビットスクリーニングデータの少なくとも一部に基づいて文字列タグを生成するステップであって、前記文字列タグは、前記化学構造データに対応する前記化学構造を記述するための英数字値を含むステップと、
    任意選択として、前記プロセッサにより、前記関係データの少なくとも一部に基づいて符号化文字列を生成するステップと、
    前記プロセッサによって、前記文字列タグを前記化学構造データまたは前記文書データと関連付けるステップと、
    前記プロセッサにより、前記文字列タグを出力する、ステップと
    を含む、方法。
  30. 前記プロセッサによって、前記ビットスクリーニングデータおよび前記関係データを1つまたは複数の文字列に変換する
    ステップを含む、請求項29に記載の方法。
  31. 前記文字列タグは、自然言語テキストを含む、請求項29または請求項30に記載の方法。
  32. 前記プロセッサによって、前記文書データを補強するステップを含み、前記補強された文書データは前記文字列タグを含む、請求項29〜請求項31のいずれか1項に記載の方法。
  33. 前記プロセッサによって、前記文字列タグを第2の持続性コンピュータ可読媒体上に格納するステップを含む、請求項29〜請求項32のいずれか1項に記載の方法。
  34. 前記文字列タグを索引付けすることを含む、請求項29〜請求項33のいずれか1項に記載の方法。
  35. 前記文書データはメタデータを含む、請求項29〜請求項34のいずれか1項に記載の方法。
  36. 前記メタデータは一意のIDおよびバケットIDを含む、請求項35に記載の方法。
  37. 前記プロセッサによって、前記メタデータを持続する
    ステップを含む、請求項35または請求項36に記載の方法。
  38. 前記関係データを1つまたは複数の符号化文字列に変換することを含む、請求項29〜請求項37のいずれか1項に記載の方法。
  39. 前記関係データは格納されるが、索引付けはされない、請求項29〜請求項38のいずれか1項に記載の方法。
  40. 化学情報を含む索引付けされた文書のセットを、連続的な検索を使用して検索するための方法であって、
    (a)コンピューティング装置のプロセッサによって、ユーザー入力された化学構造データおよびテキストデータを含むユーザークエリーを受信するステップと、
    (b)テキストベース検索方法を使用して、前記プロセッサによって、索引付けされた文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うステップであって、問い合わせを行うステップは、前記ユーザー入力された化学構造データの少なくとも一部を前記文書データと、および前記ユーザークエリーの前記テキストデータの少なくとも一部を前記文書データと相関させてフィルタ処理された文書データを生成することを含むステップと、
    (c)構造ベース検索方法を使用して、前記問い合わせを行うステップの後に、前記プロセッサにより、前記フィルタ処理された文書データを検索するステップであって、検索するステップは、ユーザー入力された化学構造データの少なくとも一部を前記フィルタ処理された文書データ内の関連のあるフィルタ処理された化学構造データと相関させて1つまたは複数の検索結果を生成するステップを含むことと、
    (d)前記プロセッサによって、前記1つまたは複数の検索結果を出力する
    ステップと
    を含む、方法。
  41. 前記プロセッサによって、前記化学構造データを1つまたは複数の文字列に変換する
    ステップを含む、請求項40に記載の方法。
  42. 前記構造ベース検索方法は、文字列データを入力として使用する、請求項41に記載の方法。
  43. ステップ(b)の前に、前記プロセッサによって、前記ユーザークエリーを、1つまたは複数の文字列タグを生成することにより補強するステップと、前記補強されたユーザークエリーが前記1つまたは複数の文字列タグを含むようになるステップを含み、前記1つまたは複数のクエリー文字列タグは化学構造を記述する、
    請求項40〜請求項42のいずれか1項に記載の方法。
  44. ステップ(b)は、前記1つまたは複数の文字列タグの少なくとも1つを前記文書データと相関させることを含む、請求項43に記載の方法。
  45. 前記文書データは1つまたは複数の索引文字列タグを含む、請求項40〜請求項44のいずれか1項に記載の方法。
  46. ステップ(b)は、前記テキストデータの少なくとも一部を前記1つまたは複数の索引文字列タグと相関させることを含む、請求項45に記載の方法。
  47. 化学情報を含む文書のセットを検索するためのシステムであって、前記システムは、
    プロセッサと、
    命令をその上に格納している持続性コンピュータ可読媒体であって、前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    (a)前記プロセッサによって、ユーザー入力された化学構造データおよびテキストデータを含むユーザークエリーを受信することであって、
    前記テキストデータおよび前記ユーザー入力された化学構造データは少なくとも1つの化学構造に対応することと、
    (b)前記プロセッサによって、ビットスクリーニングデータおよび関係データを前記ユーザー入力された化学構造データから識別することであって、前記ビットスクリーニングデータは前記少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、かつ前記関係データは複数の前記1つまたは複数の構成元素間の1つまたは複数の関係に対応することと、
    (c)前記プロセッサによって、前記ユーザークエリーを、前記ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成することにより補強し、そのため前記補強されたユーザークエリーは前記1つまたは複数の文字列タグを含むようになることであって、
    前記1つまたは複数の文字列タグは前記少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むことと、
    (d)テキストベース検索方法を使用して、前記プロセッサによって、文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、前記補強されたユーザークエリーの少なくとも一部を前記文書データと相関させて、1つまたは複数のテキストベース検索結果を生成することを含むことと、
    (e)任意選択として、前記プロセッサにより、前記1つまたは複数のテキストベース検索結果を出力することと
    を行わせる、持続性コンピュータ可読媒体と
    を備える、システム。
  48. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記ビットスクリーニングデータおよび前記関係データを1つまたは複数の文字列に変換させる、請求項47に記載のシステム。
  49. 前記命令は、前記プロセッサによって実行される場合に、さらに前記プロセッサに、
    (f)構造ベース検索方法を使用して、前記問い合わせを行うステップの後に、前記プロセッサにより、前記ユーザー入力された化学構造データの少なくとも一部を前記1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって前記1つまたは複数のテキストベース検索結果を検索して、1つまたは複数の精緻化された検索結果を生成することであって、前記1つまたは複数のテキストベース検索結果は前記関連のある化学構造データを含むフィルタ処理された文書データに対応することと、
    (g)前記プロセッサによって、前記1つまたは複数の精緻化された検索結果を出力することと
    を行わせる、請求項47または請求項48に記載のシステム。
  50. 前記構造ベース検索方法は、文字列データを入力として使用する、請求項49に記載のシステム。
  51. 前記1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む、請求項47〜請求項50のいずれか1項に記載のシステム。
  52. 前記構造ベース検索は原子ごとの検索を含む、請求項49〜請求項51のいずれか1項に記載のシステム。
  53. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記プロセッサにより、関連性検索を使用して、前記1つまたは複数のテキストベース検索結果を生成させる、請求項47〜請求項52のいずれか1項に記載のシステム。
  54. 前記関連性検索はヒットスコアリング検索である、請求項53に記載のシステム。
  55. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記1つまたは複数のテキストベース検索結果の前記関連のある化学構造データを最小スパニング木にまとめることと、
    前記プロセッサによって、前記最小スパニング木を持続性コンピュータ可読媒体上に格納することと、
    前記プロセッサによって、前記最小スパニング木を検索することと
    を行わせる、請求項49〜請求項54のいずれか1項に記載のシステム。
  56. 前記ユーザー入力された化学構造データは、前記少なくとも1つの化学構造の部分構造または完全な構造に対応する、請求項47〜請求項55のいずれか1項に記載のシステム。
  57. 文書の前記セットに対応する前記文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている、請求項47〜請求項56のいずれか1項に記載のシステム。
  58. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記プロセッサによって、前記補強されたユーザークエリーの前記少なくとも一部を前記1つまたは複数の索引付け文字列タグの少なくとも1つと相関させる、請求項57に記載のシステム。
  59. 化学情報を含む文書のセットを検索するためのシステムであって、前記システムは、
    プロセッサと、
    命令をその上に格納している持続性コンピュータ可読媒体であって、前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    (a)前記プロセッサによって、ユーザー入力された化学構造データを含むユーザークエリーを受信するステップであって、
    前記ユーザー入力された化学構造データは少なくとも1つの化学構造に対応することと、
    (b)前記プロセッサによって、ビットスクリーニングデータおよび関係データを前記ユーザー入力された化学構造データから識別または抽出することであって、前記ビットスクリーニングデータは前記少なくとも1つの化学構造の1つまたは複数の構成元素に対応し、前記関係データは複数の前記1つまたは複数の構成元素間の1つまたは複数の関係に対応するステップと、
    (c)前記プロセッサによって、前記ユーザークエリーを、前記ビットスクリーニングデータの少なくとも一部に基づいて1つまたは複数の文字列タグを生成し、任意選択として、前記関係データの少なくとも一部に基づいて1つまたは複数の符号化文字列を生成することにより補強するステップであって、前記補強されたユーザークエリーが前記1つまたは複数の文字列タグを含むようになるステップであって、
    前記1つまたは複数の文字列タグは前記少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むステップと、
    (d)テキストベース検索方法を使用して、前記プロセッサによって、文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、前記補強されたユーザークエリーの少なくとも一部を前記文書データと相関させて、1つまたは複数のテキストベース検索結果を生成することを含むステップと、
    (e)任意選択として、前記プロセッサにより、前記1つまたは複数のテキストベース検索結果を出力する、ステップと
    を行わせる、持続性コンピュータ可読媒体と
    を備える、システム。
  60. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記ビットスクリーニングデータおよび前記関係データを1つまたは複数の文字列に変換させる、請求項59に記載のシステム。
  61. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    (f)構造ベース検索方法を使用して、前記問い合わせを行うステップの後に、前記プロセッサにより、前記ユーザー入力された化学構造データの少なくとも一部を前記1つまたは複数のテキストベース検索結果の関連のある化学構造データと相関させることによって前記1つまたは複数のテキストベース検索結果を検索して、1つまたは複数の精緻化された検索結果を生成することであって、前記1つまたは複数のテキストベース検索結果は前記関連のある化学構造データを含むフィルタ処理された文書データに対応することと、
    (g)前記プロセッサによって、前記1つまたは複数の精緻化された検索結果を出力することと
    を行わせる、請求項59または請求項60に記載のシステム。
  62. 前記構造ベース検索方法は、文字列データを入力として使用する、請求項61に記載のシステム。
  63. 前記1つまたは複数の文字列タグの少なくとも1つは、自然言語テキストを含む、請求項59〜請求項62のいずれか1項に記載のシステム。
  64. 前記構造ベース検索は原子ごとの検索を含む、請求項61〜請求項63のいずれか1項に記載のシステム。
  65. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記プロセッサにより、関連性検索を使用して、前記1つまたは複数のテキストベース検索結果を生成させる、請求項59〜請求項64のいずれか1項に記載のシステム。
  66. 前記関連性検索はヒットスコアリング検索である、請求項65に記載のシステム。
  67. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記1つまたは複数のテキストベース検索結果の前記関連のある化学構造データを最小スパニング木にまとめることと、
    前記プロセッサによって、前記最小スパニング木を持続性コンピュータ可読媒体上に格納することと、
    前記プロセッサによって、前記最小スパニング木を検索することと
    を行わせる、請求項61〜請求項66のいずれか1項に記載のシステム。
  68. 前記ユーザー入力された化学構造データは、前記少なくとも1つの化学構造の部分構造または完全な構造に対応する、請求項59〜請求項67のいずれか1項に記載のシステム。
  69. 文書の前記セットに対応する前記文書データは、1つまたは複数の索引付け文字列タグを含むように補強されている、請求項59〜請求項68のいずれか1項に記載のシステム。
  70. 前記問い合わせを行うステップは、前記プロセッサによって、前記補強されたユーザークエリーの前記少なくとも一部を前記1つまたは複数の索引付け文字列タグの少なくとも1つと相関させる命令を含む、請求項69に記載のシステム。
  71. 化学情報を含む索引付けされた文書のセットのテキストベース検索のためのシステムであって、前記システムは、
    プロセッサと、
    命令をその上に格納している持続性コンピュータ可読媒体であって、前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    (a)前記プロセッサによって、テキストデータを含むユーザークエリーを受信することであって、前記テキストデータは少なくとも1つの化学構造を記述する英数字文字のシーケンスを含むことと、
    (b)テキストベース検索方法を使用して、前記プロセッサによって、索引付けされた文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うことであって、前記文書データは1つまたは複数の索引文字列タグを含むように補強されており、問い合わせを行うことは、前記ユーザークエリーの前記テキストデータの少なくとも一部を前記1つまたは複数の索引文字列タグと相関させて1つまたは複数のテキストベース検索結果を生成することを含み、
    前記1つまたは複数の索引文字列タグは、前記少なくとも1つの化学構造を記述するための英数字文字のシーケンスを含むことと、
    (c)前記プロセッサにより、前記1つまたは複数のテキストベース検索結果を出力することと
    を行わせる、持続性コンピュータ可読媒体と
    を備える、システム。
  72. 前記1つまたは複数の索引文字列タグは、自然言語テキストを含む、請求項71に記載のシステム。
  73. 前記問い合わせを行うステップは、前記プロセッサにより、関連性検索を使用して、前記1つまたは複数のテキストベース検索結果を生成する命令を含む、請求項71または請求項72に記載のシステム。
  74. 前記関連性検索はヒットスコアリング検索である、請求項72または請求項73に記載のシステム。
  75. 化学構造検索を容易にするために文書を索引付けするためのシステムであって、前記システムは、
    プロセッサと、
    命令をその上に格納している持続性コンピュータ可読媒体であって、前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    コンピューティング装置のプロセッサによって、前記文書に対応する文書データを受信することであって、前記文書データは化学構造に対応する化学構造データを含むことと、
    前記プロセッサによって、前記化学構造データ内のビットスクリーニングデータおよび関係データを識別または抽出することであって、
    前記ビットスクリーニングデータは前記化学構造の1つまたは複数の構成元素に対応し、かつ
    前記関係データは前記1つまたは複数の構成元素間の関係に対応することと、
    前記プロセッサによって、前記識別されたビットスクリーニングデータの少なくとも一部に基づいて文字列タグを生成することであって、前記文字列タグは、前記化学構造データに対応する前記化学構造を記述するための英数字値を含むことと、
    前記プロセッサによって、前記文字列タグを前記化学構造データまたは前記文書データと関連付けることと、
    前記プロセッサにより、前記文字列タグを出力することと
    を行わせる、持続性コンピュータ可読媒体と
    を備える、システム。
  76. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記ビットスクリーニングデータおよび前記関係データを1つまたは複数の文字列に変換させる、
    請求項75に記載のシステム。
  77. 前記文字列タグは、自然言語テキストを含む、請求項75または請求項76に記載のシステム。
  78. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記文書データを補強させ、前記補強された文書データは前記文字列タグを含む、
    請求項75〜請求項77のいずれか1項に記載のシステム。
  79. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記文字列タグを第2の持続性コンピュータ可読媒体上に格納させる、
    請求項75〜請求項78のいずれか1項に記載のシステム。
  80. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記文字列タグを索引付けさせる、請求項75〜請求項79のいずれか1項に記載のシステム。
  81. 前記文書データはメタデータを含む、請求項75〜請求項80のいずれか1項に記載のシステム。
  82. 前記メタデータは一意のIDおよびバケットIDを含む、請求項81に記載のシステム。
  83. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記メタデータを持続させる、
    請求項81または請求項82に記載のシステム。
  84. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記関係データを1つまたは複数の符号化文字列に変換させる、請求項75〜請求項83のいずれか1項に記載のシステム。
  85. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記関係データを格納させるが、索引付けはさせない、請求項75〜請求項84のいずれか1項に記載のシステム。
  86. 化学情報を含む索引付けされた文書のセットを、連続的な検索を使用して検索するためのシステムであって、前記システムは、
    プロセッサと、
    命令をその上に格納している持続性コンピュータ可読媒体であって、前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    (a)前記プロセッサによって、ユーザー入力された化学構造データおよびテキストデータを含むユーザークエリーを受信することと、
    (b)テキストベース検索方法を使用して、前記プロセッサによって、索引付けされた文書の前記セットに対応する文書データを含むデータベースに問い合わせを行うことであって、問い合わせを行うことは、前記ユーザー入力された化学構造データの少なくとも一部を前記文書データと、および前記ユーザークエリーの前記テキストデータの少なくとも一部を前記文書データと相関させてフィルタ処理された文書データを生成することを含むことと、
    (c)構造ベース検索方法を使用して、前記問い合わせを行うステップの後に、前記プロセッサにより、前記フィルタ処理された文書データを検索することであって、検索することは、ユーザー入力された化学構造データの少なくとも一部を前記フィルタ処理された文書データ内の関連のあるフィルタ処理された化学構造データと相関させて1つまたは複数の検索結果を生成することを含むことと、
    (d)前記プロセッサによって、前記1つまたは複数の検索結果を出力する、スことと
    を行わせる、持続性コンピュータ可読媒体と
    を備える、システム。
  87. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    前記プロセッサによって、前記化学構造データを1つまたは複数の文字列に変換させる、請求項86に記載のシステム。
  88. 前記構造ベース検索方法は、文字列データを入力として使用する、請求項87に記載のシステム。
  89. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、
    ステップ(b)の前に、前記プロセッサによって、前記ユーザークエリーを、1つまたは複数の文字列タグを生成することにより補強させ、そのため前記補強されたユーザークエリーが前記1つまたは複数の文字列タグを含むようになり、前記1つまたは複数のクエリー文字列タグは化学構造を記述する、
    請求項86〜請求項88のいずれか1項に記載のシステム。
  90. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記プロセッサによって、前記1つまたは複数の文字列タグの少なくとも1つを前記文書データと相関させる、請求項89に記載のシステム。
  91. 前記文書データは1つまたは複数の索引文字列タグを含む、請求項86〜請求項90のいずれか1項に記載のシステム。
  92. 前記命令は、前記プロセッサによって実行される場合に、前記プロセッサに、前記プロセッサによって、前記テキストデータの少なくとも一部を前記1つまたは複数の索引文字列タグと相関させる、請求項91に記載のシステム。
JP2019569655A 2017-03-03 2017-03-30 化学情報を含む文書の検索および索引付けのためのシステムおよび方法 Active JP6883120B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201762466764P 2017-03-03 2017-03-03
US62/466,764 2017-03-03
PCT/US2017/025126 WO2018160205A1 (en) 2017-03-03 2017-03-30 Systems and methods for searching and indexing documents comprising chemical information

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021047466A Division JP7170772B2 (ja) 2017-03-03 2021-03-22 化学情報を含む文書の検索および索引付けのためのシステムおよび方法

Publications (2)

Publication Number Publication Date
JP2020509519A true JP2020509519A (ja) 2020-03-26
JP6883120B2 JP6883120B2 (ja) 2021-06-09

Family

ID=58503780

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019569655A Active JP6883120B2 (ja) 2017-03-03 2017-03-30 化学情報を含む文書の検索および索引付けのためのシステムおよび方法
JP2021047466A Active JP7170772B2 (ja) 2017-03-03 2021-03-22 化学情報を含む文書の検索および索引付けのためのシステムおよび方法

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021047466A Active JP7170772B2 (ja) 2017-03-03 2021-03-22 化学情報を含む文書の検索および索引付けのためのシステムおよび方法

Country Status (5)

Country Link
US (2) US10572545B2 (ja)
EP (1) EP3590056A1 (ja)
JP (2) JP6883120B2 (ja)
CA (1) CA3055172C (ja)
WO (1) WO2018160205A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019173444A1 (en) * 2018-03-07 2019-09-12 Elsevier, Inc. Methods, systems, and storage media for automatically identifying relevant chemical compounds in patent documents
KR20210044003A (ko) 2019-10-14 2021-04-22 삼성전자주식회사 단어 임베딩 방법 및 장치와 단어 검색 방법
JP7363914B2 (ja) * 2019-10-31 2023-10-18 富士通株式会社 検索方法、検索プログラム及び検索装置
EP3937106A1 (en) 2020-07-08 2022-01-12 Tata Consultancy Services Limited System and method of extraction of information and graphical representation for design of formulated products
CN112133379A (zh) * 2020-09-18 2020-12-25 武汉智化科技有限公司 一种化学反应搜索方法、装置及系统、图形处理器
CN115796120B (zh) * 2023-02-08 2023-05-02 药融云数字科技(成都)有限公司 一种化学结构式绘制方法、键盘及终端

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215038A (ja) * 1993-01-13 1994-08-05 Techno Res Kk データベース検索装置
US20050203898A1 (en) * 2004-03-09 2005-09-15 International Business Machines Corporation System and method for the indexing of organic chemical structures mined from text documents
US20080140616A1 (en) * 2005-09-21 2008-06-12 Nicolas Encina Document processing

Family Cites Families (126)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4967372A (en) 1986-05-16 1990-10-30 The United States Of America As Represented By The Department Of Health And Human Services Automatic orientation and interactive addressing of display
US5008831A (en) 1989-01-12 1991-04-16 The United States Of America As Represented By The Department Of Health And Human Services Method for producing high quality chemical structure diagrams
US5249137A (en) 1990-03-23 1993-09-28 Xerox Corporation Computer-aided chemical illustration system
US5434971A (en) 1991-06-28 1995-07-18 Digital Equipment Corp. System for constructing a table data structure based on an associated configuration data structure and loading it with chemical sample physical data
US5386507A (en) 1991-07-18 1995-01-31 Teig; Steven L. Computer graphics system for selectively modelling molecules and investigating the chemical and physical properties thereof
US5461580A (en) 1993-04-30 1995-10-24 Xerox Corporation Computer-aided chemical illustration system
US5577239A (en) 1994-08-10 1996-11-19 Moore; Jeffrey Chemical structure storage, searching and retrieval system
US5463564A (en) 1994-09-16 1995-10-31 3-Dimensional Pharmaceuticals, Inc. System and method of automatically generating chemical compounds with desired properties
US6017390A (en) 1996-07-24 2000-01-25 The Regents Of The University Of California Growth of oriented crystals at polymerized membranes
US7663607B2 (en) 2004-05-06 2010-02-16 Apple Inc. Multipoint touchscreen
US9292111B2 (en) 1998-01-26 2016-03-22 Apple Inc. Gesturing with a multipoint sensing device
US8479122B2 (en) 2004-07-30 2013-07-02 Apple Inc. Gestures for touch sensitive input devices
US7840912B2 (en) 2006-01-30 2010-11-23 Apple Inc. Multi-touch gesture dictionary
EP1053255A4 (en) 1998-02-06 2003-01-02 Ilexus Pty Ltd THREE-DIMENSIONAL STRUCTURES AND MODELS OF Fc RECEPTORS, AND USES THEREOF
US7912689B1 (en) 1999-02-11 2011-03-22 Cambridgesoft Corporation Enhancing structure diagram generation through use of symmetry
US6582233B1 (en) 1999-05-14 2003-06-24 Accelrys Inc. Apparatus and method for monitoring the validity of a molecular model
AU6233800A (en) * 1999-07-23 2001-02-13 Merck & Co., Inc. Text influenced molecular indexing system and computer-implemented and/or computer-assisted method for same
CA2396740A1 (en) 2000-02-03 2001-08-09 Nanoscale Combinatorial Synthesis, Inc. Nonredundant split/pool synthesis of combinatorial libraries
US20020049548A1 (en) 2000-04-03 2002-04-25 Libraria, Inc. Chemistry resource database
US20040024493A1 (en) 2000-05-08 2004-02-05 Magnus Fagrell Method, system, and sub-system, for processing a chemical reaction
US6741986B2 (en) 2000-12-08 2004-05-25 Ingenuity Systems, Inc. Method and system for performing information extraction and quality control for a knowledgebase
US8086672B2 (en) 2000-06-17 2011-12-27 Microsoft Corporation When-free messaging
US20020161599A1 (en) 2000-09-05 2002-10-31 Faerman Carlos H. Electronic database of enzyme substrate and enzyme inhibitor structures
US7085773B2 (en) 2001-01-05 2006-08-01 Symyx Technologies, Inc. Laboratory database system and methods for combinatorial materials research
US7250950B2 (en) 2001-01-29 2007-07-31 Symyx Technologies, Inc. Systems, methods and computer program products for determining parameters for chemical synthesis
US7043415B1 (en) 2001-01-31 2006-05-09 Pharsight Corporation Interactive graphical environment for drug model generation
US7030861B1 (en) 2001-02-10 2006-04-18 Wayne Carl Westerman System and method for packing multi-touch gestures onto a hand
GB0106441D0 (en) 2001-03-15 2001-05-02 Bayer Ag Method for generating a hierarchical topological tree of 2D or 3D-structural formulas of chemical compounds for property optimization of chemical compounds
US20030023584A1 (en) * 2001-04-27 2003-01-30 Brandin Christopher Lockton Universal information base system
US8865347B2 (en) 2001-09-28 2014-10-21 Siluria Technologies, Inc. Digital alloys and methods for forming the same
US20050010603A1 (en) 2001-10-31 2005-01-13 Berks Andrew H. Display for Markush chemical structures
US20040171062A1 (en) 2002-02-28 2004-09-02 Plexxikon, Inc. Methods for the design of molecular scaffolds and ligands
US7650327B2 (en) 2002-03-01 2010-01-19 Marine Biological Laboratory Managing taxonomic information
IL163921A0 (en) 2002-03-22 2005-12-18 Morphochem Ag Komb Chemie A method for the identification and synthesis of chemical compounds
US7805437B1 (en) 2002-05-15 2010-09-28 Spotfire Ab Interactive SAR table
CA2486528C (en) 2002-05-20 2010-04-27 Tata Infotech Ltd. Document structure identifier
US20040006559A1 (en) * 2002-05-29 2004-01-08 Gange David M. System, apparatus, and method for user tunable and selectable searching of a database using a weigthted quantized feature vector
AU2003247452A1 (en) 2002-05-31 2004-07-14 University Of Utah Research Foundation System and method for visual annotation and knowledge representation
JP3685404B2 (ja) 2002-11-07 2005-08-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 分子情報提供システム、分子情報提供装置、分子情報提供方法、情報処理装置を分子情報提供装置として制御するための方法、該方法を情報処理装置に実行させるためのプログラム、該プログラムが記録された機械可読な記憶媒体および分子軌道計算のグリッド・コンピューティング支援装置
US20040122641A1 (en) 2002-12-20 2004-06-24 Lab2Plant, Inc. (An Indiana Corporation) System and method for chemical process scale-up and preliminary design and analysis
US20050102313A1 (en) 2003-04-08 2005-05-12 Newriver, Inc. System for locating data elements within originating data sources
US8832577B2 (en) 2010-10-01 2014-09-09 Z124 Universal clipboard
US20040249791A1 (en) 2003-06-03 2004-12-09 Waters Michael D. Method and system for developing and querying a sequence driven contextual knowledge base
ES2328924T3 (es) 2003-10-15 2009-11-19 Canon Kabushiki Kaisha Previsualizacion y revision selectiva de documentos o esquemas que contienen datos variables.
US7567987B2 (en) 2003-10-24 2009-07-28 Microsoft Corporation File sharing in P2P group shared spaces
WO2005050395A2 (en) 2003-11-18 2005-06-02 Gh Llc Content communication system and methods
US20050123993A1 (en) 2003-12-09 2005-06-09 Stephan Brunner Methods of determining ligand residue binding affinity
US20050131894A1 (en) 2003-12-11 2005-06-16 Vuong Chau M. System and method for providing identification and search information
WO2005086039A2 (de) * 2004-03-04 2005-09-15 Bayer Business Services Gmbh Verfahren zur bereitstellung mit strukturierter information bespielter, beliebiger speichermedien
US20070260583A1 (en) 2004-03-05 2007-11-08 Applied Research Systems Ars Holding N.V. Method for fast substructure searching in non-enumerated chemical libraries
US7176887B2 (en) 2004-03-23 2007-02-13 Fujitsu Limited Environmental modeling for motion controlled handheld devices
US7869647B2 (en) 2004-04-02 2011-01-11 Agilent Technologies, Inc. System and method for processing training data for a statistical application
EP1628234A1 (en) 2004-06-07 2006-02-22 Universita' Degli Studi di Milano-Bicocca Method of construction and selection of virtual libraries in combinatorial chemistry
US20070276636A1 (en) 2004-06-26 2007-11-29 Wythoff Barry J System for visualization and analysis of numerical and chemical information
US8838795B2 (en) 2004-12-03 2014-09-16 At&T Intellectual Property I, L.P. System, method, apparatus, and product for resource sharing
US20060241864A1 (en) 2005-04-22 2006-10-26 Outland Research, Llc Method and apparatus for point-and-send data transfer within an ubiquitous computing environment
WO2007011748A2 (en) 2005-07-14 2007-01-25 Molsoft, Llc Structured documents for displaying and interaction with three dimensional objects
US7613574B2 (en) 2005-10-28 2009-11-03 S-Matrix System and method for automating scientific and engineering experimentation for deriving surrogate response data
US7924270B2 (en) 2006-02-06 2011-04-12 Abacalab, Inc. Apparatus and method for mobile graphical cheminformatic
JP4956757B2 (ja) * 2006-03-15 2012-06-20 国立大学法人大阪大学 数式記述構造化言語オブジェクト検索システムおよび検索方法
US20090278806A1 (en) 2008-05-06 2009-11-12 Matias Gonzalo Duarte Extended touch-sensitive control area for electronic device
US8543337B2 (en) 2006-04-21 2013-09-24 The Mathworks, Inc. Block diagram explorer in a method and apparatus for integrated modeling, simulation and analysis of chemical and biological systems
JP4895689B2 (ja) 2006-05-30 2012-03-14 株式会社理論創薬研究所 大規模化学構造データベースから高速に化学構造を検索するシステム及び方法
JP2007331906A (ja) * 2006-06-16 2007-12-27 Murata Mach Ltd 天井走行車システム
US8140267B2 (en) 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US7916002B2 (en) 2006-06-30 2011-03-29 Nokia Corporation Haptic operative user interface input apparatus
JP4189416B2 (ja) * 2006-08-28 2008-12-03 株式会社東芝 構造化文書管理システム及びプログラム
US7692629B2 (en) 2006-12-07 2010-04-06 Microsoft Corporation Operating touch screen interfaces
US7924271B2 (en) 2007-01-05 2011-04-12 Apple Inc. Detecting gestures on multi-event sensitive devices
US20090171975A1 (en) 2007-03-06 2009-07-02 Mcconnell Robert S Method and system for tracking carbon credits and other carbon valuation units
US20080228774A1 (en) 2007-03-15 2008-09-18 Accenture Global Services Gmbh Collaboration system
US8468001B2 (en) 2007-03-22 2013-06-18 Infosys Limited Ligand identification and matching software tools
WO2008119037A1 (en) 2007-03-27 2008-10-02 Slc Consultants, Inc. Strategic business management system
US8681104B2 (en) 2007-06-13 2014-03-25 Apple Inc. Pinch-throw and translation gestures
GB2453318A (en) 2007-09-03 2009-04-08 Idan Zuta Method and system for authoring a patent application
US8201090B2 (en) 2007-11-13 2012-06-12 The Board Of Trustees Of The University Of Arkansas User interface for software applications
JP5376163B2 (ja) * 2007-11-15 2013-12-25 日本電気株式会社 文書管理・検索システムおよび文書の管理・検索方法
US8077157B2 (en) 2008-03-31 2011-12-13 Intel Corporation Device, system, and method of wireless transfer of files
US8526767B2 (en) 2008-05-01 2013-09-03 Atmel Corporation Gesture recognition
US8296670B2 (en) 2008-05-19 2012-10-23 Microsoft Corporation Accessing a menu utilizing a drag-operation
US20100060588A1 (en) 2008-09-09 2010-03-11 Microsoft Corporation Temporally separate touch input
US8427424B2 (en) 2008-09-30 2013-04-23 Microsoft Corporation Using physical objects in conjunction with an interactive surface
KR101544475B1 (ko) 2008-11-28 2015-08-13 엘지전자 주식회사 터치를 통한 입출력 제어
US8547342B2 (en) 2008-12-22 2013-10-01 Verizon Patent And Licensing Inc. Gesture-based delivery from mobile device
EP2224389A1 (en) 2009-02-27 2010-09-01 Research In Motion Limited System and method for improved address entry
US20100257457A1 (en) 2009-04-07 2010-10-07 De Goes John A Real-time content collaboration
US9047267B2 (en) * 2009-04-29 2015-06-02 Nokia Technologies Oy Method, apparatus, and computer program product for written mathematical expression analysis
US8499239B2 (en) 2009-08-28 2013-07-30 Microsoft Corporation Globe container
US8495084B2 (en) 2009-09-16 2013-07-23 International Business Machines Corporation Molecular level similarity search and computer aided drug discovery process
US8407578B2 (en) 2009-09-23 2013-03-26 International Business Machines Corporation Chemical web browser
US8312392B2 (en) 2009-10-02 2012-11-13 Qualcomm Incorporated User interface gestures and methods for providing file sharing functionality
US20120019488A1 (en) 2009-12-14 2012-01-26 Mccarthy John P Stylus for a touchscreen display
US20110163944A1 (en) 2010-01-05 2011-07-07 Apple Inc. Intuitive, gesture-based communications with physics metaphors
AU2011220382A1 (en) 2010-02-28 2012-10-18 Microsoft Corporation Local advertising content on an interactive head-mounted eyepiece
CA2798294C (en) 2010-05-03 2019-05-28 Cambridgesoft Corporation Method and apparatus for processing documents to identify chemical structures
US8538983B2 (en) 2010-09-21 2013-09-17 Cambridgesoft Corporation Systems, methods, and apparatus for facilitating chemical analyses
US20120154440A1 (en) 2010-11-11 2012-06-21 Openeye Scientific Software, Inc. Augmented 2d representation of molecular structures
US10303357B2 (en) 2010-11-19 2019-05-28 TIVO SOLUTIONS lNC. Flick to send or display content
KR102113439B1 (ko) 2010-12-31 2020-06-02 이베이 인크. 간단한 커맨드로 복수의 네트워크화된 디바이스에 콘텐츠를 디스플레이하기 위한 방법 및 시스템
US20120173622A1 (en) 2011-01-04 2012-07-05 Samsung Electronics Co., Ltd. Social screen casting
TW201235928A (en) 2011-02-22 2012-09-01 Acer Inc Handheld devices, electronic devices, and data transmission methods and computer program products thereof
US8468162B2 (en) * 2011-03-08 2013-06-18 The Regents Of The University Of California String matching in hardware using the FM-index
US20120246228A1 (en) 2011-03-21 2012-09-27 Microsoft Corporation Sharing channels
US20120284638A1 (en) 2011-05-06 2012-11-08 Kibits Corp. System and method for social interaction, sharing and collaboration
US20120311038A1 (en) 2011-06-06 2012-12-06 Trinh Trung Tim Proximity Session Mobility Extension
US8788947B2 (en) 2011-06-14 2014-07-22 LogMeln, Inc. Object transfer method using gesture-based computing device
US9754085B2 (en) 2011-08-17 2017-09-05 Integrated Chemistry Design, Inc. Systems and methods of editing a chemical structure on a touch-screen
US9285592B2 (en) 2011-08-18 2016-03-15 Google Inc. Wearable device with input and output structures
US9558403B2 (en) 2011-08-26 2017-01-31 Council Of Scientific And Industrial Research Chemical structure recognition tool
HUE053258T2 (hu) 2012-02-24 2021-06-28 Perkinelmer Informatics Inc Rendszer, eljárás és berendezés kémiai szerkezet rajzolásához érintés és gesztus alkalmazásával
US9977876B2 (en) 2012-02-24 2018-05-22 Perkinelmer Informatics, Inc. Systems, methods, and apparatus for drawing chemical structures using touch and gestures
EP2828779B1 (en) 2012-03-21 2019-05-08 Zymeworks Inc. Systems and methods for making two dimensional graphs of macromolecules
US9619587B2 (en) 2012-04-09 2017-04-11 Autodesk, Inc. Decomposition of 3D geometry into developable surface patches and 2D cut patterns
EP2850514A4 (en) 2012-05-18 2016-03-02 Univ Georgetown METHOD AND SYSTEMS FOR FACILITATING AND SEARCHING A DATABASE OF INFORMATION ON MEDICINAL PRODUCTS
CN102693322B (zh) * 2012-06-01 2014-10-22 杭州海康威视数字技术股份有限公司 支持多国语言的网页处理方法、网页加载方法及其系统
US9421716B2 (en) 2012-08-08 2016-08-23 Makerbot Industries, Llc Photo booth for three-dimensional images
US20140089328A1 (en) 2012-09-27 2014-03-27 International Business Machines Corporation Association of data to a biological sequence
US9535583B2 (en) 2012-12-13 2017-01-03 Perkinelmer Informatics, Inc. Draw-ahead feature for chemical structure drawing applications
US20140173476A1 (en) 2012-12-13 2014-06-19 Cambridgesoft Corporation Draw-ahead feature for biological sequence drawing applications
US8854361B1 (en) 2013-03-13 2014-10-07 Cambridgesoft Corporation Visually augmenting a graphical rendering of a chemical structure representation or biological sequence representation with multi-dimensional information
CA2895567C (en) 2013-03-13 2023-10-10 Perkinelmer Informatics, Inc. Systems and methods for gesture-based sharing of data between separate electronic devices
US9430127B2 (en) 2013-05-08 2016-08-30 Cambridgesoft Corporation Systems and methods for providing feedback cues for touch screen interface interaction with chemical and biological structure drawing applications
US9751294B2 (en) 2013-05-09 2017-09-05 Perkinelmer Informatics, Inc. Systems and methods for translating three dimensional graphic molecular models to computer aided design format
JP6215038B2 (ja) 2013-12-20 2017-10-18 キヤノンファインテックニスカ株式会社 接着剤塗布装置及びこれを備えるシート処理装置並びにこれを備える画像形成装置。
US9582864B2 (en) 2014-01-10 2017-02-28 Perkinelmer Cellular Technologies Germany Gmbh Method and system for image correction using a quasiperiodic grid
US11200217B2 (en) * 2016-05-26 2021-12-14 Perfect Search Corporation Structured document indexing and searching

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06215038A (ja) * 1993-01-13 1994-08-05 Techno Res Kk データベース検索装置
US20050203898A1 (en) * 2004-03-09 2005-09-15 International Business Machines Corporation System and method for the indexing of organic chemical structures mined from text documents
US20080140616A1 (en) * 2005-09-21 2008-06-12 Nicolas Encina Document processing

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
富川 弓子,外2名: ""日化辞Web一般公開開始!"", 情報管理, vol. 第48巻, 第4号, JPN6020049858, 1 July 2005 (2005-07-01), pages 220 - 225, ISSN: 0004413348 *

Also Published As

Publication number Publication date
US10572545B2 (en) 2020-02-25
US20180253426A1 (en) 2018-09-06
JP6883120B2 (ja) 2021-06-09
CA3055172C (en) 2022-03-01
WO2018160205A1 (en) 2018-09-07
JP7170772B2 (ja) 2022-11-14
CA3055172A1 (en) 2018-09-07
US11301518B2 (en) 2022-04-12
US20200151221A1 (en) 2020-05-14
JP2021093227A (ja) 2021-06-17
EP3590056A1 (en) 2020-01-08

Similar Documents

Publication Publication Date Title
JP7170772B2 (ja) 化学情報を含む文書の検索および索引付けのためのシステムおよび方法
US10521479B2 (en) Evaluating semantic interpretations of a search query
US10073840B2 (en) Unsupervised relation detection model training
US10909156B2 (en) Search and filtering of message content
US9619580B2 (en) Generation of synthetic context objects
US10474719B2 (en) Auto-completion of widely shared search queries
US10845950B2 (en) Web browser extension
US20170075985A1 (en) Query transformation for natural language queries
WO2016037520A1 (zh) 一种输入方法、装置和电子设备
CN108604233B (zh) 用于个性化即时查询建议的媒体消费场境
US20060179039A1 (en) Method and system for performing secondary search actions based on primary search result attributes
US11829433B2 (en) Contextual deep bookmarking
CN107832324B (zh) 提供场境事实
US10909146B2 (en) Providing automated hashtag suggestions to categorize communication
US20140310313A1 (en) Generation of synthetic objects using bounded context objects
US9230013B1 (en) Suffix searching on documents
CN110268431B (zh) 对消息内容的搜索和过滤
CN117235014A (zh) 基于自然语言搜索文件的方法、系统及计算设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191017

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210322

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210507

R150 Certificate of patent or registration of utility model

Ref document number: 6883120

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150