JP2003529123A - テキスト感応分子指標付けシステム及びコンピュータにより実施、及び/又は、コンピュータにより支援されるその方法 - Google Patents

テキスト感応分子指標付けシステム及びコンピュータにより実施、及び/又は、コンピュータにより支援されるその方法

Info

Publication number
JP2003529123A
JP2003529123A JP2001513053A JP2001513053A JP2003529123A JP 2003529123 A JP2003529123 A JP 2003529123A JP 2001513053 A JP2001513053 A JP 2001513053A JP 2001513053 A JP2001513053 A JP 2001513053A JP 2003529123 A JP2003529123 A JP 2003529123A
Authority
JP
Japan
Prior art keywords
matrix
descriptor
chemical
descriptors
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001513053A
Other languages
English (en)
Inventor
リチャード・ディー・ハル
ユージン・エム・フルーダー
スーレッシュ・ビー・シン
Original Assignee
マーク・アンド・カンパニー・インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by マーク・アンド・カンパニー・インコーポレイテッド filed Critical マーク・アンド・カンパニー・インコーポレイテッド
Publication of JP2003529123A publication Critical patent/JP2003529123A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/00686Automatic
    • B01J2219/00689Automatic using computers
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/00695Synthesis control routines, e.g. using computer programs
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B01PHYSICAL OR CHEMICAL PROCESSES OR APPARATUS IN GENERAL
    • B01JCHEMICAL OR PHYSICAL PROCESSES, e.g. CATALYSIS OR COLLOID CHEMISTRY; THEIR RELEVANT APPARATUS
    • B01J2219/00Chemical, physical or physico-chemical processes in general; Their relevant apparatus
    • B01J2219/00274Sequential or parallel reactions; Apparatus and devices for combinatorial chemistry or for making arrays; Chemical library technology
    • B01J2219/0068Means for controlling the apparatus of the process
    • B01J2219/007Simulation or vitual synthesis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/912Applications of a database
    • Y10S707/941Human sciences
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99944Object-oriented database structure
    • Y10S707/99945Object-oriented database structure processing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99948Application of database or data structure, e.g. distributed, multimedia, or image

Landscapes

  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 テキスト的および化学的記述子を用いて化学的類似度を計算するベクトル空間モデルの拡張について記述される。本方法は分子/化学薬品の化学的、及び/又は、テキスト的記述を使用し、かつ、元の記述子空間の低次元表現を作成するために例えば特異値分解などの適当な技法によって分子/化学薬品記述子マトリックスを分解する。次に、ユーザ照会とテキスト的、及び/又は、化学的記述子との間の類似性が計算およびランク付けされる。

Description

【発明の詳細な説明】
【0001】 (関連出願) 本出願は1999年7月23日付けで出願され、引用によりここに組み込み済
みの米国仮出願第60/145,210号に基づく優先権を主張する。本出願は
、ユージン・フルーダ(Eugene M.Ruder)等により発明され、マ
ーク社(The Merck & Co.,Inc.)に譲渡され、引用により
ここに組み込み済みの同時係属中の米国特許出願第09/ 号に係る「C
hemical Structure Similarity Ranking
System and Computer−Implemented Met
hod For Same」(化学構造類似性ランキングシステム及びコンピュ
ータにより実施されるそのための方法)(Attorney Doket No
.108949−101)発明と主題において関連する。
【0002】 発明の背景 (発明の属する分野) 本発明は概してコンピュータを基調とし、及び/又は、コンピュータによって
支援された、化学構造、化合物、及び/又は、分子の化学的、及び/又は、テキ
スト的類似性の計算に係り、より詳細には、例えば、提案されたユーザのプロー
ブ、及び/又は、先導化合物についての化学的、及び/又は、テキスト的記述を
対象とする化学構造、化合物、及び/又は、分子の類似性のランク付けに関する
【0003】 (背景の説明) 最近、製薬会社は化学構造、化合物、又は、分子の大規模収集を展開している
。この種の会社の1人または複数の従業員は、この種収集に含まれる特定の構造
体が興味深い化学活性、及び/又は、生物活性(例えば、新薬、又は、生体現象
の新規理解に導く可能性のある特質)を有することを発見することになるのが一
般的である。
【0004】 類似性探索は薬剤発見の標準ツールである。薬剤発見プロジェクトの初期段階
において費やされる労力の大部分は、専ら「先導」化合物(即ち、当該プロジェ
クトを最終薬剤へ導くことのできる化合物)の発見に費やされる。先導化合物は
、しばしば、生物学的興味の対象に対する活性が既知であるプローブ化合物に「
類似」する化合物に関する化学データベースをふるいわけするプロセスによって
識別される。最も商業的かつ私有的収集体のサイズは最近十年間に亙って劇的に
成長したので、化学データベースのふるいわけに計算を用いる方法は薬剤産業の
基礎になった。
【0005】 化学的類似性アルゴリズムは記述子(ディスクリプタ)と呼ばれる種々タイプ
の機能体に基づく化学構造の全表現体に亙って作動する。記述子には二次元表現
クラス及び三次元表現クラスが含まれる。当該技術分野における通常の知識を有
する者によって認められるように、二次元表現体には、例えば、標準原子対記述
子、標準位相ねじれ記述子、標準電荷対記述子、標準規格疎水性対記述子、原子
自体の特質を持つ標準固有記述子が含まれる。化学構造におけるあらゆる原子対
に関して説明するために原子対記述子を用いた場合には、記述子は原子のタイプ
、原子の化学的特質、及び、当該対のもう一方の原子からの距離に応じて確立ま
たは形成される。
【0006】 三次元表現体には、例えば、上述したように、関心対象とされる化学構造の幾
何構造を説明する標準記述子が含まれる。幾何学的記述子においては、例えば、
第1原子は第2原子から20ボンド離れているが、三次元的には第1原子が第2
原子から短い距離だけ離れているという事実が考慮され得る。位相的類似性探索
、殊に事前計算された記述子の比較リストに基づく位相的類似性探索は計算コス
トが非常に安価である。
【0007】 化学類似性のベクトル空間モデルは化学化合物の表現体を機能ベクトルとして
包含する。当該技術分野における通常の知識を有する者によって認識されるよう
に、典型的な機能には、例えば、総てが引用により組み込み済みの原子対(Ca
rhart、R.E.;Smith、D.H.;Venkataraghava
n、R.,「Atom Pairs as Molecular Featur
es in Structure−Activity Studies:Def
inition and Applications」[構造―活性研究におけ
る分子機能としての原子対]J.Chem.Inf. Comp.Sci.19
85,25:64−73参照)、及び/又は、Topological Tor
sions(位相的捩れ)(Nilakantan、R.;Bauman、N.
;Dixon、J.S;Venkataraghavan、R.,「Topol
ogical Torsions:A New Molecular Desc
riptor for SAR Applications」[トポロジ的捩れ
:SAR適用のための新規分子記述子]J.Chem.Inf.Comp.Sc
i.1987,27:82−85参照)などの基礎記述子が含まれる。
【0008】 このように、収集体における分子を表現し、これら分子間の類似性を計算する
ためには多くのやり方が工夫されている。ただし、類似した活性または特質を持
つが、構造が明らかに類似しているとはいえない化合物を選択することが目標で
ある場合には、しばしばこれらの探索がより係わってくるということがわかって
いる。すなわち、我々は、化学構造体、化合物、または、分子の大規模収集体か
ら、例えば、元のプローブ化合物とは似ていないように見えるかもしれないが、
類似の化学的または生物学的活性を呈する一組の多様な化学構造体を確認するこ
との必要性をすでに理解している。我々は、更に、例えば、当該技術分野におけ
る通常の知識を有する者にとってデザイン的に既知であるDice型、及び/又
は、Tanimoto型係数を使用するアルゴリズムはプローブ化合物に最も類
似した化合物を生成するが、この種のアルゴリズムは、当該プローブ化合物に関
する多様性によって特徴付けられる化合物または化学構造の提供には失敗するこ
とがあり得ることも認識済みである。
【0009】 化学的な例について説明すれば、特定の化合物がHIV(ヒト免疫不完全ウイ
ルス)インヒビタ(阻害剤)であることが判明した場合には、化学化合物または
合成体のデータベースを探索し、元のHIVインヒビタと同じか又はこれに類似
した薬剤的効果を持つが、元のHIVインヒビタプローブとは構造的に似ていな
いHIVインヒビタを発見することが望ましいことを認識している。1つ又は複
数の非類似HIVインヒビタを迅速かつ効果的に見つけることができる能力を持
てば数十億のドルの収入を得ることが潜在的に可能である。
【0010】 更に、我々は、プローブを使用すること、及び、化学的記述に加えてテキスト的
記述を含むデータベースを提供することによって、テキスト的或いは化学的いず
れかの記述子のみを単独で使用することによっては得られないそれらの間の相関
性および関連性が明らかになることを認識済みである。
【0011】 「潜在意味論的インデクシング(指標付け)および潜在意味論的構造インデク
シング」 テキスト感応分子インデクシング(TIMI)と呼ばれる本発明は、Deer
wester等に付与された米国特許第4,839,853号に記載され、引用
によってここに組み込み済みの潜在意味論的インデクシング(LSI)方法論に
基づきそれをさらに発展させたものである。
【0012】 Deerwesterは、主として文献の集大成から文書を検索する目的で文
字文書収集体を用語‐文書マトリックスとして表すことにより、ユーザの照会に
応答してテキスト的データオブジェクトを検索する方法論を開示する。Deer
westerは、単語選択の可変性によって部分的に隠されているか又は不明瞭
化されている潜在意味論的構造が単語を用いたデータ内に前提として存在するも
のと仮定する。この潜在的な意味論的構造を算定し、かつそこに潜在する意味を
明らかにするべく統計的手法が用いられる。Deerwesterは、マトリッ
クスXの部分的特異値分解(SVD)が可能であれば、言葉の用語間、文書間、
及び、用語と文書間の類似性を計算することが可能であるとしている。SVD技
法は数学および計算の技術分野においてはつとに知られており、信号および分光
分析を含む多くの科学的および工学的応用分野に用いられている。更に、Dee
rwesterは、データベース中の用語および文書の双方に対する即興的照会
(X内に存在しないコラム(けた)ベクトル)の類似性を計算する。
【0013】 具体的には図1を参照することとし、Deerwesterが開示する方法に
含まれるステップを次に示す。処理ブロック100によって示されるように、第
1処理操作はテキスト処理アクティビティである。用語および該当し得る複合名
詞句(フレーズ)を発掘すべく、総ての組合せテキストが前処理される。先ず、
(1)ストップワードの予めコンパイルされたリスト間、或いは、(2)句読点
間、又は、(3)挿入記号間の総ての単語群を識別することによってフレーズが
見付けられる。
【0014】 単語頻出度数についての算定値を更に安定的に得るために、あらゆる屈折接尾
部(過去時制、複数性、副詞性、進行時制等)が単語群から除去される。派生的
接尾部とは対照的に、屈折接尾部は通常基本語の意味を変化させない接尾部であ
る。(例えば、「boys」から「s」を除去しても基本語の意味は変化しない
が、「information」から「ation」を除去すると意味が変わる
)。英語を正しく記述できるパターン‐アクション規則は単一体では存在しない
ので、接尾部除去サブプログラムは例外リストを含むことがあり得る。
【0015】 次の処理ステップはブロック110によって表される。初期のテキスト前処理
に基づき、システム辞典が創作される。この辞書には単一単語及び名詞句(フレ
ーズ)が含まれる。名詞句は更に豊かな意味論空間を提供する。例えば、「情報
検索」における「情報」と「情報理論」における「情報」とでは意味が異なる。
これらを個別の用語として扱えば、各複合体はk次元空間内の異なる場所に配置
される。(根本的に異なる意味論的環境における1つの単語(ワード)に関して
、これを単一語として扱えば当該ワードはk次元空間内の無意味な場所に配置さ
れることになる一方、個別の複合体を別個に使用する異なる意味論的環境の各々
を扱えば空間的微分を生ずる)。
【0016】 複合名詞句は簡素化された自動手順を用いて抽出され得る。先ず、ステップ1
00に関して記述された「疑似」構文解析技法を用いてフレーズが見付けられる
。次に、左右総ての分岐サブフレーズが見付けられる。複数のドキュメント(文
書)内に生じるあらゆるフレーズ又はサブフレーズは潜在的に複合フレーズ(句
)である可能性がある。複合句は2語から多くの語(例えば、「半絶縁Fe混I
nP電流阻止層」)によって構成される。これらの複合フレーズ候補のうち、最
長適合フレーズならびに複合語を形成する複数の単一語は、空間的分離が得られ
るように、総て辞典ベースに入力される。
【0017】 具体的な実施形態においては、複数の文書(ドキュメント)内に発生し、かつ英
語において最も頻繁に使用される語(例えば「the」、「and」)のリスト
に含まれない語形変化を除去した単一語もシステム辞典に含まれる。一般に、除
外リストには約150の通常語(ワード)が含まれる。
【0018】 処理ブロック120に示されるように、辞典用語のリストから、用語×文書マ
トリックスが生成される。典型的な状況下のマトリックスの一例は7100用語
及び480グループを表す728文書を包含する。
【0019】 処理ブロック130に示されるように、その次のステップにおいて、用語×文
書マトリックスにおける特異値分解が実施される。この分析はただ1度だけ(或
いは、記憶ファイル内に重大な更新が行われる度に)実施される。
【0020】 ユーザ照会以前に文書を処理する最終ステップをブロック140に示す。選定
された文書を当該文書を生じるについて原因となったグループに関係付けるため
に、組織的データベースが構築される。この組織的データベースには、例えば、
グループマネージャの名前およびマネージャのメールアドレスが含まれることが
ある。
【0021】 ユーザ照会処理操作を図2に示す。処理ブロック200に示す第1ステップで
は、原文書の場合と同じ方法で照会が前処理される。
【0022】 次に、ブロック210に示すように、最長適合複合句ならびに複合句(フレー
ズ)の部分ではない単一語が当該照会から抽出される。同じくシステム辞典に含
まれる各照会用語に対応させて、k次元ベクトルが発掘される。照会ベクトルは
、k次元ベクトルの重み付けされたベクトル平均である。処理ブロック220は
照会ベクトル生成ステップを示す。
【0023】 照会処理におけるその次のステップを処理ブロック230に示す。最良適合文
書を発見するために、照会ベクトルが空間内の総ての文書と比較される。用いら
れる類似度測定規準は照会ベクトルと文書ベクトルの間のコサインである。コサ
イン1.0であれば、照会ベクトルと文書ベクトルが空間内において互いの頂部
に所在していたということになろう。ベクトルの大きさを無視し、比較されるベ
クトル相互間の角度のみを使用するということを除けば、当該コサインを用いた
測定規準は、ドット積測定法に類似する。
【0024】 処理ブロック240に示すように、コサインが分類され、N個の最良適合文書
(一般にN=8)の各々に関して、処理ブロック250に示すように、文書グル
ープに対応する組織的情報と共にコサインの値がユーザに対して表示される。
【0025】 従って、Deerwesterにおいては、単語、テキストオブジェクト、及
び、ユーザ照会は、この根元的意味を抽出するように処理され、次に、情報を表
現して検索するために新規の潜在意味論的構造領域が用いられる。しかしながら
、Deerwesterは、即時必要性の認識も、その解決方法の認識もどちら
も提示することなく、化学構造との関連性については一切提案し得ていない。更
には、LSIは、オブジェクトの類似性計算に関し、例えば特異ベクトルの計測
にあたっては特異値を用いている。
【0026】 従って、テキスト基調および化合物基調の両探索技法の有用性を組み合わせ、
これらの間の相乗効果を付加的/随意に提供する化学探索システム方法の必要性
が生まれる。本発明は、そういったシステム及び方法を提供することによって、
この必要性を充足するものである。
【0027】 「発明の概要」 従って本発明の特徴および利点は、化学構造の収集体とプローブ或いは他の提
案された化学構造との間の化学的およびテキスト的類似性を決定し、化学構造体
、化合物、又は、分子、及び、それらに関連したテキスト的記述の集合体を使用
する方法、及び/又は、システムを提供することにある。
【0028】 本発明の更なる特徴および利点は、化学的組成物と、化学的プローブ(照会)
およびテキストに基づくプローブ又は他の提案された化学構造との間の類似性を
計算するための方法論を提供することにある。
【0029】 本発明の更に別の特徴および利点は、生物学的または化学的アクティビティ又
は特質に関しては類似するが、構造面において類似することが必ずしも明白でな
い化学的組成物を、化学的プローブおよびテキストに基づくプローブまたは他の
提案された化学構造に基づいて選択するための方法、及び/又は、システムを提
供することにある。
【0030】 本発明のまた別の特徴および利点は、化学構造体、所与の化学的プローブおよ
びテキストに基づくプローブまたは他の提案された化学構造の探索可能な表現を
生成するようにコンピュータに指示する命令であって、コンピュータによって実
行可能な命令を搭載するコンピュータにより読取り可能な媒体を提供することに
ある。
【0031】 本発明は、既存の記述子またはユーザ提供記述子のいずれかに対するこれら化
学合成物、混合物、及び/又は、化合物のテキスト的及び化学的類似性を決定す
るために化学合成物、混合物、及び/又は、化合物のテキスト的および化学的記
述子の双方を組み合わせる。本発明は、各化合物を表す化学的記述子に加えてテ
キスト的記述子を提供することにより、どちらの方法を単独で用いても詳らかに
し得なかったテキスト的記述子と化学的記述子との間の関係を明らかにする統合
システムおよび方法を有利に提供するものであり、利点を生ずるものである。具
体的には、以下に詳細に示すように、本発明は、それぞれ個別にされたテキスト
分析及び化学分析を結合することによっては見出しえなかったテキスト記述子と
化学記述子との間の関連性を詳らかにするものであり、これらについては、この
あと詳細に論じられる。以下の開示は、この結合がどのように行われるかについ
て記述し、一例としてMedlineアブストラクト(要約)を用いて、幾つか
の検索およびデータ発掘シナリオを提供する。
【0032】 種々の実施形態に記載された本発明の方法は、第1の化学的またはテキスト的
記述子と、複数の化学的およびテキスト的記述子を包含するマトリックスにおけ
る少なくとも1つの他の化学的、及び/又は、テキスト的記述子との間の類似性
を計算し、化合物の集合体に含まれる各化合物に関する少なくとも1つの化学的
記述子および少なくとも1つのテキスト的記述子を生成し、記述子マトリックス
Xを準備する順次的、非順次的、及び/又は、順序に無関係のステップを含む。
好適な実施形態において、記述子マトリックスの各列はテキスト的および化学的
記述を含む文書を表し、各行は少なくとも1つの文書と関連付けられた記述子を
含む。当該行に格納されている数値は各文書内の各記述子の発生度数に等しい。
また、当該技術分野における通常の知識を有する者にとっては、記述子マトリッ
クスXの行と列とは置き換え可能であること、及び、そのような場合に、以下に
述べる記述子マトリックスXにおいて実施される演算は置き換え済みマトリック
スにおいて実施された演算の結果が記述子マトリックスXの結果と同一となるよ
うに適宜修正可能であることも明白であろう。次に、好適な一実施形態において
、記述子マトリックスの特異値分解(SVD)が実施され、第1記述子と少なく
とも1つの他の記述子との間の類似性を計算するために用いられる合成マトリッ
クスが生成される。ただし、既に注記したように、例えば主要成分分析のような
他の適切な分解技法も同様に利用可能である。最終的に、第1記述子に対する類
似性の順番にランク付けされた当該少なくとも1つの他の記述子の部分集合が出
力として得られる。
【0033】 以上、後続する詳細な説明が更によく理解されるように、また、本発明の当該
技術分野への貢献が更によく評価されるように、本発明のより重要な機能につい
て、幾分広範囲に亙って概説した。これらに限らず、以下に更に説明され、ここ
に添付されている特許請求の範囲の主要対象を形成し得る本発明の付加的特徴も
存在するのは勿論のことである。
【0034】 この点に関して、本発明の少なくとも1つの実施形態を詳細に説明する前に、
本発明がその適用において、以下の記述において説明されるか、或いは、図面に
示された要素の詳細な解釈及び組み合わせに限定されるものでないことを理解さ
れたい。本発明は、他の実施形態が可能であり、種々の方法で実用および実施可
能である。また、ここで用いられた語法および用語は記述を目的とするものであ
り、限定的に働くものとみなしてはならないことを理解されたい。
【0035】 従って、当該技術分野における通常の知識を有する者は、本開示の基調となる
概念は、本発明の幾つかの目的を実施するための他の構造、方法、及び、システ
ムを設計するための基礎として容易に利用され得ることを理解するはずである。
従って、重要なことは、本発明の趣旨および範囲から逸脱しない限り、本願の特
許請求の範囲にはそのような等価な解釈が含まれるものと見なされるということ
である。
【0036】 更に、前述の要約の目的は、米国特許商標庁および一般大衆、特に当該技術分
野における特許または法律用語または語法に精通しない科学者、技術者、及び、
実際的な専門家が本願を簡単に見ただけで本出願の技術的開示の性質および本質
を迅速に決定することを可能にすることにある。本要約は特許請求の範囲の記載
によって規定されるべき本願に係る発明を定義することを意図するものでなく、
如何なる方法においても本発明の範囲に関して限定することを意図するものでも
ない。
【0037】 本発明を特徴付ける種々の新規性を形成する特徴および本発明の他の目的と共
に、上記のことは、本開示の一部を形成し、かつこれに添付される特許請求の範
囲内において詳細に指摘される。本発明、その使用上の利点、及び、その使用に
よって達成される特定の目的を更に良く理解するために、本発明の好ましい実施
形態が提示されている添付図面、及び、説明文を参照されたい。
【0038】
【発明の好適な実施形態の詳細な説明】
本発明は、好適な実施形態において、特異値分解(SYD)がキーワード又は
記述子の操作を容易にするシステムおよび方法を提供する。ただし、例えば主要
成分分析のような、これ以外の分解技法も利用可能であることを理解されたい。
【0039】 データベース内のあらゆる又は実質的に総ての化学構造体、化合物、又は、分
子をテキスト的および組成的に表すマトリックスは、相関性または関連性をもつ
部分を少なくとも含む標準記述子を用いて生成される。SVD技法、または、例
えば主要成分分析のような他の適当な分解技法は、プローブ或いは他の提案され
た化学構造に対するテキスト的、及び/又は、組成的類似性によって化学構造、
化合物、または、分子をランク付けするために用いられるこれらの相関性を明ら
かにする。SVD技法は、同等または実質的に同等でないにしても、関連するか
、或いは実質的な関連性を有する記述子を発見できるという利点がある。すなわ
ち、記述子は直接的または一般的に許容される同義語である必要は無く、むしろ
、これらは随意に類似するか或いは関連する用語である。
【0040】 我々が見出したところによれば、SVD技法、または、例えば主要成分分析の
ような他の分解技法は、本発明に従って化学的場面に適用された場合には、構造
的に明らかに類似するようには見えないが、化学構造体或いは複合体のデータベ
ース中の生成された分子結合から判断すれば実際的に類似する化学的複合体また
は構造体をランク付けする。説明を容易にするために、炭素リングの周りに配置
される多くの有機化合物を用いることとする。例えば、6個構成リングにおいて
、原子対記述子を使用することにより、他方の炭素原子から1ボンド離れた1個
の炭素原子が常に所在するばかりでなく、他方の炭素原子から2ボンド離れた1
個の炭素原子ならびに他方の炭素原子から3ボンド離れた1個の炭素原子が所在
することが我々によって判明した。この観測の視点から、我々は、これらの原子
対は概念的な同義語ではないにしても、これらの原子対は高度に関連しているこ
とを認識した。我々は、これらの関連度の個数、及び/又は、程度に基づく化学
的複合体または構造体のランク付けをSVD技法が容易にすることを確認した。
【0041】 TIMI計算 本願に係る発明は、分子、及び、これら分子に関連したテキスト的記述のデー
タベースを利用する。本データベースは、最初、1組のベクトルとして表される
。この場合、各ベクトルV=(di1,di2,...,dinは文書i
におけるそれぞれ対応する化学的、及び/又は、テキスト的記述子dの負でな
い発生頻度数で構成される。ここに、nは全文書群において唯一的に発生する記
述子の全数であることが好ましい。従って、記述子マトリックスXは複数のかか
るベクトルの集合である。即ち、X={V,...,V}、m≧2、又は、
【数1】
【0042】 ここに、Xはm列n行で構成される。当該技術分野における通常の知識を有す
る者にとって、記述子マトリックスXの行と列は置き換え可能であり、その場合
には、以下に説明する記述子マトリックスXにおいて実施される演算は、置き換
えられたマトリックスにおいて実施される演算の結果が記述子マトリックス母X
の結果と同じであるように適宜修正可能であることは明白なはずである。
【0043】 好適な実施形態において、本発明は、元のマトリックスの縮小次元表現を生成
するために、XのSVDを有利に利用する。RmxrにおけるXのSVDがX=
PΣQと定義されるものとする。ここに、Pは左特異マトリックス(rはXの
階数)と呼ばれるmxrマトリックスであり、その列は非ゼロ固有値に対応する
XXの固有値ベクトルである。Qは右特異マトリックスと呼ばれるnxrマト
リックスであり、その列は非ゼロ固有値に対応するXXの固有値ベクトルであ
る。Σはrxr対角マトリックス=diag(σ,σ,...,σ)であ
り、特異値と呼ばれる非ゼロのエレメントは固有値の平方根であって、それらの
プロパティはσ≧σ≧...σである。従って、
【数2】 従って、0に設定されたk<r,σk+1...σに関するX、Xの第k階
近似は引用によってここに組み込み済みの標準Lanczosアルゴリズムの変
形バージョンを用いて能率的に計算可能である(Berry等著1996年3月
改訂の「SVDPACKC(Version 1.0)User’s Guid
e」,University of Tennessee,Knoxville
,Department of Computer Science Tech
nical Report CS−93−194参照)。Xは、最小二乗法に
おいてXに最も近い階数kのマトリックスであり、Xの部分SVDと呼ばれ、X =PΣ として定義される。
【0044】 2つの化学的記述子d、dのTIMI類似度はマトリックスPの第i行
と第j行との間のドット積を算定することによって計算され、公式
【数3】 によって与えられる。 ベクトルV及びVで表される2つの文書(例えば、要約またはの他のテキ
スト記述)の間のTIMI類似度はマトリックスQの第i行と第j行との間の
ドット積を算定することにより計算され、公式
【数4】 によって与えられる。
【0045】 文書又は他のテキスト記述Vに対する記述子dのTIMI類似度はマトリ
ックスPの第i行とマトリックスQの第j行との間のドット積を算定するこ
とによって計算され、公式
【数5】 によって与えられる。
【0046】 最終的に、データベースにおける記述子および分子に対する特別照会のTIM
I類似度は先ず照会を部分SVDのk次元空間に投影し、その後で相互間および
内部比較のための分子として当該投影を扱うことにより計算される。照会ベクト
ルqの投影はV=qPΣ-1 として定義される。
【0047】 TIMIは、Deerwesterに開示された方法と異なり、特異ベクトル
を基準化するために特異値を使用しないことに留意されたい。その代りに、類似
度の計算に際してTIMIは識別マトリックスIを使用するが、この点Deer
westerはΣを利用する。成分Σの基準化を無視することで、プローブ
の記述子がデータベースにおいて充分に表されているかどうかに関係無く類似し
た分子を選択する能力が向上する。
【0048】 方法論 TIMIと関連した演算には2つの局面がある。第1局面は、文書又はテキス
ト的記述の収集体からTIMIデータベースを構築することに関係し、第2局面
は当該データベースの照会に関係する。
【0049】 TIMIデータベースの構築 TIMIデータベースの生成には次に示す順次的、非順次的、或いは、順序に
無関係のステップが含まれる。図3に示すステップS300において、ユーザ、
及び/又は、コンピュータはデータベースにおいて表される各化合物に関する化
学的およびテキスト的記述子を生成または創成する。
【0050】 テキスト的記述子は、例えば、文書の収集体または他のテキストソースから、
例えばASCIIフォーマットや他の適合するフォーマットにおいて生成される
。同様に、化学的記述子のテキスト的表現もテキスト的記述子に加えられる。こ
れらの文書は、例えば、新聞用論文、MEDLINEアブストラクト、内部進行
レポート、メモ、旅行紀行、議事録等であっても差し支えない。これらの文書の
固有フォーマットは、ASCII版を生成するための変換ソフトウェアの使用を
必要とすることがあり得る。次に、ASCII体は、例えば不必要な句読点の除
去、語のステミング、状況の標準化、フォーマット化の排除によって「正規化」
されることが好ましい。
【0051】 医療テキストには、テキストが他の規則によって分析された場合よりもこの段
階をより困難にさせる幾らかの特異性がある。例えば、我々は、Chemica
l Abstracts(Chemical Abstracts Servi
ce,1997年)、或いは、International Union of
Pure and Applied Chemistry(IUPAC)(P
anico等、1994年)に記載されている系統的化学薬品名が括弧、角括弧
、コンマ、単一引用符、コロン、ハイフン、プラス記号、ピリオド等を含む可能
性のあることを発見した。遺伝子名および蛋白質名は、しばしば、短い頭字語で
ある場合が多く、これらは正常化されたときに、他の語と混同されることがあり
得る。データベース識別子および到達番号も正規化を曖昧にすることがあり得る
。実際には、化学薬品、遺伝子、蛋白質名および識別子に関して特に手際良く仕
上げられた辞典を用いたPerlの原稿は、例えば、入力文書を正規化するため
に必要なテキスト処理を実施するために利用され得る。本発明の実行に際しては
、正規化済みの各文書の用語が化学構造が既知である化合物名の指標に対して比
較されることが好ましいが、必須というわけではない。
【0052】 ステップS310において、ユーザ、及び/又は、コンピュータは各々が特定
の文書に対応しているマトリックスXの列をテキスト的および化学的記述と関係
づける指標、及び、当該マトリックスの行をテキスト的および化学的記述子と関
係づける別の指標を生成または創成する。 ステップS320において、ユーザ、及び/又は、コンピュータは文書内の化
合物を表すテキスト的および化学的記述子マトリックスXを生成または創成する
。ステップS330において、ユーザ、及び/又は、コンピュータは記述子マト
リックスXにおいてSVDを実施する。
【0053】 例えば、次の要約題「Butein,a specific protein
tyrosine kinase inhibitor」(ブテイン、特殊蛋
白質チロジンキナーゼインヒビタ)を文書と見なすこととする。
【0054】 正規化の後で、この文書には7語、即ち「butein」、「a」、「spe
cific」、「protein」、「tyrosine」「kinase」、
「inhibitor」が含まれていよう。ブテインの構造を次に示す。
【化1】
【0055】 ブテイン連結表は56種の原子対(AP)および位相ねじり(TT)記述子を
生成する。その一部を表1に示す。記述子は用語と見なすことが可能であり、テ
キストに直接合併され得る。
【表1】
【0056】 この処理段階において、当該要約の題名表現は、56の化学用語(各々が自身
の発生頻度数を持つ)に加えて、7個の英語の単語(各々が1回発生する)、合
計63個の用語で表現されることになる。ストップワード除去はまだ実施されて
いないので、単語「a」は依然として存在することに留意されたい。
【0057】 次に、ステップS320に従い、合併されたテキストと化学的性質はマトリッ
クスを作成するために練り直される。この場合、各行が唯一的用語を表し、各列
が文書又はテキスト源を表し、i行j列の要素の値は文書j又はテキスト源にお
ける用語iの発生回数である。従って、用語iは、文書j又はテキスト源におい
て任意回数だけ発生し得る。ストップワード(制止語)は、例えば、逆文書発生
頻度数(idf)表から生成され得る。(例えば、50%を超える文書において
発生するあらゆる用語は、マトリックスの行としての扱いから除外される。)こ
のマトリックスの特異値分解は、ここで更に詳細に説明されるように、結果とし
て、類似度の計算に際して用いられる3個のSVDマトリックス(P、Σ、及び
、QT)を生じる。
【0058】 TIMIデータベースの探索 図4に示すように、TIMIデータベースの探索は次のように実施される。ス
テップS400において、ユーザは、1つ又は複数の単語、及び/又は、化学構
造体をプローブとして指定する。ステップS410において、プローブ分子、テ
キスト、又は、結合プローブの場合には多重分子またはテキストは当該プローブ
用の特徴、または、列、ベクトルを作成するためにTIMIデータベースの記述
子集合に変換される。次に、ステップS420において、ユーザによる指定に従
い、何らかのkに関して上述したように、疑似‐オブジェクトが得られる。各記
述子(Pkの行)の正規化されたドット積、及び、疑似‐オブジェクトを有する
各文書(Qkの列)はステップS430において随意計算され、結果として得ら
れる値は、ステップS440において、好ましくは降順で随意的に分類され、こ
のようにして、当該値をなす原因を形成した記述子および文書の指標を維持する
。次に、ステップS450においてユーザには、例えば、ユーザが定義したしき
い値でカットオフされたうち上位にランクされた(例えば、上位300または1
000種の化合物)文書のリストが提示される。 当該技術分野における通常の知識を有する者によって認められるように、少な
くとも部分的にはkの選択に基づき特異値の個数を変えることにより、ユーザは
、ファジー論理の観点から探索のファジーレベルを制御する。kの値が更に大き
くなれば、ファジーの程度は更に低くなる。
【0059】 本発明の方法の別の一実施形態のフローチャートを図5に示す。本方法には、
次に示す順次的、非順次的、或いは、順序に無関係なステップが含まれる。ステ
ップS500において、照会化合物プローブ又は照会ジョイントプローブがユー
ザによって入力されたかどうかがコンピュータによって決定される。入力された
場合であれば、ステップS510において、コンピュータは、1つ又は複数の照
会文書又はテキスト及び化合物プローブまたはジョイントプローブに関して化学
的およびテキスト的記述子を生成する。ステップS520において、コンピュー
タは、生成された結果に照らしユーザが照会を修正したかどうかを決定する。ユ
ーザは、ランク付けされた化合物を選定し、それらを元のプローブに追加して、
探索を再度実行することができる。イエスであれば、処理の流れはステップS5
10に戻る。イエスでない場合には、ステップS530において、コンピュータ
は、特異値分解マトリックスを用いて、修正された照会プローブを多次元空間に
変換する。ステップS540において、コンピュータは、化合物データベース内
の照会プローブと化学構造およびそれらのテキスト的記述の間の類似度を計算す
る。ステップS550において、コンピュータは、照会プローブに対する類似性
によって化合物データベース内の化合物のランク付けを行う。ステップS560
において、コンピュータは、例えば標準コンピュータモニタを介して、或いは、
標準プリンタを介して、標準的仕方において化合物のランク付けリストを出力す
る。
【0060】 TIMIデータベースの発掘 データベースの探索は単に文書のランク付けリスト提供によって達成されるが
、データベースの発掘はもう少し興味深い。TIMIが開発された理由の1つは
、新規な先導化合物を発見すること、及び、化学構造および文献において言及さ
れている生物学的構造と化学構造との関係について理解を更に深めることの観点
から薬学者の努力を支援することにある。従って、我々は、化学的類似性および
生物学的特質ならびに関連物を含むTIMIによって扱うことのできる専門化さ
れた発掘作業について調査してきた。
【0061】 例えば、化学構造体をk次元空間に投影し、その後で、密接に類似する化合物
識別子のリストを調査することができる。或いは、複数の化学構造体をk次元空
間に投影し、それらのコサイン類似性を直接計算することができる。類似性はこ
れを囲むテキストの存在によって変更され、おそらくは強化されてきたが、これ
らの演算には両方とも化学構造体間の比較が含まれる。
【0062】 TIMIは、或る特定の特質(プロパティ)または関係を推論することによっ
て用語のクラスに対する化学プローブの類似性を計算することも可能である。化
学構造プローブを提示した後で、最高ランク付けされた治療用語、病気名、毒性
傾向、副作用等を見付けるために用語の分類リストを調査することができる。或
る特定の類型(カテゴリ)に関する治療用語(治療類型に関連する用語)のラン
ク付けが、他の総ての類型に対するよりも著しく優れていることが決定されたと
仮定する。或る特定の化合物に最も類似した用語のリストに含まれる単語が「c
holesterol」、「lipid」、「triglyceride」であ
ることが判明すれば、hypercholestoremia(高コレスレロー
ル血症)に関する文書(例えば、要約)において言及されている化合物の構造に
類似する化合物の構造に含まれる何等かの成分が存在することが推論され得る。
例えば「mutagen(ic)」、「carcinogen(ic)」、「h
epatotoxic(ity)」等々の病名または毒性関連用語が高位置にラ
ンクされている場合にも上述の推論は真である。
【0063】 その代りに、或る用語に最も類似する化合物または記述子がTIMIによって
決定可能である。例えば、次の質問について考察することとする。「carci
nogen(発がん物質)」及び「carcinogenic(発がん性の)」
という用語と最も関連性が強い化学的記述子は何か?この質問に答えるために、
各用語に関して2つの非ゼロ頻度数を持つ1つのプローブベクトルが作られる。
次に、ランク付けされた化合物のリストが、具体的には、最高位置にランクされ
た化学的記述子に関して調査される。次に、関心対象とされる化合物の原子を着
色するために記述子の関連得点が用いられ得る。原子を着色すると、当該化合物
のどの構成成分が特質と関連しているかが視覚的に示される。この方法は、集合
体に記載されているあらゆる特質に用いることができる。
【0064】 使用可能性、及び/又は、新薬品に関する問題の早期発見は、製薬会社が研究
開発コストにおいて数百万ドルを節約することを可能にする。TIMIは、これ
らの問題について研究者が何等かの利点を得るために、文献に記載されている過
去の実験を有益に利用することを可能にする。我々は、次の節においてMedl
ine要約の集合体文脈に沿ってこれらの関係の幾らかについて精査することと
する。
【0065】 MEDLINEの実験 用語「drug(薬剤)」を使用し、1998年の3ケ月期間内に出版された
1組11,571件のMEDLINE要約(アブストラクト)がMEDLINE
データベースから抽出された。テキストは、化学名識別子を識別し、認識された
化合物の化学的記述子を適切な要約に併合するために前処理された。マーク・ア
ンド・カンパニー社(Merck&Co.,Inc.)所有のデータベース内に
所在する連結表をもつ2,876件の唯一的化合物識別子が6,929件の要約
内で見付けられた。4,642件の要約には、それらと関連した識別可能な構造
体は一切含まれていなかった。引用頻度が最も大きい上位10種の化合物はgl
utathione(181),dopamine(179),glucose
(157),cholesterol(141),cisplatin(132
),serotonin(131),cocaine(127),doxoru
bicin(111),adenosine(110),morphine(1
09)であった。これらの化合物の原子対および位相ねじれ記述子がテキストに
付加された。次に化学的およびテキスト的記述子のリストが用語/要約マトリッ
クスを作成するために用いられた。このマトリックスの大きさは42,566個
の唯一的用語x11,571個の要約書であった。217個の特異ベクトルを生
成するためにLanzcos反復的SVDアルゴリズム(Berry等、199
6年参照)が用いられた。今後、このデータベースはTIMITCデータベース
と称することとする(TCは「テキスト及び化学」を表す)。
【0066】 TIMITCデータベースに加えて他の2つのデータベースが構築された。即
ち、元の用語(即ち、化学表現なし)だけのデータベースが作成され(TIMI )、同様に、化学構造のデータベース(TIMI)が作成された。これら2
つの追加データベースは以下に説明する比較研究のために生成された。
【0067】 次に、異なる3組の照会がデータベースに提出された。第1組は化学構造照会
を含み、第2組は用語を含み、第3組は構造および1又は複数の用語の両方を含
む。明らかに、構造照会はテキストのみのデータベースには呈示不可能であり、
用語照会は構造のみのデータベースには呈示不可能である。これらの3組の目的
は、各データベースによって提供される検索と発掘における差異を調査すること
であった。
【0068】 化学構造照会 1つの構造照会はavasimibe(CI−1011)と称するコレステロ
ール降下剤を含む。その構造を次に示す。
【化2】
【0069】 Avasimibeは2つの異なる要約MED306及びMED2600にお
いて合計12回その企業コードci−1011によって言及されている。ci−
1011構造を持ち、k=100に設定されたTIMITCの探索結果として得
られたランク付けされた文書及び用語のリストを表2に示す。
【表2】
【0070】 当然期待されるようにMED306及びMED2600は最上位にランク付け
された文書である。「Wavelet Analysis of Acoust
ically Evoked Potentials During Repe
ated Propofol Sedation」という題名をもつMED72
77はci−1011には言及しないが、おそらくci−1011の基礎構造を
持つと考えられる化合物であるpropofolについては検討している。
【化3】
【0071】 上に示す化学構造を持つPropofolは1990年代初期に開発された麻
酔剤であり、ci−1011には直接連結しない。ただし、構造が類似している
ので、propofolとci−1011は幾らかの生物的アクティビティを共
有することは可能である。次に示す2つの要約MED6244及びMED203
6もpropofolについて検討している。
【化4】
【0072】 第6位にランク付けされた要約MED4582は、上に示したような化学構造
をもつtebufeloneについて検討している。
【化5】
【0073】 要約7、8、10もpropofolについて言及している。要約9のMED
8359は、上に示したような化学構造をもつ化合物LY−231617につい
て検討している。LY−231617は、最初、発作を処置するための神経保護
剤として開発された。
【0074】 当該上位10種の用語もこの化合物について我々に何かを示唆している可能性
がある。用語ci−1011は最高位にランク付けされた用語であるが、一見し
て特に興味の対象とは見受けられない。しかし、我々のプローブは化学構造ci
−1011の化学的記述子に過ぎず、「ci−1011」という単語を含まなか
ったことを思い起こされたい。表2に示す第2の用語s42o20c31c31
は位相ねじれ化学記述子である。表2に示す第3用語たるB−100は、lp(
a)及びlipoprotein(a)としてのapolipoprotein
であり、当該化合物の使用に関連性を持つのは確実であり、ci−1011はハ
ムスタの大動脈脂肪ストリーク部位の保護と退縮に効果的である。URLaa.
wl.comはWarner Lambert’s Ann Arbor,Mi
chigan研究所のホームページであった。LowellはMassachu
setts州の都市であり、要約MED2600の著者の1人がここと関係を持
つ。Ldl−c(低密度リポプロテインコレステロール)及びMacaca f
ascicularis(Java Macaque)におけるfascicu
laris、コレステロール降下実験に使用された猿は両方ともMED306に
記述されている。
【0075】 同じ照会は化学データベースTIMIに対して実施され得る。この場合、要
約中に発見されるその他の化合物の各々に対するci−1011の類似度が計算
される。次に、高位にランキングされた化合物について言及するこれらの論文が
検索される。表3は10位までにランキングされた化合物とそれらのコサイン類
似性スコアを示す。
【表3】
【0076】 表に示すように、TIMITCから選出された要約から取り出した同じ化合物
の多くは、化学のみの探索においては最も類似した化合物として現れる。勿論、
関連した化学構造を持たない要約を検索する方法はない。更に、用語と調査可能
な化学的記述子との間には関連性がない。
【0077】 テキスト照会 テキスト照会はTIMITCとTIMIの両方に適用可能である。化合物の
名前を使用するテキストのみの照会がその構造的照会と比較される方法が理解で
きるので、ci−1011の調査を継続することは有益である。TIMIにお
いて発見される用語「ci‐1011」に最も類似する要約及び用語を表4に示
す。
【表4】
【0078】 この場合、最初から2位までにランク付けされた文書は(表2に示す)TIM
TCに対するci−1011構造的照会と同じであり、残りの文書は化学的記
述子の影響のために異なることが分かる。一連のTIMITCにおける上位10
位までの用語内には最初の4用語も見出し得るが、その後においては異なってく
る。明らかに、化学的記述子はランキング内に定性的な差異を生じさせている。
【0079】 TIMITCを精査するために、ci−1011構造の代りに用語「ci−1
011」が用いられた場合には、表5に示す結果が得られる。
【表5】
【0080】 ここにおいて、これらの結果は表2における結果に類似し、用語「ci−10
11」とci−1011構造はTIMITCにおいて事実上同義語であることが
分かる。
【0081】 テキスト及び化学構造照会 最終的に、我々は、TIMIまたはTIMIのいずれかにおいて個別に実
施できない構造とテキストを組合わせた照会による特殊探索をTIMITCにお
いて実施できる。慎重に選定されたキーワードを用いて構造的探索を「一工夫」
することができるので、両タイプの照会を組み合わせることは有益である。例え
ば、或る化合物が毒性を持つ可能性に関してユーザが最も興味を持つものと仮定
すると、ユーザは毒性に関連する用語を当該構造的照会に追加可能であり、それ
によって、毒性問題を更に高度に検討する文書をランク付けすることも可能であ
る。
【0082】 検討 これらの実験から幾つかの興味深い点が現れた。TIMITCデータベースに
おけるci−1011の構造的照会に関連する用語は実に注目に値する(表2参
照)。本システムは、照会(プローブ)の化学的記述子とこのコレステロール降
下薬剤に関連することが明白な多数の英語の単語との間の関連性を明らかにした
。関連性は、照会の名前としてはci−1011;動脈の壁体内へのコレステロ
ールの遷移の主要メカニズムとしてはリポプロテイン;化合物の試験に用いられ
る動物の種名としては束組織;提携情報としてはLowell及びaa.wl.
com.といった多くの異なる概念的次元に沿うものである。例えば、anti
‐atherogenic(12)、apolipoprotein(a)(1
4)、hypercholesterolemic(15)のように単語に関連
することが明らかな他の多くは上位10位外にも見出される。ランキングがそれ
ほど明白ではない他の単語が存在するが、我々は、これらの用語の中には新規な
洞察を与え得るものがあると考える。
【0083】 同一探索の高位置にランク付けされる要約において発見される化合物、即ち、
propofol、tebufelone、LY−231617は、これら3種
の化合物は総て治療カテゴリを異にする点で興味深い。従って、コレステロール
降下薬に関心を持つ医薬化学者がそれらの存在を知っている可能性は低い。te
bufeloneの開発が肝臓毒性のために失敗したという事実を思えば、これ
は感動的である。
【0084】 結論 上述の実験は、テキスト的記述子と化学的記述子とを合併させることがテキス
ト又は化学のいずれか一方のみを個別に用いるよりも利点が多いことを示すもの
である。テキストのみのデータベースは、化学構造に対する関連式については有
益性を得られない。特に、こういったデータベースはこれらのテキスト的用語を
化学的特徴と関連付けさせることができない。更に、テキストのみのデータベー
スにおいては、テキストにおいて明確に言及された化合物に関する文書しか検索
することができない。同様に、化学のみのデータベースはテキストに対してなさ
れた関連式については有益性を得ることができないばかりでなく、言及された対
象が化学構造を一切含まないような要約を指標付けすることもできない。TIM
I的方法およびシステムは、薬剤学界、生物学界、および、医療化学界内におけ
る科学者達による文脈的知識の開発を促進する。
【0085】 典型的汎用コンピュータ 本発明をコンピュータを用いて実施した形態に従ってコンピュータ処理を実施
するための主要中央処理装置を図6に示す。ここに示す手順は、例えばコンピュ
ータ又はコンピュータネットワーク上で実行されるプログラム手順に関して提示
される。
【0086】 図6は、外面的には、ディスクドライブ604及び606を備えたコンピュー
タ602を有する参照番号400によって示されるコンピュータシステムである
。ディスクドライブを示す番号604及び606は、コンピュータシステムによ
って収容され得る幾つかのディスクドライブを象徴するに過ぎない。一般に、こ
れらには、フレキシビルディスクドライブ604、ハードディスクドライブ(外
面には現されていない)、及び、スロット606によって示されるCD―ROM
が含まれる。ドライブの個数およびタイプは、通常、種々異なるコンピュータ構
成に応じて変化する。ディスクドライブ604及び606は、事実上オプション
であり、スペースの都合により、ここに述べる生産プロセス/装置と共に使用さ
れるコンピュータシステムから削除することは容易である。
【0087】 また、コンピュータシステムは、情報を表示するためのディスプレイ608を
オプションとして備える。状況によっては、キーボード610及びマウス602
が、中央処理装置602とインタフェースするための入力装置として装備される
。可搬性を強化するために、キーボード610としては限定機能キーボードが用
いられるか、または、全体的に省略される。更に、マウス612は、オプション
としてタッチパッド制御デバイス、又は、トラックボールデバイスであっても差
し支えなく、完全に省略することもできる。更に、また、コンピュータシステム
には、以下に述べるように赤外線信号を送信、及び/又は、受信するために、オ
プションとして、少なくとも1つの赤外線送信機、及び/又は、赤外線受信機が
含まれてもよい。
【0088】 図7は、図6のコンピュータシステム600の内部ハードウェアの構成を示す
ブロック図である。バス614は、コンピュータシステム600の他の構成要素
を相互に接続する主要情報ハイウェイとして機能する。CPU616はシステム
の中央処理装置であり、プログラムを実行するために必要な計算および論理演算
を実行する。読取り専用メモリ(ROM)618及びランダムアクセスメモリ(
RAM)620はコンピュータの主記憶装置を構成する。ディスクコントローラ
622は1つ又は複数のディスクドライブをシステムバス614にインターフェ
イスする。これらのディスクドライブは、例えば、604のようなフレキシビル
ディスクドライブ、又は、606のようなCD−ROM或いはDVD(デジタル
ビデオディスク)ドライブ、又は、内部或いは外部ハードドライブ624である
。既に述べたように、これらの種々様々なディスクドライブ及びディスクコント
ローラは随意的なデバイスである。
【0089】 ディスプレイインタフェース626はディスプレイ608をインターフェイス
し、バス614からの情報がディスプレイ608上にディスプレイされることを
可能にする。再び、図に示すように、ディスプレイ608もオプション付属品で
ある。例えば、ディスプレイ608は代替または省略可能である。例えば、ここ
に述べる装置の構成成分としての外部デバイスとの通信は通信ポート628を利
用することがある。例えば、光ファイバ、及び/又は、電気ケーブル、及び/又
は、導体、及び/又は、光通信(例えば、赤外線等)、及び/又は、無線通信(
例えば、無線周波数(RF)等)は外部デバイスと通信ポート628との間の移
送媒体として使用可能である。周辺インタフェース630はキーボード610と
マウス612とをインターフェイスし、入力データがバス614に伝送されるよ
うにする。コンピュータの標準構成要素に加えて、コンピュータには、オプショ
ンとして、赤外線送信機、及び/又は、赤外線受信機が含まれる。赤外線送信機
は、赤外線信号伝送を介してデータを送信/受信する1つ又は複数のプロセッシ
ングコンポーネント/ステーションと共にコンピュータシステムが使用される時
にオプションとして利用される。赤外線送信機または赤外線受信機を利用する代
りに、コンピュータシステムはオプションとして、低電力無線装置、送信機、及
び/又は、低電力無線受信機を使用してもよい。低電力無線送信機は、生産プロ
セスの構成要素により受信されるべき信号を送信し、低電力無線受信機を介して
当該構成要素から信号を受信する。低電力無線送信機、及び/又は、受信機は産
業界における標準的な装置である。
【0090】 図8は、図5及び7に示すディスクドライブと共に用いられる典型的な記憶媒
体632を示す。一般に、フレキシビルディスク、又は、CD ROM、又は、
デジタルビデオディスクなどの記憶媒体は、例えば、ここで説明する機能がコン
ピュータによって実施可能になるようにコンピュータを制御するための単一バイ
ト言語およびプログラム情報用のマルチバイト現場を含む。代替的に、生産プロ
セスと関連した演算を実行するように中央処理装置416に命令するために使用
されるプログラム情報を格納するために、図5及び7に示すROM618、及び
/又は、RAM620が使用できる。
【0091】 単一プロセッサ、単一ハードディスクドライブ、及び、単一ローカルメモリを
備えたコンピュータシステム600が図示されているが、当該システム600は
、オプションとして、任意の複数または組み合わせプロセッサ又は記憶デバイス
を装備するにも適している。コンピュータシステム600は、実際問題として、
精巧な計算器、掌タイプコンピュータ、ラップトップ/ノートブックコンピュー
タ、ミニコンピュータ、メインフレームコンピュータ、及び、スーパーコンピュ
ータ、ならびに、これらの処理システムネットワーク組合わせを含む。本発明の
原理に従って作動する任意の適切な処理システムによって代替されうるし、また
、これらと組合せて用いることも可能である。
【0092】 従来型の処理システムアーキテクチャについては、「Computer Or
ganization and Architecture」(コンピュータの
組織と構造)(MacMillan Publishing Co.(3rd
ed.1993)において、William Stallingsによりより詳
しく検討されている。従来型の処理システムネットワーク設計については、「D
ata Network Design」(データネットワーク設計)(McG
raw−Hill,Inc.(1993))において、Darren L.Sp
ohnにより更に詳細に検討されている。従来型のデータ通信については、「D
ata Communications Principles」(データ通信
の原理)(Plenum Press(1992))において、R.D.Git
lin,J.F.Hayes及びS.B.Weinstainにより、また、「
The Irwin Handbook of Telecommunicat
ions」(通信に関するアーウィンハンドブック)(Irwin Profe
ssional Publishing(2nd ed.1992)において、
James Harry Greenにより更に十分に検討されている。上述の
各出版物は引用によりここに組み込み済みである。代替的に、ハードウェア構成
は、例えば、計算効率を追加向上させるための多重命令多重データ(MIMD)
多重プロセッサーフォーマットに従って配置してもよい。コンピュータアーキテ
クチャに関するこの形式についての詳細は、例えば、それぞれ引用によりここに
組み込み済みの米国特許第5,163,131号、Boxer,A.「Wher
e Buses Cannot Go」(バスが繋げないところ)(IEEE
Spectrum,February 1995,pp.41−45)、および
、Barroso,L.A.等による「RPM:A Rapid Protot
yping Engine for Multiprocessor Syst
ems」(RPM:マルチプロセッサシステム用高速プロトタイプエンジン)(
IEEE Computer February 1995,pp.26−34
)に更に詳細に開示されている。
【0093】 好適な一代替実施形態において、上記に示したプロセッサ、及び、特には、C
PU616は、例えばPLAs(プログラム可能アレイロジック)、および、P
LAs(プログラマブル論理アレイ)のようなプログラム可能論理デバイス、D
SP(ディジタル信号処理装置)、FPGA(現場プログラム可能ゲートアレイ
)、ASIC(アプリケーション指向集積回路)、VLSI(超大規模集積回路
)等を含む他の適切な処理回路により置換することもできるし、或いは、これと
組み合わせることも可能である。
【0094】 本発明の多くの特徴および利点は明細書の詳細な説明から明白であり、本発明
の真の趣旨および範囲に含まれる本発明の総ての上述した特徴および利点を添付
の特許請求の範囲が包含することを意図するものである。更に、当該技術分野に
おける通常の知識を有する者にとって修正および改変が容易に数多くなし得るの
で、図示および記述されたものと寸分違わぬ構成および動作に本発明を限定する
ことは望ましくないことであり、従って、あらゆる適切な改変体および等価体は
本発明の範囲に含まれるものと見なされうる。前述の本発明は好適な実施形態の
説明および例示によって詳細に記述されたが、添付の特許請求の範囲に定義され
た本発明の範囲から逸脱することなしに、修正、置換、および、変更が数多く可
能である。
【図面の簡単な説明】
本発明の特徴を具体的に表現した好適な構造に関する説明を含む詳細な本記述
は、次に示す添付図面を参照しながら読むことによって最もよく理解されるはず
である。
【図1】 特異値分解(SVD)を用いて、「用語」および「文書」マトリックスを生成
するための処理を示す従来技術によるフローチャートである。
【図2】 ユーザの照会の処理を示す従来技術によるフローチャートである。
【図3】 TIMIデータベースを作成する処理を示すフローチャートである。
【図4】 本発明の第1の好適な実施形態に係るプロセスを示すフローチャートである。
【図5】 本発明の第2の好適な実施形態のフローチャートである。
【図6】 コンピュータ及び取り揃えられた周辺装置を含む実施形態を表現した図である
【図7】 本発明と一貫性を持つコンピュータの内部アーキテクチャの実施形態を表現し
た図である。
【図8】 記憶媒体に係る実施形態を表現した図である。
【符号の説明】
SVD 特異値分解 TIMI テキスト感応分子指標付け d 記述子 V 文書又はテキストソース X マトリックス S300 ブロックS300 S330 ブロックS330 600 コンピュータシステム 602 中央処理装置 604 フレキシビルディスクドライブ 606 CD−ROM 608 ディスプレイ 610 キーボード 612 マウス 614 システムバス 616 CPU 618 ROM 620 RAM 622 ディスクコントローラ 624 ハードディスクドライブ 626 ディスプレイインタフェイス 628 通信ポート 630 周辺インタフェイス
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,MZ,SD,SL,SZ,TZ,UG ,ZW),EA(AM,AZ,BY,KG,KZ,MD, RU,TJ,TM),AE,AG,AL,AM,AT, AU,AZ,BA,BB,BG,BR,BY,CA,C H,CN,CR,CU,CZ,DE,DK,DM,DZ ,EE,ES,FI,GB,GD,GE,GH,GM, HR,HU,ID,IL,IN,IS,JP,KE,K G,KP,KR,KZ,LC,LK,LR,LS,LT ,LU,LV,MA,MD,MG,MK,MN,MW, MX,MZ,NO,NZ,PL,PT,RO,RU,S D,SE,SG,SI,SK,SL,TJ,TM,TR ,TT,TZ,UA,UG,UZ,VN,YU,ZA, ZW (72)発明者 ユージン・エム・フルーダー アメリカ合衆国 ニュージャージー州 ロ ーウェー アールワイ 60−30 イースト リンカーンアベニュー126 アールワイ50 エスダブリュー−100 (72)発明者 スーレッシュ・ビー・シン アメリカ合衆国 ニュージャージー州 ロ ーウェー アールワイ 60−30 イースト リンカーンアベニュー126 アールワイ50 エスダブリュー−100 Fターム(参考) 5B075 ND03 UU18

Claims (58)

    【特許請求の範囲】
  1. 【請求項1】 複数の化学的およびテキスト的記述子を表すマトリックスにお
    ける第1化学的記述子と少なくとも1つの他の化学的記述子との間の類似性また
    は実質的類似性を計算するための方法において、 (a)化合物の収集体における各化合物に関する少なくとも1つの化学的記述
    子および少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがそれぞれの各テキストソースにおける記述子の発生回数
    を示す第2のステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記第1化学的記述子dと前記少なくとも1つの他の化学的記述子d との間の前記類似性を計算するために前記合成マトリックスの少なくとも1つ
    を使用する第4のステップと、 (e)前記第1化学的記述子に対する類似性の順序にランク付けされた前記少
    なくとも1つの他の化学的記述子の部分集合を少なくとも1つ出力する第5のス
    テップと を備えることを特徴とする方法。
  2. 【請求項2】 前記第1のステップが前記化合物収集体の化学結合表から原子
    対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請求
    項1記載の方法。
  3. 【請求項3】 前記第1のステップが記述子の指標および前記収集体内化合物
    の指標を作成するステップを更に含むことを特徴とする請求項1記載の方法。
  4. 【請求項4】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項1記載の方法。
  5. 【請求項5】 前記計算ステップが、前記マトリックスPΣの第i行と第j行
    との間のドット積を計算するステップを更に含むことを特徴とする請求項4記載
    の方法。
  6. 【請求項6】 請求項1記載の方法において、前記第1化学的記述子が初めは
    特別照会ベクトルqであり、当該方法は、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に備えることを特徴とする請求項1記載の方法。
  7. 【請求項7】 前記特別照会ベクトルqがqPΣ-l に等しいとして定義さ
    れることを特徴とする請求項6記載の方法。
  8. 【請求項8】 複数の化学的およびテキスト的記述子を表すマトリックスにお
    ける第1文書Vと少なくとも1つの他の文書Vとの間の類似性または実質的
    な類似性を計算するための方法において、 (a)各文書における各化合物に関する少なくとも1つの化学的記述子および
    少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがそれぞれの各テキストソースにおける記述子の発生回数
    を示す第2のステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記第1文書と前記少なくとも1つの他の文書との間の前記類似性を計
    算するために前記合成マトリックスの少なくとも1つを使用する第4のステップ
    と、 (e)前記第1文書に対する類似性の順序にランク付けされた前記少なくとも
    1つの他の文書の部分集合を少なくとも1つ出力する第5のステップと を備えることを特徴とする方法。
  9. 【請求項9】 前記第1のステップが前記化合物収集体の化学結合表から原子
    対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請求
    項8記載の方法。
  10. 【請求項10】 前記第1のステップが記述子の指標および前記収集体内化合
    物の指標を作成するステップを更に含むことを特徴とする請求項8記載の方法。
  11. 【請求項11】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項8記載の方法。
  12. 【請求項12】 前記計算ステップが、前記マトリックスQΣの第i行と第j
    行との間のドット積を計算するステップを更に含むことを特徴とする請求項11
    記載の方法。
  13. 【請求項13】 請求項11記載の方法において、前記第1文書が初めは特別
    照会ベクトルqであり、当該方法は、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に備えることを特徴とする請求項8記載の方法。
  14. 【請求項14】 前記特別照会ベクトルqがqPΣ1 に等しいとして定義
    されることを特徴とする請求項13記載の方法。
  15. 【請求項15】 複数の化学的およびテキスト的記述子を表すマトリックスに
    おける化学的記述子dと少なくとも1つの文書Vとの間の類似性または実質
    的な類似性を計算するための方法において、 (a)各文書における各化合物に関する少なくとも1つの化学的記述子および
    少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがそれぞれの各テキストソースにおける記述子の発生回数
    を示す第2のステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記少なくとも1つの文書Vの少なくとも1つと化学的記述子d
    の間の前記類似性を計算するために前記合成マトリックスの少なくとも1つを使
    用する第4のステップと、 (e)前記化学的記述子に対する類似性の順序にランク付けされた前記少なく
    とも1つの文書の部分集合を少なくとも1つ出力する第5のステップと を備えることを特徴とする方法。
  16. 【請求項16】 前記第1のステップが前記化合物収集体の化学結合表から原
    子対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請
    求項15記載の方法。
  17. 【請求項17】 前記第1のステップが記述子の指標および前記収集体内化合
    物の指標を作成するステップを更に含むことを特徴とする請求項15記載の方法
  18. 【請求項18】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項15記載の方法。
  19. 【請求項19】 前記計算ステップが、前記マトリックスPΣの第i行と前記
    マトリックスQΣの第j行との間のドット積を計算するステップを更に含むこと
    を特徴とする請求項18記載の方法。
  20. 【請求項20】 請求項15記載の方法において、前記化学的記述子が初めは
    特別照会ベクトルqであり、当該方法は、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に備えることを特徴とする方法。
  21. 【請求項21】 前記特別照会ベクトルqがqPΣ に等しいとして定義
    されることを特徴とする請求項20記載の方法。
  22. 【請求項22】 複数の化学的およびテキスト的記述子を表すマトリックスに
    おけるテキスト的記述子dと少なくとも1つの文書Vとの間の類似性または
    実質的な類似性を計算するための方法において、 (a)各文書における各化合物に関する少なくとも1つの化学的記述子および
    少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがそれぞれの各テキストソースにおける記述子の発生回数
    を示す第2のステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記少なくとも1つの文書Vの少なくとも1つとテキスト的記述子d との間の前記類似性を計算するために前記合成マトリックスの少なくとも1つ
    を使用する第4のステップと、 (e)前記化学的記述子に対する類似性の順序にランク付けされた前記少なく
    とも1つの文書の部分集合を少なくとも1つ出力する第5のステップと を備えることを特徴とする方法。
  23. 【請求項23】 前記第1のステップが前記化合物収集体の化学結合表から原
    子対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請
    求項22記載の方法。
  24. 【請求項24】 前記第1のステップが記述子の指標および前記収集体内化合
    物の指標を作成するステップを更に含むことを特徴とする請求項22記載の方法
  25. 【請求項25】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項22記載の方法。
  26. 【請求項26】 前記計算ステップが、前記マトリックスPΣの第i行と前記
    マトリックスQΣの第j行との間のドット積を計算するステップを更に含むこと
    を特徴とする請求項25記載の方法。
  27. 【請求項27】 請求項22記載の方法において、前記テキスト的記述子d が初めは特別照会ベクトルqであり、当該方法は、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に備えることを特徴とする請求項22記載の方法。
  28. 【請求項28】 前記特別照会ベクトルqがqPΣ に等しいとして定義
    されることを特徴とする請求項27記載の方法。
  29. 【請求項29】 コンピュータによる実行可能な命令を含むコンピュータによ
    り読取り可能な媒体であって、該命令は化学構造の探索可能な表現を生成するよ
    うに前記コンピュータに命令し、前記命令は、 (a)化合物収集体における各化合物に関する少なくとも1つの化学的記述子
    および少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがそれぞれの各テキストソースにおける記述子の発生回数
    を示す第2のステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記第1化学的記述子dと前記少なくとも1つの他の化学的記述子d との間の前記類似性を計算するために前記合成マトリックスの少なくとも1つ
    を使用する第4のステップと、 (e)前記第1化学的記述子に対する類似性の順序にランク付けされた前記少
    なくとも1つの他の化学的記述子の部分集合を少なくとも1つ出力する第5のス
    テップと を含むことを特徴とするコンピュータにより読取り可能な媒体。
  30. 【請求項30】 前記第1のステップが前記化合物収集体の化学結合表から原
    子対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請
    求項29記載のコンピュータにより読取り可能な媒体。
  31. 【請求項31】 前記第1のステップが記述子の指標および前記収集体内化合
    物の指標を作成するステップを更に含むことを特徴とする請求項29記載のコン
    ピュータにより読取り可能な媒体。
  32. 【請求項32】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項29記載のコンピュータにより読取り可能な媒体。
  33. 【請求項33】 前記計算ステップが、前記マトリックスPΣの第i行と第j
    行との間のドット積を計算するステップを更に含むことを特徴とする請求項32
    記載のコンピュータにより読取り可能な媒体。
  34. 【請求項34】 請求項29記載のコンピュータにより読取り可能な媒体にお
    いて、前記第1化学的記述子が初めは特別照会ベクトルqであり、前記命令は、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に含むことを特徴とするコンピュータにより読取り可能な媒体。
  35. 【請求項35】 前記特別照会ベクトルqがqPΣ-l に等しいとして定義
    されることを特徴とする請求項34記載のコンピュータにより読取り可能な媒体
  36. 【請求項36】 複数の化学的およびテキスト的記述子を有するマトリックス
    における第1テキストソースと少なくとも1つの他のテキストソースとの間の類
    似性を計算するためのコンピュータにより読取り可能な媒体であって、 (a)各テキストソースにおける各化合物に関する少なくとも1つの化学的記
    述子および少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがそれぞれの各テキストソースにおける記述子の発生回数
    を示す第2のステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記第1テキストソースVと前記少なくとも1つの他のテキストソー
    スVとの間の前記類似性を計算するために前記合成マトリックスの少なくとも
    1つを使用する第4のステップと、 (e)前記第1テキストソースに対する類似性の順序にランク付けされた前記
    少なくとも1つの他のテキストソースの部分集合を少なくとも1つ出力する第5
    のステップと を含むことを特徴とするコンピュータにより読取り可能な媒体。
  37. 【請求項37】 前記第1のステップが前記化合物収集体の化学結合表から原
    子対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請
    求項36記載のコンピュータにより読取り可能な媒体。
  38. 【請求項38】 前記第1のステップが記述子の指標および前記収集体内化合
    物の指標を作成するステップを更に含むことを特徴とする請求項36記載のコン
    ピュータにより読取り可能な媒体。
  39. 【請求項39】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項36記載のコンピュータにより読取り可能な媒体。
  40. 【請求項40】 前記計算ステップにおいて、前記マトリックスQΣの第i行
    と第j行との間のドット積を計算するステップを更に含むことを特徴とする請求
    項39記載のコンピュータにより読取り可能な媒体。
  41. 【請求項41】 請求項36記載のコンピュータにより読取り可能な媒体にお
    いて、前記第1文書が初めは特別照会ベクトルqであり、該媒体は、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に含むことを特徴とするコンピュータにより読取り可能な媒体。
  42. 【請求項42】 前記特別照会ベクトルqがqPΣ に等しいとして定義
    されることを特徴とする請求項41記載のコンピュータにより読取り可能な媒体
  43. 【請求項43】 複数の化学的およびテキスト的記述子を有するマトリックス
    における化学的記述子dと少なくとも1つのテキストソースVとの間の類似
    性を計算するためのコンピュータにより読取り可能な媒体であって、 (a)各テキストソースにおける各化合物に関する少なくとも1つの化学的記
    述子および少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがテキストソースにおける記述子の発生回数を示す第2の
    ステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記少なくとも1つのテキストソースVの少なくとも1つと化学的記
    述子dとの間の前記類似性を計算するために前記合成マトリックスの少なくと
    も1つを使用する第4のステップと、 (e)前記化学的記述子に対する類似性の順序にランク付けされた前記少なく
    とも1つのテキストソースの部分集合を少なくとも1つ出力する第5のステップ
    と を含むことを特徴とするコンピュータにより読取り可能な媒体。
  44. 【請求項44】 前記第1のステップが前記化合物収集体の化学結合表から原
    子対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請
    求項43記載のコンピュータにより読取り可能な媒体。
  45. 【請求項45】 前記第1のステップが記述子の指標および前記収集体内化合
    物の指標を作成するステップを更に含むことを特徴とする請求項43記載のコン
    ピュータにより読取り可能な媒体。
  46. 【請求項46】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項43記載のコンピュータにより読取り可能な媒体。
  47. 【請求項47】 前記計算ステップにおいて、前記マトリックスPΣの第i行
    と前記マトリックスQΣの第j行との間のドット積を計算するステップを更に含
    むことを特徴とする請求項46記載のコンピュータにより読取り可能な媒体。
  48. 【請求項48】 請求項43記載のコンピュータにより読取り可能な媒体にお
    いて、前記化学的記述子が初めは特別照会ベクトルqであり、該媒体は、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に含むことを特徴とするコンピュータにより読取り可能な媒体。
  49. 【請求項49】 前記特別照会ベクトルqがqPΣ に等しいとして定義
    されることを特徴とする請求項48記載のコンピュータにより読取り可能な媒体
  50. 【請求項50】 複数の化学的およびテキスト的記述子を有するマトリックス
    におけるテキスト的記述子dと少なくとも1つのテキストソースVとの間の
    類似性を計算するためのコンピュータにより読取り可能な媒体であって、 (a)各テキストソースにおける各化合物に関する少なくとも1つの化学的記
    述子および少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)各列がテキスト的および化学的記述を含むテキストソースを表す複数の
    列と、それぞれの各テキストソースと関連付けられる記述子を含む複数の行とを
    有する記述子マトリックスXを準備するステップであって、前記記述子マトリッ
    クスにおけるエントリがテキストソースにおける記述子の発生回数を示す第2の
    ステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記少なくとも1つのテキストソースVの少なくとも1つと化学的記
    述子dとの間の前記類似性を計算するために前記合成マトリックスの少なくと
    も1つを使用する第4のステップと、 (e)前記化学的記述子に対する類似性の順序にランク付けされた前記少なく
    とも1つのテキストソースの部分集合を少なくとも1つ出力する第5のステップ
    と を含むことを特徴とするコンピュータにより読取り可能な媒体。
  51. 【請求項51】 前記第1のステップが前記化合物収集体の化学結合表から原
    子対および位相ねじれ記述子を生成するステップを更に含むことを特徴とする請
    求項50記載のコンピュータにより読取り可能な媒体。
  52. 【請求項52】 前記第1のステップが記述子の指標および前記収集体内化合
    物の指標を作成するステップを更に含むことを特徴とする請求項50記載のコン
    ピュータにより読取り可能な媒体。
  53. 【請求項53】 前記第3のステップが、 記述子マトリックスX=PΣQであるようなマトリックスP,Σ、及び、Q を生成するステップを含み、 Pが左特異マトリックスと呼ばれるmxrマトリックス(rはXの階数)であ
    り、その列が非ゼロ固有値に対応するXXの固有ベクトルであり、 Qが右特異マトリックスと呼ばれるnxrマトリックスであり、その列が非ゼ
    ロ固有値に対応するXXの固有ベクトルであり、 Σがrxr対角マトリックスであり、特異値と呼ばれるその非ゼロ要素σ
    σ,...,σが前記固有値の平方根であって、そのプロパティがσ≧σ ≧...≧σである ことを特徴とする請求項50記載のコンピュータにより読取り可能な媒体。
  54. 【請求項54】 前記計算ステップにおいて、前記マトリックスPΣの第i行
    と前記マトリックスQΣの第j行との間のドット積を計算するステップを更に含
    むことを特徴とする請求項53記載のコンピュータにより読取り可能な媒体。
  55. 【請求項55】 請求項50記載のコンピュータにより読取り可能な媒体にお
    いて、前記テキスト的記述子dが初めは特別照会ベクトルqであり、該媒体は
    、 XがPΣ に等価の階数をkとするマトリックスであって、Xに最
    も近い最小平方値であるとしたときのマトリックスXを決定するステップと、 特別照会ベクトルをX上に投射するステップと を更に含むことを特徴とするコンピュータにより読取り可能な媒体。
  56. 【請求項56】 前記特別照会ベクトルqがqPΣ に等しいとして定義
    されることを特徴とする請求項55記載のコンピュータにより読取り可能な媒体
  57. 【請求項57】 複数の化学的およびテキスト的記述子を表すマトリックスに
    おける第1化学的記述子と少なくとも1つの他の化学的記述子との間の類似性ま
    たは実質的な類似性を計算するための方法において、 (a)化合物の収集体における各化合物に関する少なくとも1つの化学的記述
    子および少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)テキスト的および化学的記述子を含むテキストソースと、それぞれの各
    テキストソースと関連付けられた記述子とを有する記述子マトリックスXを準備
    するステップであって、前記記述子マトリックスにおけるエントリがテキストソ
    ースに対する記述子の関連性を示す第2のステップと、 (c)前記記述子マトリックスの特異値分解(SVD)を実施し合成マトリッ
    クスを生成する第3のステップと、 (d)前記第1化学的記述子dと前記少なくとも1つの他の化学的記述子d との間の前記類似性を計算するために前記合成マトリックスの少なくとも1つ
    を使用する第4のステップと、 (e)前記第1化学的記述子に対する類似性の順序にランク付けされた前記少
    なくとも1つの他の化学的記述子の部分集合を少なくとも1つ出力する第5のス
    テップと を備えることを特徴とする方法。
  58. 【請求項58】 複数の化学的およびテキスト的記述子を表すマトリックスに
    おける第1化学的記述子と少なくとも1つの他の化学的記述子との間の類似性ま
    たは実質的な類似性を計算するための方法において、 (a)化合物の収集体における各化合物に関する少なくとも1つの化学的記述
    子および少なくとも1つのテキスト的記述子を作成する第1のステップと、 (b)テキスト的および化学的記述子を含むテキストソースと、それぞれの各
    テキストソースと関連付けられた記述子とを有する記述子マトリックスXを準備
    するステップであって、前記記述子マトリックスにおけるエントリがテキストソ
    ースに対する記述子の関連性を示す第2のステップと、 (c)前記記述子マトリックスに分解演算を実施し合成マトリックスを生成す
    る第3のステップと、 (d)前記第1化学的記述子dと前記少なくとも1つの他の化学的記述子d
    との間の前記類似性を計算するために前記合成マトリックスの少なくとも1つ
    を使用する第4のステップと、 (e)前記第1化学的記述子に対する類似性の順序にランク付けされた前記少
    なくとも1つの他の化学的記述子の部分集合を少なくとも1つ出力する第5のス
    テップと を備えることを特徴とする方法。
JP2001513053A 1999-07-23 2000-07-24 テキスト感応分子指標付けシステム及びコンピュータにより実施、及び/又は、コンピュータにより支援されるその方法 Pending JP2003529123A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US14521099P 1999-07-23 1999-07-23
US60/145,210 1999-07-23
PCT/US2000/020070 WO2001008032A2 (en) 1999-07-23 2000-07-24 Method and storage/retrieval system of chemical substances in a database

Publications (1)

Publication Number Publication Date
JP2003529123A true JP2003529123A (ja) 2003-09-30

Family

ID=22512074

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001513053A Pending JP2003529123A (ja) 1999-07-23 2000-07-24 テキスト感応分子指標付けシステム及びコンピュータにより実施、及び/又は、コンピュータにより支援されるその方法

Country Status (6)

Country Link
US (2) US6332138B1 (ja)
EP (1) EP1328871A2 (ja)
JP (1) JP2003529123A (ja)
AU (1) AU6233800A (ja)
CA (1) CA2379515A1 (ja)
WO (1) WO2001008032A2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035172A (ja) * 2018-08-30 2020-03-05 富士通株式会社 生成方法、生成プログラム、および生成装置
JP2020187647A (ja) * 2019-05-16 2020-11-19 富士通株式会社 検索方法、検索プログラム、および情報処理装置

Families Citing this family (211)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11026768B2 (en) 1998-10-08 2021-06-08 Align Technology, Inc. Dental appliance reinforcement
US7912689B1 (en) * 1999-02-11 2011-03-22 Cambridgesoft Corporation Enhancing structure diagram generation through use of symmetry
US7295931B1 (en) * 1999-02-18 2007-11-13 Cambridgesoft Corporation Deriving fixed bond information
US7219020B1 (en) * 1999-04-09 2007-05-15 Axontologic, Inc. Chemical structure similarity ranking system and computer-implemented method for same
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
IL152198A0 (en) * 2000-04-12 2003-05-29 Janssen Pharmaceutica Nv Method and apparatus for detecting outliers in biological/pharmaceutical screening experiments
US7272509B1 (en) 2000-05-05 2007-09-18 Cambridgesoft Corporation Managing product information
US7356419B1 (en) 2000-05-05 2008-04-08 Cambridgesoft Corporation Deriving product information
CN1191540C (zh) * 2000-12-29 2005-03-02 国际商业机器公司 为文本文档语料库建立索引的方法和装置
US6930235B2 (en) * 2001-03-15 2005-08-16 Ms Squared System and method for relating electromagnetic waves to sound waves
US6654740B2 (en) * 2001-05-08 2003-11-25 Sunflare Co., Ltd. Probabilistic information retrieval based on differential latent semantic space
US20020169755A1 (en) * 2001-05-09 2002-11-14 Framroze Bomi Patel System and method for the storage, searching, and retrieval of chemical names in a relational database
US7228302B2 (en) * 2003-08-14 2007-06-05 Agilent Technologies, Inc. System, tools and methods for viewing textual documents, extracting knowledge therefrom and converting the knowledge into other forms of representation of the knowledge
US7308451B1 (en) 2001-09-04 2007-12-11 Stratify, Inc. Method and system for guided cluster based processing on prototypes
US7945600B1 (en) * 2001-05-18 2011-05-17 Stratify, Inc. Techniques for organizing data to support efficient review and analysis
US6978275B2 (en) * 2001-08-31 2005-12-20 Hewlett-Packard Development Company, L.P. Method and system for mining a document containing dirty text
US7124081B1 (en) * 2001-09-28 2006-10-17 Apple Computer, Inc. Method and apparatus for speech recognition using latent semantic adaptation
US6789084B2 (en) * 2001-11-21 2004-09-07 University Of North Texas Method for generating numerical values indicative of frequencies of selected features in objects, and a computer system implementing the method
JP3773447B2 (ja) * 2001-12-21 2006-05-10 株式会社日立製作所 サブスタンス間の二項関係表示方法
US6996575B2 (en) * 2002-05-31 2006-02-07 Sas Institute Inc. Computer-implemented system and method for text-based document processing
US20040133574A1 (en) * 2003-01-07 2004-07-08 Science Applications International Corporaton Vector space method for secure information sharing
US7437397B1 (en) * 2003-04-10 2008-10-14 At&T Intellectual Property Ii, L.P. Apparatus and method for correlating synchronous and asynchronous data streams
US7676358B2 (en) * 2003-09-24 2010-03-09 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
US8046212B1 (en) * 2003-10-31 2011-10-25 Access Innovations Identification of chemical names in text-containing documents
US11298209B2 (en) 2004-02-27 2022-04-12 Align Technology, Inc. Method and system for providing dynamic orthodontic assessment and treatment profiles
US7987099B2 (en) * 2004-02-27 2011-07-26 Align Technology, Inc. Dental data mining
US8874452B2 (en) 2004-02-27 2014-10-28 Align Technology, Inc. Method and system for providing dynamic orthodontic assessment and treatment profiles
US9492245B2 (en) 2004-02-27 2016-11-15 Align Technology, Inc. Method and system for providing dynamic orthodontic assessment and treatment profiles
US7904308B2 (en) 2006-04-18 2011-03-08 Align Technology, Inc. Method and system for providing indexing and cataloguing of orthodontic related treatment profiles and options
US7899827B2 (en) * 2004-03-09 2011-03-01 International Business Machines Corporation System and method for the indexing of organic chemical structures mined from text documents
US7933763B2 (en) * 2004-04-30 2011-04-26 Mdl Information Systems, Gmbh Method and software for extracting chemical data
US8316129B2 (en) * 2005-05-25 2012-11-20 Microsoft Corporation Data communication coordination with sequence numbers
WO2006135806A2 (en) * 2005-06-09 2006-12-21 Chemimage Corporation Forensic integrated search technology
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7576605B2 (en) * 2006-04-20 2009-08-18 Qualcomm Incorporated Low power output stage
US20110237446A1 (en) * 2006-06-09 2011-09-29 Chemlmage Corporation Detection of Pathogenic Microorganisms Using Fused Raman, SWIR and LIBS Sensor Data
US8140267B2 (en) * 2006-06-30 2012-03-20 International Business Machines Corporation System and method for identifying similar molecules
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8538743B2 (en) * 2007-03-21 2013-09-17 Nuance Communications, Inc. Disambiguating text that is to be converted to speech using configurable lexeme based rules
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US7878805B2 (en) 2007-05-25 2011-02-01 Align Technology, Inc. Tabbed dental appliance
WO2008156773A1 (en) * 2007-06-18 2008-12-24 Daniele Biasci Biological database index and query searching
US8738394B2 (en) 2007-11-08 2014-05-27 Eric E. Kuo Clinical data file
US20090158146A1 (en) * 2007-12-13 2009-06-18 Concert Technology Corporation Resizing tag representations or tag group representations to control relative importance
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8108189B2 (en) 2008-03-25 2012-01-31 Align Technologies, Inc. Reconstruction of non-visible part of tooth
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US7958107B2 (en) 2008-04-10 2011-06-07 Abo Enterprises, Llc Fuzzy keyword searching
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8092215B2 (en) 2008-05-23 2012-01-10 Align Technology, Inc. Smile designer
US9492243B2 (en) 2008-05-23 2016-11-15 Align Technology, Inc. Dental implant positioning
US8172569B2 (en) 2008-06-12 2012-05-08 Align Technology, Inc. Dental appliance
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8152518B2 (en) 2008-10-08 2012-04-10 Align Technology, Inc. Dental positioning appliance having metallic portion
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8292617B2 (en) 2009-03-19 2012-10-23 Align Technology, Inc. Dental wire attachment
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8765031B2 (en) 2009-08-13 2014-07-01 Align Technology, Inc. Method of forming a dental appliance
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
WO2011089450A2 (en) 2010-01-25 2011-07-28 Andrew Peter Nelson Jerram Apparatuses, methods and systems for a digital conversation management platform
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9241774B2 (en) 2010-04-30 2016-01-26 Align Technology, Inc. Patterned dental positioning appliance
US9211166B2 (en) 2010-04-30 2015-12-15 Align Technology, Inc. Individualized orthodontic treatment index
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9403238B2 (en) 2011-09-21 2016-08-02 Align Technology, Inc. Laser cutting
US9375300B2 (en) 2012-02-02 2016-06-28 Align Technology, Inc. Identifying forces on a tooth
US9220580B2 (en) 2012-03-01 2015-12-29 Align Technology, Inc. Determining a dental treatment difficulty
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9414897B2 (en) 2012-05-22 2016-08-16 Align Technology, Inc. Adjustment of tooth position in a virtual dental model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
AU2014278595B2 (en) 2013-06-13 2017-04-06 Apple Inc. System and method for emergency calls initiated by voice command
CN105453026A (zh) 2013-08-06 2016-03-30 苹果公司 基于来自远程设备的活动自动激活智能响应
US9018506B1 (en) * 2013-11-14 2015-04-28 Charles Jianping Zhou System and method for creating audible sound representations of atoms and molecules
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9610141B2 (en) 2014-09-19 2017-04-04 Align Technology, Inc. Arch expanding appliance
US10449016B2 (en) 2014-09-19 2019-10-22 Align Technology, Inc. Arch adjustment appliance
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9744001B2 (en) 2014-11-13 2017-08-29 Align Technology, Inc. Dental appliance with cavity for an unerupted or erupting tooth
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10504386B2 (en) 2015-01-27 2019-12-10 Align Technology, Inc. Training method and system for oral-cavity-imaging-and-modeling equipment
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US11931222B2 (en) 2015-11-12 2024-03-19 Align Technology, Inc. Dental attachment formation structures
US11554000B2 (en) 2015-11-12 2023-01-17 Align Technology, Inc. Dental attachment formation structure
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US11596502B2 (en) 2015-12-09 2023-03-07 Align Technology, Inc. Dental attachment placement structure
US11103330B2 (en) 2015-12-09 2021-08-31 Align Technology, Inc. Dental attachment placement structure
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
WO2017161250A1 (en) 2016-03-17 2017-09-21 Elsevier, Inc. Systems and methods for electronic searching of materials and material properties
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
EP3471599A4 (en) 2016-06-17 2020-01-08 Align Technology, Inc. INTRAORAL DEVICES WITH SENSOR
US10383705B2 (en) 2016-06-17 2019-08-20 Align Technology, Inc. Orthodontic appliance performance monitor
CN115869098A (zh) 2016-07-27 2023-03-31 阿莱恩技术有限公司 具有牙科诊断能力的口内扫描仪
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
WO2018085718A2 (en) 2016-11-04 2018-05-11 Align Technology, Inc. Methods and apparatuses for dental images
US11376101B2 (en) 2016-12-02 2022-07-05 Align Technology, Inc. Force control, stop mechanism, regulating structure of removable arch adjustment appliance
WO2018102702A1 (en) 2016-12-02 2018-06-07 Align Technology, Inc. Dental appliance features for speech enhancement
US10993783B2 (en) 2016-12-02 2021-05-04 Align Technology, Inc. Methods and apparatuses for customizing a rapid palatal expander
EP3547952B1 (en) 2016-12-02 2020-11-04 Align Technology, Inc. Palatal expander
US10548700B2 (en) 2016-12-16 2020-02-04 Align Technology, Inc. Dental appliance etch template
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US10779718B2 (en) 2017-02-13 2020-09-22 Align Technology, Inc. Cheek retractor and mobile device holder
JP6883120B2 (ja) * 2017-03-03 2021-06-09 パーキンエルマー インフォマティクス, インコーポレイテッド 化学情報を含む文書の検索および索引付けのためのシステムおよび方法
US10613515B2 (en) 2017-03-31 2020-04-07 Align Technology, Inc. Orthodontic appliances including at least partially un-erupted teeth and method of forming them
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US11045283B2 (en) 2017-06-09 2021-06-29 Align Technology, Inc. Palatal expander with skeletal anchorage devices
CN110769777B (zh) 2017-06-16 2023-08-11 阿莱恩技术有限公司 牙齿类型和萌出状态的自动检测
US10639134B2 (en) 2017-06-26 2020-05-05 Align Technology, Inc. Biosensor performance indicator for intraoral appliances
US10885521B2 (en) 2017-07-17 2021-01-05 Align Technology, Inc. Method and apparatuses for interactive ordering of dental aligners
WO2019018784A1 (en) 2017-07-21 2019-01-24 Align Technology, Inc. ANCHOR OF CONTOUR PALATIN
EP4278957A3 (en) 2017-07-27 2024-01-24 Align Technology, Inc. System and methods for processing an orthodontic aligner by means of an optical coherence tomography
US11633268B2 (en) 2017-07-27 2023-04-25 Align Technology, Inc. Tooth shading, transparency and glazing
US11116605B2 (en) 2017-08-15 2021-09-14 Align Technology, Inc. Buccal corridor assessment and computation
WO2019036677A1 (en) 2017-08-17 2019-02-21 Align Technology, Inc. SURVEILLANCE OF CONFORMITY OF DENTAL DEVICE
US10813720B2 (en) 2017-10-05 2020-10-27 Align Technology, Inc. Interproximal reduction templates
WO2019084326A1 (en) 2017-10-27 2019-05-02 Align Technology, Inc. OTHER BORE ADJUSTMENT STRUCTURES
EP3703608B1 (en) 2017-10-31 2023-08-30 Align Technology, Inc. Determination of a dental appliance having selective occlusal loading and controlled intercuspation
CN115252177A (zh) 2017-11-01 2022-11-01 阿莱恩技术有限公司 自动治疗规划
WO2019100022A1 (en) 2017-11-17 2019-05-23 Align Technology, Inc. Orthodontic retainers
CN114948315A (zh) 2017-11-30 2022-08-30 阿莱恩技术有限公司 用于监测口腔矫治器的传感器
WO2019118876A1 (en) 2017-12-15 2019-06-20 Align Technology, Inc. Closed loop adaptive orthodontic treatment methods and apparatuses
US10980613B2 (en) 2017-12-29 2021-04-20 Align Technology, Inc. Augmented reality enhancements for dental practitioners
CN111655191B (zh) 2018-01-26 2022-04-08 阿莱恩技术有限公司 诊断性口内扫描和追踪
US11937991B2 (en) 2018-03-27 2024-03-26 Align Technology, Inc. Dental attachment placement structure
AU2019251474A1 (en) 2018-04-11 2020-10-29 Align Technology, Inc. Releasable palatal expanders
US10978178B2 (en) * 2018-10-11 2021-04-13 Merck Sharp & Dohme Corp. Systems and methods for providing a specificity-based network analysis algorithm for searching and ranking therapeutic molecules

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69229521T2 (de) * 1991-04-25 2000-03-30 Nippon Steel Corp Datenbankauffindungssystem
EP0829810A4 (en) * 1995-03-17 1999-07-14 Kureha Chemical Ind Co Ltd PROCESSOR, PROCESSING METHOD, AND MEDIUM FOR RECORDING BIOCHEMICAL INFORMATION
US5878373A (en) * 1996-12-06 1999-03-02 Regents Of The University Of California System and method for determining three-dimensional structure of protein sequences
WO2000062251A1 (en) * 1999-04-09 2000-10-19 Merck & Co., Inc. Chemical structure similarity ranking system and computer-implemented method for same

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035172A (ja) * 2018-08-30 2020-03-05 富士通株式会社 生成方法、生成プログラム、および生成装置
JP7081396B2 (ja) 2018-08-30 2022-06-07 富士通株式会社 生成方法、生成プログラム、および生成装置
JP2020187647A (ja) * 2019-05-16 2020-11-19 富士通株式会社 検索方法、検索プログラム、および情報処理装置
JP7322500B2 (ja) 2019-05-16 2023-08-08 富士通株式会社 検索方法、検索プログラム、および情報処理装置

Also Published As

Publication number Publication date
CA2379515A1 (en) 2001-02-01
US6332138B1 (en) 2001-12-18
WO2001008032A2 (en) 2001-02-01
WO2001008032A3 (en) 2003-05-08
EP1328871A2 (en) 2003-07-23
US20020087508A1 (en) 2002-07-04
AU6233800A (en) 2001-02-13
US6542903B2 (en) 2003-04-01

Similar Documents

Publication Publication Date Title
JP2003529123A (ja) テキスト感応分子指標付けシステム及びコンピュータにより実施、及び/又は、コンピュータにより支援されるその方法
CA2457693C (en) Method and system for enhanced data searching
Zdobnov et al. The EBI SRS server—recent developments
US6611825B1 (en) Method and system for text mining using multidimensional subspaces
US7685112B2 (en) Method and apparatus for retrieving and indexing hidden pages
US7519605B2 (en) Systems, methods and computer readable media for performing a domain-specific metasearch, and visualizing search results therefrom
JP4908214B2 (ja) サーチクエリのリファインメントを提供するシステム及び方法。
US6876930B2 (en) Automated pathway recognition system
US7809717B1 (en) Method and apparatus for concept-based visual presentation of search results
US7185001B1 (en) Systems and methods for document searching and organizing
US20060047649A1 (en) Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US20110137883A1 (en) Comparative web search system
US20080222145A1 (en) Visual method and apparatus for enhancing search result navigation
JPH11102376A (ja) 検索照会に関係のあるデータベースから抽出されたテキストを自動表示する方法および装置
Espe MalaCards: the human disease database
US20080281812A1 (en) Method and system for identifying expertise
JP5084673B2 (ja) 商品情報検索装置、方法及びシステム
Yoo et al. Integration of semantic-based bipartite graph representation and mutual refinement strategy for biomedical literature clustering
Izquierdo et al. A platform for keyword search and its application for covid-19 pandemic data
Willett An algorithm for chemical superstructure searching
Xuan et al. An active visual search interface for Medline
US20140114989A1 (en) Method and system for identifying expertise
CA2560159C (en) Method and apparatus for concept-based visual presentation of search results
Subhashini et al. The anatomy of web search result clustering and search engines
Tulipano et al. Natural language processing and visualization in the molecular imaging domain