JP4257677B2 - 研究遺伝子産物データ分類システム - Google Patents

研究遺伝子産物データ分類システム Download PDF

Info

Publication number
JP4257677B2
JP4257677B2 JP2002316905A JP2002316905A JP4257677B2 JP 4257677 B2 JP4257677 B2 JP 4257677B2 JP 2002316905 A JP2002316905 A JP 2002316905A JP 2002316905 A JP2002316905 A JP 2002316905A JP 4257677 B2 JP4257677 B2 JP 4257677B2
Authority
JP
Japan
Prior art keywords
information
ranking
gene
data
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002316905A
Other languages
English (en)
Other versions
JP2004152035A (ja
Inventor
純子 香畑
Original Assignee
株式会社 ワールドフュージョン
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社 ワールドフュージョン filed Critical 株式会社 ワールドフュージョン
Priority to JP2002316905A priority Critical patent/JP4257677B2/ja
Publication of JP2004152035A publication Critical patent/JP2004152035A/ja
Application granted granted Critical
Publication of JP4257677B2 publication Critical patent/JP4257677B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、コンピューターを用い、遺伝子と化合物と疾患の関連を検討することによって遺伝子とその産物の研究を行うために有用な候補となりうる遺伝子と化合物を効率的に検出するシステムに関する。
【0002】
【従来の技術】
遺伝子とその産物の研究を進めていく上では、最も重要だと思われる遺伝子とその産物を見つけることが有効である。そのために、重要だと思われる遺伝子候補を選択しなければならない。重要と思われる遺伝子とは特定の疾患に対して創薬のターゲットとなる遺伝子である。そのため遺伝子と疾患との関連を考えながら候補となる低分子化合物候補を特定し、最終的にスクリーニング試験を行っていく。この中で、疾患と遺伝子の関連を特定する作業と、選択された遺伝子群に対して化合物候補を作製する作業をするとき、遺伝子と化合物を直接結びつけるデータベースは無いために、遺伝子配列から特定していく作業と文献などを参考にこれらの遺伝子と化合物候補を作成する。実際には公開された論文と公共遺伝子データベースと産物のデータベースを参照にしながら、経験を頼りにその重要性を見つけていた。
【0003】
また、従来において、文献や遺伝子データベースなどを用いて遺伝子に関する情報や化合物等に関する情報を一次元的に検索することはできたが、それらの関連、つまり特定遺伝子に関与している化合物と関与の程度を見つけるには、勘と経験を頼りにしか見つけることができなかった。
【0004】
例えば、他人の研究成果を参照しながら遺伝子とその産物に関する情報を研究する場合、産物や遺伝子データベース、文献データベースを手動で遺伝子名、化合物名、検索し該当する遺伝子データベースの検索をおこない、文献の要約を印刷し、それを見ながら経験的に該当しそうな化合物を見つけては実験を繰り返し行っていた。
【0005】
これでは、客観的に検討することができず、また大量の文献をすべて読むことは不可能で、判断をあやまることも多く、無駄な実験を行ってしまうために研究費に無駄が生じていた。さらに、遺伝子データベースや文献データベースには更新頻度が高く手作業では実現不可能であった。
そして、特定の疾患に関してどのような遺伝子と化合物がよく研究対象になっているのかを知るためには、これら3要素の関連の強さをならべて見なければならないが、客観的にランク付けを行って見ることはできなかった。
【0006】
そのために、いまから研究課題になりそうな遺伝子や化合物、重要な化合物と遺伝子やすでに研究ステージが終了しているもの、さらに、研究しても無駄である遺伝子と化合物を見つけることは不可能であった。
加えて、近年の遺伝子に関する研究データが急増しているために検索で出てくるデータ量は非常に多く、その中から経験的にこれらの関連を知るには経験と多くの時間が必要であった。
【0007】
そこで、これらの問題を解決するために、日々更新される遺伝子や文献などのデータベースより、遺伝子に関連する疾患や化合物の関連性をコンピューターで見つけ、今後どの遺伝子や化合物を特定の疾患に関して検討していけばよいか、研究しても無駄な遺伝子や化合物は何かという指針を支援するための情報を随時研究者に提供するため、化合物・薬物と遺伝子あるいは、遺伝子と疾患などの組み合わせにおいて、特定の組み合わせで論じられた文献数を利用し、文献数を得点化したデータにより、特定データに関連の強いデータのスコア(文献数)によって順位付けを行うなど、相互のデータの関連の強さの尺度を測る方法がとられるようになってきている。
【0008】
【特許文献1】
特願2001−235345号
【0009】
【発明が解決しようとする課題】
しかしながら、上記改善方法を取ったとしても、特定データに関わるデータの抽出は可能であるが、抽出したデータの傾向に着目していないために、抽出したデータ間に関連性を見出すことはできない。
したがって、単純に順位付けされたデータから研究ターゲットを決定するには、順位付けされた後、その1つ1つのデータの特性を調査し、どのような実験過程もしくは研究分野で用いるデータなのかを知る調査を行う必要があり、ターゲットの決定までに時間を費やす可能性がある。
【0010】
本発明は上記課題を解決するために創案されたものであり、遺伝子や化合物・薬物、疾患の各データを作用、効力、症状等で分類することにより、研究ターゲット検索を効率化するとともに、ノイズデータ、文献引用回数の多いデータグループ、どの分類にも属さないデータを早い段階で除去できる研究遺伝子産物データ分類システムを提供することを目的とする。
【0011】
【発明を解決するための手段】
上記目的を達成するために、本発明の研究遺伝子産物データ分類システムでは、遺伝子情報となるID毎に該遺伝子情報を含む文献情報が対応づけられた遺伝子情報記憶手段と、化合物/薬品情報となるID毎に該化合物/薬品情報を含む文献情報が対応づけられた化合物/薬品情報記憶手段と、疾患情報となるID毎に該疾患情報を含む文献情報が対応づけられた疾患情報記憶手段と、前記遺伝子情報、化合物/薬品情報、疾患情報のカテゴリのいずれかのIDで管理されたキーワードを用い、前記遺伝子情報記憶手段、化合物/薬品情報記憶手段、疾患情報記憶手段のいずれかで前記キーワードのカテゴリに相当する第1の記憶手段から前記キーワードを含む第1の文献情報を抽出する手段と、前記第1の記憶手段とは異なる第2の記憶手段に記憶されている第2の文献情報を抽出し、前記第1の文献情報と第2の文献情報の両方で共通する文献の数を第2の記憶手段のID毎に集計する第1集計手段と、前記第1集計手段で集計された共通する文献の数が多い順にIDが並べられた第1のランキング情報を作成する手段と、前記第2の記憶手段と異なる第3の記憶手段のID毎の文献情報と第1のランキング情報のID毎の文献情報との共通する文献の数を集計する第2集計手段と、前記第1のランキング情報の各IDについて前記第2集計手段で集計された共通する文献の数が多い順に第3の記憶手段のIDが並べられた第2のランキング情報を作成する手段とを備えたことを特徴とする
【0012】
また、本発明は、請求項1に記載の研究遺伝子産物データ分類システムであって、前記第1のランキング情報の異なる2つのID間において、前記第2のランキング情報の所定順位以上の第3の記憶手段のIDを相互に比較し、該第3の記憶手段のIDの一致件数によって、前記第1のランキング情報の異なる2つのIDの類似度の尺度とすることを特徴とする
【0013】
さらに、本発明では、前記第1のランキング情報の各ID(b n )毎に並べられた第2のランキング情報のID(c nm )に、第1のランキング情報のID(b n )及び第2のランキング情報のID(b n とnが同じc nm )が含まれる文献数又は文献数に比例する数値を割り当てて、前記第1のランキング情報の各IDの多次元空間の座標と見なし、該座標から前記第1のランキング情報の異なる2つのID間の距離を算出し、該距離に基づき前記第1のランキング情報の異なる2つのIDの類似度の尺度とすることを特徴とする。
【0014】
上記の各手段を備えるシステムにより、遺伝子や化合物・薬物、疾患の各データを作用、効力、症状等で分類することが可能となり、研究ターゲット検索を効率化するとともに、ノイズデータ、文献引用回数の多いデータグループ、どの分類にも属さないデータを早い段階で除去できる。
【0015】
【発明の実施の形態】
本発明の一実施例の概要を図1に示す。以下図1に従って本発明の概要を述べることとし、細部の構成については図2以下を用いて説明することとする。
まず、前提として本発明における検出システムで用いるデータベースは、例えば、以下のような方法で構築される。
【0016】
(1)基礎となるデータベースの構築
(a)遺伝子データベースの構成
遺伝子データベースは、ヒトを含む遺伝子を有する全ての生物を対象とした遺伝子情報を格納する。格納時には、各遺伝子に対して遺伝子IDを割り当てる。遺伝子IDの他に格納するデータ項目は遺伝子名と遺伝子のシンボル、シンボルのエイリアス(同義語)およびMeshなどを利用した同義語を必須項目とし、LOCATIONの項目を含む場合もある。
(b)化合物・薬品データベースの構成
化合物・薬品データベースは、化合物や薬品情報を格納する。格納時には、各化合物・薬品に対して化合物・薬品IDを割り当てる。化合物・薬品IDの他に格納するデータ項目は化合物名または薬品名、分子量(molecular weight)、CASナンバー、Meshなど利用した同義語を必須項目とする。
(c)疾患データベースの構成
疾患データベースは、疾患情報を格納する。格納時には、各疾患に対して化疾患IDを割り当てる。疾患IDの他に格納するデータ項目は疾患名とMeshなどを利用した同義語を必須項目とする。
(d)文献(論文)データベースの構成
文献から抽出した文献(論文)情報データベースは、文献情報をデータ項目別に格納したデータベース。格納するデータ項目は、各文献に割り当てられた文献(論文)ID、論文名、著者名、論文雑誌名、出版日、要約、ケミカルリスト、CASナンバー、Meshを必須項目とする。
【0017】
(2)遺伝子/化合物・薬品/疾患と文献とを対応付けするデータベースの構築
(a)遺伝子/文献対応付けデータベースDB1の構成
上記遺伝子データベースに含まれる遺伝子に関連するキーワードが上記文献情報データベースの論文情報に含まれるかを判別し、遺伝子と論文の関係が決定すれば、遺伝子データベースと文献情報データベースを対応づけたデータを格納する。遺伝子ID、論文ID、要約文中の遺伝子名出現回数、論文タイトル名に遺伝子名の有無、Meshなどの同義語と遺伝子名が一致したかの有無、論文の出版日等のデータが格納される。
(b)化合物・薬品/文献対応付けデータベースDB2の構成
上記化合物・薬品データベースに含まれる化合物又は薬品に関連するキーワードが上記文献情報データベースの論文情報に含まれるかを判別し、化合物・薬品と論文の関係が決定すれば、化合物・薬品データベースと文献情報データベースを対応づけたデータを格納する。
化合物ID、論文ID、要約文中の化合物出現回数、論文タイトル名に化合物名の有無、ケミカルリストと化合物が一致したかの有無、論文の出版日等のデータが格納される。
(c)疾患/文献対応付けデータベースDB3の構成
上記疾患データベースに含まれる疾患に関連するキーワードが上記文献情報データベースの論文情報に含まれるかを判別し疾患と論文の関係が決定すれば、疾患データベースと文献情報データベースを対応づけたデータを格納する。
疾患ID、論文ID、要約文中の疾患名出現回数、論文タイトル名に疾患名の有無、Meshなどの同義語と疾患名が一致したかの有無、論文の出版日等のデータが格納される。
【0018】
なお、上記データベースには、未完成の論文データがある場合があるので、未完成データの場合には未完成であるという情報を入れておき、次回の更新時に文献(論文)データを更新できるようにしておく。論文のデータが削除されているなど情報を取得できなかった論文IDを削除する。情報を取得できなかった論文IDを、上記DB1、DB2、DB3の各々のデータベースから削除する。
一方、上記DB1、DB2、DB3の各々のデータベースに論文の出版日データを論文の情報から取得して更新する。これを利用して画面出力時、文献(論文)の出版件数のチャートを表示する。
さて、遺伝子/文献対応付けデータベースDB1、化合物・薬品/文献対応付けデータベースDB2、疾患/文献対応付けデータベースDB3の各データベースファイルは、概略、図2(A)、図2(B)、図2(C)のように構成されている。
【0019】
DB1では、遺伝子名に対して割り当てられた遺伝子IDに対してその遺伝子名またはシンボル、エイリアス、同義語が文献(論文)内に記載されている場合には、その文献に割り当てられているIDが遺伝子IDに対して列挙された状態で格納される。図2(A)では、遺伝子IDのG1に関する情報が記載されている文献には、T14、T25、T27、T90、その他の文献が存在することを示している。また、G2に関する情報が記載されている文献には、T2、T8、T25、T30等があり、T25の文献には、G1及びG2の両方の情報が記載されていることがわかる。付加情報の欄には、文献の要約文中の遺伝子名出現回数、論文タイトル名に遺伝子名の有無、Meshなどの同義語と遺伝子名が一致したかの有無、論文の出版日等のデータが格納される。
【0020】
同様に図2(B)では、例えば、化合物・薬品IDのC1に関する情報が記載されている文献には、T1、T4、T14、T100、その他の文献が存在することを示している。この図2(B)と図2(A)とを比較すると、T14の文献にはG1とC1の情報がT90の文献には、G1とC2の情報が記載されていることがわかる。付加情報の欄には、文献の要約文中の化合物・薬品出現回数、論文タイトル名に化合物名・薬品名の有無、ケミカルリストと化合物・薬品が一致したかの有無、論文の出版日等のデータが格納される。
【0021】
また、図2(C)では、例えば、疾患IDのD1に関する情報が記載されている文献には、T35、T46、T58、T77等が存在することを示している。図2(C)と図2(A)と図2(B)とを比較すると、T14の文献には、G1とC1とD2の情報が記載されていることがわかる。付加情報の欄には、文献の要約文中の疾患名出現回数、論文タイトル名に疾患名の有無、Meshなどの同義語と疾患名が一致したかの有無、論文の出版日等のデータが格納される。
次に類似度を測る最初のステップとして、順位付け(ランキング)について述べる。
ここでのランキングの方法は、共有する論文IDの多い順に順位付けを行うものである。例えば、図2を用いて説明すると、遺伝子IDのG1をキーワードにして、疾患のランキングを行う場合には、G1についての文献情報と疾患IDのD1、D2、・・・、Dn(データベースの最後のデータ)までの各データについての文献情報を逐次比較し、共通する文献の件数を累計して累計の件数の多い疾患から順に並べるようにする。
【0022】
G1とD1との文献情報を比較すると、図2で表示されている部分からは、共通文献がないが、G1とD2との文献情報を比較すると、図2で表示されている部分からは、T14とT90の2件が共通文献情報として得られる。このようにしてデータベースに格納されているデータを次々と参照していき、共通論文件数の多い疾患IDを順にならべ、これを記憶する。
特定の遺伝子をキーワードにして、疾患のランキングを行う場合を説明したが、特定の遺伝子をキーワードにして、化合物・薬品についてランキングを行う場合、特定の化合物・薬品をキーワードにして遺伝子あるいは疾患についてランキングを行う場合、特定の疾患をキーワードにして遺伝子あるいは化合物・薬品についてランキングを行う場合等についても同様の処理が行われる。
次に、データ分類システムを図1にしたがって説明すると、S1で遺伝子、化合物・薬品、疾患のいずれかのカテゴリからキーワードとなるデータを選び、ランキングを行いたいカテゴリを選択する。
【0023】
遺伝子/文献対応付データベースDB1、化合物・薬品/文献対応付データベースDB2、疾患/文献対応付データベースDB3の各データを用いて、特定のキーワードについて上述した方法によりS2でランキングを実行すると、選択されたカテゴリについて第1のランキングデータbn(n=1,2,3,・・・・n)が得られる(S3)。
S4では、さらにランキングデータbnの中から特定のデータbiをキーワードとして選び、ランキングを行いたいカテゴリを選ぶ。遺伝子/文献対応付データベースDB1、化合物・薬品/文献対応付データベースDB2、疾患/文献対応付データベースDB3の各データを用い、この選択されたキーワードデータbiについて上述した方法でランキングを実行し、選択されたカテゴリについて第2のランキングデータcim(m=1,2,3,・・・m)を得る(S6)。そして、S7でb1からbnまでの各データに対するランキングデータが得られるまで、上記のランキング処理を実行し、それが終了すると、S8でbnの各データ間の類似度を計算して、類似度によりbnデータを分類する。分類されたデータ毎に登録し、p個のグループ(カテゴリ)を作成する。以上で、データ分類処理は終了する。
【0024】
図3は、上述した第1のランキングデータbn(n=1,2,3,・・・・n)の各データについて作成された第2のランキングデータcnm(n=1,2,3,・・・・n、m=1,2,3,・・・m)をランキング順位の高いものから並べたものである。ここで、bnの各データ間の類似度を測る手法は、次のとおりである。
例えば、順位が上位100のデータcnm(m≦100)に絞って考える。この上位何番目までのデータを選ぶかという閾値は適宜定められる。
bnの各データ(これらのデータのまとまりをb群とする)についてのランキングデータcnm(m≦100)を比較し、データ一致数の多いb群のデータ同士程類似度が高い。例えばb1とb2の類似度を測る場合には、b1に関するランキングデータ c11からc1m(m≦100)までのデータと、b2に関するランキングデータc21からc2m(m≦100)までのデータを比較し、同じデータがいくつあるかを算出する。例えばc11とc23が同じデータで、c14とc21とが同じデータであれば、この時点で2件がカウントされる。同様にして、その他に同じデータがないかチェックをしてゆく。そして最終的に一致データが何件あったかが、算出される。同様にして、b1とb3との類似度を計算し、bnまで同じ作業を繰り返す。次にb2とb3からbnまでとを各々比較して、類似度を算出する。bn-1とbnとの間の類似度が算出された時点、すなわち、b群に属するデータのすべての組み合わせについて類似度が算出されたときに、処理は終了する。
【0025】
次に、第2の類似度を測る方法を述べる。
b1からbnまでのb群のデータは、m次元の座標を有しているものと考えれば、b1は、座標(c11・・・c1m)を有することになり、bnは、座標(cn1・・・cnm)を有することになる。したがって、b群の各点(各データ)の間の距離としては、以下の式により計算される。
biとbjとの距離=Σ(cim−cjm)2
=(ci1−cj1)2+(ci2−cj2)2・・・・+(cim−cjm)2
または、
(Σ(cim−cjm)21/2=((ci1−cj1)2+・・+(cim−cjm)21/2
のいずれかを用いる。
このように、各データ間の距離を計算し、距離が近い(短い)程、類似度が高くなる。しかし、cnmは、遺伝子、化合物/薬品、疾患のいずれかのID番号を示すものなので、このままでは距離を計算する上での座標とはならないので、実際には、このcnmにはランキングデータのスコアを割り当てる。
【0026】
スコアとは、図4で示されているFreq、または、[%]が該当する。図4の例は、キーワードにHALOPERIDOLという化合物(chemical)を選び、select next displayの項目でgene(遺伝子)を選んだ場合のランキング結果を表示したものである。ここで、Countはgene nameの欄に表示された遺伝子が記載されている文献数を示し、Freqは当該遺伝子が記載されているとともに、HALOPERIDOLという化合物も記載されている文献数を示す。[%]は以下の式であらわされた数値を意味する。
[%]=100×(Freq)/(Count)
第1のランキングデータと第2のランキングデータとの関係で言えば、Freqは、bi(i=1,2,・・n)という情報が記載されいるとともに、cim(m=1,2,3,・・m)という情報も記載されている文献数を示す。Countは、cimという情報が記載された文献数を示す。[%]の意味は上記の式と同じである。
以上のように、第1の方法又は第2の方法により、類似度が算出されると、類似度が近いもの同士を1つのグループとして、いくつかのグループに分類する。
【0027】
類似度によってグループに分類された例を図4から図8を用いて説明する。
ユーザーが使用する場合は、図4のようなキーワード入力画面において、遺伝子(シンボル名も可)、化合物・薬品(CASナンバーも可)、疾患のいずれかの名前またはその一部を入力し、キーワードのカテゴリ、遺伝子(gene)、化合物・薬品(chemical)、疾患(disease)のいずれかを選択する。また、select next displayの項目で、gene、 chemical、 disease、のいずれのカテゴリのランキングリストを表示するかの選択を行う。
【0028】
以上の選択を行った後、GOボタンをクリックすると、上記で入力されたキーワードのカテゴリのデータベース(DB1、DB2、DB3のいずれか)とランキングリストを表示したいカテゴリのデータベースとを用いて上述したように、共通文献の件数を検出してその件数の多いものから順に表示する。
図4の例は、キーワードにHALOPERIDOLという化合物(chemical)を選び、select next displayの項目でgene(遺伝子)を選んだ場合のランキング結果を表示したものである。表示されている遺伝子は、本発明の第1のランキングデータに相当する。表示は、第1位から15位までであるが、実際にはデータベースDB1に格納されている遺伝子のすべてについてランキングされている。遺伝子名の横に数字が並んでいるが、上述したように、Countは当該遺伝子が記載されている文献数を示し、Freqは当該遺伝子が記載されているとともに、HALOPERIDOLという化合物も記載されている文献数を示す。
[%]は以下の式であらわされた数値を意味する。
[%]=100×(Freq)/(Count)
さらに、Time chartの項目は、HALOPERIDOLという化合物の情報と当該遺伝子の情報が両方記載された文献の出版件数の時間的な推移を示したものである。文献の出版日を取得し、出版年で出版件数の合計をとりグラフに表示している。
【0029】
図4で順位付けされた遺伝子のうち、2番目の[DRD1]:dopamine recepter D1をキーワードにし、キーワードカテゴリとしてgeneを選び、select next displayの項目でdisease(疾患)を選択し、ランキングの結果例を表示したのが図5である。疾患のランキングが、本発明の第2のランキングデータに相当する。ここでも、数字の意味は上記と同様で、Countは当該疾患が記載されている文献数を示し、Freqは当該疾患が記載されているとともに、DRD1という遺伝子も記載されている文献数を示す。[%]は上記同様以下のようになる。
[%]=100×(Freq)/(Count)
このようにして、図4で順位付けされている遺伝子のすべてについて疾患の順位付けを行う。そして、前述した方法で、類似度を算出して、類似度の近さによってグループ(カテゴリ)分けを行う。
【0030】
グループに分類した結果の例を示すのが、図6である。順位付けを表す数字に○印、×印、□印、△印が付されており、同じ印を付されたものが、同じグループに属する遺伝子となる。図6の例では、順位付けを表す数字に○印等を付して分類しているが、実際には、同じグループに属する遺伝子の欄や文字に、同一の色や模様を割り当てて分類することができる。
これを2次元平面にプロットして、視覚化したのが図7である。
図8は図7のプロットデータについて、分類上、同じカテゴリに入る範囲の大きさを示したものである。所定グループに分類されたデータがどのような特性をもつかは、例えば、図8の分布状態が遺伝子の例であるならば、横軸中央値付近にインターフェロン遺伝子(抗ウイルス作用を示す因子)が分布し、縦軸下方は偽遺伝子であるものが多いといったようなことがわかる。
特定薬品のHALOPERIDOLから影響を受ける遺伝子データ群を発症疾患別に分類したような形になっている。
また、分類されたデータが、薬品ならば、横軸の右へ行くほど毒性が強い、縦軸上方向程降圧効果が高いといったようなことがわかる。また、分類されたデータが、疾患ならば、横軸の右へ行く程ガンとの併発頻度が高い疾患で、縦軸上方向ほど女性に発症しやすい傾向があるといったようなことがわかる。
他にもいろいろな作用、効力、症状等により分類される。
【0031】
【発明の効果】
本発明の研究遺伝子産物データ分類システムによれば、特定データを適応・機能別に分類することができ、遺伝子や化合物・薬物、疾患の各データを作用、効力、症状等で分類することが可能となる。また、研究ターゲット検索を効率化するとともに、ノイズデータ、文献引用回数の多いデータグループ、どの分類にも属さないデータを早い段階で除去できる。
【図面の簡単な説明】
【図1】本発明のデータ分類処理の過程を示すフロー図である。
【図2】 本発明のデータベースのファイル構成図である。
【図3】本発明の第1のランキングデータと第2のランキングデータの関係を示す図である。
【図4】 本発明の第1のランキングデータの例を示す図である。
【図5】 本発明の第2のランキングデータの例を示す図である。
【図6】 本発明の第1のランキングデータをグループ分けした例を示す図である。
【図7】本発明においてグループ分けされたデータを視覚化するために2次元平面にプロットした図である。
【図8】 本発明において2次元平面にプロットしたデータのグループ範囲を示す図である。

Claims (3)

  1. 遺伝子情報となるID毎に該遺伝子情報を含む文献情報が対応づけられた遺伝子情報記憶手段と、
    化合物/薬品情報となるID毎に該化合物/薬品情報を含む文献情報が対応づけられた化合物/薬品情報記憶手段と、
    疾患情報となるID毎に該疾患情報を含む文献情報が対応づけられた疾患情報記憶手段と、
    前記遺伝子情報、化合物/薬品情報、疾患情報のカテゴリのいずれかのIDで管理されたキーワードを用い、前記遺伝子情報記憶手段、化合物/薬品情報記憶手段、疾患情報記憶手段のいずれかで前記キーワードのカテゴリに相当する第1の記憶手段から前記キーワードを含む第1の文献情報を抽出する手段と、
    前記第1の記憶手段とは異なる第2の記憶手段に記憶されている第2の文献情報を抽出し、前記第1の文献情報と第2の文献情報の両方で共通する文献の数を第2の記憶手段のID毎に集計する第1集計手段と、
    前記第1集計手段で集計された共通する文献の数が多い順にIDが並べられた第1のランキング情報を作成する手段と、
    前記第2の記憶手段と異なる第3の記憶手段のID毎の文献情報と第1のランキング情報のID毎の文献情報との共通する文献の数を集計する第2集計手段と、
    前記第1のランキング情報の各IDについて前記第2集計手段で集計された共通する文献の数が多い順に第3の記憶手段のIDが並べられた第2のランキング情報を作成する手段とを備えたことを特徴とする研究遺伝子産物データ分類システム。
  2. 前記第1のランキング情報の異なる2つのID間において、前記第2のランキング情報の所定順位以上の第3の記憶手段のIDを相互に比較し、該第3の記憶手段のIDの一致件数によって、前記第1のランキング情報の異なる2つのIDの類似度の尺度とすることを特徴とする請求項1に記載の研究遺伝子産物データ分類システム。
  3. 前記第1のランキング情報の各ID(b n )毎に並べられた第2のランキング情報のID(c nm )に、第1のランキング情報のID(b n )及び第2のランキング情報のID(b n とnが同じc nm )が含まれる文献数又は文献数に比例する数値を割り当てて、前記第1のランキング情報の各IDの多次元空間の座標と見なし、該座標から前記第1のランキング情報の異なる2つのID間の距離を算出し、該距離に基づき前記第1のランキング情報の異なる2つのIDの類似度の尺度とすることを特徴とする請求項1に記載の研究遺伝子産物データ分類システム。
JP2002316905A 2002-10-31 2002-10-31 研究遺伝子産物データ分類システム Expired - Lifetime JP4257677B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002316905A JP4257677B2 (ja) 2002-10-31 2002-10-31 研究遺伝子産物データ分類システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002316905A JP4257677B2 (ja) 2002-10-31 2002-10-31 研究遺伝子産物データ分類システム

Publications (2)

Publication Number Publication Date
JP2004152035A JP2004152035A (ja) 2004-05-27
JP4257677B2 true JP4257677B2 (ja) 2009-04-22

Family

ID=32460438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002316905A Expired - Lifetime JP4257677B2 (ja) 2002-10-31 2002-10-31 研究遺伝子産物データ分類システム

Country Status (1)

Country Link
JP (1) JP4257677B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007075488A2 (en) * 2005-12-16 2007-07-05 Nextbio System and method for scientific information knowledge management
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
EP2015208A4 (en) * 2006-04-28 2010-09-22 Riken BIOITEM ARTICLE SEARCH, RESEARCH TERMINAL, RESEARCH PROCESS AND PROGRAM
WO2009111581A1 (en) 2008-03-04 2009-09-11 Nextbio Categorization and filtering of scientific data

Also Published As

Publication number Publication date
JP2004152035A (ja) 2004-05-27

Similar Documents

Publication Publication Date Title
Franceschet A comparison of bibliometric indicators for computer science scholars and journals on Web of Science and Google Scholar
Chadegani et al. A comparison between two main academic literature collections: Web of Science and Scopus databases
CN102428469B (zh) 用于检索和查看医疗图像的装置
JP2009517750A (ja) 情報検索
JP2006503351A5 (ja)
JPWO2006115260A1 (ja) 情報解析報告書自動作成装置、情報解析報告書自動作成プログラムおよび情報解析報告書自動作成方法
CN111506727B (zh) 文本内容类别获取方法、装置、计算机设备和存储介质
JP6529133B2 (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
US20050114302A1 (en) Method for fast searching and displaying a genealogical tree of patents from a patent database
CN107273405B (zh) 基于MeSH表的电子病历档案的智能检索系统
JP4257677B2 (ja) 研究遺伝子産物データ分類システム
JPWO2007088576A1 (ja) ファイル検索プログラム、方法及び装置
JPWO2014049708A1 (ja) 文書分析装置およびプログラム
Ikeda et al. Automatically Linking News Articles to Blog Entries.
JP4861573B2 (ja) 研究遺伝子産物の重要性を予測するシステム
JP2014087536A (ja) 医療情報検索プログラム及び医療情報検索システム
JP2003288355A (ja) データベースシステム
JP2008065417A (ja) 連想語群検索装置、システム及びコンテンツマッチ型広告システム
JP2020102021A (ja) 文書検索プログラム、文書検索方法および文書検索システム
Theodosiou et al. Non-linear correlation of content and metadata information extracted from biomedical article datasets
KR101078978B1 (ko) 문서 분류 시스템
JP3715413B2 (ja) 類似文書検索装置および類似文書検索方法
JP6245571B2 (ja) データ構造、データ生成装置、その方法及びプログラム
Vijayan et al. Comparative Analysis of Citation Based Scientometric Indicators of DESIDOC Journal of Library and Information Technology (DJLIT) and Annals of Library and Information Studies (ALIS) Journals Using SCImago Journal Rank for the Period 2016-2020
JP2012168892A (ja) グループ化装置およびエレメント抽出装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090126

R150 Certificate of patent or registration of utility model

Ref document number: 4257677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120213

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150213

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term