JP2004152035A - Research gene product data classification system - Google Patents

Research gene product data classification system Download PDF

Info

Publication number
JP2004152035A
JP2004152035A JP2002316905A JP2002316905A JP2004152035A JP 2004152035 A JP2004152035 A JP 2004152035A JP 2002316905 A JP2002316905 A JP 2002316905A JP 2002316905 A JP2002316905 A JP 2002316905A JP 2004152035 A JP2004152035 A JP 2004152035A
Authority
JP
Japan
Prior art keywords
information
ranking
data
gene
disease
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2002316905A
Other languages
Japanese (ja)
Other versions
JP4257677B2 (en
Inventor
Junko Kohata
純子 香畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WORLD FUSION CO Ltd
Original Assignee
WORLD FUSION CO Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WORLD FUSION CO Ltd filed Critical WORLD FUSION CO Ltd
Priority to JP2002316905A priority Critical patent/JP4257677B2/en
Publication of JP2004152035A publication Critical patent/JP2004152035A/en
Application granted granted Critical
Publication of JP4257677B2 publication Critical patent/JP4257677B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To provide a research gene product data classification system for efficiently carrying out research target retrieval by classifying respective data such as gene or compound/medicine and disease according to working, effects, and symptoms or the like, and for removing noise data, a data group whose number of times of document excerpt is large, and data which do not belong to any classification in an early stage. <P>SOLUTION: Gene information, compound/medicine information, disease information and document information associated with the respective information are stored so as to be associated with each other in a data base, and when any of the gene, compound/medicine and disease from the data base is used as a keyword, the other information is scored in the order of high relevance, and ranking is prepared. Then, second ranking data are prepared from the first ranking data, and the second ranking information is arranged for each of the first ranking information. The similarity of the first ranking data is calculated by using the second ranking data, and the first ranking data are grouped according to the similarity. <P>COPYRIGHT: (C)2004,JPO

Description

【0001】
【発明の属する技術分野】
本発明は、コンピューターを用い、遺伝子と化合物と疾患の関連を検討することによって遺伝子とその産物の研究を行うために有用な候補となりうる遺伝子と化合物を効率的に検出するシステムに関する。
【0002】
【従来の技術】
遺伝子とその産物の研究を進めていく上では、最も重要だと思われる遺伝子とその産物を見つけることが有効である。そのために、重要だと思われる遺伝子候補を選択しなければならない。重要と思われる遺伝子とは特定の疾患に対して創薬のターゲットとなる遺伝子である。そのため遺伝子と疾患との関連を考えながら候補となる低分子化合物候補を特定し、最終的にスクリーニング試験を行っていく。この中で、疾患と遺伝子の関連を特定する作業と、選択された遺伝子群に対して化合物候補を作製する作業をするとき、遺伝子と化合物を直接結びつけるデータベースは無いために、遺伝子配列から特定していく作業と文献などを参考にこれらの遺伝子と化合物候補を作成する。実際には公開された論文と公共遺伝子データベースと産物のデータベースを参照にしながら、経験を頼りにその重要性を見つけていた。
【0003】
また、従来において、文献や遺伝子データベースなどを用いて遺伝子に関する情報や化合物等に関する情報を一次元的に検索することはできたが、それらの関連、つまり特定遺伝子に関与している化合物と関与の程度を見つけるには、勘と経験を頼りにしか見つけることができなかった。
【0004】
例えば、他人の研究成果を参照しながら遺伝子とその産物に関する情報を研究する場合、産物や遺伝子データベース、文献データベースを手動で遺伝子名、化合物名、検索し該当する遺伝子データベースの検索をおこない、文献の要約を印刷し、それを見ながら経験的に該当しそうな化合物を見つけては実験を繰り返し行っていた。
【0005】
これでは、客観的に検討することができず、また大量の文献をすべて読むことは不可能で、判断をあやまることも多く、無駄な実験を行ってしまうために研究費に無駄が生じていた。さらに、遺伝子データベースや文献データベースには更新頻度が高く手作業では実現不可能であった。
そして、特定の疾患に関してどのような遺伝子と化合物がよく研究対象になっているのかを知るためには、これら3要素の関連の強さをならべて見なければならないが、客観的にランク付けを行って見ることはできなかった。
【0006】
そのために、いまから研究課題になりそうな遺伝子や化合物、重要な化合物と遺伝子やすでに研究ステージが終了しているもの、さらに、研究しても無駄である遺伝子と化合物を見つけることは不可能であった。
加えて、近年の遺伝子に関する研究データが急増しているために検索で出てくるデータ量は非常に多く、その中から経験的にこれらの関連を知るには経験と多くの時間が必要であった。
【0007】
そこで、これらの問題を解決するために、日々更新される遺伝子や文献などのデータベースより、遺伝子に関連する疾患や化合物の関連性をコンピューターで見つけ、今後どの遺伝子や化合物を特定の疾患に関して検討していけばよいか、研究しても無駄な遺伝子や化合物は何かという指針を支援するための情報を随時研究者に提供するため、化合物・薬物と遺伝子あるいは、遺伝子と疾患などの組み合わせにおいて、特定の組み合わせで論じられた文献数を利用し、文献数を得点化したデータにより、特定データに関連の強いデータのスコア(文献数)によって順位付けを行うなど、相互のデータの関連の強さの尺度を測る方法がとられるようになってきている。
【0008】
【特許文献1】
特願2001−235345号
【0009】
【発明が解決しようとする課題】
しかしながら、上記改善方法を取ったとしても、特定データに関わるデータの抽出は可能であるが、抽出したデータの傾向に着目していないために、抽出したデータ間に関連性を見出すことはできない。
したがって、単純に順位付けされたデータから研究ターゲットを決定するには、順位付けされた後、その1つ1つのデータの特性を調査し、どのような実験過程もしくは研究分野で用いるデータなのかを知る調査を行う必要があり、ターゲットの決定までに時間を費やす可能性がある。
【0010】
本発明は上記課題を解決するために創案されたものであり、遺伝子や化合物・薬物、疾患の各データを作用、効力、症状等で分類することにより、研究ターゲット検索を効率化するとともに、ノイズデータ、文献引用回数の多いデータグループ、どの分類にも属さないデータを早い段階で除去できる研究遺伝子産物データ分類システムを提供することを目的とする。
【0011】
【発明を解決するための手段】
上記目的を達成するために、本発明の研究遺伝子産物データ分類システムでは、遺伝子情報、化合物/薬品情報、疾患情報とこれらの各情報に関する文献情報とを対応づけて記憶する手段と、遺伝子、化合物/薬品、疾患のいずれかをキーワードにして関連の強い順に他の情報にスコアをつけて順位付けを作成する手段とを備えたシステムにおいて、キーワードに関する文献情報と共有する文献数が多い情報から順位付けを行って並べられた第1のランキング情報と、前記第1のランキング情報の各情報に関する文献情報と共有する文献数が多い情報から順位付けを行い前記第1のランキング情報毎に並べられた第2のランキング情報とを作成することを特徴とする。
【0012】
また、本発明は、遺伝子情報、化合物/薬品情報、疾患情報とこれらの各情報に関する文献情報とを対応づけて記憶する手段と、遺伝子、化合物/薬品、疾患のいずれかをキーワードにして関連の強い順に他の情報にスコアをつけて順位付けを作成する手段とを備えたシステムにおいて、キーワードに関する文献情報と共有する文献数が多い情報から順位付けを行って並べられた第1のランキング情報と、前記第1のランキング情報の各情報に関する文献情報と共有する文献数が多い情報から順位付けを行い前記第1のランキング情報毎に並べられた第2のランキング情報とを作成し、第2のランキング情報の所定の順位以上の情報について第2のランキング情報間で比較し、情報の一致件数によって類似度の尺度を測ることを特徴とする。
【0013】
さらに、本発明では、遺伝子情報、化合物/薬品情報、疾患情報とこれらの各情報に関する文献情報とを対応づけて記憶する手段と、遺伝子、化合物/薬品、疾患のいずれかをキーワードにして関連の強い順に他の情報にスコアをつけて順位付けを作成する手段とを備えたシステムにおいて、キーワードに関する文献情報と共有する文献数が多い情報から順位付けを行って並べられた第1のランキング情報と、前記第1のランキング情報の各情報に関する文献情報と共有する文献数が多い情報から順位付けを行い前記第1のランキング情報毎に並べられた第2のランキング情報とを作成し、前記第1のランキング情報間の距離を第2のランキング情報のスコアを用いて算出することによって、情報間の類似度の尺度を測ることを特徴とする。
【0014】
上記の各手段を備えるシステムにより、遺伝子や化合物・薬物、疾患の各データを作用、効力、症状等で分類することが可能となり、研究ターゲット検索を効率化するとともに、ノイズデータ、文献引用回数の多いデータグループ、どの分類にも属さないデータを早い段階で除去できる。
【0015】
【発明の実施の形態】
本発明の一実施例の概要を図1に示す。以下図1に従って本発明の概要を述べることとし、細部の構成については図2以下を用いて説明することとする。
まず、前提として本発明における検出システムで用いるデータベースは、例えば、以下のような方法で構築される。
【0016】
(1)基礎となるデータベースの構築
(a)遺伝子データベースの構成
遺伝子データベースは、ヒトを含む遺伝子を有する全ての生物を対象とした遺伝子情報を格納する。格納時には、各遺伝子に対して遺伝子IDを割り当てる。遺伝子IDの他に格納するデータ項目は遺伝子名と遺伝子のシンボル、シンボルのエイリアス(同義語)およびMeshなどを利用した同義語を必須項目とし、LOCATIONの項目を含む場合もある。
(b)化合物・薬品データベースの構成
化合物・薬品データベースは、化合物や薬品情報を格納する。格納時には、各化合物・薬品に対して化合物・薬品IDを割り当てる。化合物・薬品IDの他に格納するデータ項目は化合物名または薬品名、分子量(molecular weight)、CASナンバー、Meshなど利用した同義語を必須項目とする。
(c)疾患データベースの構成
疾患データベースは、疾患情報を格納する。格納時には、各疾患に対して化疾患IDを割り当てる。疾患IDの他に格納するデータ項目は疾患名とMeshなどを利用した同義語を必須項目とする。
(d)文献(論文)データベースの構成
文献から抽出した文献(論文)情報データベースは、文献情報をデータ項目別に格納したデータベース。格納するデータ項目は、各文献に割り当てられた文献(論文)ID、論文名、著者名、論文雑誌名、出版日、要約、ケミカルリスト、CASナンバー、Meshを必須項目とする。
【0017】
(2)遺伝子/化合物・薬品/疾患と文献とを対応付けするデータベースの構築
(a)遺伝子/文献対応付けデータベースDB1の構成
上記遺伝子データベースに含まれる遺伝子に関連するキーワードが上記文献情報データベースの論文情報に含まれるかを判別し、遺伝子と論文の関係が決定すれば、遺伝子データベースと文献情報データベースを対応づけたデータを格納する。遺伝子ID、論文ID、要約文中の遺伝子名出現回数、論文タイトル名に遺伝子名の有無、Meshなどの同義語と遺伝子名が一致したかの有無、論文の出版日等のデータが格納される。
(b)化合物・薬品/文献対応付けデータベースDB2の構成
上記化合物・薬品データベースに含まれる化合物又は薬品に関連するキーワードが上記文献情報データベースの論文情報に含まれるかを判別し、化合物・薬品と論文の関係が決定すれば、化合物・薬品データベースと文献情報データベースを対応づけたデータを格納する。
化合物ID、論文ID、要約文中の化合物出現回数、論文タイトル名に化合物名の有無、ケミカルリストと化合物が一致したかの有無、論文の出版日等のデータが格納される。
(c)疾患/文献対応付けデータベースDB3の構成
上記疾患データベースに含まれる疾患に関連するキーワードが上記文献情報データベースの論文情報に含まれるかを判別し疾患と論文の関係が決定すれば、疾患データベースと文献情報データベースを対応づけたデータを格納する。
疾患ID、論文ID、要約文中の疾患名出現回数、論文タイトル名に疾患名の有無、Meshなどの同義語と疾患名が一致したかの有無、論文の出版日等のデータが格納される。
【0018】
なお、上記データベースには、未完成の論文データがある場合があるので、未完成データの場合には未完成であるという情報を入れておき、次回の更新時に文献(論文)データを更新できるようにしておく。論文のデータが削除されているなど情報を取得できなかった論文IDを削除する。情報を取得できなかった論文IDを、上記DB1、DB2、DB3の各々のデータベースから削除する。
一方、上記DB1、DB2、DB3の各々のデータベースに論文の出版日データを論文の情報から取得して更新する。これを利用して画面出力時、文献(論文)の出版件数のチャートを表示する。
さて、遺伝子/文献対応付けデータベースDB1、化合物・薬品/文献対応付けデータベースDB2、疾患/文献対応付けデータベースDB3の各データベースファイルは、概略、図2(A)、図2(B)、図2(C)のように構成されている。
【0019】
DB1では、遺伝子名に対して割り当てられた遺伝子IDに対してその遺伝子名またはシンボル、エイリアス、同義語が文献(論文)内に記載されている場合には、その文献に割り当てられているIDが遺伝子IDに対して列挙された状態で格納される。図2(A)では、遺伝子IDのG1に関する情報が記載されている文献には、T14、T25、T27、T90、その他の文献が存在することを示している。また、G2に関する情報が記載されている文献には、T2、T8、T25、T30等があり、T25の文献には、G1及びG2の両方の情報が記載されていることがわかる。付加情報の欄には、文献の要約文中の遺伝子名出現回数、論文タイトル名に遺伝子名の有無、Meshなどの同義語と遺伝子名が一致したかの有無、論文の出版日等のデータが格納される。
【0020】
同様に図2(B)では、例えば、化合物・薬品IDのC1に関する情報が記載されている文献には、T1、T4、T14、T100、その他の文献が存在することを示している。この図2(B)と図2(A)とを比較すると、T14の文献にはG1とC1の情報がT90の文献には、G1とC2の情報が記載されていることがわかる。付加情報の欄には、文献の要約文中の化合物・薬品出現回数、論文タイトル名に化合物名・薬品名の有無、ケミカルリストと化合物・薬品が一致したかの有無、論文の出版日等のデータが格納される。
【0021】
また、図2(C)では、例えば、疾患IDのD1に関する情報が記載されている文献には、T35、T46、T58、T77等が存在することを示している。図2(C)と図2(A)と図2(B)とを比較すると、T14の文献には、G1とC1とD2の情報が記載されていることがわかる。付加情報の欄には、文献の要約文中の疾患名出現回数、論文タイトル名に疾患名の有無、Meshなどの同義語と疾患名が一致したかの有無、論文の出版日等のデータが格納される。
次に類似度を測る最初のステップとして、順位付け(ランキング)について述べる。
ここでのランキングの方法は、共有する論文IDの多い順に順位付けを行うものである。例えば、図2を用いて説明すると、遺伝子IDのG1をキーワードにして、疾患のランキングを行う場合には、G1についての文献情報と疾患IDのD1、D2、・・・、Dn(データベースの最後のデータ)までの各データについての文献情報を逐次比較し、共通する文献の件数を累計して累計の件数の多い疾患から順に並べるようにする。
【0022】
G1とD1との文献情報を比較すると、図2で表示されている部分からは、共通文献がないが、G1とD2との文献情報を比較すると、図2で表示されている部分からは、T14とT90の2件が共通文献情報として得られる。このようにしてデータベースに格納されているデータを次々と参照していき、共通論文件数の多い疾患IDを順にならべ、これを記憶する。
特定の遺伝子をキーワードにして、疾患のランキングを行う場合を説明したが、特定の遺伝子をキーワードにして、化合物・薬品についてランキングを行う場合、特定の化合物・薬品をキーワードにして遺伝子あるいは疾患についてランキングを行う場合、特定の疾患をキーワードにして遺伝子あるいは化合物・薬品についてランキングを行う場合等についても同様の処理が行われる。
次に、データ分類システムを図1にしたがって説明すると、S1で遺伝子、化合物・薬品、疾患のいずれかのカテゴリからキーワードとなるデータを選び、ランキングを行いたいカテゴリを選択する。
【0023】
遺伝子/文献対応付データベースDB1、化合物・薬品/文献対応付データベースDB2、疾患/文献対応付データベースDB3の各データを用いて、特定のキーワードについて上述した方法によりS2でランキングを実行すると、選択されたカテゴリについて第1のランキングデータbn(n=1,2,3,・・・・n)が得られる(S3)。
S4では、さらにランキングデータbnの中から特定のデータbiをキーワードとして選び、ランキングを行いたいカテゴリを選ぶ。遺伝子/文献対応付データベースDB1、化合物・薬品/文献対応付データベースDB2、疾患/文献対応付データベースDB3の各データを用い、この選択されたキーワードデータbiについて上述した方法でランキングを実行し、選択されたカテゴリについて第2のランキングデータcim(m=1,2,3,・・・m)を得る(S6)。そして、S7でb1からbnまでの各データに対するランキングデータが得られるまで、上記のランキング処理を実行し、それが終了すると、S8でbnの各データ間の類似度を計算して、類似度によりbnデータを分類する。分類されたデータ毎に登録し、p個のグループ(カテゴリ)を作成する。以上で、データ分類処理は終了する。
【0024】
図3は、上述した第1のランキングデータbn(n=1,2,3,・・・・n)の各データについて作成された第2のランキングデータcnm(n=1,2,3,・・・・n、m=1,2,3,・・・m)をランキング順位の高いものから並べたものである。ここで、bnの各データ間の類似度を測る手法は、次のとおりである。
例えば、順位が上位100のデータcnm(m≦100)に絞って考える。この上位何番目までのデータを選ぶかという閾値は適宜定められる。
bnの各データ(これらのデータのまとまりをb群とする)についてのランキングデータcnm(m≦100)を比較し、データ一致数の多いb群のデータ同士程類似度が高い。例えばb1とb2の類似度を測る場合には、b1に関するランキングデータ c11からc1m(m≦100)までのデータと、b2に関するランキングデータc21からc2m(m≦100)までのデータを比較し、同じデータがいくつあるかを算出する。例えばc11とc23が同じデータで、c14とc21とが同じデータであれば、この時点で2件がカウントされる。同様にして、その他に同じデータがないかチェックをしてゆく。そして最終的に一致データが何件あったかが、算出される。同様にして、b1とb3との類似度を計算し、bnまで同じ作業を繰り返す。次にb2とb3からbnまでとを各々比較して、類似度を算出する。bn−1とbnとの間の類似度が算出された時点、すなわち、b群に属するデータのすべての組み合わせについて類似度が算出されたときに、処理は終了する。
【0025】
次に、第2の類似度を測る方法を述べる。
b1からbnまでのb群のデータは、m次元の座標を有しているものと考えれば、b1は、座標(c11・・・c1m)を有することになり、bnは、座標(cn1・・・cnm)を有することになる。したがって、b群の各点(各データ)の間の距離としては、以下の式により計算される。
biとbjとの距離=Σ(cim−cjm)=(ci1−cj1)+(ci2−cj2)・・・・+(cim−cjm)
または、
(Σ(cim−cjm)1/2=((ci1−cj1)+・・+(cim−cjm)1/2のいずれかを用いる。
このように、各データ間の距離を計算し、距離が近い(短い)程、類似度が高くなる。しかし、cnmは、遺伝子、化合物/薬品、疾患のいずれかのID番号を示すものなので、このままでは距離を計算する上での座標とはならないので、実際には、このcnmにはランキングデータのスコアを割り当てる。
【0026】
スコアとは、図4で示されているFreq、または、[%]が該当する。図4の例は、キーワードにHALOPERIDOLという化合物(chemical)を選び、select next displayの項目でgene(遺伝子)を選んだ場合のランキング結果を表示したものである。ここで、Countはgene nameの欄に表示された遺伝子が記載されている文献数を示し、Freqは当該遺伝子が記載されているとともに、HALOPERIDOLという化合物も記載されている文献数を示す。[%]は以下の式であらわされた数値を意味する。
[%]=100×(Freq)/(Count)
第1のランキングデータと第2のランキングデータとの関係で言えば、Freqは、bi(i=1,2,・・n)という情報が記載されいるとともに、cim(m=1,2,3,・・m)という情報も記載されている文献数を示す。Countは、cimという情報が記載された文献数を示す。[%]の意味は上記の式と同じである。
以上のように、第1の方法又は第2の方法により、類似度が算出されると、類似度が近いもの同士を1つのグループとして、いくつかのグループに分類する。
【0027】
類似度によってグループに分類された例を図4から図8を用いて説明する。
ユーザーが使用する場合は、図4のようなキーワード入力画面において、遺伝子(シンボル名も可)、化合物・薬品(CASナンバーも可)、疾患のいずれかの名前またはその一部を入力し、キーワードのカテゴリ、遺伝子(gene)、化合物・薬品(chemical)、疾患(disease)のいずれかを選択する。また、select nextdisplayの項目で、gene、 chemical、 disease、のいずれのカテゴリのランキングリストを表示するかの選択を行う。
【0028】
以上の選択を行った後、GOボタンをクリックすると、上記で入力されたキーワードのカテゴリのデータベース(DB1、DB2、DB3のいずれか)とランキングリストを表示したいカテゴリのデータベースとを用いて上述したように、共通文献の件数を検出してその件数の多いものから順に表示する。
図4の例は、キーワードにHALOPERIDOLという化合物(chemical)を選び、select next displayの項目でgene(遺伝子)を選んだ場合のランキング結果を表示したものである。表示されている遺伝子は、本発明の第1のランキングデータに相当する。表示は、第1位から15位までであるが、実際にはデータベースDB1に格納されている遺伝子のすべてについてランキングされている。遺伝子名の横に数字が並んでいるが、上述したように、Countは当該遺伝子が記載されている文献数を示し、Freqは当該遺伝子が記載されているとともに、HALOPERIDOLという化合物も記載されている文献数を示す。
[%]は以下の式であらわされた数値を意味する。
[%]=100×(Freq)/(Count)
さらに、Time chartの項目は、HALOPERIDOLという化合物の情報と当該遺伝子の情報が両方記載された文献の出版件数の時間的な推移を示したものである。文献の出版日を取得し、出版年で出版件数の合計をとりグラフに表示している。
【0029】
図4で順位付けされた遺伝子のうち、2番目の[DRD1]:dopamine recepter D1をキーワードにし、キーワードカテゴリとしてgeneを選び、select next displayの項目でdisease(疾患)を選択し、ランキングの結果例を表示したのが図5である。疾患のランキングが、本発明の第2のランキングデータに相当する。ここでも、数字の意味は上記と同様で、Countは当該疾患が記載されている文献数を示し、Freqは当該疾患が記載されているとともに、DRD1という遺伝子も記載されている文献数を示す。[%]は上記同様以下のようになる。
[%]=100×(Freq)/(Count)
このようにして、図4で順位付けされている遺伝子のすべてについて疾患の順位付けを行う。そして、前述した方法で、類似度を算出して、類似度の近さによってグループ(カテゴリ)分けを行う。
【0030】
グループに分類した結果の例を示すのが、図6である。順位付けを表す数字に○印、×印、□印、△印が付されており、同じ印を付されたものが、同じグループに属する遺伝子となる。図6の例では、順位付けを表す数字に○印等を付して分類しているが、実際には、同じグループに属する遺伝子の欄や文字に、同一の色や模様を割り当てて分類することができる。
これを2次元平面にプロットして、視覚化したのが図7である。
図8は図7のプロットデータについて、分類上、同じカテゴリに入る範囲の大きさを示したものである。所定グループに分類されたデータがどのような特性をもつかは、例えば、図8の分布状態が遺伝子の例であるならば、横軸中央値付近にインターフェロン遺伝子(抗ウイルス作用を示す因子)が分布し、縦軸下方は偽遺伝子であるものが多いといったようなことがわかる。
特定薬品のHALOPERIDOLから影響を受ける遺伝子データ群を発症疾患別に分類したような形になっている。
また、分類されたデータが、薬品ならば、横軸の右へ行くほど毒性が強い、縦軸上方向程降圧効果が高いといったようなことがわかる。また、分類されたデータが、疾患ならば、横軸の右へ行く程ガンとの併発頻度が高い疾患で、縦軸上方向ほど女性に発症しやすい傾向があるといったようなことがわかる。
他にもいろいろな作用、効力、症状等により分類される。
【0031】
【発明の効果】
本発明の研究遺伝子産物データ分類システムによれば、特定データを適応・機能別に分類することができ、遺伝子や化合物・薬物、疾患の各データを作用、効力、症状等で分類することが可能となる。また、研究ターゲット検索を効率化するとともに、ノイズデータ、文献引用回数の多いデータグループ、どの分類にも属さないデータを早い段階で除去できる。
【図面の簡単な説明】
【図1】本発明のデータ分類処理の過程を示すフロー図である。
【図2】本発明のデータベースのファイル構成図である。
【図3】本発明の第1のランキングデータと第2のランキングデータの関係を示す図である。
【図4】本発明の第1のランキングデータの例を示す図である。
【図5】本発明の第2のランキングデータの例を示す図である。
【図6】本発明の第1のランキングデータをグループ分けした例を示す図である。
【図7】本発明においてグループ分けされたデータを視覚化するために2次元平面にプロットした図である。
【図8】本発明において2次元平面にプロットしたデータのグループ範囲を示す図である。
[0001]
TECHNICAL FIELD OF THE INVENTION
The present invention relates to a system for efficiently detecting genes and compounds that can be useful candidates for studying genes and their products by examining the relationship between genes, compounds and diseases using a computer.
[0002]
[Prior art]
In conducting research on genes and their products, it is effective to find genes and their products that seem to be the most important. To do so, we must select gene candidates that we think are important. Genes considered to be important are genes targeted for drug discovery for a specific disease. Therefore, candidate low molecular compounds are identified while considering the relationship between genes and diseases, and finally screening tests are performed. In this work, when performing the work of identifying the association between a disease and a gene and the work of creating a compound candidate for a selected gene group, since there is no database that directly links the gene and the compound, These genes and compound candidates are created with reference to the work and literature. In fact, he had used his experience to find out its importance, referring to published papers, public gene databases and product databases.
[0003]
In the past, it was possible to search one-dimensionally for information on genes and information on compounds using literature and gene databases, but the relationship between them, that is, the relationship between compounds involved in a specific gene and The only way to find out was to rely on intuition and experience.
[0004]
For example, when researching information on genes and their products while referring to the research results of others, manually search the product, gene database, and literature database for gene names, compound names, and search the relevant gene database, He printed the summary and looked at it to find compounds that were empirically relevant and repeated the experiment.
[0005]
In this case, it was impossible to objectively study, it was impossible to read a large amount of literature, and judgment was often abandoned, and unnecessary experiments were performed, which wasted research expenses. . Furthermore, gene databases and literature databases are frequently updated and cannot be implemented manually.
In order to know which genes and compounds are often studied for a specific disease, it is necessary to examine the strength of the association between these three factors. I couldn't go and see.
[0006]
For that reason, it is impossible to find genes and compounds that are likely to become research subjects, important compounds and genes, those that have already completed the research stage, and genes and compounds that are useless even after research. there were.
In addition, since the amount of research data on genes has increased rapidly in recent years, the amount of data that can be retrieved is extremely large, and it requires experience and a lot of time to empirically know these relationships. Was.
[0007]
In order to solve these problems, the database of genes and literature, which is updated daily, finds the relevance of diseases and compounds related to genes using a computer, and examines which genes and compounds in relation to specific diseases in the future. In order to provide researchers with information to help guide what genes and compounds are useless even if they do research, the combination of compounds / drugs and genes, or genes and diseases, Using the number of documents discussed in a specific combination, the score of the number of documents is used to rank the data according to the score (number of documents) that is strongly related to the specific data. The method of measuring the scale of is being taken.
[0008]
[Patent Document 1]
Japanese Patent Application No. 2001-235345
[0009]
[Problems to be solved by the invention]
However, even if the above-described improvement method is adopted, it is possible to extract data relating to specific data, but it is not possible to find relevance between the extracted data because attention is not paid to the tendency of the extracted data.
Therefore, in order to determine a research target from simply ranked data, after ranking, the characteristics of each piece of data are investigated, and what kind of experimental process or data to be used in the research field is determined. Knowing surveys need to be done and time may be spent on target determination.
[0010]
The present invention has been conceived in order to solve the above-described problems, and classifies each data of a gene, a compound, a drug, and a disease by action, efficacy, symptom, and the like, thereby improving the efficiency of research target search and reducing noise. An object of the present invention is to provide a research gene product data classification system capable of removing data, a data group with a large number of references, and data not belonging to any classification at an early stage.
[0011]
[Means for Solving the Invention]
In order to achieve the above object, the research gene product data classification system of the present invention comprises a means for storing gene information, compound / drug information, disease information and literature information relating to each of these information in association with each other, / A system that assigns a score to other information in the order of strong relevance using either the drug or the disease as a keyword, and creates a ranking. The first ranking information arranged and arranged, and the information having a large number of documents shared with the document information relating to each information of the first ranking information are ranked and arranged for each of the first ranking information. It is characterized by creating second ranking information.
[0012]
Further, the present invention provides a means for storing gene information, compound / drug information, and disease information in association with literature information relating to each of these information, and a method for associating a gene, compound / drug, or disease with a keyword. Means for assigning a score to other information in descending order to create a ranking, wherein the first ranking information and the first ranking information are arranged by ranking the document information related to the keyword and the information having the largest number of documents to be shared. And ranking the document information related to each piece of information of the first ranking information and the information having a large number of documents to be shared to create second ranking information arranged for each of the first ranking information, The second ranking information is compared with information of a predetermined rank or higher in the ranking information, and a similarity measure is measured based on the number of matching information.
[0013]
Further, according to the present invention, a means for associating and storing gene information, compound / drug information, and disease information with literature information relating to each of these information, and a related means using any one of the gene, compound / drug, and disease as a keyword Means for assigning a score to other information in descending order to create a ranking, wherein the first ranking information and the first ranking information are arranged by ranking the document information related to the keyword and the information having the largest number of documents to be shared. And ranking the document information related to each piece of information of the first ranking information and the information having a large number of documents to be shared to create second ranking information arranged for each of the first ranking information, By calculating the distance between the pieces of ranking information using the score of the second ranking information, a measure of the degree of similarity between the pieces of information is measured.
[0014]
With the system equipped with each of the above means, it becomes possible to classify each data of genes, compounds / drugs, diseases by action, efficacy, symptoms, etc., and to make research target search more efficient, noise data, Many data groups and data that does not belong to any classification can be removed at an early stage.
[0015]
BEST MODE FOR CARRYING OUT THE INVENTION
FIG. 1 shows an outline of an embodiment of the present invention. The outline of the present invention will be described below with reference to FIG. 1, and the detailed configuration will be described with reference to FIG.
First, as a premise, the database used in the detection system according to the present invention is constructed by, for example, the following method.
[0016]
(1) Construction of a basic database
(A) Gene database structure
The gene database stores genetic information for all organisms having genes including humans. At the time of storage, a gene ID is assigned to each gene. In addition to the gene ID, data items to be stored include a gene name and a gene symbol, a symbol alias (synonym), and a synonym using Mesh or the like as essential items, and may include a LOCATION item.
(B) Composition of compound / drug database
The compound / drug database stores compound and drug information. At the time of storage, a compound / drug ID is assigned to each compound / drug. The data items to be stored in addition to the compound / drug ID are mandatory items such as compound names or drug names, molecular weights, molecular weights, CAS numbers, and meshes.
(C) Structure of disease database
The disease database stores disease information. At the time of storage, a disease ID is assigned to each disease. The data items to be stored other than the disease ID are required to be synonyms using the disease name and Mesh.
(D) Document (article) database structure
The literature (article) information database extracted from the literature is a database in which document information is stored for each data item. The data items to be stored are required to be a document (article) ID, an article name, an author name, an article journal name, a publication date, an abstract, a chemical list, a CAS number, and a Mesh assigned to each article.
[0017]
(2) Construction of a database that associates genes / compounds / drugs / disease with literature
(A) Structure of Gene / Document Correlation Database DB1
Determine whether keywords related to the genes included in the gene database are included in the article information in the document information database, and if the relationship between the gene and the article is determined, store the data that associates the gene database with the document information database. I do. Data such as the gene ID, the article ID, the number of appearances of the gene name in the abstract, the presence or absence of the gene name in the article title, whether or not the synonym such as Mesh matches the gene name, and the publication date of the article are stored.
(B) Configuration of compound / drug / document association database DB2
It is determined whether a keyword related to a compound or drug included in the compound / drug database is included in the article information in the literature information database, and if the relationship between the compound / drug and the article is determined, the compound / drug database and the document information are determined. Stores data associated with a database.
Data such as the compound ID, the article ID, the number of occurrences of the compound in the abstract, the presence or absence of the compound name in the article title, whether or not the chemical list matches the compound, and the publication date of the article are stored.
(C) Structure of disease / document association database DB3
If the keyword related to the disease included in the disease database is included in the article information of the document information database and the relationship between the disease and the article is determined, the data in which the disease database and the document information database are associated is stored. .
Data such as the disease ID, the article ID, the number of appearances of the disease name in the abstract, the presence or absence of the disease name in the article title, whether or not the synonym such as Mesh matches the disease name, and the date of publication of the article are stored.
[0018]
In some cases, the database contains unfinished article data. In the case of unfinished data, information indicating that the article is unfinished is entered so that the document (article) data can be updated at the next update. Keep it. The article ID from which information could not be obtained, such as the article data being deleted, is deleted. The article ID for which information could not be obtained is deleted from each of the above databases DB1, DB2, and DB3.
On the other hand, the publication date data of the dissertation is acquired from each of the databases DB1, DB2, and DB3 from the dissertation information and updated. By utilizing this, a chart of the number of publications of documents (papers) is displayed at the time of screen output.
Now, each database file of the gene / document association database DB1, the compound / drug / document association database DB2, and the disease / document association database DB3 is schematically shown in FIG. 2 (A), FIG. 2 (B), and FIG. It is configured as in C).
[0019]
In DB1, if a gene ID or a symbol, an alias, or a synonym is described in a document (paper) for the gene ID assigned to the gene name, the ID assigned to the document is It is stored in a state enumerated for the gene ID. FIG. 2A shows that there are T14, T25, T27, T90, and other documents in the documents in which information on the gene ID G1 is described. Documents describing information on G2 include T2, T8, T25, T30, and the like, and it can be seen that the document of T25 describes both information on G1 and G2. The additional information column stores data such as the number of appearances of gene names in the abstract of the document, the presence or absence of the gene name in the title of the article, whether or not the gene name matches a synonym such as Mesh, and the date of publication of the article. Is done.
[0020]
Similarly, FIG. 2B shows that, for example, documents describing information on C1 of the compound / drug ID include T1, T4, T14, T100, and other documents. A comparison between FIG. 2B and FIG. 2A shows that the document of T14 describes the information of G1 and C1, and the document of T90 describes the information of G1 and C2. In the additional information column, data such as the number of occurrences of the compound / drug in the abstract of the document, the presence / absence of the compound / drug in the title of the paper, whether the chemical list matches the compound / drug, the date of publication of the paper, etc. Is stored.
[0021]
FIG. 2C shows that, for example, T35, T46, T58, T77, and the like exist in the literature in which information on the disease ID D1 is described. Comparing FIG. 2 (C), FIG. 2 (A), and FIG. 2 (B), it can be seen that the document of T14 describes information of G1, C1, and D2. The additional information column stores data such as the number of occurrences of the disease name in the abstract of the document, the presence or absence of the disease name in the title of the article, whether or not the synonym such as Mesh matches the name of the disease, and the date of publication of the article. Is done.
Next, ranking (ranking) will be described as the first step of measuring the similarity.
In this ranking method, ranking is performed in descending order of shared article IDs. For example, referring to FIG. 2, when ranking a disease using G1 of the gene ID as a keyword, the literature information on G1 and the disease IDs D1, D2,. ) Are sequentially compared, and the number of common documents is accumulated, so that the diseases are arranged in descending order of the total number of cases.
[0022]
When comparing the document information of G1 and D1, there is no common document from the part displayed in FIG. 2, but when comparing the document information of G1 and D2, the part displayed in FIG. T14 and T90 are obtained as common document information. In this way, the data stored in the database is successively referred to, and the disease IDs having the largest number of common papers are arranged in order and stored.
The case of ranking diseases using specific genes as keywords has been described.However, when ranking compounds and drugs using specific genes as keywords, ranking genes or diseases using specific compounds and drugs as keywords Is performed, the same processing is performed when ranking genes or compounds / drugs using a specific disease as a keyword.
Next, the data classification system will be described with reference to FIG. 1. In S1, data serving as a keyword is selected from any of the categories of gene, compound / drug, and disease, and a category to be ranked is selected.
[0023]
Using the data of the gene / document correspondence database DB1, the compound / drug / document correspondence database DB2, and the disease / document correspondence database DB3, the ranking was selected in S2 for the specific keyword by the method described above, and the selected keyword was selected. The first ranking data bn (n = 1, 2, 3,... N) for the category is obtained (S3).
In S4, specific data bi is further selected from the ranking data bn as a keyword, and a category to be ranked is selected. Using each data of the gene / document correspondence database DB1, the compound / drug / document correspondence database DB2, and the disease / document correspondence database DB3, the ranking is executed for the selected keyword data bi by the method described above, and the selected keyword data bi is selected. The second ranking data cim (m = 1, 2, 3,... M) is obtained for the category (S6). Then, the above ranking process is executed until ranking data for each data from b1 to bn is obtained in S7, and when the ranking process is completed, the similarity between each data of bn is calculated in S8, and the similarity is calculated by the similarity. Classify the bn data. A registration is made for each classified data, and p groups (categories) are created. Thus, the data classification process ends.
[0024]
FIG. 3 shows second ranking data cnm (n = 1, 2, 3,...) Created for each of the above-described first ranking data bn (n = 1, 2, 3,... N). .. N, m = 1, 2, 3,... M) are arranged in descending order of ranking. Here, the method of measuring the similarity between each data of bn is as follows.
For example, consider only the top 100 data cnm (m ≦ 100). The threshold of how many data items to select is selected as appropriate.
By comparing the ranking data cnm (m ≦ 100) of each of the bn data (a group of these data is referred to as a b group), the similarity is higher as the data of the b group having a larger number of data matches is higher. For example, when measuring the similarity between b1 and b2, the ranking data for b1 from c11 to c1m (m ≦ 100) and the ranking data for b2 from c21 to c2m (m ≦ 100) are compared and the same. Calculate how many data you have. For example, if c11 and c23 are the same data and c14 and c21 are the same data, two cases are counted at this time. In the same way, check whether there is any other identical data. Finally, how many pieces of matching data are found is calculated. Similarly, the similarity between b1 and b3 is calculated, and the same operation is repeated until bn. Next, the similarity is calculated by comparing b2 with b3 to bn. The process ends when the similarity between bn-1 and bn is calculated, that is, when the similarity is calculated for all combinations of data belonging to the group b.
[0025]
Next, a method of measuring the second similarity will be described.
Assuming that data of group b from b1 to bn has m-dimensional coordinates, b1 has coordinates (c11... c1m), and bn has coordinates (cn1. Cnm)). Therefore, the distance between each point (each data) of the b group is calculated by the following formula.
distance between bi and bj = Σ (cim−cjm)2= (Ci1-cj1)2+ (Ci2-cj2)2... + (cim-cjm)2
Or
(Σ (cim-cjm)2)1/2= ((Ci1-cj1)2+ · · + (Cim-cjm)2)1/2Use any of
As described above, the distance between the data is calculated, and the closer (shorter) the distance, the higher the similarity. However, since cnm indicates an ID number of a gene, a compound / drug, or a disease, it cannot be used as a coordinate for calculating a distance as it is. Assign.
[0026]
The score corresponds to Freq or [%] shown in FIG. The example of FIG. 4 shows a ranking result in a case where a compound (chemical) called HALOPERIDOL is selected as a keyword, and gene (gene) is selected in the item of select next display. Here, Count indicates the number of documents in which the gene indicated in the column of gene name is described, and Freq indicates the number of documents in which the gene and the compound HALOPERIDOL are described. [%] Means a numerical value represented by the following equation.
[%] = 100 × (Freq) / (Count)
In terms of the relationship between the first ranking data and the second ranking data, Freq describes information bi (i = 1, 2,... N) and cim (m = 1, 2, 3). ,... M) indicates the number of documents in which the information is also described. "Count" indicates the number of documents in which information "cim" is described. [%] Has the same meaning as in the above formula.
As described above, when the similarity is calculated by the first method or the second method, those having similar similarities are classified into several groups as one group.
[0027]
An example of classification into groups by similarity will be described with reference to FIGS.
When used by the user, enter a gene (symbol name is also possible), a compound / drug (CAS number is also acceptable), or any part of a disease or a part thereof on the keyword input screen as shown in FIG. Category, gene (gene), compound / drug (chemical), or disease (disease). In the item of select nextdisplay, a selection is made as to which of the categories, gene, chemical, and disease, a ranking list is displayed.
[0028]
After making the above selections, when the GO button is clicked, as described above, the database of the category of the keyword input above (any of DB1, DB2, DB3) and the database of the category for which the ranking list is to be displayed are used. Next, the number of common documents is detected and displayed in descending order of the number of common documents.
The example of FIG. 4 shows a ranking result in a case where a compound (chemical) called HALOPERIDOL is selected as a keyword, and gene (gene) is selected in the item of select next display. The displayed genes correspond to the first ranking data of the present invention. The display is from the first place to the 15th place, but in fact, all the genes stored in the database DB1 are ranked. Although numbers are arranged beside the gene name, as described above, Count indicates the number of documents in which the gene is described, Freq describes the gene, and also describes a compound called HALOPERIDOL Indicates the number of documents.
[%] Means a numerical value represented by the following equation.
[%] = 100 × (Freq) / (Count)
Further, the item of Time chart indicates a temporal change in the number of publications of documents in which information of a compound named HALOPERIDOL and information of the gene are both described. The publication date of the document is obtained, and the total number of publications in the publication year is displayed in a graph.
[0029]
Among the genes ranked in FIG. 4, the second [DRD1]: dopamine receptor D1 is set as a keyword, gene is selected as a keyword category, and disease (disease) is selected in the item of select next display, and an example of ranking results Is displayed in FIG. The disease ranking corresponds to the second ranking data of the present invention. Here also, the meaning of the numbers is the same as described above, Count indicates the number of documents in which the disease is described, and Freq indicates the number of documents in which the gene DRD1 is also described in addition to the disease. [%] Is as follows as described above.
[%] = 100 × (Freq) / (Count)
In this way, the diseases are ranked for all of the genes ranked in FIG. Then, the similarity is calculated by the above-described method, and grouping (category) is performed according to the similarity.
[0030]
FIG. 6 shows an example of the result of classification into groups. Circles, crosses, squares, and triangles are attached to the numbers representing the rankings, and those with the same mark are genes belonging to the same group. In the example of FIG. 6, classification is performed by adding a circle or the like to the number representing the ranking, but actually, the same color or pattern is assigned to the column or character of the gene belonging to the same group. be able to.
This is plotted on a two-dimensional plane and visualized in FIG.
FIG. 8 shows the size of the range of the plot data of FIG. For example, if the distribution state in FIG. 8 is an example of a gene, the interferon gene (a factor indicating an antiviral effect) is located near the median value on the horizontal axis if the data classified into the predetermined group has characteristics. It can be seen that there are many pseudo genes in the lower part of the vertical axis.
The gene data group affected by HALOPERIDOL of a specific drug is classified according to the onset disease.
Also, if the classified data is a drug, it can be seen that the toxicity is higher as going to the right side of the horizontal axis, and the antihypertensive effect is higher as going up the vertical axis. Also, if the classified data is a disease, it can be seen that the frequency of concurrent occurrence with cancer increases toward the right side of the horizontal axis, and that the tendency tends to occur in women toward the upper side of the vertical axis.
In addition, they are classified according to various effects, efficacy, symptoms, and the like.
[0031]
【The invention's effect】
According to the research gene product data classification system of the present invention, specific data can be classified by indication and function, and it is possible to classify each data of genes, compounds, drugs, and diseases by action, efficacy, symptoms, and the like. Become. In addition to improving the efficiency of research target search, noise data, data groups with a high number of citations, and data that does not belong to any classification can be removed at an early stage.
[Brief description of the drawings]
FIG. 1 is a flowchart showing a process of a data classification process of the present invention.
FIG. 2 is a diagram showing a file configuration of a database according to the present invention.
FIG. 3 is a diagram illustrating a relationship between first ranking data and second ranking data according to the present invention.
FIG. 4 is a diagram showing an example of first ranking data of the present invention.
FIG. 5 is a diagram showing an example of second ranking data of the present invention.
FIG. 6 is a diagram showing an example of grouping first ranking data according to the present invention.
FIG. 7 is a diagram plotted on a two-dimensional plane for visualizing data grouped in the present invention.
FIG. 8 is a diagram showing a group range of data plotted on a two-dimensional plane in the present invention.

Claims (3)

遺伝子情報、化合物/薬品情報、疾患情報とこれらの各情報に関する文献情報とを対応づけて記憶する手段と、遺伝子、化合物/薬品、疾患のいずれかをキーワードにして関連の強い順に他の情報にスコアをつけて順位付けを作成する手段とを備えたシステムにおいて、キーワードに関する文献情報と共有する文献数が多い情報から順位付けを行って並べられた第1のランキング情報と、前記第1のランキング情報の各情報に関する文献情報と共有する文献数が多い情報から順位付けを行い前記第1のランキング情報毎に並べられた第2のランキング情報とを作成することを特徴とする研究遺伝子産物データ分類システム。A means for storing gene information, compound / drug information, and disease information in association with literature information relating to each of these information, and using any of the gene, compound / drug, or disease as a keyword to sort other information in ascending order of relation Means for assigning a score to create a ranking, wherein first ranking information arranged by ranking the document information related to the keyword and information having a large number of documents to be shared, and the first ranking Research gene product data classification characterized by ranking the document information related to each piece of information and the information having a large number of documents to be shared, and creating second ranking information arranged for each of the first ranking information. system. 遺伝子情報、化合物/薬品情報、疾患情報とこれらの各情報に関する文献情報とを対応づけて記憶する手段と、遺伝子、化合物/薬品、疾患のいずれかをキーワードにして関連の強い順に他の情報にスコアをつけて順位付けを作成する手段とを備えたシステムにおいて、キーワードに関する文献情報と共有する文献数が多い情報から順位付けを行って並べられた第1のランキング情報と、前記第1のランキング情報の各情報に関する文献情報と共有する文献数が多い情報から順位付けを行い前記第1のランキング情報毎に並べられた第2のランキング情報とを作成し、第2のランキング情報の所定の順位以上の情報について第2のランキング情報間で比較し、情報の一致件数によって類似度の尺度を測ることを特徴とする研究遺伝子産物データ分類システム。A means for storing gene information, compound / drug information, and disease information in association with literature information relating to each of these information, and using any of the gene, compound / drug, or disease as a keyword to sort other information in ascending order of relation Means for assigning a score to create a ranking, wherein first ranking information arranged by ranking the document information related to the keyword and information having a large number of documents to be shared, and the first ranking The ranking is determined from the document information related to each piece of information and the information having a large number of documents to be shared, and second ranking information arranged for each of the first ranking information is created, and a predetermined ranking of the second ranking information is determined. Research gene product data characterized by comparing the above information between the second ranking information and measuring the similarity scale based on the number of matching information. Classification system. 遺伝子情報、化合物/薬品情報、疾患情報とこれらの各情報に関する文献情報とを対応づけて記憶する手段と、遺伝子、化合物/薬品、疾患のいずれかをキーワードにして関連の強い順に他の情報にスコアをつけて順位付けを作成する手段とを備えたシステムにおいて、キーワードに関する文献情報と共有する文献数が多い情報から順位付けを行って並べられた第1のランキング情報と、前記第1のランキング情報の各情報に関する文献情報と共有する文献数が多い情報から順位付けを行い前記第1のランキング情報毎に並べられた第2のランキング情報とを作成し、前記第1のランキング情報間の距離を第2のランキング情報のスコアを用いて算出することによって、情報間の類似度の尺度を測ることを特徴とする研究遺伝子産物データ分類システム。A means for storing gene information, compound / drug information, and disease information in association with literature information relating to each of these information, and using any of the gene, compound / drug, or disease as a keyword to sort other information in ascending order of relation Means for assigning a score to create a ranking, wherein first ranking information arranged by ranking the document information related to the keyword and information having a large number of documents to be shared, and the first ranking The ranking is performed from the document information related to each piece of information and the information having a large number of documents to be shared, the second ranking information arranged for each of the first ranking information is created, and the distance between the first ranking information is calculated. By using the score of the second ranking information to measure a similarity measure between the information. System.
JP2002316905A 2002-10-31 2002-10-31 Research gene product data classification system Expired - Lifetime JP4257677B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002316905A JP4257677B2 (en) 2002-10-31 2002-10-31 Research gene product data classification system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002316905A JP4257677B2 (en) 2002-10-31 2002-10-31 Research gene product data classification system

Publications (2)

Publication Number Publication Date
JP2004152035A true JP2004152035A (en) 2004-05-27
JP4257677B2 JP4257677B2 (en) 2009-04-22

Family

ID=32460438

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002316905A Expired - Lifetime JP4257677B2 (en) 2002-10-31 2002-10-31 Research gene product data classification system

Country Status (1)

Country Link
JP (1) JP4257677B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009520278A (en) * 2005-12-16 2009-05-21 ネクストバイオ Systems and methods for scientific information knowledge management
JP5180822B2 (en) * 2006-04-28 2013-04-10 独立行政法人理化学研究所 Bio-item search device, bio-item search terminal device, bio-item search method, and program
US9141913B2 (en) 2005-12-16 2015-09-22 Nextbio Categorization and filtering of scientific data
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009520278A (en) * 2005-12-16 2009-05-21 ネクストバイオ Systems and methods for scientific information knowledge management
US8275737B2 (en) 2005-12-16 2012-09-25 Nextbio System and method for scientific information knowledge management
US9141913B2 (en) 2005-12-16 2015-09-22 Nextbio Categorization and filtering of scientific data
US9183349B2 (en) 2005-12-16 2015-11-10 Nextbio Sequence-centric scientific information management
US9633166B2 (en) 2005-12-16 2017-04-25 Nextbio Sequence-centric scientific information management
US10127353B2 (en) 2005-12-16 2018-11-13 Nextbio Method and systems for querying sequence-centric scientific information
US10275711B2 (en) 2005-12-16 2019-04-30 Nextbio System and method for scientific information knowledge management
JP5180822B2 (en) * 2006-04-28 2013-04-10 独立行政法人理化学研究所 Bio-item search device, bio-item search terminal device, bio-item search method, and program

Also Published As

Publication number Publication date
JP4257677B2 (en) 2009-04-22

Similar Documents

Publication Publication Date Title
Wilczynski et al. Search strategies for identifying qualitative studies in CINAHL
US7167823B2 (en) Multimedia information retrieval method, program, record medium and system
Vergidis et al. Bibliometric analysis of global trends for research productivity in microbiology
CN109753516B (en) Method for sorting medical record search results and related device
JP2009517750A (en) Information retrieval
JP2006503351A5 (en)
CN111506727B (en) Text content category acquisition method, apparatus, computer device and storage medium
US20170046398A1 (en) Methods and systems for technology analysis and mapping
JP2009520278A (en) Systems and methods for scientific information knowledge management
US20080228752A1 (en) Technical correlation analysis method for evaluating patents
JP2007183859A (en) Information retrieval system, information retrieval method, and information management apparatus
US20050131882A1 (en) Methods and systems for technology analysis and mapping
JP4973503B2 (en) File search program, method and apparatus
US20050114302A1 (en) Method for fast searching and displaying a genealogical tree of patents from a patent database
CN107273405B (en) Intelligent retrieval system of electronic medical record files based on MeSH table
CN103186650B (en) A kind of searching method and device
JP2004152035A (en) Research gene product data classification system
KR101401225B1 (en) System for analyzing documents
JP4861573B2 (en) A system to predict the importance of research gene products
Daoud et al. York University at TREC 2011: Medical Records Track.
JP2014087536A (en) Medical information retrieval program and medical information retrieval system
Theodosiou et al. Non-linear correlation of content and metadata information extracted from biomedical article datasets
CN113343105A (en) Keyword page management system, method, equipment and computer readable storage medium
Vijayan et al. Comparative Analysis of Citation Based Scientometric Indicators of DESIDOC Journal of Library and Information Technology (DJLIT) and Annals of Library and Information Studies (ALIS) Journals Using SCImago Journal Rank for the Period 2016-2020
CN113408283A (en) Named entity identification method and device

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080930

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081129

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090106

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090126

R150 Certificate of patent or registration of utility model

Ref document number: 4257677

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120213

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150213

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term