JP7341090B2 - 文献検索システム及び方法 - Google Patents

文献検索システム及び方法 Download PDF

Info

Publication number
JP7341090B2
JP7341090B2 JP2020045980A JP2020045980A JP7341090B2 JP 7341090 B2 JP7341090 B2 JP 7341090B2 JP 2020045980 A JP2020045980 A JP 2020045980A JP 2020045980 A JP2020045980 A JP 2020045980A JP 7341090 B2 JP7341090 B2 JP 7341090B2
Authority
JP
Japan
Prior art keywords
search
documents
document
literature
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020045980A
Other languages
English (en)
Other versions
JP2021149234A (ja
Inventor
修 今一
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2020045980A priority Critical patent/JP7341090B2/ja
Priority to EP21152950.8A priority patent/EP3882785A1/en
Priority to US17/201,135 priority patent/US20210294860A1/en
Publication of JP2021149234A publication Critical patent/JP2021149234A/ja
Application granted granted Critical
Publication of JP7341090B2 publication Critical patent/JP7341090B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B5/00ICT specially adapted for modelling or simulations in systems biology, e.g. gene-regulatory networks, protein interaction networks or metabolic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、概して、文献検索技術に関する。
コンピュータやインターネットの普及にともない、文献の電子化が急速に進んでいる。例えば、約3000万件の文献が検索対象となっており毎年100万件以上の文献が増加している生命科学系の文献データベースが知られている。生命科学系の利用者は、このような大量の文献の文献データベースの中から、自身の研究課題の解決に貢献する文献である有用文献を見つけ出して当該有用文献を研究開発に利用している。
文献データベースから文献を検索する代表的な技術としてキーワード検索技術がある。キーワード検索では複数のキーワードを組み合わせて検索が行われることがある。有用文献が見つけられない場合には、キーワードの追加又は削除などの試行錯誤が繰り返される。
キーワード検索とは異なる手法として類似文献検索技術がある。特許文献1には、類似文献検索技術の一例が開示されている。
特開2000-155758号公報
一般的なキーワード検索技術で有用文献を検索するためには、試行錯誤的にキーワードを組み合わせる必要があることが多く効率的ではない。また、試行錯誤的に選んだキーワードでは、大量の文献がヒットしたり、検索漏れが発生したりする可能性がある。
例えば、物質生産(目的化合物の生成)に関する代謝反応について検索する場合、代謝反応を構成する基質の名称(例えば、pyruvate)と、酵素の名称(例えば、acetolactate synthase)と、生成物の名称(例えば、2-acetolactate)との組み合わせで検索すると、ヒット件数が少なく、有用文献が十分に得られない。そこで、酵素を発現する遺伝子の名称(例えば、acetolactate synthaseを発現する遺伝子だと、alsS、brnP、budB、ilvB、ilvB1、ilvB2、ilvG、ilvH、ilvI、ilvK、ilvM、ilvN、ilvX、ilvY)で検索する方法が考えられる。しかし、その方法では、有用文献に該当しない文献(ノイズとしての文献)が多く含まれてしまう程にヒット件数が多くなることが想定される。遺伝子の名称での検索結果から物質生産に関する有用文献を得るために、当該検索結果を、物質生産に関わるキーワード(例えば、production、metabolic、engineering、biosynthesis、pathwayなど)で絞り込むことが考えられるが、物質生産に関し有用文献を漏れなく網羅的に検索するためのキーワード集合を作成することは困難である。
一方、一般的な類似文献検索で有用文献を検索するためには、利用者の検索要求に合致する文献を検索入力として与える必要がある。しかし、利用者の検索要求が変わるたびに検索入力となる文献を探す必要があり効率的ではない。また、検索入力とされた文献の特徴が過度に反映された検索結果が得られるため、得られる検索結果に偏りが生じること、言い換えれば、検索入力とされた文献が有用文献の一例であるとしても、ヒットした文献が必ずしも有用文献に該当しないことがあり得る。
別の方法として、有用文献と非有用文献を正解データとして機械学習アルゴリズムを用いて識別モデルを作成し、作成した識別モデルを用いて検索結果を有用文献と非有用文献に分類する方法も考えられる。しかし、機械学習アルゴリズムで精度よく分類するためには、大量の正解データを作成する必要があり、利便性が低いと考えられる。
上述の課題は、代謝反応についての文献検索以外の文献検索についてもあり得る。
本発明は上記現状を鑑み、利用者が当該利用者にとっての有用文献を効率的に見つけることができる文献検索技術を提供することを目的とする。
システムが、一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する。種文献は、有用文献に該当し得る文献である。システムが、検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する。システムが、当該抽出された一つ以上の文献の各々について、当該文献の文献スコアを、上述の有用文献モデルを基に決定し、上記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する。
本発明によると、種文献集合(有用文献となり得る文献集合)の特徴単語と重みとを含んだ有用文献モデルを用いて検索結果としての各文献について文献スコアを決定し、文献スコアの高い順に基づく検索結果が提供される。これにより、利用者が当該利用者にとっての有用文献を効率的に見つけることができる。前述した以外の課題、構成及び効果は、以下の実施形態の説明により明らかにされる。
実施形態1に係る文献検索システムの構成例を示す図。 特徴単語抽出部の構成例を示す図。 文献スコア付与部の構成例を示す図。 検索クライアントにおける検索要求入力画面の例を示す図。 検索クライアントにおける検索結果画面の例を示す図。 種文献設定クライアントにおける種文献設定画面の例を示す図。 種文献集合を登録する処理のシーケンス図。 有用文献の検索の処理のシーケンス図。 実施形態2の概要を示す図。 実施形態3の概要を示す図。 実施形態4の概要を示す図。
以下、図面に基づいて、本発明の実施の形態を説明する。なお、本発明の実施の態様は、後述する形態例に限定されるものではなく、その技術思想の範囲において、種々の変形が可能である。
以下の説明では、「通信インターフェース装置」は、一つ以上の通信インターフェースデバイスでよい。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス(例えば一つ以上のNIC(Network Interface Card))であってもよいし二つ以上の異種の通信インターフェースデバイス(例えばNICとHBA(Host Bus Adapter))であってもよい。
また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。
また、以下の説明では、「永続記憶装置」は、一つ以上の記憶デバイスの一例である一つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス(例えば補助記憶デバイス)でよく、具体的には、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、NVMe(Non-Volatile Memory Express)ドライブ、又は、SCM(Storage Class Memory)でよい。
また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。
また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、CPU(Central Processing Unit)のようなマイクロプロセッサデバイスでよいが、GPU(Graphics Processing Unit)のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路(例えばFPGA(Field-Programmable Gate Array)、CPLD(Complex Programmable Logic Device)又はASIC(Application Specific Integrated Circuit))といった広義のプロセッサデバイスでもよい。
また、以下の説明では、「xxxテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし(例えば、構造化データでもよいし非構造化データでもよいし)、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「xxxテーブル」を「xxx情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。
また、以下の説明では、「yyy部」の表現にて機能を説明することがあるが、機能は、一つ以上のコンピュータプログラムがプロセッサによって実行されることで実現されてもよいし、一つ以上のハードウェア回路(例えばFPGA又はASIC)によって実現されてもよいし、それらの組合せによって実現されてもよい。プログラムがプロセッサによって実行されることで機能が実現される場合、定められた処理が、適宜に記憶装置及び/又はインターフェース装置等を用いながら行われるため、機能はプロセッサの少なくとも一部とされてもよい。機能を主語として説明された処理は、プロセッサあるいはそのプロセッサを有する装置が行う処理としてもよい。プログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布計算機又は計算機が読み取り可能な記録媒体(例えば非一時的な記録媒体)であってもよい。各機能の説明は一例であり、複数の機能が一つの機能にまとめられたり、一つの機能が複数の機能に分割されたりしてもよい。
また、以下の説明では、「文献検索システム」は、一つ以上の物理計算機で構成されたシステムでよいし、一つ以上の物理計算機が有する複数種類の計算資源を基に実現されたシステムでもよい。例えば、計算機が表示デバイスを有していて計算機が自分の表示デバイスに情報を表示する場合、当該計算機が文献検索システムでよい。また、例えば、第1計算機(例えばサーバ)が表示用情報を遠隔の第2計算機(表示用計算機(例えばクライアント))に送信し表示用計算機がその情報を表示する場合(第1計算機が第2計算機に情報を表示する場合)、第1計算機と第2計算機とのうちの少なくとも第1計算機が文献検索システムでよい。文献検索システムが「情報を表示する」ことは、文献検索システムにおける計算機が有する表示デバイスに情報を表示することであってもよいし、文献検索システムが、情報を表示する遠隔の計算機に情報を送信することであってもよい(後者の場合は遠隔の計算機によって情報が表示される)。
また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号のうちの共通符号を使用し、同種の要素を区別する場合は、参照符号を使用することがある。
また、以下の説明において、「文献」とは、電子化されている文献である。
[実施形態1]
図1は、実施形態1に係る文献検索システムの構成例を示している。
このシステムは、利用者による検索要求の入力及び検索結果の表示に使用される検索クライアント20と、文献スコアを計算するために利用する種文献を設定するために使用される種文献設定クライアント30と、文献データベース560から文献を検索したり、文献データベース560から特徴単語を抽出したり、文献に文献スコアを付与したり、種文献を登録したりするために使用される検索バックエンドサーバ50と、検索クライアント20及び種文献設定クライアント30と、検索バックエンドサーバ50を仲介する検索フロントエンドサーバ40とを含む。検索クライアント20、種文献設定クライアント30、検索フロントエンドサーバ40及び検索バックエンドサーバ50は、通信ネットワーク10に接続される。
図1の例では、検索クライアント20、種文献設定クライアント30、検索フロントエンドサーバ40及び検索バックエンドサーバ50が通信ネットワーク10に接続されているが、検索クライアント20、種文献設定クライアント30、検索フロントエンドサーバ40及び検索バックエンドサーバ50のうち幾つかを、あるいは、全てを、同一の計算機上に構成してもよい。また、例えば、検索フロントエンドサーバ40が無く、検索バックエンドサーバ50が検索サーバとして、検索クライアント20及び種文献設定クライアント30から検索要求を受け付けてもよい。
検索クライアント20は、例えば、パーソナルコンピュータ又はスマートフォンのような計算機である。検索クライアント20は、利用者からの検索要求を受け付けその検索要求を検索フロントエンドサーバ40に送信する検索要求入力部210と、検索フロントエンドサーバ40からの検索結果を表示する検索結果表示部220とを有する。検索要求入力部210及び検索結果表示部220の少なくとも一つは、専用のプログラム(例えば、専用のアプリケーションプログラム)が検索クライアント20により実行されることで実現されてもよいし、汎用のプログラム(汎用のWebブラウザ)が検索クライアント20により実行されることで実現されてもよい。
種文献設定クライアント30は、例えば、パーソナルコンピュータ又はスマートフォンのような計算機である。種文献設定クライアント30は、利用者からの検索要求を受け付け入力された検索要求を検索フロントエンドサーバ40に送信する検索要求入力部310を有する。検索要求入力部310は、専用のプログラム(例えば、専用のアプリケーションプログラム)が種文献設定クライアント30により実行されることで実現されてもよいし、汎用のプログラム(汎用のWebブラウザ)が種文献設定クライアント30により実行されることで実現されてもよい。
検索フロントエンドサーバ40は、例えば、通信ネットワーク10に接続される通信インターフェース装置41と、記憶装置42と、通信インターフェース装置41及び記憶装置42に接続されたプロセッサ43とを有する。記憶装置42に格納されている一つ以上のプログラムをプロセッサ43が実行することで、検索要求部410、特徴単語要求部420、文献スコア決定要求部430、及び、種文献登録要求部440が実現される。検索要求部410は、検索要求入力部210及び310からそれぞれ送信された検索要求を受け付け、その検索要求を検索バックエンドサーバ50に送信する。特徴単語要求部420は、検索バックエンドサーバ50が備える種文献データベース570から特徴単語を取得する要求を、検索バックエンドサーバ50が備える特徴単語抽出部520に送信する。文献スコア決定要求部430は、検索バックエンドサーバ50が備える検索部510により検索された文献集合を構成する各文献に対して文献スコアを決定(算出)する要求を、検索バックエンドサーバ50が備える文献スコア決定部530に送信する。種文献登録要求部440は、後述の種文献設定手順により作成された種文献集合を検索バックエンドサーバ50が備える種文献データベース570に登録する要求を、検索バックエンドサーバ50が備える種文献登録部540に送信する。
検索バックエンドサーバ50は、例えば、通信ネットワーク10に接続される通信インターフェース装置51と、記憶装置52と、通信インターフェース装置51及び記憶装置52に接続されたプロセッサ53とを有する。記憶装置52が、検索インデックス550、文献データベース560及び種文献データベース570を格納する。記憶装置52に格納されている一つ以上のプログラムをプロセッサ53が実行することで、検索部510、特徴単語抽出部520、文献スコア決定部530及び種文献登録部540が実現される。検索部510は、検索要求部410からの要求に応答して、検索インデックス550を用いて文献データベース560を検索する。特徴単語抽出部520は、特徴単語要求部420からの要求に応答して、文献データベース560及び種文献データベース570に含まれる文献集合から特徴単語を抽出する。文献スコア決定部530は、文献スコア決定要求部430からの要求に応答して、検索部510によって得られた検索結果としての文献集合を構成する各文献に対して文献スコアを決定する。種文献登録部540は、種文献登録要求部440からの要求に応答して後述の種文献設定手順により作成された種文献集合を種文献データベース570に登録する。
検索部510は、検索インデックス550を用いて文献データベース560を検索する。ここでの検索は、例えば公知のキーワード検索手法により実現することができる。キーワード検索手法では、検索処理の効率を上げるために、文献データベース560に含まれる文献を単語に分割し(例えば、日本語の文献に対しては形態素解析を実行し、英語の文献に対してはステミング処理を実行し)、どの文献にどの単語が含まれているかを示す情報を含んだ検索インデックス550を事前に作成する。検索実行時には、検索部510は、事前に作成された検索インデックス550を用いることで、検索処理を高速に実行することができる。図1の例では、検索部510は、検索バックエンドサーバ50が有する文献データベース560について、検索インデックス550を事前に作成し、検索処理に利用する。
文献データベース560は、一つ又は複数の文献である文献ストアの一例でよい。種文献データベース570は、一つ又は複数の種文献である種文献ストアの一例でよい。「ストア」とは、文献の集合、又は、文献の集合が格納される論理的な記憶空間でよい。「ストア」は、構造化されたストアでもよいし非構造化のストアでよい。また、検索インデックス550、文献データベース560及び種文献データベース570のうちの少なくとも一部は、検索バックエンドサーバ50の外部のストレージに存在してもよい。
図2は、特徴単語抽出部520の構成例を示す。
特徴単語抽出部520は、文献データベース560の文献に含まれる単語の頻度を表す情報を取得する単語頻度取得部521と、取得された情報(各単語の頻度を表す頻度情報)を用いて単語の重要度を計算する重要度計算部522とを有する。特徴単語の高速抽出を実現するために、検索部510と同様、検索インデックス550が利用される。すなわち、特徴単語抽出部520は、どの文献にどの単語が含まれているかを、検索インデックス550を参照して調べる。
特徴単語の抽出は、例えば以下の手順で実行される。まず、特徴単語抽出部520が、検索フロントエンドサーバ40の特徴単語要求部420から送信された要求を受信する。当該要求には、文献集合が関連付けられている。単語頻度取得部521は、当該文献集合に含まれる各単語の頻度情報を取得する。取得された頻度情報に基づいて、重要度計算部522は、各単語の重要度を計算する。重要度の計算方法は任意でよい。例えば、tf*idf法(例えば、tf*idf法を利用した後述の数1)により単語の重要度が計算されてよい。特徴単語抽出部520は、高い重要度が決定された単語から順番に特徴単語として検索フロントエンドサーバ40に返す。
図3は、文献スコア決定部530の構成例を示す。
文献スコア決定部530は、検索部510で得られた文献に含まれる各単語の頻度情報を取得する単語頻度取得部531と、特徴単語抽出部520により得られた特徴単語集合と、単語頻度取得部531で得られた各単語の頻度情報を用いて文献スコア(文献の重要度)を計算するスコア計算部532とを有する。文献スコアの計算方法は任意でよい。例えば、tf*idf法により文献スコアが計算されてよい。文献スコア決定部530は、高いスコアが決定された文献から順番に検索フロントエンドサーバ40に返す。
図4は、検索クライアント20における検索要求入力画面の例を示す。
検索要求入力部210は、検索要求入力画面411を表示する。検索要求入力画面411は、例えば、検索入力(例えば、一つ以上のキーワード、又は、それらの検索式)が入力される検索入力エリア211と、検索入力エリア211に入力された検索入力に従う検索を指示する検索指示ボタン212とを含む。利用者は、検索入力エリア211に検索入力を入力し、検索指示ボタン212を押す(例えばクリックする)。これにより、検索の実行が検索クライアント20に指示される。検索要求入力部210は、入力された検索入力を含んだ検索要求を検索フロントエンドサーバ40に送信する。
図5は、検索クライアント20における検索結果画面の例を示す。
検索結果画面580は、検索結果表示部220により表示される。検索結果画面580は、例えば、図4に示した検索要求入力画面411の他に、当該画面411を介して入力された検索入力に従う検索において見つかった文献の文献一覧画面511を含む。文献一覧画面511には、検索結果として得られた文献のランキング、文献スコア、及び文献タイトルを含む。画面511では、例えば、文献タイトルが、文献スコアの高い順に並ぶ。表示形式は、表形式やリスト形式など任意の形式でよい。図5の例では、再検索を実施するために検索要求入力画面411が検索結果画面580の構成要素として表示されているが、当該画面411は必ずしも検索結果画面580に表示されなくてもよい。
図6は、種文献設定クライアント30における種文献設定画面の例を示す。
検索要求入力部310は、種文献設定画面611を表示する。種文献設定画面611は、例えば、検索入力(例えば、一つ以上のキーワード、又は、それらの検索式)が入力される検索入力エリア311と、検索入力エリア311に入力された検索入力に従い見つかった文献を種文献として登録することを指示する種文献設定ボタン312とを含む。利用者は、検索入力エリア311に検索入力を入力し、種文献設定ボタン312を押す(例えばクリックする)。これにより、種文献設定の実行が種文献設定クライアント30に指示される。検索要求入力部310は、入力された検索入力を含んだ検索要求を検索フロントエンドサーバ40に送信する。
次に、本実施形態において実行される処理の一例の流れを図7と図8のシーケンス図を用いて説明する。
図7は、種文献集合を登録する処理のシーケンス図である。
利用者は、種文献設定クライアント30が備える検索要求入力部310が提供する種文献設定画面611を用いて、種文献を設定するために検索入力を入力する。入力された検索入力を含んだ検索要求は、種文献設定クライアント30の検索要求入力部310から検索フロントエンドサーバ40に送信される(T11)。
検索フロントエンドサーバ40の検索要求部410は、当該検索要求を受け取り、当該検索要求を検索バックエンドサーバ50へ送信する(T12)。
検索バックエンドサーバ50の検索部510は、当該検索要求に応答して、検索インデックス550を用いて文献データベース560から文献を検索し(具体的には、例えば、当該検索要求が含む検索入力(例えば、一つ以上のキーワード)に適合する文献を検索し)、その検索の結果(例えば、見つかった一つ以上の文献である文献集合)を検索フロントエンドサーバ40へ返す(T13)。
検索フロントエンドサーバ40の特徴単語要求部420は、得られた検索結果から特徴単語を抽出するために、特徴単語の抽出要求を検索バックエンドサーバ50に送信する(T14)。当該抽出要求には、得られた検索結果としての文献集合が関連付けられている。
検索バックエンドサーバ50の特徴単語抽出部520は、当該抽出要求に応答して、当該抽出要求に関連付けられている文献集合から、検索インデックス550を用いて特徴単語集合を抽出し、当該特徴単語集合を検索フロントエンドサーバ40へ返す(T15)。当該特徴単語集合が、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含む。
検索フロントエンドサーバ40の文献スコア決定要求部430は、T13で返された文献集合(検索結果)に対してT15で返された特徴単語集合を用いて文献スコアを決定するスコア決定要求を、検索バックエンドサーバ50に送信する(T16)。当該スコア決定要求には、T13で返された文献集合と、T15で返された特徴単語集合とが関連付けられている。
検索バックエンドサーバ50の文献スコア決定部530は、当該スコア決定要求に応答して、当該要求に関連付けられている文献集合を構成する各文献に対して、当該要求に関連付けられている特徴単語集合を用いて文献スコアを決定し、そのスコア決定結果(文献毎の文献スコア)を検索フロントエンドサーバ40に返す(T17)。
検索フロントエンドサーバ40の種文献登録要求部440は、T17で返されたスコア決定結果を基に、T13で返された文献集合から、所定の種文献基準(例えば、「文献スコア上位200件の文献」という基準)で、種文献集合(一つ以上の種文献)を選定し、選定された種文献集合を設定する設定要求を検索バックエンドサーバ50に送信する(T18)。当該設定要求には、選定された種文献集合が関連付けられている。なお、「種文献基準」とは、種文献に該当する文献に関する条件である。また、「種文献」とは、有用文献である可能性が相対的に高い文献、具体的には、例えば、図7に示す種文献登録処理において入力された検索入力(別の言い方をすれば検索条件)に適合する文献集合のうち文献スコアが相対的に高い文献である。従って、「文献スコア」は、有用文献である可能性の高さを表すスコアである。「有用文献」は、利用者に有用な文献、例えば、利用者自身の研究課題の解決に貢献する文献である。有用文献の具体例は後述する。
検索バックエンドサーバ50の種文献登録部540は、当該設定要求に応答して、当該要求に関連付けられている種文献集合を種文献データベース570に登録する。
以上が、種文献集合の登録の一例である。種文献集合は、文献データベース560から見つかった文献集合のうちの一つ以上の文献に代えて又は加えて、別の文献を含んでよい。例えば、文献データベース560とは別のストアから一つ以上の種文献が選定され、選定された一つ以上の種文献を含む種文献集合が種文献データベース570として登録されてよい。このため、種文献設定クライアント30は無くてもよい。
図8は、有用文献の検索の処理のシーケンス図である。
利用者は、検索クライアント20が備える検索要求入力部210が提供する検索要求入力画面411を用いて、文献データベース560から有用文献を検索するための検索入力を入力する。入力された検索入力を含む検索要求は、検索クライアント20の検索要求入力部210から検索フロントエンドサーバ40に送信される(T21)。
検索フロントエンドサーバ40の検索要求部410は、当該検索要求を受け取り、当該検索要求を検索バックエンドサーバ50へ送信する(T22)。
検索バックエンドサーバ50の検索部510は、当該検索要求に応答して、検索インデックス550を用いて文献データベース560から文献を検索し(具体的には、例えば、当該検索要求が含む検索入力(例えば、一つ以上のキーワード)に適合する文献を検索し)、その検索の結果(例えば、見つかった一つ以上の文献である文献集合)を検索フロントエンドサーバ40へ返す(T23)。
検索フロントエンドサーバ40の特徴単語要求部420は、種文献データベースに含まれる種文献集合から特徴単語を抽出するために、特徴単語の抽出要求を検索バックエンドサーバ50に送信する(T24)。
検索バックエンドサーバ50の特徴単語抽出部520は、当該抽出要求に応答して、検索インデックス550を用いて種文献データベース570から特徴単語集合を抽出し、検索フロントエンドサーバ40へ返す(T25)。当該特徴単語集合が、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含む有用文献モデルの一例である。
検索フロントエンドサーバ40の文献スコア決定要求部430は、T23で返された文献集合(検索結果)に対してT25で返された特徴単語集合を用いて文献スコアを決定するスコア決定要求を、検索バックエンドサーバ50に送信する(T26)。当該スコア決定要求には、T23で返された文献集合と、T25で返された特徴単語集合とが関連付けられている。
検索バックエンドサーバ50の文献スコア決定部530は、当該スコア決定要求に応答して、当該要求に関連付けられている文献集合を構成する各文献に対して、当該要求に関連付けられている特徴単語集合を用いて文献スコアを決定し、そのスコア決定結果(文献毎の文献スコア)を検索フロントエンドサーバ40に返す(T27)。そのスコア決定結果は、検索フロントエンドサーバ40によりそのまま検索クライアント20に返され(T28)、検索クライアント20の検索結果表示部220により、検索結果画面580の文献一覧画面511に表示される。文献スコアが高い文献程、有用文献である可能性が高い。
次に、物質生産に関する代謝反応について検索する場合を例に説明する。物質生産分野では、設計した代謝系経路について、有用文献(典型的には、利用者自身の研究課題に関し過去の事例が記載されている文献)を見つけたいという要求がある。具体的には、例えば、反応の導入、強化及び抑制のうちの少なくとも一つに関する過去事例を所定の文献データベース(例えば、“PubMed”と呼ばれるデータベース)から検索したいという要求がある。この場合、「有用文献」とは、目的化合物(生産対象の物質)とされた化合物の生成に寄与した事例が記述されている文献、例えば、検索入力で指定された反応が物質生産に寄与した事例が記載されている文献(例えば、「遺伝子G1の導入により目的化合物T1の生産に成功」、「遺伝子G2の削除により目的化合物T2の生産量が増加」などが記載されている文献)である。
本実施形態では、このような文献を有用としてスコア決定ができるように種文献集合が設定される。一例を図7のシーケンス図で説明すると、種文献設定クライアント30の検索要求入力部310に対し、物質生産に関するジャーナル論文に掲載されている文献集合を検索するための検索入力(例えば、“Metabolic Engineering”、及び/又は、“Microbial Cell Factories”といったキーワード)が入力される。
物質生産に関するジャーナル論文には、必ずしも物質生産に関するジャーナルだけが掲載されているわけではない。このため、図7のシーケンス図の処理手順により、物質生産に関するジャーナル論文に掲載されている文献集合を構成する各文献に対して、物質生産に関する度合いの高さを表す文献スコアを決定することができる(T14~T17)。その文献集合の中から、ある基準(例えば、文献スコアが上位200件)で一部の文献を選定して得られた種文献集合は、利用者により入力された検索入力を含んだ検索要求に従い見つかった文献集合から有用度の低い文献集合が除外された有用度の高い文献集合となる(T17~T18)。
次に反応に関する検索例を図8のシーケンス図で説明する。ここでは反応に関する酵素を発現する遺伝子で検索する例を説明する。
酵素番号2.2.1.6の反応を検索するために、利用者は、酵素番号2.2.1.6の酵素を発現する遺伝子を、所定のデータベースを用いて検索する。その結果、遺伝子として、alsS、brnP、budB、ilvB、ilvB1、ilvB2、ilvG、ilvH、ilvI、ilvK、ilvM、ilvN、ilvX、ilvYが得られたとする。これらの遺伝子名を含んだ検索入力を含む検索要求に従い、文献データベース560から文献の検索(例えばOR検索)が実行される(T22、T23)。
前述の物質生産に関するジャーナル論文をもとに作成した有用度の高い文献集合(つまり種文献集合)から特徴単語集合が抽出され、抽出された特徴単語集合を用いて、遺伝子名で検索された結果としての文献集合を構成する各文献について文献スコアが決定される(T24~27)。
その結果、上述の遺伝子名の少なくとも一つを含む文献集合のうち、物質生産に関する度合いの高い文献(物質生産文献)について、当該文献のタイトル及び文献スコアが、検索結果として検索クライアント20に表示される。
上記例では遺伝子名で検索されたが、反応の基質の名称、酵素の名称又は番号(例えば、番号のうちの少なくとも一部(例えば、上位x桁(xは自然数))、生成物の名称、又はそれらの組み合わせで検索された場合にも、同様の手順により、物質生産文献(有用文献)である可能性の高い文献を提示することができる。
以上の実施形態1を、例えば下記のように総括できる。
文献検索システムが、特徴単語抽出部520と、検索部510と、文献スコア決定部530とを備える。特徴単語抽出部520が、種文献データベース570(種文献集合の一例)から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだ特徴単語集合(有用文献モデルの一例)を作成する。検索部510が、検索条件が指定された検索要求に従い、文献データベース560(一つ又は複数の文献を含んだ文献検索範囲の一例)から、当該検索条件に適合する文献集合(一つ以上の文献)を抽出する。文献スコア決定部530が、抽出された文献集合における一つ以上の文献の各々について、当該文献の文献スコアを、特徴単語集合を基に決定し、文献スコアの高い順に基づく検索結果を出力(例えば表示)する。検索部510により見つけられた各文献の文献スコアは、有用文献となり得る文献である種文献の集合から抽出された特徴単語とその重みとを含んだ特徴単語集合を基に決定されたスコアであり、故に、文献スコアは、文献が有用文献である可能性の高さを意味する。このような文献スコアの高い順に基づく検索結果が表示されるので、利用者は、利用者が当該利用者にとっての有用文献を効率的に見つけることができる。
文献検索システムは、種文献集合を種文献データベース570に登録する種文献登録部540を更に備えてもよい。検索要求よりも前に種文献集合登録のために入力された検索条件を含む検索要求である別の検索要求に従い検索部510が文献データベース560から一つ以上の文献を検索してもよい。当該一つ以上の文献から特徴単語抽出部520が一つ以上の特徴単語を抽出し当該一つ以上の特徴単語の各々の重みを決定してよい。そして、当該一つ以上の文献の各々について文献スコア決定部530が当該一つ以上の特徴単語と各特徴単語の重みとを基に文献スコアを決定してよい。種文献登録部は、上記別の検索要求に従い検索された一つ以上の文献のうち決定された文献スコアが相対的に高い文献の集合を種文献集合として種文献データベース570に登録してもよい。このように、種文献集合を構成する文献は、有用文献の検索において参照される文献データベース560から取得された文献である。別の言い方をすれば、種文献集合を構成する文献のソースは、有用文献の文献検索範囲と同じである。このため、種文献集合から生成された特徴単語集合を基に決定される文献スコア(有用文献検索において検索された文献に対して決定される文献スコア)の精度が高いことが期待される。
有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献である。検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含んでよい。これにより、利用者が設計した代謝系経路について当該利用者は過去の事例が記載された文献を効率的に見つけることができる。
一旦作成された特徴単語集合(有用文献モデルの一例)は、保存され、以後の検索要求では、特徴単語集合の作成無しに有用文献検索が行われてもよいが、特徴単語抽出部520は、検索要求を受信する都度に、当該検索要求に応答して、種文献集合を基に特徴単語集合を作成するようになっていてもよい。これにより、有用文献検索を常に最新の種文献集合を基に行うことが期待される。例えば、文献データベース560に登録される文献が頻繁に増える場合、種文献集合に含まれ得る文献も頻繁に増える可能性がある。このようなケースにおいて、検索要求を受信する都度に(有用文献検索の都度に)、種文献集合を基に特徴単語集合を作成することは、有効であると考えられる。
なお、上述した特徴単語集合の生成では、tf*idf法を利用することができる。具体的には、例えば、次の通りである。すなわち、TF(Term Frequency)によれば、文献にたくさん出現する単語は重要度が高く、且つ、偏って出現する単語は重要度が高い。IDF(Inversed Document Frequency)によれば、多数の文献に出現する単語は重要度が低い。個々の単語について、当該単語が出現する文献の数がDF(Document Frequency)であり、DFの逆数がIDFである。多数の文献に出現する単語はIDFが小さく、少数の文献にしか出現しない単語はIDFが大きくなる。文献集合qにおける単語tの重みであるweight(q, t)を、数1としての重要度計算式を用いて算出できる。
Figure 0007341090000001
qは種文献集合を意味する。TF(t|d)は、文献dにおけるtの頻度。TF(.|d)がdにおける単語数。DF(.|d)が、dにおける異なり単語数を意味する。つまり、Σの中は、tの出現がdにおける単語の平均頻度からどれくらいずれているかの指標であり、これがTFに相当する。これを種文献すべてに対して計算し、種文献数DF(.|q)で割って平均が計算される。Nr(w)は、総文献数を意味する。DF(.|t)は、tのDFを意味する。log(1+Nr(w)/DF(.|t))が、IDFを意味する。
[実施形態2]
実施形態2を説明する。その際、実施形態1との相違点を主に説明し、実施形態1との共通点については説明を簡略又は省略する。
図9は、実施形態2の概要を示す。
実施形態1によれば、反応に関する情報を含んだ検索入力を有する検索要求に従い文献データベース560から文献を検索し、得られた文献の文献集合を文献スコアの高い順に提示することができる。
ある遺伝子を含む文献集合において文献スコアが高い文献が多いということは、その遺伝子(反応)が物質生産によく用いられる文献であることを示唆している。従って、文献スコアにある閾値を設定し、その閾値以上の文献数を数えることで、その反応の物質生産度が類推できる。
そこで、実施形態2では、文献スコア決定部530が、検索クライアント20の検索結果表示部220を通じて、図5に例示した検索結果画面580に加えて、図9に例示する検索結果画面900を表示する。図9では、代謝物オブジェクト902が代謝物(基質又は生成物)を示し、反応オブジェクト901が反応を示し、目的化合物オブジェクト903が目的化合物を示す。具体的には、検索結果画面900は、設計された代謝系経路に関し、当該代謝系経路を構成する複数の反応にそれぞれ対応した複数の反応オブジェクト901A~901Eと、反応の前又は後の代謝物に対応した代謝物オブジェクト902A~902Eと、目的化合物オブジェクト903とを有する。反応オブジェクト901は、反応を表す表示オブジェクト(例えば図形)である。例えば、反応オブジェクト901A~901Cの各々は、反応の強化を意味し、反応オブジェクト901D及び901Eの各々は、反応の抑制を意味する。代謝物オブジェクト902は、代謝物を表す表示オブジェクトである。目的化合物オブジェクト903は、目的化合物を表す表示オブジェクトである。
検索結果画面900では、設計された代謝系経路を構成する一つ又は複数の反応の各々に関し、当該反応の反応オブジェクトに関連付けられる値であって、当該反応について文献スコアが閾値以上である文献の数を表す値である文献数が表示される。利用者は、反応毎の文献数を見ることで、当該反応の物質生産度を類推すること、例えば、文献数“30”が関連付いた反応オブジェクト901Dに対応した反応はよく物質生産で操作される反応である可能性が高いこと、及び、文献数“3”が関連付いた反応オブジェクト901Bに対応した反応はあまり物質生産で操作されない反応である可能性が高いこと、を類推できる。
このように、実施形態2では、文献スコア決定部530は、設計された代謝系経路を構成する一つ又は複数の反応の各々に関し、当該反応を表す反応オブジェクト901に関連付けられる値であって、当該反応について文献スコアが閾値以上である文献の数を表す値である文献数を出力する。これにより、上述したように、利用者は、反応毎の文献数を見ることで、当該反応の物質生産度を類推できる。
利用者から、利用者所望の反応の反応オブジェクト901(又はそれに関連付けられている文献数)が指定(例えばクリック)された場合、当該反応について、文献スコア決定部530は、図5に例示した検索結果画面580に表示してよい。すなわち、その検索結果画面580が表す検索結果は、利用者所望の反応について抽出された文献の文献スコアの高い順に基づく検索結果である。このようにして、利用者は、所望の反応について効率的に有用文献を見つけることができる。
[実施形態3]
実施形態3を説明する。その際、実施形態1及び2との相違点を主に説明し、実施形態1及び2との共通点については説明を簡略又は省略する。
図10は、実施形態3の概要を示す。
種文献集合を構成する種文献の数が多い程、有用文献検索の検索精度(例えば、検索された文献について決定される文献スコアの精度)が高いと考えられる。
しかし、有用文献検索の都度に種文献集合から特徴単語集合(有用文献モデルの一例)が作成されるようになっている場合、種文献の数が多い程、有用文献検索の検索速度が遅いと考えられる。特徴単語集合の作成に時間がかかるためである。
そこで、実施形態3では、有用文献検索の検索精度の低下を低減しつつ種文献の数を減らすことができる。
具体的には、図10に例示するように、文献スコア決定部530が、種文献データベース570における種文献集合内の一つ以上の種文献の各々について、当該種文献集合から作成された特徴単語集合を基に、文献スコアを決定する。そして、文献スコア決定部530が、当該種文献集合を、当該決定された文献スコアが閾値以上の高い種文献に絞り込むことで(例えば、文献スコアが上位x件の種文献(xは自然数)に絞り込むことで)、種文献集合を更新し、種文献データベース570における種文献集合を更新後の種文献集合に差し替える。これにより、種文献集合から、有用文献である可能性が低い文献が除外され、且つ、更新後の種文献集合を構成する文献の数は、更新前の種文献集合を構成する文献の数より少なくなる。このような更新後の種文献集合から有用文献検索において特徴単語集合が作成されるので、有用文献検索の検索精度の低下を低減しつつ種文献の数を減らすことができる。
[実施形態4]
実施形態4を説明する。その際、実施形態1~3との相違点を主に説明し、実施形態1~3との共通点については説明を簡略又は省略する。
図11は、実施形態4の概要を示す。
文献検索システムが、反応名を含んだ検索条件を有する検索要求に応答して、複数のデータベースを段階的に参照することを含んだ有用文献検索を行うことができる。具体的には、例えば、図11に示すように、検索部510は、検索条件に含まれている反応名を基に第一のデータベース1101(第一の情報集合の一例)から酵素情報(例えば、酵素番号の少なくとも一部又は酵素名)を特定し、当該特定された酵素情報を基に第二のデータベース1102(第二の情報集合の一例)から遺伝子名リスト(一つ以上の遺伝子名)を特定し、当該特定された遺伝子名を基に文献データベース560から文献集合(一つ以上の文献)を抽出する。そして、文献スコア決定部530が、種文献データベース570から作成された特徴単語集合を用いて、当該文献集合を構成する各文献に対し、文献スコアを決定する。このようにして、検索条件に含まれている反応名をキーに、酵素情報を特定し、酵素情報から遺伝子名リストを特定し、遺伝子名リストを用いて文献を検索することを、自動で行うことができる。
なお、検索条件は、反応名に代えて、反応名に対応した酵素情報を含んでもよい。この場合、検索部510は、検索条件内の当該酵素情報を基に、データベース1102(所定の情報集合の一例)から遺伝子名リストを特定し、当該特定された遺伝子名リストを基に文献データベース560から文献集合を抽出してもよい。この場合、検索条件に含まれている酵素情報をキーに、遺伝子名リストを特定し、遺伝子名リストを用いて文献を検索することを、自動で行うことができる。
以上、幾つかの実施形態を説明したが、これは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実行することが可能である。
20:検索クライアント
30:種文献設定クライアント
40:検索フロントエンドサーバ
50:検索バックエンドサーバ
510:検索部
520:特徴単語抽出部
530:文献スコア決定部
550:検索インデックス
560:文献データベース
570:種文献データベース

Claims (10)

  1. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出部と、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索部と、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定部と
    を備え、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記文献スコア決定部は、前記設計された代謝系経路を構成する一つ又は複数の反応の各々に関し、当該反応を表す表示オブジェクトに関連付けられる値であって、当該反応について文献スコアが閾値以上である文献の数を表す値である文献数を出力する、
    献検索システム。
  2. 前記一つ又は複数の反応のうち指定された反応に関し、前記出力された検索結果は、当該反応について抽出された文献の文献スコアの高い順に基づく検索結果である、
    請求項に記載の文献検索システム。
  3. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出部と、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索部と、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定部と
    を備え、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記検索部は、
    反応名を含んだ前記検索条件に含まれている当該反応名を基に第一の情報集合から、酵素番号の少なくとも一部又は酵素名である酵素情報を特定し、
    当該特定された酵素情報を基に、第二の情報集合から、一つ以上の遺伝子名である遺伝子名リストを特定し、
    当該特定された遺伝子名リストを基に前記文献検索範囲から前記一つ以上の文献を抽出する、
    献検索システム。
  4. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出部と、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索部と、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定部と
    を備え、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記検索部は、
    酵素番号の少なくとも一部又は酵素名である酵素情報を含んだ前記検索条件に含まれている当該酵素情報を基に、所定の情報集合から、一つ以上の遺伝子名である遺伝子名リストを特定し、
    当該特定された遺伝子名リストを基に前記文献検索範囲から前記一つ以上の文献を抽出する、
    献検索システム。
  5. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出ステップと、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索ステップと、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定ステップと
    をコンピュータにより実行し、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記文献スコア決定ステップでは、コンピュータが、前記設計された代謝系経路を構成する一つ又は複数の反応の各々に関し、当該反応を表す表示オブジェクトに関連付けられる値であって、当該反応について文献スコアが閾値以上である文献の数を表す値である文献数を出力する、
    文献検索方法。
  6. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出ステップと、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索ステップと、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定ステップと
    をコンピュータにより実行し、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記検索ステップでは、コンピュータが、
    反応名を含んだ前記検索条件に含まれている当該反応名を基に第一の情報集合から、酵素番号の少なくとも一部又は酵素名である酵素情報を特定し、
    当該特定された酵素情報を基に、第二の情報集合から、一つ以上の遺伝子名である遺伝子名リストを特定し、
    当該特定された遺伝子名リストを基に前記文献検索範囲から前記一つ以上の文献を抽出する、
    文献検索方法。
  7. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出ステップと、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索ステップと、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定ステップと
    をコンピュータにより実行し、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記検索ステップでは、コンピュータが、
    酵素番号の少なくとも一部又は酵素名である酵素情報を含んだ前記検索条件に含まれている当該酵素情報を基に、所定の情報集合から、一つ以上の遺伝子名である遺伝子名リストを特定し、
    当該特定された遺伝子名リストを基に前記文献検索範囲から前記一つ以上の文献を抽出する、
    文献検索方法。
  8. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出ステップと、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索ステップと、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定ステップと
    をコンピュータに実行させるコンピュータプログラムであり、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記文献スコア決定ステップとして、前記設計された代謝系経路を構成する一つ又は複数の反応の各々に関し、当該反応を表す表示オブジェクトに関連付けられる値であって、当該反応について文献スコアが閾値以上である文献の数を表す値である文献数を出力する、ことをコンピュータに実行させる、
    コンピュータプログラム。
  9. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出ステップと、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索ステップと、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定ステップと
    をコンピュータに実行させるコンピュータプログラムであり、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記検索ステップとして、
    反応名を含んだ前記検索条件に含まれている当該反応名を基に第一の情報集合から、酵素番号の少なくとも一部又は酵素名である酵素情報を特定し、
    当該特定された酵素情報を基に、第二の情報集合から、一つ以上の遺伝子名である遺伝子名リストを特定し、
    当該特定された遺伝子名リストを基に前記文献検索範囲から前記一つ以上の文献を抽出する、
    ことをコンピュータに実行させる、
    コンピュータプログラム。
  10. 一つ以上の種文献の種文献集合から一つ以上の特徴単語を抽出し、当該一つ以上の特徴単語と当該一つ以上の特徴単語の各々の重みとを含んだモデルである有用文献モデルを作成する特徴単語抽出ステップと、
    種文献は、有用文献に該当し得る文献であり、
    検索条件が指定された検索要求に従い、一つ又は複数の文献を含んだ文献検索範囲から、当該検索条件に適合する一つ以上の文献を抽出する検索ステップと、
    前記抽出された一つ以上の文献の各々について、当該文献の文献スコアを、前記有用文献モデルを基に決定し、前記抽出された一つ以上の文献の文献スコアの高い順に基づく検索結果を出力する文献スコア決定ステップと
    をコンピュータに実行させるコンピュータプログラムであり、
    有用文献は、目的化合物とされた化合物の生成に寄与した事例が記述されている文献であり、
    前記検索条件は、目的化合物を生成するために設計された代謝系経路に関し、当該目的化合物の化合物名と、当該代謝系経路を構成する一つ又は複数の反応のうちの少なくとも一つの反応の反応名と、当該代謝系経路を構成する一つ又は複数の代謝物の代謝物名と、酵素番号の少なくとも一部と、酵素名と、一つ以上の遺伝子名とのうちの少なくとも一つを含み、
    前記検索ステップとして、
    酵素番号の少なくとも一部又は酵素名である酵素情報を含んだ前記検索条件に含まれている当該酵素情報を基に、所定の情報集合から、一つ以上の遺伝子名である遺伝子名リストを特定し、
    当該特定された遺伝子名リストを基に前記文献検索範囲から前記一つ以上の文献を抽出する、
    ことをコンピュータに実行させる、
    コンピュータプログラム。
JP2020045980A 2020-03-17 2020-03-17 文献検索システム及び方法 Active JP7341090B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2020045980A JP7341090B2 (ja) 2020-03-17 2020-03-17 文献検索システム及び方法
EP21152950.8A EP3882785A1 (en) 2020-03-17 2021-01-22 Document search system and method
US17/201,135 US20210294860A1 (en) 2020-03-17 2021-03-15 Document search system and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020045980A JP7341090B2 (ja) 2020-03-17 2020-03-17 文献検索システム及び方法

Publications (2)

Publication Number Publication Date
JP2021149234A JP2021149234A (ja) 2021-09-27
JP7341090B2 true JP7341090B2 (ja) 2023-09-08

Family

ID=74205741

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020045980A Active JP7341090B2 (ja) 2020-03-17 2020-03-17 文献検索システム及び方法

Country Status (3)

Country Link
US (1) US20210294860A1 (ja)
EP (1) EP3882785A1 (ja)
JP (1) JP7341090B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281181A (ja) 2002-03-19 2003-10-03 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2005316615A (ja) 2004-04-27 2005-11-10 Hitachi Ltd 情報配信方法、情報配信プログラム、情報配信プログラム記憶媒体および情報配信装置
JP2007149047A (ja) 2005-04-01 2007-06-14 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09138808A (ja) * 1995-11-15 1997-05-27 Kureha Chem Ind Co Ltd 化合物反応経路図の表示方法
JP3760057B2 (ja) 1998-11-19 2006-03-29 株式会社日立製作所 複数文書データベースを対象とした文書検索方法および文書検索サービス
US7761334B2 (en) * 2002-03-20 2010-07-20 Deere & Company Method and system for automated tracing of an agricultural product
US20220148679A1 (en) * 2020-11-06 2022-05-12 International Business Machines Corporation Identification of Signature Mutations and Targeted Treatments

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003281181A (ja) 2002-03-19 2003-10-03 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラム及び記録媒体
JP2005316615A (ja) 2004-04-27 2005-11-10 Hitachi Ltd 情報配信方法、情報配信プログラム、情報配信プログラム記憶媒体および情報配信装置
JP2007149047A (ja) 2005-04-01 2007-06-14 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム及び記録媒体

Also Published As

Publication number Publication date
US20210294860A1 (en) 2021-09-23
EP3882785A1 (en) 2021-09-22
JP2021149234A (ja) 2021-09-27

Similar Documents

Publication Publication Date Title
JP6741110B2 (ja) イベント発見方法、装置、機器及びプログラム
CN108304444B (zh) 信息查询方法及装置
US7797265B2 (en) Document clustering that applies a locality sensitive hashing function to a feature vector to obtain a limited set of candidate clusters
US10353925B2 (en) Document classification device, document classification method, and computer readable medium
CN108334951B (zh) 针对决策树的节点的数据的预统计
JP2020500371A (ja) 意味的検索のための装置および方法
CN112380244B (zh) 一种分词搜索方法、装置、电子设备及可读存储介质
WO2019169858A1 (zh) 一种基于搜索引擎技术的数据分析方法及系统
WO2014071787A1 (zh) 检索应用的方法、装置及终端
WO2012135319A1 (en) Processing data in a mapreduce framework
KR101651780B1 (ko) 빅 데이터 처리 기술을 이용한 연관 단어 추출 방법 및 그 시스템
JP2022137281A (ja) データ照会方法、装置、電子デバイス、記憶媒体、及びプログラム
CN110968789A (zh) 电子书推送方法、电子设备及计算机存储介质
JP2007018389A (ja) データ検索装置、データ検索方法、データ検索プログラムおよびコンピュータに読み取り可能な記録媒体
JP5994490B2 (ja) データ検索プログラム、データベース装置および情報処理システム
CN105653553B (zh) 词权重生成方法和装置
CN111373386A (zh) 相似度指标值计算装置、相似检索装置及相似度指标值计算用程序
US20140181097A1 (en) Providing organized content
JP5324677B2 (ja) 類似文書検索支援装置及び類似文書検索支援プログラム
US8971644B1 (en) System and method for determining an annotation for an image
JP4945015B2 (ja) 文書検索システム、文書検索プログラム、および文書検索方法
JP7341090B2 (ja) 文献検索システム及び方法
TWI446191B (zh) Word matching and information query method and device
JP6163143B2 (ja) 情報提供装置、情報提供方法、および情報提供プログラム
JP5014252B2 (ja) コンテンツを検索する索引データを管理する方法、サーバ、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230621

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230815

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230829

R150 Certificate of patent or registration of utility model

Ref document number: 7341090

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150