JP7363914B2 - 検索方法、検索プログラム及び検索装置 - Google Patents
検索方法、検索プログラム及び検索装置 Download PDFInfo
- Publication number
- JP7363914B2 JP7363914B2 JP2021554014A JP2021554014A JP7363914B2 JP 7363914 B2 JP7363914 B2 JP 7363914B2 JP 2021554014 A JP2021554014 A JP 2021554014A JP 2021554014 A JP2021554014 A JP 2021554014A JP 7363914 B2 JP7363914 B2 JP 7363914B2
- Authority
- JP
- Japan
- Prior art keywords
- vector
- document
- documents
- input document
- compound
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/80—Data visualisation
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/40—Searching chemical structures or physicochemical data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/38—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/383—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/10—Analysis or design of chemical reactions, syntheses or processes
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/20—Identification of molecular entities, parts thereof or of chemical compositions
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16C—COMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
- G16C20/00—Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
- G16C20/70—Machine learning, data mining or chemometrics
Description
図1を用いて、実施例に係る検索装置の構成を説明する。図1は、検索装置の構成例を示すブロック図である。図1に示すように、検索装置1は、検索部10及び構築部20を有する。
図9を用いて、文書データベースを構築する処理を説明する。図9は、文書データベースを構築する処理の流れを示すフローチャートである。文書データベースは、構築部20の文書データ蓄積部24、文書ベクトル蓄積部22及び部分構造ベクトル蓄積部21である。つまり、検索装置1は、データベースを構築する処理により、文書データに対応する文書ベクトル及び部分構造ベクトルを作成し、保存しておく。
これまで説明してきたように、特定部26aは、入力文書に含まれる化合物名が示す化合物の化学構造を特定する。また、集計部26dは、化学構造の部分構造ごとに、入力文書に含まれる部分構造の数を集計する。また、生成部26fは、部分構造と数とに基づいて、入力文書の部分構造ベクトルを生成する。また、出力部14は、部分構造ベクトルと、構築部20に記憶された化合物名が含まれる複数の文書のそれぞれの部分構造ベクトルとの比較に基づいて、複数の文書の中から文書を出力する。このように、検索装置1は、化合物に複数の別称がある場合であっても、化合物を一意に特定できる。また、検索装置1は、大量の文書データを要することなく、化学分野の文書の特徴を表現するベクトルを計算することができる。この結果、検索装置1によれば、化学分野の文書の高精度な検索を行うことができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
図15は、ハードウェア構成例を説明する図である。図15に示すように、検索装置1は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図11に示した各部は、バス等で相互に接続される。
10 検索部
11 入力部
12 類似度計算部
13 検索結果生成部
14 出力部
20 構築部
21 部分構造ベクトル蓄積部
22 文書ベクトル蓄積部
23 文書ベクトル計算部
24 文書データ蓄積部
25 抽出部
26 部分構造ベクトル計算部
26a 特定部
26b 化合物辞書
26c 変換ルール
26d 集計部
26e 部分構造リスト
26f 生成部
Claims (10)
- 入力文書に含まれる化合物名が示す化合物の化学構造を特定し、
前記化学構造の部分構造ごとに、前記入力文書に含まれる前記部分構造の数を集計し、
前記部分構造と前記数とに基づいて、前記入力文書の第1のベクトルを生成し、
前記入力文書の第1のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれの、前記化合物名が示す化合物より特定された化学構造の部分構造と当該部分構造の数とに基づく第2のベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する
処理をコンピュータが実行することを特徴とする検索方法。 - 前記生成する処理は、前記部分構造ごとの前記数、又は、前記部分構造ごとの前記数が0であるか否かを示す情報を要素とする前記第1のベクトルを生成する
ことを特徴とする請求項1に記載の検索方法。 - 前記集計する処理は、前記部分構造の組み合わせごとに、前記入力文書に含まれる数をさらに集計し、
前記生成する処理は、前記集計する処理によって集計された前記部分構造ごとの数と、前記部分構造の組み合わせごとの数との両方に基づいて、前記入力文書の第1のベクトルを生成する
ことを特徴とする請求項1に記載の検索方法。 - 前記集計する処理は、前記化合物のそれぞれに含まれる前記部分構造のそれぞれの数と、前記化合物を示す化合物名のそれぞれの前記入力文書に含まれる数との積の和を、前記部分構造の前記入力文書に含まれる数として集計する
ことを特徴とする請求項1に記載の検索方法。 - 前記出力する処理は、前記生成する処理によって生成された第1のベクトルに、前記部分構造の所定の文書における出現頻度に基づく重みを付与した第3のベクトルと、前記複数の文書のそれぞれの第2のベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する
ことを特徴とする請求項1に記載の検索方法。 - 前記出力する処理は、前記第1のベクトルと前記第2のベクトルの比較と、前記入力文書の意味を示す第4のベクトルと前記複数の文書それぞれの意味を示す第5のベクトルとの比較とに基づいて、前記複数の文書の中から文書を出力する
ことを特徴とする請求項1に記載の検索方法。 - 前記出力する処理は、前記入力文書の第1のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれの第2のベクトルとの比較に基づいて、前記複数の文書のそれぞれに対する前記入力文書の類似度を算出し、
算出された前記類似度の高い順序で前記複数の文書に含まれる文書を並べたリストを表示画面に表示させることを特徴とする請求項1に記載の検索方法。 - 入力文書に含まれる化合物名が示す化合物の化学構造を特定し、
前記化学構造の部分構造ごとに、前記入力文書に含まれる前記部分構造の数を集計し、
前記部分構造と前記数とに基づいて、前記入力文書の第1のベクトルを生成し、
前記入力文書の第1のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれの、前記化合物名が示す化合物より特定された化学構造の部分構造と当該部分構造の数とに基づく第2のベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する
処理をコンピュータに実行させることを特徴とする検索プログラム。 - 入力文書に含まれる化合物名が示す化合物の化学構造を特定する特定部と、
前記化学構造の部分構造ごとに、前記入力文書に含まれる前記部分構造の数を集計する集計部と、
前記部分構造と前記数とに基づいて、前記入力文書の第1のベクトルを生成する生成部と、
前記入力文書の第1のベクトルと、記憶部に記憶された化合物名が含まれる複数の文書のそれぞれの、前記化合物名が示す化合物より特定された化学構造の部分構造と当該部分構造の数とに基づく第2のベクトルとの比較に基づいて、前記複数の文書の中から文書を出力する出力部と、
を有することを特徴とする検索装置。 - 検索対象である第1のファイルと、蓄積された複数のファイルと、に対して、
前記第1のファイルと前記複数のファイルごとに含まれる化合物名を特定し、
特定された化合物名を化学構造式にそれぞれ変換し、
前記化学構造式を1つ以上の部分構造に分割し、
前記部分構造の数を、前記第1のファイルと前記複数のファイルごとに特定し、
前記部分構造と前記数とに基づいて、前記第1のファイルと前記複数のファイル毎のベクトルを生成し、
前記第1のファイルに対応するベクトルと、前記複数のファイルに対応するベクトルとの比較に基づいて類似度を計算し、
前記複数のファイルのうち、前記類似度が閾値以上である、前記第1のファイルに類似する第2のファイルを特定し、
特定した前記第2のファイルを出力する、
処理をコンピュータに実行させることを特徴とする検索プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/042950 WO2021084723A1 (ja) | 2019-10-31 | 2019-10-31 | 検索方法、検索プログラム及び検索装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2021084723A1 JPWO2021084723A1 (ja) | 2021-05-06 |
JP7363914B2 true JP7363914B2 (ja) | 2023-10-18 |
Family
ID=75715013
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021554014A Active JP7363914B2 (ja) | 2019-10-31 | 2019-10-31 | 検索方法、検索プログラム及び検索装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20220215907A1 (ja) |
JP (1) | JP7363914B2 (ja) |
WO (1) | WO2021084723A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050203898A1 (en) | 2004-03-09 | 2005-09-15 | International Business Machines Corporation | System and method for the indexing of organic chemical structures mined from text documents |
US20090037389A1 (en) | 2005-12-15 | 2009-02-05 | International Business Machines Corporation | Document Comparison Using Multiple Similarity Measures |
US20180253426A1 (en) | 2017-03-03 | 2018-09-06 | Perkinelmer Informatics, Inc. | Systems and methods for searching and indexing documents comprising chemical information |
-
2019
- 2019-10-31 JP JP2021554014A patent/JP7363914B2/ja active Active
- 2019-10-31 WO PCT/JP2019/042950 patent/WO2021084723A1/ja active Application Filing
-
2022
- 2022-03-28 US US17/705,399 patent/US20220215907A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050203898A1 (en) | 2004-03-09 | 2005-09-15 | International Business Machines Corporation | System and method for the indexing of organic chemical structures mined from text documents |
US20090037389A1 (en) | 2005-12-15 | 2009-02-05 | International Business Machines Corporation | Document Comparison Using Multiple Similarity Measures |
US20180253426A1 (en) | 2017-03-03 | 2018-09-06 | Perkinelmer Informatics, Inc. | Systems and methods for searching and indexing documents comprising chemical information |
Also Published As
Publication number | Publication date |
---|---|
WO2021084723A1 (ja) | 2021-05-06 |
US20220215907A1 (en) | 2022-07-07 |
JPWO2021084723A1 (ja) | 2021-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4930153B2 (ja) | 文書検索システム、文書番号部分列取得装置、および文書検索方法 | |
Sundfeld et al. | Foldalign 2.5: multithreaded implementation for pairwise structural RNA alignment | |
KR20080066496A (ko) | 검색 결과를 제공하는 방법 및 상기 방법을 수행하는시스템 | |
KR102104316B1 (ko) | 뉴스를 분석하여 기업의 주가를 예측하는 장치 및 이의 동작 방법 | |
KR20180127840A (ko) | 논문 평가 방법 및 전문가 추천 방법 | |
JP5398663B2 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
JP7065718B2 (ja) | 判断支援装置および判断支援方法 | |
JPWO2010013472A1 (ja) | データ分類システム、データ分類方法、及びデータ分類プログラム | |
JP5282880B2 (ja) | 検索システム、検索方法、およびプログラム | |
JP7363914B2 (ja) | 検索方法、検索プログラム及び検索装置 | |
WO2014050837A1 (ja) | 判定装置、判定方法、及びコンピュータ読み取り可能な記録媒体 | |
JP2012248120A (ja) | ウエブコンテンツの提供装置、方法、及びプログラム | |
JP5362807B2 (ja) | ドキュメントランク付け方法および装置 | |
JP6897073B2 (ja) | 地域施策評価方法及び地域施策評価システム | |
JP5309841B2 (ja) | タスク検索装置、タスク検索方法およびタスク検索プログラム | |
JP6402637B2 (ja) | 分析プログラム、分析方法及び分析装置 | |
KR20080026899A (ko) | 검색 대상과 연관된 단어를 추천하는 방법 및 상기 방법을수행하는 시스템 | |
JP5389683B2 (ja) | 重要キーワード抽出装置及び方法及びプログラム | |
JP5695586B2 (ja) | Xml文書検索装置及びプログラム | |
JP5826148B2 (ja) | 図面管理サーバ及びこれを用いた図面管理システム | |
JP5137134B2 (ja) | 感性情報抽出・検索装置、その方法およびプログラム | |
JP6413597B2 (ja) | 分析プログラム、分析方法及び分析装置 | |
JP7439926B2 (ja) | 映像提供システム、映像提供方法、及びコンピュータプログラム | |
JP5764448B2 (ja) | 文書ランキングスコアの動的更新のための方法および装置 | |
JP5458058B2 (ja) | 商品名同一性判定装置および商品名同一性判定プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220316 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230404 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230905 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230918 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7363914 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |