JP7449961B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP7449961B2
JP7449961B2 JP2021566876A JP2021566876A JP7449961B2 JP 7449961 B2 JP7449961 B2 JP 7449961B2 JP 2021566876 A JP2021566876 A JP 2021566876A JP 2021566876 A JP2021566876 A JP 2021566876A JP 7449961 B2 JP7449961 B2 JP 7449961B2
Authority
JP
Japan
Prior art keywords
information
structural formula
compound
target
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021566876A
Other languages
English (en)
Other versions
JPWO2021131324A1 (ja
JPWO2021131324A5 (ja
Inventor
侑也 濱口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JPWO2021131324A1 publication Critical patent/JPWO2021131324A1/ja
Publication of JPWO2021131324A5 publication Critical patent/JPWO2021131324A5/ja
Application granted granted Critical
Publication of JP7449961B2 publication Critical patent/JP7449961B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/192Recognition using electronic means using simultaneous comparisons or correlations of the image signals with a plurality of references
    • G06V30/194References adjustable by an adaptive method, e.g. learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/161Detection; Localisation; Normalisation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/70Machine learning, data mining or chemometrics

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Chemical & Material Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに係り、特に、画像として表された化合物の構造式を検索可能とする情報処理装置、情報処理方法、及びプログラムに関する。
化合物の構造式が画像データとして取り扱われるケースは、多数あり、例えばインターネット上で公開されたり、文書データに組み込まれたりする。ただし、画像データとして取り扱われる化合物の構造式は、通常の検索方法では検索するのが困難である。
一方、画像が示す化合物の構造式を検索可能とするために、コンピュータによる自動認識技術を利用して、化合物の構造式の画像から構造式を認識する技術が開発されている。具体例として、特許文献1及び2に記載の技術が挙げられる。
特許文献1に記載の技術は、化学構造図中の文字情報(例えば、化学物を構成する原子)をパターン認識し、化学構造図の線図情報(例えば、原子間の結合)を所定のアルゴリズムによって認識する。
特許文献2に記載の技術は、化合物の構造式の画像を読み込み、画像中、原子記号を示す画素に対して、原子記号の属性を示す値を割り当て、結合記号を示す画素に対して、結合記号の属性を示す値を割り当てる。
特開2013-61886号公報 特開2014-182663号公報
特許文献1及び2に記載の技術では、化合物の構造式を示す画像の各領域と、各領域が示す構造式中の構成要素との対応関係をルール化する。そして、そのルールに従って、画像が示す構造式中の各構成要素を識別する。
しかしながら、構造式の記載様式には等価な様式が複数あり、また、構造式中の太さ及び向き等は、書き方次第で変わり得る。その場合、構造式の書き方の違いに対応するために、様々な書き方にて記載された構造式中の各構成要素を識別するルールを、数多く用意しておく必要がある。識別ルールが準備されていない書き方にて記載された構造式については、その中に含まれる各構成要素を識別することが困難となる。
一方、ある化合物の構造式を示す画像から当該構造式中の各構成要素を識別した場合、識別された各構成要素についての情報は、その後に上記化合物を検索する際に有用な情報となり得る。
本発明は、上記の事情に鑑みてなされたものであり、上述した従来技術の問題点を解決するものである。具体的には、構造式の書き方に関わらず、構造式を示す画像から当該構造式の各構成要素を識別することができ、その識別結果を以後の化合物検索に利用することが可能な情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。
上記の目的を達成するために、本発明の情報処理装置は、プロセッサを備える情報処理装置であって、プロセッサは、識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、対象化合物の構造式中の構成要素のうち、各領域が示す構成要素を識別し、識別された対象化合物の構造式中の構成要素についての要素情報を、対象化合物と関連付けて記憶し、識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築されたことを特徴とする。
また、機械学習において、化学構造が同一であり記載様式が異なる構成要素を示す複数の学習用画像が用いられた場合には、複数の学習用画像から共通の特徴量を導出する識別モデルが機械学習によって構築されてもよい。
また、プロセッサは、検索化合物に関する入力情報を取得し、入力情報と、対象化合物と関連付けられた要素情報とに基づき、要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するのが好ましい。
上記の構成において、プロセッサは、入力情報と、対象化合物と関連付けて記憶された要素情報とに基づき、検索化合物と対象化合物との間の類似度を算出し、要素情報が記憶された対象化合物の中から、類似度が検索条件を満たす対象化合物を検索化合物として検索すると、より好適である。
さらに、プロセッサは、検索化合物の構造式中に含まれる構成要素に関する入力情報を取得すると、より一層好適である。
また、プロセッサは、対象画像を含む文書から対象画像を検出し、検出された対象画像を識別モデルに入力することにより、対象画像中の各領域が示す構成要素を識別してもよい。
上記の構成において、プロセッサは、オブジェクト検出アルゴリズムを利用して文書から対象画像を検出すると、より好適である。
また、要素情報は、識別された対象化合物の構造式中の構成要素の種類を示す情報を含んでもよい。このとき、要素情報は、識別された対象化合物の構造式中の構成要素の、対象画像に対して設定された座標空間での配置位置を示す情報を更に含んでもよい。
上記の構成において、構成要素の種類を示す情報は、構成要素に該当する原子又は原子間の結合の種類を示す情報であってもよい。
あるいは、構成要素の種類を示す情報が、構成要素に該当する官能基の化学式を示す情報であってもよい。
あるいは、構成要素の種類を示す情報が、対象化合物の構造式における構成要素の有無を構成要素の種類毎に示す分子フィンガープリントの一部からなる情報であってもよい。
また、前述の目的は、プロセッサが、識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、対象化合物の構造式に含まれる構成要素のうち、各領域が示す構成要素を識別するステップと、識別された対象化合物の構造式中の構成要素についての要素情報を、対象化合物と関連付けて記憶するステップと、を実施し、識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築された情報処理方法によって達成し得る。
また、上記の情報処理方法の各ステップをプロセッサに実施させるためのプログラムも実現可能である。
本発明によれば、構造式の書き方に関わらず、構造式を示す画像から当該構造式の各構成要素を識別することができ、その識別結果を以後の化合物検索に利用することができる。
化合物の構造式中の構成要素についての説明図である。 要素情報を化合物毎に記憶しているデータベースの一例を示す図である。 識別モデルの概念図である。 構成要素の記載様式の違いについての説明図である。 本発明の一実施形態に係る情報処理装置の構成を示す図である。 本発明の一実施形態に係る情報処理装置を用いた情報処理フローの流れを示す図である。 一つの文書から複数の対象画像を検出した状態の図である。 対象化合物の検索結果が表示された画面例を示す図である。 分子フィンガープリントについての説明図である。
本発明の一実施形態(以下、「本実施形態」と言う。)に係る情報処理装置、情報処理方法及びプログラムについて、以下、添付の図面を参照しながら説明する。
なお、以下の実施形態は、本発明を分かり易く説明する目的で挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、下記の実施形態に限られず、本発明の主旨を逸脱しない範囲において種々の改良又は変更され得る。また、当然ながら、本発明には、その等価物が含まれる。
また、以降の説明において、特に断る場合を除き、「文書」及び「画像」は、電子化(データ化)された文書及び画像であり、コンピュータによって処理可能な情報(データ)であることとする。
<本実施形態の情報処理装置の機能>
本実施形態の情報処理装置(以下、単に「情報処理装置」と言う。)は、プロセッサを備え、対象化合物の構造式を示す画像(対象画像)を解析して当該構造式中の各構成要素を識別することができる。対象化合物は、例えば、構造式が文書中の画像に表され、当該画像中の各領域が示す構成要素が情報処理装置によって識別される化合物である。
構造式を示す画像は、構造式を表す線図の画像である。構造式の記載方法には等価な記載方法が複数あり、例えば、水素原子(H)の単結合の表記省略、骨格の炭素原子(C)の表記省略、及び官能基の略語表記等が挙げられる。また、線図は、描き方(例えば、原子間の結合線の太さ、長さ、及び、結合線が延出する向き等)に応じて変わり得る。また、本実施形態において、構造式の書き方には、構造式を示す画像の解像度が含まれる。
構造式中の構成要素は、構造式を構成する原子、原子間の結合線、又はこれらの組み合わせを意味する。本実施形態では、図1に示すように、構造式を構成する個々の原子(例えば、図1中の「Bend C」及び「O」)、及び、個々の結合線(例えば、図1中の「Double」)が構成要素に該当する。
構造式を示す画像の各領域は、当該画像のうち、構造式中の構成要素を示す部分であり、例えば、構成要素を囲む矩形領域である(図1中の右図参照)。なお、本実施形態では、領域一つあたりに一つの構成要素が含まれていることとする。つまり、構造式を示す画像には、その構造式に含まれる構成要素に応じた数の領域が存在することになる。
情報処理装置は、化合物の構造式中の一つの構成要素(詳しくは、構成要素のラベル情報)と、一つの構成要素を示す学習用画像とを学習データセットとして用いて機械学習を実施する。この機械学習により、識別モデルが構築される。識別モデルは、化合物の構造式を示す画像の各領域の特徴量に基づき、その構造式中の構成要素のうち、各領域が示す構成要素を識別するモデルである。なお、識別モデルについては、後の項で詳述する。
また、情報処理装置は、化合物の構造式を示す画像が掲載された文書から画像(対象画像)を検出する機能を有する。検出された対象画像は、上記の識別モデルに入力される。これにより、対象画像が示す化合物(対象化合物)の構造式中の各構成要素が識別される。
さらに、情報処理装置は、識別された対象化合物中の各構成要素に対して要素情報を取得する。本実施形態において、要素情報は、識別された構成要素の種類を示す情報と、当該構成要素の配置位置を示す情報とを含む。
本実施形態において、構成要素の種類を示す情報は、その構成要素に該当する原子又は原子間の結合の種類を示す情報であり、図1に示す化合物のケースでは、「Bend C」、「O」及び「Double」が該当する。
構成要素の配置位置を示す情報は、対象画像に対して設定された座標空間(例えば、対象画像の横方向をX方向、縦方向をY方向とする二次元座標空間)における構成要素の配置位置を示す情報である。本実施形態では、対象画像における基準位置(例えば、左上の頂点位置)を原点とし、構成要素の配置位置として、構成要素を囲む矩形領域の代表位置とサイズ(例えば、X、Y各方向の長さ)とが画素単位で表現される。
要素情報は、対象化合物の構造式に含まれる複数の構成要素のそれぞれに対して取得される。取得された要素情報は、対象化合物と関連付けて記憶され、例えば、図2に示すように、対象化合物の構造式を示す画像が掲載された文書等と紐付けられた状態で記憶される。
なお、本実施形態において、要素情報のうち、構成要素の種類を示す情報は、識別モデルによって構造式中の各構成要素が識別されることで自動的に取得される。また、要素情報のうち、構成要素の配置位置を示す情報は、その構成要素を示す領域を含む画像(すなわち、対象画像)を解析することで自動的に取得される。
情報処理装置は、様々な対象化合物について、上記一連の処理(具体的には、文書からの画像検出、構造式中の各構成要素の識別、並びに要素情報の取得及び記憶)を繰り返し実行する。これにより、対象化合物に関する情報として、対象化合物の構造式中の各構成要素についての要素情報が蓄積されていく。この結果、要素情報を対象化合物別に収録したデータベースが構築される(図2参照)。
また、情報処理装置は、データベースに記憶された要素情報を検索キーとして、目的(ターゲット)の対象化合物、すなわち検索化合物に該当する対象化合物を検索する機能を備える。例えば、検索を行うユーザは、検索化合物の構造式を示す画像情報を入力する。情報処理装置は、その画像情報を入力情報として取得し、取得した入力情報、及び、データベースに記憶された要素情報に基づき、要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索する。
以上のように、情報処理装置によれば、論文又は特許明細書等の文書中に含まれる化合物の構造式の画像を検出し、その画像が示す構造式中の各構成要素についての情報(要素情報)をデータベース化することができる。そして、データベースを利用することで、目的とする化合物を容易に検索することができる。これにより、例えば、目的とする化合物の構造式を示す画像が掲載された文書を簡単に見つけ出すことが可能となる。
<識別モデルについて>
本実施形態で用いられる識別モデル(以下、識別モデルM1と言う。)について説明する。
識別モデルM1は、対象化合物の構造式を示す画像(対象画像)から、その構造式に含まれる各構成要素を識別するためのモデルである。本実施形態の識別モデルM1は、図3に示すように、特徴量導出モデルMaと、構成要素出力モデルMbとによって構成される。
特徴量導出モデルMaは、対象画像が入力されることで、対象画像の各領域の特徴量を導出するモデルである。本実施形態において、特徴量導出モデルMaは、例えば、中間層に畳み込み層及びプーリング層を有する畳み込みニューラルネットワーク(CNN)によって構成される。CNNのモデルとしては、例えば、Oxford visual geometry groupの16層CNN(VGG16)、Google社のInceptionモデル(GoogLeNet)、Kaiming He氏の152層CNN(Resnet)、及び、Chollet氏の改良Iceptionモデル(Xception)が挙げられる。
特徴量導出モデルMaにより対象画像中の各領域の特徴量を導出するにあたり、対象画像中の各領域が特定される。具体的には、対象画像が示す構造式に含まれる構成要素をそれぞれ検出し、検出された各々の構成要素を取り囲む領域を構成要素毎に特定する。このような領域特定の機能は、後述する機械学習によって特徴量導出モデルMaに搭載される。
特徴量導出モデルMaから出力される画像の特徴量は、畳み込みニューラルネットワークCNNにおける学習的特徴量であり、一般的な画像認識(パターン認識)の過程で特定される特徴量である。そして、特徴量導出モデルMaにて導出された各領域の特徴量は、領域毎に構成要素出力モデルMbに入力される。
構成要素出力モデルMbは、特徴量導出モデルMaにて導出された各領域の特徴量が領域毎に入力されることで、各領域について、その特徴量と対応する構成要素(例えば、構成要素の種類)を領域毎に出力するモデルである。本実施形態において、構成要素出力モデルMbは、例えば、ニューラルネットワーク(NN)によって構成される。
本実施形態に係る構成要素出力モデルMbは、対象画像の各領域の特徴量と対応する構成要素を出力するにあたり、領域毎に複数の候補(構成要素の候補)を特定する。領域毎に特定される複数の候補にはソフトマックス関数(softmax)が適用され、各候補に対して出力確率が算出される。出力確率とは、複数の候補のそれぞれについて、各領域が示す構成要素に該当する確からしさ(精度)を示す数値である。なお、ソフトマックス関数を適用したn個(nは自然数)の出力確率の総和は、1.0になる。
構成要素出力モデルMbは、領域毎に特定される複数の候補のうち、出力確率に応じて決められる候補、例えば、出力確率が最も高い候補を、各領域が示す構成要素として出力する。このように本実施形態において、対象画像が示す構造式中の各構成要素は、対象画像の各領域の特徴量に基づいて特定される複数の候補の中から、各候補の出力確率に基づいて決められる。
以上までに説明してきた識別モデルM1(換言すると、上記2つのモデルMa、Mbの各々)は、化合物の構造式中の一つの構成要素を示す学習用画像と、その構成要素のラベル(正解ラベル)とを学習データセットとし、複数の学習データセットを用いた機械学習によって構築される。
なお、機械学習に用いられる学習データセットの数については、学習の精度を向上させる観点では多い方がよく、好ましくは5万個以上とするのがよい。
本実施形態において、機械学習は、教師あり学習であり、その手法は深層学習(つまり、多層のニューラルネットワーク)であるが、これに限定されるものではない。機械学習の種類(アルゴリズム)については、教師無し学習、半教師あり学習、強化学習、又はトランスダクションであってもよい。
また、機械学習の技法については、遺伝的プログラミング、帰納論理プログラミング、サポートベクタマシン、クラスタリング、ベイジアンネットワーク、エクストリーム・ラーニング・マシン(ELM)、又は決定木学習であってもよい。
また、ニューラルネットワークの機械学習において目的関数(損失関数)を最小化する方法としては、勾配降下法を用いてもよく、あるいは誤差逆伝播法を用いてもよい。
また、本実施形態の機械学習では、化学構造が同一であり記載様式が異なる構成要素を示す複数の学習用画像が用いられる場合がある。例えば、図4のように、ある構成要素(図4では、へキシレン基が図示されている)を等価な記載様式にて記載した場合、記載様式別に用意された学習用画像を用いて機械学習が実施されるケースが想定され得る。あるいは、原子間の結合線の太さ、長さ又は向き等が異なるものの化学構造が同一である構成要素を示す複数の学習用画像を用いて機械学習が実施されるケースも想定され得る。
以上のようなケースでは、複数の学習用画像から共通の特徴量を導出する識別モデルM1(厳密には、特徴量導出モデルMa)が機械学習によって構築されることになる。例えば、図4に図示した記載様式が異なる2つのへキシレン基を示す学習用画像の各々に対して、同じ「へキシレン基」というラベル(正解ラベル)を付けて教師あり学習を実施する。これにより、記載様式が異なる2つのへキシレン基を示す学習用画像から共通の特徴量を導出し、それぞれの画像から同じ構成要素(へキシレン基)を出力することができる識別モデルM1が構築される。
<本実施形態の情報処理装置の構成>
次に、図5に図示した情報処理装置(以下、情報処理装置10)の構成例について説明する。なお、図5では、外部インタフェースを「外部I/F」と記載している。
情報処理装置10は、図5に示されるように、プロセッサ11、メモリ12、外部インタフェース13、入力装置14、出力装置15、及びストレージ16が互いに電気的に接続されたコンピュータである。
なお、本実施形態では、情報処理装置10が一台のコンピュータによって構成されているが、複数台のコンピュータによって情報処理装置10が構成されてもよい。
プロセッサ11は、後述のプログラム21を実行し、上述した情報処理装置10の機能を発揮させるための処理を実施するように構成されている。なお、プロセッサ11は、一つ又は複数のCPU(Central Processing Unit)、及び後述のプログラム21から構成される。
プロセッサ11を構成するハードウェアプロセッサは、CPUに限定されず、FPGA(Field Programmable Gate Array)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、GPU(Graphics Processing Unit)、MPU(Micro-Processing Unit)、又はその他のIC(Integrated Circuit)でもよく、あるいは、これらを組み合わせたものでもよい。また、プロセッサ11は、SoC(System on Chip)等に代表されるように、情報処理装置10全体の機能を発揮する一つのIC(Integrated Circuit)チップでもよい。
なお、上述したハードウェアプロセッサは、半導体素子などの回路素子を組み合わせた電気回路(Circuitry)であってもよい。
メモリ12は、ROM(Read Only Memory)及びRAM(Random Access Memory)などの半導体メモリによって構成され、プログラム及びデータを一時的に記憶することでプロセッサ11に作業領域を提供するとともに、プロセッサ11が実行する処理によって生成される各種データも一時的に記憶する。
メモリ12には、コンピュータを本実施形態の情報処理装置10として機能させるためのプログラム21が記憶されている。このプログラム21には、下記のプログラムp1~p5が含まれる。
p1:機械学習によって識別モデルM1を構築するためのプログラム
p2:対象画像が掲載された文書から対象画像を検出するためのプログラム
p3:対象画像が示す構造式中の各構成要素を識別するためのプログラム
p4:識別された構成要素についての要素情報を記憶するためのプログラム
p5:要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するためのプログラム
なお、プログラム21は、コンピュータが読み取り可能な記録媒体から読み込むことで取得してもよく、あるいは、インターネット又はイントラネット等のネットワークを通じて受信(ダウンロード)することで取得してもよい。
外部インタフェース13は、外部装置と接続するためのインタフェースである。情報処理装置10は、外部インタフェース13を介して外部装置、例えば、スキャナ又はインターネット上の他のコンピュータと通信する。このような通信を通じて、情報処理装置10は、機械学習用のデータを取得し、また、対象画像が掲載された文書を取得することができる。
入力装置14は、例えばマウス及びキーボード等からなり、ユーザの入力操作を受け付ける。情報処理装置10は、例えば、ユーザが入力装置14を通じて構成要素を描画等することで、機械学習用のデータを取得することができる。また、ユーザは、検索化合物に該当する対象化合物を検索する際に、入力装置14を操作して検索化合物に関する情報を入力する。これにより、情報処理装置10は、検索化合物に関する入力情報を取得することができる。
出力装置15は、例えばディスプレイ及びスピーカ等からなり、入力情報に基づいて検索された対象化合物(すなわち、検索化合物に該当する対象化合物)を表示し、または音声再生するための装置である。また、出力装置15は、データベースにて対象化合物毎に記憶されている要素情報を出力することができる。
ストレージ16は、例えば、フラッシュメモリ、HDD(Hard Disc Drive)、SSD(Solid State Drive)、FD(Flexible Disc)、MOディスク(Magneto-Optical disc)、CD(Compact Disc)、DVD(Digital Versatile Disc)、SDカード(Secure Digital card)、及びUSBメモリ(Universal Serial Bus memory)等によって構成されている。ストレージ16には、機械学習用のデータを含む各種のデータが記憶される。さらに、ストレージ16には、識別モデルM1をはじめ、機械学習により構築される各種モデルも記憶される。
さらにまた、ストレージ16には、識別モデルM1によって識別された対象化合物の構造式中の各構成要素についての要素情報が、対象化合物と関連付けられて記憶されている。この結果、ストレージ16に、図2に示す要素情報のデータベース22が構築される。
データベース22には、対象化合物毎に、対象化合物の構造式に含まれる各構成要素についての要素情報、具体的には構成要素の種類と配置位置が蓄積されている。
データベース22に記憶される構成要素の種類は、図2に示すように、識別モデルM1にて算出された出力確率が最も高い構成要素の種類であり、その出力確率(図中では「精度」と表記)とともに記憶される。
また、データベース22に記憶される構成要素の配置位置は、対象画像の基準位置を原点とする座標空間にて表される位置であり、例えば、構成要素を囲む矩形領域の代表位置、X方向長さ及びY方向長さで表される。
また、図2に示すように、対象化合物の構造式中の各構成要素についての要素情報は、その構造式を示す画像(対象画像)が掲載された文書に関する情報と紐付けられて記憶されている。文書に関する情報としては、例えば、文書が論文である場合には論文タイトル等、または、文書が公報である場合には公報発行番号等、並びに、文書における対象画像の掲載ページ及びそのページにおける配置位置等が挙げられる。
なお、本実施形態では、ストレージ16が情報処理装置10に内蔵された機器であるが、これに限定されるものではなく、ストレージ16は、情報処理装置10に接続された外付け型の機器を含んでもよい。また、ストレージ16は、ネットワークを介して通信可能に接続された外部のコンピュータ(例えば、クラウドサービス用のサーバコンピュータ)を含んでもよい。この場合、上述のデータベース22の一部又は全部が、ストレージ16を構成する外部のコンピュータに記憶されてもよい。
情報処理装置10のハードウェア構成については、上述の構成に限定されるものではなく、具体的な実施形態に応じて適宜、構成機器を追加、省略及び置換することが可能である。
<情報処理フローについて>
次に、情報処理装置10を用いた情報処理フローについて説明する。
なお、以下に説明する情報処理フローでは、本発明の情報処理方法が採用されている。すなわち、下記の情報処理フロー中の各ステップは、本発明の情報処理方法を構成する。
本実施形態の情報処理フローは、図6に示すように、学習フェーズS001、データベース構築フェーズS002、及び検索フェーズS003の順に進む。以下、各フェーズについて説明する。
[学習フェーズ]
学習フェーズS001は、以降のフェーズで必要となるモデルを構築するために機械学習を実施するフェーズである。学習フェーズS001では、図6に示すように、第1の機械学習S011、第2の機械学習S012、及び第3の機械学習S013が実施される。
第1の機械学習S011は、識別モデルM1を構築するための機械学習であり、前述のように、化合物の構造式の一つの構成要素を示す学習用画像を用いて実施される。本実施形態では、第1の機械学習S011として教師あり学習が実施される。この教師あり学習では、学習用画像と、学習用画像が示す一つの構成要素のラベル(正解ラベル)とが用いられる。
また、第1の機械学習S011では、前述したように、化学構造が同一であり記載様式が異なる構成要素を示す複数の学習用画像が用いられる場合がある。これにより、複数の学習用画像から共通の特徴量を導出する識別モデルM1(厳密には、特徴量導出モデルMa)が構築される。
第2の機械学習S012は、化合物の構造式を示す画像が掲載された文書から当該画像を検出するモデル(以下、画像検出モデルと言う)を構築するための機械学習である。画像検出モデルは、オブジェクト検出アルゴリズムを利用して文書中から構造式の画像を検出するためのモデルである。オブジェクト検出アルゴリズムとしては、R-CNN(Region-based CNN)、Fast R-CNN、YOLO(You only Look Once)、及びSDD(Single Shot Multibox Detector)が利用可能である。本実施形態では、検出速度の観点からYOLOを利用した画像検出モデルを構築する。
第2の機械学習S012に用いる学習用データ(教師データ)は、化合物の構造式を示す学習用画像に対してアノテーションツールを適用することによって作成される。アノテーションツールは、対象となるデータに対して正解ラベル(タグ)、及び対象物の座標等の関連情報を注釈として付与するツールである。アノテーションツールを起動し、学習用画像を含む文書を表示し、化合物の構造式を示す領域をバウンディングボックスによって囲み、その領域に対してアノテーションを行うことで学習用データが作成される。
なお、アノテーションツールとしては、例えば、tzutalin社のlabeImg、及び、microsoft社のVoTT等が利用可能である。
上記の学習用データを用いて第2の機械学習S012を行うことにより、YOLO形式の物体検出モデルである画像検出モデルが構築される。
第3の機械学習S013は、データベース22に要素情報が記憶された複数の対象化合物の中から、検索化合物に該当する対象化合物を検索するモデル(以下、検索モデル)を構築するための機械学習である。
本実施形態の検索モデルは、データベース22に要素情報が記憶された対象化合物のうち、検索化合物との間で構造式が同一又は類似である対象化合物を、検索化合物として検索するモデルである。
なお、以下では、入力情報が、検索化合物の構造式に含まれる各構成要素に関する情報であり、例えば、検索化合物の構造式を示す画像情報であることとする。ただし、入力情報としては、検索化合物の構造式の少なくとも一部を特定できる内容(すなわち、データベース22にて検索化合物を検索する際のキーとなり得る情報)であれば、他の情報であってもよい。例えば、検索化合物の構造式における一部の構成要素を示す画像情報であってもよい。また、要素情報に相当する情報(例えば、構造式中の構成要素の種類、及び、その構成要素の構造式における配置位置を示す情報)を入力情報として用いてもよい。さらに、検索化合物の構造式の一部又は全部を、ChemDraw(登録商標)及びRDKitのような公知の構造式描画ソフトによって描画し、その描画データを入力情報として用いてもよい。
検索モデルは、検索化合物特定モデルと、類似度評価モデルとによって構成される。検索化合物特定モデルは、入力情報が示す検索化合物の構造式を特定するモデルである。本実施形態では、入力情報としての画像情報が検索化合物特定モデルに入力されると、当該画像情報が示す構造式中の各構成要素に関する情報(例えば、各構成要素の種類及び構造式における配置位置を示す情報)が出力される。
なお、検索化合物特定モデルとしては、前述の識別モデルM1を転用してもよく、その場合の機械学習として転移学習を実施してもよい。
類似度評価モデルは、検索化合物特定モデルにより特定された検索化合物の構造式と、データベース22に各構成要素の要素情報が記憶された対象化合物の構造式との間で類似度を評価する。本実施形態では、検索化合物の構造式に含まれる構成要素についての要素情報と、対象化合物の構造式に含まれる構成要素についての要素情報と、に基づいて類似度を評価する。
類似度評価モデルのアルゴリズムは、特に限定されないが、例えば画像間の類似度、又はテキスト間の算出度を評価するための公知のアルゴリズムを利用することができる。例えば、構造式に含まれる構成要素についての要素情報をベクトル化し、ベクトル間の類似度をユークリッド距離等の指標によって算出するアルゴリズムを用いることができる。
また、同一の化学物について互いに異なる記載様式にて書かれた複数の構造式の間では、類似度が高くなるようにするのが好ましい。これは、同一の化合物について異なる記載様式で記載された構造式では、各構造式における各官能基の書き方(例えば、結合線の向き等)及び各原子の位置等が変わってくるからである。このような違いを考慮し、同一の化合物について異なる記載様式で記載された構造式の間では類似度が高くなるようにするとよい。例えば、データベース22に記録され、同一の化合物について異なる記載様式で記載された複数の構造式のそれぞれについては、同じラベル(正解ラベル)を付けて機械学習に供して類似度評価モデルを構築すればよい。
なお、類似度の評価手法については、機械学習によるものに限定されず、例えば、予め規定した照合ルールに従って、検索化合物と対象化合物との間で構造式中の各構成要素を照合し、その照合結果に基づいて類似度を評価してもよい。あるいは、データベース22に各構成要素の要素情報が記憶された対象化合物を、要素情報に基づいてクラスタリングし、検索化合物が属するクラスタを特定することで類似度を評価してもよい。
第3の機械学習S013は、データベース22に対象化合物毎に記憶された構造式中の各構成要素についての要素情報と、化合物の構造式に関する学習用情報とを用いて実施される。ここで、学習用情報は、例えば、第3の機械学習S013のために選定された化合物について、その構造式中の各構成要素の種類及び配置位置等を示す情報である。
そして、第3の機械学習が実施されることにより、上述した検索モデルが構築される。
[データベース構築フェーズ]
データベース構築フェーズS002は、文書に含まれる画像(対象画像)が示す対象化合物の構造式について、その構造式中の各構成要素についての要素情報を記憶してデータベース22を構築するフェーズである。
データベース構築フェーズS002では、先ず、情報処理装置10のプロセッサ11が、対象画像を含む文書に対して前述の画像検出モデルを適用し、文書中の対象画像を検出する(S021)。つまり、本ステップS021において、プロセッサ11は、オブジェクト検出アルゴリズム(具体的には、YOLO)を利用して、文書から対象画像を検出する。
この際、一つの文書中に対象画像が複数含まれる場合には、プロセッサ11は、図7に示すように、上記の文書から複数の対象画像(図7中、破線にて囲われた部分の画像)を検出する。
次に、プロセッサ11は、識別モデルM1により、対象画像の各領域の特徴量に基づき、対象化合物の構造式中の各構成要素を識別する(S023)。
具体的に説明すると、プロセッサ11は、ステップS021で検出された対象画像を識別モデルM1に入力する。識別モデルM1のうち、前段の特徴量導出モデルMaでは対象画像の各領域の特徴量が出力される。後段の構成要素出力モデルMbでは、入力された各領域の特徴量に基づき、構成要素(厳密には、構成要素の種類)が出力される。このとき、各領域の特徴量に基づいて、各領域と対応する構成要素の候補が複数特定され、また、それぞれの候補について出力確率が算出される。
構成要素出力モデルMbは、前述したように、出力確率が最も高い候補を各領域が示す構成要素として出力する。対象画像中の各領域が示す構成要素が領域毎に出力されることにより、対象画像が示す構造式(すなわち、対象化合物の構造式)を構成要素に分けて識別することができる。
なお、ステップS021にて複数の対象画像を検出した場合、プロセッサ11は、検出された複数の対象画像を対象画像毎に識別モデルM1に入力する。これにより、複数の対象画像のそれぞれについて、対象画像が示す対象化合物の構造式中の各構成要素が識別されることになる。
次に、プロセッサ11は、識別された対象化合物の構造式中の各構成要素についての要素情報を取得し、取得された要素情報を記憶する(S023)。このとき、プロセッサ11は、各構成要素についての要素情報を、各構成要素を構造式中に含む対象化合物と関連付けて記憶する。本実施形態では、各構成要素についての要素情報が、各構成要素によって構成される構造式の画像(対象画像)が掲載された文書の情報等と紐付けられて記憶される(図2参照)。
ステップS023は、新たな対象化合物について、その構造式中の各構成要素が識別される度に繰り返される。この結果、対象化合物の構造式中の各構成要素についての要素情報が蓄積され、要素情報のデータベース22が構築される。データベース22に要素情報が記憶された対象化合物は、後の検索フェーズS003において、要素情報をキーとして検索可能となる。
[検索フェーズ]
検索フェーズS003は、データベース22に要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するフェーズである。「検索化合物」は、検索対象となり、検索の実施に際して、その構造式の一部又は全部に関する情報が入力情報として取得される化合物である。
検索フェーズS003では、先ず、情報処理装置10のプロセッサ11が、検索化合物に関する入力情報を取得する(S031)。本ステップS031において、プロセッサ11は、入力情報として、検索化合物の構造式に含まれる各構成要素に関する情報を取得する。このような情報の一例としては、例えば、検索化合物の構造式を示す画像情報等が挙げられる。
入力情報の取得後、プロセッサ11は、前述した検索モデルにより、データベース22に要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索する(S032)。具体的に説明すると、プロセッサ11は、検索モデルにより、取得された入力情報と、データベース22にて対象化合物と関連付けて記憶された要素情報とに基づき、検索化合物と対象化合物との間の類似度を算出する。本実施形態では、入力情報が示す検索化合物と、データベース22に要素情報が記憶された対象化合物との間で、構造式の類似度を算出する。
その後、プロセッサ11は、データベース22に要素情報が記憶された対象化合物の中から、算出した類似度が検索条件を満たす対象化合物を検索化合物として検索(選定)する。検索条件は、類似度の算出結果に基づいて検索化合物に該当する対象化合物を選定するために予め決められた条件である。本実施形態では、類似度が高い順に、予め決められた個数の対象化合物が検索化合物として検索される。ただし、これに限定されるものではなく、例えば、類似度が最も高い対象化合物のみを検索化合物として検索してもよい。あるいは、類似度が基準値以上である対象化合物を検索化合物として検索してもよい。
そして、プロセッサ11は、検索された対象化合物の情報を出力装置15にて出力し、例えば、図8に示すように画面に検索結果を表示する。検索された対象化合物の情報としては、例えば、その対象化合物の構造式を示す画像が掲載された文書及び掲載頁等が挙げられる。また、図8に示すように、対象化合物の検索結果と共に、検索された対象化合物と検索化合物との類似度を併せて出力するのが好ましい。
なお、検索化合物に関する入力情報として、検索化合物の構造式に含まれる一部の構成要素(以下、便宜的に「部分構造」と言う。)を示す情報が取得されるケースが考えられ得る。このようなケースでは、部分構造を含む対象化合物を検索化合物として検索することになる。具体的には、データベース22に要素情報が記憶された各対象化合物について、その構造式に含まれる部分構造と、入力情報が示す部分構造との類似度を算出する。そして、類似度が高い順に、予め決められた個数の対象化合物を検索化合物として検索する。
<本実施形態の有効性について>
本実施形態の情報処理装置10は、第1の機械学習S011によって構築された識別モデルM1を利用し、対象化合物の構造式を示す画像(対象画像)中の各領域の特徴量に基づき、構造式中の各構成要素を識別することができる。また、本実施形態の情報処理装置10は、識別された構成要素についての要素情報を対象化合物と関連付けて記憶し、データベース22を構築する。データベース22に記憶された要素情報は、それ以降に対象化合物を検索する際の検索キーとして利用することができる。
上記の効果について詳述すると、従来の技術では、化合物の構造式を示す画像の各領域と、各領域に現れる構造式中の構成要素との対応関係をルール化し、そのルールに従って構造式中の各構成要素を識別していた。ただし、構造式の書き方が変わった場合、その書き方に適合できる識別ルールが準備されていないと、当該構造式中の各構成要素を識別することができない虞があった。その場合には、構成要素の識別結果を利用することができない等の理由により、その構成要素を含む構造式の検索が困難となっていた。
これに対して、本実施形態では、機械学習の成果である識別モデルM1を利用して対象画像の各領域の特徴量から構造式中の各構成要素を識別することができる。つまり、本実施形態では、構造式の書き方が変わったとしても、その構造式を示す画像の各領域の特徴量を特定し、特徴量が特定できれば、その特徴量から構成要素を割り出す(識別する)ことが可能である。そして、識別された構成要素についての要素情報を対象化合物と関連付けて記憶してデータベース化するので、それ以降は、要素情報を検索キーとして、目的(ターゲット)とする対象化合物を検索することができる。
以上のように、本実施形態によれば、対象化合物の構造式の書き方が変わった場合にも構造式中の各構成要素を良好に識別することができる。そして、識別された各構成要素についての要素情報を検索キーとして、目的とする対象化合物を適切に検索することができる。
<その他の実施形態>
以上までに、本発明の情報処理装置、情報処理方法、及びプログラムについて具体例を挙げて説明してきたが、上述した実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。
例えば、情報処理装置を構成するコンピュータとしては、ASP(Application Service Provider)、SaaS(Software as a Service)、PaaS(Platform as a Service)又はIaaS(Infrastructure as a Service)等に利用されるサーバであってもよい。この場合、上記ASP等のサービスを利用するユーザが不図示の端末を操作して、検索化合物に関する入力情報をサーバに送信する。サーバは、入力情報を受信すると、入力情報に基づき、要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索する。そして、サーバは、検索結果(すなわち、検索化合物に該当する対象化合物)に関する情報を、ユーザの端末に向けて出力(送信)する。ユーザ側では、サーバから送られてくる情報(すなわち、検索結果)が表示され、あるいは音声再生される。
また、上記の実施形態では、構造式に含まれる個々の原子、及び個々の原子間結合を構成要素としたが、これに限定されるものではない。例えば、複数の原子を含む官能基(原子団)を構成要素としてもよい。この場合には、構成要素についての要素情報のうち、構成要素の種類を示す情報が、その構成要素に該当する官能基の化学式を示す情報であるとよい。
あるいは、構造式中、互いに隣接する複数の官能基を構成要素としてもよく、又は、構造式を任意のルールに従って分割したときの各断片(フラグメント)を構成要素としてもよい。
また、要素情報のうち、構成要素の種類を示す情報は、対象化合物の構造式についての分子フィンガープリントの一部からなる情報であってもよい。分子フィンガープリントは、構造式における構成要素の有無を構成要素の種類毎に示すバイナリ型の多次元ベクトルである。例えば、図9の左側に図示した官能基に対しては、図9の右側に図示した分子フィンガープリントが設定される。
また、上記の実施形態では、各種のモデルを構築するための機械学習(第1~第3の機械学習)が情報処理装置10によって行われることとしたが、これに限定されるものではない。一部又は全ての機械学習が、情報処理装置10とは異なる他の装置(コンピュータ)によって行われてもよい。この場合、情報処理装置10は、他の装置が行う機械学習によって構築されるモデルを取得することになる。
例えば、第1の機械学習が他の装置によって行われる場合、情報処理装置10は、識別モデルM1を他の装置から取得し、取得された識別モデルM1により、対象画像が示す構造式中の各構成要素を識別する。
10 情報処理装置
11 プロセッサ
12 メモリ
13 外部インタフェース
14 入力装置
15 出力装置
16 ストレージ
21 プログラム
22 データベース
M1 識別モデル
Ma 特徴量導出モデル
Mb 構成要素出力モデル

Claims (13)

  1. プロセッサを備える情報処理装置であって、
    前記プロセッサは、
    識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、前記対象化合物の構造式中の構成要素のうち、前記各領域が示す前記構成要素を識別し、
    識別された前記対象化合物の構造式中の前記構成要素についての要素情報を、前記対象化合物と関連付けて記憶し、
    前記識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築され
    前記機械学習において、化学構造が同一であり記載様式が異なる前記構成要素を示す複数の前記学習用画像が用いられた場合には、複数の前記学習用画像から共通の特徴量を導出する前記識別モデルが前記機械学習によって構築される、情報処理装置。
  2. 前記プロセッサは、
    検索化合物に関する入力情報を取得し、
    前記入力情報と、前記対象化合物と関連付けられた前記要素情報とに基づき、前記要素情報が記憶された前記対象化合物の中から、前記検索化合物に該当する前記対象化合物を検索する、請求項1に記載の情報処理装置。
  3. 前記プロセッサは、
    前記入力情報と、前記対象化合物と関連付けて記憶された前記要素情報とに基づき、前記検索化合物と前記対象化合物との間の類似度を算出し、
    前記要素情報が記憶された前記対象化合物の中から、前記類似度が検索条件を満たす前記対象化合物を前記検索化合物として検索する、請求項に記載の情報処理装置。
  4. 前記プロセッサは、前記検索化合物の構造式中に含まれる前記構成要素に関する前記入力情報を取得する、請求項又はに記載の情報処理装置。
  5. 前記プロセッサは、
    前記対象画像を含む文書から前記対象画像を検出し、
    検出された前記対象画像を前記識別モデルに入力することにより、前記対象画像中の前記各領域が示す前記構成要素を識別する、請求項1乃至のいずれか一項に記載の情報処理装置。
  6. 前記プロセッサは、オブジェクト検出アルゴリズムを利用して前記文書から前記対象画像を検出する、請求項に記載の情報処理装置。
  7. 前記要素情報は、識別された前記対象化合物の構造式中の前記構成要素の種類を示す情報を含む、請求項1乃至のいずれか一項に記載の情報処理装置。
  8. 前記要素情報は、識別された前記対象化合物の構造式中の前記構成要素の、前記対象画像に対して設定された座標空間での配置位置を示す情報を更に含む、請求項1に記載の情報処理装置。
  9. 前記構成要素の種類を示す情報は、前記構成要素に該当する原子又は原子間の結合の種類を示す情報である、請求項又はに記載の情報処理装置。
  10. 前記構成要素の種類を示す情報は、前記構成要素に該当する官能基の化学式を示す情報である、請求項又はに記載の情報処理装置。
  11. 前記構成要素の種類を示す情報は、前記対象化合物の構造式における前記構成要素の有無を前記構成要素の種類毎に示す分子フィンガープリントの一部からなる情報である、請求項又はに記載の情報処理装置。
  12. プロセッサが、
    識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、前記対象化合物の構造式に含まれる構成要素のうち、前記各領域が示す前記構成要素を識別するステップと、
    識別された前記対象化合物の構造式中の前記構成要素についての要素情報を、前記対象化合物と関連付けて記憶するステップと、を実施し、
    前記識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築され、
    前記機械学習において、化学構造が同一であり記載様式が異なる前記構成要素を示す複数の前記学習用画像が用いられた場合には、複数の前記学習用画像から共通の特徴量を導出する前記識別モデルが前記機械学習によって構築される、情報処理方法。
  13. 請求項12に記載された情報処理方法の各ステップをプロセッサに実施させるためのプログラム。
JP2021566876A 2019-12-26 2020-10-30 情報処理装置、情報処理方法、及びプログラム Active JP7449961B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2019236342 2019-12-26
JP2019236342 2019-12-26
PCT/JP2020/040861 WO2021131324A1 (ja) 2019-12-26 2020-10-30 情報処理装置、情報処理方法、及びプログラム

Publications (3)

Publication Number Publication Date
JPWO2021131324A1 JPWO2021131324A1 (ja) 2021-07-01
JPWO2021131324A5 JPWO2021131324A5 (ja) 2022-08-17
JP7449961B2 true JP7449961B2 (ja) 2024-03-14

Family

ID=76574083

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021566876A Active JP7449961B2 (ja) 2019-12-26 2020-10-30 情報処理装置、情報処理方法、及びプログラム

Country Status (4)

Country Link
US (1) US20220327158A1 (ja)
JP (1) JP7449961B2 (ja)
CN (1) CN114868192A (ja)
WO (1) WO2021131324A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115908775A (zh) * 2021-08-16 2023-04-04 中国科学院上海药物研究所 化学结构式的识别方法、装置、存储介质及电子设备
CN114581924A (zh) * 2022-03-01 2022-06-03 苏州阿尔脉生物科技有限公司 化学反应流程图中元素的提取方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061886A (ja) 2011-09-14 2013-04-04 Kyushu Univ 化学構造図認識システム及び化学構造図認識システム用のコンピュータプログラム
CN108062529A (zh) 2017-12-22 2018-05-22 上海鹰谷信息科技有限公司 一种化学结构式的智能识别方法
WO2019048965A1 (ja) 2017-09-06 2019-03-14 株式会社半導体エネルギー研究所 物性予測方法および物性予測システム
US20190251455A1 (en) 2018-02-13 2019-08-15 International Business Machines Corporation Combining chemical structure data with unstructured data for predictive analytics in a cognitive system
WO2019175271A1 (en) 2018-03-13 2019-09-19 Ivalua Standardized form recognition method, associated computer program product, processing and learning systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013061886A (ja) 2011-09-14 2013-04-04 Kyushu Univ 化学構造図認識システム及び化学構造図認識システム用のコンピュータプログラム
WO2019048965A1 (ja) 2017-09-06 2019-03-14 株式会社半導体エネルギー研究所 物性予測方法および物性予測システム
CN108062529A (zh) 2017-12-22 2018-05-22 上海鹰谷信息科技有限公司 一种化学结构式的智能识别方法
US20190251455A1 (en) 2018-02-13 2019-08-15 International Business Machines Corporation Combining chemical structure data with unstructured data for predictive analytics in a cognitive system
WO2019175271A1 (en) 2018-03-13 2019-09-19 Ivalua Standardized form recognition method, associated computer program product, processing and learning systems

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
nishiha,Rdkitの構造式画像から分子式を推定する,日本,2019年01月31日,https://qiita.com/nishiha/items/f20f9942a1c35e1ea1fd,[検索日 2021.01.25]
伊東秀夫,特許情報サービスにおける画像検索,第252号,日本,特許庁技術懇話会,2009年01月30日,第66-70頁,http://www.tokugikon.jp/gikonshi/252tokusyu8.pdf

Also Published As

Publication number Publication date
JPWO2021131324A1 (ja) 2021-07-01
US20220327158A1 (en) 2022-10-13
CN114868192A (zh) 2022-08-05
WO2021131324A1 (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
US10963632B2 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
JP7268198B2 (ja) 画像解析装置、画像解析方法、及びプログラム
RU2721189C1 (ru) Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа
US10360294B2 (en) Methods and systems for efficient and accurate text extraction from unstructured documents
CN110362723B (zh) 一种题目特征表示方法、装置及存储介质
RU2723293C1 (ru) Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа
US10853580B1 (en) Generation of text classifier training data
US20220327158A1 (en) Information processing apparatus, information processing method, and program
US8243988B1 (en) Clustering images using an image region graph
CN107004025A (zh) 图像检索装置及检索图像的方法
US11663840B2 (en) Method and system for removing noise in documents for image processing
CN114612921B (zh) 表单识别方法、装置、电子设备和计算机可读介质
CN112784009B (zh) 一种主题词挖掘方法、装置、电子设备及存储介质
US11966455B2 (en) Text partitioning method, text classifying method, apparatus, device and storage medium
US20220374473A1 (en) System for graph-based clustering of documents
CN116304307A (zh) 一种图文跨模态检索网络训练方法、应用方法及电子设备
Al-Helali et al. A statistical framework for online Arabic character recognition
US9875336B2 (en) Spatial arithmetic method of sequence alignment
WO2019092867A1 (ja) 情報処理装置、情報処理方法及びコンピュータ読み取り可能な記録媒体
CN115344699A (zh) 文本分类模型的训练方法、装置、计算机设备及介质
JP5343617B2 (ja) 文字認識プログラム、文字認識方法および文字認識装置
AU2015204339A1 (en) Information processing apparatus and information processing program
TWI285849B (en) Optical character recognition device, document searching system, and document searching program
CN109902162B (zh) 基于数字指纹的文本相似性的识别方法、存储介质及装置
US20230267175A1 (en) Systems and methods for sample efficient training of machine learning models

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230704

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231114

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231208

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240304

R150 Certificate of patent or registration of utility model

Ref document number: 7449961

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150