JP2023083462A - 画像解析装置、画像解析方法、及びプログラム - Google Patents

画像解析装置、画像解析方法、及びプログラム Download PDF

Info

Publication number
JP2023083462A
JP2023083462A JP2023068920A JP2023068920A JP2023083462A JP 2023083462 A JP2023083462 A JP 2023083462A JP 2023068920 A JP2023068920 A JP 2023068920A JP 2023068920 A JP2023068920 A JP 2023068920A JP 2023083462 A JP2023083462 A JP 2023083462A
Authority
JP
Japan
Prior art keywords
image
model
structural formula
information
symbolic information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2023068920A
Other languages
English (en)
Other versions
JP7472358B2 (ja
JP2023083462A5 (ja
Inventor
侑也 濱口
Yuya Hamaguchi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Corp
Original Assignee
Fujifilm Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Corp filed Critical Fujifilm Corp
Publication of JP2023083462A publication Critical patent/JP2023083462A/ja
Publication of JP2023083462A5 publication Critical patent/JP2023083462A5/ja
Application granted granted Critical
Publication of JP7472358B2 publication Critical patent/JP7472358B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/30Character recognition based on the type of data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/12Detection or correction of errors, e.g. by rescanning the pattern
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

【課題】 化合物の構造式を示す画像から構造式の文字情報を生成する際に、構造式の書き方の変化に対応することが可能な画像解析装置、画像解析方法、及び画像解析方法を実現するためのプログラムを提供する。【解決手段】 本発明の一実施形態に係る画像解析装置は、プロセッサを備え、プロセッサは、解析モデルにより、対象化合物の構造式を示す対象画像の特徴量に基づき、対象化合物の構造式を線形表記法にて表した記号情報を生成する。解析モデルは、学習用画像と、学習用画像が示す化合物の構造式を線形表記法にて表した記号情報とを用いた機械学習によって構築されたモデルである。【選択図】図4

Description

本発明は、画像解析装置、画像解析方法、及びプログラムに係り、特に、化合物の構造式を示す画像を解析する画像解析装置、画像解析方法、及びプログラムに関する。
化合物の構造式が画像データとして取り扱われるケースは、多数あり、例えばインターネット上で公開されたり、文書データに組み込まれたりする。ただし、画像データとして取り扱われる化合物の構造式は、通常の検索方法では検索するのが困難である。
一方、画像が示す化合物の構造式を検索可能とするために、コンピュータによる自動認識技術を利用して、化合物の構造式の画像から構造式を認識する技術が開発されている。具体例として、特許文献1及び2に記載の技術が挙げられる。
特許文献1に記載の技術は、化学構造図中の文字情報(例えば、化学物を構成する原子)をパターン認識し、化学構造図の線図情報(例えば、原子間の結合)を所定のアルゴリズムによって認識する。
特許文献2に記載の技術は、化合物の構造式の画像を読み込み、画像中、原子記号を示す領域(画素)に対して、原子記号の属性を示す値を割り当て、結合記号を示す領域(画素)に対して、結合記号の属性を示す値を割り当てる。
特開2013-61886号公報 特開2014-182663号公報
特許文献1及び2に記載の技術では、化合物の構造式を示す画像において構造式中の部分構造(構成要素)を示す部分と、その部分構造との対応関係をルール化し、そのルールに従って画像中の構造式を識別する。
ただし、構造式の記載様式には等価な様式が複数あり、また、構造式中の結合線の太さ及び向き等についても書き方次第で変わり得る。その場合、構造式の書き方の違いに対応するために、様々な書き方にて記載された部分構造を識別するルールを、数多く用意しておく必要がある。
また、特許文献1及び2に記載の技術では、例えば、新たな書き方で書かれた構造式の画像については、識別ルールが用意されていないために識別することができない虞がある。
本発明は、上記の事情に鑑みてなされたものであり、上述した従来技術の問題点を解決するものである。具体的には、本発明は、化合物の構造式を示す画像から構造式の文字情報を生成する際に、構造式の書き方の変化に対応できる画像解析装置、画像解析方法、及び画像解析方法を実現するためのプログラムを提供することを目的とする。
上記の目的を達成するために、本発明の画像解析装置は、プロセッサを備え、化合物の構造式を示す画像を解析する画像解析装置であって、プロセッサは、解析モデルにより、対象化合物の構造式を示す対象画像の特徴量に基づき、対象化合物の構造式を線形表記法にて表した記号情報を生成し、解析モデルが、学習用画像と、学習用画像が示す化合物の構造式を線形表記法にて表した記号情報とを用いた機械学習によって構築されたことを特徴とする。
また、プロセッサは、対象画像を含む文書から対象画像を検出し、検出された対象画像を解析モデルに入力することにより、対象化合物の構造式の記号情報を生成すると、好適である。
さらに、プロセッサは、オブジェクト検出アルゴリズムを利用して文書から対象画像を検出すると、より好適である。
さらにまた、プロセッサは、複数の対象画像を含む文書から複数の対象画像を検出し、検出された複数の対象画像を対象画像毎に解析モデルに入力することにより、複数の対象画像の各々が示す対象化合物の構造式の記号情報を生成すると、さらに好適である。
また、解析モデルが、対象画像が入力されることで特徴量を出力する特徴量出力モデルと、特徴量が入力されることで特徴量に対応する記号情報を出力する記号情報出力モデルと、を含んでもよい。
さらに、特徴量出力モデルは、畳み込みニューラルネットワークを含み、記号情報出力モデルは、再帰型ニューラルネットワークを含んでもよい。
また、対象化合物の構造式の記号情報が複数の記号によって構成され、記号情報出力モデルが、特徴量と対応する記号情報を構成する記号を、記号情報の先頭から順次特定し、特定された順に記号が並んだ記号情報を出力すると、好適である。
さらに、プロセッサは、解析モデルにより、対象画像の特徴量に基づき、対象化合物の構造式について複数の記号情報を生成してもよい。この場合、記号情報出力モデルは、それぞれの記号情報について、記号情報を構成する複数の記号の各々の出力確率を算出し、且つ、算出された複数の記号の各々の出力確率に基づいて記号情報の出力スコアを算出し、算出された出力スコアに応じて、予め決められた個数の記号情報を出力すると、より好適である。
さらにまた、プロセッサは、記号情報出力モデルが出力した記号情報の各々に対して、表記上の異常の有無を判定する判定処理を実行し、記号情報出力モデルが出力した記号情報のうち、異常がない正常記号情報を対象化合物の構造式の記号情報として出力すると、さらに好適である。
また、プロセッサは、照合モデルにより、対象画像から、対象化合物の構造式を線形表記法とは異なる記述方法にて記述した第1記述情報を生成し、正常記号情報が表す構造式を記述方法にて記述した第2記述情報を生成し、第1記述情報と第2記述情報とを照合し、第1記述情報と第2記述情報との一致度に応じて、正常記号情報を対象化合物の構造式の記号情報として出力すると、さらに好適である。
また、照合モデルが、第2学習用画像と、第2学習用画像が示す化合物の構造式を上記の記述方法にて記述した記述情報とを用いた機械学習によって構築されたものであると、さらに好適である。
さらに、照合モデルが、対象画像が入力されることで特徴量を出力する特徴量出力モデルと、特徴量出力モデルから出力される特徴量が入力されることで特徴量に対応する第1記述情報を出力する記述情報出力モデルと、を含んでいると、さらに好適である。
また、解析モデルは、学習用画像と、学習用画像が示す化合物の構造式を線形表記法にて表した記号情報と、学習用画像が示す化合物の構造式を線形表記法とは異なる記述方法にて記述した記述情報と、を用いた機械学習によって構築されてもよい。この場合、解析モデルは、対象画像が入力されることで、特徴量を出力する特徴量出力モデルと、対象画像が入力されることで、対象化合物の構造式の記述情報を出力する記述情報出力モデルと、出力された特徴量及び記述情報を合成した合成情報が入力されることで、合成情報に対応する記号情報を出力する記号情報出力モデルと、を含んでもよい。
さらに、特徴量出力モデルは、ベクトル化された特徴量を出力し、記述情報出力モデルは、ベクトル化された分子フィンガープリントからなる記述情報を出力すると、好適である。
また、線形表記法が、Simplified Molecular Input Line Entry System記法、又は、canonical Simplified Molecular Input Line Entry System記法であってよい。
また、前述の目的は、化合物の構造式を示す画像を解析する画像解析方法であって、プロセッサが、解析モデルにより、対象化合物の構造式を示す対象画像の特徴量に基づき、対象化合物の構造式を線形表記法にて表した記号情報を生成するステップを実施し、解析モデルが、学習用画像と、学習用画像が示す化合物の構造式を線形表記法にて表した記号情報とを用いた機械学習によって構築された画像解析方法によって達成し得る。
また、上記の画像解析方法のステップをプロセッサに実施させるためのプログラムも実現可能である。
本発明によれば、構造式の書き方の変化に対応することができ、化合物の構造式を示す画像から構造式の文字情報を適切に生成することができる。
構造式の線形表記についての説明図である。 解析モデルの概念図である。 本発明の一実施形態に係る画像解析装置のハードウェア構成を示す図である。 画像解析フローの流れを示す図である。 分子フィンガープリントについての説明図である。 一つの文書から複数の対象画像を検出した状態の図である。 照合モデルの概念図である。 変形例に係る解析モデルの概念図である。
本発明の一実施形態(以下、「本実施形態」と言う。)に係る画像解析装置、画像解析方法、及びプログラムについて、以下、添付の図面を参照しながら説明する。
なお、以下の実施形態は、本発明を分かり易く説明する目的で挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、下記の実施形態に限られず、本発明の主旨を逸脱しない範囲において種々の改良又は変更され得る。また、当然ながら、本発明には、その等価物が含まれる。
また、以降の説明において、特に断る場合を除き、「文書」及び「画像」は、電子化(データ化)された文書及び画像であり、コンピュータによって処理可能な情報(データ)であることとする。
<本実施形態の画像解析装置の機能>
本実施形態の画像解析装置は、プロセッサを備え、化合物の構造式を示す画像を解析する。本実施形態の画像解析装置の主たる機能は、対象化合物の構造式を示す画像(対象画像)を解析し、対象画像が示す構造式の記号情報を生成することである。ここで、「対象化合物」は、構造式の記号情報を生成する対象となる化合物であり、例えば、文書中に含まれる画像に構造式が示された有機化合物等が該当する。
「構造式を示す画像」は、構造式を表す線図の画像である。構造式の記載方法には等価な記載方法が複数あり、例えば、水素原子(H)の単結合の表記省略、骨格の炭素原子(C)の表記省略、及び官能基の略語表記等が挙げられる。また、線図は、描き方(例えば、原子間の結合線の太さ、長さ、及び、線が延出する向き等)に応じて変わり得る。また、本実施形態において、構造式の書き方には、構造式を示す画像の解像度が含まれる。
「記号情報」は、化合物の構造式を線形表記法にて表した情報であり、複数の記号(例えば、ASCII符号)を並べて構成される。線形表記法としては、SMILES(Simplified Molecular Input Entry System)記法、カノニカル(canonical)SMILES、SMARTS(Smiles Arbitrary Target Specification)記法、SLN(Sybyl Line Notation)記法、WLN(Wiswesser Line-Formula Notation)記法、ROSDAL(Representation of structure diagram arranged linearly)記法、InChI(International Chemical Identifier)、及びInChI Key(ハッシュ化InChI)等が挙げられる。
上記の線形表記法のうち、いずれの表記法を用いてもよいが、比較的簡便で広く用いられている点では、SMILES記法が好ましい。また、分子内の原子の序列及び順番を考慮して表記が一意に定まる点では、カノニカルSMILESも好ましい。なお、本実施形態では、構造式をSMILES記法に則って表した記号情報を生成するものとする。また、以下では、SMILES記法により表記されることをSMILES表記とも言う。
SMILES記法は、化合物の構造式を、複数の記号からなる一行の記号情報(文字情報)に変換する表記法である。SMILES記法で用いられる記号は、原子の種類(元素)、原子間の結合、分岐構造、及び、環構造を切断して鎖状構造としたときの切断箇所等を表し、所定のルールに従って決められている。
なお、SMILES記法にて表記された化合物の構造式、すなわち記号情報の一例として、図1に(S)-ブロモクロロフルメタンの例を示している。図1中、左側に構造式が示され、右側に記号情報(SMILES表記された構造式)が示されている。
本実施形態の画像解析装置は、化合物の構造式を示す学習用画像と、学習用画像が示す構造式の記号情報(正解のラベル情報)と、を学習データセットとして用いて機械学習を実施する。この機械学習により、化合物の構造式を示す画像の特徴量に基づき、その画像が示す構造式の記号情報を生成する解析モデルが構築される。解析モデルについては、後の項で詳述する。
また、本実施形態の画像解析装置は、化合物の構造式を示す画像を含む文書から画像(対象画像)を検出する機能を有する。そして、検出された対象画像を上記の解析モデルに入力することにより、対象画像が示す構造式の記号情報が生成される。
以上のような機能により、論文又は特許明細書等の文書中に化合物の構造式を示す画像が含まれる場合に、当該画像を検出し、当該画像が示す化合物の構造式を記号情報に変換することができる。
また、記号情報に変換された構造式は、それ以降に検索キーとして利用することができるので、目的(ターゲット)とする化合物の構造式を示す画像を含んだ文書を容易に検索することが可能となる。
さらに、本実施形態の画像解析装置は、解析モデルによって生成された記号情報の正誤をチェックする機能を有する。より詳しく説明すると、本実施形態では、一つの対象画像の特徴量から複数の記号情報が得られ、それぞれの記号情報について、表記上の異常(例えば、SMILES記法における誤表記)の有無を判定する。
さらにまた、異常が見つからなかった記号情報(正常記号情報)のそれぞれに対して、後述する照合処理を実施する。そして、照合処理の結果に応じて、所定数の正常記号情報が対象化合物の構造式の記号情報として出力される。
以上のように解析モデルによって生成された記号情報をチェックすることにより、対象化合物の構造式の記号情報として正確な情報を得ることができる。
<解析モデルについて>
本実施形態において用いられる解析モデル(以下、解析モデルM1)について説明する。解析モデルM1は、図2に示すように、特徴量出力モデルMaと記号情報出力モデルMbとによって構成される。解析モデルM1は、化合物の構造式を示す学習用画像と、学習用画像に示される構造式の記号情報(正解データ)とを学習データセットとし、複数の学習データセットを用いた機械学習によって構築される。
なお、機械学習に用いられる学習データセットの数については、学習の精度を向上させる観点では多い方がよく、好ましくは、5万個以上とするのがよい。
本実施形態において、機械学習は、教師あり学習であり、その手法は深層学習(つまり、多層のニューラルネットワーク)であるが、これに限定されるものではない。機械学習の種類(アルゴリズム)については、教師無し学習、半教師あり学習、強化学習、又はトランスダクションであってもよい。
また、機械学習の技法については、遺伝的プログラミング、帰納論理プログラミング、サポートベクタマシン、クラスタリング、ベイジアンネットワーク、エクストリーム・ラーニング・マシン(ELM)、又は決定木学習であってもよい。
また、ニューラルネットワークの機械学習において目的関数(損失関数)を最小化する方法としては、勾配降下法を用いてもよく、あるいは誤差逆伝播法を用いてもよい。
特徴量出力モデルMaは、対象化合物の構造式を示す画像(対象画像)が入力されることで対象画像の特徴量を出力するモデルであり、例えば、中間層に畳み込み層及びプーリング層を有する畳み込みニューラルネットワーク(CNN)によって構成される。ここで、画像の特徴量とは、畳み込みニューラルネットCNNにおける学習的特徴量であり、一般的な画像認識(パターン認識)の過程で特定される特徴量である。本実施形態において、特徴量出力モデルMaは、ベクトル化された特徴量を出力する。
なお、本実施形態において、特徴量出力モデルMaは、画像分類に用いられるネットワークモデルを用いてもよく、このようなモデルとしては、例えば、Oxford visual geometry groupの16層CNN(VGG16)、Google社のInceptionモデル(GoogLeNet)、Kaiming He氏の152層CNN(Resnet)、及び、Chollet氏の改良Iceptionモデル(Xception)が挙げられる。
特徴量出力モデルMaへ入力される画像のサイズは、特に限定されないが、化合物の画像については、例えば縦横75×75のサイズであってもよい。あるいは、モデルの出力精度を高める理由から、化合物の画像のサイズをより大きいサイズ(例えば、300×300)としてもよい。また、カラー画像の場合には、計算処理を軽減する理由から、モノクロの単色画像に変換し、その単色画像を特徴量出力モデルMaに入力するとよい。
また、中間層において畳み込み層とプーリング層とが繰り返された後に全結合層が配置されており、この全結合層からは多次元ベクトル化された特徴量が出力される。なお、全結合層から出力された特徴量(多次元ベクトル)は、リニア層を通過した後に記号情報出力モデルMbに入力される。
記号情報出力モデルMbは、特徴量出力モデルMaから出力された特徴量が入力されることで、対象化合物の構造式の記号情報(構造式をSMILES表記した文字情報)を出力するモデルである。記号情報出力モデルMbは、例えば、再帰型ニューラルネットワーク(RNN)の一種であるLSTM(Long Short Term Memory)ネットワークによって構成される。LSTMは、RNNの隠れ層をLSTM層に置換したものである。
なお、本実施形態では、図2に示すように、各LSTM層の前段に埋め込み層(Embedding layer:図2中では、Wembと表記)を設けており、各LSTM層への入力に対して固有のベクトルを付与することができる。また、各LSTM層からの出力にはソフトマックス関数(図2中ではsoftmaxと表記)が適用され、各LSTM層からの出力が確率に変換される。ソフトマックス関数を適用したn個(nは自然数)の出力確率の総和は、1.0になる。本実施形態では、ソフトマックス関数により各LSTM層からの出力を確率に変換し、損失関数として交差エントロピー誤差を用いて損失(学習結果と正解データとの乖離)を求める。
本実施形態では、記号情報出力モデルMbがLSTMネットワークによって構成されるが、これに限定されず、記号情報出力モデルMbがGRU(Gated Recurrent Unit)によって構成されてもよい。
以上のように構成された解析モデルM1は、対象画像が解析モデルM1に入力されると、対象画像の特徴量に基づき、対象化合物の構造式について複数の記号情報を生成する。
記号情報の生成手順について説明すると、特徴量出力モデルMaに対象画像が入力されると、特徴量出力モデルMaが対象画像の特徴量を出力し、その特徴量が記号情報出力モデルMbに入力される。記号情報出力モデルMbは、入力された特徴量と対応する記号情報を構成する記号を、その記号情報の先頭から順次特定し、特定された順に記号が並んだ記号情報を出力する。
より詳しく説明すると、記号情報出力モデルMbは、m個(mは2以上の自然数)の記号からなる記号情報を出力する場合、1~m番目の記号の各々について、対応するLSTM層から複数の候補を出力する。1~m番目の記号の各々について特定された候補の組み合わせにより、記号情報が決められる。例えば、m=3のケースにおいて、1番目の記号の候補が3個であり、2番目の記号の候補が4個であり、3番目の記号の候補が5個である場合には、60通り(=3×4×5)の記号情報が決められることになる。
なお、記号の組み合わせ数(すなわち、記号情報の個数)は、1~m番目の記号の各々について特定された複数の候補をすべて組み合わせた場合の数に限定されるものではない。例えば、計算処理の負荷を軽減させる目的から、1~m番目の記号の各々について特定された複数の候補に対して、ビームサーチ等の探索アルゴリズムを適用し、複数の候補のうち、上位K個(Kは自然数)の記号を採用してもよい。
次に、記号情報出力モデルMbは、それぞれの記号情報について、記号情報を構成するm個の記号の各々の出力確率を算出する。例えば、対象化合物の構造式の記号情報におけるi番目(i=1~m)の記号について、j個(jは自然数)の候補が出力された場合、前述のソフトマックス関数によって、j個の記号のそれぞれの出力確率Pi1、Pi2、Pi3・・・Pijが算出される。
その後、記号情報出力モデルMbは、算出された各記号の出力確率に基づいて各記号情報の出力スコアを算出する。ここで、出力スコアは、各記号情報を構成するm個の記号の各々の出力確率をすべて足し合わせたときの総和である。ただし、これに限定されず、各記号情報を構成するm個の記号の各々の出力確率を掛け合わせたときの積を出力スコアとしてもよい。
そして、記号情報出力モデルMbは、算出された出力スコアに応じて、予め決められた個数の記号情報を出力する。本実施形態では、算出された出力スコアが高い記号情報から順に、Q個の記号情報が出力される。ここで、出力される記号情報の数Qについては、任意に決めてもよいが、2~20個程度が好ましい。ただし、これに限定されず、対象化合物の構造式について、出力スコアが最も高い記号情報を1つだけ出力してもよい。あるいは、各記号の候補をすべて組み合わせた場合の組み合わせ数に相当する数の記号情報を、出力してもよい。
<本実施形態の画像解析装置の構成>
次に、本実施形態の画像解析装置(以下、画像解析装置10)の構成例について、図3を参照しながら説明する。なお、図3では、外部インタフェースを「外部I/F」と記載している。
画像解析装置10は、図3に示されるように、プロセッサ11、メモリ12、外部インタフェース13、入力装置14、出力装置15、及びストレージ16が互いに電気的に接続されたコンピュータである。なお、図3に示す構成では、画像解析装置10が一台のコンピュータによって構成されているが、複数台のコンピュータによって画像解析装置10が構成されてもよい。
プロセッサ11は、後述のプログラム21を実行し、画像解析に係る一連の処理を実施するように構成されている。なお、プロセッサ11は、一つ又は複数のCPU(Central Processing Unit)、及び後述のプログラム21から構成される。
プロセッサ11を構成するハードウェアプロセッサは、CPUに限定されず、FPGA(Field Programmable Gate Array)、DSP(Digital Signal Processor)、ASIC(Application Specific Integrated Circuit)、GPU(Graphics Processing Unit)、MPU(Micro-Processing Unit)、又はその他のIC(Integrated Circuit)でもよく、あるいは、これらを組み合わせたものでもよい。また、プロセッサ11は、SoC(System on Chip)等に代表されるように、画像解析装置10全体の機能を発揮する一つのIC(Integrated Circuit)チップでもよい。
なお、上述したハードウェアプロセッサは、半導体素子などの回路素子を組み合わせた電気回路(Circuitry)であってもよい。
メモリ12は、ROM(Read Only Memory)及びRAM(Random Access Memory)等の半導体メモリによって構成され、プログラム及びデータを一時的に記憶することでプロセッサ11に作業領域を提供するとともに、プロセッサ11が実行する処理によって生成される各種データも一時的に記憶する。
メモリ12に記憶されるプログラムには、画像解析用のプログラム21が含まれる。このプログラム21は、機械学習を実施して解析モデルM1を構築するためのプログラム、文書から対象画像を検出するためのプログラム、及び、解析モデルM1により対象画像の特徴量から対象化合物の構造式の記号情報を生成するためのプログラムを含む。また、本実施形態において、プログラム21は、生成される記号情報について判定処理及び照合処理を実行するためのプログラムをさらに含む。
なお、プログラム21は、コンピュータが読み取り可能な記録媒体(メディア)から読み込むことで取得してもよく、あるいは、インターネット又はイントラネット等のネットワークを通じて受信(ダウンロード)することで取得してもよい。
外部インタフェース13は、外部装置と接続するためのインタフェースである。画像解析装置10は、外部インタフェース13を介して外部装置、例えば、スキャナ又はインターネット上の他のコンピュータと通信する。このような通信を通じて、画像解析装置10は、機械学習用のデータの一部又は全部を取得し、また、対象画像が掲載された文書を取得することができる。
入力装置14は、例えばマウス及びキーボード等からなり、ユーザの入力操作を受け付ける。画像解析装置10は、例えば、ユーザが入力装置14を通じて記号情報に相当する文字情報を入力することで、機械学習用のデータの一部を取得することができる。
出力装置15は、例えばディスプレイ及びスピーカ等からなり、解析モデルM1によって生成された記号情報を表示し、または音声再生するための装置である。
ストレージ16は、例えば、フラッシュメモリ、HDD(Hard Disc Drive)、SSD(Solid State Drive)、FD(Flexible Disc)、MOディスク(Magneto-Optical disc)、CD(Compact Disc)、DVD(Digital Versatile Disc)、SDカード(Secure Digital card)、及びUSBメモリ(Universal Serial Bus memory)等によって構成されている。ストレージ16には、機械学習用のデータを含む各種のデータが記憶される。さらに、ストレージ16には、解析モデルM1をはじめ、機械学習により構築される各種モデルのデータも記憶される。さらにまた、解析モデルM1によって生成された対象化合物の構造式の記号情報をストレージ16に記憶し、データベースとして登録しておくことができる。
なお、本実施形態では、ストレージ16が画像解析装置10に内蔵された機器であるが、これに限定されるものではなく、ストレージ16が画像解析装置10に接続された外付け型の機器であってもよく、あるいは、ネットワークを介して通信可能に接続された外部のコンピュータ(例えば、クラウドサービス用のサーバコンピュータ)であってもよい。
画像解析装置10のハードウェア構成については、上述の構成に限定されるものではなく、具体的な実施形態に応じて適宜、構成機器を追加、省略及び置換することが可能である。
<画像解析フローについて>
次に、画像解析装置10を用いた画像解析フローについて説明する。
なお、以下に説明する画像解析フローでは、本発明の画像解析方法が採用されている。すなわち、以下の説明には、本発明の画像解析方法についての説明が含まれている。また、画像解析フロー中の各ステップは、本発明の画像解析方法を構成するものである。
本実施形態の画像解析フローは、図4に示すように、学習フェーズS001、記号情報生成フェーズS002、及び記号情報チェックフェーズS003の順に進む。以下、各フェーズについて説明する。
[学習フェーズ]
学習フェーズS001は、以降のフェーズにて必要となるモデルを構築するために機械学習を実施するフェーズである。学習フェーズS001では、図4に示すように、第1の機械学習S011、第2の機械学習S012、及び第3の機械学習S013が実施される。
第1の機械学習S011は、解析モデルM1を構築するための機械学習であり、前述のように、学習用画像と、学習用画像が示す化合物の構造式の記号情報とを学習用データセットとして用いて行われる。
第2の機械学習S012は、記号情報チェックフェーズS003にて用いられる照合モデルを構築するための機械学習である。照合モデルは、対象画像から、対象化合物の構造式を前述の線形表記法とは異なる記述方法にて記述した記述情報を生成するモデルである。
線形表記法とは異なる記述方法としては、例えば、分子フィンガープリントによる記述方法が挙げられる。分子フィンガープリントは、ある特徴を持つ分子を同定するために用いられ、図5に示すように構造式を、構造式中における各種類の部分構造(フラグメント)の有無を表すバイナリ型の多次元ベクトルに変換したものである。ここで、部分構造とは、構造式中の一部分を表す要素であり、複数の原子と原子間の結合を含む。
分子フィンガープリントを構成するベクトルの次元数は、任意に決めることができ、例えば数十~数千の次元数に設定される。本実施形態では、代表的なフィンガープリントであるMACCS Keysに倣って、167次元のベクトルにて表された分子フィンガープリントを用いることとする。
なお、線形表記法とは異なる記述方法は、分子フィンガープリントに限定されず、これ以外の記述方法、例えばKEGG(Kyoto Encyclopedia of Genes and Genomes) Chemical Functionフォーマット(KCFフォーマット)、Molecular Design Limited社が運営する化学構造データベース(MACCS)の入力フォーマットであるMOL記法、及び、MOLの変法であるSDF法等による記述方法であってもよい。
第2の機械学習S012は、化合物の構造式を示す学習用画像(第2学習用画像)と、第2学習用画像が示す構造式の記述情報(詳しくは、分子フィンガープリントからなる記述情報)とを学習用データセットとして用いて行われる。ここで、第2の機械学習S012に用いられる第2学習用画像は、第1の機械学習S011にて用いられた学習用画像と同一の画像であってもよく、あるいは、第1の機械学習S011にて用いられた学習用画像とは別に準備された画像であってもよい。
そして、上記の学習用データを用いて第2の機械学習S012が行われることにより、照合モデルが構築される。照合モデルについては、後に詳述する。
第3の機械学習S013は、化合物の構造式を示す画像が掲載された文書から当該画像を検出するモデル(以下、画像検出モデルと言う)を構築するための機械学習である。画像検出モデルは、オブジェクト検出アルゴリズムを利用して文書中から構造式の画像を検出するモデルである。オブジェクト検出アルゴリズムとしては、例えば、R-CNN(Region-based CNN)、Fast R-CNN、YOLO(You only Look Once)、及びSDD(Single Shot Multibox Detector)が利用可能である。本実施形態では、検出速度の観点からYOLOを利用した画像検出モデルを構築する。
第3の機械学習S013に用いる学習用データ(教師データ)は、化合物の構造式を示す学習用画像に対してアノテーションツールを適用することによって作成される。アノテーションツールは、対象となるデータに対して正解ラベル(タグ)、及び対象物の座標等の関連情報を注釈として付与するツールである。アノテーションツールを起動し、学習用画像を含む文書を表示し、化合物の構造式を示す領域をバウンディングボックスによって囲み、その領域に対してアノテーションを行うことで学習用データが作成される。
なお、アノテーションツールとしては、例えば、tzutalin社のlabeImg、及び、microsoft社のVoTT等が利用可能である。
そして、上記の学習用データを用いて第3の機械学習S013を行うことにより、YOLO形式の物体検出モデルである画像検出モデルが構築される。
[記号情報生成フェーズ]
記号情報生成フェーズS002は、文書に含まれる対象化合物の構造式の画像(対象画像)を解析し、対象化合物の構造式の記号情報を生成するフェーズである。
記号情報生成フェーズS002では、先ず、画像解析装置10のプロセッサ11が、対象画像を含む文書に対して前述の画像検出モデルを適用し、文書中の対象画像を検出する(S021)。つまり、本ステップS021において、プロセッサ11は、オブジェクト検出アルゴリズム(具体的には、YOLO)を利用して、文書から対象画像を検出する。
また、一つの文書中に対象画像が複数含まれる場合には、プロセッサ11は、図6に示すように、上記の文書から複数の対象画像(図6中、破線にて囲われた部分の画像)を検出する。
次に、プロセッサ11は、検出された対象画像を解析モデルM1に入力する(S022)。解析モデルM1において、前段の特徴量出力モデルMaでは対象画像の特徴量が出力され、後段の記号情報出力モデルMbでは、入力された対象画像の特徴量に基づき、対象化合物の構造式の記号情報が出力される。このとき、前述したように、出力スコアが高い記号情報から順に、予め決められた個数の記号情報が出力される。以上のように、プロセッサ11は、解析モデルM1により、対象画像の特徴量に基づき、対象化合物の構造式について複数の記号情報を生成する(S023)。
また、ステップS021にて複数の対象画像を検出した場合、プロセッサ11は、検出された複数の対象画像を対象画像毎に解析モデルM1に入力する。その場合には、複数の対象画像の各々が示す対象化合物の構造式について、複数の記号情報が対象画像毎に生成されることになる。
[記号情報チェックフェーズ]
記号情報チェックフェーズS003は、記号情報生成フェーズS002において対象化合物の構造式について生成された複数の記号情報の各々に対して判定処理及び照合処理を実行するフェーズである。
記号情報チェックフェーズS003では、先ず、プロセッサ11が判定処理を実行する(S031)。判定処理は、解析モデルM1の記号情報出力モデルMbから出力された所定個数の記号情報の各々に対して、SMILES表記上の異常の有無を判定する処理である。
詳しく説明すると、プロセッサ11は、記号情報出力モデルMbが出力した各記号情報について、各記号情報をなす文字列が正しいSMILES表記の語順であるかを判定するために、その文字列から構造式への変換を試みる。ここで、構造式への変換が成功すると、その記号情報には表記上の異常が無い(換言すると、その記号情報が正常である)と判定される。ここで、異常がない記号情報を、以下では「正常記号情報」と呼ぶこととする。
なお、文字列から構造式に変換するアルゴリズムとしては、ChemDraw(登録商標)及びRDKitのような公知の構造式作画ソフトに搭載されている変換機能と同様のアルゴリズムが利用可能である。
判定処理の実行後、プロセッサ11は、正常記号情報に対して照合処理を実行する(S032)。照合処理は、照合モデルによって生成される対象化合物の構造式の第1記述情報と、正常記号情報から生成される第2記述情報とを照合する処理である。第1記述情報は、対象化合物の構造式を分子フィンガープリントの記述方式にて記述したものである。本実施形態において、第1記述情報は、対象画像を図7に図示の照合モデルM2に入力することで生成される。
照合モデルM2は、前述した第2の機械学習S012によって構築され、図7に示すように特徴量出力モデルMcと記述情報出力モデルMdとを含む。
特徴量出力モデルMcは、解析モデルM1の特徴量出力モデルMaと同様、対象化合物の構造式を示す画像(対象画像)が入力されることで対象画像の特徴量を出力するモデルであり、本実施形態ではCNNによって構成される。また、本実施形態において、特徴量出力モデルMcは、特徴量出力モデルMaと同様、ベクトル化された特徴量を出力する。
記述情報出力モデルMdは、特徴量出力モデルMcから出力された特徴量が入力されることで、特徴量に対応する記述情報(詳しくは、分子フィンガープリントからなる記述情報)を出力するモデルである。本実施形態において、記述情報出力モデルMdは、例えば、ニューラルネットワーク(NN)によって構成される。記述情報出力モデルMdは、ベクトル化された分子フィンガープリントからなる記述情報を、第1記述情報として出力する。記述情報出力モデルMdから出力される記述情報は、対象化合物の構造式の記述情報である。
なお、照合モデルM2の特徴量出力モデルMcとしては、解析モデルM1の特徴量出力モデルMaを兼用してもよい。すなわち、特徴量出力モデルMa、Mcの間でCNNの中間層の重みを共通の値に設定してもよい。この場合、第2の機械学習S012は、第1の機械学習S011にて決めたCNNの中間層の重みのままで固定し、記述情報出力モデルMdであるNNの中間層の重みを決定することになり、モデル構築の負荷(計算負荷)を軽減することができる。ただし、照合モデルM2は、解析モデルM1のCNN(特徴量出力モデルMa)を兼用せず、別途のCNNによって構成されてもよい。
第2記述情報は、正常記号情報が表す構造式を分子フィンガープリントの記述方式にて記述した記述情報である。本実施形態において、第2記述情報は、SMILES表記の記号情報を変換ルールに従って分子フィンガープリントに変換することで生成される。このときに用いられる変換ルールは、数多くの化合物についてSMILES表記の構造式と分子フィンガープリントとの対応関係を特定してルール化することで規定される。
照合処理では、以上のようにして生成される第1記述情報と第2記述情報とを照合し、両記述情報の間の一致度を算出する。正常記号情報が複数存在する場合には、それぞれの正常記号情報から第2記述情報を生成し、各第2記述情報について第1記述情報との一致度を算出する。なお、一致度の算出方法としては、分子フィンガープリント間の類似度を算出する公知の手法を用いることができ、例えば、Tanimoto係数の算出手法が利用可能である。
照合処理の実行後、プロセッサ11は、出力処理を実行する(S033)。出力処理は、照合処理で算出した一致度に応じて、正常記号情報を対象化合物の構造式の記号情報として最終的に出力(例えば、表示)する処理である。ここで、一致度に応じて正常記号情報を出力するとは、例えば、一致度が基準値を超える正常記号情報のみを出力することであってもよく、あるいは、正常記号情報を一致度が高いものから順に出力することであってもよい。
<本実施形態の有効性について>
本実施形態の画像解析装置10は、第1の機械学習によって構築された解析モデルM1を利用し、対象化合物の構造式を示す対象画像の特徴量に基づき、その構造式をSMILES表記した記号情報を生成することができる。この結果、対象画像における構造式の書き方の変化に対して適切に対応することが可能となる。
上記の効果について詳述すると、従来の技術では、化合物の構造式を示す画像の一部と、その部分に現れる構造式中の部分構造との対応関係をルール化し、その識別ルールに従って構造式を識別していた。ただし、構造式の書き方が変わった場合、その書き方に適合できる識別ルールが準備されていないと、当該構造式を識別することができない。この結果、上記の状況では、構造式の記号情報を生成することが困難になる。
これに対して、本実施形態では、機械学習の成果である解析モデルM1を利用して対象画像の特徴量から記号情報を生成する。つまり、本実施形態では、構造式の書き方が変わったとしても、その構造式を示す画像の特徴量を特定することができ、特徴量が特定できれば、その特徴量から記号情報を生成することができる。
以上のように、本実施形態によれば、対象化合物の構造式の書き方が変わった場合にも記号情報を適切に取得することができる。
<その他の実施形態>
以上までに、本発明の画像解析装置、画像解析方法、及びプログラムについて具体例を挙げて説明してきたが、上述した実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。
例えば、画像解析装置を構成するコンピュータとしては、ASP(Application Service Provider)、SaaS(Software as a Service)、PaaS(Platform as a Service)又はIaaS(Infrastructure as a Service)等に利用されるサーバであってもよい。この場合、上記ASP等のサービスを利用するユーザが不図示の端末を操作して、対象画像を含む文書をサーバに送信する。サーバは、ユーザから送られてくる文書を受信すると、文書から対象画像を検出し、対象画像の特徴量に基づき、対象画像が示す対象化合物の構造式の記号情報を生成する。そして、サーバは、生成された記号情報を、ユーザの端末に向けて出力(送信)する。ユーザ側では、サーバから送られてくる記号情報が表示され、あるいは音声再生される。
また、上記の実施形態では、解析モデルM1によって生成された記号情報について、表記上の異常の有無を判定する判定処理を実行することとした。さらに、上記の実施形態では、対象画像の特徴量に基づいて生成された分子フィンガープリント(第1記述情報)と、正常記号情報から変換された分子フィンガープリント(第2記述情報)とを照合する照合処理を実行することとした。
ただし、これに限定されるものではなく、判定処理及び照合処理のいずれか一方の処理のみを実行してもよく、あるいは、いずれの処理も実行しなくてもよい。
また、上記の実施形態では、各種のモデルを構築するための機械学習(第1~第3の機械学習)が画像解析装置10によって行われることとしたが、これに限定されるものではない。一部又は全ての機械学習が、画像解析装置10とは異なる他の装置(コンピュータ)によって行われてもよい。この場合、画像解析装置10は、他の装置が行う機械学習によって構築されるモデルを取得することになる。
例えば、第1の機械学習が他の装置によって行われる場合、画像解析装置10は、第1の機械学習によって構築される解析モデルM1を、他の装置から取得する。そして、画像解析装置10は、取得した解析モデルM1により、対象画像を解析し、その画像が示す対象化合物の構造式について記号情報を生成する。
また、上記の実施形態において、上記の解析モデルM1は、学習用画像と、学習用画像が示す化合物の構造式を線形表記にて表した記号情報とを用いた機械学習によって構築される。そして、解析モデルM1は、対象画像の特徴量に基づき、対象画像が示す対象化合物の構造式の記号情報を生成する。
ただし、これに限定されるものではなく、対象化合物の構造式の記号情報を生成する解析モデルとしては、別のモデルが考えられ、例えば図8に示す解析モデル(以下、変形例に係る解析モデルM3)が挙げられる。
変形例に係る解析モデルM3は、図8に示すように、特徴量出力モデルMeと記述情報出力モデルMfと記号情報出力モデルMgとを有する。変形例に係る解析モデルM3は、機械学習(以下、変形例に係る機械学習)によって構築される。変形例に係る機械学習は、化合物の構造式を示す学習用画像と、学習用画像が示す化合物の構造式の記号情報(例えば、SMILES表記の記号情報)と、学習用画像が示す化合物の構造式の記述情報(例えば、分子フィンガープリントからなる記述情報)とを学習データセットとして用いて行われる。
特徴量出力モデルMeは、解析モデルM1の特徴量出力モデルMaと同様、対象化合物の構造式を示す画像(対象画像)が入力されることで対象画像の特徴量を出力し、例えばCNNによって構成される。特徴量出力モデルMeは、ベクトル化された特徴量(例えば、2048次元のベクトル)を出力する。
記述情報出力モデルMfは、対象画像が入力されることで、対象化合物の構造式の記述情報(詳しくは、分子フィンガープリントからなる記述情報)を出力するモデルである。記述情報出力モデルMfは、前述の照合モデルM2に準じたモデルであり、例えばCNNによって構成され、ベクトル化された分子フィンガープリントからなる記述情報(例えば、167次元のベクトル)を出力する。
変形例に係る解析モデルM3では、図8に示すように、特徴量出力モデルMeから出力された特徴量と、記述情報出力モデルMfから出力された記述情報とが合成され、ベクトル化された合成情報が生成される。合成情報のベクトル次元数は、特徴量のベクトル次元数と記述情報のベクトル次元数とを足し合わせた値(すなわち、2215次元)となる。
記号情報出力モデルMgは、上記の合成情報が入力されることで、合成情報に対応する記号情報(詳しくは、SMILES表記の記号情報)を出力するモデルである。記号情報出力モデルMgは、解析モデルM1の記号情報出力モデルMbとほぼ共通しており、例えばRNNによって構成され、その一例としてはLSTMネットワークが利用可能である。
以上のように構成された変形例に係る解析モデルM3を用いた場合にも、対象画像の特徴量から、対象化合物の構造式を線形表記にて表した記号情報を生成することができる。
10 画像解析装置
11 プロセッサ
12 メモリ
13 外部インタフェース
14 入力装置
15 出力装置
16 ストレージ
21 プログラム
M1 解析モデル
M2 照合モデル
M3 変形例に係る解析モデル
Ma,Mc,Me 特徴量出力モデル
Mb,Mg 記号情報出力モデル
Md,Mf 記述情報出力モデル

Claims (17)

  1. プロセッサを備え、化合物の構造式を示す画像を解析する画像解析装置であって、
    前記プロセッサは、解析モデルにより、対象化合物の構造式を示す対象画像の特徴量に基づき、前記対象化合物の構造式を線形表記法にて表した記号情報を生成し、
    前記解析モデルが、学習用画像と、前記学習用画像が示す化合物の構造式を線形表記法にて表した記号情報とを用いた機械学習によって構築された画像解析装置。
  2. 前記プロセッサは、
    前記対象画像を含む文書から前記対象画像を検出し、
    検出された前記対象画像を前記解析モデルに入力することにより、前記対象化合物の構造式の前記記号情報を生成する、請求項1に記載の画像解析装置。
  3. 前記プロセッサは、オブジェクト検出アルゴリズムを利用して前記文書から前記対象画像を検出する、請求項2に記載の画像解析装置。
  4. 前記プロセッサは、
    複数の前記対象画像を含む前記文書から複数の前記対象画像を検出し、
    検出された複数の前記対象画像を前記対象画像毎に前記解析モデルに入力することにより、複数の前記対象画像の各々が示す前記対象化合物の構造式の前記記号情報を生成する請求項2又は3に記載の画像解析装置。
  5. 前記解析モデルが、
    前記対象画像が入力されることで前記特徴量を出力する特徴量出力モデルと、
    前記特徴量が入力されることで前記特徴量に対応する前記記号情報を出力する記号情報出力モデルと、を含む、請求項1乃至4のいずれか一項に記載の画像解析装置。
  6. 前記特徴量出力モデルは、畳み込みニューラルネットワークを含み、
    前記記号情報出力モデルは、再帰型ニューラルネットワークを含む、請求項5に記載の画像解析装置。
  7. 前記対象化合物の構造式の前記記号情報が複数の記号によって構成され、
    前記記号情報出力モデルが、前記特徴量と対応する前記記号情報を構成する前記記号を、前記記号情報の先頭から順次特定し、特定された順に前記記号が並んだ前記記号情報を出力する、請求項5又は6に記載の画像解析装置。
  8. 前記プロセッサは、前記解析モデルにより、前記対象画像の前記特徴量に基づき、前記対象化合物の構造式について複数の前記記号情報を生成し、
    前記記号情報出力モデルは、
    それぞれの前記記号情報について、前記記号情報を構成する複数の前記記号の各々の出力確率を算出し、且つ、算出された複数の前記記号の各々の前記出力確率に基づいて前記記号情報の出力スコアを算出し、
    算出された前記出力スコアに応じて、予め決められた個数の前記記号情報を出力する請求項7に記載の画像解析装置。
  9. 前記プロセッサは、
    前記記号情報出力モデルが出力した前記記号情報の各々に対して、表記上の異常の有無を判定する判定処理を実行し、
    前記記号情報出力モデルが出力した前記記号情報のうち、前記異常がない正常記号情報を前記対象化合物の構造式の前記記号情報として出力する、請求項5に記載の画像解析装置。
  10. 前記プロセッサは、
    照合モデルにより、前記対象画像から、前記対象化合物の構造式を前記線形表記法とは異なる記述方法にて記述した第1記述情報を生成し、
    前記正常記号情報が表す構造式を前記記述方法にて記述した第2記述情報を生成し、
    前記第1記述情報と前記第2記述情報とを照合し、
    前記第1記述情報と前記第2記述情報との一致度に応じて、前記正常記号情報を前記対象化合物の構造式の前記記号情報として出力する、請求項9に記載の画像解析装置。
  11. 前記照合モデルが、第2学習用画像と、前記第2学習用画像が示す化合物の構造式を前記記述方法にて記述した記述情報とを用いた機械学習によって構築された、請求項10に記載の画像解析装置。
  12. 前記照合モデルが、
    前記対象画像が入力されることで前記特徴量を出力する特徴量出力モデルと、
    前記特徴量出力モデルから出力される前記特徴量が入力されることで前記特徴量に対応する前記第1記述情報を出力する記述情報出力モデルと、を含む、請求項10に記載の画像解析装置。
  13. 前記解析モデルは、前記学習用画像と、前記学習用画像が示す化合物の構造式を前記線形表記法にて表した記号情報と、前記学習用画像が示す化合物の構造式を前記線形表記法とは異なる記述方法にて記述した記述情報と、を用いた機械学習によって構築され、
    前記解析モデルは、
    前記対象画像が入力されることで、前記特徴量を出力する特徴量出力モデルと、
    前記対象画像が入力されることで、前記対象化合物の構造式の前記記述情報を出力する記述情報出力モデルと、
    出力された前記特徴量及び前記記述情報を合成した合成情報が入力されることで、前記合成情報に対応する前記記号情報を出力する記号情報出力モデルと、を含む請求項1乃至7のいずれか一項に記載の画像解析装置。
  14. 前記特徴量出力モデルは、ベクトル化された前記特徴量を出力し、
    前記記述情報出力モデルは、ベクトル化された分子フィンガープリントからなる前記記述情報を出力する、請求項13に記載の画像解析装置。
  15. 前記線形表記法が、Simplified Molecular Input Line Entry System記法、又は、canonical Simplified Molecular Input Line Entry System記法である、請求項1乃至14のいずれか一項に記載の画像解析装置。
  16. 化合物の構造式を示す画像を解析する画像解析方法であって、
    プロセッサが、解析モデルにより、対象化合物の構造式を示す対象画像の特徴量に基づき、前記対象化合物の構造式を線形表記法にて表した記号情報を生成するステップを実施し、
    前記解析モデルが、学習用画像と、前記学習用画像が示す化合物の構造式を線形表記法にて表した記号情報とを用いた機械学習によって構築された画像解析方法。
  17. 請求項16に記載された画像解析方法のステップをプロセッサに実施させるためのプログラム。
JP2023068920A 2019-12-16 2023-04-20 画像解析装置、端末、画像解析方法、表記情報取得方法、及びプログラム Active JP7472358B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2019226239 2019-12-16
JP2019226239 2019-12-16
JP2021565611A JP7268198B2 (ja) 2019-12-16 2020-12-16 画像解析装置、画像解析方法、及びプログラム
PCT/JP2020/046887 WO2021125206A1 (ja) 2019-12-16 2020-12-16 画像解析装置、画像解析方法、及びプログラム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2021565611A Division JP7268198B2 (ja) 2019-12-16 2020-12-16 画像解析装置、画像解析方法、及びプログラム

Publications (3)

Publication Number Publication Date
JP2023083462A true JP2023083462A (ja) 2023-06-15
JP2023083462A5 JP2023083462A5 (ja) 2023-06-29
JP7472358B2 JP7472358B2 (ja) 2024-04-22

Family

ID=76478653

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021565611A Active JP7268198B2 (ja) 2019-12-16 2020-12-16 画像解析装置、画像解析方法、及びプログラム
JP2023068920A Active JP7472358B2 (ja) 2019-12-16 2023-04-20 画像解析装置、端末、画像解析方法、表記情報取得方法、及びプログラム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2021565611A Active JP7268198B2 (ja) 2019-12-16 2020-12-16 画像解析装置、画像解析方法、及びプログラム

Country Status (4)

Country Link
US (1) US20220309815A1 (ja)
JP (2) JP7268198B2 (ja)
CN (1) CN114846508A (ja)
WO (1) WO2021125206A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210287137A1 (en) * 2020-03-13 2021-09-16 Korea University Research And Business Foundation System for predicting optical properties of molecules based on machine learning and method thereof
US20220101276A1 (en) * 2020-09-30 2022-03-31 X Development Llc Techniques for predicting the spectra of materials using molecular metadata
US11822599B2 (en) * 2020-12-16 2023-11-21 International Business Machines Corporation Visualization resonance for collaborative discourse
CN117649676A (zh) * 2024-01-29 2024-03-05 杭州德睿智药科技有限公司 一种基于深度学习模型的化学结构式的识别方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5734586B2 (ja) * 2010-07-12 2015-06-17 公益財団法人野口研究所 糖鎖構造認識用解析方法、糖鎖構造認識用解析装置およびプログラム
JP2013061886A (ja) 2011-09-14 2013-04-04 Kyushu Univ 化学構造図認識システム及び化学構造図認識システム用のコンピュータプログラム
JP5741387B2 (ja) * 2011-11-08 2015-07-01 富士通株式会社 情報提供装置、情報提供プログラムおよび情報提供方法
JP6051988B2 (ja) 2013-03-19 2016-12-27 富士通株式会社 情報処理プログラム、情報処理方法および情報処理装置
CN108334839B (zh) * 2018-01-31 2021-09-14 青岛清原精准农业科技有限公司 一种基于深度学习图像识别技术的化学信息识别方法

Also Published As

Publication number Publication date
CN114846508A (zh) 2022-08-02
JP7472358B2 (ja) 2024-04-22
US20220309815A1 (en) 2022-09-29
JPWO2021125206A1 (ja) 2021-06-24
WO2021125206A1 (ja) 2021-06-24
JP7268198B2 (ja) 2023-05-02

Similar Documents

Publication Publication Date Title
JP7268198B2 (ja) 画像解析装置、画像解析方法、及びプログラム
RU2721189C1 (ru) Детектирование разделов таблиц в документах нейронными сетями с использованием глобального контекста документа
RU2723293C1 (ru) Идентификация полей и таблиц в документах с помощью нейронных сетей с использованием глобального контекста документа
JP2019008778A (ja) 画像の領域のキャプション付加
CN107004140B (zh) 文本识别方法和计算机程序产品
JP5251205B2 (ja) 住所認識装置
JP7155625B2 (ja) 検査装置、検査方法、プログラム及び学習装置
JP7163618B2 (ja) 学習装置、学習方法、プログラム及び推定装置
JP7449961B2 (ja) 情報処理装置、情報処理方法、及びプログラム
CN115344699A (zh) 文本分类模型的训练方法、装置、计算机设备及介质
JP2015069256A (ja) 文字識別システム
US20180005087A1 (en) Pattern recognition device, pattern recognition method, and computer program product
JP5343617B2 (ja) 文字認識プログラム、文字認識方法および文字認識装置
CN107533672A (zh) 模式识别装置、模式识别方法以及程序
CN111783088B (zh) 一种恶意代码家族聚类方法、装置和计算机设备
CN113723111B (zh) 一种小样本意图识别方法、装置、设备及存储介质
JP2021174471A (ja) 識別器学習装置及び識別器学習方法
KR20230059524A (ko) 멀티 모달 데이터를 분석하기 위한 방법 및 장치
JP7322468B2 (ja) 情報処理装置、情報処理方法及びプログラム
JP5791666B2 (ja) ビジュアルキーワードの動的生成装置
Chakrapani Gv et al. One-shot learning-based handwritten word recognition
KR20210137808A (ko) 단어 추출 장치 및 방법
US20230366779A1 (en) Information processing apparatus, information processing method, and program
JP6511942B2 (ja) 情報処理装置および情報処理プログラム
JP5343579B2 (ja) パターン認識辞書作成装置及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230620

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230620

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240314

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240410

R150 Certificate of patent or registration of utility model

Ref document number: 7472358

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150