JP7449961B2

JP7449961B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7449961B2
Application number: JP2021566876A
Authority: JP
Inventors: 侑也濱口
Original assignee: Fujifilm Corp
Current assignee: Fujifilm Corp
Priority date: 2019-12-26
Filing date: 2020-10-30
Publication date: 2024-03-14
Anticipated expiration: 2040-10-30
Also published as: JPWO2021131324A1; US20220327158A1; CN114868192A; WO2021131324A1

Description

本発明は、情報処理装置、情報処理方法、及びプログラムに係り、特に、画像として表された化合物の構造式を検索可能とする情報処理装置、情報処理方法、及びプログラムに関する。

化合物の構造式が画像データとして取り扱われるケースは、多数あり、例えばインターネット上で公開されたり、文書データに組み込まれたりする。ただし、画像データとして取り扱われる化合物の構造式は、通常の検索方法では検索するのが困難である。

一方、画像が示す化合物の構造式を検索可能とするために、コンピュータによる自動認識技術を利用して、化合物の構造式の画像から構造式を認識する技術が開発されている。具体例として、特許文献１及び２に記載の技術が挙げられる。
特許文献１に記載の技術は、化学構造図中の文字情報（例えば、化学物を構成する原子）をパターン認識し、化学構造図の線図情報（例えば、原子間の結合）を所定のアルゴリズムによって認識する。

特許文献２に記載の技術は、化合物の構造式の画像を読み込み、画像中、原子記号を示す画素に対して、原子記号の属性を示す値を割り当て、結合記号を示す画素に対して、結合記号の属性を示す値を割り当てる。

特開２０１３－６１８８６号公報特開２０１４－１８２６６３号公報

特許文献１及び２に記載の技術では、化合物の構造式を示す画像の各領域と、各領域が示す構造式中の構成要素との対応関係をルール化する。そして、そのルールに従って、画像が示す構造式中の各構成要素を識別する。
しかしながら、構造式の記載様式には等価な様式が複数あり、また、構造式中の太さ及び向き等は、書き方次第で変わり得る。その場合、構造式の書き方の違いに対応するために、様々な書き方にて記載された構造式中の各構成要素を識別するルールを、数多く用意しておく必要がある。識別ルールが準備されていない書き方にて記載された構造式については、その中に含まれる各構成要素を識別することが困難となる。

一方、ある化合物の構造式を示す画像から当該構造式中の各構成要素を識別した場合、識別された各構成要素についての情報は、その後に上記化合物を検索する際に有用な情報となり得る。

本発明は、上記の事情に鑑みてなされたものであり、上述した従来技術の問題点を解決するものである。具体的には、構造式の書き方に関わらず、構造式を示す画像から当該構造式の各構成要素を識別することができ、その識別結果を以後の化合物検索に利用することが可能な情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。

上記の目的を達成するために、本発明の情報処理装置は、プロセッサを備える情報処理装置であって、プロセッサは、識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、対象化合物の構造式中の構成要素のうち、各領域が示す構成要素を識別し、識別された対象化合物の構造式中の構成要素についての要素情報を、対象化合物と関連付けて記憶し、識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築されたことを特徴とする。

また、機械学習において、化学構造が同一であり記載様式が異なる構成要素を示す複数の学習用画像が用いられた場合には、複数の学習用画像から共通の特徴量を導出する識別モデルが機械学習によって構築されてもよい。

また、プロセッサは、検索化合物に関する入力情報を取得し、入力情報と、対象化合物と関連付けられた要素情報とに基づき、要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するのが好ましい。

上記の構成において、プロセッサは、入力情報と、対象化合物と関連付けて記憶された要素情報とに基づき、検索化合物と対象化合物との間の類似度を算出し、要素情報が記憶された対象化合物の中から、類似度が検索条件を満たす対象化合物を検索化合物として検索すると、より好適である。

さらに、プロセッサは、検索化合物の構造式中に含まれる構成要素に関する入力情報を取得すると、より一層好適である。

また、プロセッサは、対象画像を含む文書から対象画像を検出し、検出された対象画像を識別モデルに入力することにより、対象画像中の各領域が示す構成要素を識別してもよい。

上記の構成において、プロセッサは、オブジェクト検出アルゴリズムを利用して文書から対象画像を検出すると、より好適である。

また、要素情報は、識別された対象化合物の構造式中の構成要素の種類を示す情報を含んでもよい。このとき、要素情報は、識別された対象化合物の構造式中の構成要素の、対象画像に対して設定された座標空間での配置位置を示す情報を更に含んでもよい。

上記の構成において、構成要素の種類を示す情報は、構成要素に該当する原子又は原子間の結合の種類を示す情報であってもよい。
あるいは、構成要素の種類を示す情報が、構成要素に該当する官能基の化学式を示す情報であってもよい。
あるいは、構成要素の種類を示す情報が、対象化合物の構造式における構成要素の有無を構成要素の種類毎に示す分子フィンガープリントの一部からなる情報であってもよい。

また、前述の目的は、プロセッサが、識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、対象化合物の構造式に含まれる構成要素のうち、各領域が示す構成要素を識別するステップと、識別された対象化合物の構造式中の構成要素についての要素情報を、対象化合物と関連付けて記憶するステップと、を実施し、識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築された情報処理方法によって達成し得る。
また、上記の情報処理方法の各ステップをプロセッサに実施させるためのプログラムも実現可能である。

本発明によれば、構造式の書き方に関わらず、構造式を示す画像から当該構造式の各構成要素を識別することができ、その識別結果を以後の化合物検索に利用することができる。

化合物の構造式中の構成要素についての説明図である。要素情報を化合物毎に記憶しているデータベースの一例を示す図である。識別モデルの概念図である。構成要素の記載様式の違いについての説明図である。本発明の一実施形態に係る情報処理装置の構成を示す図である。本発明の一実施形態に係る情報処理装置を用いた情報処理フローの流れを示す図である。一つの文書から複数の対象画像を検出した状態の図である。対象化合物の検索結果が表示された画面例を示す図である。分子フィンガープリントについての説明図である。

本発明の一実施形態（以下、「本実施形態」と言う。）に係る情報処理装置、情報処理方法及びプログラムについて、以下、添付の図面を参照しながら説明する。
なお、以下の実施形態は、本発明を分かり易く説明する目的で挙げた一例にすぎず、本発明を限定するものではない。すなわち、本発明は、下記の実施形態に限られず、本発明の主旨を逸脱しない範囲において種々の改良又は変更され得る。また、当然ながら、本発明には、その等価物が含まれる。

また、以降の説明において、特に断る場合を除き、「文書」及び「画像」は、電子化（データ化）された文書及び画像であり、コンピュータによって処理可能な情報（データ）であることとする。

＜本実施形態の情報処理装置の機能＞
本実施形態の情報処理装置（以下、単に「情報処理装置」と言う。）は、プロセッサを備え、対象化合物の構造式を示す画像（対象画像）を解析して当該構造式中の各構成要素を識別することができる。対象化合物は、例えば、構造式が文書中の画像に表され、当該画像中の各領域が示す構成要素が情報処理装置によって識別される化合物である。

構造式を示す画像は、構造式を表す線図の画像である。構造式の記載方法には等価な記載方法が複数あり、例えば、水素原子（Ｈ）の単結合の表記省略、骨格の炭素原子（Ｃ）の表記省略、及び官能基の略語表記等が挙げられる。また、線図は、描き方（例えば、原子間の結合線の太さ、長さ、及び、結合線が延出する向き等）に応じて変わり得る。また、本実施形態において、構造式の書き方には、構造式を示す画像の解像度が含まれる。

構造式中の構成要素は、構造式を構成する原子、原子間の結合線、又はこれらの組み合わせを意味する。本実施形態では、図１に示すように、構造式を構成する個々の原子（例えば、図１中の「ＢｅｎｄＣ」及び「Ｏ」）、及び、個々の結合線（例えば、図１中の「Ｄｏｕｂｌｅ」）が構成要素に該当する。

構造式を示す画像の各領域は、当該画像のうち、構造式中の構成要素を示す部分であり、例えば、構成要素を囲む矩形領域である（図１中の右図参照）。なお、本実施形態では、領域一つあたりに一つの構成要素が含まれていることとする。つまり、構造式を示す画像には、その構造式に含まれる構成要素に応じた数の領域が存在することになる。

情報処理装置は、化合物の構造式中の一つの構成要素（詳しくは、構成要素のラベル情報）と、一つの構成要素を示す学習用画像とを学習データセットとして用いて機械学習を実施する。この機械学習により、識別モデルが構築される。識別モデルは、化合物の構造式を示す画像の各領域の特徴量に基づき、その構造式中の構成要素のうち、各領域が示す構成要素を識別するモデルである。なお、識別モデルについては、後の項で詳述する。

また、情報処理装置は、化合物の構造式を示す画像が掲載された文書から画像（対象画像）を検出する機能を有する。検出された対象画像は、上記の識別モデルに入力される。これにより、対象画像が示す化合物（対象化合物）の構造式中の各構成要素が識別される。

さらに、情報処理装置は、識別された対象化合物中の各構成要素に対して要素情報を取得する。本実施形態において、要素情報は、識別された構成要素の種類を示す情報と、当該構成要素の配置位置を示す情報とを含む。

本実施形態において、構成要素の種類を示す情報は、その構成要素に該当する原子又は原子間の結合の種類を示す情報であり、図１に示す化合物のケースでは、「ＢｅｎｄＣ」、「Ｏ」及び「Ｄｏｕｂｌｅ」が該当する。

構成要素の配置位置を示す情報は、対象画像に対して設定された座標空間（例えば、対象画像の横方向をＸ方向、縦方向をＹ方向とする二次元座標空間）における構成要素の配置位置を示す情報である。本実施形態では、対象画像における基準位置（例えば、左上の頂点位置）を原点とし、構成要素の配置位置として、構成要素を囲む矩形領域の代表位置とサイズ（例えば、Ｘ、Ｙ各方向の長さ）とが画素単位で表現される。

要素情報は、対象化合物の構造式に含まれる複数の構成要素のそれぞれに対して取得される。取得された要素情報は、対象化合物と関連付けて記憶され、例えば、図２に示すように、対象化合物の構造式を示す画像が掲載された文書等と紐付けられた状態で記憶される。

なお、本実施形態において、要素情報のうち、構成要素の種類を示す情報は、識別モデルによって構造式中の各構成要素が識別されることで自動的に取得される。また、要素情報のうち、構成要素の配置位置を示す情報は、その構成要素を示す領域を含む画像（すなわち、対象画像）を解析することで自動的に取得される。

情報処理装置は、様々な対象化合物について、上記一連の処理（具体的には、文書からの画像検出、構造式中の各構成要素の識別、並びに要素情報の取得及び記憶）を繰り返し実行する。これにより、対象化合物に関する情報として、対象化合物の構造式中の各構成要素についての要素情報が蓄積されていく。この結果、要素情報を対象化合物別に収録したデータベースが構築される（図２参照）。

また、情報処理装置は、データベースに記憶された要素情報を検索キーとして、目的（ターゲット）の対象化合物、すなわち検索化合物に該当する対象化合物を検索する機能を備える。例えば、検索を行うユーザは、検索化合物の構造式を示す画像情報を入力する。情報処理装置は、その画像情報を入力情報として取得し、取得した入力情報、及び、データベースに記憶された要素情報に基づき、要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索する。

以上のように、情報処理装置によれば、論文又は特許明細書等の文書中に含まれる化合物の構造式の画像を検出し、その画像が示す構造式中の各構成要素についての情報（要素情報）をデータベース化することができる。そして、データベースを利用することで、目的とする化合物を容易に検索することができる。これにより、例えば、目的とする化合物の構造式を示す画像が掲載された文書を簡単に見つけ出すことが可能となる。

＜識別モデルについて＞
本実施形態で用いられる識別モデル（以下、識別モデルＭ１と言う。）について説明する。
識別モデルＭ１は、対象化合物の構造式を示す画像（対象画像）から、その構造式に含まれる各構成要素を識別するためのモデルである。本実施形態の識別モデルＭ１は、図３に示すように、特徴量導出モデルＭａと、構成要素出力モデルＭｂとによって構成される。

特徴量導出モデルＭａは、対象画像が入力されることで、対象画像の各領域の特徴量を導出するモデルである。本実施形態において、特徴量導出モデルＭａは、例えば、中間層に畳み込み層及びプーリング層を有する畳み込みニューラルネットワーク（ＣＮＮ）によって構成される。ＣＮＮのモデルとしては、例えば、Ｏｘｆｏｒｄｖｉｓｕａｌｇｅｏｍｅｔｒｙｇｒｏｕｐの１６層ＣＮＮ（ＶＧＧ１６）、Ｇｏｏｇｌｅ社のＩｎｃｅｐｔｉｏｎモデル（ＧｏｏｇＬｅＮｅｔ）、ＫａｉｍｉｎｇＨｅ氏の１５２層ＣＮＮ（Ｒｅｓｎｅｔ）、及び、Ｃｈｏｌｌｅｔ氏の改良Ｉｃｅｐｔｉｏｎモデル（Ｘｃｅｐｔｉｏｎ）が挙げられる。

特徴量導出モデルＭａにより対象画像中の各領域の特徴量を導出するにあたり、対象画像中の各領域が特定される。具体的には、対象画像が示す構造式に含まれる構成要素をそれぞれ検出し、検出された各々の構成要素を取り囲む領域を構成要素毎に特定する。このような領域特定の機能は、後述する機械学習によって特徴量導出モデルＭａに搭載される。

特徴量導出モデルＭａから出力される画像の特徴量は、畳み込みニューラルネットワークＣＮＮにおける学習的特徴量であり、一般的な画像認識（パターン認識）の過程で特定される特徴量である。そして、特徴量導出モデルＭａにて導出された各領域の特徴量は、領域毎に構成要素出力モデルＭｂに入力される。

構成要素出力モデルＭｂは、特徴量導出モデルＭａにて導出された各領域の特徴量が領域毎に入力されることで、各領域について、その特徴量と対応する構成要素（例えば、構成要素の種類）を領域毎に出力するモデルである。本実施形態において、構成要素出力モデルＭｂは、例えば、ニューラルネットワーク（ＮＮ）によって構成される。

本実施形態に係る構成要素出力モデルＭｂは、対象画像の各領域の特徴量と対応する構成要素を出力するにあたり、領域毎に複数の候補（構成要素の候補）を特定する。領域毎に特定される複数の候補にはソフトマックス関数（softmax）が適用され、各候補に対して出力確率が算出される。出力確率とは、複数の候補のそれぞれについて、各領域が示す構成要素に該当する確からしさ（精度）を示す数値である。なお、ソフトマックス関数を適用したｎ個（ｎは自然数）の出力確率の総和は、１．０になる。

構成要素出力モデルＭｂは、領域毎に特定される複数の候補のうち、出力確率に応じて決められる候補、例えば、出力確率が最も高い候補を、各領域が示す構成要素として出力する。このように本実施形態において、対象画像が示す構造式中の各構成要素は、対象画像の各領域の特徴量に基づいて特定される複数の候補の中から、各候補の出力確率に基づいて決められる。

以上までに説明してきた識別モデルＭ１（換言すると、上記２つのモデルＭａ、Ｍｂの各々）は、化合物の構造式中の一つの構成要素を示す学習用画像と、その構成要素のラベル（正解ラベル）とを学習データセットとし、複数の学習データセットを用いた機械学習によって構築される。
なお、機械学習に用いられる学習データセットの数については、学習の精度を向上させる観点では多い方がよく、好ましくは５万個以上とするのがよい。

本実施形態において、機械学習は、教師あり学習であり、その手法は深層学習（つまり、多層のニューラルネットワーク）であるが、これに限定されるものではない。機械学習の種類（アルゴリズム）については、教師無し学習、半教師あり学習、強化学習、又はトランスダクションであってもよい。
また、機械学習の技法については、遺伝的プログラミング、帰納論理プログラミング、サポートベクタマシン、クラスタリング、ベイジアンネットワーク、エクストリーム・ラーニング・マシン（ＥＬＭ）、又は決定木学習であってもよい。
また、ニューラルネットワークの機械学習において目的関数（損失関数）を最小化する方法としては、勾配降下法を用いてもよく、あるいは誤差逆伝播法を用いてもよい。

また、本実施形態の機械学習では、化学構造が同一であり記載様式が異なる構成要素を示す複数の学習用画像が用いられる場合がある。例えば、図４のように、ある構成要素（図４では、へキシレン基が図示されている）を等価な記載様式にて記載した場合、記載様式別に用意された学習用画像を用いて機械学習が実施されるケースが想定され得る。あるいは、原子間の結合線の太さ、長さ又は向き等が異なるものの化学構造が同一である構成要素を示す複数の学習用画像を用いて機械学習が実施されるケースも想定され得る。

以上のようなケースでは、複数の学習用画像から共通の特徴量を導出する識別モデルＭ１（厳密には、特徴量導出モデルＭａ）が機械学習によって構築されることになる。例えば、図４に図示した記載様式が異なる２つのへキシレン基を示す学習用画像の各々に対して、同じ「へキシレン基」というラベル（正解ラベル）を付けて教師あり学習を実施する。これにより、記載様式が異なる２つのへキシレン基を示す学習用画像から共通の特徴量を導出し、それぞれの画像から同じ構成要素（へキシレン基）を出力することができる識別モデルＭ１が構築される。

＜本実施形態の情報処理装置の構成＞
次に、図５に図示した情報処理装置（以下、情報処理装置１０）の構成例について説明する。なお、図５では、外部インタフェースを「外部Ｉ／Ｆ」と記載している。

情報処理装置１０は、図５に示されるように、プロセッサ１１、メモリ１２、外部インタフェース１３、入力装置１４、出力装置１５、及びストレージ１６が互いに電気的に接続されたコンピュータである。
なお、本実施形態では、情報処理装置１０が一台のコンピュータによって構成されているが、複数台のコンピュータによって情報処理装置１０が構成されてもよい。

プロセッサ１１は、後述のプログラム２１を実行し、上述した情報処理装置１０の機能を発揮させるための処理を実施するように構成されている。なお、プロセッサ１１は、一つ又は複数のＣＰＵ（Central Processing Unit）、及び後述のプログラム２１から構成される。

プロセッサ１１を構成するハードウェアプロセッサは、ＣＰＵに限定されず、ＦＰＧＡ（Field Programmable Gate Array）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＧＰＵ（Graphics Processing Unit）、ＭＰＵ（Micro-Processing Unit）、又はその他のＩＣ（Integrated Circuit）でもよく、あるいは、これらを組み合わせたものでもよい。また、プロセッサ１１は、ＳｏＣ（System on Chip）等に代表されるように、情報処理装置１０全体の機能を発揮する一つのＩＣ（Integrated Circuit）チップでもよい。
なお、上述したハードウェアプロセッサは、半導体素子などの回路素子を組み合わせた電気回路（Circuitry）であってもよい。

メモリ１２は、ＲＯＭ（Read Only Memory）及びＲＡＭ（Random Access Memory）などの半導体メモリによって構成され、プログラム及びデータを一時的に記憶することでプロセッサ１１に作業領域を提供するとともに、プロセッサ１１が実行する処理によって生成される各種データも一時的に記憶する。

メモリ１２には、コンピュータを本実施形態の情報処理装置１０として機能させるためのプログラム２１が記憶されている。このプログラム２１には、下記のプログラムｐ１～ｐ５が含まれる。
ｐ１：機械学習によって識別モデルＭ１を構築するためのプログラム
ｐ２：対象画像が掲載された文書から対象画像を検出するためのプログラム
ｐ３：対象画像が示す構造式中の各構成要素を識別するためのプログラム
ｐ４：識別された構成要素についての要素情報を記憶するためのプログラム
ｐ５：要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するためのプログラム

なお、プログラム２１は、コンピュータが読み取り可能な記録媒体から読み込むことで取得してもよく、あるいは、インターネット又はイントラネット等のネットワークを通じて受信（ダウンロード）することで取得してもよい。

外部インタフェース１３は、外部装置と接続するためのインタフェースである。情報処理装置１０は、外部インタフェース１３を介して外部装置、例えば、スキャナ又はインターネット上の他のコンピュータと通信する。このような通信を通じて、情報処理装置１０は、機械学習用のデータを取得し、また、対象画像が掲載された文書を取得することができる。

入力装置１４は、例えばマウス及びキーボード等からなり、ユーザの入力操作を受け付ける。情報処理装置１０は、例えば、ユーザが入力装置１４を通じて構成要素を描画等することで、機械学習用のデータを取得することができる。また、ユーザは、検索化合物に該当する対象化合物を検索する際に、入力装置１４を操作して検索化合物に関する情報を入力する。これにより、情報処理装置１０は、検索化合物に関する入力情報を取得することができる。

出力装置１５は、例えばディスプレイ及びスピーカ等からなり、入力情報に基づいて検索された対象化合物（すなわち、検索化合物に該当する対象化合物）を表示し、または音声再生するための装置である。また、出力装置１５は、データベースにて対象化合物毎に記憶されている要素情報を出力することができる。

ストレージ１６は、例えば、フラッシュメモリ、ＨＤＤ（Hard Disc Drive）、ＳＳＤ（Solid State Drive）、ＦＤ（Flexible Disc）、ＭＯディスク（Magneto-Optical disc）、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ＳＤカード（Secure Digital card）、及びＵＳＢメモリ（Universal Serial Bus memory）等によって構成されている。ストレージ１６には、機械学習用のデータを含む各種のデータが記憶される。さらに、ストレージ１６には、識別モデルＭ１をはじめ、機械学習により構築される各種モデルも記憶される。

さらにまた、ストレージ１６には、識別モデルＭ１によって識別された対象化合物の構造式中の各構成要素についての要素情報が、対象化合物と関連付けられて記憶されている。この結果、ストレージ１６に、図２に示す要素情報のデータベース２２が構築される。

データベース２２には、対象化合物毎に、対象化合物の構造式に含まれる各構成要素についての要素情報、具体的には構成要素の種類と配置位置が蓄積されている。

データベース２２に記憶される構成要素の種類は、図２に示すように、識別モデルＭ１にて算出された出力確率が最も高い構成要素の種類であり、その出力確率（図中では「精度」と表記）とともに記憶される。
また、データベース２２に記憶される構成要素の配置位置は、対象画像の基準位置を原点とする座標空間にて表される位置であり、例えば、構成要素を囲む矩形領域の代表位置、Ｘ方向長さ及びＹ方向長さで表される。

また、図２に示すように、対象化合物の構造式中の各構成要素についての要素情報は、その構造式を示す画像（対象画像）が掲載された文書に関する情報と紐付けられて記憶されている。文書に関する情報としては、例えば、文書が論文である場合には論文タイトル等、または、文書が公報である場合には公報発行番号等、並びに、文書における対象画像の掲載ページ及びそのページにおける配置位置等が挙げられる。

なお、本実施形態では、ストレージ１６が情報処理装置１０に内蔵された機器であるが、これに限定されるものではなく、ストレージ１６は、情報処理装置１０に接続された外付け型の機器を含んでもよい。また、ストレージ１６は、ネットワークを介して通信可能に接続された外部のコンピュータ（例えば、クラウドサービス用のサーバコンピュータ）を含んでもよい。この場合、上述のデータベース２２の一部又は全部が、ストレージ１６を構成する外部のコンピュータに記憶されてもよい。

情報処理装置１０のハードウェア構成については、上述の構成に限定されるものではなく、具体的な実施形態に応じて適宜、構成機器を追加、省略及び置換することが可能である。

＜情報処理フローについて＞
次に、情報処理装置１０を用いた情報処理フローについて説明する。
なお、以下に説明する情報処理フローでは、本発明の情報処理方法が採用されている。すなわち、下記の情報処理フロー中の各ステップは、本発明の情報処理方法を構成する。

本実施形態の情報処理フローは、図６に示すように、学習フェーズＳ００１、データベース構築フェーズＳ００２、及び検索フェーズＳ００３の順に進む。以下、各フェーズについて説明する。

［学習フェーズ］
学習フェーズＳ００１は、以降のフェーズで必要となるモデルを構築するために機械学習を実施するフェーズである。学習フェーズＳ００１では、図６に示すように、第１の機械学習Ｓ０１１、第２の機械学習Ｓ０１２、及び第３の機械学習Ｓ０１３が実施される。

第１の機械学習Ｓ０１１は、識別モデルＭ１を構築するための機械学習であり、前述のように、化合物の構造式の一つの構成要素を示す学習用画像を用いて実施される。本実施形態では、第１の機械学習Ｓ０１１として教師あり学習が実施される。この教師あり学習では、学習用画像と、学習用画像が示す一つの構成要素のラベル（正解ラベル）とが用いられる。

また、第１の機械学習Ｓ０１１では、前述したように、化学構造が同一であり記載様式が異なる構成要素を示す複数の学習用画像が用いられる場合がある。これにより、複数の学習用画像から共通の特徴量を導出する識別モデルＭ１（厳密には、特徴量導出モデルＭａ）が構築される。

第２の機械学習Ｓ０１２は、化合物の構造式を示す画像が掲載された文書から当該画像を検出するモデル（以下、画像検出モデルと言う）を構築するための機械学習である。画像検出モデルは、オブジェクト検出アルゴリズムを利用して文書中から構造式の画像を検出するためのモデルである。オブジェクト検出アルゴリズムとしては、Ｒ－ＣＮＮ（Region-based ＣＮＮ）、ＦａｓｔＲ－ＣＮＮ、ＹＯＬＯ（You only Look Once）、及びＳＤＤ（Single Shot Multibox Detector）が利用可能である。本実施形態では、検出速度の観点からＹＯＬＯを利用した画像検出モデルを構築する。

第２の機械学習Ｓ０１２に用いる学習用データ（教師データ）は、化合物の構造式を示す学習用画像に対してアノテーションツールを適用することによって作成される。アノテーションツールは、対象となるデータに対して正解ラベル（タグ）、及び対象物の座標等の関連情報を注釈として付与するツールである。アノテーションツールを起動し、学習用画像を含む文書を表示し、化合物の構造式を示す領域をバウンディングボックスによって囲み、その領域に対してアノテーションを行うことで学習用データが作成される。
なお、アノテーションツールとしては、例えば、ｔｚｕｔａｌｉｎ社のｌａｂｅＩｍｇ、及び、ｍｉｃｒｏｓｏｆｔ社のＶｏＴＴ等が利用可能である。

上記の学習用データを用いて第２の機械学習Ｓ０１２を行うことにより、ＹＯＬＯ形式の物体検出モデルである画像検出モデルが構築される。

第３の機械学習Ｓ０１３は、データベース２２に要素情報が記憶された複数の対象化合物の中から、検索化合物に該当する対象化合物を検索するモデル（以下、検索モデル）を構築するための機械学習である。
本実施形態の検索モデルは、データベース２２に要素情報が記憶された対象化合物のうち、検索化合物との間で構造式が同一又は類似である対象化合物を、検索化合物として検索するモデルである。

なお、以下では、入力情報が、検索化合物の構造式に含まれる各構成要素に関する情報であり、例えば、検索化合物の構造式を示す画像情報であることとする。ただし、入力情報としては、検索化合物の構造式の少なくとも一部を特定できる内容（すなわち、データベース２２にて検索化合物を検索する際のキーとなり得る情報）であれば、他の情報であってもよい。例えば、検索化合物の構造式における一部の構成要素を示す画像情報であってもよい。また、要素情報に相当する情報（例えば、構造式中の構成要素の種類、及び、その構成要素の構造式における配置位置を示す情報）を入力情報として用いてもよい。さらに、検索化合物の構造式の一部又は全部を、ＣｈｅｍＤｒａｗ（登録商標）及びＲＤＫｉｔのような公知の構造式描画ソフトによって描画し、その描画データを入力情報として用いてもよい。

検索モデルは、検索化合物特定モデルと、類似度評価モデルとによって構成される。検索化合物特定モデルは、入力情報が示す検索化合物の構造式を特定するモデルである。本実施形態では、入力情報としての画像情報が検索化合物特定モデルに入力されると、当該画像情報が示す構造式中の各構成要素に関する情報（例えば、各構成要素の種類及び構造式における配置位置を示す情報）が出力される。
なお、検索化合物特定モデルとしては、前述の識別モデルＭ１を転用してもよく、その場合の機械学習として転移学習を実施してもよい。

類似度評価モデルは、検索化合物特定モデルにより特定された検索化合物の構造式と、データベース２２に各構成要素の要素情報が記憶された対象化合物の構造式との間で類似度を評価する。本実施形態では、検索化合物の構造式に含まれる構成要素についての要素情報と、対象化合物の構造式に含まれる構成要素についての要素情報と、に基づいて類似度を評価する。

類似度評価モデルのアルゴリズムは、特に限定されないが、例えば画像間の類似度、又はテキスト間の算出度を評価するための公知のアルゴリズムを利用することができる。例えば、構造式に含まれる構成要素についての要素情報をベクトル化し、ベクトル間の類似度をユークリッド距離等の指標によって算出するアルゴリズムを用いることができる。

また、同一の化学物について互いに異なる記載様式にて書かれた複数の構造式の間では、類似度が高くなるようにするのが好ましい。これは、同一の化合物について異なる記載様式で記載された構造式では、各構造式における各官能基の書き方（例えば、結合線の向き等）及び各原子の位置等が変わってくるからである。このような違いを考慮し、同一の化合物について異なる記載様式で記載された構造式の間では類似度が高くなるようにするとよい。例えば、データベース２２に記録され、同一の化合物について異なる記載様式で記載された複数の構造式のそれぞれについては、同じラベル（正解ラベル）を付けて機械学習に供して類似度評価モデルを構築すればよい。

なお、類似度の評価手法については、機械学習によるものに限定されず、例えば、予め規定した照合ルールに従って、検索化合物と対象化合物との間で構造式中の各構成要素を照合し、その照合結果に基づいて類似度を評価してもよい。あるいは、データベース２２に各構成要素の要素情報が記憶された対象化合物を、要素情報に基づいてクラスタリングし、検索化合物が属するクラスタを特定することで類似度を評価してもよい。

第３の機械学習Ｓ０１３は、データベース２２に対象化合物毎に記憶された構造式中の各構成要素についての要素情報と、化合物の構造式に関する学習用情報とを用いて実施される。ここで、学習用情報は、例えば、第３の機械学習Ｓ０１３のために選定された化合物について、その構造式中の各構成要素の種類及び配置位置等を示す情報である。
そして、第３の機械学習が実施されることにより、上述した検索モデルが構築される。

［データベース構築フェーズ］
データベース構築フェーズＳ００２は、文書に含まれる画像（対象画像）が示す対象化合物の構造式について、その構造式中の各構成要素についての要素情報を記憶してデータベース２２を構築するフェーズである。

データベース構築フェーズＳ００２では、先ず、情報処理装置１０のプロセッサ１１が、対象画像を含む文書に対して前述の画像検出モデルを適用し、文書中の対象画像を検出する（Ｓ０２１）。つまり、本ステップＳ０２１において、プロセッサ１１は、オブジェクト検出アルゴリズム（具体的には、ＹＯＬＯ）を利用して、文書から対象画像を検出する。

この際、一つの文書中に対象画像が複数含まれる場合には、プロセッサ１１は、図７に示すように、上記の文書から複数の対象画像（図７中、破線にて囲われた部分の画像）を検出する。

次に、プロセッサ１１は、識別モデルＭ１により、対象画像の各領域の特徴量に基づき、対象化合物の構造式中の各構成要素を識別する（Ｓ０２３）。
具体的に説明すると、プロセッサ１１は、ステップＳ０２１で検出された対象画像を識別モデルＭ１に入力する。識別モデルＭ１のうち、前段の特徴量導出モデルＭａでは対象画像の各領域の特徴量が出力される。後段の構成要素出力モデルＭｂでは、入力された各領域の特徴量に基づき、構成要素（厳密には、構成要素の種類）が出力される。このとき、各領域の特徴量に基づいて、各領域と対応する構成要素の候補が複数特定され、また、それぞれの候補について出力確率が算出される。

構成要素出力モデルＭｂは、前述したように、出力確率が最も高い候補を各領域が示す構成要素として出力する。対象画像中の各領域が示す構成要素が領域毎に出力されることにより、対象画像が示す構造式（すなわち、対象化合物の構造式）を構成要素に分けて識別することができる。

なお、ステップＳ０２１にて複数の対象画像を検出した場合、プロセッサ１１は、検出された複数の対象画像を対象画像毎に識別モデルＭ１に入力する。これにより、複数の対象画像のそれぞれについて、対象画像が示す対象化合物の構造式中の各構成要素が識別されることになる。

次に、プロセッサ１１は、識別された対象化合物の構造式中の各構成要素についての要素情報を取得し、取得された要素情報を記憶する（Ｓ０２３）。このとき、プロセッサ１１は、各構成要素についての要素情報を、各構成要素を構造式中に含む対象化合物と関連付けて記憶する。本実施形態では、各構成要素についての要素情報が、各構成要素によって構成される構造式の画像（対象画像）が掲載された文書の情報等と紐付けられて記憶される（図２参照）。

ステップＳ０２３は、新たな対象化合物について、その構造式中の各構成要素が識別される度に繰り返される。この結果、対象化合物の構造式中の各構成要素についての要素情報が蓄積され、要素情報のデータベース２２が構築される。データベース２２に要素情報が記憶された対象化合物は、後の検索フェーズＳ００３において、要素情報をキーとして検索可能となる。

［検索フェーズ］
検索フェーズＳ００３は、データベース２２に要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索するフェーズである。「検索化合物」は、検索対象となり、検索の実施に際して、その構造式の一部又は全部に関する情報が入力情報として取得される化合物である。

検索フェーズＳ００３では、先ず、情報処理装置１０のプロセッサ１１が、検索化合物に関する入力情報を取得する（Ｓ０３１）。本ステップＳ０３１において、プロセッサ１１は、入力情報として、検索化合物の構造式に含まれる各構成要素に関する情報を取得する。このような情報の一例としては、例えば、検索化合物の構造式を示す画像情報等が挙げられる。

入力情報の取得後、プロセッサ１１は、前述した検索モデルにより、データベース２２に要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索する（Ｓ０３２）。具体的に説明すると、プロセッサ１１は、検索モデルにより、取得された入力情報と、データベース２２にて対象化合物と関連付けて記憶された要素情報とに基づき、検索化合物と対象化合物との間の類似度を算出する。本実施形態では、入力情報が示す検索化合物と、データベース２２に要素情報が記憶された対象化合物との間で、構造式の類似度を算出する。

その後、プロセッサ１１は、データベース２２に要素情報が記憶された対象化合物の中から、算出した類似度が検索条件を満たす対象化合物を検索化合物として検索（選定）する。検索条件は、類似度の算出結果に基づいて検索化合物に該当する対象化合物を選定するために予め決められた条件である。本実施形態では、類似度が高い順に、予め決められた個数の対象化合物が検索化合物として検索される。ただし、これに限定されるものではなく、例えば、類似度が最も高い対象化合物のみを検索化合物として検索してもよい。あるいは、類似度が基準値以上である対象化合物を検索化合物として検索してもよい。

そして、プロセッサ１１は、検索された対象化合物の情報を出力装置１５にて出力し、例えば、図８に示すように画面に検索結果を表示する。検索された対象化合物の情報としては、例えば、その対象化合物の構造式を示す画像が掲載された文書及び掲載頁等が挙げられる。また、図８に示すように、対象化合物の検索結果と共に、検索された対象化合物と検索化合物との類似度を併せて出力するのが好ましい。

なお、検索化合物に関する入力情報として、検索化合物の構造式に含まれる一部の構成要素（以下、便宜的に「部分構造」と言う。）を示す情報が取得されるケースが考えられ得る。このようなケースでは、部分構造を含む対象化合物を検索化合物として検索することになる。具体的には、データベース２２に要素情報が記憶された各対象化合物について、その構造式に含まれる部分構造と、入力情報が示す部分構造との類似度を算出する。そして、類似度が高い順に、予め決められた個数の対象化合物を検索化合物として検索する。

＜本実施形態の有効性について＞
本実施形態の情報処理装置１０は、第１の機械学習Ｓ０１１によって構築された識別モデルＭ１を利用し、対象化合物の構造式を示す画像（対象画像）中の各領域の特徴量に基づき、構造式中の各構成要素を識別することができる。また、本実施形態の情報処理装置１０は、識別された構成要素についての要素情報を対象化合物と関連付けて記憶し、データベース２２を構築する。データベース２２に記憶された要素情報は、それ以降に対象化合物を検索する際の検索キーとして利用することができる。

上記の効果について詳述すると、従来の技術では、化合物の構造式を示す画像の各領域と、各領域に現れる構造式中の構成要素との対応関係をルール化し、そのルールに従って構造式中の各構成要素を識別していた。ただし、構造式の書き方が変わった場合、その書き方に適合できる識別ルールが準備されていないと、当該構造式中の各構成要素を識別することができない虞があった。その場合には、構成要素の識別結果を利用することができない等の理由により、その構成要素を含む構造式の検索が困難となっていた。

これに対して、本実施形態では、機械学習の成果である識別モデルＭ１を利用して対象画像の各領域の特徴量から構造式中の各構成要素を識別することができる。つまり、本実施形態では、構造式の書き方が変わったとしても、その構造式を示す画像の各領域の特徴量を特定し、特徴量が特定できれば、その特徴量から構成要素を割り出す（識別する）ことが可能である。そして、識別された構成要素についての要素情報を対象化合物と関連付けて記憶してデータベース化するので、それ以降は、要素情報を検索キーとして、目的（ターゲット）とする対象化合物を検索することができる。

以上のように、本実施形態によれば、対象化合物の構造式の書き方が変わった場合にも構造式中の各構成要素を良好に識別することができる。そして、識別された各構成要素についての要素情報を検索キーとして、目的とする対象化合物を適切に検索することができる。

＜その他の実施形態＞
以上までに、本発明の情報処理装置、情報処理方法、及びプログラムについて具体例を挙げて説明してきたが、上述した実施形態は、あくまでも一例に過ぎず、他の実施形態も考えられる。
例えば、情報処理装置を構成するコンピュータとしては、ＡＳＰ（Application Service Provider）、ＳａａＳ（Software as a Service）、ＰａａＳ（Platform as a Service）又はＩａａＳ（Infrastructure as a Service）等に利用されるサーバであってもよい。この場合、上記ＡＳＰ等のサービスを利用するユーザが不図示の端末を操作して、検索化合物に関する入力情報をサーバに送信する。サーバは、入力情報を受信すると、入力情報に基づき、要素情報が記憶された対象化合物の中から、検索化合物に該当する対象化合物を検索する。そして、サーバは、検索結果（すなわち、検索化合物に該当する対象化合物）に関する情報を、ユーザの端末に向けて出力（送信）する。ユーザ側では、サーバから送られてくる情報（すなわち、検索結果）が表示され、あるいは音声再生される。

また、上記の実施形態では、構造式に含まれる個々の原子、及び個々の原子間結合を構成要素としたが、これに限定されるものではない。例えば、複数の原子を含む官能基（原子団）を構成要素としてもよい。この場合には、構成要素についての要素情報のうち、構成要素の種類を示す情報が、その構成要素に該当する官能基の化学式を示す情報であるとよい。
あるいは、構造式中、互いに隣接する複数の官能基を構成要素としてもよく、又は、構造式を任意のルールに従って分割したときの各断片（フラグメント）を構成要素としてもよい。

また、要素情報のうち、構成要素の種類を示す情報は、対象化合物の構造式についての分子フィンガープリントの一部からなる情報であってもよい。分子フィンガープリントは、構造式における構成要素の有無を構成要素の種類毎に示すバイナリ型の多次元ベクトルである。例えば、図９の左側に図示した官能基に対しては、図９の右側に図示した分子フィンガープリントが設定される。

また、上記の実施形態では、各種のモデルを構築するための機械学習（第１～第３の機械学習）が情報処理装置１０によって行われることとしたが、これに限定されるものではない。一部又は全ての機械学習が、情報処理装置１０とは異なる他の装置（コンピュータ）によって行われてもよい。この場合、情報処理装置１０は、他の装置が行う機械学習によって構築されるモデルを取得することになる。
例えば、第１の機械学習が他の装置によって行われる場合、情報処理装置１０は、識別モデルＭ１を他の装置から取得し、取得された識別モデルＭ１により、対象画像が示す構造式中の各構成要素を識別する。

１０情報処理装置
１１プロセッサ
１２メモリ
１３外部インタフェース
１４入力装置
１５出力装置
１６ストレージ
２１プログラム
２２データベース
Ｍ１識別モデル
Ｍａ特徴量導出モデル
Ｍｂ構成要素出力モデル

Claims

プロセッサを備える情報処理装置であって、
前記プロセッサは、
識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、前記対象化合物の構造式中の構成要素のうち、前記各領域が示す前記構成要素を識別し、
識別された前記対象化合物の構造式中の前記構成要素についての要素情報を、前記対象化合物と関連付けて記憶し、
前記識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築され、
前記機械学習において、化学構造が同一であり記載様式が異なる前記構成要素を示す複数の前記学習用画像が用いられた場合には、複数の前記学習用画像から共通の特徴量を導出する前記識別モデルが前記機械学習によって構築される、情報処理装置。
前記プロセッサは、
検索化合物に関する入力情報を取得し、
前記入力情報と、前記対象化合物と関連付けられた前記要素情報とに基づき、前記要素情報が記憶された前記対象化合物の中から、前記検索化合物に該当する前記対象化合物を検索する、請求項１に記載の情報処理装置。
前記プロセッサは、
前記入力情報と、前記対象化合物と関連付けて記憶された前記要素情報とに基づき、前記検索化合物と前記対象化合物との間の類似度を算出し、
前記要素情報が記憶された前記対象化合物の中から、前記類似度が検索条件を満たす前記対象化合物を前記検索化合物として検索する、請求項２に記載の情報処理装置。
前記プロセッサは、前記検索化合物の構造式中に含まれる前記構成要素に関する前記入力情報を取得する、請求項２又は３に記載の情報処理装置。
前記プロセッサは、
前記対象画像を含む文書から前記対象画像を検出し、
検出された前記対象画像を前記識別モデルに入力することにより、前記対象画像中の前記各領域が示す前記構成要素を識別する、請求項１乃至４のいずれか一項に記載の情報処理装置。
前記プロセッサは、オブジェクト検出アルゴリズムを利用して前記文書から前記対象画像を検出する、請求項５に記載の情報処理装置。
前記要素情報は、識別された前記対象化合物の構造式中の前記構成要素の種類を示す情報を含む、請求項１乃至６のいずれか一項に記載の情報処理装置。
前記要素情報は、識別された前記対象化合物の構造式中の前記構成要素の、前記対象画像に対して設定された座標空間での配置位置を示す情報を更に含む、請求項１に記載の情報処理装置。
前記構成要素の種類を示す情報は、前記構成要素に該当する原子又は原子間の結合の種類を示す情報である、請求項７又は８に記載の情報処理装置。
前記構成要素の種類を示す情報は、前記構成要素に該当する官能基の化学式を示す情報である、請求項７又は８に記載の情報処理装置。
前記構成要素の種類を示す情報は、前記対象化合物の構造式における前記構成要素の有無を前記構成要素の種類毎に示す分子フィンガープリントの一部からなる情報である、請求項７又は８に記載の情報処理装置。
プロセッサが、
識別モデルにより、対象化合物の構造式を示す対象画像中の各領域の特徴量に基づき、前記対象化合物の構造式に含まれる構成要素のうち、前記各領域が示す前記構成要素を識別するステップと、
識別された前記対象化合物の構造式中の前記構成要素についての要素情報を、前記対象化合物と関連付けて記憶するステップと、を実施し、
前記識別モデルが、化合物の構造式中の一つの構成要素を示す学習用画像を用いた機械学習によって構築され、
前記機械学習において、化学構造が同一であり記載様式が異なる前記構成要素を示す複数の前記学習用画像が用いられた場合には、複数の前記学習用画像から共通の特徴量を導出する前記識別モデルが前記機械学習によって構築される、情報処理方法。
請求項１２に記載された情報処理方法の各ステップをプロセッサに実施させるためのプログラム。