JP5853608B2 - 化合物分類装置、化合物分類プログラムおよび化合物分類方法 - Google Patents

化合物分類装置、化合物分類プログラムおよび化合物分類方法 Download PDF

Info

Publication number
JP5853608B2
JP5853608B2 JP2011244975A JP2011244975A JP5853608B2 JP 5853608 B2 JP5853608 B2 JP 5853608B2 JP 2011244975 A JP2011244975 A JP 2011244975A JP 2011244975 A JP2011244975 A JP 2011244975A JP 5853608 B2 JP5853608 B2 JP 5853608B2
Authority
JP
Japan
Prior art keywords
compound
substituent
mother nucleus
character string
compounds
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011244975A
Other languages
English (en)
Other versions
JP2013101511A (ja
Inventor
池田 紀子
紀子 池田
田中 一成
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011244975A priority Critical patent/JP5853608B2/ja
Publication of JP2013101511A publication Critical patent/JP2013101511A/ja
Application granted granted Critical
Publication of JP5853608B2 publication Critical patent/JP5853608B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、化合物分類装置、化合物分類プログラムおよび化合物分類方法に関する。
化学系や薬学系などの特許文献や学術論文などの文書において、ある化合物の化合物名とともに、その化合物の代わりに用いてもよい他の化合物の化合物名が列挙される場合がある。また、文書に列挙された複数の化合物名から、どのような意図の化合物群であるか判断される場合がある。
関連する先行技術としては、例えば、テキストデータの相違行を文字列単位に比較し相違のあった文字列を抽出し、外部から与えた情報によって特定される文字列を無視することで残った行を相違点として認識し、相違点を編集しリスト出力する技術がある(例えば、下記特許文献1参照。)。
特開平7−104990号公報
しかしながら、従来技術によれば、文書に列挙された化合物群の化合物名から、化合物同士の類似性や差分を判断することが難しいという問題がある。例えば、文書に列挙された化合物名が3つ以上あった場合、それらの化合物がどのように類似し、どのように異なるのか判断することが難しい。
本発明は、上述した従来技術による問題点を解消するため、化合物の基礎となる部分構造を表す母核をもとに化合物群を分類することができる化合物分類装置、化合物分類プログラムおよび化合物分類方法を提供することを目的とする。
上述した課題を解決し、目的を達成するため、本発明の一側面によれば、化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出し、前記分類した分類結果を出力し、前記分類の際には、さらに、前記抽出によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する化合物分類装置、化合物分類プログラムおよび化合物分類方法が提案される。
本発明の一側面によれば、化合物の基礎となる部分構造を表す母核をもとに化合物群を分類することができるという効果を奏する。
図1は、実施の形態にかかる化合物分類方法の一実施例を示す説明図である。 図2は、システム200のシステム構成例を示す説明図である。 図3は、化合物分類装置100のハードウェア構成例を示すブロック図である。 図4は、構造解析ルールDB220の記憶内容の一例を示す説明図である。 図5は、構造式DB230の記憶内容の一例を示す説明図である。 図6は、基本構造抽出ルールDB240の記憶内容の一例を示す説明図である。 図7は、化合物分類装置100の機能的構成例を示すブロック図である。 図8は、分割テーブル800の記憶内容の変遷例を示す説明図(その1)である。 図9は、分割テーブル800の記憶内容の変遷例を示す説明図(その2)である。 図10は、分割テーブル800の記憶内容の変遷例を示す説明図(その3)である。 図11は、母核比較テーブルの記憶内容の変遷例を示す説明図(その1)である。 図12は、母核比較テーブルの記憶内容の変遷例を示す説明図(その2)である。 図13は、母核比較テーブルの記憶内容の変遷例を示す説明図(その3)である。 図14は、母核比較テーブルの記憶内容の変遷例を示す説明図(その4)である。 図15は、母核比較テーブルの記憶内容の変遷例を示す説明図(その5)である。 図16は、母核比較テーブルの記憶内容の変遷例を示す説明図(その6)である。 図17は、置換基比較テーブルの記憶内容の変遷例を示す説明図(その1)である。 図18は、置換基比較テーブルの記憶内容の変遷例を示す説明図(その2)である。 図19は、置換基比較テーブルの記憶内容の変遷例を示す説明図(その3)である。 図20は、置換基比較テーブルの記憶内容の変遷例を示す説明図(その4)である。 図21は、置換基比較テーブルの記憶内容の変遷例を示す説明図(その5)である。 図22は、比較リストの具体例を示す説明図(その1)である。 図23は、比較リストの具体例を示す説明図(その2)である。 図24は、比較リストの加工例を示す説明図である。 図25は、化合物分類装置100の化合物分類処理手順の一例を示すフローチャートである。 図26は、化合物名分割処理の具体的処理手順の一例を示すフローチャートである。 図27は、母核分割処理の具体的処理手順の一例を示すフローチャート(その1)である。 図28は、母核分割処理の具体的処理手順の一例を示すフローチャート(その2)である。 図29は、置換基分割処理の具体的処理手順の一例を示すフローチャートである。 図30は、母核比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。 図31は、置換基比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。
以下に添付図面を参照して、この発明にかかる化合物分類装置、化合物分類プログラムおよび化合物分類方法の実施の形態を詳細に説明する。
(化合物の命名法)
まず、本実施の形態において使用する化合物の命名法について説明する。ここで、化合物とは、2種類以上の元素からできている化学物質のことである。化合物は、例えば、有機化合物と無機化合物とに分類される。
有機化合物は、炭素原子を構造の基本骨格に持つ化合物の総称である。有機化合物は、分子構造の違いによって、例えば、直鎖炭化水素、芳香族炭化水素、脂環式炭化水素などに分類することができる。なお、骨格を形成する炭素以外の元素として、ケイ素や酸素があり、無機分子と呼ばれる。
また、無機化合物は、有機化合物以外の化合物であり、炭素以外の元素で構成される化合物である。ただし、炭素化合物のうち、例えば、炭素の同素体(例えば、グラファイト、ダイヤモンド)や二酸化炭素は、無機化合物に分類される。以下の説明では、化合物として有機化合物を例に挙げて説明する。
有機化合物は、例えば、炭素骨格の長さや分岐により多様な構造をとる。炭素骨格は、有機化合物において炭素同士が結合している部分である。炭素骨格の長さは、炭素の数によって表される。また、有機化合物は、窒素(N)、酸素(O)、硫黄(S)、燐(P)、ハロゲン(F、Cl、Br、I)などが炭素に結合した多様な官能基が生成される。官能基は、有機化合物のおおよその性質を決める原子団である。
ここで、有機化合物の化合物名は、例えば、IUPAC(International Union of Pure and Applied Chemistry)が定める命名法によって命名される。IUPACが定める命名法としては、例えば、置換命名法、基官能命名法、付加命名法、減去命名法、接合命名法、代置命名法などがある。
本実施の形態では、有機化合物の化合物名が、IUPACが定める置換命名法(substitute nomenclature)によって命名されている場合を想定する。置換命名法において、有機化合物の化合物名は、例えば「結合位置−接頭語−(語頭+語幹+語尾)」という形式で表現される。
また、置換命名法において、(語頭+語幹+語尾)は「母核」と呼ばれ、接頭語は「置換基」と呼ばれる。すなわち、置換命名法では、有機化合物の化合物名は、例えば、「置換基+母核」というルールのもと記述される。母核および置換基は、化合物の部分構造を表す原子団である。
母核は、有機化合物の基礎となる部分構造である。置換基は、有機化合物の系統や命名に使う部分構造であり、母核と対になって使用される概念である。また、母核と置換基は、母核を「親」、置換基を「子」とする親子関係にある。結合位置は、母核の何番目の炭素に置換基が結合しているのかを表している。ただし、結合位置は省略されている場合がある。
また、置換基の中に別の置換基を持つものは「複合置換基」と呼ばれる。複合置換基には、置換基と母核とが含まれる。すなわち、有機化合物の化合物名は、子の中に別の親子関係が存在するという複数世代の親子関係を含む場合がある。有機化合物の化合物名において、複合置換基を表す文字列は、例えば、括弧やかぎ括弧で囲まれている。
本実施の形態では、各世代の親子関係を「1階層」とし、複数世代の親子関係を「階層構造」と表現する場合がある。また、最上位の階層を「第1階層」と表記し、階層が下位になるにしたがって順に「第2階層」、「第3階層」、…、「第n階層」と表記する(n:1以上の自然数)。また、第1〜第n階層のうち任意の階層を「第i階層」と表記する(i=1,2,…,n)。
第i階層には、1つの母核と、1つ以上の置換基が含まれる。ここでは、第i階層に含まれる1つ以上の置換基を「第1置換基」、「第2置換基」、…、「第m置換基」と表記する(m:1以上の自然数)。また、第1〜第m置換基のうち任意の置換基を「第j置換基」と表記する(j=1,2,…,m)。
なお、第i階層に含まれる1つ以上の置換基の番号(1,2,…,m)を、どのような順序で付けるかは任意である。例えば、各置換基の名称のアルファベット順に番号を付けてもよく、また、各置換基が結合する母核の炭素の番号が若い順に番号を付けてもよい。以下の説明では、第i階層の各置換基の番号を、化合物名の先頭から順に第1置換基、第2置換基、…、第m置換基とする。
ここで、有機化合物の化合物名として『2−(3−メチル−4−ヒドロキシフェニル)プロパン』を例に挙げて説明する。この化合物名において、第1階層の母核は「プロパン」、第1置換基は「3−メチル−4−ヒドロキシフェニル」、第1置換基の結合位置は「2」である。
また、第1置換基は括弧で囲まれている複合置換基である。このため、この化合物名には第2階層が存在する。具体的には、第2階層の母核は「フェニル」、第1置換基は「メチル」、第1置換基の結合位置は「3」、第2置換基は「ヒドロキシ」、第2置換基の結合位置は「4」である。第2階層を構成する複合置換基では、表記上、第1階層の母核に近い置換基が親、すなわち、第2階層の母核となり、母核に遠い置換基が子、すなわち、第2階層の置換基となる。
(化合物分類方法の一実施例)
つぎに、本実施の形態にかかる化合物分類方法の一実施例について説明する。図1は、実施の形態にかかる化合物分類方法の一実施例を示す説明図である。図1において、化合物分類装置100は、分類対象となる化合物群を分類する機能を有するコンピュータである。
分類対象となる化合物群は、例えば、化学系や薬学系などの特許文献や学術論文などの文書に列挙された化合物の集合である。特許文献や学術論文などの文書において、列挙された化合物群は、何らかの類似性を有する化合物の集合であることが多い。本化合物分類方法では、分類対象となる化合物群の各々の化合物名から化合物の基礎となる部分構造を表す母核を判別して、各化合物の母核をもとに化合物群を分類する。
以下、分類対象となる化合物群を「第1〜第5の化合物」として、化合物分類装置100の化合物分類処理例について説明する。
(1)化合物分類装置100は、記憶部110を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、各々の化合物の母核となる部分構造の名称を表す文字列を検出する。記憶部110は、化合物分類装置100がアクセス可能な記憶装置であり、化合物の母核となる部分構造の名称である母核名を記憶している。
ここで、第1の化合物の化合物名は「AAAXXX」である。第2の化合物の化合物名は「BBBYYY」である。第3の化合物の化合物名は「CCCXXX」である。第4の化合物の化合物名は「DDDYYY」である。第5の化合物の化合物名は「EEEXXX」である。
具体的には、例えば、置換命名法では母核を表す文字列が最後方にくることを利用して、化合物分類装置100が、化合物の化合物名の末尾からt(t=1,2,3,…)文字の文字列と、記憶部110に記憶されている母核名との一致判定を行う。そして、化合物分類装置100が、記憶部110に記憶されている母核名と一致する文字列を、化合物の母核を表す文字列として検出する。
ここでは、第1〜第5の化合物のうち第1、第3および第5の化合物の化合物名の末尾から3文字の文字列「XXX」が、記憶部110に記憶されている母核名「XXX」と一致する。このため、第1、第3および第5の化合物の母核を表す文字列「XXX」が検出される。また、第1〜第5の化合物のうち第2および第4の化合物の化合物名の末尾から3文字の文字列「YYY」が、記憶部110に記憶されている母核名「YYY」と一致する。このため、第2および第4の化合物の母核を表す文字列「YYY」が検出される。
(2)化合物分類装置100は、検出した各々の化合物の母核を表す文字列に基づいて、分類対象となる化合物群を分類する。具体的には、例えば、化合物分類装置100が、分類対象となる第1〜第5の化合物を、母核を表す文字列が同一となる化合物同士をグループ化して分類する。
ここでは、第1〜第5の化合物が、第1、第3および第5の化合物を含むグループ1と、第2および第4の化合物を含むグループ2とに分類されている。グループ1は、母核を表す文字列が「XXX」となる化合物の集合である。グループ2は、母核を表す文字列が「YYY」となる化合物の集合である。
このように、本実施の形態にかかる化合物分類装置100によれば、分類対象となる第1〜第5の化合物を、化合物の基礎となる部分構造を表す母核が同一となる化合物同士で分類することができる。これにより、第1〜第5の化合物の中から化合物の母核が同一の化合物の集合を判別することができる。この結果、例えば、第1〜第5の化合物のうちの母核が同一の化合物同士の類似性や差分を判断し易くすることができる。
また、詳細は後述するが、化合物分類装置100は、分類対象となる第1〜第5の化合物のうち、特定の化合物の母核を表す文字列と他の化合物の母核を表す文字列とを比較することにより、第1〜第5の化合物を分類することにしてもよい。これにより、第1〜第5の化合物の中から、特定の化合物と母核が同一の化合物の集合を判別して、特定の化合物と母核が同一の化合物同士の類似性や差分を判断し易くすることができる。
(システム200のシステム構成例)
つぎに、実施の形態にかかるシステム200のシステム構成例について説明する。図2は、システム200のシステム構成例を示す説明図である。図2において、システム200は、化合物分類装置100と、複数のクライアント装置201(図面では、3台)と、を含む。
システム200において、化合物分類装置100およびクライアント装置201は、有線または無線のネットワーク210を介して接続されている。ネットワーク210は、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などである。
ここで、化合物分類装置100は、構造解析ルールDB(データベース)220、構造式DB230および基本構造抽出ルールDB240を有する。なお、構造解析ルールDB220、構造式DB230および基本構造抽出ルールDB240についての詳細な説明は、図4〜図6を用いて後述する。
クライアント装置201は、システム200のユーザが使用するPC(パーソナル・コンピュータ)、ノートPCなどである。例えば、システム200において、クライアント装置201から化合物分類装置100に分類対象となる化合物群の各々の化合物名を表すテキストデータが送信されると、化合物群を分類した分類結果が化合物分類置100からクライアント端末201に送信される。
(化合物分類装置100のハードウェア構成例)
図3は、化合物分類装置100のハードウェア構成例を示すブロック図である。図3において、化合物分類装置100は、CPU(Central Processing Unit)301と、ROM(Read‐Only Memory)302と、RAM(Random Access Memory)303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、I/F(Interface)308と、ディスプレイ309と、キーボード310と、マウス311と、を有している。また、各構成部はバス300によってそれぞれ接続されている。
ここで、CPU301は、化合物分類装置100の全体の制御を司る。ROM302は、ブートプログラムなどのプログラムを記憶している。RAM303は、CPU301のワークエリアとして使用される。磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータのリード/ライトを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記憶する。
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータのリード/ライトを制御する。光ディスク307は、光ディスクドライブ306の制御で書き込まれたデータを記憶したり、光ディスク307に記憶されたデータをコンピュータに読み取らせたりする。
I/F308は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して、他のコンピュータ、例えば、クライアント装置201に接続される。そして、I/F308は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F308には、例えば、モデムやLANアダプタなどを採用することができる。
ディスプレイ309は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ309は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
キーボード310は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス311は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
なお、化合物分類装置100は、上述した構成部のうち、例えば、光ディスクドライブ306、光ディスク307、ディスプレイ309、キーボード310、マウス311などを有していなくてもよい。また、クライアント装置201は、上述した化合物分類装置100と同様のハードウェア構成により実現することができる。
(各種DB220,230,240の記憶内容)
つぎに、各種DB220,230,240の記憶内容について説明する。各種DB220,230,240は、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
図4は、構造解析ルールDB220の記憶内容の一例を示す説明図である。図4において、構造解析ルールDB220は、ルールID、ルール名、ルール内容および付記のフィールドを有する。各フィールドに情報を設定することで、ルール情報(例えば、ルール情報400−1〜400−8)がレコードとして記憶されている。
ここで、ルールIDは、構造解析ルールの識別子である。構造解析ルールは、化合物の構造を解析するための決まりごとを規定したものである。ルール名は、構造解析ルールの名称である。ルール内容は、構造解析ルールの内容である。付記は、ルール内容の補足である。
ルール情報400−1を例に挙げると、ルール1のルール名「有機化合物」およびルール内容「親子関係が基本である。親は母核、子は置換基となる。」が示されている。ルール情報400−1によれば、化合物分類装置100は、有機化合物は親子関係が基本であり、親は母核、子は置換基となることを認識することができる。
また、ルール情報400−2を例に挙げると、ルール2のルール名「母核」、ルール内容「語頭+語幹+語尾の構成である。炭素鎖が第1階層の母核となる。」および付記「母核炭素鎖は構造式DBを参照」が示されている。ルール情報400−2によれば、化合物分類装置100は、母核は語頭+語幹+語尾の構成であることを認識することができる。また、化合物分類装置100は、炭素鎖が第1階層の母核となることを認識することができる。また、化合物分類装置100は、母核炭素鎖は構造式DB230を参照して特定できることを認識することができる。
図5は、構造式DB230の記憶内容の一例を示す説明図である。図5において、構造式DB230は、化合物ID、化合物の種類、環フラグ、化合物名、構造式、原子間結合なし構造式および備考のフィールドを有する。各フィールドに情報を設定することで、化合物ごとの構造式情報510−1〜510−K,520−1〜520−Pがレコードとして記憶されている。具体的には、構造式情報510−1〜510−Kは、母核を表す化合物の構造式情報である。また、構造式情報520−1〜520−Pは、置換基を表す化合物の構造式情報である。
ここで、化合物IDは、母核または置換基を表す化合物の識別子である。以下の説明では、母核B1〜BKのうち任意の母核を「母核Bk」と表記する場合がある(k=1,2,…,K)。また、置換基C1〜CPのうち任意の置換基を「置換基Cp」と表記する場合がある(p=1,2,…,P)。
化合物の種類は、母核または置換基を表す化合物の種類である。環フラグは、母核または置換基を表す化合物が環構造であるか否かを示すフラグである。環フラグは、環構造の場合「Yes」、環構造ではない場合「No」となる。化合物名は、母核または置換基を表す化合物の名称である。
構造式は、母核または置換基を表す化合物の構造式である。構造式とは、化合物内での元素の結合状態を図示した化学式である。構造式に含まれる各々の炭素元素には、炭素番号が付されている。原子間結合なし構造式は、構造式から原子間の結合を示す価標を除外したものである。備考は、構造式に関する補足情報である。備考フィールドには、例えば、構造式を略記法で表したものなどが設定される。
構造式情報510−1を例に挙げると、母核B1を表す化合物の種類「直鎖炭化水素」、環フラグ「No」、化合物名「メタン」、構造式「CH4」および原子間結合なし構造式「CH4」が示されている。また、構造式「CH4」に含まれる炭素元素「C」には炭素番号「1」が付されている。
構造式情報520−1を例に挙げると、置換基C1を表す化合物の環フラグ「No」、化合物名「メチル」、構造式「CH3−」および原子間結合なし構造式「CH3−」が示されている。また、構造式「CH3−」に含まれる炭素元素「C」には炭素番号「1」が付されている。
なお、図5に示した構造式DB230のデータ構造では、母核B1〜BKの構造式情報510−1〜510−Kと、置換基C1〜CPの構造式情報520−1〜520−Pと、を区別して示したが、これに限らない。例えば、第2階層以降は、置換基C1〜CPも母核となり得るため、構造式DB230において、母核と置換値とを区別することなく、化合物ごとに構造式情報を管理することにしてもよい。
図6は、基本構造抽出ルールDB240の記憶内容の一例を示す説明図である。図6において、基本構造抽出ルールDB240は、ルールIDおよびルール内容のフィールドを有する。各フィールドに情報を設定することで、基本構造抽出ルール情報(例えば、基本構造抽出ルール情報600−1〜600−5)がレコードとして記憶されている。
ここで、ルールIDは、基本構造抽出ルールの識別子である。基本構造抽出ルールは、電子文書の中から、基本構造となる化合物の化合物名を抽出するための決まりごとを規定したものである。基本構造となる化合物とは、例えば、化学系や薬学系などの特許文献や学術論文などの電子文書に列挙された化合物群のうち、最も基本的な構造を有する化合物である。ルール内容は、基本構造抽出ルールの内容である。
基本構造抽出ルール600−1を例に挙げると、ルール1のルール内容『特許明細書中の化合物の中には、「特にXXXが好ましい。」で表現される化合物が存在する場合がある。』が示されている。基本構造抽出ルール情報600−1によれば、化合物分類装置100は、特許明細書中に表現された「特にXXXが好ましい。」の「XXX」は、基本構造となる化合物の化合物名となることを認識することができる。
また、基本構造抽出ルール600−5を例に挙げると、ルール5のルール内容『特許明細書中の化合物は、化合物群中で「、」で区切って分割して先頭のXXXを抽出する。』が示されている。基本構造抽出ルール600−5によれば、化合物分類装置100は、特許明細書中の化合物は、「、」で区切って表現されていることを認識することができる。
(化合物分類装置100の機能的構成例)
つぎに、化合物分類装置100の機能的構成例について説明する。図7は、化合物分類装置100の機能的構成例を示すブロック図である。図7において、化合物分類装置100は、受付部701と、検出部702と、抽出部703と、特定部704と、分類部705と、比較部706と、算出部707と、判定部708と、設定部709と、作成部710と、出力部711と、を含む構成である。受付部701〜出力部711は制御部となる機能であり、具体的には、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F308により、その機能を実現する。また、各機能部の処理結果は、例えば、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶される。
受付部701は、分類対象となる化合物群の各々の化合物の化合物名を受け付ける機能を有する。具体的には、例えば、受付部701が、図3に示したキーボード310やマウス311を用いたユーザの操作入力により、分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。また、受付部701が、例えば、分類対象となる化合物群の各々の化合物の化合物名を表すテキストデータをクライアント装置201から受信することにより、分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。
また、受付部701は、分類対象となる化合物群のうち基本構造となる化合物の指定を受け付けることにしてもよい。具体的には、例えば、受付部701が、キーボード310やマウス311を用いたユーザの操作入力により、分類対象となる化合物群のうち基本構造となる化合物の指定を受け付けることにしてもよい。また、受付部701が、例えば、分類対象となる化合物群のうち基本構造となる化合物の化合物名を表すテキストデータをクライアント装置201から受信することにより、基本構造となる化合物の指定を受け付けることにしてもよい。
なお、受け付けられた分類対象となる化合物群の各々の化合物の化合物名は、例えば、後述の図8に示す分割テーブル800に記憶される。
また、化合物分類装置100は、図6に示した基本構造抽出ルールDB240を参照して、電子文書の中から分類対象となる化合物群の各々の化合物の化合物名を検出することにしてもよい。この場合、受付部701は、電子文書の中から検出された分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。
また、化合物分類装置100は、例えば、基本構造抽出ルールDB240を参照して、分類対象となる化合物群の検出元となる電子文書の中から、分類対象となる化合物群のうち基本構造となる化合物の化合物名を検出することにしてもよい。この場合、受付部701は、電子文書の中から検出された基本構造となる化合物の化合物名を受け付けることにしてもよい。
ここで、電子文書は、例えば、特許文献や学術論文などの技術文書である。電子文書は、例えば、化合物分類装置100に入力されてRAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。一例として、特許明細書中に、『前記一般式(I)で表されるAAA類の代表例としては、###、$$$、@@@などが挙げられる。特に、$$$が好ましい。』と記載されているとする。
この場合、化合物分類装置100は、分類対象となる化合物群として、特許明細書の中から「、」で区切られている「###」、「$$$」および「@@@」を検出する。また、化合物分類装置100は、分類対象となる化合物群のうちの基本構造となる化合物の化合物名として、特許明細書の中から「$$$」を検出する。
以下の説明では、分類対象となる化合物群を「化合物群M1〜MR」と表記する場合がある(Rは2以上の自然数)。また、化合物群M1〜MRのうち任意の化合物を「化合物Mr」と表記する場合がある(r=1,2,…,R)。また、化合物Mrの化合物名を「化合物名Nr」と表記する場合がある。
検出部702は、構造式DB230を参照して、化合物群M1〜MRの各々の化合物の化合物名の中から、各々の化合物の母核となる部分構造の名称を表す文字列を検出する機能を有する。ここで、文字列とは、化合物の化合物名において連続する1以上の文字の集合である。
上述したように、置換命名法において、化合物の母核を表す文字列は、化合物の化合物名の最後方に記述される。検出部702は、例えば、この置換命名法の特徴を利用して、化合物Mrの化合物名Nrの中から、化合物Mrの母核を表す文字列を検出することができる。
具体的には、例えば、検出部702が、構造式DB230の中から母核Bkの化合物名を選択する。つぎに、検出部702が、選択した母核Bkの化合物名の文字数tを特定する。そして、検出部702が、化合物Mrの化合物名Nrの末尾からt文字の文字列と、母核Bkの化合物名とが一致するか否かを判断する。ここで、母核Bkの化合物名と一致する場合、検出部702が、化合物名Nrの末尾からt文字の文字列を、化合物Mrの母核を表す文字列として検出する。
また、他の検出手法として、例えば、検出部702が、「t=1」として、化合物Mrの化合物名Nrの末尾からt文字の文字列を検出する。そして、検出部702が、構造式DB230の中から、検出したt文字の文字列と化合物名が一致する母核Bkを検出する。ここで、母核Bkが検出された場合、検出部702が、化合物名Nrの末尾からt文字の文字列を、化合物Mrの母核を表す文字列として検出する。一方、母核Bkが検出されなかった場合、検出部702が、「t」をインクリメントして、化合物名Nrの末尾からt文字の文字列を検出することにより処理を繰り返す。なお、「t」が、構造式DB230に登録されている母核を表す化合物の化合物名の最大文字数を超えた場合、化合物Mrの母核を表す文字列は非検出となる。
なお、検出された化合物Mrの母核を表す文字列は、例えば、後述の図11に示す母核比較テーブル1100に記憶される。
抽出部703は、化合物群M1〜MRの各々の化合物の化合物名のうち各々の化合物の母核を表す文字列を除く残余の文字列の中から、各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する機能を有する。また、抽出部703は、各々の化合物の化合物名のうち各々の化合物の母核を表す文字列を除く残余の文字列の中から、各々の化合物の母核に結合する置換基の結合位置を表す文字列を抽出することにしてもよい。
ここで、置換命名法において、化合物の置換基は、例えば「結合位置−置換基」という形式で記述される。そこで、まず、抽出部703が、化合物名Nrのうち化合物Mrの母核を表す文字列を除く残余の文字列を「数字−文字列」の組に分割する。文字列については、括弧に囲まれた部分も一つの文字列とする。そして、抽出部703が、各組の文字列を先頭から順番に第1〜第m置換基の名称として抽出する。また、抽出部703が、各組の数字を先頭から順番に第1〜第m置換基の結合位置として抽出する。
また、第j置換基を表す文字列に倍数接頭辞が含まれている場合、第j置換基が結合する母核の結合位置を表す文字列は、例えば、「数字,数字−文字列」というようにハイフン(−)の前の数字がカンマ(,)で区切られた形となることがある。ここで、倍数接頭辞とは、置換基の名称の前に付いて、置換基の数を示す接頭語である。
例えば、「ジ」は、置換基が2つであることを示す倍数接頭辞である。また、「トリ」は、置換基が3つであることを示す倍数接頭辞である。この場合、抽出部703は、化合物名Nrのうち母核を表す文字列を除く残余の文字列を、例えば「数字,数字−文字列」を一組として分割する。すなわち、抽出部703が、第j置換基が結合する母核の結合位置を表す文字列として「数字,数字−」を抽出する。
また、抽出部703は、置換基を表す文字列に倍数接頭辞が含まれている場合、置換基が結合する母核の結合位置を表す文字列と、置換基を表す文字列とを展開することにしてもよい。ここで、展開とは、倍数接頭辞を用いて集約されていた複数の置換基を各々の置換基に分解することである。
具体的には、例えば、抽出部703が、置換基が結合する母核の結合位置を表す文字列に含まれる「数字,」の「,」を「−」に変換する。そして、抽出部703が、「,」が「−」に変換された変換後の文字列を「数字−」ごとに分割するとともに、分割後の「数字−」のうち2番目以降の「数字−」の先頭に「−」を追加する。
この結果、1番目の「数字−」が、1番目の置換基が結合する母核の結合位置となる。また、2番目以降の「−数字−」が、それぞれ2番目以降の置換基が結合する母核の結合位置となる。また、抽出部703が、置換基を表す文字列から倍数接頭辞を削除し、削除後の文字列を「−−」の間(連続するハイフンとハイフンとの間)に挿入する。すなわち、置換基を表す文字列は、展開前の置換基を表す文字列から倍数接頭辞を削除した文字列となる。なお、展開例については、図9および図10を用いて後述する。
なお、抽出された化合物Mrの置換基を表す文字列は、例えば、後述の図17に示す置換基比較テーブル1700に記憶される。また、抽出された化合物Mrの母核に結合する各置換基の結合位置を表す文字列は、例えば、母核比較テーブル1100および置換基比較テーブル1700に記憶される。
特定部704は、構造式DB230を参照して、検出された各々の化合物の母核を表す文字列に対応する母核の構造の種類を特定する機能を有する。具体的には、例えば、特定部704が、構造式DB230内の構造式情報510−1〜510−Kの中から、化合物Mrの母核を表す文字列が化合物名フィールドに設定されている構造式情報510−kを特定する。そして、特定部704が、構造式情報510−kの化合物の種類フィールドに設定されている化合物の種類を特定する。これにより、化合物Mrの母核を表す化合物の構造の種類を特定することができる。なお、特定された化合物Mrの母核の構造の種類は、例えば、母核比較テーブル1100に記憶される。
また、特定部704は、構造式DB230を参照して、検出された各々の化合物の母核を表す文字列に対応する母核の構造式に含まれる特定の元素の元素数を特定する機能を有する。ここで、特定の元素は、例えば、炭素、窒素、酸素、硫黄、燐、ハロゲンなどである。なお、特定の元素とする元素の元素記号は、例えば、ROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
以下の説明では、特定の元素として「炭素」を例に挙げて説明する。具体的には、例えば、特定部704が、構造式DB230内の構造式情報510−1〜510−Kの中から、化合物Mrの母核を表す文字列が化合物名フィールドに設定されている構造式情報510−kを特定する。つぎに、特定部704が、構造式情報510−kの構造式フィールドに設定されている構造式を特定する。そして、特定部704が、特定した構造式に含まれる炭素の元素数を特定する。これにより、化合物Mrの母核を表す化合物の構造式に含まれる炭素数を特定することができる。なお、特定された化合物Mrの母核の炭素数は、例えば、母核比較テーブル1100に記憶される。
また、特定部704は、構造式DB230を参照して、抽出された各々の化合物の置換基を表す文字列に対応する置換基の構造式に含まれる炭素数を特定することにしてもよい。具体的には、例えば、特定部704が、構造式DB230内の構造式情報520−1〜520−Pの中から、化合物Mrの第j置換基を表す文字列が化合物名フィールドに設定されている構造式情報520−pを特定する。つぎに、特定部704が、構造式情報520−pの構造式フィールドに設定されている構造式を特定する。そして、特定部704が、特定した構造式に含まれる炭素の元素数を特定する。これにより、化合物Mrの第j置換基母核を表す化合物の構造式に含まれる炭素数を特定することができる。なお、特定された化合物Mrの第j置換基の炭素数は、例えば、置換基比較テーブル1700に記憶される。
特定部704は、抽出された抽出結果に基づいて、化合物群M1〜MRの各々の化合物の置換基の数を特定することにしてもよい。例えば、化合物Mrの母核に結合する置換基として第1〜第m置換基が抽出された場合、特定部704は、化合物Mrの置換基数「m」を特定する。なお、特定された化合物Mrの置換基数は、例えば、母核比較テーブル1100に記憶される。
分類部705は、化合物群M1〜MRを分類する機能を有する。具体的には、例えば、分類部705が、共通する特徴を有する化合物同士をまとめた集合ごとに化合物群M1〜MRを分類することにしてもよい。
分類部705は、検出された各々の化合物の母核を表す文字列に基づいて、化合物群M1〜MRを分類する機能を有する。具体的には、例えば、分類部705が、母核を表す文字列が同一の化合物の集合ごとに化合物群M1〜MRを分類する。これにより、化合物の基礎となる部分構造を表す母核が同一の化合物同士を分類することができる。
以下、母核を表す文字列が同一の化合物群を、さらに細かく分類する分類部705の具体的な処理内容を表す(分類例1)〜(分類例6)について説明する。
(分類例1)
分類部705は、さらに、抽出された各々の化合物の置換基を表す文字列に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ置換基を表す文字列が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ化合物の系統や命名に使う部分構造を表す置換基が同一の化合物同士を分類することができる。なお、文字列の比較対象となる置換基は、例えば、各々の化合物の第j置換基である。
(分類例2)
分類部705は、さらに、特定された各々の化合物の置換基の数に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ置換基の数が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基数が同一の化合物同士を分類することができる。
また、分類部705が、母核を表す文字列が同一かつ置換基の数の差が所定数α以内の化合物の集合ごとに、化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基数の差が所定数α以内の化合物同士を分類することができる。所定数αは、例えば、「α=1」や「α=2」などに設定される。なお、所定数αは、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されていてもよい。
(分類例3)
分類部705は、さらに、各々の化合物の置換基の結合位置を表す文字列に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ母核に結合する各化合物の置換基の結合位置を表す文字列が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ各置換基の結合位置が同一の化合物同士を分類することができる。
(分類例4)
分類部705は、さらに、特定された各々の化合物の母核の構造の種類に基づいて、化合物群M1〜MRを分類することにしてもよい。ここで、母核の構造の種類とは、母核を表す化合物の分子構造の種類を表すものである。母核の構造の種類としては、例えば、直鎖炭化水素、芳香族炭化水素、脂環式炭化水素などがある。
具体的には、例えば、分類部705が、母核を表す文字列が同一の化合物の第1集合と、母核を表す文字列が異なりかつ母核の構造の種類が同一の化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の構造の種類が同一の化合物同士を分類することができる。なお、母核が同一の化合物同士は、母核の種類も同一である。
(分類例5)
分類部705は、さらに、特定された各々の化合物の母核の構造式に含まれる炭素数に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一の化合物の第1集合と、母核を表す文字列が異なりかつ母核の構造式に含まれる炭素数が同一の化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の炭素数が同一の化合物同士を分類することができる。なお、母核が同一の化合物同士は、炭素数も同一である。
また、分類部705が、母核を表す文字列が同一の化合物の第1集合と、母核を表す文字列が異なりかつ母核の構造式に含まれる炭素数の差が所定数β以内の化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の炭素数の差が所定数β以内の化合物同士を分類することができる。所定数βは、例えば、「β=3」や「β=5」などに設定される。なお、所定数βは、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されていてもよい。
(分類例6)
分類部705は、さらに、特定された各々の化合物の置換基の構造式に含まれる炭素数に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ置換基の構造式に含まれる炭素数が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基の炭素数が同一の化合物同士を分類することができる。なお、炭素数の比較対象となる置換基は、例えば、各々の化合物の第j置換基である。
また、分類部705が、母核を表す文字列が同一かつ置換基の構造式に含まれる炭素数の差が所定数γ以内の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基の炭素数の差が所定数γ以内の化合物同士を分類することができる。所定数γは、例えば、「γ=3」や「γ=5」などに設定される。なお、所定数γは、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されていてもよい。
また、分類部705は、上述した(分類例1)〜(分類例6)のうちの2以上の分類例を組み合わせて、化合物群M1〜MRを分類することにしてもよい。例えば、(分類例1)および(分類例2)を組み合わせることにより、分類部705が、母核を表す文字列が同一かつ置換基を表す文字列が同一かつ置換基数が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。
これにより、化合物の母核が同一かつ置換基が同一かつ置換基数が同一の化合物同士を分類することができる。また、化合物の母核が同一かつ置換基(少なくともいずれかの置換基)が同一かつ置換基数が異なる化合物同士を分類することができる。また、化合物の母核が同一かつ置換基数が同一かつ置換基が異なる化合物同士を分類することができる。
なお、上述した説明では、母核を表す文字列が同一の化合物群をさらに分類する場合について説明したが、これに限らない。例えば、分類部705は、母核を表す文字列、母核の構造の種類、母核の炭素数、置換基を表す文字列、置換基数、置換基の結合位置、置換基の炭素数の少なくともいずれかが共通する化合物同士をまとめた集合ごとに化合物群M1〜MRを分類することにしてもよい。
つぎに、化合物群M1〜MRのうち特定の化合物と、特定の化合物と共通の特徴を有する他の化合物とをまとめた集合に化合物群M1〜MRを分類する場合について説明する。ここで、特定の化合物とは、例えば、化合物群M1〜MRのうち基本構造となる化合物である。基本構造となる化合物は、例えば、上記受付部701の受付結果から特定される。
比較部706は、化合物群M1〜MRのうち特定の化合物の母核を表す文字列と、化合物群M1〜MRのうち特定の化合物とは異なる他の化合物の母核を表す文字列とを比較する機能を有する。この場合、分類部705は、比較された比較結果に基づいて、化合物群M1〜MRを分類することにしてもよい。
具体的には、例えば、分類部705が、特定の化合物と母核を表す文字列が同一の化合物の集合と、特定の化合物と母核を表す文字列が異なる化合物の集合とに化合物群M1〜MRを分類する。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物同士を分類することができる。
以下、特定の化合物と母核を表す文字列が同一の化合物群をさらに分類する分類部705の具体的な処理内容を表す(分類例7)〜(分類例12)について説明する。
(分類例7)
比較部706は、さらに、特定の化合物の置換基を表す文字列と、他の化合物の置換基を表す文字列とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基を表す文字列が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基が同一の化合物同士を分類することができる。
なお、文字列の比較対象となる置換基は、例えば、特定の化合物の第j置換基と、他の化合物の第j置換基である。また、特定の化合物の第j置換基が複合置換基の場合は、比較部706が、特定の化合物の第j置換基を表す文字列と、他の化合物の第1〜第m置換基のうち複合置換基となる置換基を表す文字列とを比較することにしてもよい。この際、他の化合物の第1〜第m置換基のうち複合置換基となる置換基が複数存在する場合は、他の化合物の複合置換基となる複数の置換基のうち、特定の化合物の第j置換基を表す文字列との類似度が最大の置換基を比較対象とすることにしてもよい。
また、分類部705が、例えば、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基が異なる化合物同士を分類することができる。
(分類例8)
比較部706は、さらに、特定の化合物の置換基数と、他の化合物の置換基数とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基数が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基数が同一の化合物同士を分類することができる。
また、分類部705が、例えば、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基数が異なる化合物同士を分類することができる。
(分類例9)
比較部706は、さらに、特定の化合物の置換基の結合位置を表す文字列と、他の化合物の置換基の結合位置を表す文字列とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基の結合位置が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の結合位置が同一の化合物同士を分類することができる。
また、分類部705が、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の結合位置が異なる化合物同士を分類することができる。
(分類例10)
比較部706は、さらに、特定の化合物の母核の構造の種類と、他の化合物の母核の構造の種類とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一の化合物の第1集合と、特定の化合物と母核を表す文字列が異なり、かつ、特定の化合物と母核の構造の種類が同一の第2集合とに化合物群M1〜MRを分類することにしてもよい。
これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物同士を分類するとともに、基本構造となる化合物と母核は異なるが母核の構造の種類が基本構造となる化合物と同一の化合物同士を分類することができる。
(分類例11)
比較部706は、さらに、特定の化合物の母核の構造式に含まれる炭素数と、他の化合物の母核の構造式に含まれる炭素数とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一の化合物の第1集合と、特定の化合物と母核を表す文字列が異なり、かつ、特定の化合物と母核の炭素数が同一の第2集合とに化合物群M1〜MRを分類することにしてもよい。
これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物同士を分類するとともに、基本構造となる化合物と母核は異なるが母核の炭素数が基本構造となる化合物と同一の化合物同士を分類することができる。
(分類例12)
比較部706は、さらに、特定の化合物の置換基の構造式に含まれる炭素数と、他の化合物の置換基の構造式に含まれる炭素数とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基の炭素数が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の炭素数が同一の化合物同士を分類することができる。
また、分類部705が、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の炭素数が異なる化合物同士を分類することができる。
算出部707は、比較された比較結果に基づいて、特定の化合物と他の化合物との類似度合いを表す類似度を算出することにしてもよい。具体的には、例えば、算出部707が、ある項目について、他の化合物が特定の化合物と共通の項目値を有する場合、他の化合物の類似度に所定値を加算することにより、他の化合物の類似度を算出することにしてもよい。
ここで、項目とは、例えば、母核を表す文字列、置換基を表す文字列、置換基数、置換基の結合位置、母核の構造の種類、母核の炭素数、置換基の炭素数などである。また、他の化合物の類似度の初期値は、例えば「0」である。所定値は、全項目で共通の値であってもよく、また、項目ごとに設定される値であってもよい。
より具体的には、例えば、算出部707が、他の化合物の母核を表す文字列が特定の化合物と同一の場合、他の化合物の類似度に「3」を加算し、他の化合物の母核の構造の種類が特定の化合物と同一の場合、他の化合物の類似度に「1」を加算する。所定値は、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
判定部708は、抽出された化合物Mrの第j置換基を表す文字列に基づいて、化合物Mrの第j置換基が別の置換基を含む複合置換基か否かを判定する機能を有する。上述したように、有機化合物の化合物名において、複合置換基を表す文字列は、例えば、括弧やかぎ括弧で囲まれている。このため、判定部708が、例えば、化合物Mrの第j置換基を表す文字列が、括弧やかぎ括弧で囲まれた文字列か否かを判定することにより、第j置換基が複合置換基か否かを判定することができる。
設定部709は、化合物Mrの第j置換基が複合置換基であると判定された場合、化合物Mrの第j置換基を表す文字列を、分類対象となる化合物の化合物名に設定する機能を有する。この場合、検出部702は、構造式DB230を参照して、設定された分類対象となる化合物の化合物名の中から、該化合物の母核となる部分構造の名称を表す文字列を検出することにしてもよい。
これにより、別の置換基を含む複合置換基を新たな分類対象となる化合物として、上記抽出部703、特定部704および分類部705等の一連の処理が再帰的に実行され、複合置換基を表す文字列を分類することができる。
ただし、第2階層以降、すなわち、複合置換基を表す文字列を分類対象とする場合、検出部702は、例えば、構造式DB230の中から置換基Cpの化合物名を選択する。そして、検出部702が、選択した置換基Cpの化合物名の文字数tを特定する。つぎに、検出部702が、新たな分類対象となる化合物の化合物名の末尾からt文字の文字列と、置換基Cpの化合物名とが一致するか否かを判断する。ここで、置換基Cpの化合物名と一致する場合、検出部702が、新たな分類対象となる化合物の化合物名の末尾からt文字の文字列を、該化合物の母核を表す文字列として検出する。
また、分類部705は、化合物群M1〜MRの母核比較テーブルを作成することにしてもよい。母核比較テーブルは、各化合物Mrの母核の特徴を比較するための表データである。具体的には、例えば、分類部705が、分類した集合ごとに、該集合に含まれる各化合物Mrの母核の化合物名、置換基数、置換基の結合位置、母核の構造の種類、母核の炭素数などを示す母核比較テーブルを作成することにしてもよい。
この際、分類部705が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした母核比較テーブルを作成することにしてもよい。なお、母核比較テーブルの具体例については、図11〜図16を用いて後述する。
また、分類部705は、化合物群M1〜MRの置換基比較テーブルを作成することにしてもよい。置換基比較テーブルは、各化合物Mrの置換基の特徴を比較するための表データである。具体的には、例えば、分類部705が、分類した集合ごとに、該集合に含まれる各化合物Mrの第j置換基の化合物名、結合位置、炭素数などを示す置換基比較テーブルを作成することにしてもよい。
この際、分類部705が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした置換基比較テーブルを作成することにしてもよい。なお、置換基比較テーブルの具体例については、図17〜図21を用いて後述する。
作成部710は、化合物群M1〜MRの比較リストを作成する機能を有する。比較リストとは、各化合物Mrの特徴を比較するための表データである。具体的には、例えば、作成部710が、母核比較テーブルおよび置換基比較テーブルを参照して、化合物群M1〜MRの比較リストを作成することにしてもよい。
この際、作成部710が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、分類された各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした比較リストを作成することにしてもよい。なお、比較リストの具体例については、図22および図23を用いて後述する。
出力部711は、分類された分類結果を出力する機能を有する。具体的には、例えば、出力部711が、作成された母核比較テーブルの記憶内容や置換基比較テーブルの記憶内容を出力することにしてもよい。また、出力部711は、作成された比較リストを出力することにしてもよい。
出力部711の出力形式としては、例えば、ディスプレイ309への表示、プリンタ(不図示)への印刷出力、I/F308による外部のコンピュータへの送信がある。外部のコンピュータは、例えば、化合物群M1〜MRの各々の化合物の化合物名を表すテキストデータの送信元のクライアント装置201である。また、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶することとしてもよい。
(分割テーブル800の記憶内容の変遷例)
つぎに、図8〜図10を用いて、分割テーブル800の記憶内容の変遷例について説明する。分割テーブル800には、上記検出部702の検出結果および抽出部703の抽出結果が反映される。この結果、分割テーブル800によれば、第i階層の母核を表す文字列、第j置換基を表す文字列および結合位置を判別することができる。
図8〜図10は、分割テーブル800の記憶内容の変遷例を示す説明図である。図8において、分割テーブル800は、化合物IDおよび化合物名のフィールドを有する。各フィールドに情報を設定することで、各化合物Mrの化合物名情報がレコードとして記憶される。ここで、化合物IDは、化合物Mrの識別子である。化合物名は、化合物Mrの名称である。
図8の(8−1)において、化合物M1〜M10の化合物名N1〜N10が各フィールドに設定された結果、化合物名情報800−1〜800−10がレコードとして記憶されている。化合物M1〜M10の化合物名N1〜N10は、受付部701により、分類対象となる化合物の化合物名として受け付けられたものである。
図8の(8−2)において、検出部702により、各化合物名N1〜N10の中から各化合物M1〜M10の第1階層の母核を表す文字列が検出された結果、各化合物名N1〜N10に第1階層の区切り記号が挿入されている。ここで、第i階層の区切り記号とは、第i階層の母核を表す文字列の直前に挿入される記号であり、例えば「/i/」である。第i階層の区切り記号によれば、化合物名Nrの中から第i階層の母核を表す文字列を識別することができる。
例えば、化合物M1の化合物名N1「2−(3−メチル−4−ヒドロキシフェニル)プロパン」の中から、化合物M1の第1階層の母核を表す文字列「プロパン」が検出された結果、「プロパン」の直前に第1階層の区切り記号「/1/」が挿入されている。
なお、化合物Mrの第i階層の母核を表す文字列が非検出であった場合、例えば、化合物Mrの化合物名Nrと関連付けて、第i階層の母核を表す文字列が非検出であったことを示す不明フラグがRAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶される。
図9の(8−3)において、検出部702により、各化合物名N1〜N10の中から各化合物M1〜M10の第2階層の母核を表す文字列が検出された結果、各化合物名N1〜N10に第2階層の区切り記号が挿入されている。
例えば、化合物M1の化合物名N1「2−(3−メチル−4−ヒドロキシフェニル)プロパン」の中から化合物M1の第2階層の母核を表す文字列「フェニル」が検出された結果、化合物名情報800−1の化合物名の「フェニル」の直前に第2階層の区切り記号「/2/」が挿入されている。
図9の(8−4)において、抽出部703により、化合物名M4,M7のうち倍数接頭辞を含む置換基を表す文字列の「数字,数字−」の「,」が「−」に変換され、「数字,数字−」の2番目の数字の直前に「−」が挿入されている。例えば、化合物名情報800−4の倍数接頭辞を含む化合物名の「2,3−」の「,」が「−」に変換され、「2,3−」の2番目の数字「3」の先頭に「−」が挿入されている。
図10の(8−5)において、抽出部703により、化合物名M4,M7の倍数接頭辞を含む置換基を表す文字列から倍数接頭辞が削除され、倍数接頭辞が削除された削除後の文字列が「−−」の間に挿入されている。例えば、化合物名情報800−4の化合物名M4の倍数接頭辞を含む置換基を表す文字列「ジメチル」から倍数接頭辞「ジ」が削除され、倍数接頭辞が削除された削除後の文字列「メチル」が「−−」の間に挿入されている。これにより、倍数接頭辞を含む置換基の結合位置を分割することができる。
図10の(8−6)において、抽出部703により、各化合物名N1〜N10の中から各化合物M1〜M10の第1および第2階層の置換基を表す文字列が抽出された結果、各化合物名N1〜N10に区切り記号が挿入されている。ここで、区切り記号とは、第i階層の置換基を表す文字列の直後に挿入される記号であり、例えば「//」である。区切り記号によれば、化合物名Nrの中から第i階層の置換基を表す文字列を識別することができる。
例えば、化合物M1の化合物名N1「2−(3−メチル−4−ヒドロキシフェニル)プロパン」の中から、化合物M1の第2階層の第1置換基を表す文字列「メチル」が検出された結果、「メチル」の直後に区切り記号「//」が挿入されている。また、化合物M1の第2階層の第2置換基を表す文字列「ヒドロキシ」が検出された結果、「ヒドロキシ」の直後に区切り記号「//」が挿入されている。
なお、化合物Mrの第i階層の第j置換基を表す文字列が非抽出であった場合、例えば、化合物Mrの化合物名Nrと関連付けて、第i階層の第j置換基を表す文字列が非抽出であったことを示す不明フラグがRAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶される。
分割テーブル800によれば、各化合物M1〜M10の第1および第2階層の母核を表す文字列、第1および第2階層の第j置換基を表す文字列および結合位置を判別することができる。ただし、各階層の第1置換基の直前の「数字−」は、母核に結合する第1置換基の結合位置である。また、「−数字−」は、母核に結合する第2以降の置換基の結合位置である。
例えば、化合物名情報800−1によれば、化合物M1の第1階層の母核を表す文字列「プロパン」および第1階層の複合置換基「3−メチル−4−ヒドロキシフェニル」の結合位置「2」を判別することができる。また、化合物M1の第2階層の母核を表す文字列「フェニル」、第2階層の第1置換基を表す文字列「メチル」および結合位置「3」、第2階層の第2置換基を表す文字列「ヒドロキシ」および結合位置「4」を判別することができる。
(母核比較テーブルの記憶内容の変遷例)
つぎに、図11〜図16を用いて、図10の(8−6)に示した分割テーブル800の記憶内容に基づく母核比較テーブルの記憶内容の変遷例について説明する。以下の説明では、化合物M1〜M10のうち化合物M1が基本構造となる化合物として指定された場合を例に挙げて説明する。
図11〜図16は、母核比較テーブルの記憶内容の変遷例を示す説明図である。図11において、母核比較テーブル1100は、化合物ID、階層名、母核の化合物名、同一フラグ、結合位置、同一フラグ、置換基数、同一フラグ、母核炭素数、同一フラグ、種類および同一フラグのフィールドを有する。各フィールドに情報を設定することで、化合物M1〜M10ごとの母核比較情報がレコードとして記憶される。
ここで、化合物IDは、化合物Mrの識別子である。階層名は、第i階層の名称である。例えば、第1階層の名称は「第1」である。母核の化合物名は、化合物Mrの第i階層の母核を表す化合物の名称である。同一フラグは、母核の化合物名が、基本構造となる化合物と同一か否かを示すフラグである。同一フラグは、初期状態では「0」であり、基本構造となる化合物と同一の場合に「1」が設定される。
結合位置は、化合物Mrの第i階層の母核に結合する第1〜第m置換基の結合位置である。同一フラグは、母核に結合する第1〜第m置換基の結合位置が、基本構造となる化合物と同一か否かを示すフラグである。置換基数は、化合物Mrの第i階層の母核に結合する置換基の数である。同一フラグは、母核に結合する置換基の数が、基本構造となる化合物と同一か否かを示すフラグである。
母核炭素数は、化合物Mrの第i階層の母核の構造式に含まれる炭素数である。同一フラグは、母核の構造式に含まれる炭素数が、基本構造となる化合物と同一か否かを示すフラグである。種類は、化合物Mrの第i階層の母核の構造の種類である。同一フラグは、母核の構造の種類が、基本構造となる化合物と同一か否かを示すフラグである。
図11において、分類部705により、図10の(8−6)に示した分割テーブル800を参照して、化合物M1〜M10の第1階層の母核の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第1階層の母核に結合する第1階層の各置換基の結合位置が設定されている。
図12において、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の母核に結合する置換基の置換基数が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の母核の構造式に含まれる炭素数が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の母核の構造の種類が設定されている。
図13において、分類部705により、比較部706によって比較された比較結果に基づいて、第1階層の母核の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核に結合する各置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。
また、分類部705により、比較された比較結果に基づいて、第1階層の母核に結合する置換基数が、基本構造となる化合物M1と同一となる化合物M1〜M5,M8〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核の構造の種類が、基本構造となる化合物M1と同一となる化合物M1〜M9の同一フラグに「1」が設定されている。
図14において、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核に結合する第2階層の各置換基の結合位置が設定されている。
図15において、分類部705により、特定部704によって特定された化合物M1〜M10の第2階層の母核に結合する置換基の置換基数が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第2階層の母核の構造式に含まれる炭素数が設定されている。
図16において、分類部705により、比較部706によって比較された比較結果に基づいて、第2階層の母核の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する各置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1,M6〜M10の同一フラグに「1」が設定されている。
また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する置換基数が、基本構造となる化合物M1と同一となる化合物M1,M2,M6〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M10の同一フラグに「1」が設定されている。
ここで、分類部705は、母核比較テーブル1100の記憶内容に基づいて、分類対象となる化合物M1〜M10を分類することにしてもよい。ここでは、第1階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類が、基本構造となる化合物M1と同一となる化合物M1〜M5と、それ以外の化合物M6〜M10とに分類されている。
(置換基比較テーブルの記憶内容の変遷例)
つぎに、図17〜図21を用いて、図10の(8−6)に示した分割テーブル800の記憶内容に基づく置換基比較テーブルの記憶内容の変遷例について説明する。
図17〜図21は、置換基比較テーブルの記憶内容の変遷例を示す説明図である。図17において、置換基比較テーブル1700は、化合物ID、階層名、第j置換基の化合物名、同一フラグ、結合位置、同一フラグ、置換基炭素数および同一フラグのフィールドを有する。各フィールドに情報を設定することで、化合物M1〜M10ごとの置換基比較情報がレコードとして記憶される。
ここで、化合物IDは、化合物Mrの識別子である。階層名は、第i階層の名称である。第j置換基の化合物名は、化合物Mrの第i階層の第j置換基を表す化合物の名称である。同一フラグは、第j置換基の化合物名が、基本構造となる化合物と同一か否かを示すフラグである。
結合位置は、化合物Mrの第i階層の母核に結合する第j置換基の結合位置である。同一フラグは、第j置換基の結合位置が、基本構造となる化合物と同一か否かを示すフラグである。置換基炭素数は、化合物Mrの第i階層の第j置換基の構造式に含まれる炭素数である。同一フラグは、第j置換基の構造式に含まれる炭素数が、基本構造となる化合物と同一か否かを示すフラグである。
なお、各同一フラグの判定は、基本構造となる化合物M1の第j置換基と各化合物M2〜M10の第j置換基とを比較することにより行われる。
図17において、分類部705により、図10の(8−6)に示した分割テーブル800を参照して、化合物M1〜M10の第1階層の第1置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第1階層の母核に結合する第1置換基の結合位置が設定されている。ただし、第j置換基が複合置換基の場合、第j置換基の化合物名フィールドに「複」が設定される。
また、分類部705により、化合物M6,M7の第1階層の第2置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M6,M7の第1階層の母核に結合する第2置換基の結合位置が設定されている。また、分類部705により、化合物M7の第1階層の第3置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M7の第1階層の母核に結合する第3置換基の結合位置が設定されている。
図18において、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の第1置換基の構造式に含まれる炭素数が設定されている。また、分類部705により、特定された化合物M6,M7の第1階層の第2置換基の構造式に含まれる炭素数が設定されている。また、分類部705により、特定された化合物M7の第1階層の第3置換基の構造式に含まれる炭素数が設定されている。
図19において、分類部705により、比較部706によって比較された比較結果に基づいて、第1階層の第1置換基の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M5,M7〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核に結合する第1置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の第1置換基の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1,M2,M7〜M10の同一フラグに「1」が設定されている。
図20において、分類部705により、図10の(8−6)に示した分割テーブル800を参照して、化合物M1〜M10の第2階層の第1置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核に結合する第1置換基の結合位置が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第2階層の第1置換基の構造式に含まれる炭素数が設定されている。
また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の第2置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核に結合する第2置換基の結合位置が設定されている。また、分類部705により、特定された化合物M1〜M10の第2階層の第2置換基の構造式に含まれる炭素数が設定されている。
また、分類部705により、分割テーブル800を参照して、化合物M3〜M5の第2階層の第3置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M3〜M5の第2階層の母核に結合する第3置換基の結合位置が設定されている。また、分類部705により、特定された化合物M3〜M5の第2階層の第3置換基の構造式に含まれる炭素数が設定されている。
また、分類部705により、分割テーブル800を参照して、化合物M4の第2階層の第4置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M4の第2階層の母核に結合する第4置換基の結合位置が設定されている。また、分類部705により、特定された化合物M4の第2階層の第4置換基の構造式に含まれる炭素数が設定されている。
図21において、分類部705により、比較部706によって比較された比較結果に基づいて、第2階層の第1置換基の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M4,M6〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する第1置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1,M3,M5〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の第1置換基の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M10の同一フラグに「1」が設定されている。
また、分類部705により、比較された比較結果に基づいて、第2階層の第2置換基の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M3,M5〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する第2置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1〜M3,M5〜M10の同一フラグに「1」が設定されている。
また、分類部705により、比較された比較結果に基づいて、第2階層の第2置換基の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M3,M5〜M10の同一フラグに「1」が設定されている。
また、母核比較テーブル1100および置換基比較テーブル1700内のフィールドに設定する情報が不明な場合は、該フィールドの情報が不明であることを示す情報、例えば、「不明」という文字列が該フィールドに設定されることにしてもよい。具体的には、例えば、化合物Mrの第i階層の母核を表す文字列が非検出であったことを示す不明フラグが記憶装置に記憶されている場合、母核比較テーブル1100内の化合物Mrの第1階層の母核の化合物名フィールドに「不明」が設定される。
(比較リストの具体例)
つぎに、図22および図23を用いて、分類対象となる化合物M1〜M10の比較リストの具体例について説明する。比較リストは、例えば、化合物分類装置100のディスプレイ309やクライアント装置201のディスプレイ(不図示)に表示される。
図22および図23は、比較リストの具体例を示す説明図である。図22および図23において、比較リスト2200は、分類対象となる化合物M1〜M10の特徴を比較するための表データである。比較リスト2200は、作成部710により、図13および図16に示した母核比較テーブル1100と、図19および図21に示した置換基比較テーブル1700とをマージすることにより作成されたものである。
図22において、比較リスト2200には、各化合物M1〜M10の第1階層の母核の化合物名、母核に結合する各置換基の結合位置、母核に結合する置換基数、母核の炭素数、母核の構造の種類が示されている。ここで、分類対象となる化合物M1〜M10は、第1階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類が、基本構造となる化合物M1と同一となる化合物M1〜M5と、それ以外の化合物M6〜M10とに分類されている。
図23において、比較リスト2200には、各化合物M1〜M10の第2階層の母核の化合物名、母核に結合する各置換基の結合位置、母核に結合する置換基数、母核の炭素数、第1〜第4置換基の化合物名、母核に結合する第1〜第4置換基の結合位置、第1〜第4置換基の炭素数が示されている。また、比較リスト2200には、各化合物M1〜M10の第1階層の第2,第3置換基の化合物名、母核に結合する第2,第3置換基の結合位置、第2,第3置換基の炭素数が示されている。
また、比較リスト2200において、化合物M1〜M10は、基本構造となる化合物M1との類似度が高い順にソートされている。具体的には、第1階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類のうち、化合物M1と同一となる項目数が多い順に化合物M2〜M10がソートされている。また、各項目の項目値のうち、基本構造となる化合物M1と同一となる項目値がハイライト表示されている。
比較リスト2200によれば、分類対象となる化合物M1〜M10の特徴を比較することができる。また、第1階層の母核の化合物名が同一の化合物群が分類されて表示されるため、化合物の基礎となる母核が同一の化合物同士の類似性や差分を判別し易い。また、基本構造となる化合物M1と同一となる項目値がハイライト表示されているため、化合物M1と各化合物M2〜M10との項目間の類似性や差分を判別し易い。
また、比較リスト2200によれば、基本構造となる化合物M1の第1階層の母核は「プロパン」であるが、第1階層の母核を「エタン」や「ペンタン」としても、化合物M1の代わりに用いることができることがわかる。また、各化合物M1〜M10は、疎水性のフェニル基と親水性のヒドロキシ基とを共通して有していることがわかる。また、図示は省略するが、設定する情報が不明なフィールドには「不明」という文字列が設定されるため、例えば、分類対象となる化合物群に含まれる未知の化合物の存在や、化合物名の誤記等に気付き易くなる。
(比較リストの加工例)
つぎに、図22および図23に示した比較リスト2200の加工例について説明する。図24は、比較リストの加工例を示す説明図である。図24において、比較リスト2400は、図22および図23に示した比較リスト2200を加工したものである。
比較リスト2400において、母核とは、各化合物M1〜M10の第1階層の母核の化合物名と、母核に結合する第1置換基の結合位置を示すものである。化合物M6,M7については、第1階層の母核に結合する第2,第3置換基の結合位置も示されている。また、種類とは、第1階層の母核の構造の種類を示すものである。
母核部分の基本構造との差分とは、基本構造となる化合物M1の第1階層の母核との差分を示すものである。具体的には、各化合物M1〜M10の第1階層の母核の特徴が示されている。化合物M1との差分がない化合物M2〜M5については、化合物M1と同じ内容が示されている。
第2階層の母核部分の基本構造との差分とは、基本構造となる化合物M1の第2階層の母核との差分を示すものである。具体的には、各化合物M1〜M10の第2階層の母核の特徴が示されている。第2階層の置換基部分の基本構造との差分とは、基本構造となる化合物M1の第2階層の置換基との差分を示すものである。また、比較リスト2400の各項目の項目値のうち、基本構造となる化合物M1と同一となる項目値がハイライト表示されている。
比較リスト2400によれば、母核の化合物名と母核に結合する各置換基の結合位置などの関連する項目が一項目にまとめて表示されるため、図22および図23に示した比較リスト2200に比べて、分類対象となる化合物M1〜M10の特徴を比較し易くなる。
(化合物分類装置100の化合物分類処理手順)
つぎに、化合物分類装置100の化合物分類処理手順について説明する。図25は、化合物分類装置100の化合物分類処理手順の一例を示すフローチャートである。図25のフローチャートにおいて、まず、化合物分類装置100は、分類対象となる化合物群M1〜MRの化合物名群N1〜NRを受け付けたか否かを判断する(ステップS2501)。
ここで、化合物分類装置100は、化合物群M1〜MRの化合物名群N1〜NRを受け付けるのを待つ(ステップS2501:No)。そして、化合物分類装置100は、化合物群M1〜MRの化合物名群N1〜NRを受け付けた場合(ステップS2501:Yes)、化合物名群N1〜NRを分割テーブル800に登録する(ステップS2502)。なお、以下の説明では、化合物群M1〜MRのうち、化合物M1を基本構造となる化合物とする。
つぎに、化合物分類装置100は、構造解析ルールDB220を読み込む(ステップS2503)。そして、化合物分類装置100は、化合物Mrの「r」を「r=1」として(ステップS2504)、分割テーブル800の中から化合物Mrの化合物名Nrを選択する(ステップS2505)。
つぎに、化合物分類装置100は、選択した化合物名Nrの化合物名分割処理を実行する(ステップS2506)。そして、化合物分類装置100は、化合物Mrの「r」をインクリメントして(ステップS2507)、「r」が「R」より大きくなったか否かを判断する(ステップS2508)。
ここで、「r」が「R」以下の場合(ステップS2508:No)、ステップS2505に戻る。一方、「r」が「R」より大きくなった場合(ステップS2508:Yes)、化合物分類装置100は、母核比較テーブル1100を作成する母核比較テーブル作成処理を実行する(ステップS2509)。
つぎに、化合物分類装置100は、置換基比較テーブル1700を作成する置換基比較テーブル作成処理を実行する(ステップS2510)。そして、化合物分類装置100は、母核比較テーブル1100内の各項目の同一フラグに基づいて、化合物群M1〜MRを分類する(ステップS2511)。
つぎに、化合物分類装置100は、分類した分類結果に基づいて、作成した母核比較テーブル1100と置換基比較テーブル1700とをマージして比較リストを作成する(ステップS2512)。そして、化合物分類装置100は、作成した比較リストを出力して(ステップS2513)、本フローチャートによる一連の処理を終了する。
これにより、分類対象となる化合物M1〜MRの特徴を比較するための比較リストを出力することができる。なお、ステップS2513において、化合物分類装置100は、母核比較テーブル1100の記憶内容と置換基比較テーブル1700の記憶内容とを出力することにしてもよい。
<化合物名分割処理の具体的処理手順>
つぎに、図25のステップS2506に示した化合物名分割処理の具体的な処理手順について説明する。図26は、化合物名分割処理の具体的処理手順の一例を示すフローチャートである。
図26のフローチャートにおいて、まず、化合物分類装置100は、化合物名Nrの第i階層の母核分割処理を実行する(ステップS2601)。なお、第i階層の「i」は初期状態では「i=1」である。
つぎに、化合物分類装置100は、第j置換基の「j」を「j=1」として(ステップS2602)、化合物Mrの第i階層の第j置換基を選択する(ステップS2603)。そして、化合物分類装置100は、選択した第j置換基が複合置換基か否かを判断する(ステップS2604)。
ここで、第j置換基が複合置換基ではない場合(ステップS2604:No)、化合物分類装置100は、第j置換基の置換基分割処理を実行する(ステップS2605)。つぎに、化合物分類装置100は、第j置換基の「j」をインクリメントして(ステップS2606)、「j」が「m」より大きくなったか否かを判断する(ステップS2607)。
ここで、「j」が「m」以下の場合(ステップS2607:No)、ステップS2603に戻る。一方、「j」が「m」より大きくなった場合(ステップS2607:Yes)、化合物名分割処理を終了し、化合物名分割処理を呼び出したステップへ戻る。第1階層の化合物名分割処理が終わった場合には、図25に示したステップS2507に移行する。
また、ステップS2604において、第j置換基が複合置換基の場合(ステップS2604:Yes)、化合物分類装置100は、第(i+1)階層の化合物名Nrとして、第j置換基の化合物名を設定する(ステップS2608)。そして、化合物分類装置100は、第(i+1)階層の化合物Mrの化合物名分割処理を実行して(ステップS2609)、ステップS2606に移行する。
これにより、第j置換基が複合置換基の場合、第j置換基の化合物名を第(i+1)階層の化合物Mrの化合物名として化合物名分割処理を再帰的に実行することができる。
つぎに、図26のステップS2601に示した母核分割処理の具体的な処理手順について説明する。図27および図28は、母核分割処理の具体的処理手順の一例を示すフローチャートである。
図27のフローチャートにおいて、まず、化合物分類装置100は、母核Bkの「k」を「k=1」とする(ステップS2701)。つぎに、化合物分類装置100は、構造式DB230の中から母核Bkの化合物名を選択する(ステップS2702)。そして、化合物分類装置100は、母核Bkの化合物名の文字数tを特定する(ステップS2703)。文字数tの長い方を優先的に選択する。
つぎに、化合物分類装置100は、化合物Mrの化合物名Nrの末尾からt文字の文字列と、母核Bkの化合物名とが一致するか否かを判断する(ステップS2704)。ここで、母核Bkの化合物名と一致する場合(ステップS2704:Yes)、化合物分類装置100は、分割テーブル800内の化合物名Nrの末尾からt文字の文字列の直前に第i階層の区切り記号を挿入する(ステップS2705)。
つぎに、化合物分類装置100は、化合物Mrの化合物名Nrのうち母核Bkの化合物名を除く残余の文字列を「数字−文字列」の組に分割する(ステップS2706)。そして、化合物分類装置100は、各組の文字列を先頭から順番に第1〜第m置換基を表す文字列とする(ステップS2707)。つぎに、化合物分類装置100は、各組の数字を先頭から順番に第1〜第m置換基の結合位置を表す文字列として(ステップS2708)、図26に示したステップS2602に移行する。
また、ステップS2704において、母核Bkの化合物名と不一致の場合(ステップS2704:No)、化合物分類装置100は、母核Bkの「k」をインクリメントして(ステップS2709)、「k」が「K」より大きくなったか否かを判断する(ステップS2710)。
ここで、「k」が「K」以下の場合(ステップS2710:No)、ステップS2702に戻る。一方、「k」が「K」より大きくなった場合(ステップS2710:Yes)、図28に示すステップS2801に移行する。
図28のフローチャートにおいて、まず、化合物分類装置100は、化合物Mrの化合物名Nrを「数字−文字列」の組に分割する(ステップS2801)。そして、化合物分類装置100は、各組の文字列を先頭から順番に第1〜第m置換基を表す文字列とする(ステップS2802)。
つぎに、化合物分類装置100は、各組の数字を先頭から順番に第1〜第m置換基の結合位置を表す文字列とする(ステップS2803)。そして、化合物分類装置100は、置換基Cpの「p」を「p=1」として(ステップS2804)、構造式DB230の中から置換基Cpの化合物名を選択する(ステップS2805)。
つぎに、化合物分類装置100は、置換基Cpの化合物名の文字数sを特定する(ステップS2806)。そして、化合物分類装置100は、第m置換基を表す文字列の先頭からs文字の文字列と、置換基Cpの化合物名とが一致するか否かを判断する(ステップS2807)。
ここで、置換基Cpの化合物名と一致する場合(ステップS2807:Yes)、化合物分類装置100は、第i階層の母核を表す文字列を、第m置換基を表す文字列のうち先頭からs文字を除く残余の文字列とする(ステップS2808)。つぎに、化合物分類装置100は、第m置換基を表す文字列を、第m置換基を表す文字列の先頭からs文字の文字列とする(ステップS2809)。
そして、化合物分類装置100は、分割テーブル800内の化合物名Nrの第m置換基を表す文字列の先頭からs文字の文字列の直後に第i階層の区切り記号を挿入して(ステップS2810)、図26に示したステップS2602に移行する。もし、第m置換基と母核の間に文字が残っている場合には、母核に含めるようにしてもよい。
また、ステップS2807において、置換基Cpの化合物名と不一致の場合(ステップS2807:No)、化合物分類装置100は、置換基Cpの「p」をインクリメントして(ステップS2811)、「p」が「P」より大きくなったか否かを判断する(ステップS2812)。
ここで、「p」が「P」以下の場合(ステップS2812:No)、ステップS2805に戻る。一方、「p」が「P」より大きくなった場合(ステップS2812:Yes)、化合物分類装置100は、化合物Mrの第i階層の母核の化合物名が不明であることを示す母核不明フラグを設定して(ステップS2813)、図26に示したステップS2602に移行する。
これにより、化合物Mrの第i階層の母核の化合物名を特定して、分割テーブル800内の化合物名Nrの第i階層の母核の化合物名の直前に第i階層の区切り記号を挿入することができる。なお、第(i+1)階層において、化合物Mrの化合物名Nrの末尾からt文字との一致判定を行う対象となる化合物は、例えば、構造式DB230内の置換基Cpの化合物名となる。
つぎに、図26のステップS2605に示した置換基分割処理の具体的な処理手順について説明する。図29は、置換基分割処理の具体的処理手順の一例を示すフローチャートである。
図29のフローチャートにおいて、まず、化合物分類装置100は、第j置換基を表す文字列に倍数接頭辞があるか否かを判断する(ステップS2901)。ここで、倍数接頭辞がない場合(ステップS2901:No)、ステップS2905に移行する。
一方、倍数接頭辞がある場合(ステップS2901:Yes)、化合物分類装置100は、分割テーブル800内の第j置換基の結合位置を表す文字列「数字,数字,…,数字−」の「,」を「−」に変換し(ステップS2902)、2番目以降の数字の直前に「−」を挿入する(ステップS2903)。
そして、化合物分類装置100は、分割テーブル800内の第j置換基を表す文字列から倍数接頭辞を削除して(ステップS2904)、倍数接頭辞が削除された削除後の文字列を「−−」の間に挿入する(ステップS2905)。
つぎに、化合物分類装置100は、置換基Cpの「p」を「p=1」として(ステップS2906)、構造式DB230の中から置換基Cpの化合物名を選択する(ステップS2907)。
そして、化合物分類装置100は、置換基を表す文字列と置換基Cpの化合物名とが一致するか否かを判断する(ステップS2908)。なお、ここでの置換基を表す文字列は、第j置換基を表す文字列、または、ステップS2904において第j置換基を表す文字列から倍数接頭辞が削除された削除後の文字列である。
ここで、置換基Cpの化合物名と一致する場合(ステップS2908:Yes)、化合物分類装置100は、置換基を表す文字列の直後に区切り記号を挿入して(ステップS2909)、図26に示したステップS2606に移行する。
また、ステップS2908において、置換基Cpの化合物名と不一致の場合(ステップS2908:No)、化合物分類装置100は、置換基Cpの「p」をインクリメントして(ステップS2910)、「p」が「P」より大きくなったか否かを判断する(ステップS2911)。
ここで、「p」が「P」以下の場合(ステップS2911:No)、ステップS2907に戻る。一方、「p」が「P」より大きくなった場合(ステップS2911:Yes)、化合物分類装置100は、化合物Mrの第i階層の第j置換基の化合物名が不明であることを示す置換基不明フラグを設定して(ステップS2912)、ステップS2909に移行する。
これにより、化合物Mrの第i階層の第j置換基の化合物名を特定して、分割テーブル800内の化合物名Nrの第i階層の第j置換基の化合物名の直後に区切り記号を挿入することができる。また、第j置換基を表す文字列に倍数接頭辞が含まれる場合、第j置換基を表す文字列および第j置換基の結合位置を表す文字列を展開することができる。
<母核比較テーブル作成処理の具体的処理手順>
つぎに、図25のステップS2509に示した母核比較テーブル作成処理の具体的な処理手順について説明する。図30は、母核比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。
図30のフローチャートにおいて、まず、化合物分類装置100は、第i階層の「i」を「i=1」として(ステップS3001)、分割テーブル800を参照して、化合物M1〜MRの第i階層の母核の化合物名を母核比較テーブル1100に登録する(ステップS3002)。
つぎに、化合物分類装置100は、分割テーブル800を参照して、化合物M1〜MRの第i階層の母核に結合する第1〜第m置換基の結合位置を母核比較テーブル1100に登録する(ステップS3003)。そして、化合物分類装置100は、化合物M1〜MRの第i階層の母核に結合する置換基数を母核比較テーブル1100に登録する(ステップS3004)。
つぎに、化合物分類装置100は、化合物M1〜MRの第i階層の母核の構造式に含まれる炭素数および母核の構造の種類を特定して、特定した母核の構造式に含まれる炭素数および母核の構造の種類を母核比較テーブル1100に登録する(ステップS3005)。
そして、化合物分類装置100は、基本構造となる化合物M1と各化合物M2〜MRとの間で、母核比較テーブル1100に登録された各項目の項目値を比較することにより、項目値が一致する項目の同一フラグに「1」を設定する(ステップS3006)。
つぎに、化合物分類装置100は、第i階層の「i」をインクリメントして(ステップS3007)、「i」が「n」より大きくなったか否かを判断する(ステップS3008)。ここで、「i」が「n」以下の場合(ステップS3008:No)、ステップS3002に戻る。一方、「i」が「n」より大きくなった場合(ステップS3008:Yes)、図25に示したステップS2510に移行する。
これにより、化合物M1〜MRの第i階層の母核の化合物名、第1〜第m置換基の結合位置、置換基数、炭素数、構造の種類を母核比較テーブル1100に登録することができる。なお、化合物分類装置100は、例えば、ステップS3008の後、母核比較テーブル1100内の各項目の同一フラグに基づいて、化合物群M1〜MRを分類することにより、母核比較テーブル1100内の各化合物M1〜MRのレコードを並び替えることにしてもよい。
<置換基比較テーブル作成処理の具体的処理手順>
つぎに、図25のステップS2510に示した置換基比較テーブル作成処理の具体的な処理手順について説明する。図31は、置換基比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。
図31のフローチャートにおいて、まず、化合物分類装置100は、第i階層の「i」を「i=1」として(ステップS3101)、分割テーブル800を参照して、化合物M1〜MRの第i階層の第1〜第m置換基の化合物名を置換基比較テーブル1700に登録する(ステップS3102)。
つぎに、化合物分類装置100は、分割テーブル800を参照して、化合物M1〜MRの第i階層の母核に結合する第1〜第m置換基の結合位置を置換基比較テーブル1700に登録する(ステップS3103)。そして、化合物分類装置100は、化合物M1〜MRの第i階層の第1〜第m置換基の構造式に含まれる炭素数を特定して、特定した第1〜第m置換基の構造式に含まれる炭素数を置換基比較テーブル1700に登録する(ステップS3104)。
つぎに、化合物分類装置100は、基本構造となる化合物M1と各化合物M2〜MRとの間で、置換基比較テーブル1700に登録された各項目の項目値を比較することにより、項目値が一致する項目の同一フラグに「1」を設定する(ステップS3105)。
そして、化合物分類装置100は、第i階層の「i」をインクリメントして(ステップS3106)、「i」が「n」より大きくなったか否かを判断する(ステップS3107)。ここで、「i」が「n」以下の場合(ステップS3107:No)、ステップS3102に戻る。一方、「i」が「n」より大きくなった場合(ステップS3107:Yes)、図25に示したステップS2511に移行する。
これにより、化合物M1〜MRの第i階層の第1〜第m置換基の化合物名、結合位置、炭素数を置換基比較テーブル1700に登録することができる。なお、化合物分類装置100は、例えば、ステップS3107の後、置換基比較テーブル1700内の各項目の同一フラグに基づいて、化合物群M1〜MRを分類することにより、置換基比較テーブル1700内の各化合物M1〜MRのレコードを並び替えることにしてもよい。
以上説明したように、実施の形態にかかる化合物分類装置100によれば、構造式DB230を参照して、化合物群M1〜MRの各化合物Mrの化合物名Nrの中から、各化合物Mrの母核を表す文字列を検出することができる。そして、化合物分類装置100によれば、各化合物Mrの母核に基づいて、化合物群M1〜MRを分類することができる。
これにより、化合物群M1〜MRの中から化合物の基礎となる部分構造を表す母核が同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうちの母核が同一の化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、各化合物Mrの化合物名Nrのうち母核を表す文字列を除く残余の文字列の中から、各化合物Mrの置換基を表す文字列を抽出することができる。そして、化合物分類装置100によれば、さらに、各化合物Mrの置換基に基づいて、化合物群M1〜MRを分類することができる。
これにより、化合物群M1〜MRの中から化合物の系統や命名に使う部分構造を表す置換基が同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、置換基が同一の化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、さらに、各化合物Mrの置換基数に基づいて、化合物群M1〜MRを分類することができる。これにより、各化合物Mrの母核に結合する置換基の数を特定でき、化合物群M1〜MRの中から化合物全体の構造の成り立ちが類似する化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、化合物全体の構造の成り立ちが類似する化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、各化合物Mrの化合物名Nrのうち母核を表す文字列を除く残余の文字列の中から、各化合物Mrの母核に結合する置換基の結合位置を表す文字列を抽出することができる。そして、化合物分類装置100によれば、さらに、各化合物Mrの母核に結合する置換基の結合位置に基づいて、化合物群M1〜MRを分類することができる。
これにより、各化合物Mrの母核の構造式に含まれるどの炭素に置換基が結合しているかを特定でき、化合物群M1〜MRの中から化合物全体の構造の成り立ちが類似する化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、化合物全体の構造の成り立ちが類似する化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、構造式DB230を参照して、各化合物Mrの母核を表す文字列に対応する母核の構造の種類を特定し、さらに、各化合物Mrの母核の構造の種類に基づいて、化合物群M1〜MRを分類することができる。これにより、各化合物Mrの母核の構造の種類を特定でき、化合物群M1〜MRの中から母核の構造が類似する化合物の集合を判別することができる。
また、化合物分類装置100によれば、構造式DB230を参照して、各化合物Mrの母核を表す文字列に対応する構造式に含まれる炭素数を特定し、さらに、各化合物Mrの母核の炭素数に基づいて、化合物群M1〜MRを分類することができる。これにより、各化合物Mrの母核の炭素数から親水性や疎水性などの化学的特性を判断することができる。
また、化合物分類装置100によれば、構造式DB230を参照して、各化合物Mrの置換基を表す文字列に対応する構造式に含まれる炭素数を特定し、さらに、各化合物Mrの置換基の炭素数に基づいて、化合物群M1〜MRを分類することができる。
これにより、各化合物Mrの各置換基の炭素数から親水性や疎水性などの化学的特性を判断でき、化合物群M1〜MRの中から化学的特性が類似する化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、化学的特性が類似する化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核を表す文字列と他の化合物の母核を表す文字列とを比較することにより、化合物群M1〜MRを分類することができる。
これにより、化合物群M1〜MRの中から化合物の基礎となる部分構造を表す母核が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうちの基本構造となる化合物と母核が同一の化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の置換基を表す文字列と他の化合物の置換基を表す文字列とを比較することにより、化合物群M1〜MRを分類することができる。
これにより、化合物群M1〜MRの中から化合物の系統や命名に使う部分構造を表す置換基が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と置換基が同一の化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の置換基数と他の化合物の置換基数とを比較することにより、化合物群M1〜MRを分類することができる。
これにより、化合物群M1〜MRの中から化合物の置換基数が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と置換基数が同一の化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核に結合する置換基の結合位置と他の化合物の母核に結合する置換基の結合位置とを比較することにより、化合物群M1〜MRを分類することができる。
これにより、化合物群M1〜MRの中から化合物の母核に結合する置換基の結合位置が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と母核に結合する置換基の結合位置が同一の化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核の構造の種類と他の化合物の母核の構造の種類とを比較することにより、化合物群M1〜MRを分類することができる。これにより、化合物群M1〜MRの中から化合物の母核の構造の種類が、基本構造となる化合物と同一の化合物の集合を判別することができる。
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核の炭素数と他の化合物の母核の炭素数とを比較することにより、化合物群M1〜MRを分類することができる。これにより、化合物群M1〜MRの中から化合物の母核の炭素数が、基本構造となる化合物と同一の化合物の集合を判別することができる。
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の第j置換基の炭素数と他の化合物の第j置換基の炭素数とを比較することにより、化合物群M1〜MRを分類することができる。
これにより、化合物群M1〜MRの中から化合物の第j置換基の炭素数が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と第j置換基の化学的特性が類似する化合物同士の類似性や差分を判断し易くすることができる。
また、化合物分類装置100によれば、第j置換基が別の置換基を含む複合置換基か否かを判定し、第j置換基が複合置換基の場合、第j置換基を表す文字列を、化合物Mrの化合物名Nrに設定することができる。そして、化合物分類装置100によれば、構造式DB230を参照して、新たに設定された化合物Mrの化合物名Nrの中から、化合物Mrの母核を表す文字列を検出することができる。
これにより、化合物Mrの複合置換基を新たな分類対象として、上記検出部702、抽出部703、特定部704等の処理が実行され、第j置換基を表す文字列を解析することができる。この結果、例えば、各化合物Mrの第2階層の母核に基づいて、新たな分類対象として設定された複合置換基群を分類することができる。
これらのことから、実施の形態にかかる化合物分類装置、化合物分類プログラムおよび化合物分類方法によれば、化合物群M1〜MRを、化合物Mrの各階層の母核や置換基の特徴に基づいて分類することができる。これにより、ユーザは、化合物群M1〜MRのうち共通の特徴を有する化合物同士で比較することが可能となり、化合物同士の類似性や差分を判断し易くなる。また、ユーザは、化合物Mrの各階層の母核や置換基の特徴から、化合物Mrの官能基や化合物Mrの全体構造を把握し易くなる。また、ユーザは、化合物Mrが複合置換基を有する化合物であっても、階層ごとに母核や置換基の特徴を判別することができ、階層構造化された化合物Mrの全体構造を把握し易くなる。
この結果、例えば、ユーザは、各階層の母核や置換基の特徴から化合物全体の性質を判断して、化合物同士の性質を比較することにより、化合物群がどのような意図の化合物であるかを判断することができる。また、ユーザは、化合物Mrの各階層の母核や置換基の特徴のうち一部の特徴が不明であっても他の特徴から化合物同士の類似性や差分を判断することができる。
なお、本実施の形態で説明した化合物分類方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本化合物分類プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本化合物分類プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出する検出部と、
前記検出部によって検出された前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類する分類部と、
前記分類部によって分類された分類結果を出力する出力部と、
を有することを特徴とする化合物分類装置。
(付記2)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基を表す文字列に基づいて、前記化合物群を分類することを特徴とする付記1に記載の化合物分類装置。
(付記3)前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする付記2に記載の化合物分類装置。
(付記4)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする付記1に記載の化合物分類装置。
(付記5)前記抽出部は、
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記分類部は、
さらに、前記各々の化合物の置換基の結合位置を表す文字列に基づいて、前記化合物群を分類することを特徴とする付記2〜4のいずれか一つに記載の化合物分類装置。
(付記6)化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造の種類に基づいて、前記化合物群を分類することを特徴とする付記1〜5のいずれか一つに記載の化合物分類装置。
(付記7)前記特定部は、
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする付記6に記載の化合物分類装置。
(付記8)化合物の置換基となる部分構造の名称と前記置換基の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の置換基を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定する特定部をさらに有し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の置換基の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする付記2〜5のいずれか一つに記載の化合物分類装置。
(付記9)前記化合物群のうち特定の化合物の母核を表す文字列と、前記化合物群のうち前記特定の化合物とは異なる他の化合物の母核を表す文字列とを比較する比較部をさらに有し、
前記分類部は、
前記比較部によって比較された比較結果に基づいて、前記化合物群を分類することを特徴とする付記1に記載の化合物分類装置。
(付記10)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基を表す文字列と、前記他の化合物の置換基を表す文字列とを比較することを特徴とする付記9に記載の化合物分類装置。
(付記11)前記比較部は、
さらに、前記特定の化合物の置換基の数と、前記他の化合物の置換基の数とを比較することを特徴とする付記10に記載の化合物分類装置。
(付記12)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基の数と、前記他の化合物の置換基の数とを比較することを特徴とする付記9に記載の化合物分類装置。
(付記13)前記抽出部は、
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記比較部は、
さらに、前記特定の化合物の置換基の結合位置を表す文字列と、前記他の化合物の置換基の結合位置を表す文字列とを比較することを特徴とする付記10〜12のいずれか一つに記載の化合物分類装置。
(付記14)化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
前記比較部は、
さらに、前記特定部によって特定された前記特定の化合物の母核の構造の種類と、前記他の化合物の母核の構造の種類とを比較することを特徴とする付記9〜13のいずれか一つに記載の化合物分類装置。
(付記15)前記特定部は、
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記比較部は、
さらに、前記特定の化合物の母核の構造式に含まれる前記特定の元素の元素数と、前記他の化合物の母核の構造式に含まれる前記特定の元素の元素数とを比較することを特徴とする付記14に記載の化合物分類装置。
(付記16)化合物の置換基となる部分構造の名称と前記置換基の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の置換基を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定する特定部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基の構造式に含まれる前記特定の元素の元素数と、前記他の化合物の置換基の構造式に含まれる前記特定の元素の元素数とを比較することを特徴とする付記10〜13のいずれか一つに記載の化合物分類装置。
(付記17)前記各々の化合物の置換基を表す文字列に基づいて、前記各々の化合物の置換基が別の置換基を含む複合置換基か否かを判定する判定部と、
前記判定部によって前記複合置換基であると判定された場合、前記各々の化合物の置換基を表す文字列を、前記分類対象となる化合物の化合物名に設定する設定部と、をさらに有し、
前記検出部は、
前記記憶部を参照して、前記設定部によって設定された前記分類対象となる各々の化合物の化合物名の中から前記各々の化合物の母核となる部分構造の名称を表す文字列を検出することを特徴とする付記1〜16のいずれか一つに記載の化合物分類装置。
(付記18)コンピュータに、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行させることを特徴とする化合物分類プログラム。
(付記19)コンピュータが、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行することを特徴とする化合物分類方法。
100 化合物分類装置
701 受付部
702 検出部
703 抽出部
704 特定部
705 分類部
706 比較部
707 算出部
708 判定部
709 設定部
710 作成部
711 出力部

Claims (8)

  1. 化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出する検出部と、
    前記検出部によって検出された前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類する分類部と、
    前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部と、
    前記分類部によって分類された分類結果を出力する出力部と、を有し、
    前記分類部は、
    さらに、前記抽出部によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する、
    ことを特徴とする化合物分類装置。
  2. 前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
    前記分類部は、
    さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする請求項1に記載の化合物分類装置。
  3. 前記抽出部は、
    前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
    前記分類部は、
    さらに、前記各々の化合物の置換基の結合位置を表す文字列に基づいて、前記化合物群を分類することを特徴とする請求項1または2に記載の化合物分類装置。
  4. 化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
    前記分類部は、
    さらに、前記特定部によって特定された前記各々の化合物の母核の構造の種類に基づいて、前記化合物群を分類することを特徴とする請求項1〜3のいずれか一つに記載の化合物分類装置。
  5. 前記特定部は、
    化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
    前記分類部は、
    さらに、前記特定部によって特定された前記各々の化合物の母核の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする請求項4に記載の化合物分類装置。
  6. 前記各々の化合物の置換基を表す文字列に基づいて、前記各々の化合物の置換基が別の置換基を含む複合置換基か否かを判定する判定部と、
    前記判定部によって前記複合置換基であると判定された場合、前記複合置換基を表す文字列を、前記分類対象となる化合物の化合物名に設定する設定部と、をさらに有し、
    前記検出部は、
    前記記憶部を参照して、前記設定部によって設定された前記分類対象となる各々の化合物の化合物名の中から前記各々の化合物の母核となる部分構造の名称を表す文字列を検出することを特徴とする請求項1〜5のいずれか一つに記載の化合物分類装置。
  7. コンピュータに、
    化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
    検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
    前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出し、
    分類した分類結果を出力する、処理を実行させ、
    前記分類の処理では、さらに、前記抽出の処理によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する、
    ことを特徴とする化合物分類プログラム。
  8. コンピュータが、
    化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
    検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
    前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出し、
    分類した分類結果を出力する、処理を実行し、
    前記分類の処理では、さらに、前記抽出の処理によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する、
    ことを特徴とする化合物分類方法。
JP2011244975A 2011-11-08 2011-11-08 化合物分類装置、化合物分類プログラムおよび化合物分類方法 Active JP5853608B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011244975A JP5853608B2 (ja) 2011-11-08 2011-11-08 化合物分類装置、化合物分類プログラムおよび化合物分類方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011244975A JP5853608B2 (ja) 2011-11-08 2011-11-08 化合物分類装置、化合物分類プログラムおよび化合物分類方法

Publications (2)

Publication Number Publication Date
JP2013101511A JP2013101511A (ja) 2013-05-23
JP5853608B2 true JP5853608B2 (ja) 2016-02-09

Family

ID=48622075

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011244975A Active JP5853608B2 (ja) 2011-11-08 2011-11-08 化合物分類装置、化合物分類プログラムおよび化合物分類方法

Country Status (1)

Country Link
JP (1) JP5853608B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6131792B2 (ja) * 2013-09-09 2017-05-24 富士通株式会社 情報提供装置、方法、及び、プログラム
US20200201917A1 (en) * 2017-09-11 2020-06-25 Shimadzu Corporation Sample category identification device, analysis system, and analysis network system
JP7081396B2 (ja) * 2018-08-30 2022-06-07 富士通株式会社 生成方法、生成プログラム、および生成装置
JP7322500B2 (ja) * 2019-05-16 2023-08-08 富士通株式会社 検索方法、検索プログラム、および情報処理装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01142869A (ja) * 1987-11-30 1989-06-05 Toshiba Corp 分子設計支援システム
JP2000172706A (ja) * 1998-12-07 2000-06-23 Dic Japan Kk 文字列分類装置
JP2000231560A (ja) * 1999-02-10 2000-08-22 Ricoh Co Ltd 文書自動分類方式
AU4954000A (en) * 1999-06-04 2000-12-28 Seiko Epson Corporation Information sorting method, information sorter, recorded medium on which information sorting program is recorded
JP2001034621A (ja) * 1999-07-19 2001-02-09 Hitachi Ltd 文書分類管理システム
JP2006113893A (ja) * 2004-10-15 2006-04-27 Mitsubishi Electric Corp 化学物質の自動分類方法、情報空間の可視化法及び情報検索システム並びに情報検索プログラム

Also Published As

Publication number Publication date
JP2013101511A (ja) 2013-05-23

Similar Documents

Publication Publication Date Title
JP5025488B2 (ja) ドメイン特定のデータ・エンティティ・マッピング方法及びシステム
JP5853608B2 (ja) 化合物分類装置、化合物分類プログラムおよび化合物分類方法
US20030097384A1 (en) Method for identifying and using table structures
EP1764710A1 (en) Layout generation method, information processing device, and program
EP2008232A1 (en) System and method for knowledge extraction and abstraction
JP4796970B2 (ja) ツリーデータの検索・集計・ソート方法及びプログラム
Wei et al. Discovery and ranking of embedded uniqueness constraints
EP1811383A1 (en) Arrangement generation method and arrangement generation program
Wu et al. Classifying Wikipedia articles using network motif counts and ratios
JP5741387B2 (ja) 情報提供装置、情報提供プログラムおよび情報提供方法
JP2009099140A (ja) データ処理システム
JP2005122510A (ja) 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
CN111539383B (zh) 公式知识点识别方法及装置
JP2004348771A (ja) 技術文書検索装置
JP5141152B2 (ja) テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
JP5117589B2 (ja) 文書分析装置およびプログラム
JP4728063B2 (ja) 興味情報生成装置、興味情報生成方法および興味情報生成プログラム
JP4305836B2 (ja) コンテンツ検索表示装置およびコンテンツ検索表示方法
JP2015162004A (ja) 開発ドキュメント間トレースリンク生成支援装置及び方法及びプログラム
US20070150519A1 (en) Organiser for complex categorisations
Morse et al. Comparison of multiple taxonomic hierarchies using TaxoNote
Ferreira et al. Phrasing the giant: on the importance of rigour in literature search process
Saund A graph lattice approach to maintaining and learning dense collections of subgraphs as image features
US20090249197A1 (en) Document proofreading support method and document proofreading support apparatus
JP4904828B2 (ja) 情報分析知識管理装置、データ構造、情報分析装置、辞書生成方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141224

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150309

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150811

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20151013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20151110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20151123

R150 Certificate of patent or registration of utility model

Ref document number: 5853608

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150