JP5853608B2

JP5853608B2 - 化合物分類装置、化合物分類プログラムおよび化合物分類方法

Info

Publication number: JP5853608B2
Application number: JP2011244975A
Authority: JP
Inventors: 池田　紀子; 紀子池田; 田中　一成; 一成田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2011-11-08
Filing date: 2011-11-08
Publication date: 2016-02-09
Anticipated expiration: 2031-11-08
Also published as: JP2013101511A

Description

本発明は、化合物分類装置、化合物分類プログラムおよび化合物分類方法に関する。

化学系や薬学系などの特許文献や学術論文などの文書において、ある化合物の化合物名とともに、その化合物の代わりに用いてもよい他の化合物の化合物名が列挙される場合がある。また、文書に列挙された複数の化合物名から、どのような意図の化合物群であるか判断される場合がある。

関連する先行技術としては、例えば、テキストデータの相違行を文字列単位に比較し相違のあった文字列を抽出し、外部から与えた情報によって特定される文字列を無視することで残った行を相違点として認識し、相違点を編集しリスト出力する技術がある（例えば、下記特許文献１参照。）。

特開平７−１０４９９０号公報

しかしながら、従来技術によれば、文書に列挙された化合物群の化合物名から、化合物同士の類似性や差分を判断することが難しいという問題がある。例えば、文書に列挙された化合物名が３つ以上あった場合、それらの化合物がどのように類似し、どのように異なるのか判断することが難しい。

本発明は、上述した従来技術による問題点を解消するため、化合物の基礎となる部分構造を表す母核をもとに化合物群を分類することができる化合物分類装置、化合物分類プログラムおよび化合物分類方法を提供することを目的とする。

上述した課題を解決し、目的を達成するため、本発明の一側面によれば、化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出し、前記分類した分類結果を出力し、前記分類の際には、さらに、前記抽出によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する化合物分類装置、化合物分類プログラムおよび化合物分類方法が提案される。

本発明の一側面によれば、化合物の基礎となる部分構造を表す母核をもとに化合物群を分類することができるという効果を奏する。

図１は、実施の形態にかかる化合物分類方法の一実施例を示す説明図である。図２は、システム２００のシステム構成例を示す説明図である。図３は、化合物分類装置１００のハードウェア構成例を示すブロック図である。図４は、構造解析ルールＤＢ２２０の記憶内容の一例を示す説明図である。図５は、構造式ＤＢ２３０の記憶内容の一例を示す説明図である。図６は、基本構造抽出ルールＤＢ２４０の記憶内容の一例を示す説明図である。図７は、化合物分類装置１００の機能的構成例を示すブロック図である。図８は、分割テーブル８００の記憶内容の変遷例を示す説明図（その１）である。図９は、分割テーブル８００の記憶内容の変遷例を示す説明図（その２）である。図１０は、分割テーブル８００の記憶内容の変遷例を示す説明図（その３）である。図１１は、母核比較テーブルの記憶内容の変遷例を示す説明図（その１）である。図１２は、母核比較テーブルの記憶内容の変遷例を示す説明図（その２）である。図１３は、母核比較テーブルの記憶内容の変遷例を示す説明図（その３）である。図１４は、母核比較テーブルの記憶内容の変遷例を示す説明図（その４）である。図１５は、母核比較テーブルの記憶内容の変遷例を示す説明図（その５）である。図１６は、母核比較テーブルの記憶内容の変遷例を示す説明図（その６）である。図１７は、置換基比較テーブルの記憶内容の変遷例を示す説明図（その１）である。図１８は、置換基比較テーブルの記憶内容の変遷例を示す説明図（その２）である。図１９は、置換基比較テーブルの記憶内容の変遷例を示す説明図（その３）である。図２０は、置換基比較テーブルの記憶内容の変遷例を示す説明図（その４）である。図２１は、置換基比較テーブルの記憶内容の変遷例を示す説明図（その５）である。図２２は、比較リストの具体例を示す説明図（その１）である。図２３は、比較リストの具体例を示す説明図（その２）である。図２４は、比較リストの加工例を示す説明図である。図２５は、化合物分類装置１００の化合物分類処理手順の一例を示すフローチャートである。図２６は、化合物名分割処理の具体的処理手順の一例を示すフローチャートである。図２７は、母核分割処理の具体的処理手順の一例を示すフローチャート（その１）である。図２８は、母核分割処理の具体的処理手順の一例を示すフローチャート（その２）である。図２９は、置換基分割処理の具体的処理手順の一例を示すフローチャートである。図３０は、母核比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。図３１は、置換基比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。

以下に添付図面を参照して、この発明にかかる化合物分類装置、化合物分類プログラムおよび化合物分類方法の実施の形態を詳細に説明する。

（化合物の命名法）
まず、本実施の形態において使用する化合物の命名法について説明する。ここで、化合物とは、２種類以上の元素からできている化学物質のことである。化合物は、例えば、有機化合物と無機化合物とに分類される。

有機化合物は、炭素原子を構造の基本骨格に持つ化合物の総称である。有機化合物は、分子構造の違いによって、例えば、直鎖炭化水素、芳香族炭化水素、脂環式炭化水素などに分類することができる。なお、骨格を形成する炭素以外の元素として、ケイ素や酸素があり、無機分子と呼ばれる。

また、無機化合物は、有機化合物以外の化合物であり、炭素以外の元素で構成される化合物である。ただし、炭素化合物のうち、例えば、炭素の同素体（例えば、グラファイト、ダイヤモンド）や二酸化炭素は、無機化合物に分類される。以下の説明では、化合物として有機化合物を例に挙げて説明する。

有機化合物は、例えば、炭素骨格の長さや分岐により多様な構造をとる。炭素骨格は、有機化合物において炭素同士が結合している部分である。炭素骨格の長さは、炭素の数によって表される。また、有機化合物は、窒素（Ｎ）、酸素（Ｏ）、硫黄（Ｓ）、燐（Ｐ）、ハロゲン（Ｆ、Ｃｌ、Ｂｒ、Ｉ）などが炭素に結合した多様な官能基が生成される。官能基は、有機化合物のおおよその性質を決める原子団である。

ここで、有機化合物の化合物名は、例えば、ＩＵＰＡＣ（ＩｎｔｅｒｎａｔｉｏｎａｌＵｎｉｏｎｏｆＰｕｒｅａｎｄＡｐｐｌｉｅｄＣｈｅｍｉｓｔｒｙ）が定める命名法によって命名される。ＩＵＰＡＣが定める命名法としては、例えば、置換命名法、基官能命名法、付加命名法、減去命名法、接合命名法、代置命名法などがある。

本実施の形態では、有機化合物の化合物名が、ＩＵＰＡＣが定める置換命名法（ｓｕｂｓｔｉｔｕｔｅｎｏｍｅｎｃｌａｔｕｒｅ）によって命名されている場合を想定する。置換命名法において、有機化合物の化合物名は、例えば「結合位置−接頭語−（語頭＋語幹＋語尾）」という形式で表現される。

また、置換命名法において、（語頭＋語幹＋語尾）は「母核」と呼ばれ、接頭語は「置換基」と呼ばれる。すなわち、置換命名法では、有機化合物の化合物名は、例えば、「置換基＋母核」というルールのもと記述される。母核および置換基は、化合物の部分構造を表す原子団である。

母核は、有機化合物の基礎となる部分構造である。置換基は、有機化合物の系統や命名に使う部分構造であり、母核と対になって使用される概念である。また、母核と置換基は、母核を「親」、置換基を「子」とする親子関係にある。結合位置は、母核の何番目の炭素に置換基が結合しているのかを表している。ただし、結合位置は省略されている場合がある。

また、置換基の中に別の置換基を持つものは「複合置換基」と呼ばれる。複合置換基には、置換基と母核とが含まれる。すなわち、有機化合物の化合物名は、子の中に別の親子関係が存在するという複数世代の親子関係を含む場合がある。有機化合物の化合物名において、複合置換基を表す文字列は、例えば、括弧やかぎ括弧で囲まれている。

本実施の形態では、各世代の親子関係を「１階層」とし、複数世代の親子関係を「階層構造」と表現する場合がある。また、最上位の階層を「第１階層」と表記し、階層が下位になるにしたがって順に「第２階層」、「第３階層」、…、「第ｎ階層」と表記する（ｎ：１以上の自然数）。また、第１〜第ｎ階層のうち任意の階層を「第ｉ階層」と表記する（ｉ＝１，２，…，ｎ）。

第ｉ階層には、１つの母核と、１つ以上の置換基が含まれる。ここでは、第ｉ階層に含まれる１つ以上の置換基を「第１置換基」、「第２置換基」、…、「第ｍ置換基」と表記する（ｍ：１以上の自然数）。また、第１〜第ｍ置換基のうち任意の置換基を「第ｊ置換基」と表記する（ｊ＝１，２，…，ｍ）。

なお、第ｉ階層に含まれる１つ以上の置換基の番号（１，２，…，ｍ）を、どのような順序で付けるかは任意である。例えば、各置換基の名称のアルファベット順に番号を付けてもよく、また、各置換基が結合する母核の炭素の番号が若い順に番号を付けてもよい。以下の説明では、第ｉ階層の各置換基の番号を、化合物名の先頭から順に第１置換基、第２置換基、…、第ｍ置換基とする。

ここで、有機化合物の化合物名として『２−（３−メチル−４−ヒドロキシフェニル）プロパン』を例に挙げて説明する。この化合物名において、第１階層の母核は「プロパン」、第１置換基は「３−メチル−４−ヒドロキシフェニル」、第１置換基の結合位置は「２」である。

また、第１置換基は括弧で囲まれている複合置換基である。このため、この化合物名には第２階層が存在する。具体的には、第２階層の母核は「フェニル」、第１置換基は「メチル」、第１置換基の結合位置は「３」、第２置換基は「ヒドロキシ」、第２置換基の結合位置は「４」である。第２階層を構成する複合置換基では、表記上、第１階層の母核に近い置換基が親、すなわち、第２階層の母核となり、母核に遠い置換基が子、すなわち、第２階層の置換基となる。

（化合物分類方法の一実施例）
つぎに、本実施の形態にかかる化合物分類方法の一実施例について説明する。図１は、実施の形態にかかる化合物分類方法の一実施例を示す説明図である。図１において、化合物分類装置１００は、分類対象となる化合物群を分類する機能を有するコンピュータである。

分類対象となる化合物群は、例えば、化学系や薬学系などの特許文献や学術論文などの文書に列挙された化合物の集合である。特許文献や学術論文などの文書において、列挙された化合物群は、何らかの類似性を有する化合物の集合であることが多い。本化合物分類方法では、分類対象となる化合物群の各々の化合物名から化合物の基礎となる部分構造を表す母核を判別して、各化合物の母核をもとに化合物群を分類する。

以下、分類対象となる化合物群を「第１〜第５の化合物」として、化合物分類装置１００の化合物分類処理例について説明する。

（１）化合物分類装置１００は、記憶部１１０を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、各々の化合物の母核となる部分構造の名称を表す文字列を検出する。記憶部１１０は、化合物分類装置１００がアクセス可能な記憶装置であり、化合物の母核となる部分構造の名称である母核名を記憶している。

ここで、第１の化合物の化合物名は「ＡＡＡＸＸＸ」である。第２の化合物の化合物名は「ＢＢＢＹＹＹ」である。第３の化合物の化合物名は「ＣＣＣＸＸＸ」である。第４の化合物の化合物名は「ＤＤＤＹＹＹ」である。第５の化合物の化合物名は「ＥＥＥＸＸＸ」である。

具体的には、例えば、置換命名法では母核を表す文字列が最後方にくることを利用して、化合物分類装置１００が、化合物の化合物名の末尾からｔ（ｔ＝１，２，３，…）文字の文字列と、記憶部１１０に記憶されている母核名との一致判定を行う。そして、化合物分類装置１００が、記憶部１１０に記憶されている母核名と一致する文字列を、化合物の母核を表す文字列として検出する。

ここでは、第１〜第５の化合物のうち第１、第３および第５の化合物の化合物名の末尾から３文字の文字列「ＸＸＸ」が、記憶部１１０に記憶されている母核名「ＸＸＸ」と一致する。このため、第１、第３および第５の化合物の母核を表す文字列「ＸＸＸ」が検出される。また、第１〜第５の化合物のうち第２および第４の化合物の化合物名の末尾から３文字の文字列「ＹＹＹ」が、記憶部１１０に記憶されている母核名「ＹＹＹ」と一致する。このため、第２および第４の化合物の母核を表す文字列「ＹＹＹ」が検出される。

（２）化合物分類装置１００は、検出した各々の化合物の母核を表す文字列に基づいて、分類対象となる化合物群を分類する。具体的には、例えば、化合物分類装置１００が、分類対象となる第１〜第５の化合物を、母核を表す文字列が同一となる化合物同士をグループ化して分類する。

ここでは、第１〜第５の化合物が、第１、第３および第５の化合物を含むグループ１と、第２および第４の化合物を含むグループ２とに分類されている。グループ１は、母核を表す文字列が「ＸＸＸ」となる化合物の集合である。グループ２は、母核を表す文字列が「ＹＹＹ」となる化合物の集合である。

このように、本実施の形態にかかる化合物分類装置１００によれば、分類対象となる第１〜第５の化合物を、化合物の基礎となる部分構造を表す母核が同一となる化合物同士で分類することができる。これにより、第１〜第５の化合物の中から化合物の母核が同一の化合物の集合を判別することができる。この結果、例えば、第１〜第５の化合物のうちの母核が同一の化合物同士の類似性や差分を判断し易くすることができる。

また、詳細は後述するが、化合物分類装置１００は、分類対象となる第１〜第５の化合物のうち、特定の化合物の母核を表す文字列と他の化合物の母核を表す文字列とを比較することにより、第１〜第５の化合物を分類することにしてもよい。これにより、第１〜第５の化合物の中から、特定の化合物と母核が同一の化合物の集合を判別して、特定の化合物と母核が同一の化合物同士の類似性や差分を判断し易くすることができる。

（システム２００のシステム構成例）
つぎに、実施の形態にかかるシステム２００のシステム構成例について説明する。図２は、システム２００のシステム構成例を示す説明図である。図２において、システム２００は、化合物分類装置１００と、複数のクライアント装置２０１（図面では、３台）と、を含む。

システム２００において、化合物分類装置１００およびクライアント装置２０１は、有線または無線のネットワーク２１０を介して接続されている。ネットワーク２１０は、例えば、インターネット、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などである。

ここで、化合物分類装置１００は、構造解析ルールＤＢ（データベース）２２０、構造式ＤＢ２３０および基本構造抽出ルールＤＢ２４０を有する。なお、構造解析ルールＤＢ２２０、構造式ＤＢ２３０および基本構造抽出ルールＤＢ２４０についての詳細な説明は、図４〜図６を用いて後述する。

クライアント装置２０１は、システム２００のユーザが使用するＰＣ（パーソナル・コンピュータ）、ノートＰＣなどである。例えば、システム２００において、クライアント装置２０１から化合物分類装置１００に分類対象となる化合物群の各々の化合物名を表すテキストデータが送信されると、化合物群を分類した分類結果が化合物分類置１００からクライアント端末２０１に送信される。

（化合物分類装置１００のハードウェア構成例）
図３は、化合物分類装置１００のハードウェア構成例を示すブロック図である。図３において、化合物分類装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１と、ＲＯＭ（Ｒｅａｄ‐ＯｎｌｙＭｅｍｏｒｙ）３０２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０３と、磁気ディスクドライブ３０４と、磁気ディスク３０５と、光ディスクドライブ３０６と、光ディスク３０７と、Ｉ／Ｆ（Ｉｎｔｅｒｆａｃｅ）３０８と、ディスプレイ３０９と、キーボード３１０と、マウス３１１と、を有している。また、各構成部はバス３００によってそれぞれ接続されている。

ここで、ＣＰＵ３０１は、化合物分類装置１００の全体の制御を司る。ＲＯＭ３０２は、ブートプログラムなどのプログラムを記憶している。ＲＡＭ３０３は、ＣＰＵ３０１のワークエリアとして使用される。磁気ディスクドライブ３０４は、ＣＰＵ３０１の制御にしたがって磁気ディスク３０５に対するデータのリード／ライトを制御する。磁気ディスク３０５は、磁気ディスクドライブ３０４の制御で書き込まれたデータを記憶する。

光ディスクドライブ３０６は、ＣＰＵ３０１の制御にしたがって光ディスク３０７に対するデータのリード／ライトを制御する。光ディスク３０７は、光ディスクドライブ３０６の制御で書き込まれたデータを記憶したり、光ディスク３０７に記憶されたデータをコンピュータに読み取らせたりする。

Ｉ／Ｆ３０８は、通信回線を通じてネットワーク２１０に接続され、ネットワーク２１０を介して、他のコンピュータ、例えば、クライアント装置２０１に接続される。そして、Ｉ／Ｆ３０８は、ネットワーク２１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。Ｉ／Ｆ３０８には、例えば、モデムやＬＡＮアダプタなどを採用することができる。

ディスプレイ３０９は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ３０９は、例えば、ＣＲＴ、ＴＦＴ液晶ディスプレイ、プラズマディスプレイなどを採用することができる。

キーボード３１０は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス３１１は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。

なお、化合物分類装置１００は、上述した構成部のうち、例えば、光ディスクドライブ３０６、光ディスク３０７、ディスプレイ３０９、キーボード３１０、マウス３１１などを有していなくてもよい。また、クライアント装置２０１は、上述した化合物分類装置１００と同様のハードウェア構成により実現することができる。

（各種ＤＢ２２０，２３０，２４０の記憶内容）
つぎに、各種ＤＢ２２０，２３０，２４０の記憶内容について説明する。各種ＤＢ２２０，２３０，２４０は、例えば、図３に示したＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されている。

図４は、構造解析ルールＤＢ２２０の記憶内容の一例を示す説明図である。図４において、構造解析ルールＤＢ２２０は、ルールＩＤ、ルール名、ルール内容および付記のフィールドを有する。各フィールドに情報を設定することで、ルール情報（例えば、ルール情報４００−１〜４００−８）がレコードとして記憶されている。

ここで、ルールＩＤは、構造解析ルールの識別子である。構造解析ルールは、化合物の構造を解析するための決まりごとを規定したものである。ルール名は、構造解析ルールの名称である。ルール内容は、構造解析ルールの内容である。付記は、ルール内容の補足である。

ルール情報４００−１を例に挙げると、ルール１のルール名「有機化合物」およびルール内容「親子関係が基本である。親は母核、子は置換基となる。」が示されている。ルール情報４００−１によれば、化合物分類装置１００は、有機化合物は親子関係が基本であり、親は母核、子は置換基となることを認識することができる。

また、ルール情報４００−２を例に挙げると、ルール２のルール名「母核」、ルール内容「語頭＋語幹＋語尾の構成である。炭素鎖が第１階層の母核となる。」および付記「母核炭素鎖は構造式ＤＢを参照」が示されている。ルール情報４００−２によれば、化合物分類装置１００は、母核は語頭＋語幹＋語尾の構成であることを認識することができる。また、化合物分類装置１００は、炭素鎖が第１階層の母核となることを認識することができる。また、化合物分類装置１００は、母核炭素鎖は構造式ＤＢ２３０を参照して特定できることを認識することができる。

図５は、構造式ＤＢ２３０の記憶内容の一例を示す説明図である。図５において、構造式ＤＢ２３０は、化合物ＩＤ、化合物の種類、環フラグ、化合物名、構造式、原子間結合なし構造式および備考のフィールドを有する。各フィールドに情報を設定することで、化合物ごとの構造式情報５１０−１〜５１０−Ｋ，５２０−１〜５２０−Ｐがレコードとして記憶されている。具体的には、構造式情報５１０−１〜５１０−Ｋは、母核を表す化合物の構造式情報である。また、構造式情報５２０−１〜５２０−Ｐは、置換基を表す化合物の構造式情報である。

ここで、化合物ＩＤは、母核または置換基を表す化合物の識別子である。以下の説明では、母核Ｂ１〜ＢＫのうち任意の母核を「母核Ｂｋ」と表記する場合がある（ｋ＝１，２，…，Ｋ）。また、置換基Ｃ１〜ＣＰのうち任意の置換基を「置換基Ｃｐ」と表記する場合がある（ｐ＝１，２，…，Ｐ）。

化合物の種類は、母核または置換基を表す化合物の種類である。環フラグは、母核または置換基を表す化合物が環構造であるか否かを示すフラグである。環フラグは、環構造の場合「Ｙｅｓ」、環構造ではない場合「Ｎｏ」となる。化合物名は、母核または置換基を表す化合物の名称である。

構造式は、母核または置換基を表す化合物の構造式である。構造式とは、化合物内での元素の結合状態を図示した化学式である。構造式に含まれる各々の炭素元素には、炭素番号が付されている。原子間結合なし構造式は、構造式から原子間の結合を示す価標を除外したものである。備考は、構造式に関する補足情報である。備考フィールドには、例えば、構造式を略記法で表したものなどが設定される。

構造式情報５１０−１を例に挙げると、母核Ｂ１を表す化合物の種類「直鎖炭化水素」、環フラグ「Ｎｏ」、化合物名「メタン」、構造式「ＣＨ４」および原子間結合なし構造式「ＣＨ４」が示されている。また、構造式「ＣＨ４」に含まれる炭素元素「Ｃ」には炭素番号「１」が付されている。

構造式情報５２０−１を例に挙げると、置換基Ｃ１を表す化合物の環フラグ「Ｎｏ」、化合物名「メチル」、構造式「ＣＨ３−」および原子間結合なし構造式「ＣＨ３−」が示されている。また、構造式「ＣＨ３−」に含まれる炭素元素「Ｃ」には炭素番号「１」が付されている。

なお、図５に示した構造式ＤＢ２３０のデータ構造では、母核Ｂ１〜ＢＫの構造式情報５１０−１〜５１０−Ｋと、置換基Ｃ１〜ＣＰの構造式情報５２０−１〜５２０−Ｐと、を区別して示したが、これに限らない。例えば、第２階層以降は、置換基Ｃ１〜ＣＰも母核となり得るため、構造式ＤＢ２３０において、母核と置換値とを区別することなく、化合物ごとに構造式情報を管理することにしてもよい。

図６は、基本構造抽出ルールＤＢ２４０の記憶内容の一例を示す説明図である。図６において、基本構造抽出ルールＤＢ２４０は、ルールＩＤおよびルール内容のフィールドを有する。各フィールドに情報を設定することで、基本構造抽出ルール情報（例えば、基本構造抽出ルール情報６００−１〜６００−５）がレコードとして記憶されている。

ここで、ルールＩＤは、基本構造抽出ルールの識別子である。基本構造抽出ルールは、電子文書の中から、基本構造となる化合物の化合物名を抽出するための決まりごとを規定したものである。基本構造となる化合物とは、例えば、化学系や薬学系などの特許文献や学術論文などの電子文書に列挙された化合物群のうち、最も基本的な構造を有する化合物である。ルール内容は、基本構造抽出ルールの内容である。

基本構造抽出ルール６００−１を例に挙げると、ルール１のルール内容『特許明細書中の化合物の中には、「特にＸＸＸが好ましい。」で表現される化合物が存在する場合がある。』が示されている。基本構造抽出ルール情報６００−１によれば、化合物分類装置１００は、特許明細書中に表現された「特にＸＸＸが好ましい。」の「ＸＸＸ」は、基本構造となる化合物の化合物名となることを認識することができる。

また、基本構造抽出ルール６００−５を例に挙げると、ルール５のルール内容『特許明細書中の化合物は、化合物群中で「、」で区切って分割して先頭のＸＸＸを抽出する。』が示されている。基本構造抽出ルール６００−５によれば、化合物分類装置１００は、特許明細書中の化合物は、「、」で区切って表現されていることを認識することができる。

（化合物分類装置１００の機能的構成例）
つぎに、化合物分類装置１００の機能的構成例について説明する。図７は、化合物分類装置１００の機能的構成例を示すブロック図である。図７において、化合物分類装置１００は、受付部７０１と、検出部７０２と、抽出部７０３と、特定部７０４と、分類部７０５と、比較部７０６と、算出部７０７と、判定部７０８と、設定部７０９と、作成部７１０と、出力部７１１と、を含む構成である。受付部７０１〜出力部７１１は制御部となる機能であり、具体的には、例えば、図３に示したＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されたプログラムをＣＰＵ３０１に実行させることにより、または、Ｉ／Ｆ３０８により、その機能を実現する。また、各機能部の処理結果は、例えば、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶される。

受付部７０１は、分類対象となる化合物群の各々の化合物の化合物名を受け付ける機能を有する。具体的には、例えば、受付部７０１が、図３に示したキーボード３１０やマウス３１１を用いたユーザの操作入力により、分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。また、受付部７０１が、例えば、分類対象となる化合物群の各々の化合物の化合物名を表すテキストデータをクライアント装置２０１から受信することにより、分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。

また、受付部７０１は、分類対象となる化合物群のうち基本構造となる化合物の指定を受け付けることにしてもよい。具体的には、例えば、受付部７０１が、キーボード３１０やマウス３１１を用いたユーザの操作入力により、分類対象となる化合物群のうち基本構造となる化合物の指定を受け付けることにしてもよい。また、受付部７０１が、例えば、分類対象となる化合物群のうち基本構造となる化合物の化合物名を表すテキストデータをクライアント装置２０１から受信することにより、基本構造となる化合物の指定を受け付けることにしてもよい。

なお、受け付けられた分類対象となる化合物群の各々の化合物の化合物名は、例えば、後述の図８に示す分割テーブル８００に記憶される。

また、化合物分類装置１００は、図６に示した基本構造抽出ルールＤＢ２４０を参照して、電子文書の中から分類対象となる化合物群の各々の化合物の化合物名を検出することにしてもよい。この場合、受付部７０１は、電子文書の中から検出された分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。

また、化合物分類装置１００は、例えば、基本構造抽出ルールＤＢ２４０を参照して、分類対象となる化合物群の検出元となる電子文書の中から、分類対象となる化合物群のうち基本構造となる化合物の化合物名を検出することにしてもよい。この場合、受付部７０１は、電子文書の中から検出された基本構造となる化合物の化合物名を受け付けることにしてもよい。

ここで、電子文書は、例えば、特許文献や学術論文などの技術文書である。電子文書は、例えば、化合物分類装置１００に入力されてＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されている。一例として、特許明細書中に、『前記一般式（Ｉ）で表されるＡＡＡ類の代表例としては、＃＃＃、＄＄＄、＠＠＠などが挙げられる。特に、＄＄＄が好ましい。』と記載されているとする。

この場合、化合物分類装置１００は、分類対象となる化合物群として、特許明細書の中から「、」で区切られている「＃＃＃」、「＄＄＄」および「＠＠＠」を検出する。また、化合物分類装置１００は、分類対象となる化合物群のうちの基本構造となる化合物の化合物名として、特許明細書の中から「＄＄＄」を検出する。

以下の説明では、分類対象となる化合物群を「化合物群Ｍ１〜ＭＲ」と表記する場合がある（Ｒは２以上の自然数）。また、化合物群Ｍ１〜ＭＲのうち任意の化合物を「化合物Ｍｒ」と表記する場合がある（ｒ＝１，２，…，Ｒ）。また、化合物Ｍｒの化合物名を「化合物名Ｎｒ」と表記する場合がある。

検出部７０２は、構造式ＤＢ２３０を参照して、化合物群Ｍ１〜ＭＲの各々の化合物の化合物名の中から、各々の化合物の母核となる部分構造の名称を表す文字列を検出する機能を有する。ここで、文字列とは、化合物の化合物名において連続する１以上の文字の集合である。

上述したように、置換命名法において、化合物の母核を表す文字列は、化合物の化合物名の最後方に記述される。検出部７０２は、例えば、この置換命名法の特徴を利用して、化合物Ｍｒの化合物名Ｎｒの中から、化合物Ｍｒの母核を表す文字列を検出することができる。

具体的には、例えば、検出部７０２が、構造式ＤＢ２３０の中から母核Ｂｋの化合物名を選択する。つぎに、検出部７０２が、選択した母核Ｂｋの化合物名の文字数ｔを特定する。そして、検出部７０２が、化合物Ｍｒの化合物名Ｎｒの末尾からｔ文字の文字列と、母核Ｂｋの化合物名とが一致するか否かを判断する。ここで、母核Ｂｋの化合物名と一致する場合、検出部７０２が、化合物名Ｎｒの末尾からｔ文字の文字列を、化合物Ｍｒの母核を表す文字列として検出する。

また、他の検出手法として、例えば、検出部７０２が、「ｔ＝１」として、化合物Ｍｒの化合物名Ｎｒの末尾からｔ文字の文字列を検出する。そして、検出部７０２が、構造式ＤＢ２３０の中から、検出したｔ文字の文字列と化合物名が一致する母核Ｂｋを検出する。ここで、母核Ｂｋが検出された場合、検出部７０２が、化合物名Ｎｒの末尾からｔ文字の文字列を、化合物Ｍｒの母核を表す文字列として検出する。一方、母核Ｂｋが検出されなかった場合、検出部７０２が、「ｔ」をインクリメントして、化合物名Ｎｒの末尾からｔ文字の文字列を検出することにより処理を繰り返す。なお、「ｔ」が、構造式ＤＢ２３０に登録されている母核を表す化合物の化合物名の最大文字数を超えた場合、化合物Ｍｒの母核を表す文字列は非検出となる。

なお、検出された化合物Ｍｒの母核を表す文字列は、例えば、後述の図１１に示す母核比較テーブル１１００に記憶される。

抽出部７０３は、化合物群Ｍ１〜ＭＲの各々の化合物の化合物名のうち各々の化合物の母核を表す文字列を除く残余の文字列の中から、各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する機能を有する。また、抽出部７０３は、各々の化合物の化合物名のうち各々の化合物の母核を表す文字列を除く残余の文字列の中から、各々の化合物の母核に結合する置換基の結合位置を表す文字列を抽出することにしてもよい。

ここで、置換命名法において、化合物の置換基は、例えば「結合位置−置換基」という形式で記述される。そこで、まず、抽出部７０３が、化合物名Ｎｒのうち化合物Ｍｒの母核を表す文字列を除く残余の文字列を「数字−文字列」の組に分割する。文字列については、括弧に囲まれた部分も一つの文字列とする。そして、抽出部７０３が、各組の文字列を先頭から順番に第１〜第ｍ置換基の名称として抽出する。また、抽出部７０３が、各組の数字を先頭から順番に第１〜第ｍ置換基の結合位置として抽出する。

また、第ｊ置換基を表す文字列に倍数接頭辞が含まれている場合、第ｊ置換基が結合する母核の結合位置を表す文字列は、例えば、「数字，数字−文字列」というようにハイフン（−）の前の数字がカンマ（，）で区切られた形となることがある。ここで、倍数接頭辞とは、置換基の名称の前に付いて、置換基の数を示す接頭語である。

例えば、「ジ」は、置換基が２つであることを示す倍数接頭辞である。また、「トリ」は、置換基が３つであることを示す倍数接頭辞である。この場合、抽出部７０３は、化合物名Ｎｒのうち母核を表す文字列を除く残余の文字列を、例えば「数字，数字−文字列」を一組として分割する。すなわち、抽出部７０３が、第ｊ置換基が結合する母核の結合位置を表す文字列として「数字，数字−」を抽出する。

また、抽出部７０３は、置換基を表す文字列に倍数接頭辞が含まれている場合、置換基が結合する母核の結合位置を表す文字列と、置換基を表す文字列とを展開することにしてもよい。ここで、展開とは、倍数接頭辞を用いて集約されていた複数の置換基を各々の置換基に分解することである。

具体的には、例えば、抽出部７０３が、置換基が結合する母核の結合位置を表す文字列に含まれる「数字，」の「，」を「−」に変換する。そして、抽出部７０３が、「，」が「−」に変換された変換後の文字列を「数字−」ごとに分割するとともに、分割後の「数字−」のうち２番目以降の「数字−」の先頭に「−」を追加する。

この結果、１番目の「数字−」が、１番目の置換基が結合する母核の結合位置となる。また、２番目以降の「−数字−」が、それぞれ２番目以降の置換基が結合する母核の結合位置となる。また、抽出部７０３が、置換基を表す文字列から倍数接頭辞を削除し、削除後の文字列を「−−」の間（連続するハイフンとハイフンとの間）に挿入する。すなわち、置換基を表す文字列は、展開前の置換基を表す文字列から倍数接頭辞を削除した文字列となる。なお、展開例については、図９および図１０を用いて後述する。

なお、抽出された化合物Ｍｒの置換基を表す文字列は、例えば、後述の図１７に示す置換基比較テーブル１７００に記憶される。また、抽出された化合物Ｍｒの母核に結合する各置換基の結合位置を表す文字列は、例えば、母核比較テーブル１１００および置換基比較テーブル１７００に記憶される。

特定部７０４は、構造式ＤＢ２３０を参照して、検出された各々の化合物の母核を表す文字列に対応する母核の構造の種類を特定する機能を有する。具体的には、例えば、特定部７０４が、構造式ＤＢ２３０内の構造式情報５１０−１〜５１０−Ｋの中から、化合物Ｍｒの母核を表す文字列が化合物名フィールドに設定されている構造式情報５１０−ｋを特定する。そして、特定部７０４が、構造式情報５１０−ｋの化合物の種類フィールドに設定されている化合物の種類を特定する。これにより、化合物Ｍｒの母核を表す化合物の構造の種類を特定することができる。なお、特定された化合物Ｍｒの母核の構造の種類は、例えば、母核比較テーブル１１００に記憶される。

また、特定部７０４は、構造式ＤＢ２３０を参照して、検出された各々の化合物の母核を表す文字列に対応する母核の構造式に含まれる特定の元素の元素数を特定する機能を有する。ここで、特定の元素は、例えば、炭素、窒素、酸素、硫黄、燐、ハロゲンなどである。なお、特定の元素とする元素の元素記号は、例えば、ＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されている。

以下の説明では、特定の元素として「炭素」を例に挙げて説明する。具体的には、例えば、特定部７０４が、構造式ＤＢ２３０内の構造式情報５１０−１〜５１０−Ｋの中から、化合物Ｍｒの母核を表す文字列が化合物名フィールドに設定されている構造式情報５１０−ｋを特定する。つぎに、特定部７０４が、構造式情報５１０−ｋの構造式フィールドに設定されている構造式を特定する。そして、特定部７０４が、特定した構造式に含まれる炭素の元素数を特定する。これにより、化合物Ｍｒの母核を表す化合物の構造式に含まれる炭素数を特定することができる。なお、特定された化合物Ｍｒの母核の炭素数は、例えば、母核比較テーブル１１００に記憶される。

また、特定部７０４は、構造式ＤＢ２３０を参照して、抽出された各々の化合物の置換基を表す文字列に対応する置換基の構造式に含まれる炭素数を特定することにしてもよい。具体的には、例えば、特定部７０４が、構造式ＤＢ２３０内の構造式情報５２０−１〜５２０−Ｐの中から、化合物Ｍｒの第ｊ置換基を表す文字列が化合物名フィールドに設定されている構造式情報５２０−ｐを特定する。つぎに、特定部７０４が、構造式情報５２０−ｐの構造式フィールドに設定されている構造式を特定する。そして、特定部７０４が、特定した構造式に含まれる炭素の元素数を特定する。これにより、化合物Ｍｒの第ｊ置換基母核を表す化合物の構造式に含まれる炭素数を特定することができる。なお、特定された化合物Ｍｒの第ｊ置換基の炭素数は、例えば、置換基比較テーブル１７００に記憶される。

特定部７０４は、抽出された抽出結果に基づいて、化合物群Ｍ１〜ＭＲの各々の化合物の置換基の数を特定することにしてもよい。例えば、化合物Ｍｒの母核に結合する置換基として第１〜第ｍ置換基が抽出された場合、特定部７０４は、化合物Ｍｒの置換基数「ｍ」を特定する。なお、特定された化合物Ｍｒの置換基数は、例えば、母核比較テーブル１１００に記憶される。

分類部７０５は、化合物群Ｍ１〜ＭＲを分類する機能を有する。具体的には、例えば、分類部７０５が、共通する特徴を有する化合物同士をまとめた集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。

分類部７０５は、検出された各々の化合物の母核を表す文字列に基づいて、化合物群Ｍ１〜ＭＲを分類する機能を有する。具体的には、例えば、分類部７０５が、母核を表す文字列が同一の化合物の集合ごとに化合物群Ｍ１〜ＭＲを分類する。これにより、化合物の基礎となる部分構造を表す母核が同一の化合物同士を分類することができる。

以下、母核を表す文字列が同一の化合物群を、さらに細かく分類する分類部７０５の具体的な処理内容を表す（分類例１）〜（分類例６）について説明する。

（分類例１）
分類部７０５は、さらに、抽出された各々の化合物の置換基を表す文字列に基づいて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。具体的には、例えば、分類部７０５が、母核を表す文字列が同一かつ置換基を表す文字列が同一の化合物の集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一かつ化合物の系統や命名に使う部分構造を表す置換基が同一の化合物同士を分類することができる。なお、文字列の比較対象となる置換基は、例えば、各々の化合物の第ｊ置換基である。

（分類例２）
分類部７０５は、さらに、特定された各々の化合物の置換基の数に基づいて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。具体的には、例えば、分類部７０５が、母核を表す文字列が同一かつ置換基の数が同一の化合物の集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基数が同一の化合物同士を分類することができる。

また、分類部７０５が、母核を表す文字列が同一かつ置換基の数の差が所定数α以内の化合物の集合ごとに、化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基数の差が所定数α以内の化合物同士を分類することができる。所定数αは、例えば、「α＝１」や「α＝２」などに設定される。なお、所定数αは、例えば、予め設定されてＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されていてもよい。

（分類例３）
分類部７０５は、さらに、各々の化合物の置換基の結合位置を表す文字列に基づいて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。具体的には、例えば、分類部７０５が、母核を表す文字列が同一かつ母核に結合する各化合物の置換基の結合位置を表す文字列が同一の化合物の集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一かつ各置換基の結合位置が同一の化合物同士を分類することができる。

（分類例４）
分類部７０５は、さらに、特定された各々の化合物の母核の構造の種類に基づいて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。ここで、母核の構造の種類とは、母核を表す化合物の分子構造の種類を表すものである。母核の構造の種類としては、例えば、直鎖炭化水素、芳香族炭化水素、脂環式炭化水素などがある。

具体的には、例えば、分類部７０５が、母核を表す文字列が同一の化合物の第１集合と、母核を表す文字列が異なりかつ母核の構造の種類が同一の化合物の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の構造の種類が同一の化合物同士を分類することができる。なお、母核が同一の化合物同士は、母核の種類も同一である。

（分類例５）
分類部７０５は、さらに、特定された各々の化合物の母核の構造式に含まれる炭素数に基づいて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。具体的には、例えば、分類部７０５が、母核を表す文字列が同一の化合物の第１集合と、母核を表す文字列が異なりかつ母核の構造式に含まれる炭素数が同一の化合物の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の炭素数が同一の化合物同士を分類することができる。なお、母核が同一の化合物同士は、炭素数も同一である。

また、分類部７０５が、母核を表す文字列が同一の化合物の第１集合と、母核を表す文字列が異なりかつ母核の構造式に含まれる炭素数の差が所定数β以内の化合物の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の炭素数の差が所定数β以内の化合物同士を分類することができる。所定数βは、例えば、「β＝３」や「β＝５」などに設定される。なお、所定数βは、例えば、予め設定されてＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されていてもよい。

（分類例６）
分類部７０５は、さらに、特定された各々の化合物の置換基の構造式に含まれる炭素数に基づいて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。具体的には、例えば、分類部７０５が、母核を表す文字列が同一かつ置換基の構造式に含まれる炭素数が同一の化合物の集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基の炭素数が同一の化合物同士を分類することができる。なお、炭素数の比較対象となる置換基は、例えば、各々の化合物の第ｊ置換基である。

また、分類部７０５が、母核を表す文字列が同一かつ置換基の構造式に含まれる炭素数の差が所定数γ以内の化合物の集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基の炭素数の差が所定数γ以内の化合物同士を分類することができる。所定数γは、例えば、「γ＝３」や「γ＝５」などに設定される。なお、所定数γは、例えば、予め設定されてＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されていてもよい。

また、分類部７０５は、上述した（分類例１）〜（分類例６）のうちの２以上の分類例を組み合わせて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。例えば、（分類例１）および（分類例２）を組み合わせることにより、分類部７０５が、母核を表す文字列が同一かつ置換基を表す文字列が同一かつ置換基数が同一の化合物の集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。

これにより、化合物の母核が同一かつ置換基が同一かつ置換基数が同一の化合物同士を分類することができる。また、化合物の母核が同一かつ置換基（少なくともいずれかの置換基）が同一かつ置換基数が異なる化合物同士を分類することができる。また、化合物の母核が同一かつ置換基数が同一かつ置換基が異なる化合物同士を分類することができる。

なお、上述した説明では、母核を表す文字列が同一の化合物群をさらに分類する場合について説明したが、これに限らない。例えば、分類部７０５は、母核を表す文字列、母核の構造の種類、母核の炭素数、置換基を表す文字列、置換基数、置換基の結合位置、置換基の炭素数の少なくともいずれかが共通する化合物同士をまとめた集合ごとに化合物群Ｍ１〜ＭＲを分類することにしてもよい。

つぎに、化合物群Ｍ１〜ＭＲのうち特定の化合物と、特定の化合物と共通の特徴を有する他の化合物とをまとめた集合に化合物群Ｍ１〜ＭＲを分類する場合について説明する。ここで、特定の化合物とは、例えば、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物である。基本構造となる化合物は、例えば、上記受付部７０１の受付結果から特定される。

比較部７０６は、化合物群Ｍ１〜ＭＲのうち特定の化合物の母核を表す文字列と、化合物群Ｍ１〜ＭＲのうち特定の化合物とは異なる他の化合物の母核を表す文字列とを比較する機能を有する。この場合、分類部７０５は、比較された比較結果に基づいて、化合物群Ｍ１〜ＭＲを分類することにしてもよい。

具体的には、例えば、分類部７０５が、特定の化合物と母核を表す文字列が同一の化合物の集合と、特定の化合物と母核を表す文字列が異なる化合物の集合とに化合物群Ｍ１〜ＭＲを分類する。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一の化合物同士を分類することができる。

以下、特定の化合物と母核を表す文字列が同一の化合物群をさらに分類する分類部７０５の具体的な処理内容を表す（分類例７）〜（分類例１２）について説明する。

（分類例７）
比較部７０６は、さらに、特定の化合物の置換基を表す文字列と、他の化合物の置換基を表す文字列とを比較することにしてもよい。この場合、分類部７０５が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基を表す文字列が同一の化合物の第１集合と、第１集合の化合物とは異なる化合物の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基が同一の化合物同士を分類することができる。

なお、文字列の比較対象となる置換基は、例えば、特定の化合物の第ｊ置換基と、他の化合物の第ｊ置換基である。また、特定の化合物の第ｊ置換基が複合置換基の場合は、比較部７０６が、特定の化合物の第ｊ置換基を表す文字列と、他の化合物の第１〜第ｍ置換基のうち複合置換基となる置換基を表す文字列とを比較することにしてもよい。この際、他の化合物の第１〜第ｍ置換基のうち複合置換基となる置換基が複数存在する場合は、他の化合物の複合置換基となる複数の置換基のうち、特定の化合物の第ｊ置換基を表す文字列との類似度が最大の置換基を比較対象とすることにしてもよい。

また、分類部７０５が、例えば、第２集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第３集合と、第３集合の化合物とは異なる化合物の第４集合とに分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基が異なる化合物同士を分類することができる。

（分類例８）
比較部７０６は、さらに、特定の化合物の置換基数と、他の化合物の置換基数とを比較することにしてもよい。この場合、分類部７０５が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基数が同一の化合物の第１集合と、第１集合の化合物とは異なる化合物の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基数が同一の化合物同士を分類することができる。

また、分類部７０５が、例えば、第２集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第３集合と、第３集合の化合物とは異なる化合物の第４集合とに分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基数が異なる化合物同士を分類することができる。

（分類例９）
比較部７０６は、さらに、特定の化合物の置換基の結合位置を表す文字列と、他の化合物の置換基の結合位置を表す文字列とを比較することにしてもよい。この場合、分類部７０５が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基の結合位置が同一の化合物の第１集合と、第１集合の化合物とは異なる化合物の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基の結合位置が同一の化合物同士を分類することができる。

また、分類部７０５が、第２集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第３集合と、第３集合の化合物とは異なる化合物の第４集合とに分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基の結合位置が異なる化合物同士を分類することができる。

（分類例１０）
比較部７０６は、さらに、特定の化合物の母核の構造の種類と、他の化合物の母核の構造の種類とを比較することにしてもよい。この場合、分類部７０５が、例えば、特定の化合物と母核を表す文字列が同一の化合物の第１集合と、特定の化合物と母核を表す文字列が異なり、かつ、特定の化合物と母核の構造の種類が同一の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。

これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一の化合物同士を分類するとともに、基本構造となる化合物と母核は異なるが母核の構造の種類が基本構造となる化合物と同一の化合物同士を分類することができる。

（分類例１１）
比較部７０６は、さらに、特定の化合物の母核の構造式に含まれる炭素数と、他の化合物の母核の構造式に含まれる炭素数とを比較することにしてもよい。この場合、分類部７０５が、例えば、特定の化合物と母核を表す文字列が同一の化合物の第１集合と、特定の化合物と母核を表す文字列が異なり、かつ、特定の化合物と母核の炭素数が同一の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。

これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一の化合物同士を分類するとともに、基本構造となる化合物と母核は異なるが母核の炭素数が基本構造となる化合物と同一の化合物同士を分類することができる。

（分類例１２）
比較部７０６は、さらに、特定の化合物の置換基の構造式に含まれる炭素数と、他の化合物の置換基の構造式に含まれる炭素数とを比較することにしてもよい。この場合、分類部７０５が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基の炭素数が同一の化合物の第１集合と、第１集合の化合物とは異なる化合物の第２集合とに化合物群Ｍ１〜ＭＲを分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基の炭素数が同一の化合物同士を分類することができる。

また、分類部７０５が、第２集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第３集合と、第３集合の化合物とは異なる化合物の第４集合とに分類することにしてもよい。これにより、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一かつ置換基の炭素数が異なる化合物同士を分類することができる。

算出部７０７は、比較された比較結果に基づいて、特定の化合物と他の化合物との類似度合いを表す類似度を算出することにしてもよい。具体的には、例えば、算出部７０７が、ある項目について、他の化合物が特定の化合物と共通の項目値を有する場合、他の化合物の類似度に所定値を加算することにより、他の化合物の類似度を算出することにしてもよい。

ここで、項目とは、例えば、母核を表す文字列、置換基を表す文字列、置換基数、置換基の結合位置、母核の構造の種類、母核の炭素数、置換基の炭素数などである。また、他の化合物の類似度の初期値は、例えば「０」である。所定値は、全項目で共通の値であってもよく、また、項目ごとに設定される値であってもよい。

より具体的には、例えば、算出部７０７が、他の化合物の母核を表す文字列が特定の化合物と同一の場合、他の化合物の類似度に「３」を加算し、他の化合物の母核の構造の種類が特定の化合物と同一の場合、他の化合物の類似度に「１」を加算する。所定値は、予め設定されてＲＯＭ３０２、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶されている。

判定部７０８は、抽出された化合物Ｍｒの第ｊ置換基を表す文字列に基づいて、化合物Ｍｒの第ｊ置換基が別の置換基を含む複合置換基か否かを判定する機能を有する。上述したように、有機化合物の化合物名において、複合置換基を表す文字列は、例えば、括弧やかぎ括弧で囲まれている。このため、判定部７０８が、例えば、化合物Ｍｒの第ｊ置換基を表す文字列が、括弧やかぎ括弧で囲まれた文字列か否かを判定することにより、第ｊ置換基が複合置換基か否かを判定することができる。

設定部７０９は、化合物Ｍｒの第ｊ置換基が複合置換基であると判定された場合、化合物Ｍｒの第ｊ置換基を表す文字列を、分類対象となる化合物の化合物名に設定する機能を有する。この場合、検出部７０２は、構造式ＤＢ２３０を参照して、設定された分類対象となる化合物の化合物名の中から、該化合物の母核となる部分構造の名称を表す文字列を検出することにしてもよい。

これにより、別の置換基を含む複合置換基を新たな分類対象となる化合物として、上記抽出部７０３、特定部７０４および分類部７０５等の一連の処理が再帰的に実行され、複合置換基を表す文字列を分類することができる。

ただし、第２階層以降、すなわち、複合置換基を表す文字列を分類対象とする場合、検出部７０２は、例えば、構造式ＤＢ２３０の中から置換基Ｃｐの化合物名を選択する。そして、検出部７０２が、選択した置換基Ｃｐの化合物名の文字数ｔを特定する。つぎに、検出部７０２が、新たな分類対象となる化合物の化合物名の末尾からｔ文字の文字列と、置換基Ｃｐの化合物名とが一致するか否かを判断する。ここで、置換基Ｃｐの化合物名と一致する場合、検出部７０２が、新たな分類対象となる化合物の化合物名の末尾からｔ文字の文字列を、該化合物の母核を表す文字列として検出する。

また、分類部７０５は、化合物群Ｍ１〜ＭＲの母核比較テーブルを作成することにしてもよい。母核比較テーブルは、各化合物Ｍｒの母核の特徴を比較するための表データである。具体的には、例えば、分類部７０５が、分類した集合ごとに、該集合に含まれる各化合物Ｍｒの母核の化合物名、置換基数、置換基の結合位置、母核の構造の種類、母核の炭素数などを示す母核比較テーブルを作成することにしてもよい。

この際、分類部７０５が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした母核比較テーブルを作成することにしてもよい。なお、母核比較テーブルの具体例については、図１１〜図１６を用いて後述する。

また、分類部７０５は、化合物群Ｍ１〜ＭＲの置換基比較テーブルを作成することにしてもよい。置換基比較テーブルは、各化合物Ｍｒの置換基の特徴を比較するための表データである。具体的には、例えば、分類部７０５が、分類した集合ごとに、該集合に含まれる各化合物Ｍｒの第ｊ置換基の化合物名、結合位置、炭素数などを示す置換基比較テーブルを作成することにしてもよい。

この際、分類部７０５が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした置換基比較テーブルを作成することにしてもよい。なお、置換基比較テーブルの具体例については、図１７〜図２１を用いて後述する。

作成部７１０は、化合物群Ｍ１〜ＭＲの比較リストを作成する機能を有する。比較リストとは、各化合物Ｍｒの特徴を比較するための表データである。具体的には、例えば、作成部７１０が、母核比較テーブルおよび置換基比較テーブルを参照して、化合物群Ｍ１〜ＭＲの比較リストを作成することにしてもよい。

この際、作成部７１０が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、分類された各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした比較リストを作成することにしてもよい。なお、比較リストの具体例については、図２２および図２３を用いて後述する。

出力部７１１は、分類された分類結果を出力する機能を有する。具体的には、例えば、出力部７１１が、作成された母核比較テーブルの記憶内容や置換基比較テーブルの記憶内容を出力することにしてもよい。また、出力部７１１は、作成された比較リストを出力することにしてもよい。

出力部７１１の出力形式としては、例えば、ディスプレイ３０９への表示、プリンタ（不図示）への印刷出力、Ｉ／Ｆ３０８による外部のコンピュータへの送信がある。外部のコンピュータは、例えば、化合物群Ｍ１〜ＭＲの各々の化合物の化合物名を表すテキストデータの送信元のクライアント装置２０１である。また、ＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶領域に記憶することとしてもよい。

（分割テーブル８００の記憶内容の変遷例）
つぎに、図８〜図１０を用いて、分割テーブル８００の記憶内容の変遷例について説明する。分割テーブル８００には、上記検出部７０２の検出結果および抽出部７０３の抽出結果が反映される。この結果、分割テーブル８００によれば、第ｉ階層の母核を表す文字列、第ｊ置換基を表す文字列および結合位置を判別することができる。

図８〜図１０は、分割テーブル８００の記憶内容の変遷例を示す説明図である。図８において、分割テーブル８００は、化合物ＩＤおよび化合物名のフィールドを有する。各フィールドに情報を設定することで、各化合物Ｍｒの化合物名情報がレコードとして記憶される。ここで、化合物ＩＤは、化合物Ｍｒの識別子である。化合物名は、化合物Ｍｒの名称である。

図８の（８−１）において、化合物Ｍ１〜Ｍ１０の化合物名Ｎ１〜Ｎ１０が各フィールドに設定された結果、化合物名情報８００−１〜８００−１０がレコードとして記憶されている。化合物Ｍ１〜Ｍ１０の化合物名Ｎ１〜Ｎ１０は、受付部７０１により、分類対象となる化合物の化合物名として受け付けられたものである。

図８の（８−２）において、検出部７０２により、各化合物名Ｎ１〜Ｎ１０の中から各化合物Ｍ１〜Ｍ１０の第１階層の母核を表す文字列が検出された結果、各化合物名Ｎ１〜Ｎ１０に第１階層の区切り記号が挿入されている。ここで、第ｉ階層の区切り記号とは、第ｉ階層の母核を表す文字列の直前に挿入される記号であり、例えば「／ｉ／」である。第ｉ階層の区切り記号によれば、化合物名Ｎｒの中から第ｉ階層の母核を表す文字列を識別することができる。

例えば、化合物Ｍ１の化合物名Ｎ１「２−（３−メチル−４−ヒドロキシフェニル）プロパン」の中から、化合物Ｍ１の第１階層の母核を表す文字列「プロパン」が検出された結果、「プロパン」の直前に第１階層の区切り記号「／１／」が挿入されている。

なお、化合物Ｍｒの第ｉ階層の母核を表す文字列が非検出であった場合、例えば、化合物Ｍｒの化合物名Ｎｒと関連付けて、第ｉ階層の母核を表す文字列が非検出であったことを示す不明フラグがＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶される。

図９の（８−３）において、検出部７０２により、各化合物名Ｎ１〜Ｎ１０の中から各化合物Ｍ１〜Ｍ１０の第２階層の母核を表す文字列が検出された結果、各化合物名Ｎ１〜Ｎ１０に第２階層の区切り記号が挿入されている。

例えば、化合物Ｍ１の化合物名Ｎ１「２−（３−メチル−４−ヒドロキシフェニル）プロパン」の中から化合物Ｍ１の第２階層の母核を表す文字列「フェニル」が検出された結果、化合物名情報８００−１の化合物名の「フェニル」の直前に第２階層の区切り記号「／２／」が挿入されている。

図９の（８−４）において、抽出部７０３により、化合物名Ｍ４，Ｍ７のうち倍数接頭辞を含む置換基を表す文字列の「数字，数字−」の「，」が「−」に変換され、「数字，数字−」の２番目の数字の直前に「−」が挿入されている。例えば、化合物名情報８００−４の倍数接頭辞を含む化合物名の「２，３−」の「，」が「−」に変換され、「２，３−」の２番目の数字「３」の先頭に「−」が挿入されている。

図１０の（８−５）において、抽出部７０３により、化合物名Ｍ４，Ｍ７の倍数接頭辞を含む置換基を表す文字列から倍数接頭辞が削除され、倍数接頭辞が削除された削除後の文字列が「−−」の間に挿入されている。例えば、化合物名情報８００−４の化合物名Ｍ４の倍数接頭辞を含む置換基を表す文字列「ジメチル」から倍数接頭辞「ジ」が削除され、倍数接頭辞が削除された削除後の文字列「メチル」が「−−」の間に挿入されている。これにより、倍数接頭辞を含む置換基の結合位置を分割することができる。

図１０の（８−６）において、抽出部７０３により、各化合物名Ｎ１〜Ｎ１０の中から各化合物Ｍ１〜Ｍ１０の第１および第２階層の置換基を表す文字列が抽出された結果、各化合物名Ｎ１〜Ｎ１０に区切り記号が挿入されている。ここで、区切り記号とは、第ｉ階層の置換基を表す文字列の直後に挿入される記号であり、例えば「／／」である。区切り記号によれば、化合物名Ｎｒの中から第ｉ階層の置換基を表す文字列を識別することができる。

例えば、化合物Ｍ１の化合物名Ｎ１「２−（３−メチル−４−ヒドロキシフェニル）プロパン」の中から、化合物Ｍ１の第２階層の第１置換基を表す文字列「メチル」が検出された結果、「メチル」の直後に区切り記号「／／」が挿入されている。また、化合物Ｍ１の第２階層の第２置換基を表す文字列「ヒドロキシ」が検出された結果、「ヒドロキシ」の直後に区切り記号「／／」が挿入されている。

なお、化合物Ｍｒの第ｉ階層の第ｊ置換基を表す文字列が非抽出であった場合、例えば、化合物Ｍｒの化合物名Ｎｒと関連付けて、第ｉ階層の第ｊ置換基を表す文字列が非抽出であったことを示す不明フラグがＲＡＭ３０３、磁気ディスク３０５、光ディスク３０７などの記憶装置に記憶される。

分割テーブル８００によれば、各化合物Ｍ１〜Ｍ１０の第１および第２階層の母核を表す文字列、第１および第２階層の第ｊ置換基を表す文字列および結合位置を判別することができる。ただし、各階層の第１置換基の直前の「数字−」は、母核に結合する第１置換基の結合位置である。また、「−数字−」は、母核に結合する第２以降の置換基の結合位置である。

例えば、化合物名情報８００−１によれば、化合物Ｍ１の第１階層の母核を表す文字列「プロパン」および第１階層の複合置換基「３−メチル−４−ヒドロキシフェニル」の結合位置「２」を判別することができる。また、化合物Ｍ１の第２階層の母核を表す文字列「フェニル」、第２階層の第１置換基を表す文字列「メチル」および結合位置「３」、第２階層の第２置換基を表す文字列「ヒドロキシ」および結合位置「４」を判別することができる。

（母核比較テーブルの記憶内容の変遷例）
つぎに、図１１〜図１６を用いて、図１０の（８−６）に示した分割テーブル８００の記憶内容に基づく母核比較テーブルの記憶内容の変遷例について説明する。以下の説明では、化合物Ｍ１〜Ｍ１０のうち化合物Ｍ１が基本構造となる化合物として指定された場合を例に挙げて説明する。

図１１〜図１６は、母核比較テーブルの記憶内容の変遷例を示す説明図である。図１１において、母核比較テーブル１１００は、化合物ＩＤ、階層名、母核の化合物名、同一フラグ、結合位置、同一フラグ、置換基数、同一フラグ、母核炭素数、同一フラグ、種類および同一フラグのフィールドを有する。各フィールドに情報を設定することで、化合物Ｍ１〜Ｍ１０ごとの母核比較情報がレコードとして記憶される。

ここで、化合物ＩＤは、化合物Ｍｒの識別子である。階層名は、第ｉ階層の名称である。例えば、第１階層の名称は「第１」である。母核の化合物名は、化合物Ｍｒの第ｉ階層の母核を表す化合物の名称である。同一フラグは、母核の化合物名が、基本構造となる化合物と同一か否かを示すフラグである。同一フラグは、初期状態では「０」であり、基本構造となる化合物と同一の場合に「１」が設定される。

結合位置は、化合物Ｍｒの第ｉ階層の母核に結合する第１〜第ｍ置換基の結合位置である。同一フラグは、母核に結合する第１〜第ｍ置換基の結合位置が、基本構造となる化合物と同一か否かを示すフラグである。置換基数は、化合物Ｍｒの第ｉ階層の母核に結合する置換基の数である。同一フラグは、母核に結合する置換基の数が、基本構造となる化合物と同一か否かを示すフラグである。

母核炭素数は、化合物Ｍｒの第ｉ階層の母核の構造式に含まれる炭素数である。同一フラグは、母核の構造式に含まれる炭素数が、基本構造となる化合物と同一か否かを示すフラグである。種類は、化合物Ｍｒの第ｉ階層の母核の構造の種類である。同一フラグは、母核の構造の種類が、基本構造となる化合物と同一か否かを示すフラグである。

図１１において、分類部７０５により、図１０の（８−６）に示した分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第１階層の母核の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第１階層の母核に結合する第１階層の各置換基の結合位置が設定されている。

図１２において、分類部７０５により、特定部７０４によって特定された化合物Ｍ１〜Ｍ１０の第１階層の母核に結合する置換基の置換基数が設定されている。また、分類部７０５により、特定部７０４によって特定された化合物Ｍ１〜Ｍ１０の第１階層の母核の構造式に含まれる炭素数が設定されている。また、分類部７０５により、特定部７０４によって特定された化合物Ｍ１〜Ｍ１０の第１階層の母核の構造の種類が設定されている。

図１３において、分類部７０５により、比較部７０６によって比較された比較結果に基づいて、第１階層の母核の化合物名が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第１階層の母核に結合する各置換基の結合位置が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５の同一フラグに「１」が設定されている。

また、分類部７０５により、比較された比較結果に基づいて、第１階層の母核に結合する置換基数が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５，Ｍ８〜Ｍ１０の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第１階層の母核の構造式に含まれる炭素数が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第１階層の母核の構造の種類が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ９の同一フラグに「１」が設定されている。

図１４において、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第２階層の母核の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第２階層の母核に結合する第２階層の各置換基の結合位置が設定されている。

図１５において、分類部７０５により、特定部７０４によって特定された化合物Ｍ１〜Ｍ１０の第２階層の母核に結合する置換基の置換基数が設定されている。また、分類部７０５により、特定部７０４によって特定された化合物Ｍ１〜Ｍ１０の第２階層の母核の構造式に含まれる炭素数が設定されている。

図１６において、分類部７０５により、比較部７０６によって比較された比較結果に基づいて、第２階層の母核の化合物名が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ１０の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第２階層の母核に結合する各置換基の結合位置が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１，Ｍ６〜Ｍ１０の同一フラグに「１」が設定されている。

また、分類部７０５により、比較された比較結果に基づいて、第２階層の母核に結合する置換基数が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１，Ｍ２，Ｍ６〜Ｍ１０の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第２階層の母核の構造式に含まれる炭素数が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ１０の同一フラグに「１」が設定されている。

ここで、分類部７０５は、母核比較テーブル１１００の記憶内容に基づいて、分類対象となる化合物Ｍ１〜Ｍ１０を分類することにしてもよい。ここでは、第１階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５と、それ以外の化合物Ｍ６〜Ｍ１０とに分類されている。

（置換基比較テーブルの記憶内容の変遷例）
つぎに、図１７〜図２１を用いて、図１０の（８−６）に示した分割テーブル８００の記憶内容に基づく置換基比較テーブルの記憶内容の変遷例について説明する。

図１７〜図２１は、置換基比較テーブルの記憶内容の変遷例を示す説明図である。図１７において、置換基比較テーブル１７００は、化合物ＩＤ、階層名、第ｊ置換基の化合物名、同一フラグ、結合位置、同一フラグ、置換基炭素数および同一フラグのフィールドを有する。各フィールドに情報を設定することで、化合物Ｍ１〜Ｍ１０ごとの置換基比較情報がレコードとして記憶される。

ここで、化合物ＩＤは、化合物Ｍｒの識別子である。階層名は、第ｉ階層の名称である。第ｊ置換基の化合物名は、化合物Ｍｒの第ｉ階層の第ｊ置換基を表す化合物の名称である。同一フラグは、第ｊ置換基の化合物名が、基本構造となる化合物と同一か否かを示すフラグである。

結合位置は、化合物Ｍｒの第ｉ階層の母核に結合する第ｊ置換基の結合位置である。同一フラグは、第ｊ置換基の結合位置が、基本構造となる化合物と同一か否かを示すフラグである。置換基炭素数は、化合物Ｍｒの第ｉ階層の第ｊ置換基の構造式に含まれる炭素数である。同一フラグは、第ｊ置換基の構造式に含まれる炭素数が、基本構造となる化合物と同一か否かを示すフラグである。

なお、各同一フラグの判定は、基本構造となる化合物Ｍ１の第ｊ置換基と各化合物Ｍ２〜Ｍ１０の第ｊ置換基とを比較することにより行われる。

図１７において、分類部７０５により、図１０の（８−６）に示した分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第１階層の第１置換基の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第１階層の母核に結合する第１置換基の結合位置が設定されている。ただし、第ｊ置換基が複合置換基の場合、第ｊ置換基の化合物名フィールドに「複」が設定される。

また、分類部７０５により、化合物Ｍ６，Ｍ７の第１階層の第２置換基の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ６，Ｍ７の第１階層の母核に結合する第２置換基の結合位置が設定されている。また、分類部７０５により、化合物Ｍ７の第１階層の第３置換基の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ７の第１階層の母核に結合する第３置換基の結合位置が設定されている。

図１８において、分類部７０５により、特定部７０４によって特定された化合物Ｍ１〜Ｍ１０の第１階層の第１置換基の構造式に含まれる炭素数が設定されている。また、分類部７０５により、特定された化合物Ｍ６，Ｍ７の第１階層の第２置換基の構造式に含まれる炭素数が設定されている。また、分類部７０５により、特定された化合物Ｍ７の第１階層の第３置換基の構造式に含まれる炭素数が設定されている。

図１９において、分類部７０５により、比較部７０６によって比較された比較結果に基づいて、第１階層の第１置換基の化合物名が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５，Ｍ７〜Ｍ１０の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第１階層の母核に結合する第１置換基の結合位置が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第１階層の第１置換基の構造式に含まれる炭素数が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１，Ｍ２，Ｍ７〜Ｍ１０の同一フラグに「１」が設定されている。

図２０において、分類部７０５により、図１０の（８−６）に示した分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第２階層の第１置換基の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第２階層の母核に結合する第１置換基の結合位置が設定されている。また、分類部７０５により、特定部７０４によって特定された化合物Ｍ１〜Ｍ１０の第２階層の第１置換基の構造式に含まれる炭素数が設定されている。

また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第２階層の第２置換基の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ１〜Ｍ１０の第２階層の母核に結合する第２置換基の結合位置が設定されている。また、分類部７０５により、特定された化合物Ｍ１〜Ｍ１０の第２階層の第２置換基の構造式に含まれる炭素数が設定されている。

また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ３〜Ｍ５の第２階層の第３置換基の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ３〜Ｍ５の第２階層の母核に結合する第３置換基の結合位置が設定されている。また、分類部７０５により、特定された化合物Ｍ３〜Ｍ５の第２階層の第３置換基の構造式に含まれる炭素数が設定されている。

また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ４の第２階層の第４置換基の化合物名が設定されている。また、分類部７０５により、分割テーブル８００を参照して、化合物Ｍ４の第２階層の母核に結合する第４置換基の結合位置が設定されている。また、分類部７０５により、特定された化合物Ｍ４の第２階層の第４置換基の構造式に含まれる炭素数が設定されている。

図２１において、分類部７０５により、比較部７０６によって比較された比較結果に基づいて、第２階層の第１置換基の化合物名が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ４，Ｍ６〜Ｍ１０の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第２階層の母核に結合する第１置換基の結合位置が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１，Ｍ３，Ｍ５〜Ｍ１０の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第２階層の第１置換基の構造式に含まれる炭素数が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ１０の同一フラグに「１」が設定されている。

また、分類部７０５により、比較された比較結果に基づいて、第２階層の第２置換基の化合物名が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ３，Ｍ５〜Ｍ１０の同一フラグに「１」が設定されている。また、分類部７０５により、比較された比較結果に基づいて、第２階層の母核に結合する第２置換基の結合位置が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ３，Ｍ５〜Ｍ１０の同一フラグに「１」が設定されている。

また、分類部７０５により、比較された比較結果に基づいて、第２階層の第２置換基の構造式に含まれる炭素数が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ３，Ｍ５〜Ｍ１０の同一フラグに「１」が設定されている。

また、母核比較テーブル１１００および置換基比較テーブル１７００内のフィールドに設定する情報が不明な場合は、該フィールドの情報が不明であることを示す情報、例えば、「不明」という文字列が該フィールドに設定されることにしてもよい。具体的には、例えば、化合物Ｍｒの第ｉ階層の母核を表す文字列が非検出であったことを示す不明フラグが記憶装置に記憶されている場合、母核比較テーブル１１００内の化合物Ｍｒの第１階層の母核の化合物名フィールドに「不明」が設定される。

（比較リストの具体例）
つぎに、図２２および図２３を用いて、分類対象となる化合物Ｍ１〜Ｍ１０の比較リストの具体例について説明する。比較リストは、例えば、化合物分類装置１００のディスプレイ３０９やクライアント装置２０１のディスプレイ（不図示）に表示される。

図２２および図２３は、比較リストの具体例を示す説明図である。図２２および図２３において、比較リスト２２００は、分類対象となる化合物Ｍ１〜Ｍ１０の特徴を比較するための表データである。比較リスト２２００は、作成部７１０により、図１３および図１６に示した母核比較テーブル１１００と、図１９および図２１に示した置換基比較テーブル１７００とをマージすることにより作成されたものである。

図２２において、比較リスト２２００には、各化合物Ｍ１〜Ｍ１０の第１階層の母核の化合物名、母核に結合する各置換基の結合位置、母核に結合する置換基数、母核の炭素数、母核の構造の種類が示されている。ここで、分類対象となる化合物Ｍ１〜Ｍ１０は、第１階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類が、基本構造となる化合物Ｍ１と同一となる化合物Ｍ１〜Ｍ５と、それ以外の化合物Ｍ６〜Ｍ１０とに分類されている。

図２３において、比較リスト２２００には、各化合物Ｍ１〜Ｍ１０の第２階層の母核の化合物名、母核に結合する各置換基の結合位置、母核に結合する置換基数、母核の炭素数、第１〜第４置換基の化合物名、母核に結合する第１〜第４置換基の結合位置、第１〜第４置換基の炭素数が示されている。また、比較リスト２２００には、各化合物Ｍ１〜Ｍ１０の第１階層の第２，第３置換基の化合物名、母核に結合する第２，第３置換基の結合位置、第２，第３置換基の炭素数が示されている。

また、比較リスト２２００において、化合物Ｍ１〜Ｍ１０は、基本構造となる化合物Ｍ１との類似度が高い順にソートされている。具体的には、第１階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類のうち、化合物Ｍ１と同一となる項目数が多い順に化合物Ｍ２〜Ｍ１０がソートされている。また、各項目の項目値のうち、基本構造となる化合物Ｍ１と同一となる項目値がハイライト表示されている。

比較リスト２２００によれば、分類対象となる化合物Ｍ１〜Ｍ１０の特徴を比較することができる。また、第１階層の母核の化合物名が同一の化合物群が分類されて表示されるため、化合物の基礎となる母核が同一の化合物同士の類似性や差分を判別し易い。また、基本構造となる化合物Ｍ１と同一となる項目値がハイライト表示されているため、化合物Ｍ１と各化合物Ｍ２〜Ｍ１０との項目間の類似性や差分を判別し易い。

また、比較リスト２２００によれば、基本構造となる化合物Ｍ１の第１階層の母核は「プロパン」であるが、第１階層の母核を「エタン」や「ペンタン」としても、化合物Ｍ１の代わりに用いることができることがわかる。また、各化合物Ｍ１〜Ｍ１０は、疎水性のフェニル基と親水性のヒドロキシ基とを共通して有していることがわかる。また、図示は省略するが、設定する情報が不明なフィールドには「不明」という文字列が設定されるため、例えば、分類対象となる化合物群に含まれる未知の化合物の存在や、化合物名の誤記等に気付き易くなる。

（比較リストの加工例）
つぎに、図２２および図２３に示した比較リスト２２００の加工例について説明する。図２４は、比較リストの加工例を示す説明図である。図２４において、比較リスト２４００は、図２２および図２３に示した比較リスト２２００を加工したものである。

比較リスト２４００において、母核とは、各化合物Ｍ１〜Ｍ１０の第１階層の母核の化合物名と、母核に結合する第１置換基の結合位置を示すものである。化合物Ｍ６，Ｍ７については、第１階層の母核に結合する第２，第３置換基の結合位置も示されている。また、種類とは、第１階層の母核の構造の種類を示すものである。

母核部分の基本構造との差分とは、基本構造となる化合物Ｍ１の第１階層の母核との差分を示すものである。具体的には、各化合物Ｍ１〜Ｍ１０の第１階層の母核の特徴が示されている。化合物Ｍ１との差分がない化合物Ｍ２〜Ｍ５については、化合物Ｍ１と同じ内容が示されている。

第２階層の母核部分の基本構造との差分とは、基本構造となる化合物Ｍ１の第２階層の母核との差分を示すものである。具体的には、各化合物Ｍ１〜Ｍ１０の第２階層の母核の特徴が示されている。第２階層の置換基部分の基本構造との差分とは、基本構造となる化合物Ｍ１の第２階層の置換基との差分を示すものである。また、比較リスト２４００の各項目の項目値のうち、基本構造となる化合物Ｍ１と同一となる項目値がハイライト表示されている。

比較リスト２４００によれば、母核の化合物名と母核に結合する各置換基の結合位置などの関連する項目が一項目にまとめて表示されるため、図２２および図２３に示した比較リスト２２００に比べて、分類対象となる化合物Ｍ１〜Ｍ１０の特徴を比較し易くなる。

（化合物分類装置１００の化合物分類処理手順）
つぎに、化合物分類装置１００の化合物分類処理手順について説明する。図２５は、化合物分類装置１００の化合物分類処理手順の一例を示すフローチャートである。図２５のフローチャートにおいて、まず、化合物分類装置１００は、分類対象となる化合物群Ｍ１〜ＭＲの化合物名群Ｎ１〜ＮＲを受け付けたか否かを判断する（ステップＳ２５０１）。

ここで、化合物分類装置１００は、化合物群Ｍ１〜ＭＲの化合物名群Ｎ１〜ＮＲを受け付けるのを待つ（ステップＳ２５０１：Ｎｏ）。そして、化合物分類装置１００は、化合物群Ｍ１〜ＭＲの化合物名群Ｎ１〜ＮＲを受け付けた場合（ステップＳ２５０１：Ｙｅｓ）、化合物名群Ｎ１〜ＮＲを分割テーブル８００に登録する（ステップＳ２５０２）。なお、以下の説明では、化合物群Ｍ１〜ＭＲのうち、化合物Ｍ１を基本構造となる化合物とする。

つぎに、化合物分類装置１００は、構造解析ルールＤＢ２２０を読み込む（ステップＳ２５０３）。そして、化合物分類装置１００は、化合物Ｍｒの「ｒ」を「ｒ＝１」として（ステップＳ２５０４）、分割テーブル８００の中から化合物Ｍｒの化合物名Ｎｒを選択する（ステップＳ２５０５）。

つぎに、化合物分類装置１００は、選択した化合物名Ｎｒの化合物名分割処理を実行する（ステップＳ２５０６）。そして、化合物分類装置１００は、化合物Ｍｒの「ｒ」をインクリメントして（ステップＳ２５０７）、「ｒ」が「Ｒ」より大きくなったか否かを判断する（ステップＳ２５０８）。

ここで、「ｒ」が「Ｒ」以下の場合（ステップＳ２５０８：Ｎｏ）、ステップＳ２５０５に戻る。一方、「ｒ」が「Ｒ」より大きくなった場合（ステップＳ２５０８：Ｙｅｓ）、化合物分類装置１００は、母核比較テーブル１１００を作成する母核比較テーブル作成処理を実行する（ステップＳ２５０９）。

つぎに、化合物分類装置１００は、置換基比較テーブル１７００を作成する置換基比較テーブル作成処理を実行する（ステップＳ２５１０）。そして、化合物分類装置１００は、母核比較テーブル１１００内の各項目の同一フラグに基づいて、化合物群Ｍ１〜ＭＲを分類する（ステップＳ２５１１）。

つぎに、化合物分類装置１００は、分類した分類結果に基づいて、作成した母核比較テーブル１１００と置換基比較テーブル１７００とをマージして比較リストを作成する（ステップＳ２５１２）。そして、化合物分類装置１００は、作成した比較リストを出力して（ステップＳ２５１３）、本フローチャートによる一連の処理を終了する。

これにより、分類対象となる化合物Ｍ１〜ＭＲの特徴を比較するための比較リストを出力することができる。なお、ステップＳ２５１３において、化合物分類装置１００は、母核比較テーブル１１００の記憶内容と置換基比較テーブル１７００の記憶内容とを出力することにしてもよい。

＜化合物名分割処理の具体的処理手順＞
つぎに、図２５のステップＳ２５０６に示した化合物名分割処理の具体的な処理手順について説明する。図２６は、化合物名分割処理の具体的処理手順の一例を示すフローチャートである。

図２６のフローチャートにおいて、まず、化合物分類装置１００は、化合物名Ｎｒの第ｉ階層の母核分割処理を実行する（ステップＳ２６０１）。なお、第ｉ階層の「ｉ」は初期状態では「ｉ＝１」である。

つぎに、化合物分類装置１００は、第ｊ置換基の「ｊ」を「ｊ＝１」として（ステップＳ２６０２）、化合物Ｍｒの第ｉ階層の第ｊ置換基を選択する（ステップＳ２６０３）。そして、化合物分類装置１００は、選択した第ｊ置換基が複合置換基か否かを判断する（ステップＳ２６０４）。

ここで、第ｊ置換基が複合置換基ではない場合（ステップＳ２６０４：Ｎｏ）、化合物分類装置１００は、第ｊ置換基の置換基分割処理を実行する（ステップＳ２６０５）。つぎに、化合物分類装置１００は、第ｊ置換基の「ｊ」をインクリメントして（ステップＳ２６０６）、「ｊ」が「ｍ」より大きくなったか否かを判断する（ステップＳ２６０７）。

ここで、「ｊ」が「ｍ」以下の場合（ステップＳ２６０７：Ｎｏ）、ステップＳ２６０３に戻る。一方、「ｊ」が「ｍ」より大きくなった場合（ステップＳ２６０７：Ｙｅｓ）、化合物名分割処理を終了し、化合物名分割処理を呼び出したステップへ戻る。第１階層の化合物名分割処理が終わった場合には、図２５に示したステップＳ２５０７に移行する。

また、ステップＳ２６０４において、第ｊ置換基が複合置換基の場合（ステップＳ２６０４：Ｙｅｓ）、化合物分類装置１００は、第（ｉ＋１）階層の化合物名Ｎｒとして、第ｊ置換基の化合物名を設定する（ステップＳ２６０８）。そして、化合物分類装置１００は、第（ｉ＋１）階層の化合物Ｍｒの化合物名分割処理を実行して（ステップＳ２６０９）、ステップＳ２６０６に移行する。

これにより、第ｊ置換基が複合置換基の場合、第ｊ置換基の化合物名を第（ｉ＋１）階層の化合物Ｍｒの化合物名として化合物名分割処理を再帰的に実行することができる。

つぎに、図２６のステップＳ２６０１に示した母核分割処理の具体的な処理手順について説明する。図２７および図２８は、母核分割処理の具体的処理手順の一例を示すフローチャートである。

図２７のフローチャートにおいて、まず、化合物分類装置１００は、母核Ｂｋの「ｋ」を「ｋ＝１」とする（ステップＳ２７０１）。つぎに、化合物分類装置１００は、構造式ＤＢ２３０の中から母核Ｂｋの化合物名を選択する（ステップＳ２７０２）。そして、化合物分類装置１００は、母核Ｂｋの化合物名の文字数ｔを特定する（ステップＳ２７０３）。文字数ｔの長い方を優先的に選択する。

つぎに、化合物分類装置１００は、化合物Ｍｒの化合物名Ｎｒの末尾からｔ文字の文字列と、母核Ｂｋの化合物名とが一致するか否かを判断する（ステップＳ２７０４）。ここで、母核Ｂｋの化合物名と一致する場合（ステップＳ２７０４：Ｙｅｓ）、化合物分類装置１００は、分割テーブル８００内の化合物名Ｎｒの末尾からｔ文字の文字列の直前に第ｉ階層の区切り記号を挿入する（ステップＳ２７０５）。

つぎに、化合物分類装置１００は、化合物Ｍｒの化合物名Ｎｒのうち母核Ｂｋの化合物名を除く残余の文字列を「数字−文字列」の組に分割する（ステップＳ２７０６）。そして、化合物分類装置１００は、各組の文字列を先頭から順番に第１〜第ｍ置換基を表す文字列とする（ステップＳ２７０７）。つぎに、化合物分類装置１００は、各組の数字を先頭から順番に第１〜第ｍ置換基の結合位置を表す文字列として（ステップＳ２７０８）、図２６に示したステップＳ２６０２に移行する。

また、ステップＳ２７０４において、母核Ｂｋの化合物名と不一致の場合（ステップＳ２７０４：Ｎｏ）、化合物分類装置１００は、母核Ｂｋの「ｋ」をインクリメントして（ステップＳ２７０９）、「ｋ」が「Ｋ」より大きくなったか否かを判断する（ステップＳ２７１０）。

ここで、「ｋ」が「Ｋ」以下の場合（ステップＳ２７１０：Ｎｏ）、ステップＳ２７０２に戻る。一方、「ｋ」が「Ｋ」より大きくなった場合（ステップＳ２７１０：Ｙｅｓ）、図２８に示すステップＳ２８０１に移行する。

図２８のフローチャートにおいて、まず、化合物分類装置１００は、化合物Ｍｒの化合物名Ｎｒを「数字−文字列」の組に分割する（ステップＳ２８０１）。そして、化合物分類装置１００は、各組の文字列を先頭から順番に第１〜第ｍ置換基を表す文字列とする（ステップＳ２８０２）。

つぎに、化合物分類装置１００は、各組の数字を先頭から順番に第１〜第ｍ置換基の結合位置を表す文字列とする（ステップＳ２８０３）。そして、化合物分類装置１００は、置換基Ｃｐの「ｐ」を「ｐ＝１」として（ステップＳ２８０４）、構造式ＤＢ２３０の中から置換基Ｃｐの化合物名を選択する（ステップＳ２８０５）。

つぎに、化合物分類装置１００は、置換基Ｃｐの化合物名の文字数ｓを特定する（ステップＳ２８０６）。そして、化合物分類装置１００は、第ｍ置換基を表す文字列の先頭からｓ文字の文字列と、置換基Ｃｐの化合物名とが一致するか否かを判断する（ステップＳ２８０７）。

ここで、置換基Ｃｐの化合物名と一致する場合（ステップＳ２８０７：Ｙｅｓ）、化合物分類装置１００は、第ｉ階層の母核を表す文字列を、第ｍ置換基を表す文字列のうち先頭からｓ文字を除く残余の文字列とする（ステップＳ２８０８）。つぎに、化合物分類装置１００は、第ｍ置換基を表す文字列を、第ｍ置換基を表す文字列の先頭からｓ文字の文字列とする（ステップＳ２８０９）。

そして、化合物分類装置１００は、分割テーブル８００内の化合物名Ｎｒの第ｍ置換基を表す文字列の先頭からｓ文字の文字列の直後に第ｉ階層の区切り記号を挿入して（ステップＳ２８１０）、図２６に示したステップＳ２６０２に移行する。もし、第ｍ置換基と母核の間に文字が残っている場合には、母核に含めるようにしてもよい。

また、ステップＳ２８０７において、置換基Ｃｐの化合物名と不一致の場合（ステップＳ２８０７：Ｎｏ）、化合物分類装置１００は、置換基Ｃｐの「ｐ」をインクリメントして（ステップＳ２８１１）、「ｐ」が「Ｐ」より大きくなったか否かを判断する（ステップＳ２８１２）。

ここで、「ｐ」が「Ｐ」以下の場合（ステップＳ２８１２：Ｎｏ）、ステップＳ２８０５に戻る。一方、「ｐ」が「Ｐ」より大きくなった場合（ステップＳ２８１２：Ｙｅｓ）、化合物分類装置１００は、化合物Ｍｒの第ｉ階層の母核の化合物名が不明であることを示す母核不明フラグを設定して（ステップＳ２８１３）、図２６に示したステップＳ２６０２に移行する。

これにより、化合物Ｍｒの第ｉ階層の母核の化合物名を特定して、分割テーブル８００内の化合物名Ｎｒの第ｉ階層の母核の化合物名の直前に第ｉ階層の区切り記号を挿入することができる。なお、第（ｉ＋１）階層において、化合物Ｍｒの化合物名Ｎｒの末尾からｔ文字との一致判定を行う対象となる化合物は、例えば、構造式ＤＢ２３０内の置換基Ｃｐの化合物名となる。

つぎに、図２６のステップＳ２６０５に示した置換基分割処理の具体的な処理手順について説明する。図２９は、置換基分割処理の具体的処理手順の一例を示すフローチャートである。

図２９のフローチャートにおいて、まず、化合物分類装置１００は、第ｊ置換基を表す文字列に倍数接頭辞があるか否かを判断する（ステップＳ２９０１）。ここで、倍数接頭辞がない場合（ステップＳ２９０１：Ｎｏ）、ステップＳ２９０５に移行する。

一方、倍数接頭辞がある場合（ステップＳ２９０１：Ｙｅｓ）、化合物分類装置１００は、分割テーブル８００内の第ｊ置換基の結合位置を表す文字列「数字，数字，…，数字−」の「，」を「−」に変換し（ステップＳ２９０２）、２番目以降の数字の直前に「−」を挿入する（ステップＳ２９０３）。

そして、化合物分類装置１００は、分割テーブル８００内の第ｊ置換基を表す文字列から倍数接頭辞を削除して（ステップＳ２９０４）、倍数接頭辞が削除された削除後の文字列を「−−」の間に挿入する（ステップＳ２９０５）。

つぎに、化合物分類装置１００は、置換基Ｃｐの「ｐ」を「ｐ＝１」として（ステップＳ２９０６）、構造式ＤＢ２３０の中から置換基Ｃｐの化合物名を選択する（ステップＳ２９０７）。

そして、化合物分類装置１００は、置換基を表す文字列と置換基Ｃｐの化合物名とが一致するか否かを判断する（ステップＳ２９０８）。なお、ここでの置換基を表す文字列は、第ｊ置換基を表す文字列、または、ステップＳ２９０４において第ｊ置換基を表す文字列から倍数接頭辞が削除された削除後の文字列である。

ここで、置換基Ｃｐの化合物名と一致する場合（ステップＳ２９０８：Ｙｅｓ）、化合物分類装置１００は、置換基を表す文字列の直後に区切り記号を挿入して（ステップＳ２９０９）、図２６に示したステップＳ２６０６に移行する。

また、ステップＳ２９０８において、置換基Ｃｐの化合物名と不一致の場合（ステップＳ２９０８：Ｎｏ）、化合物分類装置１００は、置換基Ｃｐの「ｐ」をインクリメントして（ステップＳ２９１０）、「ｐ」が「Ｐ」より大きくなったか否かを判断する（ステップＳ２９１１）。

ここで、「ｐ」が「Ｐ」以下の場合（ステップＳ２９１１：Ｎｏ）、ステップＳ２９０７に戻る。一方、「ｐ」が「Ｐ」より大きくなった場合（ステップＳ２９１１：Ｙｅｓ）、化合物分類装置１００は、化合物Ｍｒの第ｉ階層の第ｊ置換基の化合物名が不明であることを示す置換基不明フラグを設定して（ステップＳ２９１２）、ステップＳ２９０９に移行する。

これにより、化合物Ｍｒの第ｉ階層の第ｊ置換基の化合物名を特定して、分割テーブル８００内の化合物名Ｎｒの第ｉ階層の第ｊ置換基の化合物名の直後に区切り記号を挿入することができる。また、第ｊ置換基を表す文字列に倍数接頭辞が含まれる場合、第ｊ置換基を表す文字列および第ｊ置換基の結合位置を表す文字列を展開することができる。

＜母核比較テーブル作成処理の具体的処理手順＞
つぎに、図２５のステップＳ２５０９に示した母核比較テーブル作成処理の具体的な処理手順について説明する。図３０は、母核比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。

図３０のフローチャートにおいて、まず、化合物分類装置１００は、第ｉ階層の「ｉ」を「ｉ＝１」として（ステップＳ３００１）、分割テーブル８００を参照して、化合物Ｍ１〜ＭＲの第ｉ階層の母核の化合物名を母核比較テーブル１１００に登録する（ステップＳ３００２）。

つぎに、化合物分類装置１００は、分割テーブル８００を参照して、化合物Ｍ１〜ＭＲの第ｉ階層の母核に結合する第１〜第ｍ置換基の結合位置を母核比較テーブル１１００に登録する（ステップＳ３００３）。そして、化合物分類装置１００は、化合物Ｍ１〜ＭＲの第ｉ階層の母核に結合する置換基数を母核比較テーブル１１００に登録する（ステップＳ３００４）。

つぎに、化合物分類装置１００は、化合物Ｍ１〜ＭＲの第ｉ階層の母核の構造式に含まれる炭素数および母核の構造の種類を特定して、特定した母核の構造式に含まれる炭素数および母核の構造の種類を母核比較テーブル１１００に登録する（ステップＳ３００５）。

そして、化合物分類装置１００は、基本構造となる化合物Ｍ１と各化合物Ｍ２〜ＭＲとの間で、母核比較テーブル１１００に登録された各項目の項目値を比較することにより、項目値が一致する項目の同一フラグに「１」を設定する（ステップＳ３００６）。

つぎに、化合物分類装置１００は、第ｉ階層の「ｉ」をインクリメントして（ステップＳ３００７）、「ｉ」が「ｎ」より大きくなったか否かを判断する（ステップＳ３００８）。ここで、「ｉ」が「ｎ」以下の場合（ステップＳ３００８：Ｎｏ）、ステップＳ３００２に戻る。一方、「ｉ」が「ｎ」より大きくなった場合（ステップＳ３００８：Ｙｅｓ）、図２５に示したステップＳ２５１０に移行する。

これにより、化合物Ｍ１〜ＭＲの第ｉ階層の母核の化合物名、第１〜第ｍ置換基の結合位置、置換基数、炭素数、構造の種類を母核比較テーブル１１００に登録することができる。なお、化合物分類装置１００は、例えば、ステップＳ３００８の後、母核比較テーブル１１００内の各項目の同一フラグに基づいて、化合物群Ｍ１〜ＭＲを分類することにより、母核比較テーブル１１００内の各化合物Ｍ１〜ＭＲのレコードを並び替えることにしてもよい。

＜置換基比較テーブル作成処理の具体的処理手順＞
つぎに、図２５のステップＳ２５１０に示した置換基比較テーブル作成処理の具体的な処理手順について説明する。図３１は、置換基比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。

図３１のフローチャートにおいて、まず、化合物分類装置１００は、第ｉ階層の「ｉ」を「ｉ＝１」として（ステップＳ３１０１）、分割テーブル８００を参照して、化合物Ｍ１〜ＭＲの第ｉ階層の第１〜第ｍ置換基の化合物名を置換基比較テーブル１７００に登録する（ステップＳ３１０２）。

つぎに、化合物分類装置１００は、分割テーブル８００を参照して、化合物Ｍ１〜ＭＲの第ｉ階層の母核に結合する第１〜第ｍ置換基の結合位置を置換基比較テーブル１７００に登録する（ステップＳ３１０３）。そして、化合物分類装置１００は、化合物Ｍ１〜ＭＲの第ｉ階層の第１〜第ｍ置換基の構造式に含まれる炭素数を特定して、特定した第１〜第ｍ置換基の構造式に含まれる炭素数を置換基比較テーブル１７００に登録する（ステップＳ３１０４）。

つぎに、化合物分類装置１００は、基本構造となる化合物Ｍ１と各化合物Ｍ２〜ＭＲとの間で、置換基比較テーブル１７００に登録された各項目の項目値を比較することにより、項目値が一致する項目の同一フラグに「１」を設定する（ステップＳ３１０５）。

そして、化合物分類装置１００は、第ｉ階層の「ｉ」をインクリメントして（ステップＳ３１０６）、「ｉ」が「ｎ」より大きくなったか否かを判断する（ステップＳ３１０７）。ここで、「ｉ」が「ｎ」以下の場合（ステップＳ３１０７：Ｎｏ）、ステップＳ３１０２に戻る。一方、「ｉ」が「ｎ」より大きくなった場合（ステップＳ３１０７：Ｙｅｓ）、図２５に示したステップＳ２５１１に移行する。

これにより、化合物Ｍ１〜ＭＲの第ｉ階層の第１〜第ｍ置換基の化合物名、結合位置、炭素数を置換基比較テーブル１７００に登録することができる。なお、化合物分類装置１００は、例えば、ステップＳ３１０７の後、置換基比較テーブル１７００内の各項目の同一フラグに基づいて、化合物群Ｍ１〜ＭＲを分類することにより、置換基比較テーブル１７００内の各化合物Ｍ１〜ＭＲのレコードを並び替えることにしてもよい。

以上説明したように、実施の形態にかかる化合物分類装置１００によれば、構造式ＤＢ２３０を参照して、化合物群Ｍ１〜ＭＲの各化合物Ｍｒの化合物名Ｎｒの中から、各化合物Ｍｒの母核を表す文字列を検出することができる。そして、化合物分類装置１００によれば、各化合物Ｍｒの母核に基づいて、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、化合物群Ｍ１〜ＭＲの中から化合物の基礎となる部分構造を表す母核が同一の化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうちの母核が同一の化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、各化合物Ｍｒの化合物名Ｎｒのうち母核を表す文字列を除く残余の文字列の中から、各化合物Ｍｒの置換基を表す文字列を抽出することができる。そして、化合物分類装置１００によれば、さらに、各化合物Ｍｒの置換基に基づいて、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、化合物群Ｍ１〜ＭＲの中から化合物の系統や命名に使う部分構造を表す置換基が同一の化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち母核が同一の化合物の集合のうちの、置換基が同一の化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、さらに、各化合物Ｍｒの置換基数に基づいて、化合物群Ｍ１〜ＭＲを分類することができる。これにより、各化合物Ｍｒの母核に結合する置換基の数を特定でき、化合物群Ｍ１〜ＭＲの中から化合物全体の構造の成り立ちが類似する化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち母核が同一の化合物の集合のうちの、化合物全体の構造の成り立ちが類似する化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、各化合物Ｍｒの化合物名Ｎｒのうち母核を表す文字列を除く残余の文字列の中から、各化合物Ｍｒの母核に結合する置換基の結合位置を表す文字列を抽出することができる。そして、化合物分類装置１００によれば、さらに、各化合物Ｍｒの母核に結合する置換基の結合位置に基づいて、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、各化合物Ｍｒの母核の構造式に含まれるどの炭素に置換基が結合しているかを特定でき、化合物群Ｍ１〜ＭＲの中から化合物全体の構造の成り立ちが類似する化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち母核が同一の化合物の集合のうちの、化合物全体の構造の成り立ちが類似する化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、構造式ＤＢ２３０を参照して、各化合物Ｍｒの母核を表す文字列に対応する母核の構造の種類を特定し、さらに、各化合物Ｍｒの母核の構造の種類に基づいて、化合物群Ｍ１〜ＭＲを分類することができる。これにより、各化合物Ｍｒの母核の構造の種類を特定でき、化合物群Ｍ１〜ＭＲの中から母核の構造が類似する化合物の集合を判別することができる。

また、化合物分類装置１００によれば、構造式ＤＢ２３０を参照して、各化合物Ｍｒの母核を表す文字列に対応する構造式に含まれる炭素数を特定し、さらに、各化合物Ｍｒの母核の炭素数に基づいて、化合物群Ｍ１〜ＭＲを分類することができる。これにより、各化合物Ｍｒの母核の炭素数から親水性や疎水性などの化学的特性を判断することができる。

また、化合物分類装置１００によれば、構造式ＤＢ２３０を参照して、各化合物Ｍｒの置換基を表す文字列に対応する構造式に含まれる炭素数を特定し、さらに、各化合物Ｍｒの置換基の炭素数に基づいて、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、各化合物Ｍｒの各置換基の炭素数から親水性や疎水性などの化学的特性を判断でき、化合物群Ｍ１〜ＭＲの中から化学的特性が類似する化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち母核が同一の化合物の集合のうちの、化学的特性が類似する化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、化合物群Ｍ１〜ＭＲのうち、基本構造となる化合物の母核を表す文字列と他の化合物の母核を表す文字列とを比較することにより、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、化合物群Ｍ１〜ＭＲの中から化合物の基礎となる部分構造を表す母核が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうちの基本構造となる化合物と母核が同一の化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、化合物群Ｍ１〜ＭＲのうち、基本構造となる化合物の置換基を表す文字列と他の化合物の置換基を表す文字列とを比較することにより、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、化合物群Ｍ１〜ＭＲの中から化合物の系統や命名に使う部分構造を表す置換基が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と置換基が同一の化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、化合物群Ｍ１〜ＭＲのうち、基本構造となる化合物の置換基数と他の化合物の置換基数とを比較することにより、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、化合物群Ｍ１〜ＭＲの中から化合物の置換基数が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と置換基数が同一の化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、化合物群Ｍ１〜ＭＲのうち、基本構造となる化合物の母核に結合する置換基の結合位置と他の化合物の母核に結合する置換基の結合位置とを比較することにより、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、化合物群Ｍ１〜ＭＲの中から化合物の母核に結合する置換基の結合位置が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と母核に結合する置換基の結合位置が同一の化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、化合物群Ｍ１〜ＭＲのうち、基本構造となる化合物の母核の構造の種類と他の化合物の母核の構造の種類とを比較することにより、化合物群Ｍ１〜ＭＲを分類することができる。これにより、化合物群Ｍ１〜ＭＲの中から化合物の母核の構造の種類が、基本構造となる化合物と同一の化合物の集合を判別することができる。

また、化合物分類装置１００によれば、化合物群Ｍ１〜ＭＲのうち、基本構造となる化合物の母核の炭素数と他の化合物の母核の炭素数とを比較することにより、化合物群Ｍ１〜ＭＲを分類することができる。これにより、化合物群Ｍ１〜ＭＲの中から化合物の母核の炭素数が、基本構造となる化合物と同一の化合物の集合を判別することができる。

また、化合物分類装置１００によれば、化合物群Ｍ１〜ＭＲのうち、基本構造となる化合物の第ｊ置換基の炭素数と他の化合物の第ｊ置換基の炭素数とを比較することにより、化合物群Ｍ１〜ＭＲを分類することができる。

これにより、化合物群Ｍ１〜ＭＲの中から化合物の第ｊ置換基の炭素数が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群Ｍ１〜ＭＲのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と第ｊ置換基の化学的特性が類似する化合物同士の類似性や差分を判断し易くすることができる。

また、化合物分類装置１００によれば、第ｊ置換基が別の置換基を含む複合置換基か否かを判定し、第ｊ置換基が複合置換基の場合、第ｊ置換基を表す文字列を、化合物Ｍｒの化合物名Ｎｒに設定することができる。そして、化合物分類装置１００によれば、構造式ＤＢ２３０を参照して、新たに設定された化合物Ｍｒの化合物名Ｎｒの中から、化合物Ｍｒの母核を表す文字列を検出することができる。

これにより、化合物Ｍｒの複合置換基を新たな分類対象として、上記検出部７０２、抽出部７０３、特定部７０４等の処理が実行され、第ｊ置換基を表す文字列を解析することができる。この結果、例えば、各化合物Ｍｒの第２階層の母核に基づいて、新たな分類対象として設定された複合置換基群を分類することができる。

これらのことから、実施の形態にかかる化合物分類装置、化合物分類プログラムおよび化合物分類方法によれば、化合物群Ｍ１〜ＭＲを、化合物Ｍｒの各階層の母核や置換基の特徴に基づいて分類することができる。これにより、ユーザは、化合物群Ｍ１〜ＭＲのうち共通の特徴を有する化合物同士で比較することが可能となり、化合物同士の類似性や差分を判断し易くなる。また、ユーザは、化合物Ｍｒの各階層の母核や置換基の特徴から、化合物Ｍｒの官能基や化合物Ｍｒの全体構造を把握し易くなる。また、ユーザは、化合物Ｍｒが複合置換基を有する化合物であっても、階層ごとに母核や置換基の特徴を判別することができ、階層構造化された化合物Ｍｒの全体構造を把握し易くなる。

この結果、例えば、ユーザは、各階層の母核や置換基の特徴から化合物全体の性質を判断して、化合物同士の性質を比較することにより、化合物群がどのような意図の化合物であるかを判断することができる。また、ユーザは、化合物Ｍｒの各階層の母核や置換基の特徴のうち一部の特徴が不明であっても他の特徴から化合物同士の類似性や差分を判断することができる。

なお、本実施の形態で説明した化合物分類方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本化合物分類プログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本化合物分類プログラムは、インターネット等のネットワークを介して配布してもよい。

上述した実施の形態に関し、さらに以下の付記を開示する。

（付記１）化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出する検出部と、
前記検出部によって検出された前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類する分類部と、
前記分類部によって分類された分類結果を出力する出力部と、
を有することを特徴とする化合物分類装置。

（付記２）前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基を表す文字列に基づいて、前記化合物群を分類することを特徴とする付記１に記載の化合物分類装置。

（付記３）前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする付記２に記載の化合物分類装置。

（付記４）前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする付記１に記載の化合物分類装置。

（付記５）前記抽出部は、
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記分類部は、
さらに、前記各々の化合物の置換基の結合位置を表す文字列に基づいて、前記化合物群を分類することを特徴とする付記２〜４のいずれか一つに記載の化合物分類装置。

（付記６）化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造の種類に基づいて、前記化合物群を分類することを特徴とする付記１〜５のいずれか一つに記載の化合物分類装置。

（付記７）前記特定部は、
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする付記６に記載の化合物分類装置。

（付記８）化合物の置換基となる部分構造の名称と前記置換基の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の置換基を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定する特定部をさらに有し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の置換基の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする付記２〜５のいずれか一つに記載の化合物分類装置。

（付記９）前記化合物群のうち特定の化合物の母核を表す文字列と、前記化合物群のうち前記特定の化合物とは異なる他の化合物の母核を表す文字列とを比較する比較部をさらに有し、
前記分類部は、
前記比較部によって比較された比較結果に基づいて、前記化合物群を分類することを特徴とする付記１に記載の化合物分類装置。

（付記１０）前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基を表す文字列と、前記他の化合物の置換基を表す文字列とを比較することを特徴とする付記９に記載の化合物分類装置。

（付記１１）前記比較部は、
さらに、前記特定の化合物の置換基の数と、前記他の化合物の置換基の数とを比較することを特徴とする付記１０に記載の化合物分類装置。

（付記１２）前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基の数と、前記他の化合物の置換基の数とを比較することを特徴とする付記９に記載の化合物分類装置。

（付記１３）前記抽出部は、
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記比較部は、
さらに、前記特定の化合物の置換基の結合位置を表す文字列と、前記他の化合物の置換基の結合位置を表す文字列とを比較することを特徴とする付記１０〜１２のいずれか一つに記載の化合物分類装置。

（付記１４）化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
前記比較部は、
さらに、前記特定部によって特定された前記特定の化合物の母核の構造の種類と、前記他の化合物の母核の構造の種類とを比較することを特徴とする付記９〜１３のいずれか一つに記載の化合物分類装置。

（付記１５）前記特定部は、
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記比較部は、
さらに、前記特定の化合物の母核の構造式に含まれる前記特定の元素の元素数と、前記他の化合物の母核の構造式に含まれる前記特定の元素の元素数とを比較することを特徴とする付記１４に記載の化合物分類装置。

（付記１６）化合物の置換基となる部分構造の名称と前記置換基の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の置換基を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定する特定部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基の構造式に含まれる前記特定の元素の元素数と、前記他の化合物の置換基の構造式に含まれる前記特定の元素の元素数とを比較することを特徴とする付記１０〜１３のいずれか一つに記載の化合物分類装置。

（付記１７）前記各々の化合物の置換基を表す文字列に基づいて、前記各々の化合物の置換基が別の置換基を含む複合置換基か否かを判定する判定部と、
前記判定部によって前記複合置換基であると判定された場合、前記各々の化合物の置換基を表す文字列を、前記分類対象となる化合物の化合物名に設定する設定部と、をさらに有し、
前記検出部は、
前記記憶部を参照して、前記設定部によって設定された前記分類対象となる各々の化合物の化合物名の中から前記各々の化合物の母核となる部分構造の名称を表す文字列を検出することを特徴とする付記１〜１６のいずれか一つに記載の化合物分類装置。

（付記１８）コンピュータに、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行させることを特徴とする化合物分類プログラム。

（付記１９）コンピュータが、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行することを特徴とする化合物分類方法。

１００化合物分類装置
７０１受付部
７０２検出部
７０３抽出部
７０４特定部
７０５分類部
７０６比較部
７０７算出部
７０８判定部
７０９設定部
７１０作成部
７１１出力部

Claims

化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出する検出部と、
前記検出部によって検出された前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類する分類部と、
前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部と、
前記分類部によって分類された分類結果を出力する出力部と、を有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する、
ことを特徴とする化合物分類装置。
前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする請求項１に記載の化合物分類装置。
前記抽出部は、
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記分類部は、
さらに、前記各々の化合物の置換基の結合位置を表す文字列に基づいて、前記化合物群を分類することを特徴とする請求項１または２に記載の化合物分類装置。
化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造の種類に基づいて、前記化合物群を分類することを特徴とする請求項１〜３のいずれか一つに記載の化合物分類装置。
前記特定部は、
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする請求項４に記載の化合物分類装置。
前記各々の化合物の置換基を表す文字列に基づいて、前記各々の化合物の置換基が別の置換基を含む複合置換基か否かを判定する判定部と、
前記判定部によって前記複合置換基であると判定された場合、前記複合置換基を表す文字列を、前記分類対象となる化合物の化合物名に設定する設定部と、をさらに有し、
前記検出部は、
前記記憶部を参照して、前記設定部によって設定された前記分類対象となる各々の化合物の化合物名の中から前記各々の化合物の母核となる部分構造の名称を表す文字列を検出することを特徴とする請求項１〜５のいずれか一つに記載の化合物分類装置。
コンピュータに、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出し、
分類した分類結果を出力する、処理を実行させ、
前記分類の処理では、さらに、前記抽出の処理によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する、
ことを特徴とする化合物分類プログラム。
コンピュータが、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出し、
分類した分類結果を出力する、処理を実行し、
前記分類の処理では、さらに、前記抽出の処理によって抽出された前記各々の化合物の置換基を表す文字列と、前記各々の化合物の置換基の数に基づいて、前記化合物群を分類する、
ことを特徴とする化合物分類方法。