JP2013101511A - Compound classification device, compound classification program, and compound classification method - Google Patents
Compound classification device, compound classification program, and compound classification method Download PDFInfo
- Publication number
- JP2013101511A JP2013101511A JP2011244975A JP2011244975A JP2013101511A JP 2013101511 A JP2013101511 A JP 2013101511A JP 2011244975 A JP2011244975 A JP 2011244975A JP 2011244975 A JP2011244975 A JP 2011244975A JP 2013101511 A JP2013101511 A JP 2013101511A
- Authority
- JP
- Japan
- Prior art keywords
- compound
- substituent
- mother nucleus
- character string
- compounds
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、化合物分類装置、化合物分類プログラムおよび化合物分類方法に関する。 The present invention relates to a compound classification device, a compound classification program, and a compound classification method.
化学系や薬学系などの特許文献や学術論文などの文書において、ある化合物の化合物名とともに、その化合物の代わりに用いてもよい他の化合物の化合物名が列挙される場合がある。また、文書に列挙された複数の化合物名から、どのような意図の化合物群であるか判断される場合がある。 In documents such as patent documents and academic papers such as chemical and pharmaceutical systems, there may be a case where the compound name of a certain compound is listed together with the compound name of another compound that may be used instead of the compound. In addition, the intended compound group may be determined from a plurality of compound names listed in the document.
関連する先行技術としては、例えば、テキストデータの相違行を文字列単位に比較し相違のあった文字列を抽出し、外部から与えた情報によって特定される文字列を無視することで残った行を相違点として認識し、相違点を編集しリスト出力する技術がある(例えば、下記特許文献1参照。)。
As related prior art, for example, by comparing different lines of text data in character string units, extracting different character strings, and ignoring character strings specified by information given from the outside, the remaining lines There is a technique for recognizing the difference as a difference, editing the difference, and outputting the list (for example, see
しかしながら、従来技術によれば、文書に列挙された化合物群の化合物名から、化合物同士の類似性や差分を判断することが難しいという問題がある。例えば、文書に列挙された化合物名が3つ以上あった場合、それらの化合物がどのように類似し、どのように異なるのか判断することが難しい。 However, according to the prior art, there is a problem that it is difficult to determine the similarity or difference between compounds from the compound names of the compound groups listed in the document. For example, when there are three or more compound names listed in a document, it is difficult to determine how similar those compounds are and how they differ.
本発明は、上述した従来技術による問題点を解消するため、化合物の基礎となる部分構造を表す母核をもとに化合物群を分類することができる化合物分類装置、化合物分類プログラムおよび化合物分類方法を提供することを目的とする。 The present invention solves the above-described problems caused by the prior art, a compound classification apparatus, a compound classification program, and a compound classification method capable of classifying a compound group based on a mother nucleus representing a partial structure that is a basis of a compound The purpose is to provide.
上述した課題を解決し、目的を達成するため、本発明の一側面によれば、化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、分類した分類結果を出力する化合物分類装置、化合物分類プログラムおよび化合物分類方法が提案される。 In order to solve the above-described problems and achieve the object, according to one aspect of the present invention, each of the compound groups to be classified is referred to by referring to the storage unit that stores the names of the partial structures that are the cores of the compounds. And detecting a character string representing the name of the partial structure serving as a mother nucleus of each compound from the compound names of the compounds, and based on the detected character string representing the mother nucleus of each compound, the compound group And a compound classification program, a compound classification program, and a compound classification method are proposed.
本発明の一側面によれば、化合物の基礎となる部分構造を表す母核をもとに化合物群を分類することができるという効果を奏する。 According to one aspect of the present invention, there is an effect that a group of compounds can be classified based on a mother nucleus representing a partial structure that is a basis of a compound.
以下に添付図面を参照して、この発明にかかる化合物分類装置、化合物分類プログラムおよび化合物分類方法の実施の形態を詳細に説明する。 Exemplary embodiments of a compound classification device, a compound classification program, and a compound classification method according to the present invention will be explained below in detail with reference to the accompanying drawings.
(化合物の命名法)
まず、本実施の形態において使用する化合物の命名法について説明する。ここで、化合物とは、2種類以上の元素からできている化学物質のことである。化合物は、例えば、有機化合物と無機化合物とに分類される。
(Nomenclature of compounds)
First, the nomenclature of the compounds used in this embodiment will be described. Here, a compound is a chemical substance made of two or more kinds of elements. The compounds are classified into, for example, organic compounds and inorganic compounds.
有機化合物は、炭素原子を構造の基本骨格に持つ化合物の総称である。有機化合物は、分子構造の違いによって、例えば、直鎖炭化水素、芳香族炭化水素、脂環式炭化水素などに分類することができる。なお、骨格を形成する炭素以外の元素として、ケイ素や酸素があり、無機分子と呼ばれる。 An organic compound is a general term for compounds having carbon atoms in the basic skeleton of the structure. Organic compounds can be classified into, for example, linear hydrocarbons, aromatic hydrocarbons, alicyclic hydrocarbons, etc., depending on the difference in molecular structure. Note that elements other than carbon forming the skeleton include silicon and oxygen, which are called inorganic molecules.
また、無機化合物は、有機化合物以外の化合物であり、炭素以外の元素で構成される化合物である。ただし、炭素化合物のうち、例えば、炭素の同素体(例えば、グラファイト、ダイヤモンド)や二酸化炭素は、無機化合物に分類される。以下の説明では、化合物として有機化合物を例に挙げて説明する。 The inorganic compound is a compound other than an organic compound and is a compound composed of an element other than carbon. However, among carbon compounds, for example, carbon allotropes (eg, graphite, diamond) and carbon dioxide are classified as inorganic compounds. In the following description, an organic compound will be described as an example.
有機化合物は、例えば、炭素骨格の長さや分岐により多様な構造をとる。炭素骨格は、有機化合物において炭素同士が結合している部分である。炭素骨格の長さは、炭素の数によって表される。また、有機化合物は、窒素(N)、酸素(O)、硫黄(S)、燐(P)、ハロゲン(F、Cl、Br、I)などが炭素に結合した多様な官能基が生成される。官能基は、有機化合物のおおよその性質を決める原子団である。 Organic compounds take various structures depending on, for example, the length and branching of the carbon skeleton. The carbon skeleton is a portion where carbons are bonded to each other in an organic compound. The length of the carbon skeleton is represented by the number of carbons. In addition, various functional groups in which nitrogen (N), oxygen (O), sulfur (S), phosphorus (P), halogen (F, Cl, Br, I) and the like are bonded to carbon are generated from organic compounds. . A functional group is an atomic group that determines the approximate properties of an organic compound.
ここで、有機化合物の化合物名は、例えば、IUPAC(International Union of Pure and Applied Chemistry)が定める命名法によって命名される。IUPACが定める命名法としては、例えば、置換命名法、基官能命名法、付加命名法、減去命名法、接合命名法、代置命名法などがある。 Here, the compound name of the organic compound is named, for example, by a nomenclature specified by IUPAC (International Union of Pure and Applied Chemistry). Examples of nomenclature established by IUPAC include substitution nomenclature, group functional nomenclature, addition nomenclature, subtraction nomenclature, junction nomenclature, and substitution nomenclature.
本実施の形態では、有機化合物の化合物名が、IUPACが定める置換命名法(substitute nomenclature)によって命名されている場合を想定する。置換命名法において、有機化合物の化合物名は、例えば「結合位置−接頭語−(語頭+語幹+語尾)」という形式で表現される。 In the present embodiment, it is assumed that the compound name of the organic compound is named by a substitution nomenclature defined by IUPAC. In the substitution nomenclature, the compound name of the organic compound is expressed, for example, in the format of “bonding position-prefix- (beginning + stem + ending)”.
また、置換命名法において、(語頭+語幹+語尾)は「母核」と呼ばれ、接頭語は「置換基」と呼ばれる。すなわち、置換命名法では、有機化合物の化合物名は、例えば、「置換基+母核」というルールのもと記述される。母核および置換基は、化合物の部分構造を表す原子団である。 In the substitution nomenclature, (beginning + stem + ending) is called “mother core”, and the prefix is called “substituent”. That is, in the substitution nomenclature, the compound name of the organic compound is described under the rule of “substituent + mother nucleus”, for example. The mother nucleus and the substituent are atomic groups representing a partial structure of the compound.
母核は、有機化合物の基礎となる部分構造である。置換基は、有機化合物の系統や命名に使う部分構造であり、母核と対になって使用される概念である。また、母核と置換基は、母核を「親」、置換基を「子」とする親子関係にある。結合位置は、母核の何番目の炭素に置換基が結合しているのかを表している。ただし、結合位置は省略されている場合がある。 The mother nucleus is a partial structure that is the basis of an organic compound. Substituent is a partial structure used for the lineage and nomenclature of organic compounds, and is a concept used in pairs with the mother nucleus. The mother nucleus and the substituent have a parent-child relationship in which the mother nucleus is “parent” and the substituent is “child”. The bonding position represents the number of carbon in the mother nucleus to which the substituent is bonded. However, the coupling position may be omitted.
また、置換基の中に別の置換基を持つものは「複合置換基」と呼ばれる。複合置換基には、置換基と母核とが含まれる。すなわち、有機化合物の化合物名は、子の中に別の親子関係が存在するという複数世代の親子関係を含む場合がある。有機化合物の化合物名において、複合置換基を表す文字列は、例えば、括弧やかぎ括弧で囲まれている。 Moreover, what has another substituent in a substituent is called a "composite substituent." The composite substituent includes a substituent and a mother nucleus. That is, the compound name of the organic compound may include a multi-generation parent-child relationship in which another parent-child relationship exists in the child. In the compound name of the organic compound, the character string representing the composite substituent is enclosed in parentheses or angle brackets, for example.
本実施の形態では、各世代の親子関係を「1階層」とし、複数世代の親子関係を「階層構造」と表現する場合がある。また、最上位の階層を「第1階層」と表記し、階層が下位になるにしたがって順に「第2階層」、「第3階層」、…、「第n階層」と表記する(n:1以上の自然数)。また、第1〜第n階層のうち任意の階層を「第i階層」と表記する(i=1,2,…,n)。 In this embodiment, the parent-child relationship of each generation may be expressed as “one hierarchy”, and the parent-child relationship of a plurality of generations may be expressed as “hierarchical structure”. Further, the highest hierarchy is expressed as “first hierarchy”, and as the hierarchy becomes lower, “second hierarchy”, “third hierarchy”,..., “Nth hierarchy” (n: 1). More natural numbers). In addition, an arbitrary hierarchy among the first to nth hierarchies is denoted as “i-th hierarchy” (i = 1, 2,..., N).
第i階層には、1つの母核と、1つ以上の置換基が含まれる。ここでは、第i階層に含まれる1つ以上の置換基を「第1置換基」、「第2置換基」、…、「第m置換基」と表記する(m:1以上の自然数)。また、第1〜第m置換基のうち任意の置換基を「第j置換基」と表記する(j=1,2,…,m)。 The i-th layer includes one mother nucleus and one or more substituents. Here, one or more substituents included in the i-th layer are expressed as “first substituent”, “second substituent”,..., “Mth substituent” (m: a natural number of 1 or more). Further, an arbitrary substituent among the first to m-th substituents is referred to as a “j-th substituent” (j = 1, 2,..., M).
なお、第i階層に含まれる1つ以上の置換基の番号(1,2,…,m)を、どのような順序で付けるかは任意である。例えば、各置換基の名称のアルファベット順に番号を付けてもよく、また、各置換基が結合する母核の炭素の番号が若い順に番号を付けてもよい。以下の説明では、第i階層の各置換基の番号を、化合物名の先頭から順に第1置換基、第2置換基、…、第m置換基とする。 Note that the order of assigning the numbers (1, 2,..., M) of one or more substituents included in the i-th layer is arbitrary. For example, numbers may be assigned in alphabetical order of the names of the substituents, or numbers may be assigned in ascending order of the carbon numbers of the mother nucleus to which the substituents are bonded. In the following description, the number of each substituent in the i-th layer is defined as the first substituent, the second substituent,..., The m-th substituent in order from the top of the compound name.
ここで、有機化合物の化合物名として『2−(3−メチル−4−ヒドロキシフェニル)プロパン』を例に挙げて説明する。この化合物名において、第1階層の母核は「プロパン」、第1置換基は「3−メチル−4−ヒドロキシフェニル」、第1置換基の結合位置は「2」である。 Here, “2- (3-methyl-4-hydroxyphenyl) propane” will be described as an example of the compound name of the organic compound. In this compound name, the parent nucleus of the first layer is “propane”, the first substituent is “3-methyl-4-hydroxyphenyl”, and the bonding position of the first substituent is “2”.
また、第1置換基は括弧で囲まれている複合置換基である。このため、この化合物名には第2階層が存在する。具体的には、第2階層の母核は「フェニル」、第1置換基は「メチル」、第1置換基の結合位置は「3」、第2置換基は「ヒドロキシ」、第2置換基の結合位置は「4」である。第2階層を構成する複合置換基では、表記上、第1階層の母核に近い置換基が親、すなわち、第2階層の母核となり、母核に遠い置換基が子、すなわち、第2階層の置換基となる。 The first substituent is a composite substituent surrounded by parentheses. For this reason, this compound name has a second hierarchy. Specifically, the parent nucleus of the second hierarchy is “phenyl”, the first substituent is “methyl”, the bonding position of the first substituent is “3”, the second substituent is “hydroxy”, the second substituent The coupling position of “4” is “4”. In the compound substituents constituting the second hierarchy, the substituent close to the first nucleus is the parent, that is, the second nucleus, and the substituent far from the parent is the child, that is, the second hierarchy. Hierarchical substituents.
(化合物分類方法の一実施例)
つぎに、本実施の形態にかかる化合物分類方法の一実施例について説明する。図1は、実施の形態にかかる化合物分類方法の一実施例を示す説明図である。図1において、化合物分類装置100は、分類対象となる化合物群を分類する機能を有するコンピュータである。
(One Example of Compound Classification Method)
Next, an example of the compound classification method according to the present embodiment will be described. FIG. 1 is an explanatory diagram illustrating an example of a compound classification method according to an embodiment. In FIG. 1, a
分類対象となる化合物群は、例えば、化学系や薬学系などの特許文献や学術論文などの文書に列挙された化合物の集合である。特許文献や学術論文などの文書において、列挙された化合物群は、何らかの類似性を有する化合物の集合であることが多い。本化合物分類方法では、分類対象となる化合物群の各々の化合物名から化合物の基礎となる部分構造を表す母核を判別して、各化合物の母核をもとに化合物群を分類する。 The compound group to be classified is, for example, a set of compounds listed in documents such as patent documents and academic papers such as chemical and pharmaceutical systems. In documents such as patent documents and academic papers, the listed compound group is often a collection of compounds having some similarity. In this compound classification method, a mother nucleus representing a partial structure serving as a basis of a compound is determined from each compound name of a compound group to be classified, and the compound group is classified based on the mother nucleus of each compound.
以下、分類対象となる化合物群を「第1〜第5の化合物」として、化合物分類装置100の化合物分類処理例について説明する。
Hereinafter, a compound classification processing example of the
(1)化合物分類装置100は、記憶部110を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、各々の化合物の母核となる部分構造の名称を表す文字列を検出する。記憶部110は、化合物分類装置100がアクセス可能な記憶装置であり、化合物の母核となる部分構造の名称である母核名を記憶している。
(1) The
ここで、第1の化合物の化合物名は「AAAXXX」である。第2の化合物の化合物名は「BBBYYY」である。第3の化合物の化合物名は「CCCXXX」である。第4の化合物の化合物名は「DDDYYY」である。第5の化合物の化合物名は「EEEXXX」である。 Here, the compound name of the first compound is “AAAXXX”. The compound name of the second compound is “BBBYYY”. The compound name of the third compound is “CCCXXX”. The compound name of the fourth compound is “DDDYYY”. The compound name of the fifth compound is “EEEXXXX”.
具体的には、例えば、置換命名法では母核を表す文字列が最後方にくることを利用して、化合物分類装置100が、化合物の化合物名の末尾からt(t=1,2,3,…)文字の文字列と、記憶部110に記憶されている母核名との一致判定を行う。そして、化合物分類装置100が、記憶部110に記憶されている母核名と一致する文字列を、化合物の母核を表す文字列として検出する。
Specifically, for example, in the substitution nomenclature, the
ここでは、第1〜第5の化合物のうち第1、第3および第5の化合物の化合物名の末尾から3文字の文字列「XXX」が、記憶部110に記憶されている母核名「XXX」と一致する。このため、第1、第3および第5の化合物の母核を表す文字列「XXX」が検出される。また、第1〜第5の化合物のうち第2および第4の化合物の化合物名の末尾から3文字の文字列「YYY」が、記憶部110に記憶されている母核名「YYY」と一致する。このため、第2および第4の化合物の母核を表す文字列「YYY」が検出される。
Here, among the first to fifth compounds, the three-character string “XXX” from the end of the compound names of the first, third, and fifth compounds is the parent name “ XXX ". For this reason, the character string “XXX” representing the mother nucleus of the first, third, and fifth compounds is detected. In addition, the three-character string “YYY” from the end of the compound names of the second and fourth compounds of the first to fifth compounds matches the mother nucleus name “YYY” stored in the
(2)化合物分類装置100は、検出した各々の化合物の母核を表す文字列に基づいて、分類対象となる化合物群を分類する。具体的には、例えば、化合物分類装置100が、分類対象となる第1〜第5の化合物を、母核を表す文字列が同一となる化合物同士をグループ化して分類する。
(2) The
ここでは、第1〜第5の化合物が、第1、第3および第5の化合物を含むグループ1と、第2および第4の化合物を含むグループ2とに分類されている。グループ1は、母核を表す文字列が「XXX」となる化合物の集合である。グループ2は、母核を表す文字列が「YYY」となる化合物の集合である。
Here, the first to fifth compounds are classified into
このように、本実施の形態にかかる化合物分類装置100によれば、分類対象となる第1〜第5の化合物を、化合物の基礎となる部分構造を表す母核が同一となる化合物同士で分類することができる。これにより、第1〜第5の化合物の中から化合物の母核が同一の化合物の集合を判別することができる。この結果、例えば、第1〜第5の化合物のうちの母核が同一の化合物同士の類似性や差分を判断し易くすることができる。
Thus, according to the
また、詳細は後述するが、化合物分類装置100は、分類対象となる第1〜第5の化合物のうち、特定の化合物の母核を表す文字列と他の化合物の母核を表す文字列とを比較することにより、第1〜第5の化合物を分類することにしてもよい。これにより、第1〜第5の化合物の中から、特定の化合物と母核が同一の化合物の集合を判別して、特定の化合物と母核が同一の化合物同士の類似性や差分を判断し易くすることができる。
Although details will be described later, the
(システム200のシステム構成例)
つぎに、実施の形態にかかるシステム200のシステム構成例について説明する。図2は、システム200のシステム構成例を示す説明図である。図2において、システム200は、化合物分類装置100と、複数のクライアント装置201(図面では、3台)と、を含む。
(System configuration example of system 200)
Next, a system configuration example of the
システム200において、化合物分類装置100およびクライアント装置201は、有線または無線のネットワーク210を介して接続されている。ネットワーク210は、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などである。
In the
ここで、化合物分類装置100は、構造解析ルールDB(データベース)220、構造式DB230および基本構造抽出ルールDB240を有する。なお、構造解析ルールDB220、構造式DB230および基本構造抽出ルールDB240についての詳細な説明は、図4〜図6を用いて後述する。
Here, the
クライアント装置201は、システム200のユーザが使用するPC(パーソナル・コンピュータ)、ノートPCなどである。例えば、システム200において、クライアント装置201から化合物分類装置100に分類対象となる化合物群の各々の化合物名を表すテキストデータが送信されると、化合物群を分類した分類結果が化合物分類置100からクライアント端末201に送信される。
The
(化合物分類装置100のハードウェア構成例)
図3は、化合物分類装置100のハードウェア構成例を示すブロック図である。図3において、化合物分類装置100は、CPU(Central Processing Unit)301と、ROM(Read‐Only Memory)302と、RAM(Random Access Memory)303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、I/F(Interface)308と、ディスプレイ309と、キーボード310と、マウス311と、を有している。また、各構成部はバス300によってそれぞれ接続されている。
(Hardware configuration example of compound classification apparatus 100)
FIG. 3 is a block diagram illustrating a hardware configuration example of the
ここで、CPU301は、化合物分類装置100の全体の制御を司る。ROM302は、ブートプログラムなどのプログラムを記憶している。RAM303は、CPU301のワークエリアとして使用される。磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータのリード/ライトを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記憶する。
Here, the
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータのリード/ライトを制御する。光ディスク307は、光ディスクドライブ306の制御で書き込まれたデータを記憶したり、光ディスク307に記憶されたデータをコンピュータに読み取らせたりする。
The
I/F308は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して、他のコンピュータ、例えば、クライアント装置201に接続される。そして、I/F308は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F308には、例えば、モデムやLANアダプタなどを採用することができる。
The I /
ディスプレイ309は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ309は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
The
キーボード310は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス311は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
The
なお、化合物分類装置100は、上述した構成部のうち、例えば、光ディスクドライブ306、光ディスク307、ディスプレイ309、キーボード310、マウス311などを有していなくてもよい。また、クライアント装置201は、上述した化合物分類装置100と同様のハードウェア構成により実現することができる。
Note that the
(各種DB220,230,240の記憶内容)
つぎに、各種DB220,230,240の記憶内容について説明する。各種DB220,230,240は、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
(Storage contents of
Next, the contents stored in the
図4は、構造解析ルールDB220の記憶内容の一例を示す説明図である。図4において、構造解析ルールDB220は、ルールID、ルール名、ルール内容および付記のフィールドを有する。各フィールドに情報を設定することで、ルール情報(例えば、ルール情報400−1〜400−8)がレコードとして記憶されている。
FIG. 4 is an explanatory diagram showing an example of the contents stored in the structure
ここで、ルールIDは、構造解析ルールの識別子である。構造解析ルールは、化合物の構造を解析するための決まりごとを規定したものである。ルール名は、構造解析ルールの名称である。ルール内容は、構造解析ルールの内容である。付記は、ルール内容の補足である。 Here, the rule ID is an identifier of the structure analysis rule. The structure analysis rule defines rules for analyzing the structure of a compound. The rule name is the name of the structure analysis rule. The rule content is the content of the structure analysis rule. The supplementary notes are a supplement to the rules.
ルール情報400−1を例に挙げると、ルール1のルール名「有機化合物」およびルール内容「親子関係が基本である。親は母核、子は置換基となる。」が示されている。ルール情報400−1によれば、化合物分類装置100は、有機化合物は親子関係が基本であり、親は母核、子は置換基となることを認識することができる。
Taking rule information 400-1 as an example, the rule name “Organic compound” of
また、ルール情報400−2を例に挙げると、ルール2のルール名「母核」、ルール内容「語頭+語幹+語尾の構成である。炭素鎖が第1階層の母核となる。」および付記「母核炭素鎖は構造式DBを参照」が示されている。ルール情報400−2によれば、化合物分類装置100は、母核は語頭+語幹+語尾の構成であることを認識することができる。また、化合物分類装置100は、炭素鎖が第1階層の母核となることを認識することができる。また、化合物分類装置100は、母核炭素鎖は構造式DB230を参照して特定できることを認識することができる。
Taking rule information 400-2 as an example, the rule name “base” of
図5は、構造式DB230の記憶内容の一例を示す説明図である。図5において、構造式DB230は、化合物ID、化合物の種類、環フラグ、化合物名、構造式、原子間結合なし構造式および備考のフィールドを有する。各フィールドに情報を設定することで、化合物ごとの構造式情報510−1〜510−K,520−1〜520−Pがレコードとして記憶されている。具体的には、構造式情報510−1〜510−Kは、母核を表す化合物の構造式情報である。また、構造式情報520−1〜520−Pは、置換基を表す化合物の構造式情報である。
FIG. 5 is an explanatory diagram showing an example of the contents stored in the
ここで、化合物IDは、母核または置換基を表す化合物の識別子である。以下の説明では、母核B1〜BKのうち任意の母核を「母核Bk」と表記する場合がある(k=1,2,…,K)。また、置換基C1〜CPのうち任意の置換基を「置換基Cp」と表記する場合がある(p=1,2,…,P)。 Here, the compound ID is an identifier of a compound representing a mother nucleus or a substituent. In the following description, an arbitrary mother nucleus among the mother nuclei B1 to BK may be expressed as “mother nucleus Bk” (k = 1, 2,..., K). Moreover, arbitrary substituents among the substituents C1 to CP may be referred to as “substituent Cp” (p = 1, 2,..., P).
化合物の種類は、母核または置換基を表す化合物の種類である。環フラグは、母核または置換基を表す化合物が環構造であるか否かを示すフラグである。環フラグは、環構造の場合「Yes」、環構造ではない場合「No」となる。化合物名は、母核または置換基を表す化合物の名称である。 The type of compound is the type of compound that represents the mother nucleus or substituent. The ring flag is a flag indicating whether or not the compound representing the mother nucleus or the substituent has a ring structure. The ring flag is “Yes” in the case of a ring structure, and “No” if it is not a ring structure. The compound name is the name of the compound representing the mother nucleus or substituent.
構造式は、母核または置換基を表す化合物の構造式である。構造式とは、化合物内での元素の結合状態を図示した化学式である。構造式に含まれる各々の炭素元素には、炭素番号が付されている。原子間結合なし構造式は、構造式から原子間の結合を示す価標を除外したものである。備考は、構造式に関する補足情報である。備考フィールドには、例えば、構造式を略記法で表したものなどが設定される。 The structural formula is a structural formula of a compound representing a mother nucleus or a substituent. The structural formula is a chemical formula illustrating the bonding state of elements in a compound. Each carbon element included in the structural formula is given a carbon number. The structural formula without an interatomic bond is obtained by excluding a valence mark indicating a bond between atoms from the structural formula. The remarks are supplementary information regarding the structural formula. In the remarks field, for example, a structural formula expressed in abbreviated notation is set.
構造式情報510−1を例に挙げると、母核B1を表す化合物の種類「直鎖炭化水素」、環フラグ「No」、化合物名「メタン」、構造式「CH4」および原子間結合なし構造式「CH4」が示されている。また、構造式「CH4」に含まれる炭素元素「C」には炭素番号「1」が付されている。 Taking the structural formula information 510-1 as an example, the type of the compound representing the mother nucleus B1 “linear hydrocarbon”, the ring flag “No”, the compound name “methane”, the structural formula “CH4”, and the structure without an interatomic bond The formula “CH4” is shown. Also, the carbon number “1” is attached to the carbon element “C” contained in the structural formula “CH4”.
構造式情報520−1を例に挙げると、置換基C1を表す化合物の環フラグ「No」、化合物名「メチル」、構造式「CH3−」および原子間結合なし構造式「CH3−」が示されている。また、構造式「CH3−」に含まれる炭素元素「C」には炭素番号「1」が付されている。 Taking the structural formula information 520-1 as an example, the ring flag “No”, the compound name “methyl”, the structural formula “CH3-”, and the structural formula “CH3-” without interatomic bond of the compound representing the substituent C1 are shown. Has been. Also, the carbon number “1” is attached to the carbon element “C” included in the structural formula “CH3-”.
なお、図5に示した構造式DB230のデータ構造では、母核B1〜BKの構造式情報510−1〜510−Kと、置換基C1〜CPの構造式情報520−1〜520−Pと、を区別して示したが、これに限らない。例えば、第2階層以降は、置換基C1〜CPも母核となり得るため、構造式DB230において、母核と置換値とを区別することなく、化合物ごとに構造式情報を管理することにしてもよい。
In the data structure of the
図6は、基本構造抽出ルールDB240の記憶内容の一例を示す説明図である。図6において、基本構造抽出ルールDB240は、ルールIDおよびルール内容のフィールドを有する。各フィールドに情報を設定することで、基本構造抽出ルール情報(例えば、基本構造抽出ルール情報600−1〜600−5)がレコードとして記憶されている。
FIG. 6 is an explanatory diagram showing an example of the contents stored in the basic structure
ここで、ルールIDは、基本構造抽出ルールの識別子である。基本構造抽出ルールは、電子文書の中から、基本構造となる化合物の化合物名を抽出するための決まりごとを規定したものである。基本構造となる化合物とは、例えば、化学系や薬学系などの特許文献や学術論文などの電子文書に列挙された化合物群のうち、最も基本的な構造を有する化合物である。ルール内容は、基本構造抽出ルールの内容である。 Here, the rule ID is an identifier of the basic structure extraction rule. The basic structure extraction rule defines a rule for extracting a compound name of a compound having a basic structure from an electronic document. The compound having a basic structure is, for example, a compound having the most basic structure among a group of compounds listed in a patent document such as a chemical system or a pharmaceutical system or an electronic document such as an academic paper. The rule content is the content of the basic structure extraction rule.
基本構造抽出ルール600−1を例に挙げると、ルール1のルール内容『特許明細書中の化合物の中には、「特にXXXが好ましい。」で表現される化合物が存在する場合がある。』が示されている。基本構造抽出ルール情報600−1によれば、化合物分類装置100は、特許明細書中に表現された「特にXXXが好ましい。」の「XXX」は、基本構造となる化合物の化合物名となることを認識することができる。
Taking the basic structure extraction rule 600-1 as an example, there may be a compound expressed by the rule content “rule in
また、基本構造抽出ルール600−5を例に挙げると、ルール5のルール内容『特許明細書中の化合物は、化合物群中で「、」で区切って分割して先頭のXXXを抽出する。』が示されている。基本構造抽出ルール600−5によれば、化合物分類装置100は、特許明細書中の化合物は、「、」で区切って表現されていることを認識することができる。
Further, taking the basic structure extraction rule 600-5 as an example, the rule content of
(化合物分類装置100の機能的構成例)
つぎに、化合物分類装置100の機能的構成例について説明する。図7は、化合物分類装置100の機能的構成例を示すブロック図である。図7において、化合物分類装置100は、受付部701と、検出部702と、抽出部703と、特定部704と、分類部705と、比較部706と、算出部707と、判定部708と、設定部709と、作成部710と、出力部711と、を含む構成である。受付部701〜出力部711は制御部となる機能であり、具体的には、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F308により、その機能を実現する。また、各機能部の処理結果は、例えば、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶される。
(Functional configuration example of the compound classification apparatus 100)
Next, a functional configuration example of the
受付部701は、分類対象となる化合物群の各々の化合物の化合物名を受け付ける機能を有する。具体的には、例えば、受付部701が、図3に示したキーボード310やマウス311を用いたユーザの操作入力により、分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。また、受付部701が、例えば、分類対象となる化合物群の各々の化合物の化合物名を表すテキストデータをクライアント装置201から受信することにより、分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。
The receiving unit 701 has a function of receiving the compound name of each compound in the compound group to be classified. Specifically, for example, the accepting unit 701 accepts the compound name of each compound in the compound group to be classified by the user's operation input using the
また、受付部701は、分類対象となる化合物群のうち基本構造となる化合物の指定を受け付けることにしてもよい。具体的には、例えば、受付部701が、キーボード310やマウス311を用いたユーザの操作入力により、分類対象となる化合物群のうち基本構造となる化合物の指定を受け付けることにしてもよい。また、受付部701が、例えば、分類対象となる化合物群のうち基本構造となる化合物の化合物名を表すテキストデータをクライアント装置201から受信することにより、基本構造となる化合物の指定を受け付けることにしてもよい。
In addition, the receiving unit 701 may receive a designation of a compound that is a basic structure among a group of compounds to be classified. Specifically, for example, the accepting unit 701 may accept designation of a compound having a basic structure from among a group of compounds to be classified by a user operation input using the
なお、受け付けられた分類対象となる化合物群の各々の化合物の化合物名は、例えば、後述の図8に示す分割テーブル800に記憶される。 In addition, the compound name of each compound of the compound group which becomes the classification target received is memorize | stored in the division | segmentation table 800 shown in below-mentioned FIG. 8, for example.
また、化合物分類装置100は、図6に示した基本構造抽出ルールDB240を参照して、電子文書の中から分類対象となる化合物群の各々の化合物の化合物名を検出することにしてもよい。この場合、受付部701は、電子文書の中から検出された分類対象となる化合物群の各々の化合物の化合物名を受け付けることにしてもよい。
Further, the
また、化合物分類装置100は、例えば、基本構造抽出ルールDB240を参照して、分類対象となる化合物群の検出元となる電子文書の中から、分類対象となる化合物群のうち基本構造となる化合物の化合物名を検出することにしてもよい。この場合、受付部701は、電子文書の中から検出された基本構造となる化合物の化合物名を受け付けることにしてもよい。
In addition, the
ここで、電子文書は、例えば、特許文献や学術論文などの技術文書である。電子文書は、例えば、化合物分類装置100に入力されてRAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。一例として、特許明細書中に、『前記一般式(I)で表されるAAA類の代表例としては、###、$$$、@@@などが挙げられる。特に、$$$が好ましい。』と記載されているとする。
Here, the electronic document is, for example, a technical document such as a patent document or an academic paper. For example, the electronic document is input to the
この場合、化合物分類装置100は、分類対象となる化合物群として、特許明細書の中から「、」で区切られている「###」、「$$$」および「@@@」を検出する。また、化合物分類装置100は、分類対象となる化合物群のうちの基本構造となる化合物の化合物名として、特許明細書の中から「$$$」を検出する。
In this case, the
以下の説明では、分類対象となる化合物群を「化合物群M1〜MR」と表記する場合がある(Rは2以上の自然数)。また、化合物群M1〜MRのうち任意の化合物を「化合物Mr」と表記する場合がある(r=1,2,…,R)。また、化合物Mrの化合物名を「化合物名Nr」と表記する場合がある。 In the following description, a compound group to be classified may be referred to as “compound groups M1 to MR” (R is a natural number of 2 or more). In addition, any compound in the compound groups M1 to MR may be referred to as “compound Mr” (r = 1, 2,..., R). In addition, the compound name of the compound Mr may be expressed as “compound name Nr”.
検出部702は、構造式DB230を参照して、化合物群M1〜MRの各々の化合物の化合物名の中から、各々の化合物の母核となる部分構造の名称を表す文字列を検出する機能を有する。ここで、文字列とは、化合物の化合物名において連続する1以上の文字の集合である。
The
上述したように、置換命名法において、化合物の母核を表す文字列は、化合物の化合物名の最後方に記述される。検出部702は、例えば、この置換命名法の特徴を利用して、化合物Mrの化合物名Nrの中から、化合物Mrの母核を表す文字列を検出することができる。
As described above, in substitution nomenclature, a character string representing the mother nucleus of a compound is written at the end of the compound name of the compound. The
具体的には、例えば、検出部702が、構造式DB230の中から母核Bkの化合物名を選択する。つぎに、検出部702が、選択した母核Bkの化合物名の文字数tを特定する。そして、検出部702が、化合物Mrの化合物名Nrの末尾からt文字の文字列と、母核Bkの化合物名とが一致するか否かを判断する。ここで、母核Bkの化合物名と一致する場合、検出部702が、化合物名Nrの末尾からt文字の文字列を、化合物Mrの母核を表す文字列として検出する。
Specifically, for example, the
また、他の検出手法として、例えば、検出部702が、「t=1」として、化合物Mrの化合物名Nrの末尾からt文字の文字列を検出する。そして、検出部702が、構造式DB230の中から、検出したt文字の文字列と化合物名が一致する母核Bkを検出する。ここで、母核Bkが検出された場合、検出部702が、化合物名Nrの末尾からt文字の文字列を、化合物Mrの母核を表す文字列として検出する。一方、母核Bkが検出されなかった場合、検出部702が、「t」をインクリメントして、化合物名Nrの末尾からt文字の文字列を検出することにより処理を繰り返す。なお、「t」が、構造式DB230に登録されている母核を表す化合物の化合物名の最大文字数を超えた場合、化合物Mrの母核を表す文字列は非検出となる。
As another detection method, for example, the
なお、検出された化合物Mrの母核を表す文字列は、例えば、後述の図11に示す母核比較テーブル1100に記憶される。 In addition, the character string showing the mother nucleus of the detected compound Mr is memorize | stored in the mother nucleus comparison table 1100 shown in below-mentioned FIG. 11, for example.
抽出部703は、化合物群M1〜MRの各々の化合物の化合物名のうち各々の化合物の母核を表す文字列を除く残余の文字列の中から、各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する機能を有する。また、抽出部703は、各々の化合物の化合物名のうち各々の化合物の母核を表す文字列を除く残余の文字列の中から、各々の化合物の母核に結合する置換基の結合位置を表す文字列を抽出することにしてもよい。
The
ここで、置換命名法において、化合物の置換基は、例えば「結合位置−置換基」という形式で記述される。そこで、まず、抽出部703が、化合物名Nrのうち化合物Mrの母核を表す文字列を除く残余の文字列を「数字−文字列」の組に分割する。文字列については、括弧に囲まれた部分も一つの文字列とする。そして、抽出部703が、各組の文字列を先頭から順番に第1〜第m置換基の名称として抽出する。また、抽出部703が、各組の数字を先頭から順番に第1〜第m置換基の結合位置として抽出する。
Here, in the substitution nomenclature, the substituent of the compound is described in the form of “bonding position-substituent”, for example. Therefore, first, the
また、第j置換基を表す文字列に倍数接頭辞が含まれている場合、第j置換基が結合する母核の結合位置を表す文字列は、例えば、「数字,数字−文字列」というようにハイフン(−)の前の数字がカンマ(,)で区切られた形となることがある。ここで、倍数接頭辞とは、置換基の名称の前に付いて、置換基の数を示す接頭語である。 When the character string representing the jth substituent includes a multiple prefix, the character string representing the binding position of the mother nucleus to which the jth substituent is bound is, for example, “number, number-character string”. In this way, the number before the hyphen (-) may be separated by a comma (,). Here, the multiple prefix is a prefix indicating the number of substituents before the name of the substituent.
例えば、「ジ」は、置換基が2つであることを示す倍数接頭辞である。また、「トリ」は、置換基が3つであることを示す倍数接頭辞である。この場合、抽出部703は、化合物名Nrのうち母核を表す文字列を除く残余の文字列を、例えば「数字,数字−文字列」を一組として分割する。すなわち、抽出部703が、第j置換基が結合する母核の結合位置を表す文字列として「数字,数字−」を抽出する。
For example, “di” is a multiple prefix indicating that there are two substituents. “Tori” is a multiple prefix indicating that there are three substituents. In this case, the
また、抽出部703は、置換基を表す文字列に倍数接頭辞が含まれている場合、置換基が結合する母核の結合位置を表す文字列と、置換基を表す文字列とを展開することにしてもよい。ここで、展開とは、倍数接頭辞を用いて集約されていた複数の置換基を各々の置換基に分解することである。
In addition, when the character string representing the substituent includes a multiple prefix, the
具体的には、例えば、抽出部703が、置換基が結合する母核の結合位置を表す文字列に含まれる「数字,」の「,」を「−」に変換する。そして、抽出部703が、「,」が「−」に変換された変換後の文字列を「数字−」ごとに分割するとともに、分割後の「数字−」のうち2番目以降の「数字−」の先頭に「−」を追加する。
Specifically, for example, the
この結果、1番目の「数字−」が、1番目の置換基が結合する母核の結合位置となる。また、2番目以降の「−数字−」が、それぞれ2番目以降の置換基が結合する母核の結合位置となる。また、抽出部703が、置換基を表す文字列から倍数接頭辞を削除し、削除後の文字列を「−−」の間(連続するハイフンとハイフンとの間)に挿入する。すなわち、置換基を表す文字列は、展開前の置換基を表す文字列から倍数接頭辞を削除した文字列となる。なお、展開例については、図9および図10を用いて後述する。
As a result, the first “number-” is the binding position of the mother nucleus to which the first substituent is bonded. Further, the second and subsequent “-numbers-” are the bonding positions of the mother nucleus to which the second and subsequent substituents are bonded. In addition, the
なお、抽出された化合物Mrの置換基を表す文字列は、例えば、後述の図17に示す置換基比較テーブル1700に記憶される。また、抽出された化合物Mrの母核に結合する各置換基の結合位置を表す文字列は、例えば、母核比較テーブル1100および置換基比較テーブル1700に記憶される。 In addition, the character string showing the substituent of the extracted compound Mr is memorize | stored in the substituent comparison table 1700 shown in below-mentioned FIG. 17, for example. Moreover, the character string showing the coupling | bonding position of each substituent couple | bonded with the mother nucleus of the extracted compound Mr is memorize | stored in the mother nucleus comparison table 1100 and the substituent comparison table 1700, for example.
特定部704は、構造式DB230を参照して、検出された各々の化合物の母核を表す文字列に対応する母核の構造の種類を特定する機能を有する。具体的には、例えば、特定部704が、構造式DB230内の構造式情報510−1〜510−Kの中から、化合物Mrの母核を表す文字列が化合物名フィールドに設定されている構造式情報510−kを特定する。そして、特定部704が、構造式情報510−kの化合物の種類フィールドに設定されている化合物の種類を特定する。これにより、化合物Mrの母核を表す化合物の構造の種類を特定することができる。なお、特定された化合物Mrの母核の構造の種類は、例えば、母核比較テーブル1100に記憶される。
The specifying
また、特定部704は、構造式DB230を参照して、検出された各々の化合物の母核を表す文字列に対応する母核の構造式に含まれる特定の元素の元素数を特定する機能を有する。ここで、特定の元素は、例えば、炭素、窒素、酸素、硫黄、燐、ハロゲンなどである。なお、特定の元素とする元素の元素記号は、例えば、ROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
Further, the specifying
以下の説明では、特定の元素として「炭素」を例に挙げて説明する。具体的には、例えば、特定部704が、構造式DB230内の構造式情報510−1〜510−Kの中から、化合物Mrの母核を表す文字列が化合物名フィールドに設定されている構造式情報510−kを特定する。つぎに、特定部704が、構造式情報510−kの構造式フィールドに設定されている構造式を特定する。そして、特定部704が、特定した構造式に含まれる炭素の元素数を特定する。これにより、化合物Mrの母核を表す化合物の構造式に含まれる炭素数を特定することができる。なお、特定された化合物Mrの母核の炭素数は、例えば、母核比較テーブル1100に記憶される。
In the following description, “carbon” will be described as an example of the specific element. Specifically, for example, the specifying
また、特定部704は、構造式DB230を参照して、抽出された各々の化合物の置換基を表す文字列に対応する置換基の構造式に含まれる炭素数を特定することにしてもよい。具体的には、例えば、特定部704が、構造式DB230内の構造式情報520−1〜520−Pの中から、化合物Mrの第j置換基を表す文字列が化合物名フィールドに設定されている構造式情報520−pを特定する。つぎに、特定部704が、構造式情報520−pの構造式フィールドに設定されている構造式を特定する。そして、特定部704が、特定した構造式に含まれる炭素の元素数を特定する。これにより、化合物Mrの第j置換基母核を表す化合物の構造式に含まれる炭素数を特定することができる。なお、特定された化合物Mrの第j置換基の炭素数は、例えば、置換基比較テーブル1700に記憶される。
The identifying
特定部704は、抽出された抽出結果に基づいて、化合物群M1〜MRの各々の化合物の置換基の数を特定することにしてもよい。例えば、化合物Mrの母核に結合する置換基として第1〜第m置換基が抽出された場合、特定部704は、化合物Mrの置換基数「m」を特定する。なお、特定された化合物Mrの置換基数は、例えば、母核比較テーブル1100に記憶される。
The specifying
分類部705は、化合物群M1〜MRを分類する機能を有する。具体的には、例えば、分類部705が、共通する特徴を有する化合物同士をまとめた集合ごとに化合物群M1〜MRを分類することにしてもよい。
The
分類部705は、検出された各々の化合物の母核を表す文字列に基づいて、化合物群M1〜MRを分類する機能を有する。具体的には、例えば、分類部705が、母核を表す文字列が同一の化合物の集合ごとに化合物群M1〜MRを分類する。これにより、化合物の基礎となる部分構造を表す母核が同一の化合物同士を分類することができる。
The
以下、母核を表す文字列が同一の化合物群を、さらに細かく分類する分類部705の具体的な処理内容を表す(分類例1)〜(分類例6)について説明する。
Hereinafter, (Classification Example 1) to (Classification Example 6) representing specific processing contents of the classifying
(分類例1)
分類部705は、さらに、抽出された各々の化合物の置換基を表す文字列に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ置換基を表す文字列が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ化合物の系統や命名に使う部分構造を表す置換基が同一の化合物同士を分類することができる。なお、文字列の比較対象となる置換基は、例えば、各々の化合物の第j置換基である。
(Classification example 1)
The classifying
(分類例2)
分類部705は、さらに、特定された各々の化合物の置換基の数に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ置換基の数が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基数が同一の化合物同士を分類することができる。
(Classification example 2)
The
また、分類部705が、母核を表す文字列が同一かつ置換基の数の差が所定数α以内の化合物の集合ごとに、化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基数の差が所定数α以内の化合物同士を分類することができる。所定数αは、例えば、「α=1」や「α=2」などに設定される。なお、所定数αは、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されていてもよい。
The classifying
(分類例3)
分類部705は、さらに、各々の化合物の置換基の結合位置を表す文字列に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ母核に結合する各化合物の置換基の結合位置を表す文字列が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ各置換基の結合位置が同一の化合物同士を分類することができる。
(Classification example 3)
The
(分類例4)
分類部705は、さらに、特定された各々の化合物の母核の構造の種類に基づいて、化合物群M1〜MRを分類することにしてもよい。ここで、母核の構造の種類とは、母核を表す化合物の分子構造の種類を表すものである。母核の構造の種類としては、例えば、直鎖炭化水素、芳香族炭化水素、脂環式炭化水素などがある。
(Classification example 4)
The classifying
具体的には、例えば、分類部705が、母核を表す文字列が同一の化合物の第1集合と、母核を表す文字列が異なりかつ母核の構造の種類が同一の化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の構造の種類が同一の化合物同士を分類することができる。なお、母核が同一の化合物同士は、母核の種類も同一である。
Specifically, for example, the
(分類例5)
分類部705は、さらに、特定された各々の化合物の母核の構造式に含まれる炭素数に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一の化合物の第1集合と、母核を表す文字列が異なりかつ母核の構造式に含まれる炭素数が同一の化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の炭素数が同一の化合物同士を分類することができる。なお、母核が同一の化合物同士は、炭素数も同一である。
(Classification example 5)
The
また、分類部705が、母核を表す文字列が同一の化合物の第1集合と、母核を表す文字列が異なりかつ母核の構造式に含まれる炭素数の差が所定数β以内の化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一の化合物同士を分類するとともに、化合物の母核は異なるが母核の炭素数の差が所定数β以内の化合物同士を分類することができる。所定数βは、例えば、「β=3」や「β=5」などに設定される。なお、所定数βは、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されていてもよい。
In addition, the
(分類例6)
分類部705は、さらに、特定された各々の化合物の置換基の構造式に含まれる炭素数に基づいて、化合物群M1〜MRを分類することにしてもよい。具体的には、例えば、分類部705が、母核を表す文字列が同一かつ置換基の構造式に含まれる炭素数が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基の炭素数が同一の化合物同士を分類することができる。なお、炭素数の比較対象となる置換基は、例えば、各々の化合物の第j置換基である。
(Classification example 6)
The classifying
また、分類部705が、母核を表す文字列が同一かつ置換基の構造式に含まれる炭素数の差が所定数γ以内の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。これにより、化合物の母核が同一かつ置換基の炭素数の差が所定数γ以内の化合物同士を分類することができる。所定数γは、例えば、「γ=3」や「γ=5」などに設定される。なお、所定数γは、例えば、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されていてもよい。
Further, the
また、分類部705は、上述した(分類例1)〜(分類例6)のうちの2以上の分類例を組み合わせて、化合物群M1〜MRを分類することにしてもよい。例えば、(分類例1)および(分類例2)を組み合わせることにより、分類部705が、母核を表す文字列が同一かつ置換基を表す文字列が同一かつ置換基数が同一の化合物の集合ごとに化合物群M1〜MRを分類することにしてもよい。
Further, the
これにより、化合物の母核が同一かつ置換基が同一かつ置換基数が同一の化合物同士を分類することができる。また、化合物の母核が同一かつ置換基(少なくともいずれかの置換基)が同一かつ置換基数が異なる化合物同士を分類することができる。また、化合物の母核が同一かつ置換基数が同一かつ置換基が異なる化合物同士を分類することができる。 Thereby, compounds having the same mother nucleus, the same substituents, and the same number of substituents can be classified. In addition, compounds having the same mother nucleus, the same substituent (at least one substituent), and different numbers of substituents can be classified. In addition, compounds having the same mother nucleus, the same number of substituents, and different substituents can be classified.
なお、上述した説明では、母核を表す文字列が同一の化合物群をさらに分類する場合について説明したが、これに限らない。例えば、分類部705は、母核を表す文字列、母核の構造の種類、母核の炭素数、置換基を表す文字列、置換基数、置換基の結合位置、置換基の炭素数の少なくともいずれかが共通する化合物同士をまとめた集合ごとに化合物群M1〜MRを分類することにしてもよい。
In the above description, the case has been described in which the compound group having the same character string representing the mother nucleus is further classified, but the present invention is not limited to this. For example, the
つぎに、化合物群M1〜MRのうち特定の化合物と、特定の化合物と共通の特徴を有する他の化合物とをまとめた集合に化合物群M1〜MRを分類する場合について説明する。ここで、特定の化合物とは、例えば、化合物群M1〜MRのうち基本構造となる化合物である。基本構造となる化合物は、例えば、上記受付部701の受付結果から特定される。 Next, a case where the compound groups M1 to MR are classified into a set in which the specific compounds of the compound groups M1 to MR and other compounds having characteristics common to the specific compounds are grouped will be described. Here, the specific compound is, for example, a compound having a basic structure among the compound groups M1 to MR. The compound serving as the basic structure is specified from the reception result of the reception unit 701, for example.
比較部706は、化合物群M1〜MRのうち特定の化合物の母核を表す文字列と、化合物群M1〜MRのうち特定の化合物とは異なる他の化合物の母核を表す文字列とを比較する機能を有する。この場合、分類部705は、比較された比較結果に基づいて、化合物群M1〜MRを分類することにしてもよい。
The comparison unit 706 compares the character string representing the mother nucleus of a specific compound in the compound groups M1 to MR with the character string representing the mother nucleus of another compound different from the specific compound in the compound groups M1 to MR. It has the function to do. In this case, the classifying
具体的には、例えば、分類部705が、特定の化合物と母核を表す文字列が同一の化合物の集合と、特定の化合物と母核を表す文字列が異なる化合物の集合とに化合物群M1〜MRを分類する。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物同士を分類することができる。
Specifically, for example, the
以下、特定の化合物と母核を表す文字列が同一の化合物群をさらに分類する分類部705の具体的な処理内容を表す(分類例7)〜(分類例12)について説明する。
Hereinafter, (Classification Example 7) to (Classification Example 12) representing specific processing contents of the
(分類例7)
比較部706は、さらに、特定の化合物の置換基を表す文字列と、他の化合物の置換基を表す文字列とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基を表す文字列が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基が同一の化合物同士を分類することができる。
(Classification example 7)
The comparison unit 706 may further compare a character string representing a substituent of a specific compound with a character string representing a substituent of another compound. In this case, the classifying
なお、文字列の比較対象となる置換基は、例えば、特定の化合物の第j置換基と、他の化合物の第j置換基である。また、特定の化合物の第j置換基が複合置換基の場合は、比較部706が、特定の化合物の第j置換基を表す文字列と、他の化合物の第1〜第m置換基のうち複合置換基となる置換基を表す文字列とを比較することにしてもよい。この際、他の化合物の第1〜第m置換基のうち複合置換基となる置換基が複数存在する場合は、他の化合物の複合置換基となる複数の置換基のうち、特定の化合物の第j置換基を表す文字列との類似度が最大の置換基を比較対象とすることにしてもよい。 In addition, the substituent used as the comparison object of a character string is the jth substituent of a specific compound and the jth substituent of another compound, for example. When the jth substituent of the specific compound is a composite substituent, the comparison unit 706 includes a character string representing the jth substituent of the specific compound and the first to mth substituents of the other compounds. You may decide to compare with the character string showing the substituent used as a composite substituent. At this time, when there are a plurality of substituents serving as composite substituents among the first to m-th substituents of other compounds, among the plurality of substituents serving as composite substituents of the other compounds, The substituent having the maximum similarity with the character string representing the j-th substituent may be set as a comparison target.
また、分類部705が、例えば、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基が異なる化合物同士を分類することができる。
In addition, the
(分類例8)
比較部706は、さらに、特定の化合物の置換基数と、他の化合物の置換基数とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基数が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基数が同一の化合物同士を分類することができる。
(Classification example 8)
The comparison unit 706 may further compare the number of substituents of a specific compound with the number of substituents of another compound. In this case, for example, the
また、分類部705が、例えば、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基数が異なる化合物同士を分類することができる。
In addition, the
(分類例9)
比較部706は、さらに、特定の化合物の置換基の結合位置を表す文字列と、他の化合物の置換基の結合位置を表す文字列とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基の結合位置が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の結合位置が同一の化合物同士を分類することができる。
(Classification example 9)
The comparison unit 706 may further compare a character string that represents the bonding position of a substituent of a specific compound with a character string that represents the bonding position of a substituent of another compound. In this case, for example, the
また、分類部705が、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の結合位置が異なる化合物同士を分類することができる。
Further, the
(分類例10)
比較部706は、さらに、特定の化合物の母核の構造の種類と、他の化合物の母核の構造の種類とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一の化合物の第1集合と、特定の化合物と母核を表す文字列が異なり、かつ、特定の化合物と母核の構造の種類が同一の第2集合とに化合物群M1〜MRを分類することにしてもよい。
(Classification example 10)
The comparison unit 706 may further compare the type of the structure of the mother nucleus of a specific compound with the type of structure of the mother nucleus of another compound. In this case, the
これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物同士を分類するとともに、基本構造となる化合物と母核は異なるが母核の構造の種類が基本構造となる化合物と同一の化合物同士を分類することができる。 As a result, compounds having the same basic structure as the compound having the basic structure among the compound groups M1 to MR are classified, and the compound having the basic structure is different from the mother nucleus, but the type of structure of the mother nucleus is the basic structure. The same compounds as the compounds can be classified.
(分類例11)
比較部706は、さらに、特定の化合物の母核の構造式に含まれる炭素数と、他の化合物の母核の構造式に含まれる炭素数とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一の化合物の第1集合と、特定の化合物と母核を表す文字列が異なり、かつ、特定の化合物と母核の炭素数が同一の第2集合とに化合物群M1〜MRを分類することにしてもよい。
(Classification example 11)
The comparison unit 706 may further compare the number of carbons contained in the structural formula of the mother nucleus of a specific compound with the number of carbons contained in the structural formula of the mother nucleus of another compound. In this case, the
これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物同士を分類するとともに、基本構造となる化合物と母核は異なるが母核の炭素数が基本構造となる化合物と同一の化合物同士を分類することができる。 This classifies compounds having the same basic structure as the compound having the basic structure among the compound groups M1 to MR, and the compound having the basic structure in which the number of carbon atoms in the mother nucleus is different from the basic structure. The same compounds can be classified.
(分類例12)
比較部706は、さらに、特定の化合物の置換基の構造式に含まれる炭素数と、他の化合物の置換基の構造式に含まれる炭素数とを比較することにしてもよい。この場合、分類部705が、例えば、特定の化合物と母核を表す文字列が同一かつ置換基の炭素数が同一の化合物の第1集合と、第1集合の化合物とは異なる化合物の第2集合とに化合物群M1〜MRを分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の炭素数が同一の化合物同士を分類することができる。
(Classification example 12)
The comparison unit 706 may further compare the number of carbons included in the structural formula of the substituent of a specific compound with the number of carbons included in the structural formula of the substituent of another compound. In this case, for example, the
また、分類部705が、第2集合の化合物群を、特定の化合物と母核を表す文字列が同一の化合物の第3集合と、第3集合の化合物とは異なる化合物の第4集合とに分類することにしてもよい。これにより、化合物群M1〜MRのうち基本構造となる化合物と母核が同一かつ置換基の炭素数が異なる化合物同士を分類することができる。
Further, the
算出部707は、比較された比較結果に基づいて、特定の化合物と他の化合物との類似度合いを表す類似度を算出することにしてもよい。具体的には、例えば、算出部707が、ある項目について、他の化合物が特定の化合物と共通の項目値を有する場合、他の化合物の類似度に所定値を加算することにより、他の化合物の類似度を算出することにしてもよい。 The calculation unit 707 may calculate the degree of similarity representing the degree of similarity between a specific compound and another compound based on the compared result. Specifically, for example, when another compound has a common item value with a specific compound for a certain item, the calculation unit 707 adds the predetermined value to the similarity of the other compound to thereby calculate the other compound. The similarity may be calculated.
ここで、項目とは、例えば、母核を表す文字列、置換基を表す文字列、置換基数、置換基の結合位置、母核の構造の種類、母核の炭素数、置換基の炭素数などである。また、他の化合物の類似度の初期値は、例えば「0」である。所定値は、全項目で共通の値であってもよく、また、項目ごとに設定される値であってもよい。 Here, the item is, for example, a character string representing the mother nucleus, a character string representing the substituent, the number of substituents, the bonding position of the substituent, the type of structure of the mother nucleus, the number of carbons in the mother nucleus, the number of carbons in the substituent. Etc. The initial value of the similarity of other compounds is, for example, “0”. The predetermined value may be a value common to all items, or may be a value set for each item.
より具体的には、例えば、算出部707が、他の化合物の母核を表す文字列が特定の化合物と同一の場合、他の化合物の類似度に「3」を加算し、他の化合物の母核の構造の種類が特定の化合物と同一の場合、他の化合物の類似度に「1」を加算する。所定値は、予め設定されてROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されている。
More specifically, for example, when the character string representing the mother nucleus of another compound is the same as the specific compound, the calculation unit 707 adds “3” to the similarity of the other compound, When the type of structure of the mother nucleus is the same as that of a specific compound, “1” is added to the similarity of other compounds. The predetermined value is set in advance and stored in a storage device such as the
判定部708は、抽出された化合物Mrの第j置換基を表す文字列に基づいて、化合物Mrの第j置換基が別の置換基を含む複合置換基か否かを判定する機能を有する。上述したように、有機化合物の化合物名において、複合置換基を表す文字列は、例えば、括弧やかぎ括弧で囲まれている。このため、判定部708が、例えば、化合物Mrの第j置換基を表す文字列が、括弧やかぎ括弧で囲まれた文字列か否かを判定することにより、第j置換基が複合置換基か否かを判定することができる。
The
設定部709は、化合物Mrの第j置換基が複合置換基であると判定された場合、化合物Mrの第j置換基を表す文字列を、分類対象となる化合物の化合物名に設定する機能を有する。この場合、検出部702は、構造式DB230を参照して、設定された分類対象となる化合物の化合物名の中から、該化合物の母核となる部分構造の名称を表す文字列を検出することにしてもよい。
The
これにより、別の置換基を含む複合置換基を新たな分類対象となる化合物として、上記抽出部703、特定部704および分類部705等の一連の処理が再帰的に実行され、複合置換基を表す文字列を分類することができる。
As a result, a series of processes such as the
ただし、第2階層以降、すなわち、複合置換基を表す文字列を分類対象とする場合、検出部702は、例えば、構造式DB230の中から置換基Cpの化合物名を選択する。そして、検出部702が、選択した置換基Cpの化合物名の文字数tを特定する。つぎに、検出部702が、新たな分類対象となる化合物の化合物名の末尾からt文字の文字列と、置換基Cpの化合物名とが一致するか否かを判断する。ここで、置換基Cpの化合物名と一致する場合、検出部702が、新たな分類対象となる化合物の化合物名の末尾からt文字の文字列を、該化合物の母核を表す文字列として検出する。
However, when the second and subsequent layers, that is, character strings representing complex substituents are to be classified, the
また、分類部705は、化合物群M1〜MRの母核比較テーブルを作成することにしてもよい。母核比較テーブルは、各化合物Mrの母核の特徴を比較するための表データである。具体的には、例えば、分類部705が、分類した集合ごとに、該集合に含まれる各化合物Mrの母核の化合物名、置換基数、置換基の結合位置、母核の構造の種類、母核の炭素数などを示す母核比較テーブルを作成することにしてもよい。
The
この際、分類部705が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした母核比較テーブルを作成することにしてもよい。なお、母核比較テーブルの具体例については、図11〜図16を用いて後述する。
At this time, the
また、分類部705は、化合物群M1〜MRの置換基比較テーブルを作成することにしてもよい。置換基比較テーブルは、各化合物Mrの置換基の特徴を比較するための表データである。具体的には、例えば、分類部705が、分類した集合ごとに、該集合に含まれる各化合物Mrの第j置換基の化合物名、結合位置、炭素数などを示す置換基比較テーブルを作成することにしてもよい。
The
この際、分類部705が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした置換基比較テーブルを作成することにしてもよい。なお、置換基比較テーブルの具体例については、図17〜図21を用いて後述する。
At this time, the
作成部710は、化合物群M1〜MRの比較リストを作成する機能を有する。比較リストとは、各化合物Mrの特徴を比較するための表データである。具体的には、例えば、作成部710が、母核比較テーブルおよび置換基比較テーブルを参照して、化合物群M1〜MRの比較リストを作成することにしてもよい。
The
この際、作成部710が、算出された特定の化合物との類似度合いを表す他の化合物の類似度に基づいて、分類された各集合に含まれる他の化合物を特定の化合物との類似度が高い順にソートした比較リストを作成することにしてもよい。なお、比較リストの具体例については、図22および図23を用いて後述する。
At this time, based on the similarity of the other compound that represents the calculated degree of similarity with the specific compound, the
出力部711は、分類された分類結果を出力する機能を有する。具体的には、例えば、出力部711が、作成された母核比較テーブルの記憶内容や置換基比較テーブルの記憶内容を出力することにしてもよい。また、出力部711は、作成された比較リストを出力することにしてもよい。
The
出力部711の出力形式としては、例えば、ディスプレイ309への表示、プリンタ(不図示)への印刷出力、I/F308による外部のコンピュータへの送信がある。外部のコンピュータは、例えば、化合物群M1〜MRの各々の化合物の化合物名を表すテキストデータの送信元のクライアント装置201である。また、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶することとしてもよい。
Examples of the output format of the
(分割テーブル800の記憶内容の変遷例)
つぎに、図8〜図10を用いて、分割テーブル800の記憶内容の変遷例について説明する。分割テーブル800には、上記検出部702の検出結果および抽出部703の抽出結果が反映される。この結果、分割テーブル800によれば、第i階層の母核を表す文字列、第j置換基を表す文字列および結合位置を判別することができる。
(Transition example of stored contents of the division table 800)
Next, transition examples of the storage contents of the division table 800 will be described with reference to FIGS. The division table 800 reflects the detection result of the
図8〜図10は、分割テーブル800の記憶内容の変遷例を示す説明図である。図8において、分割テーブル800は、化合物IDおよび化合物名のフィールドを有する。各フィールドに情報を設定することで、各化合物Mrの化合物名情報がレコードとして記憶される。ここで、化合物IDは、化合物Mrの識別子である。化合物名は、化合物Mrの名称である。 8 to 10 are explanatory diagrams illustrating transition examples of storage contents of the division table 800. FIG. In FIG. 8, the division table 800 has fields for compound ID and compound name. By setting information in each field, compound name information of each compound Mr is stored as a record. Here, the compound ID is an identifier of the compound Mr. The compound name is the name of the compound Mr.
図8の(8−1)において、化合物M1〜M10の化合物名N1〜N10が各フィールドに設定された結果、化合物名情報800−1〜800−10がレコードとして記憶されている。化合物M1〜M10の化合物名N1〜N10は、受付部701により、分類対象となる化合物の化合物名として受け付けられたものである。 In (8-1) of FIG. 8, as a result of setting compound names N1 to N10 of compounds M1 to M10 in each field, compound name information 800-1 to 800-10 is stored as a record. The compound names N1 to N10 of the compounds M1 to M10 are received by the receiving unit 701 as the compound names of the compounds to be classified.
図8の(8−2)において、検出部702により、各化合物名N1〜N10の中から各化合物M1〜M10の第1階層の母核を表す文字列が検出された結果、各化合物名N1〜N10に第1階層の区切り記号が挿入されている。ここで、第i階層の区切り記号とは、第i階層の母核を表す文字列の直前に挿入される記号であり、例えば「/i/」である。第i階層の区切り記号によれば、化合物名Nrの中から第i階層の母核を表す文字列を識別することができる。
In (8-2) of FIG. 8, the
例えば、化合物M1の化合物名N1「2−(3−メチル−4−ヒドロキシフェニル)プロパン」の中から、化合物M1の第1階層の母核を表す文字列「プロパン」が検出された結果、「プロパン」の直前に第1階層の区切り記号「/1/」が挿入されている。 For example, from the compound name N1 “2- (3-methyl-4-hydroxyphenyl) propane” of the compound M1, the character string “propane” representing the mother nucleus of the first layer of the compound M1 is detected. A delimiter “/ 1 /” in the first layer is inserted immediately before “propane”.
なお、化合物Mrの第i階層の母核を表す文字列が非検出であった場合、例えば、化合物Mrの化合物名Nrと関連付けて、第i階層の母核を表す文字列が非検出であったことを示す不明フラグがRAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶される。
When the character string representing the mother nucleus of the i-th layer of the compound Mr is not detected, for example, the character string representing the mother nucleus of the i-th layer is not detected in association with the compound name Nr of the compound Mr. An unknown flag indicating this is stored in a storage device such as the
図9の(8−3)において、検出部702により、各化合物名N1〜N10の中から各化合物M1〜M10の第2階層の母核を表す文字列が検出された結果、各化合物名N1〜N10に第2階層の区切り記号が挿入されている。
In (8-3) of FIG. 9, the
例えば、化合物M1の化合物名N1「2−(3−メチル−4−ヒドロキシフェニル)プロパン」の中から化合物M1の第2階層の母核を表す文字列「フェニル」が検出された結果、化合物名情報800−1の化合物名の「フェニル」の直前に第2階層の区切り記号「/2/」が挿入されている。 For example, as a result of detection of the character string “phenyl” representing the mother nucleus of the second layer of the compound M1 from the compound name N1 “2- (3-methyl-4-hydroxyphenyl) propane” of the compound M1, the compound name A delimiter “/ 2 /” in the second hierarchy is inserted immediately before “phenyl” in the compound name of information 800-1.
図9の(8−4)において、抽出部703により、化合物名M4,M7のうち倍数接頭辞を含む置換基を表す文字列の「数字,数字−」の「,」が「−」に変換され、「数字,数字−」の2番目の数字の直前に「−」が挿入されている。例えば、化合物名情報800−4の倍数接頭辞を含む化合物名の「2,3−」の「,」が「−」に変換され、「2,3−」の2番目の数字「3」の先頭に「−」が挿入されている。
In (8-4) of FIG. 9, the
図10の(8−5)において、抽出部703により、化合物名M4,M7の倍数接頭辞を含む置換基を表す文字列から倍数接頭辞が削除され、倍数接頭辞が削除された削除後の文字列が「−−」の間に挿入されている。例えば、化合物名情報800−4の化合物名M4の倍数接頭辞を含む置換基を表す文字列「ジメチル」から倍数接頭辞「ジ」が削除され、倍数接頭辞が削除された削除後の文字列「メチル」が「−−」の間に挿入されている。これにより、倍数接頭辞を含む置換基の結合位置を分割することができる。
In (8-5) of FIG. 10, the
図10の(8−6)において、抽出部703により、各化合物名N1〜N10の中から各化合物M1〜M10の第1および第2階層の置換基を表す文字列が抽出された結果、各化合物名N1〜N10に区切り記号が挿入されている。ここで、区切り記号とは、第i階層の置換基を表す文字列の直後に挿入される記号であり、例えば「//」である。区切り記号によれば、化合物名Nrの中から第i階層の置換基を表す文字列を識別することができる。
In (8-6) of FIG. 10, the
例えば、化合物M1の化合物名N1「2−(3−メチル−4−ヒドロキシフェニル)プロパン」の中から、化合物M1の第2階層の第1置換基を表す文字列「メチル」が検出された結果、「メチル」の直後に区切り記号「//」が挿入されている。また、化合物M1の第2階層の第2置換基を表す文字列「ヒドロキシ」が検出された結果、「ヒドロキシ」の直後に区切り記号「//」が挿入されている。 For example, as a result of detecting the character string “methyl” representing the first substituent in the second layer of the compound M1 from the compound name N1 “2- (3-methyl-4-hydroxyphenyl) propane” of the compound M1. , “/” Is inserted immediately after “methyl”. Further, as a result of detecting the character string “hydroxy” representing the second substituent of the second layer of the compound M1, a delimiter “//” is inserted immediately after “hydroxy”.
なお、化合物Mrの第i階層の第j置換基を表す文字列が非抽出であった場合、例えば、化合物Mrの化合物名Nrと関連付けて、第i階層の第j置換基を表す文字列が非抽出であったことを示す不明フラグがRAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶される。
If the character string representing the j-th substituent in the i-th layer of the compound Mr is not extracted, for example, a character string representing the j-th substituent in the i-th layer is associated with the compound name Nr of the compound Mr. An unknown flag indicating non-extraction is stored in a storage device such as the
分割テーブル800によれば、各化合物M1〜M10の第1および第2階層の母核を表す文字列、第1および第2階層の第j置換基を表す文字列および結合位置を判別することができる。ただし、各階層の第1置換基の直前の「数字−」は、母核に結合する第1置換基の結合位置である。また、「−数字−」は、母核に結合する第2以降の置換基の結合位置である。 According to the division table 800, it is possible to determine the character strings representing the first and second layer mother nuclei, the character strings representing the first and second layer jth substituents, and the bonding positions of the compounds M1 to M10. it can. However, the “number-” immediately before the first substituent in each hierarchy is the bonding position of the first substituent bonded to the mother nucleus. Further, “-number-” is the bonding position of the second and subsequent substituents bonded to the mother nucleus.
例えば、化合物名情報800−1によれば、化合物M1の第1階層の母核を表す文字列「プロパン」および第1階層の複合置換基「3−メチル−4−ヒドロキシフェニル」の結合位置「2」を判別することができる。また、化合物M1の第2階層の母核を表す文字列「フェニル」、第2階層の第1置換基を表す文字列「メチル」および結合位置「3」、第2階層の第2置換基を表す文字列「ヒドロキシ」および結合位置「4」を判別することができる。 For example, according to the compound name information 800-1, the character string “propane” representing the first nucleus of the compound M1 and the binding position “3-methyl-4-hydroxyphenyl” of the first hierarchy compound substituent “3-methyl-4-hydroxyphenyl” 2 "can be discriminated. In addition, the character string “phenyl” representing the mother nucleus of the second hierarchy of the compound M1, the character string “methyl” representing the first substituent of the second hierarchy and the bonding position “3”, the second substituent of the second hierarchy The character string “hydroxy” and the bonding position “4” can be discriminated.
(母核比較テーブルの記憶内容の変遷例)
つぎに、図11〜図16を用いて、図10の(8−6)に示した分割テーブル800の記憶内容に基づく母核比較テーブルの記憶内容の変遷例について説明する。以下の説明では、化合物M1〜M10のうち化合物M1が基本構造となる化合物として指定された場合を例に挙げて説明する。
(Transition example of stored contents of mother nucleus comparison table)
Next, a transition example of the storage contents of the mother nucleus comparison table based on the storage contents of the division table 800 shown in (8-6) of FIG. 10 will be described with reference to FIGS. In the following description, the case where the compound M1 is designated as the compound having the basic structure among the compounds M1 to M10 will be described as an example.
図11〜図16は、母核比較テーブルの記憶内容の変遷例を示す説明図である。図11において、母核比較テーブル1100は、化合物ID、階層名、母核の化合物名、同一フラグ、結合位置、同一フラグ、置換基数、同一フラグ、母核炭素数、同一フラグ、種類および同一フラグのフィールドを有する。各フィールドに情報を設定することで、化合物M1〜M10ごとの母核比較情報がレコードとして記憶される。 FIGS. 11-16 is explanatory drawing which shows the example of a change of the memory content of a mother nucleus comparison table. In FIG. 11, the mother nucleus comparison table 1100 includes a compound ID, a hierarchical name, a mother nucleus compound name, the same flag, a bonding position, the same flag, the number of substituents, the same flag, the number of mother carbon, the same flag, the type, and the same flag. Field. By setting information in each field, mother nucleus comparison information for each of the compounds M1 to M10 is stored as a record.
ここで、化合物IDは、化合物Mrの識別子である。階層名は、第i階層の名称である。例えば、第1階層の名称は「第1」である。母核の化合物名は、化合物Mrの第i階層の母核を表す化合物の名称である。同一フラグは、母核の化合物名が、基本構造となる化合物と同一か否かを示すフラグである。同一フラグは、初期状態では「0」であり、基本構造となる化合物と同一の場合に「1」が設定される。 Here, the compound ID is an identifier of the compound Mr. The hierarchy name is the name of the i-th hierarchy. For example, the name of the first hierarchy is “first”. The compound name of the mother nucleus is the name of the compound that represents the mother nucleus of the i-th layer of the compound Mr. The same flag is a flag indicating whether or not the compound name of the mother nucleus is the same as the compound having the basic structure. The same flag is “0” in the initial state, and “1” is set when it is the same as the compound serving as the basic structure.
結合位置は、化合物Mrの第i階層の母核に結合する第1〜第m置換基の結合位置である。同一フラグは、母核に結合する第1〜第m置換基の結合位置が、基本構造となる化合物と同一か否かを示すフラグである。置換基数は、化合物Mrの第i階層の母核に結合する置換基の数である。同一フラグは、母核に結合する置換基の数が、基本構造となる化合物と同一か否かを示すフラグである。 The bonding position is the bonding position of the first to m-th substituents bonded to the i-th layer mother nucleus of the compound Mr. The same flag is a flag indicating whether or not the bonding positions of the first to m-th substituents bonded to the mother nucleus are the same as the compound serving as the basic structure. The number of substituents is the number of substituents bonded to the mother nucleus in the i-th layer of the compound Mr. The same flag is a flag indicating whether or not the number of substituents bonded to the mother nucleus is the same as that of the compound having the basic structure.
母核炭素数は、化合物Mrの第i階層の母核の構造式に含まれる炭素数である。同一フラグは、母核の構造式に含まれる炭素数が、基本構造となる化合物と同一か否かを示すフラグである。種類は、化合物Mrの第i階層の母核の構造の種類である。同一フラグは、母核の構造の種類が、基本構造となる化合物と同一か否かを示すフラグである。 The number of carbon atoms in the nucleus is the number of carbon atoms contained in the structural formula of the nucleus in the i-th layer of the compound Mr. The same flag is a flag indicating whether or not the number of carbon atoms contained in the structural formula of the mother nucleus is the same as that of the compound having the basic structure. The type is the type of the structure of the mother nucleus in the i-th layer of the compound Mr. The same flag is a flag indicating whether or not the type of structure of the mother nucleus is the same as the compound that is the basic structure.
図11において、分類部705により、図10の(8−6)に示した分割テーブル800を参照して、化合物M1〜M10の第1階層の母核の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第1階層の母核に結合する第1階層の各置換基の結合位置が設定されている。
In FIG. 11, the classifying
図12において、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の母核に結合する置換基の置換基数が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の母核の構造式に含まれる炭素数が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の母核の構造の種類が設定されている。
In FIG. 12, the
図13において、分類部705により、比較部706によって比較された比較結果に基づいて、第1階層の母核の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核に結合する各置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。
In FIG. 13, based on the comparison result compared by the comparing unit 706 by the classifying
また、分類部705により、比較された比較結果に基づいて、第1階層の母核に結合する置換基数が、基本構造となる化合物M1と同一となる化合物M1〜M5,M8〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核の構造の種類が、基本構造となる化合物M1と同一となる化合物M1〜M9の同一フラグに「1」が設定されている。
In addition, based on the comparison result compared by the
図14において、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核に結合する第2階層の各置換基の結合位置が設定されている。
In FIG. 14, the classifying
図15において、分類部705により、特定部704によって特定された化合物M1〜M10の第2階層の母核に結合する置換基の置換基数が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第2階層の母核の構造式に含まれる炭素数が設定されている。
In FIG. 15, the
図16において、分類部705により、比較部706によって比較された比較結果に基づいて、第2階層の母核の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する各置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1,M6〜M10の同一フラグに「1」が設定されている。
In FIG. 16, based on the comparison result compared by the
また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する置換基数が、基本構造となる化合物M1と同一となる化合物M1,M2,M6〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M10の同一フラグに「1」が設定されている。
In addition, based on the comparison result compared by the
ここで、分類部705は、母核比較テーブル1100の記憶内容に基づいて、分類対象となる化合物M1〜M10を分類することにしてもよい。ここでは、第1階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類が、基本構造となる化合物M1と同一となる化合物M1〜M5と、それ以外の化合物M6〜M10とに分類されている。
Here, the
(置換基比較テーブルの記憶内容の変遷例)
つぎに、図17〜図21を用いて、図10の(8−6)に示した分割テーブル800の記憶内容に基づく置換基比較テーブルの記憶内容の変遷例について説明する。
(Transition example of the contents of the substituent comparison table)
Next, transition examples of the storage contents of the substituent comparison table based on the storage contents of the division table 800 shown in (8-6) of FIG. 10 will be described with reference to FIGS.
図17〜図21は、置換基比較テーブルの記憶内容の変遷例を示す説明図である。図17において、置換基比較テーブル1700は、化合物ID、階層名、第j置換基の化合物名、同一フラグ、結合位置、同一フラグ、置換基炭素数および同一フラグのフィールドを有する。各フィールドに情報を設定することで、化合物M1〜M10ごとの置換基比較情報がレコードとして記憶される。 FIGS. 17-21 is explanatory drawing which shows the example of a transition of the memory content of a substituent comparison table. In FIG. 17, the substituent comparison table 1700 has fields of compound ID, hierarchical name, compound name of the j-th substituent, the same flag, a bonding position, the same flag, the number of substituent carbon atoms, and the same flag. By setting information in each field, substituent comparison information for each of the compounds M1 to M10 is stored as a record.
ここで、化合物IDは、化合物Mrの識別子である。階層名は、第i階層の名称である。第j置換基の化合物名は、化合物Mrの第i階層の第j置換基を表す化合物の名称である。同一フラグは、第j置換基の化合物名が、基本構造となる化合物と同一か否かを示すフラグである。 Here, the compound ID is an identifier of the compound Mr. The hierarchy name is the name of the i-th hierarchy. The compound name of the j-th substituent is the name of the compound representing the j-th substituent in the i-th layer of the compound Mr. The same flag is a flag indicating whether or not the compound name of the j-th substituent is the same as the compound having the basic structure.
結合位置は、化合物Mrの第i階層の母核に結合する第j置換基の結合位置である。同一フラグは、第j置換基の結合位置が、基本構造となる化合物と同一か否かを示すフラグである。置換基炭素数は、化合物Mrの第i階層の第j置換基の構造式に含まれる炭素数である。同一フラグは、第j置換基の構造式に含まれる炭素数が、基本構造となる化合物と同一か否かを示すフラグである。 The bonding position is the bonding position of the j-th substituent bonded to the mother nucleus in the i-th layer of the compound Mr. The same flag is a flag indicating whether or not the bonding position of the jth substituent is the same as that of the compound serving as the basic structure. The number of carbon atoms in the substituent is the number of carbon atoms included in the structural formula of the j-th substituent in the i-th layer of the compound Mr. The same flag is a flag indicating whether or not the number of carbon atoms contained in the structural formula of the j-th substituent is the same as that of the compound having the basic structure.
なお、各同一フラグの判定は、基本構造となる化合物M1の第j置換基と各化合物M2〜M10の第j置換基とを比較することにより行われる。 The determination of each identical flag is performed by comparing the jth substituent of the compound M1 serving as the basic structure with the jth substituent of each of the compounds M2 to M10.
図17において、分類部705により、図10の(8−6)に示した分割テーブル800を参照して、化合物M1〜M10の第1階層の第1置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第1階層の母核に結合する第1置換基の結合位置が設定されている。ただし、第j置換基が複合置換基の場合、第j置換基の化合物名フィールドに「複」が設定される。
In FIG. 17, the
また、分類部705により、化合物M6,M7の第1階層の第2置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M6,M7の第1階層の母核に結合する第2置換基の結合位置が設定されている。また、分類部705により、化合物M7の第1階層の第3置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M7の第1階層の母核に結合する第3置換基の結合位置が設定されている。
In addition, the classifying
図18において、分類部705により、特定部704によって特定された化合物M1〜M10の第1階層の第1置換基の構造式に含まれる炭素数が設定されている。また、分類部705により、特定された化合物M6,M7の第1階層の第2置換基の構造式に含まれる炭素数が設定されている。また、分類部705により、特定された化合物M7の第1階層の第3置換基の構造式に含まれる炭素数が設定されている。
In FIG. 18, the
図19において、分類部705により、比較部706によって比較された比較結果に基づいて、第1階層の第1置換基の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M5,M7〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の母核に結合する第1置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1〜M5の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第1階層の第1置換基の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1,M2,M7〜M10の同一フラグに「1」が設定されている。
In FIG. 19, based on the comparison result compared by the
図20において、分類部705により、図10の(8−6)に示した分割テーブル800を参照して、化合物M1〜M10の第2階層の第1置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核に結合する第1置換基の結合位置が設定されている。また、分類部705により、特定部704によって特定された化合物M1〜M10の第2階層の第1置換基の構造式に含まれる炭素数が設定されている。
In FIG. 20, the
また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の第2置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M1〜M10の第2階層の母核に結合する第2置換基の結合位置が設定されている。また、分類部705により、特定された化合物M1〜M10の第2階層の第2置換基の構造式に含まれる炭素数が設定されている。
In addition, the
また、分類部705により、分割テーブル800を参照して、化合物M3〜M5の第2階層の第3置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M3〜M5の第2階層の母核に結合する第3置換基の結合位置が設定されている。また、分類部705により、特定された化合物M3〜M5の第2階層の第3置換基の構造式に含まれる炭素数が設定されている。
Further, the
また、分類部705により、分割テーブル800を参照して、化合物M4の第2階層の第4置換基の化合物名が設定されている。また、分類部705により、分割テーブル800を参照して、化合物M4の第2階層の母核に結合する第4置換基の結合位置が設定されている。また、分類部705により、特定された化合物M4の第2階層の第4置換基の構造式に含まれる炭素数が設定されている。
In addition, the
図21において、分類部705により、比較部706によって比較された比較結果に基づいて、第2階層の第1置換基の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M4,M6〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する第1置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1,M3,M5〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の第1置換基の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M10の同一フラグに「1」が設定されている。
In FIG. 21, based on the comparison result compared by the comparing unit 706 by the classifying
また、分類部705により、比較された比較結果に基づいて、第2階層の第2置換基の化合物名が、基本構造となる化合物M1と同一となる化合物M1〜M3,M5〜M10の同一フラグに「1」が設定されている。また、分類部705により、比較された比較結果に基づいて、第2階層の母核に結合する第2置換基の結合位置が、基本構造となる化合物M1と同一となる化合物M1〜M3,M5〜M10の同一フラグに「1」が設定されている。
Further, based on the comparison result compared by the
また、分類部705により、比較された比較結果に基づいて、第2階層の第2置換基の構造式に含まれる炭素数が、基本構造となる化合物M1と同一となる化合物M1〜M3,M5〜M10の同一フラグに「1」が設定されている。
Further, based on the comparison result compared by the
また、母核比較テーブル1100および置換基比較テーブル1700内のフィールドに設定する情報が不明な場合は、該フィールドの情報が不明であることを示す情報、例えば、「不明」という文字列が該フィールドに設定されることにしてもよい。具体的には、例えば、化合物Mrの第i階層の母核を表す文字列が非検出であったことを示す不明フラグが記憶装置に記憶されている場合、母核比較テーブル1100内の化合物Mrの第1階層の母核の化合物名フィールドに「不明」が設定される。 If the information set in the fields in the nucleus comparison table 1100 and the substituent comparison table 1700 is unknown, information indicating that the information in the field is unknown, for example, a character string “unknown” It may be set to. Specifically, for example, when an unknown flag indicating that the character string representing the mother nucleus of the i-th layer of the compound Mr is not detected is stored in the storage device, the compound Mr in the mother nucleus comparison table 1100 is stored. "Unknown" is set in the compound name field of the mother nucleus of the first hierarchy of
(比較リストの具体例)
つぎに、図22および図23を用いて、分類対象となる化合物M1〜M10の比較リストの具体例について説明する。比較リストは、例えば、化合物分類装置100のディスプレイ309やクライアント装置201のディスプレイ(不図示)に表示される。
(Specific example of comparison list)
Next, specific examples of a comparison list of compounds M1 to M10 to be classified will be described with reference to FIGS. The comparison list is displayed on, for example, the
図22および図23は、比較リストの具体例を示す説明図である。図22および図23において、比較リスト2200は、分類対象となる化合物M1〜M10の特徴を比較するための表データである。比較リスト2200は、作成部710により、図13および図16に示した母核比較テーブル1100と、図19および図21に示した置換基比較テーブル1700とをマージすることにより作成されたものである。
22 and 23 are explanatory diagrams showing specific examples of the comparison list. 22 and 23, a
図22において、比較リスト2200には、各化合物M1〜M10の第1階層の母核の化合物名、母核に結合する各置換基の結合位置、母核に結合する置換基数、母核の炭素数、母核の構造の種類が示されている。ここで、分類対象となる化合物M1〜M10は、第1階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類が、基本構造となる化合物M1と同一となる化合物M1〜M5と、それ以外の化合物M6〜M10とに分類されている。
In FIG. 22, the
図23において、比較リスト2200には、各化合物M1〜M10の第2階層の母核の化合物名、母核に結合する各置換基の結合位置、母核に結合する置換基数、母核の炭素数、第1〜第4置換基の化合物名、母核に結合する第1〜第4置換基の結合位置、第1〜第4置換基の炭素数が示されている。また、比較リスト2200には、各化合物M1〜M10の第1階層の第2,第3置換基の化合物名、母核に結合する第2,第3置換基の結合位置、第2,第3置換基の炭素数が示されている。
In FIG. 23, the
また、比較リスト2200において、化合物M1〜M10は、基本構造となる化合物M1との類似度が高い順にソートされている。具体的には、第1階層の母核の化合物名、結合位置、置換基数、母核炭素数および種類のうち、化合物M1と同一となる項目数が多い順に化合物M2〜M10がソートされている。また、各項目の項目値のうち、基本構造となる化合物M1と同一となる項目値がハイライト表示されている。
In the
比較リスト2200によれば、分類対象となる化合物M1〜M10の特徴を比較することができる。また、第1階層の母核の化合物名が同一の化合物群が分類されて表示されるため、化合物の基礎となる母核が同一の化合物同士の類似性や差分を判別し易い。また、基本構造となる化合物M1と同一となる項目値がハイライト表示されているため、化合物M1と各化合物M2〜M10との項目間の類似性や差分を判別し易い。
According to the
また、比較リスト2200によれば、基本構造となる化合物M1の第1階層の母核は「プロパン」であるが、第1階層の母核を「エタン」や「ペンタン」としても、化合物M1の代わりに用いることができることがわかる。また、各化合物M1〜M10は、疎水性のフェニル基と親水性のヒドロキシ基とを共通して有していることがわかる。また、図示は省略するが、設定する情報が不明なフィールドには「不明」という文字列が設定されるため、例えば、分類対象となる化合物群に含まれる未知の化合物の存在や、化合物名の誤記等に気付き易くなる。
Further, according to the
(比較リストの加工例)
つぎに、図22および図23に示した比較リスト2200の加工例について説明する。図24は、比較リストの加工例を示す説明図である。図24において、比較リスト2400は、図22および図23に示した比較リスト2200を加工したものである。
(Example of comparison list processing)
Next, processing examples of the
比較リスト2400において、母核とは、各化合物M1〜M10の第1階層の母核の化合物名と、母核に結合する第1置換基の結合位置を示すものである。化合物M6,M7については、第1階層の母核に結合する第2,第3置換基の結合位置も示されている。また、種類とは、第1階層の母核の構造の種類を示すものである。
In the
母核部分の基本構造との差分とは、基本構造となる化合物M1の第1階層の母核との差分を示すものである。具体的には、各化合物M1〜M10の第1階層の母核の特徴が示されている。化合物M1との差分がない化合物M2〜M5については、化合物M1と同じ内容が示されている。 The difference from the basic structure of the mother nucleus portion indicates a difference from the first nucleus of the compound M1 serving as the basic structure. Specifically, the characteristics of the mother nucleus of the first hierarchy of each of the compounds M1 to M10 are shown. About the compounds M2-M5 without a difference with the compound M1, the same content as the compound M1 is shown.
第2階層の母核部分の基本構造との差分とは、基本構造となる化合物M1の第2階層の母核との差分を示すものである。具体的には、各化合物M1〜M10の第2階層の母核の特徴が示されている。第2階層の置換基部分の基本構造との差分とは、基本構造となる化合物M1の第2階層の置換基との差分を示すものである。また、比較リスト2400の各項目の項目値のうち、基本構造となる化合物M1と同一となる項目値がハイライト表示されている。
The difference from the basic structure of the mother nucleus part of the second hierarchy indicates a difference from the mother nucleus of the second hierarchy of the compound M1 serving as the basic structure. Specifically, the characteristics of the mother nucleus of the second hierarchy of each of the compounds M1 to M10 are shown. The difference from the basic structure of the substituent portion of the second hierarchy indicates the difference from the substituent of the second hierarchy of the compound M1 that is the basic structure. In addition, among the item values of each item in the
比較リスト2400によれば、母核の化合物名と母核に結合する各置換基の結合位置などの関連する項目が一項目にまとめて表示されるため、図22および図23に示した比較リスト2200に比べて、分類対象となる化合物M1〜M10の特徴を比較し易くなる。
According to the
(化合物分類装置100の化合物分類処理手順)
つぎに、化合物分類装置100の化合物分類処理手順について説明する。図25は、化合物分類装置100の化合物分類処理手順の一例を示すフローチャートである。図25のフローチャートにおいて、まず、化合物分類装置100は、分類対象となる化合物群M1〜MRの化合物名群N1〜NRを受け付けたか否かを判断する(ステップS2501)。
(Compound classification processing procedure of the compound classification apparatus 100)
Next, the compound classification processing procedure of the
ここで、化合物分類装置100は、化合物群M1〜MRの化合物名群N1〜NRを受け付けるのを待つ(ステップS2501:No)。そして、化合物分類装置100は、化合物群M1〜MRの化合物名群N1〜NRを受け付けた場合(ステップS2501:Yes)、化合物名群N1〜NRを分割テーブル800に登録する(ステップS2502)。なお、以下の説明では、化合物群M1〜MRのうち、化合物M1を基本構造となる化合物とする。
Here, the
つぎに、化合物分類装置100は、構造解析ルールDB220を読み込む(ステップS2503)。そして、化合物分類装置100は、化合物Mrの「r」を「r=1」として(ステップS2504)、分割テーブル800の中から化合物Mrの化合物名Nrを選択する(ステップS2505)。
Next, the
つぎに、化合物分類装置100は、選択した化合物名Nrの化合物名分割処理を実行する(ステップS2506)。そして、化合物分類装置100は、化合物Mrの「r」をインクリメントして(ステップS2507)、「r」が「R」より大きくなったか否かを判断する(ステップS2508)。
Next, the
ここで、「r」が「R」以下の場合(ステップS2508:No)、ステップS2505に戻る。一方、「r」が「R」より大きくなった場合(ステップS2508:Yes)、化合物分類装置100は、母核比較テーブル1100を作成する母核比較テーブル作成処理を実行する(ステップS2509)。
If “r” is equal to or less than “R” (step S2508: NO), the process returns to step S2505. On the other hand, when “r” becomes larger than “R” (step S2508: Yes), the
つぎに、化合物分類装置100は、置換基比較テーブル1700を作成する置換基比較テーブル作成処理を実行する(ステップS2510)。そして、化合物分類装置100は、母核比較テーブル1100内の各項目の同一フラグに基づいて、化合物群M1〜MRを分類する(ステップS2511)。
Next, the
つぎに、化合物分類装置100は、分類した分類結果に基づいて、作成した母核比較テーブル1100と置換基比較テーブル1700とをマージして比較リストを作成する(ステップS2512)。そして、化合物分類装置100は、作成した比較リストを出力して(ステップS2513)、本フローチャートによる一連の処理を終了する。
Next, the
これにより、分類対象となる化合物M1〜MRの特徴を比較するための比較リストを出力することができる。なお、ステップS2513において、化合物分類装置100は、母核比較テーブル1100の記憶内容と置換基比較テーブル1700の記憶内容とを出力することにしてもよい。
Thereby, the comparison list for comparing the characteristics of the compounds M1 to MR to be classified can be output. In step S2513, the
<化合物名分割処理の具体的処理手順>
つぎに、図25のステップS2506に示した化合物名分割処理の具体的な処理手順について説明する。図26は、化合物名分割処理の具体的処理手順の一例を示すフローチャートである。
<Specific treatment procedure for compound name separation treatment>
Next, a specific processing procedure of the compound name division processing shown in step S2506 in FIG. 25 will be described. FIG. 26 is a flowchart illustrating an example of a specific processing procedure of the compound name division processing.
図26のフローチャートにおいて、まず、化合物分類装置100は、化合物名Nrの第i階層の母核分割処理を実行する(ステップS2601)。なお、第i階層の「i」は初期状態では「i=1」である。
In the flowchart of FIG. 26, first, the
つぎに、化合物分類装置100は、第j置換基の「j」を「j=1」として(ステップS2602)、化合物Mrの第i階層の第j置換基を選択する(ステップS2603)。そして、化合物分類装置100は、選択した第j置換基が複合置換基か否かを判断する(ステップS2604)。
Next, the
ここで、第j置換基が複合置換基ではない場合(ステップS2604:No)、化合物分類装置100は、第j置換基の置換基分割処理を実行する(ステップS2605)。つぎに、化合物分類装置100は、第j置換基の「j」をインクリメントして(ステップS2606)、「j」が「m」より大きくなったか否かを判断する(ステップS2607)。
Here, when the j-th substituent is not a composite substituent (step S2604: No), the
ここで、「j」が「m」以下の場合(ステップS2607:No)、ステップS2603に戻る。一方、「j」が「m」より大きくなった場合(ステップS2607:Yes)、化合物名分割処理を終了し、化合物名分割処理を呼び出したステップへ戻る。第1階層の化合物名分割処理が終わった場合には、図25に示したステップS2507に移行する。 If “j” is equal to or less than “m” (step S2607: NO), the process returns to step S2603. On the other hand, when “j” becomes larger than “m” (step S2607: Yes), the compound name division process is terminated, and the process returns to the step that called the compound name division process. When the first layer compound name division processing is completed, the process proceeds to step S2507 shown in FIG.
また、ステップS2604において、第j置換基が複合置換基の場合(ステップS2604:Yes)、化合物分類装置100は、第(i+1)階層の化合物名Nrとして、第j置換基の化合物名を設定する(ステップS2608)。そして、化合物分類装置100は、第(i+1)階層の化合物Mrの化合物名分割処理を実行して(ステップS2609)、ステップS2606に移行する。
In step S2604, when the jth substituent is a composite substituent (step S2604: Yes), the
これにより、第j置換基が複合置換基の場合、第j置換基の化合物名を第(i+1)階層の化合物Mrの化合物名として化合物名分割処理を再帰的に実行することができる。 Thereby, when the j-th substituent is a composite substituent, the compound name splitting process can be recursively executed with the compound name of the j-th substituent as the compound name of the compound Mr in the (i + 1) -th layer.
つぎに、図26のステップS2601に示した母核分割処理の具体的な処理手順について説明する。図27および図28は、母核分割処理の具体的処理手順の一例を示すフローチャートである。 Next, a specific processing procedure of the nucleus dividing process shown in step S2601 of FIG. 26 will be described. FIG. 27 and FIG. 28 are flowcharts showing an example of a specific processing procedure of the nucleus dividing process.
図27のフローチャートにおいて、まず、化合物分類装置100は、母核Bkの「k」を「k=1」とする(ステップS2701)。つぎに、化合物分類装置100は、構造式DB230の中から母核Bkの化合物名を選択する(ステップS2702)。そして、化合物分類装置100は、母核Bkの化合物名の文字数tを特定する(ステップS2703)。文字数tの長い方を優先的に選択する。
In the flowchart of FIG. 27, first, the
つぎに、化合物分類装置100は、化合物Mrの化合物名Nrの末尾からt文字の文字列と、母核Bkの化合物名とが一致するか否かを判断する(ステップS2704)。ここで、母核Bkの化合物名と一致する場合(ステップS2704:Yes)、化合物分類装置100は、分割テーブル800内の化合物名Nrの末尾からt文字の文字列の直前に第i階層の区切り記号を挿入する(ステップS2705)。
Next, the
つぎに、化合物分類装置100は、化合物Mrの化合物名Nrのうち母核Bkの化合物名を除く残余の文字列を「数字−文字列」の組に分割する(ステップS2706)。そして、化合物分類装置100は、各組の文字列を先頭から順番に第1〜第m置換基を表す文字列とする(ステップS2707)。つぎに、化合物分類装置100は、各組の数字を先頭から順番に第1〜第m置換基の結合位置を表す文字列として(ステップS2708)、図26に示したステップS2602に移行する。
Next, the
また、ステップS2704において、母核Bkの化合物名と不一致の場合(ステップS2704:No)、化合物分類装置100は、母核Bkの「k」をインクリメントして(ステップS2709)、「k」が「K」より大きくなったか否かを判断する(ステップS2710)。
In step S2704, when the compound name does not match the compound name of the mother nucleus Bk (step S2704: No), the
ここで、「k」が「K」以下の場合(ステップS2710:No)、ステップS2702に戻る。一方、「k」が「K」より大きくなった場合(ステップS2710:Yes)、図28に示すステップS2801に移行する。 If “k” is equal to or less than “K” (step S2710: NO), the process returns to step S2702. On the other hand, when “k” becomes larger than “K” (step S2710: YES), the process proceeds to step S2801 shown in FIG.
図28のフローチャートにおいて、まず、化合物分類装置100は、化合物Mrの化合物名Nrを「数字−文字列」の組に分割する(ステップS2801)。そして、化合物分類装置100は、各組の文字列を先頭から順番に第1〜第m置換基を表す文字列とする(ステップS2802)。
In the flowchart of FIG. 28, first, the
つぎに、化合物分類装置100は、各組の数字を先頭から順番に第1〜第m置換基の結合位置を表す文字列とする(ステップS2803)。そして、化合物分類装置100は、置換基Cpの「p」を「p=1」として(ステップS2804)、構造式DB230の中から置換基Cpの化合物名を選択する(ステップS2805)。
Next, the
つぎに、化合物分類装置100は、置換基Cpの化合物名の文字数sを特定する(ステップS2806)。そして、化合物分類装置100は、第m置換基を表す文字列の先頭からs文字の文字列と、置換基Cpの化合物名とが一致するか否かを判断する(ステップS2807)。
Next, the
ここで、置換基Cpの化合物名と一致する場合(ステップS2807:Yes)、化合物分類装置100は、第i階層の母核を表す文字列を、第m置換基を表す文字列のうち先頭からs文字を除く残余の文字列とする(ステップS2808)。つぎに、化合物分類装置100は、第m置換基を表す文字列を、第m置換基を表す文字列の先頭からs文字の文字列とする(ステップS2809)。
Here, when the compound name matches the compound name of the substituent Cp (step S2807: YES), the
そして、化合物分類装置100は、分割テーブル800内の化合物名Nrの第m置換基を表す文字列の先頭からs文字の文字列の直後に第i階層の区切り記号を挿入して(ステップS2810)、図26に示したステップS2602に移行する。もし、第m置換基と母核の間に文字が残っている場合には、母核に含めるようにしてもよい。
Then, the
また、ステップS2807において、置換基Cpの化合物名と不一致の場合(ステップS2807:No)、化合物分類装置100は、置換基Cpの「p」をインクリメントして(ステップS2811)、「p」が「P」より大きくなったか否かを判断する(ステップS2812)。
In step S2807, if the compound name does not match the compound name of the substituent Cp (step S2807: No), the
ここで、「p」が「P」以下の場合(ステップS2812:No)、ステップS2805に戻る。一方、「p」が「P」より大きくなった場合(ステップS2812:Yes)、化合物分類装置100は、化合物Mrの第i階層の母核の化合物名が不明であることを示す母核不明フラグを設定して(ステップS2813)、図26に示したステップS2602に移行する。
If “p” is equal to or less than “P” (step S2812: NO), the process returns to step S2805. On the other hand, when “p” becomes larger than “P” (step S2812: Yes), the
これにより、化合物Mrの第i階層の母核の化合物名を特定して、分割テーブル800内の化合物名Nrの第i階層の母核の化合物名の直前に第i階層の区切り記号を挿入することができる。なお、第(i+1)階層において、化合物Mrの化合物名Nrの末尾からt文字との一致判定を行う対象となる化合物は、例えば、構造式DB230内の置換基Cpの化合物名となる。 Thus, the compound name of the parent nucleus of the i-th hierarchy of the compound Mr is specified, and the delimiter of the i-th hierarchy is inserted immediately before the compound name of the parent nucleus of the i-th hierarchy of the compound name Nr in the partition table 800. be able to. Note that, in the (i + 1) th layer, the compound that is subjected to determination of coincidence with the t character from the end of the compound name Nr of the compound Mr is, for example, the compound name of the substituent Cp in the structural formula DB230.
つぎに、図26のステップS2605に示した置換基分割処理の具体的な処理手順について説明する。図29は、置換基分割処理の具体的処理手順の一例を示すフローチャートである。 Next, a specific processing procedure of the substituent dividing process shown in step S2605 in FIG. 26 will be described. FIG. 29 is a flowchart illustrating an example of a specific processing procedure of substituent group splitting processing.
図29のフローチャートにおいて、まず、化合物分類装置100は、第j置換基を表す文字列に倍数接頭辞があるか否かを判断する(ステップS2901)。ここで、倍数接頭辞がない場合(ステップS2901:No)、ステップS2905に移行する。
In the flowchart of FIG. 29, first, the
一方、倍数接頭辞がある場合(ステップS2901:Yes)、化合物分類装置100は、分割テーブル800内の第j置換基の結合位置を表す文字列「数字,数字,…,数字−」の「,」を「−」に変換し(ステップS2902)、2番目以降の数字の直前に「−」を挿入する(ステップS2903)。
On the other hand, when there is a multiple prefix (step S2901: Yes), the
そして、化合物分類装置100は、分割テーブル800内の第j置換基を表す文字列から倍数接頭辞を削除して(ステップS2904)、倍数接頭辞が削除された削除後の文字列を「−−」の間に挿入する(ステップS2905)。
Then, the
つぎに、化合物分類装置100は、置換基Cpの「p」を「p=1」として(ステップS2906)、構造式DB230の中から置換基Cpの化合物名を選択する(ステップS2907)。
Next, the
そして、化合物分類装置100は、置換基を表す文字列と置換基Cpの化合物名とが一致するか否かを判断する(ステップS2908)。なお、ここでの置換基を表す文字列は、第j置換基を表す文字列、または、ステップS2904において第j置換基を表す文字列から倍数接頭辞が削除された削除後の文字列である。
Then, the
ここで、置換基Cpの化合物名と一致する場合(ステップS2908:Yes)、化合物分類装置100は、置換基を表す文字列の直後に区切り記号を挿入して(ステップS2909)、図26に示したステップS2606に移行する。
Here, when the compound name matches the compound name of the substituent Cp (step S2908: Yes), the
また、ステップS2908において、置換基Cpの化合物名と不一致の場合(ステップS2908:No)、化合物分類装置100は、置換基Cpの「p」をインクリメントして(ステップS2910)、「p」が「P」より大きくなったか否かを判断する(ステップS2911)。
In step S2908, when the compound name does not match the compound name of the substituent Cp (step S2908: No), the
ここで、「p」が「P」以下の場合(ステップS2911:No)、ステップS2907に戻る。一方、「p」が「P」より大きくなった場合(ステップS2911:Yes)、化合物分類装置100は、化合物Mrの第i階層の第j置換基の化合物名が不明であることを示す置換基不明フラグを設定して(ステップS2912)、ステップS2909に移行する。
If “p” is equal to or less than “P” (step S2911: NO), the process returns to step S2907. On the other hand, when “p” is larger than “P” (step S2911: Yes), the
これにより、化合物Mrの第i階層の第j置換基の化合物名を特定して、分割テーブル800内の化合物名Nrの第i階層の第j置換基の化合物名の直後に区切り記号を挿入することができる。また、第j置換基を表す文字列に倍数接頭辞が含まれる場合、第j置換基を表す文字列および第j置換基の結合位置を表す文字列を展開することができる。 Thus, the compound name of the j-th substituent of the i-th layer of the compound Mr is specified, and a delimiter is inserted immediately after the compound name of the j-th substituent of the i-th layer of the compound name Nr in the partition table 800. be able to. Further, when a multiple prefix is included in the character string representing the jth substituent, the character string representing the jth substituent and the character string representing the bonding position of the jth substituent can be expanded.
<母核比較テーブル作成処理の具体的処理手順>
つぎに、図25のステップS2509に示した母核比較テーブル作成処理の具体的な処理手順について説明する。図30は、母核比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。
<Specific processing procedure for creating a nucleus comparison table>
Next, a specific processing procedure of the mother nucleus comparison table creation process shown in step S2509 of FIG. 25 will be described. FIG. 30 is a flowchart illustrating an example of a specific processing procedure of the mother nucleus comparison table creation process.
図30のフローチャートにおいて、まず、化合物分類装置100は、第i階層の「i」を「i=1」として(ステップS3001)、分割テーブル800を参照して、化合物M1〜MRの第i階層の母核の化合物名を母核比較テーブル1100に登録する(ステップS3002)。
In the flowchart of FIG. 30, first, the
つぎに、化合物分類装置100は、分割テーブル800を参照して、化合物M1〜MRの第i階層の母核に結合する第1〜第m置換基の結合位置を母核比較テーブル1100に登録する(ステップS3003)。そして、化合物分類装置100は、化合物M1〜MRの第i階層の母核に結合する置換基数を母核比較テーブル1100に登録する(ステップS3004)。
Next, the
つぎに、化合物分類装置100は、化合物M1〜MRの第i階層の母核の構造式に含まれる炭素数および母核の構造の種類を特定して、特定した母核の構造式に含まれる炭素数および母核の構造の種類を母核比較テーブル1100に登録する(ステップS3005)。
Next, the
そして、化合物分類装置100は、基本構造となる化合物M1と各化合物M2〜MRとの間で、母核比較テーブル1100に登録された各項目の項目値を比較することにより、項目値が一致する項目の同一フラグに「1」を設定する(ステップS3006)。
And the compound classification |
つぎに、化合物分類装置100は、第i階層の「i」をインクリメントして(ステップS3007)、「i」が「n」より大きくなったか否かを判断する(ステップS3008)。ここで、「i」が「n」以下の場合(ステップS3008:No)、ステップS3002に戻る。一方、「i」が「n」より大きくなった場合(ステップS3008:Yes)、図25に示したステップS2510に移行する。
Next, the
これにより、化合物M1〜MRの第i階層の母核の化合物名、第1〜第m置換基の結合位置、置換基数、炭素数、構造の種類を母核比較テーブル1100に登録することができる。なお、化合物分類装置100は、例えば、ステップS3008の後、母核比較テーブル1100内の各項目の同一フラグに基づいて、化合物群M1〜MRを分類することにより、母核比較テーブル1100内の各化合物M1〜MRのレコードを並び替えることにしてもよい。
Thereby, the compound name of the mother nucleus of the i-th hierarchy of the compounds M1 to MR, the bonding position of the first to mth substituents, the number of substituents, the number of carbons, and the type of structure can be registered in the mother nucleus comparison table 1100. . Note that the
<置換基比較テーブル作成処理の具体的処理手順>
つぎに、図25のステップS2510に示した置換基比較テーブル作成処理の具体的な処理手順について説明する。図31は、置換基比較テーブル作成処理の具体的処理手順の一例を示すフローチャートである。
<Specific Processing Procedure of Substituent Comparison Table Creation Processing>
Next, a specific processing procedure of the substituent comparison table creation processing shown in step S2510 of FIG. 25 will be described. FIG. 31 is a flowchart illustrating an example of a specific processing procedure of the substituent comparison table creation processing.
図31のフローチャートにおいて、まず、化合物分類装置100は、第i階層の「i」を「i=1」として(ステップS3101)、分割テーブル800を参照して、化合物M1〜MRの第i階層の第1〜第m置換基の化合物名を置換基比較テーブル1700に登録する(ステップS3102)。
In the flowchart of FIG. 31, first, the
つぎに、化合物分類装置100は、分割テーブル800を参照して、化合物M1〜MRの第i階層の母核に結合する第1〜第m置換基の結合位置を置換基比較テーブル1700に登録する(ステップS3103)。そして、化合物分類装置100は、化合物M1〜MRの第i階層の第1〜第m置換基の構造式に含まれる炭素数を特定して、特定した第1〜第m置換基の構造式に含まれる炭素数を置換基比較テーブル1700に登録する(ステップS3104)。
Next, the
つぎに、化合物分類装置100は、基本構造となる化合物M1と各化合物M2〜MRとの間で、置換基比較テーブル1700に登録された各項目の項目値を比較することにより、項目値が一致する項目の同一フラグに「1」を設定する(ステップS3105)。
Next, the
そして、化合物分類装置100は、第i階層の「i」をインクリメントして(ステップS3106)、「i」が「n」より大きくなったか否かを判断する(ステップS3107)。ここで、「i」が「n」以下の場合(ステップS3107:No)、ステップS3102に戻る。一方、「i」が「n」より大きくなった場合(ステップS3107:Yes)、図25に示したステップS2511に移行する。
Then, the
これにより、化合物M1〜MRの第i階層の第1〜第m置換基の化合物名、結合位置、炭素数を置換基比較テーブル1700に登録することができる。なお、化合物分類装置100は、例えば、ステップS3107の後、置換基比較テーブル1700内の各項目の同一フラグに基づいて、化合物群M1〜MRを分類することにより、置換基比較テーブル1700内の各化合物M1〜MRのレコードを並び替えることにしてもよい。
As a result, the compound names, bonding positions, and carbon numbers of the 1st to mth substituents in the i-th layer of the compounds M1 to MR can be registered in the substituent comparison table 1700. In addition, the
以上説明したように、実施の形態にかかる化合物分類装置100によれば、構造式DB230を参照して、化合物群M1〜MRの各化合物Mrの化合物名Nrの中から、各化合物Mrの母核を表す文字列を検出することができる。そして、化合物分類装置100によれば、各化合物Mrの母核に基づいて、化合物群M1〜MRを分類することができる。
As described above, according to the
これにより、化合物群M1〜MRの中から化合物の基礎となる部分構造を表す母核が同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうちの母核が同一の化合物同士の類似性や差分を判断し易くすることができる。 Thereby, it is possible to discriminate a set of compounds having the same mother nucleus representing the partial structure serving as the basis of the compound from the compound groups M1 to MR. As a result, for example, it is possible to easily determine the similarity or difference between compounds having the same mother nucleus in the compound groups M1 to MR.
また、化合物分類装置100によれば、各化合物Mrの化合物名Nrのうち母核を表す文字列を除く残余の文字列の中から、各化合物Mrの置換基を表す文字列を抽出することができる。そして、化合物分類装置100によれば、さらに、各化合物Mrの置換基に基づいて、化合物群M1〜MRを分類することができる。
In addition, according to the
これにより、化合物群M1〜MRの中から化合物の系統や命名に使う部分構造を表す置換基が同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、置換基が同一の化合物同士の類似性や差分を判断し易くすることができる。 Thereby, it is possible to discriminate a set of compounds having the same substituent from the compound groups M1 to MR that represent the partial structure used for naming and naming the compounds. As a result, for example, it is possible to easily determine the similarity or difference between compounds having the same substituent in the set of compounds having the same mother nucleus in the compound groups M1 to MR.
また、化合物分類装置100によれば、さらに、各化合物Mrの置換基数に基づいて、化合物群M1〜MRを分類することができる。これにより、各化合物Mrの母核に結合する置換基の数を特定でき、化合物群M1〜MRの中から化合物全体の構造の成り立ちが類似する化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、化合物全体の構造の成り立ちが類似する化合物同士の類似性や差分を判断し易くすることができる。
Further, according to the
また、化合物分類装置100によれば、各化合物Mrの化合物名Nrのうち母核を表す文字列を除く残余の文字列の中から、各化合物Mrの母核に結合する置換基の結合位置を表す文字列を抽出することができる。そして、化合物分類装置100によれば、さらに、各化合物Mrの母核に結合する置換基の結合位置に基づいて、化合物群M1〜MRを分類することができる。
Further, according to the
これにより、各化合物Mrの母核の構造式に含まれるどの炭素に置換基が結合しているかを特定でき、化合物群M1〜MRの中から化合物全体の構造の成り立ちが類似する化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、化合物全体の構造の成り立ちが類似する化合物同士の類似性や差分を判断し易くすることができる。 As a result, it is possible to specify which carbon contained in the structural formula of the mother nucleus of each compound Mr is bonded to the substituent, and to collect a set of compounds having a similar structure of the entire compound from the compound groups M1 to MR. Can be determined. As a result, for example, it is possible to easily determine the similarity or difference between compounds having similar structures in the entire compound in a group of compounds having the same mother nucleus in the compound groups M1 to MR.
また、化合物分類装置100によれば、構造式DB230を参照して、各化合物Mrの母核を表す文字列に対応する母核の構造の種類を特定し、さらに、各化合物Mrの母核の構造の種類に基づいて、化合物群M1〜MRを分類することができる。これにより、各化合物Mrの母核の構造の種類を特定でき、化合物群M1〜MRの中から母核の構造が類似する化合物の集合を判別することができる。
Further, according to the
また、化合物分類装置100によれば、構造式DB230を参照して、各化合物Mrの母核を表す文字列に対応する構造式に含まれる炭素数を特定し、さらに、各化合物Mrの母核の炭素数に基づいて、化合物群M1〜MRを分類することができる。これにより、各化合物Mrの母核の炭素数から親水性や疎水性などの化学的特性を判断することができる。
Further, according to the
また、化合物分類装置100によれば、構造式DB230を参照して、各化合物Mrの置換基を表す文字列に対応する構造式に含まれる炭素数を特定し、さらに、各化合物Mrの置換基の炭素数に基づいて、化合物群M1〜MRを分類することができる。
In addition, according to the
これにより、各化合物Mrの各置換基の炭素数から親水性や疎水性などの化学的特性を判断でき、化合物群M1〜MRの中から化学的特性が類似する化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち母核が同一の化合物の集合のうちの、化学的特性が類似する化合物同士の類似性や差分を判断し易くすることができる。 Thereby, chemical characteristics such as hydrophilicity and hydrophobicity can be determined from the number of carbon atoms of each substituent of each compound Mr, and a set of compounds having similar chemical characteristics can be determined from the compound groups M1 to MR. it can. As a result, for example, it is possible to easily determine the similarity or difference between compounds having similar chemical characteristics in a set of compounds having the same mother nucleus in the compound groups M1 to MR.
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核を表す文字列と他の化合物の母核を表す文字列とを比較することにより、化合物群M1〜MRを分類することができる。
Moreover, according to the
これにより、化合物群M1〜MRの中から化合物の基礎となる部分構造を表す母核が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうちの基本構造となる化合物と母核が同一の化合物同士の類似性や差分を判断し易くすることができる。 Thereby, it is possible to discriminate a set of compounds in which the mother nucleus representing the partial structure serving as the basis of the compound from the compound groups M1 to MR is the same as the compound serving as the basic structure. As a result, for example, it is possible to easily determine the similarity or difference between compounds having the same mother nucleus as the compound having the basic structure in the compound groups M1 to MR.
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の置換基を表す文字列と他の化合物の置換基を表す文字列とを比較することにより、化合物群M1〜MRを分類することができる。
Moreover, according to the
これにより、化合物群M1〜MRの中から化合物の系統や命名に使う部分構造を表す置換基が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と置換基が同一の化合物同士の類似性や差分を判断し易くすることができる。 Thereby, it is possible to discriminate a set of compounds having the same structure as the compound in which the substituents representing the partial structure used for the system and nomenclature of the compounds from the compound groups M1 to MR become the basic structure. As a result, for example, the similarity or difference between compounds having the same basic structure and compounds having the same substituent in the group of compounds having the same mother nucleus as the compound having the basic structure in the compound groups M1 to MR is determined. Can be made easier.
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の置換基数と他の化合物の置換基数とを比較することにより、化合物群M1〜MRを分類することができる。
Further, according to the
これにより、化合物群M1〜MRの中から化合物の置換基数が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と置換基数が同一の化合物同士の類似性や差分を判断し易くすることができる。 Thereby, it is possible to discriminate a set of compounds in which the number of substituents of the compound is the same as the compound having the basic structure from the compound groups M1 to MR. As a result, for example, the similarity or difference between compounds having the same number of substituents as the compound having the basic structure in the set of compounds having the same mother nucleus as the compound having the basic structure in the compound groups M1 to MR is determined. Can be made easier.
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核に結合する置換基の結合位置と他の化合物の母核に結合する置換基の結合位置とを比較することにより、化合物群M1〜MRを分類することができる。
In addition, according to the
これにより、化合物群M1〜MRの中から化合物の母核に結合する置換基の結合位置が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と母核に結合する置換基の結合位置が同一の化合物同士の類似性や差分を判断し易くすることができる。 Thereby, it is possible to discriminate a set of compounds in which the bonding position of the substituent bonded to the mother nucleus of the compound from the compound groups M1 to MR is the same as the compound serving as the basic structure. As a result, for example, in the group of compounds having the same basic structure as the compound having the basic structure in the compound groups M1 to MR, the compound having the same binding position of the substituent having the basic structure and the bond to the mother nucleus. It is possible to easily determine the similarity and difference between each other.
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核の構造の種類と他の化合物の母核の構造の種類とを比較することにより、化合物群M1〜MRを分類することができる。これにより、化合物群M1〜MRの中から化合物の母核の構造の種類が、基本構造となる化合物と同一の化合物の集合を判別することができる。
Moreover, according to the
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の母核の炭素数と他の化合物の母核の炭素数とを比較することにより、化合物群M1〜MRを分類することができる。これにより、化合物群M1〜MRの中から化合物の母核の炭素数が、基本構造となる化合物と同一の化合物の集合を判別することができる。
Moreover, according to the
また、化合物分類装置100によれば、化合物群M1〜MRのうち、基本構造となる化合物の第j置換基の炭素数と他の化合物の第j置換基の炭素数とを比較することにより、化合物群M1〜MRを分類することができる。
Further, according to the
これにより、化合物群M1〜MRの中から化合物の第j置換基の炭素数が、基本構造となる化合物と同一の化合物の集合を判別することができる。この結果、例えば、化合物群M1〜MRのうち基本構造となる化合物と母核が同一の化合物の集合のうちの、基本構造となる化合物と第j置換基の化学的特性が類似する化合物同士の類似性や差分を判断し易くすることができる。 Thereby, it is possible to discriminate a set of compounds in which the number of carbon atoms of the j-th substituent of the compound is the same as that of the compound serving as the basic structure from among the compound groups M1 to MR. As a result, for example, among the group of compounds having the same mother nucleus as the compound having the basic structure in the compound groups M1 to MR, the compounds having the basic structure and compounds having similar chemical properties of the jth substituent It is possible to easily determine similarity and difference.
また、化合物分類装置100によれば、第j置換基が別の置換基を含む複合置換基か否かを判定し、第j置換基が複合置換基の場合、第j置換基を表す文字列を、化合物Mrの化合物名Nrに設定することができる。そして、化合物分類装置100によれば、構造式DB230を参照して、新たに設定された化合物Mrの化合物名Nrの中から、化合物Mrの母核を表す文字列を検出することができる。
Further, according to the
これにより、化合物Mrの複合置換基を新たな分類対象として、上記検出部702、抽出部703、特定部704等の処理が実行され、第j置換基を表す文字列を解析することができる。この結果、例えば、各化合物Mrの第2階層の母核に基づいて、新たな分類対象として設定された複合置換基群を分類することができる。
As a result, the
これらのことから、実施の形態にかかる化合物分類装置、化合物分類プログラムおよび化合物分類方法によれば、化合物群M1〜MRを、化合物Mrの各階層の母核や置換基の特徴に基づいて分類することができる。これにより、ユーザは、化合物群M1〜MRのうち共通の特徴を有する化合物同士で比較することが可能となり、化合物同士の類似性や差分を判断し易くなる。また、ユーザは、化合物Mrの各階層の母核や置換基の特徴から、化合物Mrの官能基や化合物Mrの全体構造を把握し易くなる。また、ユーザは、化合物Mrが複合置換基を有する化合物であっても、階層ごとに母核や置換基の特徴を判別することができ、階層構造化された化合物Mrの全体構造を把握し易くなる。 Therefore, according to the compound classification device, the compound classification program, and the compound classification method according to the embodiment, the compound groups M1 to MR are classified based on the mother nucleus and substituent characteristics of each layer of the compound Mr. be able to. Thereby, the user can compare the compounds having common characteristics among the compound groups M1 to MR, and can easily determine the similarity and difference between the compounds. In addition, the user can easily grasp the functional group of the compound Mr and the entire structure of the compound Mr from the features of the mother nucleus and substituents of each layer of the compound Mr. Further, even if the compound Mr is a compound having a composite substituent, the user can discriminate the characteristics of the mother nucleus and the substituent for each hierarchy, and it is easy to grasp the overall structure of the hierarchically structured compound Mr. Become.
この結果、例えば、ユーザは、各階層の母核や置換基の特徴から化合物全体の性質を判断して、化合物同士の性質を比較することにより、化合物群がどのような意図の化合物であるかを判断することができる。また、ユーザは、化合物Mrの各階層の母核や置換基の特徴のうち一部の特徴が不明であっても他の特徴から化合物同士の類似性や差分を判断することができる。 As a result, for example, the user judges the properties of the entire compound from the features of the mother nucleus and substituents at each level, and compares the properties of the compounds to determine what kind of compound the compound group is intended for. Can be judged. In addition, even if some of the features of the mother nucleus and substituents of each layer of the compound Mr are unknown, the user can determine the similarity or difference between the compounds from other features.
なお、本実施の形態で説明した化合物分類方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本化合物分類プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本化合物分類プログラムは、インターネット等のネットワークを介して配布してもよい。 The compound classification method described in the present embodiment can be realized by executing a prepared program on a computer such as a personal computer or a workstation. The present compound classification program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. The compound classification program may be distributed via a network such as the Internet.
上述した実施の形態に関し、さらに以下の付記を開示する。 The following additional notes are disclosed with respect to the embodiment described above.
(付記1)化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出する検出部と、
前記検出部によって検出された前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類する分類部と、
前記分類部によって分類された分類結果を出力する出力部と、
を有することを特徴とする化合物分類装置。
(Additional remark 1) With reference to the memory | storage part which memorize | stores the name of the partial structure used as the mother nucleus of a compound, it becomes a mother nucleus of each said compound from the compound name of each compound of the compound group used as a classification | category object A detection unit for detecting a character string representing the name of the partial structure;
A classification unit for classifying the compound group based on a character string representing a mother nucleus of each compound detected by the detection unit;
An output unit that outputs a classification result classified by the classification unit;
A compound classification apparatus comprising:
(付記2)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基を表す文字列に基づいて、前記化合物群を分類することを特徴とする付記1に記載の化合物分類装置。
(Additional remark 2) The character which represents the name of the partial structure used as the substituent of each said compound from the remaining character strings except the character string which represents the mother nucleus of each said compound among the compound names of each said compound An extractor for extracting columns;
The classification unit includes:
The compound classification apparatus according to
(付記3)前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする付記2に記載の化合物分類装置。
(Supplementary note 3)
Furthermore, the compound classification apparatus according to
(付記4)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする付記1に記載の化合物分類装置。
(Additional remark 4) The character which represents the name of the partial structure used as the substituent of each said compound from the remaining character strings except the character string which represents the mother nucleus of each said compound among the compound names of each said compound An extractor for extracting columns;
The classification unit includes:
Furthermore, the compound classification apparatus according to
(付記5)前記抽出部は、
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記分類部は、
さらに、前記各々の化合物の置換基の結合位置を表す文字列に基づいて、前記化合物群を分類することを特徴とする付記2〜4のいずれか一つに記載の化合物分類装置。
(Supplementary note 5)
Extracting from the remaining character strings a character string representing the bonding position of the substituent of each compound that binds to the mother nucleus of each compound,
The classification unit includes:
The compound classification apparatus according to any one of
(付記6)化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造の種類に基づいて、前記化合物群を分類することを特徴とする付記1〜5のいずれか一つに記載の化合物分類装置。
(Additional remark 6) When the name of the partial structure used as the mother nucleus of a compound and the kind of structure of the said mother nucleus are matched and memorize | stored in the said memory | storage part, the mother of each said compound with reference to the said memory | storage part A specific part that identifies the type of structure of the mother nucleus corresponding to a character string representing a nucleus;
The classification unit includes:
Further, the compound classification apparatus according to any one of
(付記7)前記特定部は、
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする付記6に記載の化合物分類装置。
(Supplementary note 7)
A character string representing the mother nucleus of each compound with reference to the storage unit when the name of the partial structure serving as the mother nucleus of the compound and the structural formula of the mother nucleus are stored in the storage unit in association with each other. Identify the number of elements in the structural formula corresponding to
The classification unit includes:
Further, the compound group is classified based on the number of elements of the specific element included in the structural formula of the mother nucleus of each compound specified by the specifying unit. Classification device.
(付記8)化合物の置換基となる部分構造の名称と前記置換基の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の置換基を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定する特定部をさらに有し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の置換基の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする付記2〜5のいずれか一つに記載の化合物分類装置。
(Additional remark 8) When the name of the partial structure used as the substituent of a compound and the structural formula of the said substituent are matched and memorize | stored in the said memory | storage part, the substituent of each said compound with reference to the said memory | storage part A specific part that specifies the number of elements of a specific element included in the structural formula corresponding to the character string representing
The classification unit includes:
Further, any one of
(付記9)前記化合物群のうち特定の化合物の母核を表す文字列と、前記化合物群のうち前記特定の化合物とは異なる他の化合物の母核を表す文字列とを比較する比較部をさらに有し、
前記分類部は、
前記比較部によって比較された比較結果に基づいて、前記化合物群を分類することを特徴とする付記1に記載の化合物分類装置。
(Additional remark 9) The comparison part which compares the character string showing the mother nucleus of a specific compound among the said compound groups, and the character string showing the mother nucleus of the other compound different from the said specific compound among the said compound groups. In addition,
The classification unit includes:
The compound classification apparatus according to
(付記10)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基を表す文字列と、前記他の化合物の置換基を表す文字列とを比較することを特徴とする付記9に記載の化合物分類装置。
(Additional remark 10) The character which represents the name of the partial structure used as the substituent of each said compound from the remaining character strings except the character string which represents the mother nucleus of each said compound among the compound names of each said compound An extractor for extracting columns;
The comparison unit includes:
Furthermore, the compound classification apparatus according to
(付記11)前記比較部は、
さらに、前記特定の化合物の置換基の数と、前記他の化合物の置換基の数とを比較することを特徴とする付記10に記載の化合物分類装置。
(Supplementary Note 11) The comparison unit
Furthermore, the compound classification apparatus according to
(付記12)前記各々の化合物の化合物名のうち前記各々の化合物の母核を表す文字列を除く残余の文字列の中から、前記各々の化合物の置換基となる部分構造の名称を表す文字列を抽出する抽出部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基の数と、前記他の化合物の置換基の数とを比較することを特徴とする付記9に記載の化合物分類装置。
(Additional remark 12) The character showing the name of the partial structure used as the substituent of each said compound from the remaining character strings except the character string showing the mother nucleus of each said compound among the compound names of each said compound An extractor for extracting columns;
The comparison unit includes:
Furthermore, the compound classification apparatus according to
(付記13)前記抽出部は、
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記比較部は、
さらに、前記特定の化合物の置換基の結合位置を表す文字列と、前記他の化合物の置換基の結合位置を表す文字列とを比較することを特徴とする付記10〜12のいずれか一つに記載の化合物分類装置。
(Supplementary note 13)
Extracting from the remaining character strings a character string representing the bonding position of the substituent of each compound that binds to the mother nucleus of each compound,
The comparison unit includes:
Further, any one of
(付記14)化合物の母核となる部分構造の名称と前記母核の構造の種類とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する前記母核の構造の種類を特定する特定部をさらに有し、
前記比較部は、
さらに、前記特定部によって特定された前記特定の化合物の母核の構造の種類と、前記他の化合物の母核の構造の種類とを比較することを特徴とする付記9〜13のいずれか一つに記載の化合物分類装置。
(Supplementary note 14) In the case where the name of the partial structure serving as the mother nucleus of the compound and the type of the structure of the mother nucleus are stored in the storage unit in association with each other, the mother of each compound is referred to with reference to the storage unit A specific part that identifies the type of structure of the mother nucleus corresponding to a character string representing a nucleus;
The comparison unit includes:
Furthermore, the type of the structure of the mother nucleus of the specific compound identified by the identification unit is compared with the type of the structure of the mother nucleus of the other compound, The compound classification apparatus described in 1.
(付記15)前記特定部は、
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記比較部は、
さらに、前記特定の化合物の母核の構造式に含まれる前記特定の元素の元素数と、前記他の化合物の母核の構造式に含まれる前記特定の元素の元素数とを比較することを特徴とする付記14に記載の化合物分類装置。
(Supplementary note 15)
A character string representing the mother nucleus of each compound with reference to the storage unit when the name of the partial structure serving as the mother nucleus of the compound and the structural formula of the mother nucleus are stored in the storage unit in association with each other. Identify the number of elements in the structural formula corresponding to
The comparison unit includes:
Further, comparing the number of elements of the specific element contained in the structural formula of the mother nucleus of the specific compound and the number of elements of the specific element contained in the structural formula of the mother nucleus of the other compound. 15. The compound classification device according to supplementary note 14, which is characterized.
(付記16)化合物の置換基となる部分構造の名称と前記置換基の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の置換基を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定する特定部をさらに有し、
前記比較部は、
さらに、前記特定の化合物の置換基の構造式に含まれる前記特定の元素の元素数と、前記他の化合物の置換基の構造式に含まれる前記特定の元素の元素数とを比較することを特徴とする付記10〜13のいずれか一つに記載の化合物分類装置。
(Supplementary Note 16) When the name of the partial structure that is a substituent of the compound and the structural formula of the substituent are stored in the storage unit in association with each other, the substituent of each compound is referred to the storage unit A specific part that specifies the number of elements of a specific element included in the structural formula corresponding to the character string representing
The comparison unit includes:
Furthermore, comparing the number of elements of the specific element included in the structural formula of the substituent of the specific compound and the number of elements of the specific element included in the structural formula of the substituent of the other compound. The compound classification device according to any one of
(付記17)前記各々の化合物の置換基を表す文字列に基づいて、前記各々の化合物の置換基が別の置換基を含む複合置換基か否かを判定する判定部と、
前記判定部によって前記複合置換基であると判定された場合、前記各々の化合物の置換基を表す文字列を、前記分類対象となる化合物の化合物名に設定する設定部と、をさらに有し、
前記検出部は、
前記記憶部を参照して、前記設定部によって設定された前記分類対象となる各々の化合物の化合物名の中から前記各々の化合物の母核となる部分構造の名称を表す文字列を検出することを特徴とする付記1〜16のいずれか一つに記載の化合物分類装置。
(Supplementary Note 17) Based on a character string representing a substituent of each compound, a determination unit that determines whether the substituent of each compound is a composite substituent containing another substituent, and
A setting unit that sets a character string representing a substituent of each compound as a compound name of the compound to be classified when the determination unit determines that the compound substituent is the compound substituent;
The detector is
Referring to the storage unit, detecting a character string representing a name of a partial structure serving as a mother nucleus of each compound from the compound names of the respective compounds to be classified set by the setting unit The compound classification device according to any one of
(付記18)コンピュータに、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行させることを特徴とする化合物分類プログラム。
(Supplementary note 18)
The name of the partial structure serving as the mother nucleus of each compound from among the compound names of the respective compounds in the group of compounds to be classified with reference to the storage unit storing the name of the partial structure serving as the mother nucleus of the compound Finds a string that represents
Classifying the compound group based on the detected character string representing the nucleus of each compound;
Output the classified result,
A compound classification program characterized by causing a process to be executed.
(付記19)コンピュータが、
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行することを特徴とする化合物分類方法。
(Supplementary note 19)
The name of the partial structure serving as the mother nucleus of each compound from among the compound names of the respective compounds in the group of compounds to be classified with reference to the storage unit storing the name of the partial structure serving as the mother nucleus of the compound Finds a string that represents
Classifying the compound group based on the detected character string representing the nucleus of each compound;
Output the classified result,
The compound classification method characterized by performing a process.
100 化合物分類装置
701 受付部
702 検出部
703 抽出部
704 特定部
705 分類部
706 比較部
707 算出部
708 判定部
709 設定部
710 作成部
711 出力部
DESCRIPTION OF
Claims (10)
前記検出部によって検出された前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類する分類部と、
前記分類部によって分類された分類結果を出力する出力部と、
を有することを特徴とする化合物分類装置。 The name of the partial structure serving as the mother nucleus of each compound from among the compound names of the respective compounds in the group of compounds to be classified with reference to the storage unit storing the name of the partial structure serving as the mother nucleus of the compound A detection unit for detecting a character string representing
A classification unit for classifying the compound group based on a character string representing a mother nucleus of each compound detected by the detection unit;
An output unit that outputs a classification result classified by the classification unit;
A compound classification apparatus comprising:
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基を表す文字列に基づいて、前記化合物群を分類することを特徴とする請求項1に記載の化合物分類装置。 A character string representing the name of the partial structure serving as a substituent of each compound is extracted from the remaining character strings excluding the character string representing the mother nucleus of each compound among the compound names of the respective compounds. An extractor,
The classification unit includes:
The compound classification apparatus according to claim 1, wherein the compound group is further classified based on a character string representing a substituent of each compound extracted by the extraction unit.
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする請求項2に記載の化合物分類装置。 The classification unit includes:
The compound classification apparatus according to claim 2, wherein the compound group is further classified based on the number of substituents of each compound extracted by the extraction unit.
前記分類部は、
さらに、前記抽出部によって抽出された前記各々の化合物の置換基の数に基づいて、前記化合物群を分類することを特徴とする請求項1に記載の化合物分類装置。 A character string representing the name of the partial structure serving as a substituent of each compound is extracted from the remaining character strings excluding the character string representing the mother nucleus of each compound among the compound names of the respective compounds. An extractor,
The classification unit includes:
The compound classification apparatus according to claim 1, wherein the compound group is further classified based on the number of substituents of each compound extracted by the extraction unit.
前記残余の文字列の中から、前記各々の化合物の母核に結合する前記各々の化合物の置換基の結合位置を表す文字列を抽出し、
前記分類部は、
さらに、前記各々の化合物の置換基の結合位置を表す文字列に基づいて、前記化合物群を分類することを特徴とする請求項2〜4のいずれか一つに記載の化合物分類装置。 The extraction unit includes:
Extracting from the remaining character strings a character string representing the bonding position of the substituent of each compound that binds to the mother nucleus of each compound,
The classification unit includes:
Furthermore, the said compound group is classify | categorized based on the character string showing the coupling | bonding position of the substituent of each said compound, The compound classification device as described in any one of Claims 2-4 characterized by the above-mentioned.
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造の種類に基づいて、前記化合物群を分類することを特徴とする請求項1〜5のいずれか一つに記載の化合物分類装置。 When the name of the partial structure serving as the mother nucleus of the compound and the type of the structure of the mother nucleus are stored in the storage unit in association with each other, the characters representing the mother nucleus of each compound with reference to the storage unit A specific part that identifies the type of structure of the mother nucleus corresponding to a column;
The classification unit includes:
The compound group according to claim 1, further comprising classifying the compound group based on a structure type of a mother nucleus of each compound identified by the identifying unit. apparatus.
化合物の母核となる部分構造の名称と前記母核の構造式とが対応付けて前記記憶部に記憶されている場合、前記記憶部を参照して前記各々の化合物の母核を表す文字列に対応する構造式に含まれる特定の元素の元素数を特定し、
前記分類部は、
さらに、前記特定部によって特定された前記各々の化合物の母核の構造式に含まれる前記特定の元素の元素数に基づいて、前記化合物群を分類することを特徴とする請求項6に記載の化合物分類装置。 The specific part is:
A character string representing the mother nucleus of each compound with reference to the storage unit when the name of the partial structure serving as the mother nucleus of the compound and the structural formula of the mother nucleus are stored in the storage unit in association with each other. Identify the number of elements in the structural formula corresponding to
The classification unit includes:
Furthermore, the said compound group is classified based on the element number of the said specific element contained in the structural formula of the mother nucleus of each said compound specified by the said specific part. Compound classification device.
前記判定部によって前記複合置換基であると判定された場合、前記各々の化合物の置換基を表す文字列を、前記分類対象となる化合物の化合物名に設定する設定部と、をさらに有し、
前記検出部は、
前記記憶部を参照して、前記設定部によって設定された前記分類対象となる各々の化合物の化合物名の中から前記各々の化合物の母核となる部分構造の名称を表す文字列を検出することを特徴とする請求項1〜7のいずれか一つに記載の化合物分類装置。 A determination unit that determines whether or not the substituent of each compound is a composite substituent containing another substituent based on the character string representing the substituent of each compound;
A setting unit that sets a character string representing a substituent of each compound as a compound name of the compound to be classified when the determination unit determines that the compound substituent is the compound substituent;
The detector is
Referring to the storage unit, detecting a character string representing a name of a partial structure serving as a mother nucleus of each compound from the compound names of the respective compounds to be classified set by the setting unit The compound classification device according to any one of claims 1 to 7.
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行させることを特徴とする化合物分類プログラム。 On the computer,
The name of the partial structure serving as the mother nucleus of each compound from among the compound names of the respective compounds in the group of compounds to be classified with reference to the storage unit storing the name of the partial structure serving as the mother nucleus of the compound Finds a string that represents
Classifying the compound group based on the detected character string representing the nucleus of each compound;
Output the classified result,
A compound classification program characterized by causing a process to be executed.
化合物の母核となる部分構造の名称を記憶する記憶部を参照して、分類対象となる化合物群の各々の化合物の化合物名の中から、前記各々の化合物の母核となる部分構造の名称を表す文字列を検出し、
検出した前記各々の化合物の母核を表す文字列に基づいて、前記化合物群を分類し、
分類した分類結果を出力する、
処理を実行することを特徴とする化合物分類方法。 Computer
The name of the partial structure serving as the mother nucleus of each compound from among the compound names of the respective compounds in the group of compounds to be classified with reference to the storage unit storing the name of the partial structure serving as the mother nucleus of the compound Finds a string that represents
Classifying the compound group based on the detected character string representing the nucleus of each compound;
Output the classified result,
The compound classification method characterized by performing a process.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011244975A JP5853608B2 (en) | 2011-11-08 | 2011-11-08 | Compound classification apparatus, compound classification program, and compound classification method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011244975A JP5853608B2 (en) | 2011-11-08 | 2011-11-08 | Compound classification apparatus, compound classification program, and compound classification method |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013101511A true JP2013101511A (en) | 2013-05-23 |
JP5853608B2 JP5853608B2 (en) | 2016-02-09 |
Family
ID=48622075
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011244975A Active JP5853608B2 (en) | 2011-11-08 | 2011-11-08 | Compound classification apparatus, compound classification program, and compound classification method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5853608B2 (en) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015052990A (en) * | 2013-09-09 | 2015-03-19 | 富士通株式会社 | Information providing apparatus, information providing method, and program |
WO2019049354A1 (en) * | 2017-09-11 | 2019-03-14 | 株式会社島津製作所 | Device for identifying sample category, analytical system, and analytical network system |
JP2020035172A (en) * | 2018-08-30 | 2020-03-05 | 富士通株式会社 | Generation method, generation program, and generation device |
JP2020187647A (en) * | 2019-05-16 | 2020-11-19 | 富士通株式会社 | Search method, search program, and information processing system |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01142869A (en) * | 1987-11-30 | 1989-06-05 | Toshiba Corp | Molecule design supporting system |
JP2000172706A (en) * | 1998-12-07 | 2000-06-23 | Dic Japan Kk | Character string classifying device |
JP2000231560A (en) * | 1999-02-10 | 2000-08-22 | Ricoh Co Ltd | Automatic document classification system |
WO2000075809A1 (en) * | 1999-06-04 | 2000-12-14 | Seiko Epson Corporation | Information sorting method, information sorter, recorded medium on which information sorting program is recorded |
JP2001034621A (en) * | 1999-07-19 | 2001-02-09 | Hitachi Ltd | Document classification management system |
JP2006113893A (en) * | 2004-10-15 | 2006-04-27 | Mitsubishi Electric Corp | Automatic classification method of chemical substance, visualization method of information space, information retrieval system, and information retrieval program |
-
2011
- 2011-11-08 JP JP2011244975A patent/JP5853608B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH01142869A (en) * | 1987-11-30 | 1989-06-05 | Toshiba Corp | Molecule design supporting system |
JP2000172706A (en) * | 1998-12-07 | 2000-06-23 | Dic Japan Kk | Character string classifying device |
JP2000231560A (en) * | 1999-02-10 | 2000-08-22 | Ricoh Co Ltd | Automatic document classification system |
WO2000075809A1 (en) * | 1999-06-04 | 2000-12-14 | Seiko Epson Corporation | Information sorting method, information sorter, recorded medium on which information sorting program is recorded |
JP2001034621A (en) * | 1999-07-19 | 2001-02-09 | Hitachi Ltd | Document classification management system |
JP2006113893A (en) * | 2004-10-15 | 2006-04-27 | Mitsubishi Electric Corp | Automatic classification method of chemical substance, visualization method of information space, information retrieval system, and information retrieval program |
Non-Patent Citations (1)
Title |
---|
JPN6015031327; 'JST高分子データベースPoLyInfoの開発(3) IUPAC構造基礎名の自動発生 Phase 1' 情報管理 Vol.43 No.2, 200005, 131-137ページ * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015052990A (en) * | 2013-09-09 | 2015-03-19 | 富士通株式会社 | Information providing apparatus, information providing method, and program |
WO2019049354A1 (en) * | 2017-09-11 | 2019-03-14 | 株式会社島津製作所 | Device for identifying sample category, analytical system, and analytical network system |
JPWO2019049354A1 (en) * | 2017-09-11 | 2020-09-10 | 株式会社島津製作所 | Sample category identification equipment, analytical systems, and analytical network systems |
JP2020035172A (en) * | 2018-08-30 | 2020-03-05 | 富士通株式会社 | Generation method, generation program, and generation device |
JP7081396B2 (en) | 2018-08-30 | 2022-06-07 | 富士通株式会社 | Generation method, generation program, and generation device |
JP2020187647A (en) * | 2019-05-16 | 2020-11-19 | 富士通株式会社 | Search method, search program, and information processing system |
JP7322500B2 (en) | 2019-05-16 | 2023-08-08 | 富士通株式会社 | SEARCH METHOD, SEARCH PROGRAM, AND INFORMATION PROCESSING DEVICE |
Also Published As
Publication number | Publication date |
---|---|
JP5853608B2 (en) | 2016-02-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7054871B2 (en) | Method for identifying and using table structures | |
JP5025488B2 (en) | Domain specific data entity mapping method and system | |
JP5853608B2 (en) | Compound classification apparatus, compound classification program, and compound classification method | |
EP1764710A1 (en) | Layout generation method, information processing device, and program | |
WO2008108773A1 (en) | System and method for knowledge extraction and abstraction | |
JP5067420B2 (en) | Information search program, recording medium storing the program, information search device, and information search method | |
Wu et al. | Classifying Wikipedia articles using network motif counts and ratios | |
KR20070057819A (en) | Arrangement generation method and arrangement generation program | |
JP2019061550A (en) | Standard item name setting device, standard item name setting method, and standard item name setting program | |
JP5741387B2 (en) | Information providing apparatus, information providing program, and information providing method | |
Khulusi et al. | musixplora: Visual analysis of a musicological encyclopedia | |
JP2005122510A (en) | Topic structure extracting method and device and topic structure extracting program and computer-readable storage medium with topic structure extracting program recorded thereon | |
JP2009099140A (en) | Data processing system | |
JP2004348771A (en) | Technical document retrieval device | |
CN111539383B (en) | Formula knowledge point identification method and device | |
Wu et al. | Modeling and extracting deep-web query interfaces | |
JP4728063B2 (en) | Interest information generating apparatus, interest information generating method, and interest information generating program | |
JP4305836B2 (en) | Content search display device and content search display method | |
JP2013130965A (en) | Data analysis device, data analysis method, and program | |
Morse et al. | Comparison of multiple taxonomic hierarchies using TaxoNote | |
CN115470359A (en) | Method for automatically constructing test standard knowledge graph | |
Saund | A graph lattice approach to maintaining and learning dense collections of subgraphs as image features | |
Wong et al. | Guest editorial: special section on visual analytics | |
Guo et al. | Edit-History Vis: An Interactive Visual Exploration and Analysis on Wikipedia Edit History | |
JP5175607B2 (en) | Decision tree generator |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140704 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141224 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150106 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150309 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150811 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151013 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5853608 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |