JP2020187647A - Search method, search program, and information processing system - Google Patents

Search method, search program, and information processing system Download PDF

Info

Publication number
JP2020187647A
JP2020187647A JP2019093100A JP2019093100A JP2020187647A JP 2020187647 A JP2020187647 A JP 2020187647A JP 2019093100 A JP2019093100 A JP 2019093100A JP 2019093100 A JP2019093100 A JP 2019093100A JP 2020187647 A JP2020187647 A JP 2020187647A
Authority
JP
Japan
Prior art keywords
compound name
node
abstract
indicating
character string
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019093100A
Other languages
Japanese (ja)
Other versions
JP7322500B2 (en
Inventor
田中 一成
Kazunari Tanaka
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2019093100A priority Critical patent/JP7322500B2/en
Publication of JP2020187647A publication Critical patent/JP2020187647A/en
Application granted granted Critical
Publication of JP7322500B2 publication Critical patent/JP7322500B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To facilitate finding a node corresponding to a designated compound name.SOLUTION: A client device displays a technical document 1801 on a display 606. A service user browses the technical document 1801. The service user clicks a character string in the technical document. The clicked character string may be a character string corresponding to an abstract compound name. The client device inquires of an information processing unit the information relating to the clicked character string. The information processing unit displays information about the compound name corresponding to the clicked character string on the client device by tracking links between the nodes in the knowledge graph 1300.SELECTED DRAWING: Figure 18

Description

本発明は、検索方法、検索プログラム、および情報処理装置に関する。 The present invention relates to a search method, a search program, and an information processing device.

従来、化学分野に関する情報検索、情報解析、または、読解支援などに、ナレッジグラフが利用されることがある。ナレッジグラフは、例えば、化合物名を示すノード、化合物の分子式や分子量を示すノード、または、化合物の機能や用途を示すノードなどを含む。例えば、人が、化学分野の特許文献や技術論文などの技術文書を読解する際に、ナレッジグラフを利用し、技術文書に記載された化合物名を検索可能にし、化合物の分子式や分子量、または、化合物の機能や用途などを検索可能にすることが考えられる。 Conventionally, the knowledge graph may be used for information retrieval, information analysis, reading comprehension support, etc. in the field of chemistry. The Knowledge Graph includes, for example, a node indicating a compound name, a node indicating a molecular formula or molecular weight of a compound, a node indicating a function or use of a compound, and the like. For example, when a person reads a technical document such as a patent document or a technical paper in the field of chemistry, the knowledge graph is used to make it possible to search for the compound name described in the technical document, and the molecular formula or molecular weight of the compound, or It is conceivable to make it possible to search for the functions and uses of compounds.

先行技術としては、例えば、化合物名群のうち、対象化合物の置換基を表す文字列を含む化合物名の化合物の母核に結合する置換基の結合位置を特定することにより、置換基の結合位置のバリエーション数を算出するものがある。また、例えば、分類対象となる化合物群の各々の化合物の化合物名の中から、各々の化合物の母核となる部分構造の名称を表す文字列を検出する技術がある。 As a prior art, for example, in the compound name group, the bonding position of the substituent by specifying the bonding position of the substituent to be bonded to the mother nucleus of the compound of the compound name including the character string representing the substituent of the target compound. There is something that calculates the number of variations of. Further, for example, there is a technique for detecting a character string representing the name of a partial structure that is the mother core of each compound from the compound names of each compound in the compound group to be classified.

特開2014−092930号公報Japanese Unexamined Patent Publication No. 2014-09230 特開2013−101511号公報Japanese Unexamined Patent Publication No. 2013-101511

しかしながら、従来技術では、ナレッジグラフから、指定された化合物名に対応するノードを発見することは難しい。例えば、置換基の結合位置を示す文字列を省略した抽象的な化合物名が指定された場合に、ナレッジグラフ内に、指定された抽象的な化合物名を直接的に示すノードが存在せず、指定された抽象的な化合物名に対応するノードを発見することが難しいことがある。 However, in the prior art, it is difficult to find the node corresponding to the specified compound name from the knowledge graph. For example, when an abstract compound name is specified that omits the character string indicating the binding position of the substituent, there is no node in the knowledge graph that directly indicates the specified abstract compound name. It can be difficult to find the node that corresponds to the specified abstract compound name.

1つの側面では、本発明は、指定された化合物名に対応するノードを発見しやすくすることを目的とする。 In one aspect, the present invention aims to make it easier to find the node corresponding to the specified compound name.

1つの実施態様によれば、第1の化合物名に関する検索クエリを取得し、取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、前記第1の化合物名から、特定した前記文字列を除去した抽象化合物名を生成し、化合物名を示すノード同士をリンク付けしたグラフ内から、生成した前記抽象化合物名を示すノードを検索し、前記抽象化合物名を示すノードを発見した場合に、前記グラフ内で、発見した前記ノードを起点に、特定した前記文字列に対応する化合物名を示すノードへのリンクを辿って、前記第1の化合物名に対応するノードを検索する検索方法、検索プログラム、および情報処理装置が提案される。 According to one embodiment, a search query for the first compound name is acquired, and based on the acquired search query, a character string indicating a binding position of a substituent contained in the first compound name is specified. , The abstract compound name obtained by removing the specified character string from the first compound name is generated, and the node indicating the generated abstract compound name is searched for in the graph in which the nodes indicating the compound name are linked to each other. , When a node indicating the abstract compound name is found, the link to the node indicating the compound name corresponding to the specified character string is followed from the found node as a starting point in the graph, and the first A search method, a search program, and an information processing apparatus for searching the node corresponding to the compound name of the compound are proposed.

一態様によれば、指定された化合物名に対応するノードを発見しやすくすることが可能になる。 According to one aspect, it becomes possible to easily find the node corresponding to the specified compound name.

図1は、実施の形態にかかる検索方法の一実施例を示す説明図である。FIG. 1 is an explanatory diagram showing an embodiment of a search method according to an embodiment. 図2は、サービス提供システム200の一例を示す説明図である。FIG. 2 is an explanatory diagram showing an example of the service providing system 200. 図3は、情報処理装置100のハードウェア構成例を示すブロック図である。FIG. 3 is a block diagram showing a hardware configuration example of the information processing device 100. 図4は、グラフ情報テーブル400のデータ構造の一例を示す説明図である。FIG. 4 is an explanatory diagram showing an example of the data structure of the graph information table 400. 図5は、辞書テーブル500のデータ構造の一例を示す説明図である。FIG. 5 is an explanatory diagram showing an example of the data structure of the dictionary table 500. 図6は、クライアント装置201のハードウェア構成例を示すブロック図である。FIG. 6 is a block diagram showing a hardware configuration example of the client device 201. 図7は、情報処理装置100の機能的構成例を示すブロック図である。FIG. 7 is a block diagram showing a functional configuration example of the information processing apparatus 100. 図8は、情報処理装置100の具体的な機能的構成例を示すブロック図である。FIG. 8 is a block diagram showing a specific functional configuration example of the information processing apparatus 100. 図9は、ナレッジグラフを生成する流れを示す説明図である。FIG. 9 is an explanatory diagram showing a flow for generating a knowledge graph. 図10は、化合物名を抽出する一例を示す説明図である。FIG. 10 is an explanatory diagram showing an example of extracting a compound name. 図11は、抽象化合物名を生成する一例を示す説明図(その1)である。FIG. 11 is an explanatory diagram (No. 1) showing an example of generating an abstract compound name. 図12は、抽象化合物名を生成する一例を示す説明図(その2)である。FIG. 12 is an explanatory diagram (No. 2) showing an example of generating an abstract compound name. 図13は、ナレッジグラフ1300を生成する一例を示す説明図である。FIG. 13 is an explanatory diagram showing an example of generating the Knowledge Graph 1300. 図14は、検索クエリ1400の化合物名を直接示すノードを検索する一例を示す説明図である。FIG. 14 is an explanatory diagram showing an example of searching for a node that directly indicates the compound name of the search query 1400. 図15は、検索クエリの化合物名に対応するノードを検索する一例を示す説明図(その1)である。FIG. 15 is an explanatory diagram (No. 1) showing an example of searching for a node corresponding to the compound name of the search query. 図16は、検索クエリの化合物名に対応するノードを検索する一例を示す説明図(その2)である。FIG. 16 is an explanatory diagram (No. 2) showing an example of searching for a node corresponding to the compound name of the search query. 図17は、検索クエリの化合物名に対応するノードを検索する一例を示す説明図(その3)である。FIG. 17 is an explanatory diagram (No. 3) showing an example of searching for a node corresponding to the compound name of the search query. 図18は、サービス利用者が、サービスを利用する流れを示す説明図である。FIG. 18 is an explanatory diagram showing a flow in which a service user uses a service. 図19は、サービス利用者が、サービスを利用する一例を示す説明図である。FIG. 19 is an explanatory diagram showing an example in which a service user uses a service. 図20は、生成処理手順の一例を示すフローチャートである。FIG. 20 is a flowchart showing an example of the generation processing procedure. 図21は、検索処理手順の一例を示すフローチャートである。FIG. 21 is a flowchart showing an example of the search processing procedure.

以下に、図面を参照して、本発明にかかる検索方法、検索プログラム、および情報処理装置の実施の形態を詳細に説明する。 Hereinafter, embodiments of the search method, search program, and information processing apparatus according to the present invention will be described in detail with reference to the drawings.

(実施の形態にかかる検索方法の一実施例)
図1は、実施の形態にかかる検索方法の一実施例を示す説明図である。情報処理装置100は、化学分野に関するナレッジグラフから、指定された化合物名に対応するノードを検索するためのコンピュータである。
(Example of a search method according to an embodiment)
FIG. 1 is an explanatory diagram showing an embodiment of a search method according to an embodiment. The information processing apparatus 100 is a computer for searching a node corresponding to a designated compound name from a knowledge graph related to the field of chemistry.

ナレッジグラフは、化合物に関する種々の情報を示すノードを含む。ナレッジグラフは、例えば、化合物名を示すノード、化合物の分子式や分子量を示すノード、または、化合物の機能や用途を示すノードなどを含む。化合物は、2種類以上の元素からなる化学物質である。化合物は、例えば、有機化合物と無機化合物とである。 The Knowledge Graph contains nodes that show various information about the compound. The Knowledge Graph includes, for example, a node indicating a compound name, a node indicating a molecular formula or molecular weight of a compound, a node indicating a function or use of a compound, and the like. A compound is a chemical substance consisting of two or more kinds of elements. The compounds are, for example, organic compounds and inorganic compounds.

ここで、ナレッジグラフは、例えば、化学分野に関する情報検索、情報解析、または、読解支援などに利用される。例えば、人が、化学分野の特許文献や技術論文などの技術文書を読解する際に、ナレッジグラフを利用し、技術文書に記載された化合物名を検索可能にし、化合物の分子式や分子量、または、化合物の機能や用途などを検索可能にすることが考えられる。 Here, the knowledge graph is used, for example, for information retrieval, information analysis, reading comprehension support, etc. in the field of chemistry. For example, when a person reads a technical document such as a patent document or a technical paper in the field of chemistry, the knowledge graph is used to make it possible to search for the compound name described in the technical document, and the molecular formula or molecular weight of the compound, or It is conceivable to make it possible to search for the functions and uses of compounds.

技術文書には、構造が一意に特定可能な抽象度で表現された具体的な化合物名ではなく、構造が一意に特定されない抽象度で表現された抽象的な化合物名が記載されていることがある。具体的な化合物名は、例えば、置換基の結合位置が明示された化合物名である。一方で、抽象的な化合物名は、例えば、置換基の結合位置が特定されない抽象度で表現された化合物名である。抽象的な化合物名は、例えば、置換基の結合位置を示す文字列が省略された化合物名である。 The technical document may contain an abstract compound name expressed in an abstraction degree in which the structure is not uniquely specified, rather than a specific compound name expressed in an abstraction degree in which the structure is uniquely identifiable. is there. The specific compound name is, for example, a compound name in which the bonding position of the substituent is specified. On the other hand, the abstract compound name is, for example, a compound name expressed by a degree of abstraction in which the bonding position of the substituent is not specified. The abstract compound name is, for example, a compound name in which the character string indicating the bonding position of the substituent is omitted.

例えば、化合物名「1−エトキシ−2−プロパノール」、および、化合物名「2−エトキシ−2−プロパノール」などが、エトキシ基とヒドロキシ基との結合位置が明示された具体的な化合物名である。一方で、化合物名「1−エトキシプロパノール」、および、化合物名「2−エトキシプロパノール」などが、ヒドロキシ基の結合位置が特定されない抽象度で表現された抽象的な化合物名である。 For example, the compound name "1-ethoxy-2-propanol" and the compound name "2-ethoxy-2-propanol" are specific compound names in which the bonding position between the ethoxy group and the hydroxy group is clearly indicated. .. On the other hand, the compound name "1-ethoxypropanol" and the compound name "2-ethoxypropanol" are abstract compound names expressed with a degree of abstraction in which the bonding position of the hydroxy group is not specified.

したがって、ナレッジグラフが、具体的な化合物名を示すノードの他、抽象的な化合物名を示すノードを含むようにすることが、ナレッジグラフを、化学分野に関する情報検索、情報解析、または、読解支援などに利用する観点から好ましいと考えられる。 Therefore, making the Knowledge Graph include nodes that indicate abstract compound names in addition to nodes that indicate specific compound names makes the Knowledge Graph information retrieval, information analysis, or reading comprehension support related to the field of chemistry. It is considered preferable from the viewpoint of using it for such purposes.

これに対し、既存の辞書に登録された具体的な化合物名から、1つの数字を所定の記号で区切って1つの置換基の結合位置を示した文字列を除去して特定した、抽象的な化合物名を示すノードを含むナレッジグラフを生成する第1の手法が考えられる。既存の辞書は、例えば、ChEBI(Chemical Entities of Biological Interest)、および、日本化学物質辞書などである。所定の記号は、例えば、ハイフン、カンマ、括弧、コーテーションなどである。 On the other hand, it is an abstract that is specified by removing the character string indicating the binding position of one substituent by separating one number with a predetermined symbol from the specific compound name registered in the existing dictionary. A first method of generating a knowledge graph containing nodes indicating compound names can be considered. Existing dictionaries include, for example, ChEBI (Chemical Entities of Biological Interest) and the Japanese Chemical Substances Dictionary. Predetermined symbols are, for example, hyphens, commas, parentheses, coatings and the like.

上記第1の手法では、例えば、具体的な化合物名から、1つの置換基の結合位置を示した文字列のそれぞれを除去し、抽象的な化合物名を特定することが考えられる。上記第1の手法では、例えば、具体的な化合物名「1−エトキシ−2−プロパノール」から、ヒドロキシ基の結合位置を示した文字列「−2−」を除去し、抽象的な化合物名「1−エトキシプロパノール」を特定することが考えられる。 In the first method, for example, it is conceivable to remove each of the character strings indicating the bonding positions of one substituent from the specific compound name to specify the abstract compound name. In the first method, for example, the character string "-2-" indicating the bonding position of the hydroxy group is removed from the specific compound name "1-ethoxy-2-propanol", and the abstract compound name "1-2" is removed. It is conceivable to identify "1-ethoxypropanol".

しかしながら、上記第1の手法では、具体的な化合物名に、1つの置換基の結合位置を示した文字列が多く含まれるほど、抽象的な化合物名が多く特定されることになり、ナレッジグラフに含まれるノードの数の増大化を招く。そして、ナレッジグラフに含まれるノードの数が増大するほど、特定の化合物名に対応するノードを発見する際にかかる所要時間の増大化を招き、特定の化合物名に対応するノードを発見することが難しくなる。 However, in the above first method, the more the character string indicating the bonding position of one substituent is included in the specific compound name, the more abstract compound names are specified, and the knowledge graph. This leads to an increase in the number of nodes included in. Then, as the number of nodes included in the knowledge graph increases, the time required to find the node corresponding to the specific compound name increases, and the node corresponding to the specific compound name can be found. It gets harder.

具体的な化合物名は、「(2R)−2α,3,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」がある。この具体的な化合物名は、1つの置換基の結合位置を示した文字列を16個含むため、この具体的な化合物名から、1つの置換基の結合位置を示した文字列のそれぞれを除去するパターンは、65536通り存在する。結果として、この具体的な化合物名から、65536個の抽象的な化合物名が特定されることになり、ナレッジグラフに含まれるノードの数の増大化を招く。 The specific compound name is "(2R) -2α, 3,7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy. -2,3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione ". Since this specific compound name contains 16 character strings indicating the bonding position of one substituent, each of the character strings indicating the bonding position of one substituent is removed from this specific compound name. There are 65536 patterns to be used. As a result, 65536 abstract compound names will be identified from this specific compound name, which will lead to an increase in the number of nodes included in the knowledge graph.

このため、具体的な化合物名から、1つの置換基の結合位置を示した文字列ではなく、1以上の数字を所定の記号で区切って1以上の置換基の結合位置を纏めて示した文字列を除去して特定した、抽象的な化合物名を示すノードを生成する第2の手法が考えられる。そして、第2の手法は、抽象的な化合物名を示すノードを含むナレッジグラフを生成する。これによれば、ナレッジグラフに含まれるノードの数の低減化を図ることができる。 For this reason, from a specific compound name, instead of a character string indicating the bond position of one substituent, a character indicating the bond positions of one or more substituents collectively by separating one or more numbers with a predetermined symbol. A second method is conceivable that removes the columns to generate the identified nodes with abstract compound names. The second method then generates a knowledge graph that includes nodes showing abstract compound names. According to this, it is possible to reduce the number of nodes included in the knowledge graph.

具体的な化合物名は、「(2R)−2α,3,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」がある。この具体的な化合物名は、1以上の置換基の結合位置を纏めて示した文字列を8個含むため、この具体的な化合物名から、1以上の置換基の結合位置を纏めて示した文字列のそれぞれを除去するパターンは、256通り存在する。結果として、この具体的な化合物名から、256個の抽象的な化合物名が特定されることになる。 The specific compound name is "(2R) -2α, 3,7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy. -2,3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione ". Since this specific compound name contains eight character strings that collectively indicate the bonding positions of one or more substituents, the bonding positions of one or more substituents are collectively indicated from this specific compound name. There are 256 patterns for removing each of the character strings. As a result, 256 abstract compound names will be identified from this specific compound name.

上記第2の手法でも、特定の化合物名に対応するノードを発見することが難しくなることがある。例えば、上記第2の手法では、具体的な化合物名から、1つの置換基の結合位置を示した文字列を除去した抽象的な化合物名を示すノードが、ナレッジグラフに含まれない場合がある。このため、具体的な化合物名から、1つの置換基の結合位置を示した文字列を除去した抽象的な化合物名を直接的に示すノードを発見することができなくなる。結果として、具体的な化合物名から、1つの置換基の結合位置を示した文字列を除去した抽象的な化合物名に対応する化合物の分子式や分子量、または、化合物の機能や用途などを検索することもできなくなる。 Even with the second method described above, it may be difficult to find a node corresponding to a specific compound name. For example, in the second method described above, the knowledge graph may not include a node indicating an abstract compound name obtained by removing a character string indicating a bond position of one substituent from a specific compound name. .. For this reason, it becomes impossible to find a node that directly indicates the abstract compound name obtained by removing the character string indicating the bond position of one substituent from the specific compound name. As a result, the molecular formula and molecular weight of the compound corresponding to the abstract compound name obtained by removing the character string indicating the bond position of one substituent from the specific compound name, or the function and use of the compound are searched. You can't do that either.

そこで、本実施の形態では、指定された化合物名に対応するノードを発見しやすくすることができる検索方法について説明する。以下の説明では、構造が一意に特定されない抽象度で表現された、抽象的な化合物名を、「抽象化合物名」と表記する場合がある。 Therefore, in the present embodiment, a search method that can easily find the node corresponding to the specified compound name will be described. In the following description, an abstract compound name expressed by a degree of abstraction whose structure is not uniquely specified may be referred to as an "abstract compound name".

(1−1)情報処理装置100は、化合物名を示すノード同士をリンク付けしたグラフGを記憶する。グラフGは、例えば、ナレッジグラフである。図1の例では、グラフGは、ノードN1とノードN2とを含む。ノードN1は、抽象化合物名n1を示す。抽象化合物名n1は、「(2R)−2α−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」である。 (1-1) The information processing apparatus 100 stores a graph G in which nodes indicating compound names are linked to each other. Graph G is, for example, a knowledge graph. In the example of FIG. 1, graph G includes node N1 and node N2. Node N1 indicates the abstract compound name n1. The abstract compound name n1 is "(2R) -2α-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy-2,3,6. 9-Tetrahydronaphtho [1,2-b] furan-6,9-dione ".

また、ノードN2は、化合物名n2を示す。化合物名n2は、「(2R)−2α,3,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」である。抽象化合物名n1は、化合物名n2から、3つの数字を所定の記号で区切って3つの置換基の結合位置を示した文字列「,3,7,8」を除去した化合物名に対応する。 Further, the node N2 indicates the compound name n2. The compound name n2 is "(2R) -2α, 3,7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy-2. , 3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione ". The abstract compound name n1 corresponds to the compound name obtained by removing the character string “, 3, 7, 8” indicating the bonding positions of the three substituents by separating three numbers with predetermined symbols from the compound name n2.

(1−2)情報処理装置100は、第1の化合物名nqに関する検索クエリQを取得する。第1の化合物名nqは、「(2R)−2α,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」である。第1の化合物名nqは、化合物名n2から、1つの数字を所定の記号で区切って1つの置換基の結合位置を示した文字列「,3」を除去した化合物名に対応する。 (1-2) The information processing apparatus 100 acquires a search query Q regarding the first compound name nq. The first compound name nq is "(2R) -2α, 7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy- 2,3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione ". The first compound name nq corresponds to the compound name obtained by removing the character string “, 3” indicating the bonding position of one substituent by separating one number with a predetermined symbol from the compound name n2.

(1−3)情報処理装置100は、取得した検索クエリQに基づいて、第1の化合物名nqに含まれる置換基の結合位置を示す文字列を特定する。図1の例では、情報処理装置100は、1以上の数字を所定の記号で区切って1以上の置換基の結合位置を示した文字列「,7,8」を特定する。 (1-3) The information processing apparatus 100 specifies a character string indicating the binding position of the substituent contained in the first compound name nq based on the acquired search query Q. In the example of FIG. 1, the information processing apparatus 100 specifies a character string ", 7, 8" indicating the bonding position of one or more substituents by separating one or more numbers with a predetermined symbol.

(1−4)情報処理装置100は、第1の化合物名nqから、特定した文字列を除去した抽象化合物名を生成する。図1の例では、情報処理装置100は、抽象化合物名「(2R)−2α−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」を生成する。 (1-4) The information processing apparatus 100 generates an abstract compound name obtained by removing the specified character string from the first compound name nq. In the example of FIG. 1, the information processing apparatus 100 has the abstract compound name "(2R) -2α-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4. -Hydroxy-2,3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione "is produced.

(1−5)情報処理装置100は、グラフG内から、生成した抽象化合物名を示すノードを検索する。図1の例では、情報処理装置100は、検索した結果、グラフG内から、生成した抽象化合物名を示すノードN1を発見する。 (1-5) The information processing apparatus 100 searches the graph G for a node indicating the generated abstract compound name. In the example of FIG. 1, the information processing apparatus 100 finds the node N1 indicating the generated abstract compound name in the graph G as a result of the search.

(1−6)情報処理装置100は、抽象化合物名を示すノードを発見した場合に、グラフG内で、発見したノードを起点に、特定した文字列に対応する化合物名を示すノードへのリンクを辿って、第1の化合物名nqに対応するノードを検索する。図1の例では、情報処理装置100は、グラフG内で、発見したノードN1を起点に、特定した文字列「,7,8」を含む化合物名を示すノードN2へのリンクを辿って、第1の化合物名nqに対応するノードを検索する。 (1-6) When the information processing apparatus 100 finds a node showing an abstract compound name, a link to a node showing the compound name corresponding to the specified character string is started in the graph G from the found node. Is followed to search for the node corresponding to the first compound name nq. In the example of FIG. 1, the information processing apparatus 100 follows a link from the found node N1 to the node N2 indicating the compound name including the specified character string ", 7, 8" in the graph G. The node corresponding to the first compound name nq is searched.

情報処理装置100は、具体的には、グラフG内で、発見したノードN1を起点に、特定した文字列「,7,8」を、第1の化合物名nqと同様の位置に含む化合物名を示すノードN2へのリンクを辿って、第1の化合物名nqに対応するノードを検索する。ここでは、情報処理装置100は、第1の化合物名nqに対応するノードとして、ノードN2を発見する。 Specifically, the information processing apparatus 100 includes the specified character string ", 7, 8" in the graph G at the same position as the first compound name nq, starting from the found node N1. The node corresponding to the first compound name nq is searched by following the link to the node N2 indicating. Here, the information processing apparatus 100 discovers the node N2 as the node corresponding to the first compound name nq.

これにより、情報処理装置100は、第1の化合物名nqを直接的に示すノードが存在しなくても、第1の化合物名nqに対応するノードを発見することができる。このため、情報処理装置100は、グラフGを利用し、情報検索、情報解析、または、読解支援などを実施可能にすることができる。情報処理装置100は、例えば、人が、化学分野の特許文献や技術論文などの技術文書を読解する際に、技術文書に記載された抽象化合物名から、化合物の分子式や分子量、または、化合物の機能や用途などを検索可能にすることができる。 As a result, the information processing apparatus 100 can find the node corresponding to the first compound name nq even if the node directly indicating the first compound name nq does not exist. Therefore, the information processing apparatus 100 can use the graph G to enable information retrieval, information analysis, reading comprehension support, and the like. In the information processing apparatus 100, for example, when a person reads a technical document such as a patent document or a technical paper in the field of chemistry, the molecular formula or molecular weight of the compound or the molecular weight of the compound is determined from the abstract compound name described in the technical document. Functions and uses can be searched.

(サービス提供システム200の一例)
次に、図2を用いて、図1に示した情報処理装置100を適用し、ナレッジグラフを利用して、情報検索、情報解析、または、読解支援などのサービスを提供するサービス提供システム200の一例について説明する。
(Example of service providing system 200)
Next, using FIG. 2, the information processing apparatus 100 shown in FIG. 1 is applied, and the service providing system 200 that provides services such as information retrieval, information analysis, or reading comprehension support using the knowledge graph. An example will be described.

図2は、サービス提供システム200の一例を示す説明図である。図2において、サービス提供システム200は、情報処理装置100と、1以上のクライアント装置201とを含む。 FIG. 2 is an explanatory diagram showing an example of the service providing system 200. In FIG. 2, the service providing system 200 includes an information processing device 100 and one or more client devices 201.

サービス提供システム200において、情報処理装置100とクライアント装置201とは、有線または無線のネットワーク210を介して接続される。ネットワーク210は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどである。 In the service providing system 200, the information processing device 100 and the client device 201 are connected via a wired or wireless network 210. The network 210 is, for example, a LAN (Local Area Network), a WAN (Wide Area Network), the Internet, or the like.

情報処理装置100は、ナレッジグラフを生成し、図4に後述するグラフ情報テーブル400を用いて記憶するコンピュータである。グラフ情報テーブル400は、例えば、RDF(Resource Description Framework)の形式で、ナレッジグラフを記憶する。情報処理装置100は、例えば、図5に後述する辞書情報を参照し、化合物名を示すノードを生成する。また、情報処理装置100は、例えば、化合物名から抽象化合物名を特定し、抽象化合物名を示すノードを生成する。 The information processing device 100 is a computer that generates a knowledge graph and stores it using the graph information table 400 described later in FIG. The graph information table 400 stores a knowledge graph in the form of, for example, RDF (Resource Description Framework). The information processing apparatus 100 refers to, for example, the dictionary information described later in FIG. 5 to generate a node indicating a compound name. Further, the information processing apparatus 100 identifies the abstract compound name from the compound name, for example, and generates a node indicating the abstract compound name.

情報処理装置100は、生成した化合物名を示すノード、および、抽象化合物名を示すノードについて、ノード間をリンク付けすることにより、ナレッジグラフを生成する。そして、情報処理装置100は、ナレッジグラフを利用し、化合物名を示すノード、または、抽象化合物名を示すノードを検索することにより、情報検索、情報解析、または読解支援などのサービスを、クライアント装置201を介してサービス利用者に提供する。情報処理装置100は、例えば、サーバやPC(Personal Computer)などである。 The information processing apparatus 100 generates a knowledge graph by linking the generated node indicating the compound name and the node indicating the abstract compound name between the nodes. Then, the information processing apparatus 100 provides services such as information retrieval, information analysis, or reading comprehension support by searching for a node indicating a compound name or a node indicating an abstract compound name using a knowledge graph. It is provided to the service user via 201. The information processing device 100 is, for example, a server, a PC (Personal Computer), or the like.

クライアント装置201は、サービス利用者が用いるコンピュータである。クライアント装置201は、例えば、サービス利用者の操作入力に基づいて、情報処理装置100と通信し、化合物に関する情報を表示する。クライアント装置201は、例えば、PC、タブレット端末、または、スマートフォンなどである。 The client device 201 is a computer used by the service user. The client device 201 communicates with the information processing device 100 and displays information about the compound, for example, based on the operation input of the service user. The client device 201 is, for example, a PC, a tablet terminal, a smartphone, or the like.

具体的には、サービス利用者が、技術文書に記載された所定の抽象化合物名を検索しようとする場合が考えられる。この場合、情報処理装置100は、所定の抽象化合物名を検索し、所定の抽象化合物名に関する情報を検索し、所定の抽象化合物名に関する情報を、クライアント装置201を介して、サービス利用者に提供することができる。抽象化合物名に関する情報は、抽象化合物名が包含する化合物名、抽象化合物名が包含する化合物名に対応する化合物の分子式や分子量、または、化合物の機能や用途などである。 Specifically, a service user may try to search for a predetermined abstract compound name described in a technical document. In this case, the information processing device 100 searches for a predetermined abstract compound name, searches for information on the predetermined abstract compound name, and provides information on the predetermined abstract compound name to the service user via the client device 201. can do. Information on the abstract compound name includes the compound name included in the abstract compound name, the molecular formula and molecular weight of the compound corresponding to the compound name included in the abstract compound name, or the function and use of the compound.

具体的には、情報処理装置100が、自動で、技術文書に記載された所定の抽象化合物名に関する情報を解析し、所定の抽象化合物名に対応付けて記憶する場合が考えられる。この場合、情報処理装置100は、所定の抽象化合物名に関する情報を、精度よく特定して記憶しておくことができる。 Specifically, it is conceivable that the information processing apparatus 100 automatically analyzes the information regarding the predetermined abstract compound name described in the technical document and stores the information in association with the predetermined abstract compound name. In this case, the information processing apparatus 100 can accurately identify and store information regarding a predetermined abstract compound name.

ここでは、情報処理装置100が、クライアント装置201とは別の装置である場合について説明したが、これに限らない。例えば、情報処理装置100が、クライアント装置201と一体である場合があってもよい。 Here, the case where the information processing device 100 is a device different from the client device 201 has been described, but the present invention is not limited to this. For example, the information processing device 100 may be integrated with the client device 201.

ここでは、情報処理装置100が、ナレッジグラフを生成し、サービスを提供する場合について説明したが、これに限らない。例えば、情報処理装置100とは異なる装置が、ナレッジグラフを生成し、情報処理装置100が、ナレッジグラフを取得して、サービスを提供する場合があってもよい。 Here, the case where the information processing apparatus 100 generates the knowledge graph and provides the service has been described, but the present invention is not limited to this. For example, a device different from the information processing device 100 may generate a knowledge graph, and the information processing device 100 may acquire the knowledge graph and provide a service.

(情報処理装置100のハードウェア構成例)
次に、図3を用いて、情報処理装置100のハードウェア構成例について説明する。
(Example of hardware configuration of information processing device 100)
Next, a hardware configuration example of the information processing apparatus 100 will be described with reference to FIG.

図3は、情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、メモリ302と、ネットワークI/F(Interface)303と、記録媒体I/F304と、記録媒体305とを有する。また、各構成部は、バス300によってそれぞれ接続される。 FIG. 3 is a block diagram showing a hardware configuration example of the information processing device 100. In FIG. 3, the information processing apparatus 100 includes a CPU (Central Processing Unit) 301, a memory 302, a network I / F (Interface) 303, a recording medium I / F 304, and a recording medium 305. Further, each component is connected by a bus 300.

ここで、CPU301は、情報処理装置100の全体の制御を司る。メモリ302は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)およびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU301のワークエリアとして使用される。メモリ302に記憶されるプログラムは、CPU301にロードされることで、コーディングされている処理をCPU301に実行させる。 Here, the CPU 301 controls the entire information processing apparatus 100. The memory 302 includes, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a flash ROM, and the like. Specifically, for example, a flash ROM or ROM stores various programs, and RAM is used as a work area of CPU 301. The program stored in the memory 302 is loaded into the CPU 301 to cause the CPU 301 to execute the coded process.

ネットワークI/F303は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F303は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F303は、例えば、モデムやLANアダプタなどである。 The network I / F 303 is connected to the network 210 through a communication line, and is connected to another computer via the network 210. Then, the network I / F 303 controls the internal interface with the network 210 and controls the input / output of data from another computer. The network I / F 303 is, for example, a modem or a LAN adapter.

記録媒体I/F304は、CPU301の制御に従って記録媒体305に対するデータのリード/ライトを制御する。記録媒体I/F304は、例えば、ディスクドライブ、SSD(Solid State Drive)、USB(Universal Serial Bus)ポートなどである。記録媒体305は、記録媒体I/F304の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体305は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体305は、情報処理装置100から着脱可能であってもよい。 The recording medium I / F 304 controls read / write of data to the recording medium 305 according to the control of the CPU 301. The recording medium I / F 304 is, for example, a disk drive, an SSD (Solid State Drive), a USB (Universal Serial Bus) port, or the like. The recording medium 305 is a non-volatile memory that stores data written under the control of the recording medium I / F 304. The recording medium 305 is, for example, a disk, a semiconductor memory, a USB memory, or the like. The recording medium 305 may be detachable from the information processing device 100.

情報処理装置100は、上述した構成部のほか、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を複数有していてもよい。また、情報処理装置100は、記録媒体I/F304や記録媒体305を有していなくてもよい。 The information processing device 100 may include, for example, a keyboard, a mouse, a display, a printer, a scanner, a microphone, a speaker, and the like, in addition to the above-described components. Further, the information processing apparatus 100 may have a plurality of recording media I / F 304 and recording media 305. Further, the information processing device 100 does not have to have the recording medium I / F 304 or the recording medium 305.

(グラフ情報テーブル400のデータ構造)
次に、図4を用いて、グラフ情報テーブル400のデータ構造の一例について説明する。グラフ情報テーブル400は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
(Data structure of graph information table 400)
Next, an example of the data structure of the graph information table 400 will be described with reference to FIG. The graph information table 400 is realized, for example, by a storage area such as a memory 302 or a recording medium 305 of the information processing apparatus 100 shown in FIG.

図4は、グラフ情報テーブル400のデータ構造の一例を示す説明図である。図4に示すように、グラフ情報テーブル400は、主語と、述語と、目的語とのフィールドを有する。グラフ情報テーブル400は、各フィールドに情報が設定されることにより、グラフ情報をレコードとして記憶する。 FIG. 4 is an explanatory diagram showing an example of the data structure of the graph information table 400. As shown in FIG. 4, the graph information table 400 has fields for a subject, a predicate, and an object. The graph information table 400 stores graph information as a record by setting information in each field.

主語のフィールドには、ナレッジグラフに含まれるノードを識別するラベルが設定される。ラベルは、化学分野に関する単語である。ラベルは、例えば、具体的な化合物名、または、抽象化合物名である。ラベルは、例えば、化合物の分子式や分子量、または、化合物の機能や用途などであってもよい。目的語のフィールドには、ナレッジグラフに含まれるノードを識別するラベルが設定される。 The subject field is set with a label that identifies the node contained in the Knowledge Graph. Labels are words related to the field of chemistry. The label is, for example, a specific compound name or an abstract compound name. The label may be, for example, the molecular formula or molecular weight of the compound, or the function or use of the compound. The object field is set with a label that identifies the node contained in the Knowledge Graph.

主語および目的語のフィールドには、URI(Uniform Resource Identifier)が設定されてもよい。述語のフィールドには、ノード間の関係性を示す述語が設定される。述語は、例えば、主語のフィールドに設定されたURIと、目的語のフィールドに設定されたURIとの関係性を示す。述語は、例えば、「label」、「is−a」や「same−as」などである。 URI (Uniform Resource Identifier) may be set in the fields of the subject and the object. In the predicate field, a predicate indicating the relationship between the nodes is set. The predicate indicates, for example, the relationship between the URI set in the subject field and the URI set in the object field. The predicate is, for example, "label", "is-a", "same-as", and the like.

「label」は、主語のフィールドのURIが、目的語のフィールドの化合物名に付与された表記であることを示す。「is−a」は、主語のフィールドのURIが、目的語のフィールドのURIの下位に包含されることを示す。「is−a」は、例えば、具体的な化合物名に付与されたURIが、抽象化合物名に付与されたURIの下位に包含されることを示す。「same−as」は、URI間に同義関係が成立することを示す。 “Label” indicates that the URI of the subject field is the notation given to the compound name of the object field. “Is-a” indicates that the URI of the subject field is included under the URI of the object field. “Is-a” indicates, for example, that the URI assigned to the specific compound name is included in the subordinate of the URI assigned to the abstract compound name. “Same-as” indicates that a synonymous relationship is established between URIs.

(辞書テーブル500のデータ構造)
次に、図5を用いて、辞書テーブル500のデータ構造の一例について説明する。辞書テーブル500は、例えば、図3に示した情報処理装置100のメモリ302や記録媒体305などの記憶領域により実現される。
(Data structure of dictionary table 500)
Next, an example of the data structure of the dictionary table 500 will be described with reference to FIG. The dictionary table 500 is realized, for example, by a storage area such as a memory 302 or a recording medium 305 of the information processing apparatus 100 shown in FIG.

図5は、辞書テーブル500のデータ構造の一例を示す説明図である。図5に示すように、辞書テーブル500は、化合物名と、URIとのフィールドを有する。辞書テーブル500は、各フィールドに情報が設定されることにより、辞書情報をレコードとして記憶する。 FIG. 5 is an explanatory diagram showing an example of the data structure of the dictionary table 500. As shown in FIG. 5, the dictionary table 500 has fields for compound names and URIs. The dictionary table 500 stores the dictionary information as a record by setting the information in each field.

化合物名のフィールドには、化合物名が設定される。URIのフィールドには、化合物名に予め付与されたURIが設定される。情報処理装置100は、辞書テーブル500ではなく、既存のナレッジグラフを記憶してもよい。 The compound name is set in the compound name field. In the field of URI, the URI previously assigned to the compound name is set. The information processing apparatus 100 may store an existing knowledge graph instead of the dictionary table 500.

(クライアント装置201のハードウェア構成例)
次に、図6を用いて、図2に示したサービス提供システム200に含まれるクライアント装置201のハードウェア構成例について説明する。
(Example of hardware configuration of client device 201)
Next, a hardware configuration example of the client device 201 included in the service providing system 200 shown in FIG. 2 will be described with reference to FIG.

図6は、クライアント装置201のハードウェア構成例を示すブロック図である。図6において、クライアント装置201は、CPU601と、メモリ602と、ネットワークI/F603と、記録媒体I/F604と、記録媒体605と、ディスプレイ606と、入力装置607とを有する。また、各構成部は、バス600によってそれぞれ接続される。 FIG. 6 is a block diagram showing a hardware configuration example of the client device 201. In FIG. 6, the client device 201 includes a CPU 601, a memory 602, a network I / F 603, a recording medium I / F 604, a recording medium 605, a display 606, and an input device 607. Further, each component is connected by a bus 600.

ここで、CPU601は、クライアント装置201の全体の制御を司る。メモリ602は、例えば、ROM、RAMおよびフラッシュROMなどを有する。具体的には、例えば、フラッシュROMやROMが各種プログラムを記憶し、RAMがCPU601のワークエリアとして使用される。メモリ602に記憶されるプログラムは、CPU601にロードされることで、コーディングされている処理をCPU601に実行させる。 Here, the CPU 601 controls the entire client device 201. The memory 602 includes, for example, a ROM, a RAM, a flash ROM, and the like. Specifically, for example, a flash ROM or ROM stores various programs, and RAM is used as a work area of CPU 601. The program stored in the memory 602 is loaded into the CPU 601 to cause the CPU 601 to execute the coded process.

ネットワークI/F603は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して他のコンピュータに接続される。そして、ネットワークI/F603は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークI/F603は、例えば、モデムやLANアダプタなどである。 The network I / F 603 is connected to the network 210 through a communication line, and is connected to another computer via the network 210. Then, the network I / F 603 controls the internal interface with the network 210 and controls the input / output of data from another computer. The network I / F 603 is, for example, a modem or a LAN adapter.

記録媒体I/F604は、CPU601の制御に従って記録媒体605に対するデータのリード/ライトを制御する。記録媒体I/F604は、例えば、ディスクドライブ、SSD、USBポートなどである。記録媒体605は、記録媒体I/F604の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体605は、例えば、ディスク、半導体メモリ、USBメモリなどである。記録媒体605は、クライアント装置201から着脱可能であってもよい。 The recording medium I / F 604 controls read / write of data to the recording medium 605 according to the control of the CPU 601. The recording medium I / F 604 is, for example, a disk drive, an SSD, a USB port, or the like. The recording medium 605 is a non-volatile memory that stores data written under the control of the recording medium I / F 604. The recording medium 605 is, for example, a disk, a semiconductor memory, a USB memory, or the like. The recording medium 605 may be detachable from the client device 201.

ディスプレイ606は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。ディスプレイ606は、例えば、CRT(Cathode Ray Tube)、液晶ディスプレイ、有機EL(Electroluminescence)ディスプレイなどである。入力装置607は、文字、数字、各種指示などの入力のためのキーを有し、データの入力を行う。入力装置607は、キーボードやマウスなどであってもよく、また、タッチパネル式の入力パッドやテンキーなどであってもよい。 The display 606 displays data such as a cursor, an icon, a toolbox, a document, an image, and functional information. The display 606 is, for example, a CRT (Cathode Ray Tube), a liquid crystal display, an organic EL (Electroluminescence) display, or the like. The input device 607 has keys for inputting characters, numbers, various instructions, and the like, and inputs data. The input device 607 may be a keyboard, a mouse, or the like, or may be a touch panel type input pad, a numeric keypad, or the like.

クライアント装置201は、上述した構成部の他、例えば、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、クライアント装置201は、記録媒体I/F604や記録媒体605を複数有していてもよい。また、クライアント装置201は、記録媒体I/F604や記録媒体605を有していなくてもよい。 The client device 201 may include, for example, a printer, a scanner, a microphone, a speaker, and the like, in addition to the above-described components. Further, the client device 201 may have a plurality of recording media I / F 604 and recording media 605. Further, the client device 201 does not have to have the recording medium I / F 604 or the recording medium 605.

(情報処理装置100の機能的構成例)
次に、図7を用いて、情報処理装置100の機能的構成例について説明する。
(Example of functional configuration of information processing device 100)
Next, a functional configuration example of the information processing apparatus 100 will be described with reference to FIG. 7.

図7は、情報処理装置100の機能的構成例を示すブロック図である。情報処理装置100は、記憶部700と、取得部701と、第1の生成部702と、第2の生成部703と、第1の検索部704と、第2の検索部705と、出力部706とを含む。 FIG. 7 is a block diagram showing a functional configuration example of the information processing apparatus 100. The information processing device 100 includes a storage unit 700, an acquisition unit 701, a first generation unit 702, a second generation unit 703, a first search unit 704, a second search unit 705, and an output unit. 706 and is included.

記憶部700は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域によって実現される。以下では、記憶部700が、情報処理装置100に含まれる場合について説明するが、これに限らない。例えば、記憶部700が、情報処理装置100とは異なる装置に含まれ、記憶部700の記憶内容が情報処理装置100から参照可能である場合があってもよい。 The storage unit 700 is realized by, for example, a storage area such as the memory 302 or the recording medium 305 shown in FIG. Hereinafter, the case where the storage unit 700 is included in the information processing device 100 will be described, but the present invention is not limited to this. For example, the storage unit 700 may be included in a device different from the information processing device 100, and the stored contents of the storage unit 700 may be referred to by the information processing device 100.

取得部701〜出力部706は、制御部の一例として機能する。取得部701〜出力部706は、具体的には、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶されたプログラムをCPU301に実行させることにより、または、ネットワークI/F303により、その機能を実現する。各機能部の処理結果は、例えば、図3に示したメモリ302や記録媒体305などの記憶領域に記憶される。 The acquisition unit 701 to the output unit 706 function as an example of the control unit. Specifically, the acquisition units 701 to the output unit 706 are made by causing the CPU 301 to execute a program stored in a storage area such as the memory 302 or the recording medium 305 shown in FIG. 3, or the network I / F 303. To realize the function. The processing result of each functional unit is stored in a storage area such as the memory 302 or the recording medium 305 shown in FIG. 3, for example.

記憶部700は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部700は、ナレッジグラフを記憶可能である。記憶部700は、例えば、図4に示したグラフ情報テーブル400を用いて、ナレッジグラフを記憶する。記憶部700は、具体的には、図4に示したグラフ情報テーブル400を用いて、ナレッジグラフに含まれるノードに付与されたラベルと、ラベル間の関係性とを記憶する。 The storage unit 700 stores various information referred to or updated in the processing of each functional unit. The storage unit 700 can store the knowledge graph. The storage unit 700 stores the knowledge graph using, for example, the graph information table 400 shown in FIG. Specifically, the storage unit 700 uses the graph information table 400 shown in FIG. 4 to store the labels given to the nodes included in the knowledge graph and the relationships between the labels.

また、記憶部700は、例えば、化合物名を示す辞書を記憶してもよい。記憶部700は、具体的には、図5に示した辞書テーブル500を記憶する。また、記憶部700は、例えば、文章集合を記憶してもよい。文章集合は、例えば、コーパスである。 Further, the storage unit 700 may store, for example, a dictionary showing the compound name. Specifically, the storage unit 700 stores the dictionary table 500 shown in FIG. Further, the storage unit 700 may store, for example, a sentence set. The sentence set is, for example, a corpus.

取得部701は、各機能部の処理に用いられる各種情報を取得する。取得部701は、取得した各種情報を、記憶部700に記憶し、または、各機能部に出力する。また、取得部701は、記憶部700に記憶しておいた各種情報を、各機能部に出力してもよい。取得部701は、例えば、利用者の操作入力に基づき、各種情報を取得する。取得部701は、例えば、情報処理装置100とは異なる装置から、各種情報を受信してもよい。 The acquisition unit 701 acquires various information used for processing of each functional unit. The acquisition unit 701 stores various acquired information in the storage unit 700 or outputs the acquired information to each function unit. Further, the acquisition unit 701 may output various information stored in the storage unit 700 to each function unit. The acquisition unit 701 acquires various information based on, for example, the operation input of the user. The acquisition unit 701 may receive various information from a device different from the information processing device 100, for example.

取得部701は、例えば、辞書および文章集合を取得する。取得部701は、より具体的には、辞書テーブル500と、コーパスとを取得する。これにより、取得部701は、化合物名を示すノードを自動生成するための指標となる情報を取得し、各機能部に提供することができる。取得部701は、例えば、化合物名を示すノードを生成可能に、第1の生成部702に辞書および文章集合を提供することができる。 The acquisition unit 701 acquires, for example, a dictionary and a sentence set. More specifically, the acquisition unit 701 acquires the dictionary table 500 and the corpus. As a result, the acquisition unit 701 can acquire information as an index for automatically generating a node indicating the compound name and provide it to each functional unit. The acquisition unit 701 can provide a dictionary and a sentence set to the first generation unit 702 so that, for example, a node indicating a compound name can be generated.

また、取得部701は、例えば、第1の生成部702で化合物名を示すノードを生成しない場合には、既存のナレッジグラフから、化合物名を示すノードを取得してもよい。これにより、取得部701は、第1の生成部702で化合物名を示すノードを生成しなくても、第2の生成部703で抽象化合物名を特定可能に、第2の生成部703に化合物名を示すノードを提供することができる。 Further, for example, when the acquisition unit 701 does not generate the node indicating the compound name in the first generation unit 702, the acquisition unit 701 may acquire the node indicating the compound name from the existing knowledge graph. As a result, the acquisition unit 701 can specify the abstract compound name in the second generation unit 703 without generating the node indicating the compound name in the first generation unit 702, and the compound in the second generation unit 703. A node indicating the name can be provided.

また、取得部701は、第1の化合物名に関する検索クエリを取得する。第1の化合物名は、具体的な化合物名、または、抽象化合物名である。これにより、取得部701は、第1の検索部704および第2の検索部705で、検索対象とする第1の化合物名を特定可能にすることができ、第1の検索部704および第2の検索部705に動作を開始させることができる。 In addition, the acquisition unit 701 acquires a search query relating to the first compound name. The first compound name is a specific compound name or an abstract compound name. As a result, the acquisition unit 701 can specify the name of the first compound to be searched by the first search unit 704 and the second search unit 705, and the first search unit 704 and the second search unit 704 and the second. The search unit 705 of the above can start the operation.

第1の生成部702は、文章集合から、化合物名としての条件を満たす複数の文字列を抽出する。第1の生成部702は、例えば、コーパスから、カタカナ、アルファベット、数字、記号、および、一部の漢字などの特定の文字が連続する文字列を、化合物名の候補として抽出する。第1の生成部702は、具体的には、文字列「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」などを、化合物名の候補として抽出する。化合物名の候補として、複数の文字列を抽出する一例については、図10を用いて後述する。これにより、第1の生成部702は、化合物名の候補を抽出し、化合物名を示すノードを生成する指標を取得することができる。 The first generation unit 702 extracts a plurality of character strings satisfying the conditions as the compound name from the sentence set. The first generation unit 702 extracts, for example, a character string in which specific characters such as katakana, alphabets, numbers, symbols, and some Chinese characters are continuous from the corpus as candidates for compound names. Specifically, the first generation unit 702 extracts the character string "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on" as a candidate for the compound name. To do. An example of extracting a plurality of character strings as candidate compound names will be described later with reference to FIG. As a result, the first generation unit 702 can extract the candidate of the compound name and acquire the index for generating the node indicating the compound name.

第1の生成部702は、化合物名を記憶する辞書情報を参照して、抽出した複数の文字列のうち、化合物名であると判定した文字列を示すノードを生成し、生成したノードを含むナレッジグラフを生成する。第1の生成部702は、例えば、抽出した化合物名の候補のうち、辞書テーブル500に登録された化合物名と一致する候補を化合物名と判定し、辞書テーブル500に登録されたURIを付与する。そして、第1の生成部702は、化合物名に付与したURIを、グラフ情報テーブル400を用いて記憶し、化合物名を示すノードを含むナレッジグラフを生成する。第1の生成部702は、具体的には、化合物名の候補「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を化合物名と判定し、URIを付与する。 The first generation unit 702 generates a node indicating a character string determined to be a compound name from a plurality of extracted character strings by referring to dictionary information for storing the compound name, and includes the generated node. Generate a knowledge graph. The first generation unit 702 determines, for example, among the extracted compound name candidates that match the compound name registered in the dictionary table 500 as the compound name, and assigns the URI registered in the dictionary table 500. .. Then, the first generation unit 702 stores the URI assigned to the compound name using the graph information table 400, and generates a knowledge graph including a node indicating the compound name. Specifically, the first generation unit 702 determines that the compound name candidate "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -one" is the compound name. Give URI.

これにより、第1の生成部702は、ナレッジグラフに含める化合物名を示すノードを生成することができ、ナレッジグラフを生成することができる。また、第1の生成部702は、例えば、コーパスに基づき化合物名を示すノードを生成するため、化合物名を示すノードの数の膨大化を抑制することができる。第1の生成部702は、具体的には、サービス利用者が技術文書を閲覧する際に技術文書に出現しやすいと判断される化合物名を示すノードであり、サービスに利用する観点からナレッジグラフに含むことが好ましい化合物名を示すノードを生成することができる。 As a result, the first generation unit 702 can generate a node indicating the compound name to be included in the knowledge graph, and can generate the knowledge graph. Further, since the first generation unit 702 generates a node indicating the compound name based on the corpus, for example, it is possible to suppress an enormous increase in the number of nodes indicating the compound name. Specifically, the first generation unit 702 is a node indicating a compound name that is determined to be likely to appear in the technical document when the service user browses the technical document, and is a knowledge graph from the viewpoint of using the service. It is possible to generate a node indicating a compound name preferably contained in.

ここでは、第1の生成部702が、コーパスおよび辞書情報を参照して、ナレッジグラフを生成する場合について説明したが、これに限らない。例えば、第1の生成部702が、取得部701が取得した1以上のノードを含むナレッジグラフを生成する場合があってもよい。 Here, the case where the first generation unit 702 generates the knowledge graph by referring to the corpus and dictionary information has been described, but the present invention is not limited to this. For example, the first generation unit 702 may generate a knowledge graph including one or more nodes acquired by the acquisition unit 701.

第2の生成部703は、生成したナレッジグラフ内のいずれかのノードが示す化合物名から置換基の結合位置を示す文字列を除去した抽象化合物名を示す新たなノードを生成し、いずれかのノードの上位にリンク付けして、ナレッジグラフに追加する。 The second generation unit 703 generates a new node indicating the abstract compound name by removing the character string indicating the bonding position of the substituent from the compound name indicated by any node in the generated knowledge graph, and generates one of the nodes. Link to the top of the node and add it to the Knowledge Graph.

第2の生成部703は、例えば、生成したナレッジグラフ内のいずれかのノードを選択する。次に、第2の生成部703は、選択したいずれかのノードが示す化合物名から、置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を除去した抽象化合物名を示す新たなノードを生成する。除去する文字列は、具体的には、1以上の数字を所定の記号で区切って、1以上の数字のそれぞれにより1以上の置換基のそれぞれの結合位置を示した文字列である。そして、第2の生成部703は、生成した新たなノードを、選択したいずれかのノードの上位にリンク付けして、ナレッジグラフに追加する。 The second generation unit 703 selects, for example, any node in the generated knowledge graph. Next, the second generation unit 703 removes a character string that is a combination of one or more numbers indicating the bonding position of the substituent and a predetermined symbol from the compound name indicated by any of the selected nodes. Create a new node that indicates. Specifically, the character string to be removed is a character string in which one or more numbers are separated by a predetermined symbol, and each of the one or more numbers indicates the bonding position of one or more substituents. Then, the second generation unit 703 links the generated new node to the upper level of any of the selected nodes and adds it to the knowledge graph.

第2の生成部703は、具体的には、生成したナレッジグラフ内の、化合物名「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を示すノードを選択する。次に、第2の生成部703は、選択したノードが示す化合物名「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」から、1以上の数字を所定の記号で区切った文字列「4,5」を除去した抽象化合物名「5−(3,4−ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」を特定する。そして、第2の生成部703は、特定した抽象化合物名「5−(3,4−ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」を示す新たなノードを生成し、選択したノードの上位にリンク付けして、ナレッジグラフに追加する。 The second generation unit 703 specifically indicates the compound name "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -one" in the generated knowledge graph. Select a node. Next, the second generation unit 703 has a number of 1 or more from the compound name "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on" indicated by the selected node. The abstract compound name "5- (3,4-dihydroxybenzyl) -dihydrofuran-2 (3H) -on" from which the character string "4,5" separated by a predetermined symbol is removed is specified. Then, the second generation unit 703 generates a new node having the specified abstract compound name "5- (3,4-dihydroxybenzyl) -dihydrofuran-2 (3H) -on", and of the selected node. Link to the top and add to the knowledge graph.

第2の生成部703は、より具体的には、化合物名「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を示すノードに付与されたURIに、「is−a」の関係性で、抽象化合物名「5−(3,4−ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」に付与されたURIをリンク付けする。そして、第2の生成部703は、リンク付けした結果を、グラフ情報テーブル400を用いて記憶する。 More specifically, the second generator 703 is assigned to the node having the compound name "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on". Is linked to the URI assigned to the abstract compound name "5- (3,4-dihydroxybenzyl) -dihydrofuran-2 (3H) -on" in relation to "is-a". Then, the second generation unit 703 stores the linked result by using the graph information table 400.

また、第2の生成部703は、具体的には、選択したノードが示す化合物名「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」から、1以上の数字を所定の記号で区切った文字列「3,4」を除去した抽象化合物名「5−(ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」を特定してもよい。そして、第2の生成部703は、特定した抽象化合物名「5−(ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」を示す新たなノードを生成し、選択したノードの上位にリンク付けして、ナレッジグラフに追加する。抽象化合物名を特定する一例については、図11および図12を用いて後述する。これにより、第2の生成部703は、抽象化合物名を特定し、抽象化合物名を示すノードを生成し、ナレッジグラフに追加することができる。 In addition, the second generation unit 703 specifically, from the compound name "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on" indicated by the selected node. The abstract compound name "5- (dihydroxybenzyl) -dihydrofuran-2 (3H) -on" may be specified by removing the character string "3, 4" in which one or more numbers are separated by a predetermined symbol. Then, the second generation unit 703 generates a new node showing the specified abstract compound name "5- (dihydroxybenzyl) -dihydrofuran-2 (3H) -on" and links it to the upper part of the selected node. And add it to the knowledge graph. An example of specifying the abstract compound name will be described later with reference to FIGS. 11 and 12. As a result, the second generation unit 703 can specify the abstract compound name, generate a node indicating the abstract compound name, and add it to the knowledge graph.

第2の生成部703は、例えば、ナレッジグラフに追加した新たなノードを選択し、再帰的に、抽象化合物名を特定し、特定した抽象化合物名を示す新たなノードを生成してもよい。第2の生成部703は、具体的には、ナレッジグラフ内の、抽象化合物名「5−(3,4−ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」を示すノードを選択する。次に、第2の生成部703は、選択したノードが示す抽象化合物名「5−(3,4−ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」から、1以上の数字を所定の記号で区切った文字列「3,4」を除去した抽象化合物名「5−(ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」を特定する。そして、第2の生成部703は、特定した抽象化合物名「5−(ジヒドロキシベンジル)−ジヒドロフラン−2(3H)−オン」を示す新たなノードを生成し、選択したノードの上位にリンク付けして、ナレッジグラフに追加する。これにより、第2の生成部703は、抽象化合物名を再帰的に特定し、抽象化合物名を示すノードを生成し、さらにナレッジグラフに追加することができる。 The second generation unit 703 may select, for example, a new node added to the knowledge graph, recursively specify the abstract compound name, and generate a new node indicating the specified abstract compound name. Specifically, the second generation unit 703 selects a node in the knowledge graph showing the abstract compound name "5- (3,4-dihydroxybenzyl) -dihydrofuran-2 (3H) -on". Next, the second generation unit 703 predetermined a number of 1 or more from the abstract compound name "5- (3,4-dihydroxybenzyl) -dihydrofuran-2 (3H) -on" indicated by the selected node. The abstract compound name "5- (dihydroxybenzyl) -dihydrofuran-2 (3H) -on" from which the character string "3,4" separated by a symbol is removed is specified. Then, the second generation unit 703 generates a new node showing the specified abstract compound name "5- (dihydroxybenzyl) -dihydrofuran-2 (3H) -on" and links it to the upper part of the selected node. And add it to the knowledge graph. As a result, the second generation unit 703 can recursively specify the abstract compound name, generate a node indicating the abstract compound name, and further add it to the knowledge graph.

第2の生成部703は、生成したナレッジグラフ内に、置換基の結合位置を示す文字列を除去すると、特定した抽象化合物名と同じ抽象化合物名になる化合物名を示すノードが、所定の数以上存在するか否かを判定してもよい。所定の数は、例えば、2である。また、第2の生成部703は、置換基の結合位置を示す文字列を除去すると、特定した抽象化合物名との間で、対応する構造情報に同義関係が成立する抽象化合物名を示すノードが、所定の数以上存在するか否かを判定してもよい。構造情報は、例えば、示性式である。構造情報は、構造を表す表記法、例えば、SMILES、InChIなどに基づく情報であってもよい。 In the generated knowledge graph, the second generation unit 703 has a predetermined number of nodes indicating the compound name that becomes the same abstract compound name as the specified abstract compound name when the character string indicating the bonding position of the substituent is removed. It may be determined whether or not the above exists. The predetermined number is, for example, 2. Further, in the second generation unit 703, when the character string indicating the bonding position of the substituent is removed, the node indicating the abstract compound name that establishes a synonymous relationship with the specified abstract compound name in the corresponding structural information is generated. , It may be determined whether or not there are more than a predetermined number. The structural information is, for example, a demonstrative expression. The structural information may be information based on a notation representing the structure, for example, SMILES, InChI, or the like.

そして、第2の生成部703は、所定の数以上存在する場合に、特定した抽象化合物名を示す新たなノードを生成する。一方で、第2の生成部703は、所定の数以上存在しない場合には、特定した抽象化合物名を示す新たなノードを生成しなくてよい。これにより、第2の生成部703は、抽象化合物名を示すノードの数の膨大化を抑制することができる。ここで、例えば、抽象化合物名の下位に包含される化合物名が1つである場合、第2の生成部703が、抽象化合物名を示すノードを生成しても、サービスに活用されにくいことが考えられる。このため、第2の生成部703は、サービスに活用されにくい抽象化合物名を示すノードを生成せず、ナレッジグラフのサイズの増大化を抑制し、サービスを効率よく提供可能にすることができる。 Then, the second generation unit 703 generates a new node indicating the specified abstract compound name when there are a predetermined number or more. On the other hand, the second generation unit 703 does not have to generate a new node indicating the specified abstract compound name when the number does not exist in a predetermined number or more. As a result, the second generation unit 703 can suppress the enormous number of nodes indicating the abstract compound name. Here, for example, when there is one compound name included under the abstract compound name, even if the second generation unit 703 generates a node indicating the abstract compound name, it may be difficult to utilize it for the service. Conceivable. Therefore, the second generation unit 703 does not generate a node indicating an abstract compound name that is difficult to be used for the service, suppresses an increase in the size of the knowledge graph, and can efficiently provide the service.

第2の生成部703は、文章集合に、いずれかのノードが示す化合物名から置換基の結合位置を示す文字列を除去した抽象化合物名が閾値以上出現する場合に、抽象化合物名を示す新たなノードを生成してもよい。閾値は、例えば、1である。これにより、第2の生成部703は、抽象化合物名を示すノードの数の膨大化を抑制することができる。第2の生成部703は、例えば、サービス利用者が技術文書を閲覧する際に技術文書に出現しやすいと判断される抽象化合物名を示すノードを生成しやすくすることができる。また、第2の生成部703は、例えば、サービスに利用する観点からナレッジグラフに含むことが好ましい抽象化合物名を示すノードを生成しやすくすることができる。 The second generation unit 703 indicates a new abstract compound name when an abstract compound name obtained by removing the character string indicating the bonding position of the substituent from the compound name indicated by any node appears in the sentence set above the threshold value. Nodes may be created. The threshold is, for example, 1. As a result, the second generation unit 703 can suppress the enormous number of nodes indicating the abstract compound name. The second generation unit 703 can easily generate, for example, a node indicating an abstract compound name that is determined to be likely to appear in the technical document when the service user browses the technical document. In addition, the second generation unit 703 can easily generate a node indicating an abstract compound name that is preferably included in the knowledge graph from the viewpoint of using it for a service, for example.

第2の生成部703は、同義関係が成立すると判定した抽象化合物名を示すノード同士をリンク付けしてもよい。第2の生成部703は、例えば、同義関係が成立すると判定した抽象化合物名に付与されたURI同士を、「same−as」の関係性でリンク付けし、グラフ情報テーブル400を用いて記憶する。これにより、第2の生成部703は、ナレッジグラフ上でノード間を適切にリンク付けすることができる。 The second generation unit 703 may link nodes indicating abstract compound names that are determined to have a synonymous relationship. For example, the second generation unit 703 links the URIs assigned to the abstract compound names determined to have a synonymous relationship with each other by the relationship of "same-as", and stores them using the graph information table 400. .. As a result, the second generation unit 703 can appropriately link the nodes on the knowledge graph.

第1の検索部704は、取得した検索クエリに基づいて、第1の化合物名に含まれる置換基の結合位置を示す文字列を特定する。第1の検索部704は、例えば、検索クエリが示す化合物名から、置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を除去した抽象化合物名を示す新たなノードを生成する。除去する文字列は、具体的には、1以上の数字を所定の記号で区切って、1以上の数字のそれぞれにより1以上の置換基のそれぞれの結合位置を示した文字列である。第1の検索部704は、具体的には、検索クエリが示す第1の化合物名「5−(3−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」に含まれる文字列「3−」を特定する。 The first search unit 704 identifies a character string indicating the binding position of the substituent contained in the first compound name based on the acquired search query. The first search unit 704 is, for example, a new node indicating an abstract compound name obtained by removing a character string obtained by combining a number 1 or more indicating a binding position of a substituent and a predetermined symbol from the compound name indicated by the search query. To generate. Specifically, the character string to be removed is a character string in which one or more numbers are separated by a predetermined symbol, and each of the one or more numbers indicates the bonding position of one or more substituents. Specifically, the first search unit 704 is the character included in the first compound name "5- (3-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on" indicated by the search query. Identify column "3-".

第1の検索部704は、第1の化合物名から、特定した文字列を除去した抽象化合物名を生成する。第1の検索部704は、具体的には、検索クエリが示す第1の化合物名「5−(3−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」から、特定した文字列「3−」を除去した抽象化合物名「5−(ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を生成する。 The first search unit 704 generates an abstract compound name obtained by removing the specified character string from the first compound name. Specifically, the first search unit 704 was identified from the first compound name "5- (3-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on" indicated by the search query. The abstract compound name "5- (dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -one" from which the character string "3-" is removed is generated.

第1の検索部704は、ナレッジグラフ内から、生成した抽象化合物名を示すノードを検索する。第1の検索部704は、具体的には、ナレッジグラフ内から、生成した抽象化合物名「5−(ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を示すノードを検索する。これにより、第1の検索部704は、ナレッジグラフ内に、取得した検索クエリが示す第1の化合物名を直接示すノードが存在しなくても、取得した検索クエリが示す第1の化合物名を包含する抽象化合物名を示すノードを発見することができる。 The first search unit 704 searches the knowledge graph for a node indicating the generated abstract compound name. Specifically, the first search unit 704 searches the knowledge graph for the node showing the generated abstract compound name "5- (dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on". To do. As a result, the first search unit 704 can obtain the first compound name indicated by the acquired search query even if there is no node in the knowledge graph that directly indicates the first compound name indicated by the acquired search query. You can find the node that indicates the name of the abstract compound to be included.

また、第1の検索部704は、ナレッジグラフ内から、取得した検索クエリが示す第1の化合物名を直接示すノードを検索してもよい。これにより、第1の検索部704は、ナレッジグラフ内に、取得した検索クエリが示す第1の化合物名を直接示すノードが存在すれば、取得した検索クエリが示す第1の化合物名を直接示すノードを発見することができる。 In addition, the first search unit 704 may search the knowledge graph for a node that directly indicates the first compound name indicated by the acquired search query. As a result, if there is a node in the knowledge graph that directly indicates the first compound name indicated by the acquired search query, the first search unit 704 directly indicates the first compound name indicated by the acquired search query. You can discover the node.

また、第1の検索部704は、抽象化合物名を示すノードを発見しない場合に、さらに、特定済みの文字列とは異なる、第1の化合物名に含まれる置換基の結合位置を示す文字列を特定してもよい。そして、第1の検索部704は、第1の化合物名から、特定した文字列をすべて除去した抽象化合物名を生成し、ナレッジグラフ内から、生成した抽象化合物名を示すノードを検索する。 Further, when the first search unit 704 does not find the node indicating the abstract compound name, the first search unit 704 further indicates a character string indicating the bonding position of the substituent contained in the first compound name, which is different from the identified character string. May be specified. Then, the first search unit 704 generates an abstract compound name by removing all the specified character strings from the first compound name, and searches the knowledge graph for a node indicating the generated abstract compound name.

第1の検索部704は、具体的には、抽象化合物名「5−(ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を示すノードを発見しない場合に、第1の化合物名「5−(3−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」に含まれる文字列「5−」を特定する。次に、第1の検索部704は、第1の化合物名「5−(3−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」から、特定した文字列「3−」および「5−」を除去した抽象化合物名「(ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を生成する。 Specifically, when the first search unit 704 does not find a node having the abstract compound name "5- (dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on", the first search unit 704 is the first. The character string "5-" contained in the compound name "5- (3-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on" is specified. Next, the first search unit 704 identifies the character string "3-" from the first compound name "5- (3-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on". And the abstract compound name "(dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -one" from which "5-" has been removed is produced.

そして、第1の検索部704は、ナレッジグラフ内から、生成した抽象化合物名「(ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を示すノードを検索する。これにより、第1の検索部704は、ナレッジグラフ内に、前回生成した抽象化合物名を示すノードが存在しなくても、さらに抽象度を高めた別の抽象化合物名を生成し、第1の化合物名を包含する抽象化合物名を示すノードを発見することができる。 Then, the first search unit 704 searches the knowledge graph for the node showing the generated abstract compound name "(dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on". As a result, the first search unit 704 generates another abstract compound name with a higher degree of abstraction even if the node indicating the previously generated abstract compound name does not exist in the knowledge graph, and the first search unit 704 generates the first abstract compound name. You can find nodes that indicate abstract compound names that include compound names.

第2の検索部705は、第1の検索部704が抽象化合物名を示すノードを発見した場合に、ナレッジグラフ内で、発見したノードを起点に、特定した文字列に対応する化合物名を示すノードへのリンクを辿って、第1の化合物名に対応するノードを検索する。特定した文字列に対応する化合物名は、特定した文字列を、第1の化合物名と同様の位置に含む化合物名である。第2の検索部705は、例えば、ナレッジグラフ内で、発見したノードを起点に、特定した文字列を、第1の化合物名と同様の位置に含む化合物名を示すノードへのリンクを辿って、第1の化合物名に対応するノードを検索する。 When the first search unit 704 finds a node indicating an abstract compound name, the second search unit 705 indicates the compound name corresponding to the specified character string starting from the found node in the knowledge graph. Follow the link to the node to find the node corresponding to the first compound name. The compound name corresponding to the specified character string is a compound name containing the specified character string at the same position as the first compound name. The second search unit 705, for example, follows a link to a node indicating a compound name that includes the specified character string at the same position as the first compound name in the knowledge graph, starting from the found node. , Search for the node corresponding to the first compound name.

ここで、第1の検索部704が、抽象化合物名「5−(ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を示すノードを発見した場合を一例とする。第2の検索部705は、具体的には、発見した抽象化合物名「5−(ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を示すノードを起点に、文字列「3−」を含む化合物名「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」へのリンクを辿って、第1の化合物名に対応するノードを検索する。これにより、第2の検索部705は、ナレッジグラフ内に、第1の化合物名を直接示すノードが存在しなくても、第1の化合物名に対応する抽象化合物名を示すノードを発見することができる。第2の検索部705は、例えば、第1の化合物名を包含する抽象化合物名のうち、最も下位に存在する抽象化合物名を示すノードを発見することができる。 Here, an example is taken when the first search unit 704 discovers a node having the abstract compound name "5- (dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on". Specifically, the second search unit 705 starts with the node indicating the discovered abstract compound name "5- (dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on", and the character string " Follow the link to the compound name "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -on" containing "3-" to find the node corresponding to the first compound name. Search for. As a result, the second search unit 705 finds a node indicating the abstract compound name corresponding to the first compound name even if the node directly indicating the first compound name does not exist in the knowledge graph. Can be done. The second search unit 705 can find, for example, a node indicating the lowest level abstract compound name among the abstract compound names including the first compound name.

出力部706は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークI/F303による外部装置への送信、または、メモリ302や記録媒体305などの記憶領域への記憶である。これにより、出力部706は、各機能部の処理結果を利用者に通知可能にすることができる。 The output unit 706 outputs the processing result of any of the functional units. The output format is, for example, display on a display, print output to a printer, transmission to an external device by network I / F 303, or storage in a storage area such as a memory 302 or a recording medium 305. As a result, the output unit 706 can notify the user of the processing result of each functional unit.

出力部706は、例えば、第1の生成部702が生成し、第2の生成部703がノードを追加したナレッジグラフを出力する。出力部706は、具体的には、図4に示したグラフ情報テーブル400を出力する。これにより、出力部706は、情報検索、情報解析、または、読解支援などのサービスに、ナレッジグラフを利用可能にすることができる。また、出力部706は、例えば、第1の生成部702が生成し、第2の生成部703がノードを追加したナレッジグラフを、クライアント装置201に表示させてもよい。これにより、出力部706は、ナレッジグラフをサービス利用者が閲覧可能にすることができる。 The output unit 706 outputs, for example, a knowledge graph generated by the first generation unit 702 and the second generation unit 703 with nodes added. Specifically, the output unit 706 outputs the graph information table 400 shown in FIG. As a result, the output unit 706 can make the Knowledge Graph available for services such as information retrieval, information analysis, or reading comprehension support. Further, the output unit 706 may display the knowledge graph generated by the first generation unit 702 and the node added by the second generation unit 703 on the client device 201, for example. As a result, the output unit 706 can make the knowledge graph viewable by the service user.

出力部706は、例えば、第2の検索部705が発見したノードが示す抽象化合物名、第2の検索部705が発見したノードの下位に存在するノードが示す化合物の分子式や分子量、または、化合物の機能や用途などを出力する。出力部706は、具体的には、第2の検索部705が発見したノードが示す抽象化合物名、第2の検索部705が発見したノードの下位に存在するノードが示す化合物の分子式や分子量、または、化合物の機能や用途などを、クライアント装置201に表示させる。これにより、出力部706は、抽象化合物名、化合物の分子式や分子量、または、化合物の機能や用途などを、サービス利用者が閲覧可能にすることができ、情報検索、情報解析、または、読解支援などのサービスを実現することができる。 The output unit 706 is, for example, the abstract compound name indicated by the node discovered by the second search unit 705, the molecular formula or molecular weight of the compound indicated by the node existing below the node discovered by the second search unit 705, or the compound. Outputs the functions and applications of. Specifically, the output unit 706 includes the abstract compound name indicated by the node discovered by the second search unit 705, the molecular formula and molecular weight of the compound indicated by the node existing below the node discovered by the second search unit 705, and the like. Alternatively, the function and use of the compound are displayed on the client device 201. As a result, the output unit 706 can make the abstract compound name, the molecular formula and molecular weight of the compound, the function and use of the compound, etc. available to the service user, and can be used for information retrieval, information analysis, or reading comprehension support. Such services can be realized.

ここでは、情報処理装置100が、第1の生成部702および第2の生成部703により、ナレッジグラフを生成する場合について説明したが、これに限らない。例えば、情報処理装置100が、第1の生成部702および第2の生成部703を有さず、化合物名を示すノードを含むナレッジグラフを生成せず、ナレッジグラフを取得する場合があってもよい。 Here, the case where the information processing apparatus 100 generates the knowledge graph by the first generation unit 702 and the second generation unit 703 has been described, but the present invention is not limited to this. For example, even if the information processing apparatus 100 does not have the first generation unit 702 and the second generation unit 703, does not generate the knowledge graph including the node indicating the compound name, and acquires the knowledge graph. Good.

(情報処理装置100の具体的な機能的構成例)
次に、図8を用いて、上述した制御部を実現する、情報処理装置100の具体的な機能的構成例について説明する。
(Specific functional configuration example of the information processing device 100)
Next, a specific functional configuration example of the information processing apparatus 100 that realizes the above-mentioned control unit will be described with reference to FIG.

図8は、情報処理装置100の具体的な機能的構成例を示すブロック図である。情報処理装置100は、化合物名判定部801と、化合物名抽象化部802と、URI生成部803と、リンク生成部804と、リンク数集計部805と、ノード確定部806とを含む。化合物名判定部801と、化合物名抽象化部802と、URI生成部803と、リンク生成部804と、リンク数集計部805と、ノード確定部806とは、化合物名のリスト820から、ナレッジグラフを生成する動作を実現する。 FIG. 8 is a block diagram showing a specific functional configuration example of the information processing apparatus 100. The information processing device 100 includes a compound name determination unit 801, a compound name abstraction unit 802, a URI generation unit 803, a link generation unit 804, a link number totaling unit 805, and a node determination unit 806. The compound name determination unit 801, the compound name abstraction unit 802, the URI generation unit 803, the link generation unit 804, the link number totaling unit 805, and the node determination unit 806 are knowledge graphs from the compound name list 820. Achieve the operation to generate.

化合物名判定部801は、化合物名のリスト820を受け付ける。化合物名判定部801は、化合物名のリスト820に含まれる1以上の化合物名のそれぞれに、置換基の結合位置を示す数字が含まれるか否かを判定する。化合物名判定部801は、置換基の結合位置を示す数字が含まれる化合物名を、化合物名抽象化部802に出力する。 The compound name determination unit 801 accepts the list 820 of the compound name. The compound name determination unit 801 determines whether or not each of the one or more compound names included in the compound name list 820 includes a number indicating the bonding position of the substituent. The compound name determination unit 801 outputs a compound name including a number indicating the bonding position of the substituent to the compound name abstraction unit 802.

化合物名抽象化部802は、化合物名を受け付けると、化合物名から置換基の結合位置を示した文字列を除去し、抽象化合物名を生成する。URI生成部803は、抽象化合物名に新規URIを付与する。URI生成部803は、抽象化合物名に新規URIを付与した結果を、図4に示したグラフ情報テーブル400を用いて記憶することにより、抽象化合物名を示すノードを生成する。 When the compound name abstraction unit 802 receives the compound name, the compound name abstraction unit 802 removes the character string indicating the bonding position of the substituent from the compound name to generate the abstract compound name. The URI generation unit 803 adds a new URI to the abstract compound name. The URI generation unit 803 generates a node indicating the abstract compound name by storing the result of adding a new URI to the abstract compound name using the graph information table 400 shown in FIG.

リンク生成部804は、化合物名に付与されたURIと、化合物名から文字列を除去した抽象化合物名に付与されたURIとをリンク付けする。リンク生成部804は、リンク付けした結果を、図4に示したグラフ情報テーブル400を用いて記憶することにより、ノード間をリンク付けする。リンク数集計部805は、化合物名に付与されたURIごとに、リンク付けされた他のURIの数を集計する。 The link generation unit 804 links the URI assigned to the compound name with the URI assigned to the abstract compound name obtained by removing the character string from the compound name. The link generation unit 804 links the nodes by storing the linked result using the graph information table 400 shown in FIG. The link number totaling unit 805 totals the number of other linked URIs for each URI assigned to the compound name.

ノード確定部806は、化合物名に付与されたURIにリンク付けされた他のURIの数が閾値以下であるか否かを判定する。ノード確定部806は、閾値以上であれば、化合物名を示すノードを、ナレッジグラフに残すノードとして確定する。ノード確定部806は、閾値以下であれば、化合物名に付与されたURIを、図4に示したグラフ情報テーブル400から削除することにより、化合物名を示すノードを削除する。 The node determination unit 806 determines whether or not the number of other URIs linked to the URI assigned to the compound name is equal to or less than the threshold value. If it is equal to or higher than the threshold value, the node determination unit 806 determines the node indicating the compound name as a node to be left in the knowledge graph. If the node determination unit 806 is equal to or less than the threshold value, the node indicating the compound name is deleted by deleting the URI assigned to the compound name from the graph information table 400 shown in FIG.

また、情報処理装置100は、パターン生成部807と、ノード検索部808と、具体化部809と、情報生成部810とを含む。化合物名判定部801と、化合物名抽象化部802と、パターン生成部807と、ノード検索部808と、具体化部809と、情報生成部810とは、検索クエリ830の化合物名に対応するノードを検索する動作を実現する。 Further, the information processing device 100 includes a pattern generation unit 807, a node search unit 808, a materialization unit 809, and an information generation unit 810. The compound name determination unit 801, the compound name abstraction unit 802, the pattern generation unit 807, the node search unit 808, the materialization unit 809, and the information generation unit 810 are nodes corresponding to the compound name of the search query 830. Achieve the operation of searching for.

化合物名判定部801は、検索クエリ830を受け付ける。化合物名判定部801は、検索クエリ830の化合物名に、置換基の結合位置を示す数字が含まれるか否かを判定する。化合物名判定部801は、置換基の結合位置を示す数字が含まれる場合に、検索クエリ830の化合物名を、化合物名抽象化部802に出力する。また、化合物名判定部801は、置換基の結合位置を示す数字が含まれない場合に、検索クエリ830の化合物名を、ノード検索部808に出力してもよい。また、化合物名判定部801は、置換基の結合位置を示す数字が含まれる場合にも、検索クエリ830の化合物名を、ノード検索部808に出力してもよい。 The compound name determination unit 801 accepts the search query 830. The compound name determination unit 801 determines whether or not the compound name of the search query 830 includes a number indicating the bonding position of the substituent. The compound name determination unit 801 outputs the compound name of the search query 830 to the compound name abstraction unit 802 when a number indicating the bonding position of the substituent is included. Further, the compound name determination unit 801 may output the compound name of the search query 830 to the node search unit 808 when the number indicating the binding position of the substituent is not included. Further, the compound name determination unit 801 may output the compound name of the search query 830 to the node search unit 808 even when a number indicating the bonding position of the substituent is included.

化合物名抽象化部802は、化合物名を受け付けると、化合物名から置換基の結合位置を示した文字列を除去し、抽象化合物名を生成する。パターン生成部807は、抽象化合物を生成する際に、文字列を除去したパターンを生成して記憶する。ノード検索部808は、ナレッジグラフから、抽象化合物名を示すノードを検索する。ノード検索部808は、ナレッジグラフから、検索クエリ830の化合物名を直接示すノードを検索してもよい。 When the compound name abstraction unit 802 receives the compound name, the compound name abstraction unit 802 removes the character string indicating the bonding position of the substituent from the compound name to generate the abstract compound name. The pattern generation unit 807 generates and stores a pattern from which the character string has been removed when the abstract compound is generated. The node search unit 808 searches the knowledge graph for a node indicating an abstract compound name. The node search unit 808 may search the knowledge graph for a node that directly indicates the compound name of the search query 830.

具体化部809は、パターンを参照して、除去した文字列を検索クエリ830の化合物名と同じ位置に含む化合物名を生成する。ノード検索部808は、ナレッジグラフから、具体化部809が生成した化合物名を示すノードの方向に、検索クエリ830の化合物名に対応するノードを検索する。情報生成部810は、発見された検索クエリ830の化合物名を直接示すノード、または、検索クエリ830の化合物名に対応するノードに基づいて、化合物の分子式や分子量、または、化合物の機能や用途などの属性情報を生成して出力する。 The embodying unit 809 refers to the pattern and generates a compound name including the removed character string at the same position as the compound name of the search query 830. The node search unit 808 searches the knowledge graph for the node corresponding to the compound name of the search query 830 in the direction of the node indicating the compound name generated by the materialization unit 809. The information generation unit 810 directly indicates the compound name of the found search query 830, or the molecular formula and weight of the compound, or the function and use of the compound, etc., based on the node corresponding to the compound name of the search query 830. Generates and outputs the attribute information of.

(情報処理装置100の動作例)
次に、図9〜図17を用いて、情報処理装置100の動作例について説明する。まず、図9を用いて、情報処理装置100がナレッジグラフを生成する流れについて説明する。
(Operation example of information processing device 100)
Next, an operation example of the information processing apparatus 100 will be described with reference to FIGS. 9 to 17. First, the flow in which the information processing apparatus 100 generates a knowledge graph will be described with reference to FIG.

図9は、ナレッジグラフを生成する流れを示す説明図である。図9において、情報処理装置100は、コーパスや辞書情報を参照して、化合物名を特定し、特定した化合物名を示すノード900を生成する。また、情報処理装置100は、ノード900が示す化合物名から、置換基の結合位置を示す文字列を除去した抽象化合物名を示すノード910を生成する。そして、情報処理装置100は、ノード910を、ノード900の上位にリンク付けすることにより、ナレッジグラフを形成していく。 FIG. 9 is an explanatory diagram showing a flow for generating a knowledge graph. In FIG. 9, the information processing apparatus 100 specifies a compound name by referring to the corpus and dictionary information, and generates a node 900 indicating the specified compound name. Further, the information processing apparatus 100 generates a node 910 indicating the abstract compound name obtained by removing the character string indicating the bonding position of the substituent from the compound name indicated by the node 900. Then, the information processing apparatus 100 forms a knowledge graph by linking the node 910 to the upper level of the node 900.

次に、図10〜図13を用いて、情報処理装置100が、ナレッジグラフを生成する一例について説明する。具体的には、まず、図10を用いて、情報処理装置100が、抽象化合物名を生成する元となる化合物名を抽出する一例について説明する。 Next, an example in which the information processing apparatus 100 generates a knowledge graph will be described with reference to FIGS. 10 to 13. Specifically, first, an example in which the information processing apparatus 100 extracts a compound name from which an abstract compound name is generated will be described with reference to FIG.

図10は、化合物名を抽出する一例を示す説明図である。図10において、(10−1)情報処理装置100は、特許文献などを含むコーパスから、化合物名の候補を抽出する。ここで、例えば、日本語の文章では、化合物名が、カタカナ、アルファベット、数字、記号、および、一部の漢字などの特定の文字により記述される傾向がある。このため、情報処理装置100は、特定の文字が連続する文字列を、化合物名の候補として抽出する。 FIG. 10 is an explanatory diagram showing an example of extracting a compound name. In FIG. 10, the information processing apparatus 100 (10-1) extracts candidate compound names from a corpus including patent documents and the like. Here, for example, in Japanese sentences, compound names tend to be described by specific characters such as katakana, alphabets, numbers, symbols, and some Chinese characters. Therefore, the information processing apparatus 100 extracts a character string in which specific characters are continuous as a candidate for a compound name.

(10−2)情報処理装置100は、化合物名の候補のうち、辞書テーブル500に登録された化合物名と一致する候補を、ノードを生成する対象になる化合物名として特定し、化合物名のリスト1000を生成する。そして、情報処理装置100は、特定した化合物名に対応付けて辞書テーブル500に登録されたURIを検索し、特定した化合物名に付与する。URIは、ノードのラベルに対応する。ここで、情報処理装置100は、化合物にURIを付与した結果を、グラフ情報テーブル400を用いて記憶することにより、特定した化合物名を示すノードを生成する。 (10-2) Among the compound name candidates, the information processing apparatus 100 specifies a candidate that matches the compound name registered in the dictionary table 500 as a compound name to be generated as a node, and lists the compound names. Generate 1000. Then, the information processing apparatus 100 searches for the URI registered in the dictionary table 500 in association with the specified compound name, and assigns the URI to the specified compound name. The URI corresponds to the label of the node. Here, the information processing apparatus 100 generates a node indicating the specified compound name by storing the result of adding the URI to the compound by using the graph information table 400.

図10の例では、化合物名のリスト1000は、「(2S)−2−アミノ−2−(4−ヒドロキシフェニル)酢酸」を含む。化合物名のリスト1000は、「(2R)−2α,3,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」を含む。化合物名のリスト1000は、「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を含む。化合物名のリスト1000は、「プロパン」を含む。 In the example of FIG. 10, the list 1000 of compound names comprises "(2S) -2-amino-2- (4-hydroxyphenyl) acetic acid". List 1000 of compound names is "(2R) -2α, 3,7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy. -2,3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione "is included. Listing 1000 of compound names includes "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -one". List 1000 of compound names includes "propane".

(10−3)情報処理装置100は、生成した化合物名のリスト1000から、置換基の結合位置を示す数字を含む化合物名を、抽象化合物名を生成する元となる化合物名として抽出し、化合物名のリスト1010を生成する。ここで、情報処理装置100は、文字列「2S」や文字列「3E」などのアルファベットに接続された数字「2」や数字「3」は、置換基の結合位置を示さない数字として扱う。 (10-3) The information processing apparatus 100 extracts from the list 1000 of the generated compound names a compound name including a number indicating the bonding position of the substituent as a compound name that is a source for generating the abstract compound name, and the compound. Generate a list of names 1010. Here, the information processing apparatus 100 treats the numbers "2" and the numbers "3" connected to the alphabet such as the character string "2S" and the character string "3E" as numbers that do not indicate the bonding position of the substituent.

図10の例では、化合物名のリスト1010は、「(2S)−2−アミノ−2−(4−ヒドロキシフェニル)酢酸」を含む。化合物名のリスト1010は、「(2R)−2α,3,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」を含む。化合物名のリスト1010は、「5−(3,4−ジヒドロキシベンジル)−4,5−ジヒドロフラン−2(3H)−オン」を含む。 In the example of FIG. 10, the list 1010 of compound names comprises "(2S) -2-amino-2- (4-hydroxyphenyl) acetic acid". List 1010 of the compound names is "(2R) -2α, 3,7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy. -2,3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione "is included. List 1010 of compound names includes "5- (3,4-dihydroxybenzyl) -4,5-dihydrofuran-2 (3H) -one".

次に、図11および図12を用いて、情報処理装置100が、抽出した化合物名から、抽象化合物名を生成する一例について説明する。 Next, an example in which the information processing apparatus 100 generates an abstract compound name from the extracted compound name will be described with reference to FIGS. 11 and 12.

図11および図12は、抽象化合物名を生成する一例を示す説明図である。図11において、(11−1)情報処理装置100は、化合物名のリスト1010から、化合物名1100を選択する。化合物名1100は、「(2R)−2α,3,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」である。 11 and 12 are explanatory views showing an example of generating an abstract compound name. In FIG. 11, the information processing apparatus 100 (11-1) selects compound name 1100 from the list of compound names 1010. Compound name 1100 refers to "(2R) -2α, 3,7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy-2. , 3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione ".

(11−2)情報処理装置100は、化合物名1100から、1以上の置換基の結合位置を示し、1以上の数字と所定の記号とが連続した文字列1101〜1108を特定する。図中では、文字列1101〜1108には、下線が付されている。文字列1101〜1108は、それぞれ「3,7,8」、「4」、「5」、「1,3」、「4」、「2,3,6,9」、「1,2」、「6,9」である。次に、図12の説明に移行する。 (11-2) The information processing apparatus 100 indicates from the compound name 1100 the bonding position of one or more substituents, and specifies a character string 1101 to 1108 in which one or more numbers and a predetermined symbol are continuous. In the figure, the character strings 1101 to 1108 are underlined. The character strings 1101 to 1108 are "3,7,8", "4", "5", "1,3", "4", "2,3,6,9", "1,2", respectively. It is "6, 9". Next, the description proceeds to FIG.

図12において、情報処理装置100は、化合物名1100から、文字列1101〜1108を再帰的に除去し、抽象化合物名を生成する。図12の例では、情報処理装置100は、化合物名1100から、文字列1101〜1108のそれぞれを除去し、抽象化合物名1201〜1203などを生成し、新規URIを付与する。新規URIは、ノードのラベルに対応する。ここで、情報処理装置100は、抽象化合物名1201〜1203などに新規URIを付与した結果を、グラフ情報テーブル400を用いて記憶することにより、抽象化合物名1201〜1203などを示すノードを生成する。 In FIG. 12, the information processing apparatus 100 recursively removes the character strings 1101 to 1108 from the compound name 1100 to generate an abstract compound name. In the example of FIG. 12, the information processing apparatus 100 removes each of the character strings 1101 to 1108 from the compound name 1100, generates abstract compound names 1201 to 1203, and gives a new URI. The new URI corresponds to the label of the node. Here, the information processing apparatus 100 generates a node indicating the abstract compound name 1201 to 1203 or the like by storing the result of adding a new URI to the abstract compound name 1201 to 1203 or the like by using the graph information table 400. ..

さらに、情報処理装置100は、抽象化合物名1201から、文字列1102〜1108のそれぞれを除去し、再帰的に、抽象化合物名1211,1212などを生成し、新規URIを付与する。ここで、情報処理装置100は、抽象化合物名1211,1212などに新規URIを付与した結果を、グラフ情報テーブル400を用いて記憶することにより、抽象化合物名1211,1212などを示すノードを生成する。同様に、情報処理装置100は、抽象化合物名1211,1212などからも、再帰的に、抽象化合物名を生成することを繰り返し、新規URIを付与していき、グラフ情報テーブル400を更新する。 Further, the information processing apparatus 100 removes each of the character strings 1102 to 1108 from the abstract compound name 1201, recursively generates the abstract compound names 1211, 1212 and the like, and assigns a new URI. Here, the information processing apparatus 100 generates a node indicating the abstract compound name 1211, 1212 or the like by storing the result of adding a new URI to the abstract compound name 1211, 1212 or the like using the graph information table 400. .. Similarly, the information processing apparatus 100 recursively generates abstract compound names from abstract compound names 1211, 1212 and the like, repeatedly assigns new URIs, and updates the graph information table 400.

同様に、情報処理装置100は、抽象化合物名1202,1203などからも、再帰的に、抽象化合物名を生成することを繰り返し、新規URIを付与していき、グラフ情報テーブル400を更新する。また、情報処理装置100は、化合物名のリスト1010から、化合物名1100以外の化合物名も選択し、再帰的に、抽象化合物名を生成することを繰り返し、新規URIを付与していき、グラフ情報テーブル400を更新する。 Similarly, the information processing apparatus 100 recursively generates the abstract compound name from the abstract compound names 1202, 1203 and the like, repeatedly adds a new URI, and updates the graph information table 400. Further, the information processing apparatus 100 selects a compound name other than the compound name 1100 from the compound name list 1010, recursively repeatedly generates an abstract compound name, and adds a new URI to the graph information. Update table 400.

次に、図13を用いて、情報処理装置100が、生成した抽象化合物名を示すノードを含むナレッジグラフ1300を生成する一例について説明する。 Next, an example in which the information processing apparatus 100 generates the Knowledge Graph 1300 including the node indicating the generated abstract compound name will be described with reference to FIG.

図13は、ナレッジグラフ1300を生成する一例を示す説明図である。図13において、情報処理装置100は、化合物名に付与されたURIに、「is−a」の関係性で、当該化合物名から文字列を除去した抽象化合物名に付与されたURIをリンク付けする。また、情報処理装置100は、抽象化合物名に付与されたURIに、「is−a」の関係性で、当該抽象化合物名から文字列を除去した抽象化合物名に付与されたURIをリンク付けする。そして、情報処理装置100は、リンク付けした結果を、グラフ情報テーブル400を用いて記憶することにより、ノード間をリンク付けし、ナレッジグラフ1300を生成する。図13の例では、情報処理装置100は、ノード1301〜1304などを含むナレッジグラフ1300を生成する。 FIG. 13 is an explanatory diagram showing an example of generating the Knowledge Graph 1300. In FIG. 13, the information processing apparatus 100 links the URI assigned to the compound name with the URI assigned to the abstract compound name obtained by removing the character string from the compound name in relation to "is-a". .. Further, the information processing apparatus 100 links the URI assigned to the abstract compound name with the URI assigned to the abstract compound name obtained by removing the character string from the abstract compound name in the relationship of "is-a". .. Then, the information processing apparatus 100 links the nodes by storing the linked result using the graph information table 400, and generates the knowledge graph 1300. In the example of FIG. 13, the information processing apparatus 100 generates a knowledge graph 1300 including nodes 1301 to 1304 and the like.

これにより、情報処理装置100は、ナレッジグラフに、化合物名と抽象化合物名との関係性、および、抽象化合物名同士の関係性を反映することができる。結果として、情報処理装置100は、情報検索、情報解析、または、読解支援などのサービスに利用する観点から好ましいと判断されるナレッジグラフを生成可能にすることができる。そして、情報処理装置100は、ナレッジグラフを利用し、情報検索、情報解析、または、読解支援などを効果的に実施可能にすることができる。情報処理装置100は、例えば、人が、化学分野の特許文献や技術論文などの技術文書を読解する際に、技術文書に記載された抽象化合物名から、化合物の分子式や分子量、または、化合物の機能や用途などを検索可能にすることができる。 As a result, the information processing apparatus 100 can reflect the relationship between the compound name and the abstract compound name and the relationship between the abstract compound names in the knowledge graph. As a result, the information processing apparatus 100 can generate a knowledge graph that is determined to be preferable from the viewpoint of being used for services such as information retrieval, information analysis, or reading comprehension support. Then, the information processing apparatus 100 can effectively perform information retrieval, information analysis, reading comprehension support, and the like by using the knowledge graph. In the information processing apparatus 100, for example, when a person reads a technical document such as a patent document or a technical paper in the field of chemistry, the molecular formula or molecular weight of the compound or the molecular weight of the compound is determined from the abstract compound name described in the technical document. Functions and uses can be searched.

また、情報処理装置100は、化合物名を示すノードから上位となる抽象化合物名を示すノードを生成することができる。このため、情報処理装置100は、化合物名の上位概念を示すノードがある場合には、化合物名を示すノードと、化合物名の上位概念を示すノードとの中間に、抽象化合物名を示すノードを追加することができる。 Further, the information processing apparatus 100 can generate a node indicating a higher level abstract compound name from a node indicating the compound name. Therefore, when the information processing apparatus 100 has a node indicating a superordinate concept of the compound name, a node indicating the abstract compound name is provided between the node indicating the compound name and the node indicating the superordinate concept of the compound name. Can be added.

ここで、情報処理装置100は、いずれかの抽象化合物名に付与された新規URIに、「is−a」の関係性でリンク付けされた、化合物名に付与されたURIの数を計数し、URIの数が閾値以上であるか否かを判定してもよい。閾値は、例えば、2である。そして、情報処理装置100は、URIの数が閾値未満である場合には、いずれかの抽象化合物名に付与された新規URIを削除してもよい。 Here, the information processing apparatus 100 counts the number of URIs assigned to the compound names linked to the new URIs assigned to any of the abstract compound names by the relationship of "is-a". You may determine whether the number of URIs is greater than or equal to the threshold. The threshold is, for example, 2. Then, when the number of URIs is less than the threshold value, the information processing apparatus 100 may delete the new URI assigned to any of the abstract compound names.

例えば、いずれかの抽象化合物名に付与された新規URIに、「is−a」の関係性でリンク付けされた、化合物名に付与されたURIの数が、1つである場合が考えられる。この場合、いずれかの抽象化合物名は、1つの化合物名しか包含しないことになるため、いずれかの抽象化合物名を示すノードを生成しても、サービスに利用する観点から有用ではない可能性がある。そこで、情報処理装置100は、いずれかの抽象化合物名を示すノードを生成せず、抽象化合物名を示すノードの数の膨大化を抑制するようにしてもよい。 For example, it is conceivable that the number of URIs assigned to the compound name, which is linked to the new URI assigned to any of the abstract compound names by the relationship of "is-a", is one. In this case, since one of the abstract compound names includes only one compound name, it may not be useful from the viewpoint of using the service even if a node indicating one of the abstract compound names is generated. is there. Therefore, the information processing apparatus 100 may not generate a node indicating any of the abstract compound names, and may suppress an enormous number of nodes indicating the abstract compound name.

ここで、抽出した化合物名の候補の中には、化合物名の他に、抽象化合物名が含まれることがあり、化合物とは関係ない文字列が含まれることもある。これに対し、情報処理装置100は、辞書テーブル500を参照して、抽象化合物名や化合物とは関係ない文字列を示すノードを、化合物名を示すノードとして誤って生成しないようにすることができる。 Here, the extracted compound name candidates may include an abstract compound name in addition to the compound name, and may include a character string unrelated to the compound. On the other hand, the information processing apparatus 100 can refer to the dictionary table 500 to prevent an erroneous generation of a node indicating an abstract compound name or a character string unrelated to the compound as a node indicating the compound name. ..

また、情報処理装置100は、辞書テーブル500に登録された化合物名でも、抽出した化合物名の候補の中に存在しなければ、化合物名を示すノードを生成しないようにすることができる。このため、情報処理装置100は、技術文書に出現しやすい化合物名を示すノードであるため、サービスに利用する観点からナレッジグラフに含むことが好ましい化合物名を示すノードを生成することができる。また、情報処理装置100は、技術文書に出現しにくい化合物名を示すノードであるため、サービスに利用する観点からナレッジグラフに含まなくてもよい化合物名を示すノードを生成しないようにすることができる。 Further, the information processing apparatus 100 can prevent the node indicating the compound name from being generated if the compound name registered in the dictionary table 500 does not exist in the extracted compound name candidates. Therefore, since the information processing apparatus 100 is a node indicating a compound name that tends to appear in a technical document, it is possible to generate a node indicating a compound name that is preferably included in the knowledge graph from the viewpoint of being used for a service. Further, since the information processing apparatus 100 is a node indicating a compound name that is unlikely to appear in a technical document, it is possible not to generate a node indicating a compound name that does not have to be included in the knowledge graph from the viewpoint of using the information processing device 100. it can.

結果として、情報処理装置100は、化合物名を示すノードの数の膨大化を抑制することができる。そして、情報処理装置100は、ナレッジグラフのサイズの増大化を抑制することができ、ナレッジグラフを利用する際のパフォーマンスの低下を抑制することができる。情報処理装置100は、例えば、ナレッジグラフを利用する際に、ナレッジグラフから所定の化合物名を示すノードを検索する所要時間などの低減化を図ることができる。 As a result, the information processing apparatus 100 can suppress an enormous number of nodes indicating the compound name. Then, the information processing apparatus 100 can suppress an increase in the size of the knowledge graph, and can suppress a decrease in performance when using the knowledge graph. When using the knowledge graph, for example, the information processing device 100 can reduce the time required to search for a node indicating a predetermined compound name from the knowledge graph.

次に、図14〜図17を用いて、情報処理装置100が、ナレッジグラフ1300を利用する一例について説明する。まず、図14を用いて、情報処理装置100が、検索クエリ1400を受け付け、ナレッジグラフ1300から、検索クエリ1400の化合物名を直接示すノードを検索する一例について説明する。 Next, an example in which the information processing apparatus 100 uses the Knowledge Graph 1300 will be described with reference to FIGS. 14 to 17. First, using FIG. 14, an example will be described in which the information processing apparatus 100 receives the search query 1400 and searches the knowledge graph 1300 for a node directly indicating the compound name of the search query 1400.

図14は、検索クエリ1400の化合物名を直接示すノードを検索する一例を示す説明図である。図14において、情報処理装置100は、検索クエリ1400を受け付ける。検索クエリ1400は、化合物名「(2R)−2α,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」を示す。情報処理装置100は、ナレッジグラフ1300から、検索クエリ1400の化合物名を直接示すノードを検索する。 FIG. 14 is an explanatory diagram showing an example of searching for a node that directly indicates the compound name of the search query 1400. In FIG. 14, the information processing apparatus 100 receives the search query 1400. The search query 1400 contains the compound name "(2R) -2α, 7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy-2. , 3,6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione ”. The information processing apparatus 100 searches the knowledge graph 1300 for a node that directly indicates the compound name of the search query 1400.

情報処理装置100は、ナレッジグラフ1300から、検索クエリ1400の化合物名を直接示すノードを発見した場合には、発見したノードにリンク付けられたノードが示す、化合物の分子式や分子量、または、化合物の機能や用途などを取得してもよい。これにより、情報処理装置100は、化合物の分子式や分子量、または、化合物の機能や用途などに基づいて、情報検索、情報解析、または、読解支援などのサービスを実現することができる。図14の例では、情報処理装置100は、ナレッジグラフ1300から、検索クエリ1400の化合物名を直接示すノードを発見しなかったとする。 When the information processing apparatus 100 finds a node directly indicating the compound name of the search query 1400 from the knowledge graph 1300, the molecular formula and weight of the compound, or the molecular weight of the compound, indicated by the node linked to the found node, or the compound. Functions and uses may be acquired. As a result, the information processing apparatus 100 can realize services such as information retrieval, information analysis, and reading comprehension support based on the molecular formula and weight of the compound, the function and use of the compound, and the like. In the example of FIG. 14, it is assumed that the information processing apparatus 100 does not find a node directly indicating the compound name of the search query 1400 from the knowledge graph 1300.

次に、図15〜図17を用いて、情報処理装置100は、ナレッジグラフ1300から、検索クエリの化合物名に対応するノードを検索する一例について説明する。 Next, with reference to FIGS. 15 to 17, an example will be described in which the information processing apparatus 100 searches the knowledge graph 1300 for a node corresponding to the compound name of the search query.

図15〜図17は、検索クエリの化合物名に対応するノードを検索する一例を示す説明図である。図15において、情報処理装置100は、検索クエリ1400の化合物名1500から、1以上の置換基の結合位置を示し、1以上の数字と所定の記号とが連続した文字列1501〜1508を特定する。図中では、文字列1501〜1508には、下線が付されている。 15 to 17 are explanatory views showing an example of searching for a node corresponding to the compound name of the search query. In FIG. 15, the information processing apparatus 100 indicates a binding position of one or more substituents from the compound name 1500 of the search query 1400, and identifies a character string 1501 to 1508 in which one or more numbers and a predetermined symbol are continuous. .. In the figure, the character strings 1501 to 1508 are underlined.

化合物名1500は、「(2R)−2α,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」である。文字列1501〜1508は、それぞれ「7,8」、「4」、「5」、「1,3」、「4」、「2,3,6,9」、「1,2」、「6,9」である。次に、図16の説明に移行する。 Compound name 1500 is “(2R) -2α, 7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy-2,3. , 6,9-Tetrahydronaphtho [1,2-b] furan-6,9-dione ". The character strings 1501 to 1508 are "7, 8", "4", "5", "1, 3", "4", "2, 3, 6, 9", "1, 2", "6", respectively. , 9 ". Next, the description proceeds to FIG.

図16において、情報処理装置100は、化合物名1500から、特定した文字列1501を除去し、抽象化合物名1600を生成する。抽象化合物名1600は、「(2R)−2α−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」である。 In FIG. 16, the information processing apparatus 100 removes the specified character string 1501 from the compound name 1500 to generate the abstract compound name 1600. The abstract compound name 1600 is "(2R) -2α-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy-2,3,6. 9-Tetrahydronaphtho [1,2-b] furan-6,9-dione ".

情報処理装置100は、ナレッジグラフ1300から、生成した抽象化合物名1600を示すノードを検索する。ここで、情報処理装置100は、生成した抽象化合物名1600を示すノードを発見しなければ、再帰的に、文字列1502〜1508を除去し、別の抽象化合物名を示すノードを検索してもよい。図16の例では、情報処理装置100は、生成した抽象化合物名1600を示すノード1610を発見したとする。次に、図17の説明に移行する。 The information processing apparatus 100 searches the knowledge graph 1300 for a node indicating the generated abstract compound name 1600. Here, if the information processing apparatus 100 does not find the node indicating the generated abstract compound name 1600, the information processing apparatus 100 may recursively remove the character strings 1502 to 1508 and search for a node indicating another abstract compound name. Good. In the example of FIG. 16, it is assumed that the information processing apparatus 100 has found the node 1610 indicating the generated abstract compound name 1600. Next, the description proceeds to FIG.

図17において、情報処理装置100は、除去した文字列1501を、化合物名1500と同様の位置に含む化合物名1710を示すノード1701を特定する。情報処理装置100は、発見したノード1610を起点に、特定したノード1701へのリンクを辿って、化合物名1500に対応するノードを検索する。図17の例では、情報処理装置100は、化合物名1500に対応するノードとして、ノード1701を発見する。 In FIG. 17, the information processing apparatus 100 identifies the node 1701 indicating the compound name 1710 including the removed character string 1501 at the same position as the compound name 1500. The information processing apparatus 100 searches for the node corresponding to the compound name 1500 by following the link to the specified node 1701 starting from the found node 1610. In the example of FIG. 17, the information processing apparatus 100 discovers the node 1701 as the node corresponding to the compound name 1500.

ここで、情報処理装置100が、図16の動作で、化合物名1500から文字列を複数除去し、抽象化合物名を示すノードを発見している場合が考えられる。この場合、情報処理装置100は、除去した文字列を1つずつ選択し、選択した文字列を、化合物名1500と同様の位置に含む化合物名を示すノードへのリンクを辿っていき、化合物名1500に対応するノードを検索する。 Here, it is conceivable that the information processing apparatus 100 removes a plurality of character strings from the compound name 1500 and finds a node indicating the abstract compound name by the operation of FIG. In this case, the information processing apparatus 100 selects the removed character strings one by one, follows the link to the node indicating the compound name including the selected character string at the same position as the compound name 1500, and follows the link to the compound name. Search for the node corresponding to 1500.

ここで、情報処理装置100は、化合物名1500を包含しない具体的な化合物名を示すノード1702へのリンクを辿って、化合物名1500に対応するノードを検索することを回避することができる。このため、情報処理装置100は、化合物名1500に対応するノードを効率よく検索することができる。 Here, the information processing apparatus 100 can avoid searching for the node corresponding to the compound name 1500 by following the link to the node 1702 indicating the specific compound name that does not include the compound name 1500. Therefore, the information processing apparatus 100 can efficiently search for the node corresponding to the compound name 1500.

情報処理装置100は、ナレッジグラフ1300から、化合物名1500に対応するノードを発見した場合には、発見したノードにリンク付けられたノードが示す、化合物の分子式や分子量、または、化合物の機能や用途などを取得してもよい。これにより、情報処理装置100は、化合物の分子式や分子量、または、化合物の機能や用途などに基づいて、情報検索、情報解析、または、読解支援などのサービスを実現することができる。 When the information processing apparatus 100 discovers a node corresponding to the compound name 1500 from the knowledge graph 1300, the molecular formula and molecular weight of the compound, or the function and use of the compound indicated by the node linked to the discovered node. Etc. may be obtained. As a result, the information processing apparatus 100 can realize services such as information retrieval, information analysis, and reading comprehension support based on the molecular formula and weight of the compound, the function and use of the compound, and the like.

次に、図18および図19を用いて、クライアント装置201において、サービス利用者が、情報検索、情報解析、または、読解支援などのサービスを利用する一例について説明する。 Next, an example in which the service user uses a service such as information retrieval, information analysis, or reading comprehension support in the client device 201 will be described with reference to FIGS. 18 and 19.

図18は、サービス利用者が、サービスを利用する流れを示す説明図である。図18において、クライアント装置201は、技術文書1801をディスプレイ606に表示する。サービス利用者は、技術文書1801を閲覧する。 FIG. 18 is an explanatory diagram showing a flow in which a service user uses a service. In FIG. 18, the client device 201 displays the technical document 1801 on the display 606. The service user browses the technical document 1801.

サービス利用者は、技術文書内の文字列をクリックする。クリックする文字列は、抽象化合物名に対応する文字列であってもよい。クライアント装置201は、クリックされた文字列に関する情報を、情報処理装置100に問い合わせる。情報処理装置100は、ナレッジグラフ1300のノード間のリンクを辿ることにより、クリックされた文字列に対応する化合物名に関する情報を、クライアント装置201に表示させる。 The service user clicks the character string in the technical document. The character string to be clicked may be the character string corresponding to the abstract compound name. The client device 201 inquires the information processing device 100 for information regarding the clicked character string. The information processing device 100 causes the client device 201 to display information on the compound name corresponding to the clicked character string by following the link between the nodes of the knowledge graph 1300.

図18の例では、サービス利用者は、「3−エトキシプロパノール」をクリックする。クライアント装置201は、文字列「3−エトキシプロパノール」のクリックに応じて、文字列「3−エトキシプロパノール」に関する情報を、情報処理装置100に問い合わせる。情報処理装置100は、ナレッジグラフ1300を参照して、抽象化合物名「3−エトキシプロパノール」が、化合物名「3−エトキシ−1−プロパノール」を包含することを特定する。 In the example of FIG. 18, the service user clicks on "3-ethoxypropanol". The client device 201 inquires of the information processing device 100 for information regarding the character string "3-ethoxypropanol" in response to a click of the character string "3-ethoxypropanol". The information processing apparatus 100 specifies that the abstract compound name "3-ethoxypropanol" includes the compound name "3-ethoxy-1-propanol" with reference to the Knowledge Graph 1300.

また、情報処理装置100は、化合物名「3−エトキシ−1−プロパノール」について、化合物の分子式や分子量、または、化合物の機能や用途などを特定し、解説文1802を生成し、クライアント装置201に表示させる。解説文1802は、例えば、「3−エトキシプロパノールは、3−エトキシ−1−プロパノールや、1−エトキシ−2−プロパノールなどを含む抽象概念です。」を含む。次に、図19の説明に移行する。 Further, the information processing apparatus 100 specifies the molecular formula and molecular weight of the compound, the function and use of the compound, etc. for the compound name "3-ethoxy-1-propanol", generates a commentary 1802, and uses the client apparatus 201. Display it. The commentary 1802 includes, for example, "3-ethoxypropanol is an abstract concept including 3-ethoxy-1-propanol, 1-ethoxy-2-propanol, and the like." Next, the description shifts to FIG.

図19は、サービス利用者が、サービスを利用する一例を示す説明図である。図19において、クライアント装置201は、技術文書1900をディスプレイ606に表示する。サービス利用者は、技術文書1900を閲覧する。 FIG. 19 is an explanatory diagram showing an example in which a service user uses a service. In FIG. 19, the client device 201 displays the technical document 1900 on the display 606. The service user browses the technical document 1900.

サービス利用者は、技術文書内の文字列1901をクリックする。文字列1901は、「(2R)−2α,7,8−テトラメチル−3α−[(1E,3E)−4−メチル−5−ヒドロキシ−1,3−ペンタジエニル]−4−ヒドロキシ−2,3,6,9−テトラヒドロナフト[1,2−b]フラン−6,9−ジオン」である。 The service user clicks on the character string 1901 in the technical document. The character string 1901 is "(2R) -2α, 7,8-tetramethyl-3α-[(1E, 3E) -4-methyl-5-hydroxy-1,3-pentadienyl] -4-hydroxy-2,3. , 6,9-tetrahydronaphtho [1,2-b] furan-6,9-dione ".

クライアント装置201は、文字列1901のクリックに応じて、文字列1901に関する検索クエリを、情報処理装置100に送信することにより、文字列1901に関する情報を、情報処理装置100に問い合わせる。情報処理装置100は、検索クエリを受け付け、ナレッジグラフ1300を参照して、図14〜図17と同様に、文字列1901を示すノードを発見する。 The client device 201 inquires of the information processing device 100 about information about the character string 1901 by transmitting a search query regarding the character string 1901 to the information processing device 100 in response to a click of the character string 1901. The information processing apparatus 100 receives the search query, refers to the knowledge graph 1300, and discovers the node showing the character string 1901, as in FIGS. 14 to 17.

そして、情報処理装置100は、発見したノードに基づいて、問い合わせの文字列1901に対応する抽象化合物名に関する情報を、クライアント装置201に提供する。情報処理装置100は、具体的には、発見したノードにリンク付けられたノードが示す、化合物の分子式や分子量、または、化合物の機能や用途などを取得し、解説文1902を生成し、クライアント装置201に表示させる。 Then, the information processing device 100 provides the client device 201 with information on the abstract compound name corresponding to the inquiry character string 1901, based on the discovered node. Specifically, the information processing device 100 acquires the molecular formula and molecular weight of the compound, the function and use of the compound, etc. indicated by the node linked to the discovered node, generates a commentary 1902, and generates a client device. Display on 201.

これにより、情報処理装置100は、問い合わせの文字列に対応する抽象化合物名に直接的に関係する情報を、サービス利用者が参照可能にすることができる。このため、情報処理装置100は、情報検索、情報解析、または、読解支援などのサービスを効果的に実施することができる。 As a result, the information processing apparatus 100 can make the service user able to refer to the information directly related to the abstract compound name corresponding to the inquiry character string. Therefore, the information processing apparatus 100 can effectively perform services such as information retrieval, information analysis, and reading comprehension support.

以上の説明では、情報処理装置100が、コーパスから化合物名の候補を抽出する場合について説明したが、これに限らない。例えば、情報処理装置100が、辞書テーブル500に登録された化合物名を抽出し、化合物名から抽象化合物名の候補を特定してから、抽象化合物名の候補がコーパスに出現するか否かを判定する場合があってもよい。 In the above description, the case where the information processing apparatus 100 extracts the candidate compound name from the corpus has been described, but the present invention is not limited to this. For example, the information processing apparatus 100 extracts the compound name registered in the dictionary table 500, identifies the candidate for the abstract compound name from the compound name, and then determines whether or not the candidate for the abstract compound name appears in the corpus. May be done.

(生成処理手順)
次に、図20を用いて、情報処理装置100が実行する、生成処理手順の一例について説明する。生成処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
(Generation processing procedure)
Next, an example of the generation processing procedure executed by the information processing apparatus 100 will be described with reference to FIG. The generation process is realized, for example, by the CPU 301 shown in FIG. 3, a storage area such as a memory 302 or a recording medium 305, and a network I / F 303.

図20は、生成処理手順の一例を示すフローチャートである。図20において、情報処理装置100は、コーパスから化合物名の候補を抽出する(ステップS2001)。 FIG. 20 is a flowchart showing an example of the generation processing procedure. In FIG. 20, the information processing apparatus 100 extracts a candidate compound name from the corpus (step S2001).

次に、情報処理装置100は、抽出した候補のうち、辞書テーブル500に記憶された化合物名と一致する候補のそれぞれの候補に対して、当該候補と一致した化合物名に対応付けて辞書テーブル500に記憶されたURIを付与する(ステップS2002)。そして、情報処理装置100は、ステップS2003の処理に移行する。 Next, the information processing apparatus 100 associates each candidate of the candidate that matches the compound name stored in the dictionary table 500 with the compound name that matches the candidate among the extracted candidates in the dictionary table 500. The stored URI is given to (step S2002). Then, the information processing apparatus 100 shifts to the process of step S2003.

ステップS2003では、情報処理装置100は、抽出した候補を含む候補リストのうち未処理の候補を選択する(ステップS2003)。 In step S2003, the information processing apparatus 100 selects an unprocessed candidate from the candidate list including the extracted candidates (step S2003).

次に、情報処理装置100は、選択した候補が、URIが付与され、かつ、数字を含む候補であるか否かを判定する(ステップS2004)。ここで、URIが付与されていない候補、または、数字を含まない候補である場合(ステップS2004:No)、情報処理装置100は、ステップS2008の処理に移行する。一方で、URIが付与され、かつ、数字を含む候補である場合(ステップS2004:Yes)、情報処理装置100は、ステップS2005の処理に移行する。 Next, the information processing apparatus 100 determines whether or not the selected candidate is a candidate to which a URI is given and includes a number (step S2004). Here, if the candidate is not given a URI or does not include a number (step S2004: No), the information processing apparatus 100 shifts to the process of step S2008. On the other hand, when the URI is given and the candidate includes a number (step S2004: Yes), the information processing apparatus 100 shifts to the process of step S2005.

ステップS2005では、情報処理装置100は、選択した候補から、1以上の数字と所定の記号とを組み合わせた置換基の結合位置を示す文字列を除去した文字列を生成し、候補リストに追加する(ステップS2005)。そして、情報処理装置100は、生成した文字列に、新規URIを付与する(ステップS2006)。 In step S2005, the information processing apparatus 100 generates a character string obtained by removing the character string indicating the bonding position of the substituent, which is a combination of one or more numbers and a predetermined symbol, from the selected candidates, and adds the character string to the candidate list. (Step S2005). Then, the information processing apparatus 100 adds a new URI to the generated character string (step S2006).

次に、情報処理装置100は、選択した候補に付与されたURIと、生成した文字列に付与された新規URIとを、「is−a」の関係性でリンク付けする(ステップS2007)。そして、情報処理装置100は、ステップS2008の処理に移行する。 Next, the information processing apparatus 100 links the URI assigned to the selected candidate and the new URI assigned to the generated character string by the relationship of "is-a" (step S2007). Then, the information processing apparatus 100 shifts to the process of step S2008.

ステップS2008では、情報処理装置100は、候補リストのうち、すべての候補を処理したか否かを判定する(ステップS2008)。ここで、未処理の候補がある場合(ステップS2008:No)、情報処理装置100は、ステップS2003の処理に戻る。一方で、すべての候補を処理している場合(ステップS2008:Yes)、情報処理装置100は、ステップS2009の処理に移行する。 In step S2008, the information processing apparatus 100 determines whether or not all the candidates in the candidate list have been processed (step S2008). Here, when there is an unprocessed candidate (step S2008: No), the information processing apparatus 100 returns to the process of step S2003. On the other hand, when all the candidates are processed (step S2008: Yes), the information processing apparatus 100 shifts to the process of step S2009.

ステップS2009では、情報処理装置100は、URIごとに「is−a」の関係性でリンク付けされたURIの数を算出する(ステップS2009)。次に、情報処理装置100は、URIのうち、リンク付けされたURIの数が閾値未満であるURIを削除する(ステップS2010)。 In step S2009, the information processing apparatus 100 calculates the number of URIs linked by the relation of "is-a" for each URI (step S2009). Next, the information processing apparatus 100 deletes the URIs in which the number of linked URIs is less than the threshold value (step S2010).

そして、情報処理装置100は、生成処理を終了する。これにより、情報処理装置100は、抽象化合物名を示すノードを含むナレッジグラフを生成することができる。また、情報処理装置100は、ナレッジグラフに含まれるノードの数の増大化を抑制することができる。 Then, the information processing apparatus 100 ends the generation process. As a result, the information processing apparatus 100 can generate a knowledge graph including a node indicating an abstract compound name. In addition, the information processing device 100 can suppress an increase in the number of nodes included in the knowledge graph.

(検索処理手順)
次に、図21を用いて、情報処理装置100が実行する、検索処理手順の一例について説明する。検索処理は、例えば、図3に示したCPU301と、メモリ302や記録媒体305などの記憶領域と、ネットワークI/F303とによって実現される。
(Search processing procedure)
Next, an example of the search processing procedure executed by the information processing apparatus 100 will be described with reference to FIG. The search process is realized, for example, by the CPU 301 shown in FIG. 3, a storage area such as a memory 302 or a recording medium 305, and a network I / F 303.

図21は、検索処理手順の一例を示すフローチャートである。図21において、情報処理装置100は、検索クエリを受け付ける(ステップS2101)。次に、情報処理装置100は、検索クエリの化合物名を直接示すノードを、ナレッジグラフから検索する(ステップS2102)。 FIG. 21 is a flowchart showing an example of the search processing procedure. In FIG. 21, the information processing apparatus 100 receives a search query (step S2101). Next, the information processing apparatus 100 searches the knowledge graph for a node that directly indicates the compound name of the search query (step S2102).

そして、情報処理装置100は、検索クエリの化合物名を直接示すノードが発見されたか否かを判定する(ステップS2103)。ここで、ノードが発見された場合(ステップS2103:Yes)、情報処理装置100は、ステップS2108の処理に移行する。一方で、ノードが発見されない場合(ステップS2103:No)、情報処理装置100は、ステップS2104の処理に移行する。 Then, the information processing apparatus 100 determines whether or not a node directly indicating the compound name of the search query has been found (step S2103). Here, when the node is found (step S2103: Yes), the information processing apparatus 100 shifts to the process of step S2108. On the other hand, when the node is not found (step S2103: No), the information processing apparatus 100 shifts to the process of step S2104.

ステップS2104では、情報処理装置100は、検索クエリの化合物名から、置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を除去し、抽象化合物名を生成する(ステップS2104)。次に、情報処理装置100は、抽象化合物名を示すノードを、ナレッジグラフから検索する(ステップS2105)。 In step S2104, the information processing apparatus 100 removes a character string in which a number 1 or more indicating the bonding position of the substituent and a predetermined symbol are combined from the compound name of the search query to generate an abstract compound name (step S2104). S2104). Next, the information processing apparatus 100 searches the knowledge graph for a node indicating the abstract compound name (step S2105).

そして、情報処理装置100は、抽象化合物名を示すノードが発見されたか否かを判定する(ステップS2106)。ここで、ノードが発見された場合(ステップS2106:Yes)、情報処理装置100は、ステップS2107の処理に移行する。一方で、ノードが発見されない場合(ステップS2106:No)、情報処理装置100は、ステップS2109の処理に移行する。 Then, the information processing apparatus 100 determines whether or not a node indicating the abstract compound name has been found (step S2106). Here, when the node is found (step S2106: Yes), the information processing apparatus 100 shifts to the process of step S2107. On the other hand, when the node is not found (step S2106: No), the information processing apparatus 100 shifts to the process of step S2109.

ステップS2107では、情報処理装置100は、発見されたノードから、除去した文字列に対応するノードの方向に辿り、検索クエリの化合物名に対応するノードを特定する(ステップS2107)。そして、情報処理装置100は、ステップS2108の処理に移行する。 In step S2107, the information processing apparatus 100 traces from the discovered node in the direction of the node corresponding to the removed character string, and identifies the node corresponding to the compound name of the search query (step S2107). Then, the information processing apparatus 100 shifts to the process of step S2108.

ステップS2108では、情報処理装置100は、検索クエリの化合物名を直接示すノード、または、検索クエリの化合物名に対応するノードにリンク付けられた、化合物の分子式や分子量、または、化合物の機能や用途などを出力する(ステップS2108)。そして、情報処理装置100は、検索処理を終了する。 In step S2108, the information processing apparatus 100 is linked to a node that directly indicates the compound name of the search query or a node that corresponds to the compound name of the search query, and the molecular formula or weight of the compound, or the function or use of the compound. Etc. are output (step S2108). Then, the information processing device 100 ends the search process.

ステップS2109では、情報処理装置100は、検索クエリの化合物名から、置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列をすべて除去したか否かを判定する(ステップS2109)。ここで、除去していない文字列がある場合(ステップS2109:No)、情報処理装置100は、ステップS2104の処理に戻る。一方で、文字列をすべて除去している場合(ステップS2109:Yes)、情報処理装置100は、検索処理を終了する。 In step S2109, the information processing apparatus 100 determines whether or not all the character strings in which a number 1 or more indicating the bonding position of the substituent and a predetermined symbol are combined are removed from the compound name of the search query (step). S2109). Here, if there is a character string that has not been removed (step S2109: No), the information processing apparatus 100 returns to the process of step S2104. On the other hand, when all the character strings are removed (step S2109: Yes), the information processing apparatus 100 ends the search process.

ここで、情報処理装置100は、図20および図21の一部ステップの処理を省略してもよい。例えば、ステップS2009,S2010の処理は省略可能である。 Here, the information processing apparatus 100 may omit the processing of some steps of FIGS. 20 and 21. For example, the processing of steps S2009 and S2010 can be omitted.

以上説明したように、情報処理装置100によれば、第1の化合物名に関する検索クエリを取得することができる。情報処理装置100によれば、取得した検索クエリに基づいて、第1の化合物名に含まれる置換基の結合位置を示す文字列を特定することができる。情報処理装置100によれば、第1の化合物名から、特定した文字列を除去した抽象化合物名を生成することができる。情報処理装置100によれば、化合物名を示すノード同士をリンク付けしたグラフ内から、生成した抽象化合物名を示すノードを検索することができる。情報処理装置100によれば、抽象化合物名を示すノードを発見した場合に、グラフ内で、発見したノードを起点に、特定した文字列に対応する化合物名を示すノードへのリンクを辿って、第1の化合物名に対応するノードを検索することができる。これにより、情報処理装置100は、第1の化合物名を直接的に示すノードが存在しなくても、第1の化合物名に対応するノードを発見することができる。このため、情報処理装置100は、グラフを利用し、情報検索、情報解析、または、読解支援などを実施可能にすることができる。 As described above, according to the information processing apparatus 100, it is possible to obtain a search query relating to the first compound name. According to the information processing apparatus 100, a character string indicating the binding position of the substituent contained in the first compound name can be specified based on the acquired search query. According to the information processing apparatus 100, it is possible to generate an abstract compound name obtained by removing the specified character string from the first compound name. According to the information processing apparatus 100, the node indicating the generated abstract compound name can be searched from the graph in which the nodes indicating the compound name are linked to each other. According to the information processing apparatus 100, when a node indicating an abstract compound name is found, a link to a node indicating the compound name corresponding to the specified character string is followed from the found node as a starting point in the graph. The node corresponding to the first compound name can be searched. As a result, the information processing apparatus 100 can find the node corresponding to the first compound name even if the node directly indicating the first compound name does not exist. Therefore, the information processing apparatus 100 can use the graph to enable information retrieval, information analysis, reading comprehension support, and the like.

情報処理装置100によれば、取得した検索クエリに基づいて、第1の化合物名に含まれる置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を特定することができる。これにより、情報処理装置100は、第1の化合物名から、1以上の数字と所定の記号とを組み合わせた文字列を纏めて除去して抽象化合物名を生成することができる。 According to the information processing apparatus 100, based on the acquired search query, it is possible to specify a character string in which a number 1 or more indicating the bonding position of the substituent included in the first compound name and a predetermined symbol are combined. it can. As a result, the information processing apparatus 100 can generate an abstract compound name by collectively removing a character string in which one or more numbers and a predetermined symbol are combined from the first compound name.

情報処理装置100によれば、抽象化合物名を示すノードを発見しない場合に、特定済みの文字列とは異なる、第1の化合物名に含まれる置換基の結合位置を示す文字列を特定することができる。情報処理装置100によれば、第1の化合物名から、特定した文字列をすべて除去した抽象化合物名を生成することができる。情報処理装置100によれば、グラフ内から、生成した抽象化合物名を示すノードを検索することができる。これにより、情報処理装置100は、再帰的に、第1の化合物名の抽象化を繰り返し、抽象化合物名を示すノードを発見可能にすることができる。 According to the information processing apparatus 100, when the node indicating the abstract compound name is not found, the character string indicating the bonding position of the substituent contained in the first compound name, which is different from the specified character string, is specified. Can be done. According to the information processing apparatus 100, it is possible to generate an abstract compound name obtained by removing all the specified character strings from the first compound name. According to the information processing apparatus 100, it is possible to search the graph for a node indicating the generated abstract compound name. As a result, the information processing apparatus 100 can recursively repeat the abstraction of the first compound name and make it possible to discover the node indicating the abstract compound name.

情報処理装置100によれば、文章集合から、化合物名としての条件を満たす複数の文字列を抽出することができる。情報処理装置100によれば、化合物名を記憶する辞書情報を参照して、抽出した複数の文字列のうち、化合物名であると判定した文字列を示すノードを含むグラフを生成することができる。情報処理装置100によれば、生成したグラフ内のいずれかのノードが示す化合物名から置換基の結合位置を示す文字列を除去した抽象化合物名を示す新たなノードを生成し、いずれかのノードの上位にリンク付けして、グラフに追加することができる。これにより、情報処理装置100は、ナレッジグラフを生成することができる。 According to the information processing apparatus 100, a plurality of character strings satisfying the conditions as the compound name can be extracted from the sentence set. According to the information processing apparatus 100, it is possible to generate a graph including a node indicating a character string determined to be a compound name among a plurality of extracted character strings by referring to dictionary information for storing the compound name. .. According to the information processing apparatus 100, a new node indicating the abstract compound name is generated by removing the character string indicating the bonding position of the substituent from the compound name indicated by any node in the generated graph, and any node is generated. It can be added to the graph by linking to the top of. As a result, the information processing apparatus 100 can generate a knowledge graph.

情報処理装置100によれば、いずれかのノードが示す化合物名から、置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を除去した抽象化合物名を示す新たなノードを生成することができる。これにより、情報処理装置100は、化合物名から、1以上の数字と所定の記号とを組み合わせた文字列を纏めて除去して抽象化合物名を生成するため、抽象化合物名を示すノードの膨大化を抑制することができる。 According to the information processing apparatus 100, a new node indicating an abstract compound name obtained by removing a character string obtained by combining a number 1 or more indicating a bonding position of a substituent and a predetermined symbol from the compound name indicated by any node. Can be generated. As a result, the information processing apparatus 100 collectively removes a character string combining one or more numbers and a predetermined symbol from the compound name to generate an abstract compound name, so that the number of nodes indicating the abstract compound name is increased. Can be suppressed.

情報処理装置100によれば、生成したグラフ内に、置換基の結合位置を示す文字列を除去すると、同じ抽象化合物名になる化合物名を示すノードが、所定の数以上存在する場合に、新たなノードを生成することができる。これにより、情報処理装置100は、抽象化合物名を示すノードの膨大化を抑制することができる。 According to the information processing apparatus 100, when the generated graph has more than a predetermined number of nodes showing compound names that have the same abstract compound name when the character string indicating the bonding position of the substituent is removed, a new node is found. Nodes can be created. As a result, the information processing apparatus 100 can suppress the enormous number of nodes indicating the abstract compound name.

情報処理装置100によれば、文章集合に、いずれかのノードが示す化合物名から置換基の結合位置を示す文字列を除去した抽象化合物名が閾値以上出現する場合に、新たなノードを生成することができる。これにより、情報処理装置100は、抽象化合物名を示すノードの膨大化を抑制することができる。 According to the information processing apparatus 100, a new node is generated when an abstract compound name obtained by removing a character string indicating a binding position of a substituent from a compound name indicated by any node appears in a sentence set in an amount equal to or greater than a threshold value. be able to. As a result, the information processing apparatus 100 can suppress the enormous number of nodes indicating the abstract compound name.

なお、本実施の形態で説明した検索方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本実施の形態で説明した検索プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本実施の形態で説明した検索プログラムは、インターネット等のネットワークを介して配布してもよい。 The search method described in the present embodiment can be realized by executing a program prepared in advance on a computer such as a personal computer or a workstation. The search program described in this embodiment is recorded on a computer-readable recording medium such as a hard disk, flexible disk, CD-ROM, MO, or DVD, and is executed by being read from the recording medium by the computer. Further, the search program described in the present embodiment may be distributed via a network such as the Internet.

上述した実施の形態に関し、さらに以下の付記を開示する。 The following additional notes are further disclosed with respect to the above-described embodiment.

(付記1)第1の化合物名に関する検索クエリを取得し、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列を除去した抽象化合物名を生成し、
化合物名を示すノード同士をリンク付けしたグラフ内から、生成した前記抽象化合物名を示すノードを検索し、
前記抽象化合物名を示すノードを発見した場合に、前記グラフ内で、発見した前記ノードを起点に、特定した前記文字列に対応する化合物名を示すノードへのリンクを辿って、前記第1の化合物名に対応するノードを検索する、
処理をコンピュータが実行することを特徴とする検索方法。
(Appendix 1) Obtain a search query for the first compound name and
Based on the acquired search query, a character string indicating the binding position of the substituent contained in the first compound name is specified.
An abstract compound name obtained by removing the specified character string from the first compound name is generated.
Search for the generated node showing the abstract compound name in the graph in which the nodes showing the compound name are linked.
When a node indicating the abstract compound name is found, the first node is traced from the found node to the node indicating the compound name corresponding to the specified character string in the graph. Search for the node corresponding to the compound name,
A search method characterized by the processing being performed by a computer.

(付記2)前記特定する処理は、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を特定する、ことを特徴とする付記1に記載の検索方法。
(Appendix 2) The specified process is
Addendum 1 characterized in that, based on the acquired search query, a character string in which a number 1 or more indicating a binding position of a substituent contained in the first compound name and a predetermined symbol are combined is specified. The search method described in.

(付記3)前記抽象化合物名を示すノードを発見しない場合に、特定済みの前記文字列とは異なる、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列をすべて除去した抽象化合物名を生成し、
前記グラフ内から、生成した前記抽象化合物名を示すノードを検索する、
処理を前記コンピュータが実行することを特徴とする付記1または2に記載の検索方法。
(Appendix 3) When the node indicating the abstract compound name is not found, a character string indicating the bonding position of the substituent contained in the first compound name, which is different from the specified character string, is specified.
An abstract compound name obtained by removing all the specified character strings from the first compound name is generated.
Search for the node indicating the generated abstract compound name in the graph.
The search method according to Appendix 1 or 2, wherein the processing is executed by the computer.

(付記4)文章集合から、化合物名としての条件を満たす複数の文字列を抽出し、
化合物名を記憶する辞書情報を参照して、抽出した前記複数の文字列のうち、化合物名であると判定した文字列を示すノードを含むグラフを生成し、
生成した前記グラフ内のいずれかのノードが示す化合物名から置換基の結合位置を示す文字列を除去した抽象化合物名を示す新たなノードを生成し、前記いずれかのノードの上位にリンク付けして、前記グラフに追加する、
処理を前記コンピュータが実行し、
前記抽象化合物名を示すノードを検索する処理は、
生成した前記グラフ内から、生成した前記抽象化合物名を示すノードを検索する、ことを特徴とする付記1〜3のいずれか一つに記載の検索方法。
(Appendix 4) Extract multiple character strings that satisfy the conditions as compound names from the sentence set.
With reference to the dictionary information for storing the compound name, a graph including a node indicating the character string determined to be the compound name is generated from the extracted plurality of character strings.
A new node showing the abstract compound name is generated by removing the character string indicating the binding position of the substituent from the compound name shown by any node in the generated graph, and linked to the upper part of the generated node. And add to the graph,
The computer executes the process
The process of searching for the node indicating the abstract compound name is
The search method according to any one of Supplementary note 1 to 3, wherein a node indicating the generated abstract compound name is searched from the generated graph.

(付記5)前記追加する処理は、
前記いずれかのノードが示す化合物名から、置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を除去した抽象化合物名を示す新たなノードを生成する、ことを特徴とする付記4に記載の検索方法。
(Appendix 5) The additional processing is
It is characterized in that a new node indicating an abstract compound name is generated by removing a character string in which a number 1 or more indicating a binding position of a substituent and a predetermined symbol are combined from the compound name indicated by any of the above nodes. The search method described in Appendix 4.

(付記6)前記追加する処理は、
生成した前記グラフ内に、置換基の結合位置を示す文字列を除去すると、同じ抽象化合物名になる化合物名を示すノードが、所定の数以上存在する場合に、前記新たなノードを生成する、ことを特徴とする付記4または5に記載の検索方法。
(Appendix 6) The additional processing is
When the character string indicating the bonding position of the substituent is removed from the generated graph, the new node is generated when there are a predetermined number or more of nodes indicating the compound name having the same abstract compound name. The search method according to Appendix 4 or 5, characterized in that.

(付記7)前記追加する処理は、
文章集合に、前記いずれかのノードが示す化合物名から置換基の結合位置を示す文字列を除去した抽象化合物名が閾値以上出現する場合に、前記新たなノードを生成する、ことを特徴とする付記4〜6のいずれか一つに記載の検索方法。
(Appendix 7) The additional processing is
The new node is generated when an abstract compound name obtained by removing a character string indicating a binding position of a substituent from the compound name indicated by any of the nodes appears in a sentence set in an amount equal to or larger than a threshold value. The search method described in any one of Appendix 4 to 6.

(付記8)第1の化合物名に関する検索クエリを取得し、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列を除去した抽象化合物名を生成し、
化合物名を示すノード同士をリンク付けしたグラフ内から、生成した前記抽象化合物名を示すノードを検索し、
前記抽象化合物名を示すノードを発見した場合に、前記グラフ内で、発見した前記ノードを起点に、特定した前記文字列に対応する化合物名を示すノードへのリンクを辿って、前記第1の化合物名に対応するノードを検索する、
処理をコンピュータに実行させることを特徴とする検索プログラム。
(Appendix 8) Obtain a search query for the first compound name and
Based on the acquired search query, a character string indicating the binding position of the substituent contained in the first compound name is specified.
An abstract compound name obtained by removing the specified character string from the first compound name is generated.
From the graph in which the nodes showing the compound names are linked, the generated node showing the abstract compound name is searched for.
When a node indicating the abstract compound name is found, the first node is traced from the found node to the node indicating the compound name corresponding to the specified character string in the graph. Search for the node corresponding to the compound name,
A search program characterized by having a computer perform processing.

(付記9)第1の化合物名に関する検索クエリを取得し、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列を除去した抽象化合物名を生成し、
化合物名を示すノード同士をリンク付けしたグラフ内から、生成した前記抽象化合物名を示すノードを検索し、
前記抽象化合物名を示すノードを発見した場合に、前記グラフ内で、発見した前記ノードを起点に、特定した前記文字列に対応する化合物名を示すノードへのリンクを辿って、前記第1の化合物名に対応するノードを検索する、
制御部を有することを特徴とする情報処理装置。
(Appendix 9) Obtain a search query for the first compound name and
Based on the acquired search query, a character string indicating the binding position of the substituent contained in the first compound name is specified.
An abstract compound name obtained by removing the specified character string from the first compound name is generated.
Search for the generated node showing the abstract compound name in the graph in which the nodes showing the compound name are linked.
When a node indicating the abstract compound name is found, the first node is traced from the found node to the node indicating the compound name corresponding to the specified character string in the graph. Search for the node corresponding to the compound name,
An information processing device characterized by having a control unit.

100 情報処理装置
200 サービス提供システム
201 クライアント装置
210 ネットワーク
300,600 バス
301,601 CPU
302,602 メモリ
303,603 ネットワークI/F
304,604 記録媒体I/F
305,605 記録媒体
400 グラフ情報テーブル
500 辞書テーブル
606 ディスプレイ
607 入力装置
700 記憶部
701 取得部
702 第1の生成部
703 第2の生成部
704 第1の検索部
705 第2の検索部
706 出力部
801 化合物名判定部
802 化合物名抽象化部
803 URI生成部
804 リンク生成部
805 リンク数集計部
806 ノード確定部
807 パターン生成部
808 ノード検索部
809 具体化部
810 情報生成部
820,1000,1010 リスト
830,1400 検索クエリ
900,910,1301〜1304,1610,1701,1702 ノード
1100,1500,1710 化合物名
1101〜1108,1501〜1508,1901 文字列
1201〜1203,1211,1212,1600 抽象化合物名
1300 ナレッジグラフ
1801,1900 技術文書
1802,1902 解説文
100 Information processing equipment 200 Service provision system 201 Client equipment 210 Network 300,600 Bus 301,601 CPU
302,602 Memory 303,603 Network I / F
304,604 Recording medium I / F
305,605 Recording medium 400 Graph information table 500 Dictionary table 606 Display 607 Input device 700 Storage unit 701 Acquisition unit 702 First generation unit 703 Second generation unit 704 First search unit 705 Second search unit 706 Output unit 801 Compound name judgment unit 802 Compound name abstraction unit 803 URI generation unit 804 Link generation unit 805 Link number totaling unit 806 Node confirmation unit 807 Pattern generation unit 808 Node search unit 809 Materialization unit 810 Information generation unit 820, 1000, 1010 List 830,1400 Search query 900,910,1301-1304,1610,1701,1702 Node 1100,1500,1710 Compound name 1101-1108,1501-1508,1901 String 1201-1203,1211,121,1600 Abstract compound name 1300 Knowledge Graph 1801,1900 Technical Document 1802,1902 Commentary

Claims (7)

第1の化合物名に関する検索クエリを取得し、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列を除去した抽象化合物名を生成し、
化合物名を示すノード同士をリンク付けしたグラフ内から、生成した前記抽象化合物名を示すノードを検索し、
前記抽象化合物名を示すノードを発見した場合に、前記グラフ内で、発見した前記ノードを起点に、特定した前記文字列に対応する化合物名を示すノードへのリンクを辿って、前記第1の化合物名に対応するノードを検索する、
処理をコンピュータが実行することを特徴とする検索方法。
Get a search query for the first compound name
Based on the acquired search query, a character string indicating the binding position of the substituent contained in the first compound name is specified.
An abstract compound name obtained by removing the specified character string from the first compound name is generated.
Search for the generated node showing the abstract compound name in the graph in which the nodes showing the compound name are linked.
When a node indicating the abstract compound name is found, the first node is traced from the found node to the node indicating the compound name corresponding to the specified character string in the graph. Search for the node corresponding to the compound name,
A search method characterized by the processing being performed by a computer.
前記特定する処理は、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を特定する、ことを特徴とする請求項1に記載の検索方法。
The specific process is
The claim is characterized in that, based on the acquired search query, a character string in which a number 1 or more indicating a bonding position of a substituent contained in the first compound name and a predetermined symbol are combined is specified. The search method described in 1.
前記抽象化合物名を示すノードを発見しない場合に、特定済みの前記文字列とは異なる、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列をすべて除去した抽象化合物名を生成し、
前記グラフ内から、生成した前記抽象化合物名を示すノードを検索する、
処理を前記コンピュータが実行することを特徴とする請求項1または2に記載の検索方法。
When the node indicating the abstract compound name is not found, a character string indicating the bonding position of the substituent contained in the first compound name, which is different from the identified character string, is specified.
An abstract compound name obtained by removing all the specified character strings from the first compound name is generated.
Search for the node indicating the generated abstract compound name in the graph.
The search method according to claim 1 or 2, wherein the processing is executed by the computer.
文章集合から、化合物名としての条件を満たす複数の文字列を抽出し、
化合物名を記憶する辞書情報を参照して、抽出した前記複数の文字列のうち、化合物名であると判定した文字列を示すノードを含むグラフを生成し、
生成した前記グラフ内のいずれかのノードが示す化合物名から置換基の結合位置を示す文字列を除去した抽象化合物名を示す新たなノードを生成し、前記いずれかのノードの上位にリンク付けして、前記グラフに追加する、
処理を前記コンピュータが実行し、
前記抽象化合物名を示すノードを検索する処理は、
生成した前記グラフ内から、生成した前記抽象化合物名を示すノードを検索する、ことを特徴とする請求項1〜3のいずれか一つに記載の検索方法。
Extract multiple character strings that satisfy the conditions as compound names from the sentence set,
With reference to the dictionary information for storing the compound name, a graph including a node indicating the character string determined to be the compound name is generated from the extracted plurality of character strings.
A new node showing the abstract compound name is generated by removing the character string indicating the binding position of the substituent from the compound name shown by any node in the generated graph, and linked to the upper part of the generated node. And add to the graph,
The computer executes the process
The process of searching for the node indicating the abstract compound name is
The search method according to any one of claims 1 to 3, wherein a node indicating the generated abstract compound name is searched from the generated graph.
前記追加する処理は、
前記いずれかのノードが示す化合物名から、置換基の結合位置を示す1以上の数字と所定の記号とを組み合わせた文字列を除去した抽象化合物名を示す新たなノードを生成する、ことを特徴とする請求項4に記載の検索方法。
The process to be added is
It is characterized in that a new node indicating an abstract compound name is generated by removing a character string in which a number 1 or more indicating a bonding position of a substituent and a predetermined symbol are combined from the compound name indicated by any of the above nodes. The search method according to claim 4.
第1の化合物名に関する検索クエリを取得し、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列を除去した抽象化合物名を生成し、
化合物名を示すノード同士をリンク付けしたグラフ内から、生成した前記抽象化合物名を示すノードを検索し、
前記抽象化合物名を示すノードを発見した場合に、前記グラフ内で、発見した前記ノードを起点に、特定した前記文字列に対応する化合物名を示すノードへのリンクを辿って、前記第1の化合物名に対応するノードを検索する、
処理をコンピュータに実行させることを特徴とする検索プログラム。
Get a search query for the first compound name
Based on the acquired search query, a character string indicating the binding position of the substituent contained in the first compound name is specified.
An abstract compound name obtained by removing the specified character string from the first compound name is generated.
Search for the generated node showing the abstract compound name in the graph in which the nodes showing the compound name are linked.
When a node indicating the abstract compound name is found, the first node is traced from the found node to the node indicating the compound name corresponding to the specified character string in the graph. Search for the node corresponding to the compound name,
A search program characterized by having a computer perform processing.
第1の化合物名に関する検索クエリを取得し、
取得した前記検索クエリに基づいて、前記第1の化合物名に含まれる置換基の結合位置を示す文字列を特定し、
前記第1の化合物名から、特定した前記文字列を除去した抽象化合物名を生成し、
化合物名を示すノード同士をリンク付けしたグラフ内から、生成した前記抽象化合物名を示すノードを検索し、
前記抽象化合物名を示すノードを発見した場合に、前記グラフ内で、発見した前記ノードを起点に、特定した前記文字列に対応する化合物名を示すノードへのリンクを辿って、前記第1の化合物名に対応するノードを検索する、
制御部を有することを特徴とする情報処理装置。
Get a search query for the first compound name
Based on the acquired search query, a character string indicating the binding position of the substituent contained in the first compound name is specified.
An abstract compound name obtained by removing the specified character string from the first compound name is generated.
Search for the generated node showing the abstract compound name in the graph in which the nodes showing the compound name are linked.
When a node indicating the abstract compound name is found, the first node is traced from the found node to the node indicating the compound name corresponding to the specified character string in the graph. Search for the node corresponding to the compound name,
An information processing device characterized by having a control unit.
JP2019093100A 2019-05-16 2019-05-16 SEARCH METHOD, SEARCH PROGRAM, AND INFORMATION PROCESSING DEVICE Active JP7322500B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019093100A JP7322500B2 (en) 2019-05-16 2019-05-16 SEARCH METHOD, SEARCH PROGRAM, AND INFORMATION PROCESSING DEVICE

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019093100A JP7322500B2 (en) 2019-05-16 2019-05-16 SEARCH METHOD, SEARCH PROGRAM, AND INFORMATION PROCESSING DEVICE

Publications (2)

Publication Number Publication Date
JP2020187647A true JP2020187647A (en) 2020-11-19
JP7322500B2 JP7322500B2 (en) 2023-08-08

Family

ID=73221842

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019093100A Active JP7322500B2 (en) 2019-05-16 2019-05-16 SEARCH METHOD, SEARCH PROGRAM, AND INFORMATION PROCESSING DEVICE

Country Status (1)

Country Link
JP (1) JP7322500B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529123A (en) * 1999-07-23 2003-09-30 マーク・アンド・カンパニー・インコーポレイテッド Text-Sensitive Molecular Indexing System and Computer-implemented and / or Computer-Assisted Method Thereof
JP2007323182A (en) * 2006-05-30 2007-12-13 Riron Soyaku Kenkyusho:Kk System and method for searching chemical structure from large-scale chemical structure database at high speed
JP2013101509A (en) * 2011-11-08 2013-05-23 Fujitsu Ltd Generation device, generation method, and generation program
JP2013101511A (en) * 2011-11-08 2013-05-23 Fujitsu Ltd Compound classification device, compound classification program, and compound classification method
JP2014092930A (en) * 2012-11-02 2014-05-19 Fujitsu Ltd Information provision method, information provision device and information provision program
JP2015099497A (en) * 2013-11-19 2015-05-28 株式会社Sbx Knowledge information processing device, knowledge information processing method, and program
JP2020035172A (en) * 2018-08-30 2020-03-05 富士通株式会社 Generation method, generation program, and generation device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003529123A (en) * 1999-07-23 2003-09-30 マーク・アンド・カンパニー・インコーポレイテッド Text-Sensitive Molecular Indexing System and Computer-implemented and / or Computer-Assisted Method Thereof
JP2007323182A (en) * 2006-05-30 2007-12-13 Riron Soyaku Kenkyusho:Kk System and method for searching chemical structure from large-scale chemical structure database at high speed
JP2013101509A (en) * 2011-11-08 2013-05-23 Fujitsu Ltd Generation device, generation method, and generation program
JP2013101511A (en) * 2011-11-08 2013-05-23 Fujitsu Ltd Compound classification device, compound classification program, and compound classification method
JP2014092930A (en) * 2012-11-02 2014-05-19 Fujitsu Ltd Information provision method, information provision device and information provision program
JP2015099497A (en) * 2013-11-19 2015-05-28 株式会社Sbx Knowledge information processing device, knowledge information processing method, and program
JP2020035172A (en) * 2018-08-30 2020-03-05 富士通株式会社 Generation method, generation program, and generation device

Also Published As

Publication number Publication date
JP7322500B2 (en) 2023-08-08

Similar Documents

Publication Publication Date Title
JP5264892B2 (en) Multilingual information search
US8996550B2 (en) Autocompletion for partially entered query
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
AU2010328181B2 (en) Resource search operations
KR20110039233A (en) Resource locator suggestions from input character sequence
JP7081396B2 (en) Generation method, generation program, and generation device
JP5185402B2 (en) Document search apparatus, document search method, and document search program
JP2007334799A (en) Information provision program, recording medium which records the program, information provision device and information provision method
US8001138B2 (en) Word relationship driven search
CN104268176A (en) Recommendation method and system based on search keyword
JP2006178599A (en) Document retrieval device and method
JP2006302024A (en) Relevant document display method and program
JP5179564B2 (en) Query segment position determination device
JP7322500B2 (en) SEARCH METHOD, SEARCH PROGRAM, AND INFORMATION PROCESSING DEVICE
JP2010140275A (en) Content retrieval device, content retrieval method and program
JP2010015394A (en) Link destination presentation device and computer program
JP2010086210A (en) Retrieval method, program, and server for preferentially displaying page corresponding to amount of information
JP2014120080A (en) Keyword presentation program, keyword presentation method, and keyword presentation device
JP2006163645A (en) Method, device and program for retrieving information, computer readable recording medium and device recorded with the program
JP4152669B2 (en) Document search apparatus, document search method, recording medium, and program
JP2004318480A (en) Electronic device, method for extracting new word, and program
JP2011145917A (en) Retrieval device and program
JP2008262442A (en) Method for displaying retrieval key data, and server
JP2005222244A (en) Word retrieval device, word retrieval method, and information providing system equipped with word retrieval device
JP2006172029A (en) Method for presenting retrieval result

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220208

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230710

R150 Certificate of patent or registration of utility model

Ref document number: 7322500

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150