JP7444261B2 - 化合物置換プログラム、方法、装置 - Google Patents

化合物置換プログラム、方法、装置 Download PDF

Info

Publication number
JP7444261B2
JP7444261B2 JP2022539946A JP2022539946A JP7444261B2 JP 7444261 B2 JP7444261 B2 JP 7444261B2 JP 2022539946 A JP2022539946 A JP 2022539946A JP 2022539946 A JP2022539946 A JP 2022539946A JP 7444261 B2 JP7444261 B2 JP 7444261B2
Authority
JP
Japan
Prior art keywords
partial structure
compound
partial
score
information indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022539946A
Other languages
English (en)
Other versions
JPWO2022024349A1 (ja
Inventor
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of JPWO2022024349A1 publication Critical patent/JPWO2022024349A1/ja
Application granted granted Critical
Publication of JP7444261B2 publication Critical patent/JP7444261B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/30Prediction of properties of chemical compounds, compositions or mixtures
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/40Searching chemical structures or physicochemical data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/50Molecular design, e.g. of drugs

Landscapes

  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、化合物置換技術に関する。
化学の分野では、化合物名をキーに指定して特許公報や論文等の文書を検索することがある。その際、キーに指定した化合物名が示す化合物だけでなく、当該化合物と類似の構造を持つ化合物に関する文書を得ることは有用である。これに対し、従来、キーに指定した化合物名が示す化合物と類似の構造を持つ化合物を特定し、特定した化合物に関する文書を検索するための技術が提案されている。
特開平11-175552号公報 特開2007-153767号公報
しかしながら、従来の技術では、性質の類似する化合物を特定することが難しい場合があるという問題がある。
例えば、従来の技術によれば、第1の化合物の部分構造を、同じ上位概念に属する下位概念に相当する部分構造に置き換えることで、第1の化合物と類似の構造を持つ第2の化合物を得ることができる。具体的には、「2,2‐ビス(4‐ヒドロキシフェニル)プロパン」(ビスフェノールA)のプロピルを、他のアルキル基に置き換えることで類似の化合物を得ることができる。
ここで、ビスフェノールAのプロピルをブチルに置き換えて得られる化合物は、構造的にも性質的にも元のビスフェノールAに類似しているといえる。一方で、ビスフェノールAのプロピルをペンチルに置き換えて得られる化合物は、同じアルキル基の部分構造を持つことから、構造的には元のビスフェノールAに類似しているといえるが、鎖が長くなってくることから、性質が類似しているとはいえない場合がある。
1つの側面では、性質の類似する化合物を特定することを目的とする。
1つの態様において、化合物置換プログラムは、第1の化合物に含まれる第1の部分構造を特定する処理をコンピュータに実行させる。化合物置換プログラムは、複数の部分構造間の関係を示す情報を参照し、第1の部分構造に関連する第2の部分構造を選択する処理をコンピュータに実行させる。化合物置換プログラムは、複数のテキストデータにおける第1の部分構造と第2の部分構造とを含むグループの出現状況に基づいて算出されたスコアが閾値以上であるか判定する処理をコンピュータに実行させる。化合物置換プログラムは、スコアが閾値以上であると判定された場合、第1の化合物の第1の部分構造を第2の部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する処理をコンピュータに実行させる。
図1は、化合物置換装置の構成例を示す図である。 図2は、スコア情報のデータ構造の例を示す図である。 図3は、部品化ルールのデータ構造の例を示す図である。 図4は、ナレッジグラフの例を示す図である。 図5は、構造が類似する化合物を得る処理を説明する図である。 図6は、スコアを算出する処理の流れを示すフローチャートである。 図7は、類似する化合物を得る処理の流れを示すフローチャートである。 図8は、ハードウェア構成例を説明する図である。
以下に、本発明に係る化合物置換プログラム、方法、装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
図1を用いて、実施例に係る化合物置換装置の構成を説明する。図1は、化合物置換装置の構成例を示す図である。図1に示すように、化合物置換装置10には、化合物名及びコーパスが入力される。また、化合物置換装置10は、類似化合物名を出力する。
図1に示すように、化合物置換装置10は、抽出部101、頻度集計部102及びスコア算出部103を有する。また、化合物置換装置10は、解析部104、変換部105、上位概念探索部106、下位概念探索部107、選択部108、逆変換部109、置換部110、化合物名生成部111及び検索部121を有する。また、化合物置換装置10は、ナレッジグラフ151、スコア情報152、部品化ルール153及び文書DB154を記憶する。
ナレッジグラフ151は、化合物の部分構造の上位概念及び下位概念の関係を表したグラフである。例えば、ナレッジグラフ151においては、1つの上位概念に対し複数の下位概念が対応付けられている場合がある。
スコア情報152は、上位概念と置換前後の下位概念の組み合わせと、各組み合わせの置換可能度合いを対応付けた情報である。図2は、スコア情報のデータ構造の例を示す図である。図2に示すように、上位概念に対して、置換前の下位概念である下位概念1と置換後の下位概念である下位概念2が対応付けられている。さらに、スコア情報152には、上位概念及び下位概念の分類、出現頻度及び置換可能度合いが含まれる。なお、以降の説明では、置換可能度合いを単にスコアと呼ぶ場合がある。
例えば、図2には、下位概念1がプロピルであり、下位概念2がエチルである組み合わせの分類は置換基であり、出現頻度は15であり、置換可能度合いは15/((7+15+10+3)/2)=0.86であることが示されている。
部品化ルール153は、化合物の部分構造を置換基に変換するためのルールである。図3は、部品化ルールのデータ構造の例を示す図である。図3に示すように、部品化ルール153には、部分構造名の変換方法と化学式の変換方法が含まれる。例えば、図3には、語尾の「タン」を「チル」に置き換える方法により部分構造名が変換される場合、化学式は水素を1つ抜き取ることにより変換されることが示されている。
文書DB154は、文書群を記憶するデータベースである。文書DBに記憶される文書は、例えば特許明細書、論文、書籍等である。文書DB154に記憶される後述するコーパスに含まれるものであってもよい。
抽出部101、頻度集計部102及びスコア算出部103は、化学分野の文書を基にスコア情報152を生成する。文書は、例えば特許明細書、論文、書籍等である。また、スコア情報152を生成するための文書をコーパスと呼ぶ。
抽出部101は、コーパスから上位概念及び下位概念を限定するための情報を抽出する。抽出部101が抽出する情報は、例えば元素とその数であってもよいし、下位概念に相当する構造の名称や化学式であってもよい。
例えば、抽出部101は、[元素記号][数字][-~][元素記号][数字]の?.+基を抽出するものとする。この場合、抽出部101は、「R2は1個以上のフッ素原子を有していてもよいC1-C4アルキル基...」という文から、下位概念の元素記号「C」を抽出し、元素記号「C」の数として「1個~4個」を抽出し、上位概念として「アルキル基」を抽出する。
また、例えば、抽出部101は、.+基としては、([部分構造]、)+(など)を抽出するものとする。この場合、抽出部101は、「アルキル基としては、エチル基、プロピル基、ブチル基などを挙げることができる」という文から、上位概念として「アルキル基」を抽出し、下位概念として、エチル、プロピル、ブチルを抽出する。
頻度集計部102は、抽出部101によって抽出された情報を集積する。まず、頻度集計部102は、抽出部101によって抽出された情報に含まれる条件を、ナレッジグラフ151を用いて統一的な表現で集積する。
頻度集計部102による条件の集積手順は以下の通りである。すなわち、頻度集計部102は、上位概念でナレッジグラフ151を検索する。次に、頻度集計部102は、上位概念のノードを特定したら、下位概念としてつながっているノードを順にたどり、それぞれのノードの部分構造から部分構造辞書を参照して、示性式を取得する。さらに、頻度集計部102は、取得した示性式について、抽出した条件との照合を行う。
図4は、ナレッジグラフの例を示す図である。ここで、抽出部101によって抽出された情報に含まれる上位概念は「アルキル基」であり、条件は「Cの数が1~4個」であるものとする。このとき、頻度集計部102は、図4に示すように、「アルキル基」のノードを特定する。そして、頻度集計部102は、下位概念として「アルキル基」のノードにつながっている「メチル」、「エチル」、「プロピル」、「ブチル」、「ペンチル」を順にたどり、それぞれの示性式を得る。このうち、「メチル」、「エチル」、「プロピル」、「ブチル」は、Cの数が1~4個なので条件に合致する。一方、「ペンチル」は、Cの数が5個なので条件に合致しない。
頻度集計部102は、合致と判定されたものに対して、下位概念から下位概念へのパスについて出現頻度をインクリメントする。つまり、スコア情報152の出現頻度を増加させる。また、化合物名の羅列の場合には、頻度集計部102は、出現した下位概念と、上位概念と下位概念の組み合わせについて出現頻度をインクリメントする。
スコア算出部103は、スコア情報152の出現頻度を元に置換可能度合い(スコア)を算出する。スコア算出部103は、算出した置換可能度合いをスコア情報152に登録する。
ここで、抽出部101は、共起する部分構造の名称を抽出するということができる。スコア算出部103は、部分構造間のスコアである置換可能度合いを、共起頻度に基づき、共起する確率が高い部分構造の組み合わせほど大きくなるように算出する。
例えば、置換可能度合いは、上位概念が下位概念に置き換えられる確率であるため、スコア算出部103は、例えば(1)式のように置換可能度合い算出する。
下位概念1と下位概念2の置換可能度合い=上位概念と下位概念1と下位概念2の組の出現頻度/(下位概念1の出現頻度と下位概念2の出現頻度の総和/2) …(1)
図2を基に、上位概念が「アルキル基」、下位概念1が「プロピル」、下位概念2が「エチル」の場合の置換可能度合いの計算方法を説明する。初めは、出現頻度は登録済みであり、置換可能度合いは未登録であるものとする。
まず、上位概念と下位概念1と下位概念2の組の出現頻度は、出現頻度に登録されている通り15である。また、下位概念1の出現頻度と下位概念2の出現頻度の総和は、下位概念1又は下位概念2として「プロピル」又は「エチル」が出現する行の出現頻度の総計なので、7+15+10+3=35である。これより、置換可能度合いは、15/(35/2)=0.86となる。
解析部104、変換部105、上位概念探索部106、下位概念探索部107、選択部108、逆変換部109、置換部110及び化合物名生成部111は、スコア情報152を参照して、化合物名を基に類似化合物名を出力するための処理を行う。
解析部104は、入力された化合物名を解析する。例えば、図5に示すように、解析部104は、入力された化合物名が示す化合物を、部分構造へ展開する。図5は、構造が類似する化合物を得る処理を説明する図である。
図5の例では、解析部104は、「2,2‐ビス(4‐ヒドロキシフェニル)プロパン」という文字列の入力を受け付ける。2,2‐ビス(4‐ヒドロキシフェニル)プロパンは、第1の化合物の一例である。
解析部104は、「2,2‐ビス(4‐ヒドロキシフェニル)プロパン」という文字列を基に、プロパンに対し2つのフェニルが結合し、さらに各フェニルにヒドロキシが結合した構造を得る。図5のように、解析部104は、ツリー形式のデータで構造を表してもよい。
変換部105は、第1の化合物に含まれる第1の部分構造を特定し、特定した第1の部分構造の名称を置換基名に変換する。変換部105は、部品化ルール153に従って部分構造の名称を置換基名に変換する。例えば、変換部105は、他の部分構造に置き換えたときの化合物としての性質への影響がなるべく小さい部分構造を第1の部分構造として特定することができる。図5の例では、変換部105は、第1の部分構造としてプロパンを特定し、名称である「プロパン」を「プロピル」に変換する。
上位概念探索部106は、第1の部分構造をキーとしてナレッジグラフ151から上位概念を探索する。また、下位概念探索部107は、上位概念をキーとしてナレッジグラフ151から上位概念を探索する。
図4のナレッジグラフ151は、アルキル基の下位概念としてメチル、エチル、プロピル、ブチル及びペンチルが存在することを表している。言い換えると、図4のナレッジグラフは、メチル、エチル、プロピル、ブチル及びペンチルの共通の上位概念としてアルキル基が存在することを表している。
例えば、上位概念探索部106は、プロピルをキーとしてナレッジグラフ151の探索を行い、上位概念であるアルキル基を得る。そして、下位概念探索部107は、上位概念であるアルキル基をキーとして、メチル、エチル、ブチル及びペンチルを得る。なお、下位概念探索部107の探索結果には、上位概念探索部106の探索のキーであるプロピルが含まれていてもよい。
選択部108は、複数の部分構造間の関係を示す情報を参照し、第1の部分構造に関連する第2の部分構造を選択する。選択部108は、複数の部分構造間の関係を示す情報に示される、部分構造間の上位概念と下位概念の関係に基づき、第1の部分構造と同じ上位概念に属する下位概念に相当する部分構造を第2の部分構造として選択する。また、選択部108は、複数の部分構造を第2の部分構造として選択してもよい。
選択部108は、例えば下位概念探索部107によって探索された下位概念の一部又は全部を選択する。複数の部分構造間の関係を示す情報は、例えばナレッジグラフ151のアルキル基を上位概念に持つ下位概念の集合、すなわちメチル、エチル、ブチル及びペンチルである。
逆変換部109は、選択部108によって選択された第2の部分構造の名称を部分構造の名称に逆変換する。例えば、逆変換部109は、「メチル」、「エチル」、「プロピル」、「ブチル」、「ペンチル」を、それぞれ「メタン」、「エタン」、「プロパン」、「ブタン」、「ペンタン」に逆変換する。
化合物名生成部111は、スコアが閾値以上であると判定された場合、第1の化合物の第1の部分構造を第2の部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する。また、第1の部分構造の第2の部分構造への置き換えは、置換部110によって行われる。
このとき、化合物名生成部111は、選択部108によって選択された第2の部分構造のうち、条件を満たすものを基に第2の化合物を示す情報を生成する。例えば、化合物名生成部111は、第1の化合物の第1の部分構造を、第2の部分構造のうち、スコアが閾値以上であると判定された部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する。
化合物名生成部111は、複数のテキストデータにおける第1の部分構造と第2の部分構造とを含むグループの出現状況に基づいて算出されたスコアが閾値以上であるか判定する。ここで、スコアは、スコア情報152に登録された置換可能度合いである。置換可能度合いは、第1の部分構造と第2の部分構造とが、複数のテキストデータに含まれる同一のテキストデータ内に出現する頻度が大きいほど大きくなるスコアの一例である。
例えば、第1の化合物を2,2‐ビス(4‐ヒドロキシフェニル)プロパンとする。また、第1の部分構造をプロピルとする。また、選択部108は、第2の部分構造として、メチル、エチル、ブチル及びペンチルを選択したものとする。また、置換可能度合いの閾値を0.6とする。
図2のより、プロピルをエチルに置換する場合の置換可能度合いは0.86であり閾値以上であるため、化合物名生成部111は、プロピルをエチルに置換した化合物の名称を生成する。一方、プロピルをペンチルに置換する場合の置換可能度合いは0.18であり閾値未満であるため、化合物名生成部111は、プロピルをペンチルに置換した化合物の名称を生成しない。また、例えば、プロピルをブチルに置換する場合の置換可能度合いが閾値以上であれば、化合物名生成部111は、プロピルをブチルに置換した化合物の名称である「2,2‐ビス(4‐ヒドロキシフェニル)ブタン」を生成する。
検索部121は、第1の化合物を示す情報を入力として受け付け、化合物名生成部111によって生成された第2の化合物を示す情報に関連する文書を、文書DB154に記憶された文書群から検索する。例えば、化合物置換装置10に化合物名として「2,2‐ビス(4‐ヒドロキシフェニル)プロパン」が入力された場合、検索部121は、類似化合物名である「2,2‐ビス(4‐ヒドロキシフェニル)ブタン」をキーとして文書の検索を行うことができる。なお、化合物置換装置10は、類似化合物名を出力してもよいし、検索部121による検索結果を出力してもよい。
図6は、スコアを算出する処理の流れを示すフローチャートである。図6に示すように、まず、抽出部101は、コーパスから化合物及び部分構造を抽出し(ステップS101)、共起する部分構造の名称を抽出する(ステップS102)。そして、スコア算出部103は、共起頻度を基に部分構造間のスコアを計算し、スコア情報152に記録する。共起頻度は、例えばスコア情報152における出現頻度である。
図7は、類似する化合物を得る処理の流れを示すフローチャートである。図7に示すように、まず、解析部104は、キーに指定された第1の化合物名を解析する(ステップS201)。次に、変換部105は、解析で得られた第1の部分構造の名称をルールに従い変換する(ステップS202)。
ここで、上位概念探索部106は、名称を基に部分構造の上位概念を探索する(ステップS203)。また、下位概念探索部107は、上位概念に属する下位概念の部分構造を探索する(ステップS204)。上位概念探索部106及び下位概念探索部107は、ナレッジグラフ151の探索を行う。
選択部108は、探索した下位概念の第2の部分構造のうち未選択のものを選択する(ステップS205)。選択した第2の部分構造のスコアが閾値以上である場合(ステップS206、Yes)、化合物置換装置10はステップS207に進む。一方、選択した第2の部分構造のスコアが閾値以上でない場合(ステップS206、No)、化合物置換装置10はステップS210に進む。
逆変換部109は、第2の部分構造の名称をルールに従い逆変換する(ステップS207)。そして、置換部110は、第1の化合物の第1の部分構造を第2の部分構造に置換する(ステップS208)。ここで、化合物名生成部111は、置換によって得られた第2の化合物の情報を出力する(ステップS209)。また、化合物置換装置10は、第2の化合物の情報をキーとして文書の検索を行い、検索結果を出力してもよい。
未選択の部分構造がある場合(ステップS210、Yes)、化合物置換装置10はステップS205に戻り処理を繰り返す。また、未選択の部分構造がない場合(ステップS210、No)、化合物置換装置10は処理を終了する。
上述したように、変換部105は、第1の化合物に含まれる第1の部分構造を特定する。選択部108は、複数の部分構造間の関係を示す情報を参照し、第1の部分構造に関連する第2の部分構造を選択する。化合物名生成部111は、複数のテキストデータにおける第1の部分構造と第2の部分構造とを含むグループの出現状況に基づいて算出されたスコアが閾値以上であるか判定する。化合物名生成部111は、スコアが閾値以上であると判定された場合、第1の化合物の第1の部分構造を第2の部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する。このように、化合物置換装置10は、部分構造間のグループの出現状況(例えば、共起頻度)を考慮して、入力された化合物に類似する化合物を特定する。このため、本実施例によれば、性質の類似する化合物を特定することができる。
選択部108は、複数の部分構造間の関係を示す情報に示される、部分構造間の上位概念と下位概念の関係に基づき、第1の部分構造と同じ上位概念に属する下位概念に相当する部分構造を第2の部分構造として選択する。化合物の部分構造は、アルキル基、アルコールといった上位概念に属する場合がある。また、同じ上位概念に属する下位概念は性質が類似することがある。このため、本実施例によれば、性質が類似する化合物を特定することができる。
検索部121は、第1の化合物を示す情報を入力として受け付け、化合物名生成部111によって生成された第2の化合物を示す情報に関連する文書を、文書群から検索する。これにより、ユーザは化合物の情報を入力するだけで、当該化合物に類似する化合物に関する文書の検索結果を得ることができる。
化合物名生成部111は、第1の部分構造と第2の部分構造とが、複数のテキストデータに含まれる同一のテキストデータ内に出現する頻度が大きいほど大きくなるスコアが閾値以上であるか判定する。このように、実際に同じ文書の中に出現している頻度が高いほど類似化合物として特定されやすくなるため、本実施例によれば、性質が類似する化合物を特定する精度を向上させることができる。
選択部108は、複数の部分構造間の関係を示す情報に示される、部分構造間の上位概念と下位概念の関係に基づき、第1の部分構造と同じ上位概念に属する下位概念に相当する複数の部分構造を第2の部分構造として選択する。化合物名生成部111は、第1の化合物の第1の部分構造を、第2の部分構造のうち、スコアが閾値以上であると判定された部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する。このように、化合物置換装置10は、一部の部分構造を置き換えることで類似する化合物を得ることができる。このため、本実施例によれば、性質の類似する化合物を効率よく特定することができる。
本実施例は、例えば化合物名で文書の検索を行う場合に有効である。化学分野における文書検索では、キーワードとして名称を入力した化合物の異表記(別称、化学式、SMILES等)や、構造が完全に一致するわけではないが、類似した構造や性質を持つ化合物についても考慮したい場合がある。
例えば、入力した化合物と類似の化合物をキーに含めて検索できれば、特許文献間の類似度判定を行う場合にも有効である。一方で、例えば、化学分野の特許文献では、化合物名の羅列やマーカッシュクレーム等により、多数の化合物が関連付けて扱われる場合があり、検索の際にはそれらを化合物群としてとらえることで、より有益な検索結果が得られることが考えらえる。また、特許文献において化合物群全体がマーカッシュ形式で書かれ、具体的な個々の化合物名はわずかしか書かれない場合もある。さらに、化合物名で検索を行う場合に、それを含む化合物群を定義することは、専門的な知識と時間と労力が必要であり、見落としがあると検索漏れの原因となる。
本実施例によれば、例えば、「2,2‐ビス(4‐ヒドロキシフェニル)プロパン」という入力に対して、類似化合物の名称である「2,2‐ビス(4‐ヒドロキシフェニル)ブタン」を得ることができる。このとき、共起頻度が低い部分構造への置換により得られる化合部は除外される。例えば、上記の例では、2,2‐ビス(4‐ヒドロキシフェニル)ペンタンは除外される。これにより、本実施例によれば、より有益な検索結果を得るためのキーワードとして利用可能な化合物の名称を得ることができる。
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、CPU及び当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
図8は、ハードウェア構成例を説明する図である。図8に示すように、化合物置換装置10は、通信インタフェース10a、HDD(Hard Disk Drive)10b、メモリ10c、プロセッサ10dを有する。また、図8に示した各部は、バス等で相互に接続される。
通信インタフェース10aは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。HDD10bは、図1に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ10dは、図1に示した各処理部と同様の処理を実行するプログラムをHDD10b等から読み出してメモリ10cに展開することで、図1等で説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、化合物置換装置10が有する各処理部と同様の機能を実行する。具体的には、プロセッサ10dは、変換部105、選択部108、化合物名生成部111等と同様の機能を有するプログラムをHDD10b等から読み出す。そして、プロセッサ10dは、変換部105、選択部108、化合物名生成部111等と同様の処理を実行するプロセスを実行する。
このように化合物置換装置10は、プログラムを読み出して実行することで化合物置換方法を実行する情報処理装置として動作する。また、化合物置換装置10は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、化合物置換装置10によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。
このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。
10 化合物置換装置
101 抽出部
102 頻度集計部
103 スコア算出部
104 解析部
105 変換部
106 上位概念探索部
107 下位概念探索部
108 選択部
109 逆変換部
110 置換部
111 化合物名生成部
121 検索部
151 ナレッジグラフ
152 スコア情報
153 部品化ルール
154 文書DB

Claims (7)

  1. 第1の化合物に含まれる第1の部分構造を特定し、
    複数の部分構造間の関係を示す情報を参照し、前記第1の部分構造に関連する第2の部分構造を選択し、
    複数のテキストデータにおける前記第1の部分構造と第2の部分構造とを含むグループの出現状況に基づいて算出されたスコアが閾値以上であるか判定し、
    前記スコアが前記閾値以上であると判定された場合、前記第1の化合物の前記第1の部分構造を前記第2の部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する、
    処理をコンピュータに実行させることを特徴とする化合物置換プログラム。
  2. 前記選択する処理は、前記複数の部分構造間の関係を示す情報に示される、部分構造間の上位概念と下位概念の関係に基づき、前記第1の部分構造と同じ上位概念に属する下位概念に相当する部分構造を前記第2の部分構造として選択する処理を含む、
    ことを特徴とする請求項1に記載の化合物置換プログラム。
  3. 前記第1の化合物を示す情報を入力として受け付け、前記生成する処理によって生成された前記第2の化合物を示す情報に関連する文書を、文書群から抽出する、
    処理を前記コンピュータに実行させることを特徴とする請求項1に記載の化合物置換プログラム。
  4. 前記スコアは、前記第1の部分構造と第2の部分構造とが、前記複数のテキストデータに含まれる同一のテキストデータ内に出現する頻度が大きいほど大きくなるスコアである、
    ことを特徴とする請求項1に記載の化合物置換プログラム。
  5. 前記選択する処理は、前記複数の部分構造間の関係を示す情報に示される、部分構造間の上位概念と下位概念の関係に基づき、前記第1の部分構造と同じ上位概念に属する下位概念に相当する複数の部分構造を前記第2の部分構造として選択する処理を含み、
    前記生成する処理は、前記第1の化合物の前記第1の部分構造を、前記複数の部分構造のうち、前記スコアが前記閾値以上であると判定された特定の部分構造に置き換えることにより得られる前記第2の化合物を示す情報を生成する処理を含む、
    ことを特徴とする請求項1に記載の化合物置換プログラム。
  6. 第1の化合物に含まれる第1の部分構造を特定し、
    複数の部分構造間の関係を示す情報を参照し、前記第1の部分構造に関連する第2の部分構造を選択し、
    複数のテキストデータにおける前記第1の部分構造と第2の部分構造とを含むグループの出現状況に基づいて算出されたスコアが閾値以上であるか判定し、
    前記スコアが前記閾値以上であると判定された場合、前記第1の化合物の前記第1の部分構造を前記第2の部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する、
    処理をコンピュータが実行することを特徴とする化合物置換方法。
  7. 第1の化合物に含まれる第1の部分構造を特定し、
    複数の部分構造間の関係を示す情報を参照し、前記第1の部分構造に関連する第2の部分構造を選択し、
    複数のテキストデータにおける前記第1の部分構造と第2の部分構造とを含むグループの出現状況に基づいて算出されたスコアが閾値以上であるか判定し、
    前記スコアが前記閾値以上であると判定された場合、前記第1の化合物の前記第1の部分構造を前記第2の部分構造に置き換えることにより得られる第2の化合物を示す情報を生成する、
    制御部を含むことを特徴とする化合物置換装置。
JP2022539946A 2020-07-31 2020-07-31 化合物置換プログラム、方法、装置 Active JP7444261B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/029451 WO2022024349A1 (ja) 2020-07-31 2020-07-31 化合物置換プログラム、方法、装置

Publications (2)

Publication Number Publication Date
JPWO2022024349A1 JPWO2022024349A1 (ja) 2022-02-03
JP7444261B2 true JP7444261B2 (ja) 2024-03-06

Family

ID=80035313

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022539946A Active JP7444261B2 (ja) 2020-07-31 2020-07-31 化合物置換プログラム、方法、装置

Country Status (3)

Country Link
US (1) US20230115396A1 (ja)
JP (1) JP7444261B2 (ja)
WO (1) WO2022024349A1 (ja)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147374A (ja) 2017-03-08 2018-09-20 富士通株式会社 生成プログラム、生成方法、および生成装置
JP2020035172A (ja) 2018-08-30 2020-03-05 富士通株式会社 生成方法、生成プログラム、および生成装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147374A (ja) 2017-03-08 2018-09-20 富士通株式会社 生成プログラム、生成方法、および生成装置
JP2020035172A (ja) 2018-08-30 2020-03-05 富士通株式会社 生成方法、生成プログラム、および生成装置

Also Published As

Publication number Publication date
US20230115396A1 (en) 2023-04-13
WO2022024349A1 (ja) 2022-02-03
JPWO2022024349A1 (ja) 2022-02-03

Similar Documents

Publication Publication Date Title
JP5338238B2 (ja) ワードの類似性を用いたオントロジーの自動生成
JP5078173B2 (ja) 多義性解消方法とそのシステム
JP4930153B2 (ja) 文書検索システム、文書番号部分列取得装置、および文書検索方法
KR20080049804A (ko) 클릭 간격 결정
JP2012093927A (ja) ファイル管理装置及びファイル管理方法
JP5497105B2 (ja) 文書検索装置および方法
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
JP2020126360A (ja) 学習データ拡張装置、学習装置、翻訳装置、およびプログラム
Kılınç et al. Multi‐level reranking approach for bug localization
Agarwal et al. Towards effective paraphrasing for information disguise
JP7444261B2 (ja) 化合物置換プログラム、方法、装置
JP5869948B2 (ja) パッセージ分割方法、装置、及びプログラム
Brandsen et al. Labelling the past: data set creation and multi-label classification of Dutch archaeological excavation reports
JP2007334388A (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
Leturia et al. Morphological query expansion and language-filtering words for improving Basque web retrieval
JP6615420B1 (ja) エッジシステム、情報処理方法及び情報処理プログラム
JP2011227749A (ja) 略語完全語復元装置とその方法と、プログラム
JP7122773B2 (ja) 辞書構築装置、辞書の生産方法、およびプログラム
JP6805927B2 (ja) インデックス生成プログラム、データ検索プログラム、インデックス生成装置、データ検索装置、インデックス生成方法、及びデータ検索方法
CN1627289B (zh) 用于分析汉语的装置和方法
JPWO2020157887A1 (ja) 文構造ベクトル化装置、文構造ベクトル化方法、及び文構造ベクトル化プログラム
JP2007200252A (ja) 省略語生成・妥当性評価方法、同義語データベース生成・更新方法、省略語生成・妥当性評価装置、同義語データベース生成・更新装置、プログラム、記録媒体
Robertson A Contrastive Evaluation of Word Sense Disambiguation Systems for Finnish
JP5393392B2 (ja) 時間表現抽出装置、時間表現抽出方法および時間表現抽出プログラム
JP6625087B2 (ja) 違法コンテンツ探索装置及び違法コンテンツ探索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231031

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240123

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240205

R150 Certificate of patent or registration of utility model

Ref document number: 7444261

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150