以下に添付図面を参照して、本発明にかかる情報提供方法、情報提供装置および情報提供プログラムの実施の形態を詳細に説明する。
(化合物の命名法)
まず、実施の形態において使用する化合物の命名法について説明する。ここで、化合物とは、2種類以上の元素からなる化学物質のことである。化合物は、例えば、有機化合物と無機化合物とに分類される。
有機化合物は、炭素原子を構造の基本骨格に持つ化合物の総称である。有機化合物は、分子構造の違いによって、例えば、直鎖炭化水素、芳香族炭化水素、脂環式炭化水素などに分類することができる。なお、骨格を形成する炭素以外の元素として、ケイ素や硫黄がある。
また、無機化合物は、有機化合物以外の化合物であり、炭素以外の元素で構成される化合物である。ただし、炭素化合物のうち、例えば、炭素の同素体(例えば、グラファイト、ダイヤモンド)や二酸化炭素は、無機化合物に分類される。以下の説明では、化合物として有機化合物を例に挙げて説明する。
有機化合物は、例えば、炭素骨格の長さや分岐により多様な構造をとる。炭素骨格は、有機化合物において炭素同士が結合している部分である。炭素骨格の長さは、炭素の数によって表される。また、有機化合物は、窒素(N)、酸素(O)、硫黄(S)、燐(P)、ハロゲン(F、Cl、Br、I)などが炭素に結合した多様な官能基が生成される。官能基は、有機化合物のおおよその性質を決める原子団である。
ここで、有機化合物の化合物名は、例えば、IUPAC(International Union of Pure and Applied Chemistry)が定める命名法によって命名される。IUPACが定める命名法としては、例えば、置換命名法、基官能命名法、付加命名法、減去命名法、接合命名法、代置命名法などがある。
本実施の形態では、有機化合物の化合物名が、IUPACが定める置換命名法(substitute nomenclature)によって命名されている場合を想定する。置換命名法において、有機化合物の化合物名は、例えば「結合位置−接頭語−(語頭+語幹+語尾)」という形式で表現される。
また、置換命名法において、(語頭+語幹+語尾)は「母核」と呼ばれ、接頭語は「置換基」と呼ばれる。すなわち、置換命名法では、有機化合物の化合物名は、例えば、「置換基+母核」というルールのもと記述される。母核および置換基は、化合物の部分構造を表す原子団である。
母核は、有機化合物の基礎となる部分構造である。置換基は、有機化合物の系統や命名に使う部分構造であり、母核と対になって使用される概念である。また、母核と置換基は、母核を「親」、置換基を「子」とする親子関係にある。結合位置は、母核の何番目の炭素に置換基が結合しているのかを表している。
また、置換基の中に別の置換基を持つものは「複合置換基」と呼ばれる。複合置換基には、置換基と母核とが含まれる。すなわち、有機化合物の化合物名は、子の中に別の親子関係が存在するという複数世代の親子関係を含む場合がある。有機化合物の化合物名において、複合置換基を表す文字列は、例えば、括弧やかぎ括弧で囲まれている。
(情報提供方法の一実施例)
つぎに、実施の形態にかかる情報提供方法の一実施例について説明する。図1は、実施の形態にかかる情報提供方法の一実施例を示す説明図である。図1において、情報提供装置101は、化合物の化学構造の理解を支援するコンピュータである。化合物の化学構造とは、化合物を構成している原子の空間的配置を表す構造である。
また、情報提供装置101は、データベース110にアクセス可能である。データベース110は、化学式と対応付けて、当該化学式で表現される化学構造を有する化合物の化合物名群を記憶するデータベースである。化学式とは、元素記号等を用いて、化合物の組成や化学構造などを表現する式である。化学式としては、例えば、示性式や構造式などがある。示性式は、化合物に含まれる原子団を明示した式である。構造式は、化合物内での原子の結合状態を図示した式である。
ここで、化学系や薬学系などの特許文献、学術論文、法規制等の化学・薬学系文書では、化合物の説明として、化合物の構造式が示される場合がある一方で、化合物の構造式が示されない場合もある。化合物の構造式が示されなければ、ユーザ(読者)は、化合物の化合物名などから化学構造を判断することになり、化合物の化学構造を理解することが難しい場合がある。
このため、化学・薬学系文書の読解を支援するために、例えば、化合物名を解析して化合物の三次元構造モデルを作成することが考えられる。しかし、三次元構造モデルを作成するには、化合物名を解釈するために複雑な置換基の構造DBが必要となる。置換基の構造DBは、高度な知識やノウハウを有する人が試行錯誤して作成するものであり、作成コストが高く、また、構造DBにない、稀な化合物や新規な化合物に迅速に対応することが難しい。
また、様々な化学・薬学系文書の中から、ユーザが化学構造を理解できない化合物の化合物名に対応する化学式を検索して、その化合物の化学式候補として提示することも考えられる。この際、ユーザに提示される化学式は、より具体的なものであることが望ましい。しかし、化学・薬学系文書では、化学式に対応する代表的な化合物名とともに、その化学式で表現される化学構造を有する他の化合物の化合物名が列挙される場合がある。
具体的には、例えば、化学式に対応する代表的な化合物名よりも、より具体的な概念である化合物名が列挙される場合がある。より具体的には、例えば、化学・薬学系文書において、ある化学式に対応する代表的な化合物名として「モノマー」が示されるとともに、「モノマー」よりも具体的な概念である化合物名として「1,1−ビス(4−ヒドロキシフェニル)エタン」や「1,2−ビス(4−ヒドロキシフェニル)エタン」などが列挙される場合がある。
このため、化学・薬学系文書では、化学式は、化合物の一部を省略した形で表現されたり、母核に結合する置換基の位置を限定しない形で表現される場合がある。さらに、化学・薬学系文書では、文書中に挿入する図の大きさに制約があるため、化学式が化合物の一部を省略した形で表現される場合もある。また、化学式の省略の仕方が多様なため、化学式の抽象度合いは様々である。
ここで、化学・薬学系文書に示された化学式から、化学式の抽象度合いを解析することも考えられる。しかし、化学・薬学系文書では、化合物の化学式が画像データとして示される場合が多く、化学式がテキストデータで示される場合に比べて、画像データから化学式の抽象度合いを解析することは難しい。
また、化学・薬学系文書において、化学式と対応付けて列挙される化合物名の数から、化学式の抽象度合いを判断することが考えられる。しかし、化学式と対応付けて列挙される化合物名の数が化学式の抽象度合いと比例していない場合もあり、列挙される化合物名の数から化学式の抽象度合いを判断することは難しい。
そこで、本実施の形態では、情報提供装置101は、化学式で表現される化学構造を有する化合物群のうち対象化合物と同一の置換基を含む化合物を特定して該置換基の結合位置のバリエーション数を求める。これにより、化学式の抽象度合いを判断して、対象化合物の化学構造を理解し易い化学式を判別可能にする。以下、実施の形態にかかる情報提供装置101の情報提供処理の一実施例について説明する。
(1)情報提供装置101は、対象化合物の化合物名を取得する。ここで、対象化合物は、化学式の検索対象となる化合物であり、例えば、化学・薬学系文書において化合物名と対応付けて化学式が示されておらず、ユーザ(読者)が化学構造を理解できない化合物である。
ここでは、対象化合物の化合物名として、「3−メチル−4−ヒドロキシフェニル」が取得された場合を想定する。
(2)情報提供装置101は、データベース110から、取得した対象化合物の化合物名に対応する化学式候補を検索する。具体的には、例えば、情報提供装置101は、対象化合物の化合物名を含む化合物名群と対応付けて記憶された化学式を化学式候補として検索する。
ここでは、データベース110に化学式Fと対応付けて記憶された化合物名N1〜N10のうちの化合物名N3が、対象化合物の化合物名「3−メチル−4−ヒドロキシフェニル」と一致する場合を想定する。この場合、対象化合物の化合物名「3−メチル−4−ヒドロキシフェニル」に対応する化学式候補として、化学式Fが検索される。
(3)情報提供装置101は、対象化合物の化合物名から、部分文字列を抽出する。具体的には、例えば、情報提供装置101は、対象化合物の化合物名から、対象化合物の置換基を表す文字列を抽出する。より具体的には、例えば、情報提供装置101は、化合物名に含まれる数字の直後のハイフン「−」により当該数字と接続された文字列を、対象化合物の置換基を表す文字列として抽出することにしてもよい。
化合物名「3−メチル−4−ヒドロキシフェニル」を例に挙げると、情報提供装置101は、例えば、数字「3」の直後のハイフンに接続された「メチル」を抽出する。また、情報提供装置101は、例えば、数字「4」の直後のハイフンに接続された「ヒドロキシフェニル」を抽出することにしてもよい。
ただし、「ヒドロキシフェニル」は、対象化合物の母核を表す文字列「フェニル」を含むものとなっている。そこで、情報提供装置101は、まず、母核DB(不図示)を参照して、対象化合物の化合物名から、対象化合物の母核を表す文字列を特定することにしてもよい。
ここで、母核DB(不図示)は、化合物の母核となる部分構造の名称を記憶するデータベースである。例えば、化合物の母核となる部分構造の名称として、「フェニル」が母核DB(不図示)に記憶されているとする。この場合、情報提供装置101は、母核DB(不図示)を参照して、対象化合物の化合物名「3−メチル−4−ヒドロキシフェニル」のうち、対象化合物の母核を表す文字列「フェニル」を特定する。
そして、情報提供装置101は、対象化合物の化合物名「3−メチル−4−ヒドロキシフェニル」のうち、特定した対象化合物の母核を表す文字列「フェニル」を除く残余の文字列「3−メチル−4−ヒドロキシ」から、対象化合物の置換基を表す文字列を抽出する。これにより、対象化合物の置換基を表す文字列「ヒドロキシ」をより正確に抽出することができる。
ここでは、対象化合物の化合物名「3−メチル−4−ヒドロキシフェニル」から、対象化合物の置換基を表す文字列「メチル」が抽出された場合を想定する。
(4)情報提供装置101は、データベース110に化学式候補と対応付けて記憶された化合物名群のうち、抽出した部分文字列を含む化合物名の該部分文字列に付随する数字を特定することにより、部分文字列に付随する数字のバリエーション数を算出する。具体的には、例えば、情報提供装置101は、抽出した置換基を表す文字列を含む化合物名の化合物の母核に結合する置換基の結合位置を特定することにより、置換基の結合位置のバリエーション数を算出する。置換基の結合位置は、例えば、化合物の母核の何番目の炭素に置換基が結合しているのかを表す情報である。
具体的には、例えば、情報提供装置101は、データベース110に化学式候補Fと対応付けて記憶された化合物名N1〜N10から文字列「メチル」を含む化合物名を検索する。そして、情報提供装置101は、検索した化合物名の化合物の母核に結合する置換基(メチル基)の結合位置を特定する。置換基の結合位置は、例えば、化合物の化合物名のうち、置換基を表す文字列の直前のハイフン(−)に接続された数字から特定することができる。
ここでは、化合物名N1〜N10に「2−メチル」を含む化合物名と、「3−メチル」を含む化合物名とが含まれる場合を想定する。この場合、置換基(メチル基)の結合位置「2」と置換基(メチル基)の結合位置「3」とが特定された結果、置換基(メチル基)の結合位置のバリエーション数「2」が算出される。
(5)情報提供装置101は、算出した部分文字列に付随する数字のバリエーション数を化学式候補と対応付けて出力する。具体的には、例えば、情報提供装置101は、算出した置換基の結合位置のバリエーション数を化学式候補と対応付けて出力する。より具体的には、例えば、情報提供装置101は、置換基(メチル基)の結合位置のバリエーション数「2」を化学式候補Fの画像データと対応付けて出力する。
このように、情報提供装置101は、データベース110から、対象化合物の化合物名「3−メチル−4−ヒドロキシフェニル」に対応する化学式候補Fを検索することができる。また、情報提供装置101は、データベース110に化学式候補Fと対応付けて記憶された化合物名群N1〜N10を参照して、対象化合物に含まれる置換基(例えば、メチル基)の結合位置のバリエーション数を算出することができる。
これにより、情報提供装置101によれば、対象化合物の化学式候補Fとともに、対象化合物に含まれる置換基(例えば、メチル基)の結合位置のバリエーション数を提示することができる。ここで、化学式候補Fで表現される化学構造の抽象度合いは、置換基の結合位置のバリエーション数が多いほど、置換基の結合位置が異なる多くの化合物の化学構造を包含するために高いものとなっている可能性が高い。
すなわち、ユーザは、化学式候補Fとともに提示される置換基の結合位置のバリエーション数をもとに、化学式候補Fで表現される化学構造の抽象度合いを判断することができる。この結果、例えば、ユーザは、対象化合物の化学式候補として複数の化学式が提示された場合などに、化学式候補同士のバリエーション数を比較して対象化合物の化学構造を理解し易い化学式を判別することができる。
(読解支援システム200のシステム構成例)
つぎに、実施の形態にかかる読解支援システム200のシステム構成例について説明する。図2は、読解支援システム200のシステム構成例を示す説明図である。図2において、読解支援システム200は、情報提供装置101と、複数のクライアント装置201(図面では、3台)と、を含む。
読解支援システム200において、情報提供装置101およびクライアント装置201は、有線または無線のネットワーク210を介して接続されている。ネットワーク210は、例えば、インターネット、LAN(Local Area Network)、WAN(Wide Area Network)などである。
ここで、情報提供装置101は、構造式DB220を有する。構造式DB(データベース)220は、図1に示したデータベース110に相当する。なお、構造式DB220についての詳細な説明は、図4を用いて後述する。情報提供装置101は、例えば、読解支援システム200のサーバであってもよく、また、読解支援システム200のユーザが使用するPC(パーソナル・コンピュータ)などであってもよい。クライアント装置201は、ユーザが使用するPC、ノートPCなどである。
読解支援システム200において、ユーザは、クライアント装置201を利用して、特許文献、学術論文、法規制等の化学・薬学系文書を閲覧することができる。また、化学・薬学系文書を閲覧中にユーザが化学構造を理解できない化合物の化合物名を指定すると、その化合物名を表すテキストデータが、クライアント装置201から情報提供装置101に送信される。
情報提供装置101は、クライアント装置201から化合物名を表すテキストデータを受信すると、その化合物名に対応する検索結果情報をクライアント装置201に送信する。この結果、クライアント装置201において、検索結果画面(例えば、後述する図11に示す検索結果画面1100)が表示される。
(情報提供装置101のハードウェア構成例)
図3は、情報提供装置101のハードウェア構成例を示すブロック図である。図3において、情報提供装置101は、CPU(Central Processing Unit)301と、ROM(Read‐Only Memory)302と、RAM(Random Access Memory)303と、磁気ディスクドライブ304と、磁気ディスク305と、I/F(Interface)306と、ディスプレイ307と、キーボード308と、マウス309と、を有している。また、各構成部はバス300によってそれぞれ接続されている。
ここで、CPU301は、情報提供装置101の全体の制御を司る。ROM302は、ブートプログラムなどのプログラムを記憶している。RAM303は、CPU301のワークエリアとして使用される。磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータのリード/ライトを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記憶する。
I/F306は、通信回線を通じてネットワーク210に接続され、ネットワーク210を介して、他のコンピュータ、例えば、クライアント装置201に接続される。そして、I/F306は、ネットワーク210と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。I/F306には、例えば、モデムやLANアダプタなどを採用することができる。
ディスプレイ307は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。ディスプレイ307は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
キーボード308は、文字、数字、各種指示などの入力のためのキーを備え、データの入力を行う。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス309は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などを行う。
なお、情報提供装置101は、上述した構成部のうち、例えば、ディスプレイ307、キーボード308、マウス309などを有していなくてもよい。また、クライアント装置201は、上述した情報提供装置101と同様のハードウェア構成により実現することができる。
(構造式DB220の記憶内容)
つぎに、構造式DB220の記憶内容について説明する。構造式DB220は、例えば、図3に示したRAM303、磁気ディスク305等の記憶装置に記憶されている。
図4は、構造式DB220の記憶内容の一例を示す説明図である。図4において、構造式DB220は、化学式ID、化学式、説明文、化合物名群および出典情報のフィールドを有する。各フィールドに情報を設定することにより、構造式情報400−1〜400−nがレコードとして記憶されている(nは、2以上の自然数)。
ここで、化学式IDは、化学式を一意に識別する識別子である。ここでは、化学式として、化合物内での原子の結合状態を図示した構造式を例に挙げて説明する。化学式フィールドには、化学式を表す画像データが設定される。説明文は、化学式を説明する文章である。説明文フィールドには、例えば、化学式に対応する代表的な化合物名が表記される。
化合物名群は、化学式で表現される化学構造を有する化合物の化合物名の集合である。化合物名群フィールドには、例えば、説明文フィールドに表記される化合物名よりも、より具体的な概念である化合物名が設定される。出典情報は、化学式、説明文および化合物名群の各フィールドに設定された情報の出所を示す。出典情報フィールドには、例えば、特許文献の出願番号、出願人、発明の名称等が設定される。
構造式情報400−1を例に挙げると、化学式F1の画像データと、化学式F1の説明文「…原料として用いられる芳香族ジヒドロキシ化合物…」と、化学式F1で表現される化学構造を有する化合物の化合物名群「2−(3−ヒドロキシフェニル)−2−(4−ヒドロキシフェニル)プロパン…」と、出典情報「XXX」とが示されている。
構造式DB220は、例えば、様々な化学・薬学系文書から、化学式の画像データと当該化学式で表現される化学構造を有する化合物の化合物名群とを抽出することにより作成される。具体的には、例えば、構造式DB220は、特許明細書中の「化N」等で示される化学式と、化学式の説明と、化合物名群とを対応付けて抽出することにより作成されることにしてもよい。
なお、以下の説明では、構造式DB220に含まれる化学式F1〜Fnのうちの任意の化学式を「化学式Fi」と表記する場合がある(i=1,2,…,n)。また、化学式Fiに対応する化合物名群を「化合物名群N1〜Nm」と表記し、化合物名群N1〜Nmのうちの任意の化合物名を化合物名Njと表記する場合がある(j=1,2,…,m)。
(情報提供装置101の機能的構成例)
図5は、情報提供装置101の機能的構成例を示すブロック図である。図5において、情報提供装置101は、取得部501と、検索部502と、抽出部503と、算出部504と、出力部505と、を含む構成である。取得部501〜出力部505は制御部となる機能であり、具体的には、例えば、図3に示したROM302、RAM303、磁気ディスク305等の記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F306により、その機能を実現する。また、各機能部の処理結果は、例えば、RAM303、磁気ディスク305等の記憶装置に記憶される。
取得部501は、化学式の検索対象となる対象化合物の化合物名を取得する機能を有する。具体的には、例えば、取得部501は、図3に示したキーボード308やマウス309を用いたユーザの操作入力により、対象化合物の化合物名を取得することにしてもよい。また、取得部501は、ネットワーク210を介して、対象化合物の化合物名を表すテキストデータをクライアント装置201から受信することにより、対象化合物の化合物名を取得することにしてもよい。
検索部502は、構造式DB220から、対象化合物の化合物名に対応する化学式候補を検索する機能を有する。具体的には、例えば、検索部502は、構造式DB220から、対象化合物の化合物名を含む化合物名群N1〜Nmと対応付けて記憶された化学式Fiを化学式候補Fiとして検索する。
抽出部503は、対象化合物の化合物名から、対象化合物の部分文字列を抽出する機能を有する。ここで、対象化合物の部分文字列とは、例えば、対象化合物の置換基を表す文字列を含むものである。具体的には、例えば、抽出部503は、対象化合物の化合物名に含まれる数字の直後のハイフン「−」により当該数字と接続された文字列を、対象化合物の置換基を表す文字列として抽出することにしてもよい。
また、対象化合物の置換基を表す文字列の抽出に先立って、抽出部503は、例えば、母核DB(不図示)を参照して、対象化合物の化合物名から、対象化合物の母核を表す文字列を特定することにしてもよい。上述したように、母核DB(不図示)は、化合物の母核となる部分構造の名称を記憶するデータベースである。
具体的には、例えば、置換命名法では母核を表す文字列が最後方にくることを利用して、抽出部503は、対象化合物の化合物名の末尾からt(t=1,2,3,…)文字の文字列と、母核DB(不図示)に記憶されている各々の名称との一致判定を行う。そして、抽出部503は、母核DB(不図示)に記憶されている名称と一致したt文字の文字列を、対象化合物の母核を表す文字列として特定することにしてもよい。
この場合、抽出部503は、対象化合物の化合物名のうち、特定した対象化合物の母核を表す文字列を除く残余の文字列から、対象化合物の置換基を表す文字列を抽出する。これにより、対象化合物の置換基を表す文字列をより正確に抽出することができる。また、抽出部503は、対象化合物の化合物名のうち、括弧やかぎ括弧で囲まれている文字列を、対象化合物の複合置換基を表す文字列として抽出することにしてもよい。
また、抽出部503は、対象化合物の化合物名から、対象化合物の複合置換基名とその数を示す倍数接頭辞を含む文字列を抽出することにしてもよい。具体的には、例えば、抽出部503は、対象化合物の化合物名に含まれる数字の直後のハイフン「−」により当該数字と接続された文字列を、対象化合物の複合置換基名とその数を示す倍数接頭辞を含む文字列として抽出することにしてもよい。
ただし、この場合は、対象化合物の化合物名から抽出された置換基を表す文字列と複合置換基名とその数を示す倍数接頭辞を含む文字列とを区別することができない。そこで、抽出部503は、倍数接頭辞表記ルールを参照して、置換基を表す文字列と複合置換基名とその数を示す倍数接頭辞を含む文字列とを区別することにしてもよい。
倍数接頭辞表記ルールは、複合置換基の数を示す倍数接頭辞として用いられる文字列を表す情報である。倍数接頭辞表記ルールには、例えば、複合置換基の数が「1」の場合は「モノ」を用い、複合置換基の数が「2」の場合は「ビス」を用い、複合置換基の数が「3」の場合は「トリス」を用いることが記載されている。倍数接頭辞表記ルールは、例えば、ROM302、RAM303、磁気ディスク305等の記憶装置に記憶されている。
すなわち、抽出部503は、抽出した文字列に倍数接頭辞表記ルールに登録されている「ビス」や「トリス」などが含まれていれば、複合置換基名とその数を示す倍数接頭辞を含む文字列であると判断できる。さらに、抽出部503は、複合置換基名とその数を示す倍数接頭辞を含む文字列から、対象化合物の複合置換基の数を示す倍数接頭辞を表す文字列を抽出することにしてもよい。また、抽出部503は、倍数接頭辞表記ルールを参照して、対象化合物の化合物名から、対象化合物の複合置換基の数を示す倍数接頭辞を表す文字列を直接抽出することにしてもよい。
なお、以下の説明では、抽出部503によって抽出された文字列を「文字列C1〜CK」と表記し(Kは、1以上の自然数)、文字列C1〜CKのうちの任意の文字列を「文字列Ck」と表記する場合がある(k=1,2,…,K)。文字列Ckは、対象化合物の置換基または複合置換基の数を示す倍数接頭辞を表す文字列である。また、文字列Ckが表す置換基を「置換基S」と表記し、文字列Ckが表す倍数接頭辞に対応する複合置換基を「複合置換基CS」と表記する場合がある。
算出部504は、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmを参照して、抽出された部分文字列を含む化合物名の部分文字列に付随する数字を特定することにより、部分文字列に付随する数字のバリエーション数Bkを算出する機能を有する。具体的には、例えば、算出部504は、化合物名群N1〜Nmのうち、置換基Sを表す文字列Ckを含む化合物名の化合物の母核に結合する置換基Sの結合位置を特定することにより、置換基Sの結合位置のバリエーション数Bkを算出する。
また、算出部504は、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmを参照して、抽出された倍数接頭辞を含む文字列を含む化合物名の複合置換基CSの部分文字列に付随する数字を特定することにより、複合置換基CSの部分文字列に付随する数字のバリエーション数Bkを算出することにしてもよい。具体的には、例えば、算出部504は、化合物名群N1〜Nmのうち、倍数接頭辞を表す文字列を含む化合物名の化合物の母核に結合する複合置換基CSの結合位置を特定することにより、複合置換基CSの結合位置のバリエーション数Bkを算出する。
また、算出部504は、化学式候補Fiの抽象度Aiを算出する機能を有する。ここで、抽象度Aiは、化学式候補Fiで表現される化学構造の抽象度合いを表すものである。具体的には、例えば、算出部504は、算出したバリエーション数B1〜BKを足し合わせることにより、化学式候補Fiの抽象度Aiを算出することにしてもよい。これにより、対象化合物に含まれる置換基Sや複合置換基CSの結合位置のバリエーション数を総合的に判断して、化学式候補Fiで表現される化学構造の抽象度合いを表す抽象度Aiを算出することができる。
また、算出部504は、バリエーション数B1〜BKから置換基の結合位置のバリエーション数を特定し、特定したバリエーション数を足し合わせることにより、化学式候補Fiの抽象度Aiを算出することにしてもよい。これにより、対象化合物に含まれる置換基の結合位置のみを考慮して、化学式候補Fiで表現される化学構造の抽象度合いを表すことができる。
また、算出部504は、バリエーション数B1〜BKから複合置換基の結合位置のバリエーション数を特定し、特定したバリエーション数を足し合わせることにより、化学式候補Fiの抽象度Aiを算出することにしてもよい。これにより、対象化合物に含まれる複合置換基の結合位置のみを考慮して、化学式候補Fiで表現される化学構造の抽象度合いを表すことができる。
また、算出部504は、バリエーション数B1〜BKのうちの最小のバリエーション数を、化学式候補Fiの抽象度Aiとして算出することにしてもよい。これにより、対象化合物に含まれる複数の部分構造(置換基または複合置換基)の中で最も化学構造が限定されている部分構造の結合位置のバリエーション数を、化学式候補Fiの抽象度Aiとすることができる。
また、算出部504は、文字列C1〜CKから選択された文字列Ckに対応するバリエーション数Bkを、化学式候補Fiの抽象度Aiを算出することにしてもよい。なお、文字列Ckの選択は、例えば、情報提供装置101が、ディスプレイ307(または、クライアント装置201のディスプレイ)に文字列C1〜CKを表示した結果、文字列C1〜CKからいずれかの文字列Ckを選択するユーザの操作入力を受け付けることにより行われる。
これにより、対象化合物に含まれる複数の部分構造(置換基または複合置換基)から選ばれた任意の部分構造の結合位置のみを考慮して、化学式候補Fiで表現される化学構造の抽象度合いを表すことができる。なお、算出部504は、文字列C1〜CKから複数の文字列が選択された場合には、選択された複数の文字列に対応する各々のバリエーション数を足し合わせることにより、化学式候補Fiの抽象度Aiを算出することにしてもよい。
出力部505は、部分文字列に付随する数字のバリエーション数Bkを化学式候補Fiと対応付けて出力する機能を有する。具体的には、例えば、出力部505は、置換基Sの結合位置のバリエーション数Bkを化学式候補Fiと対応付けて出力する。より具体的には、例えば、出力部505は、置換基Sの結合位置のバリエーション数Bkを化学式候補Fiと対応付けて表す検索結果情報(例えば、後述する図8に示す検索結果情報600−1,600−2)をディスプレイ307(または、クライアント装置201のディスプレイ)に表示することにしてもよい。
これにより、ユーザは、対象化合物に含まれる置換基Sの結合位置のバリエーション数Bkをもとに、化学式候補Fiで表現される化学構造の抽象度合いを判断することができる。
また、出力部505は、複合置換基CSの部分文字列に付随する数字のバリエーション数Bkを化学式候補Fiと対応付けて出力することにしてもよい。具体的には、例えば、出力部505は、複合置換基CSの結合位置のバリエーション数Bkを化学式候補Fiと対応付けて出力することにしてもよい。より具体的には、例えば、出力部505は、複合置換基CSの結合位置のバリエーション数Bkを化学式候補Fiと対応付けて表す検索結果情報(例えば、後述する図8に示す検索結果情報600−1,600−2)をディスプレイ307(または、クライアント装置201のディスプレイ)に表示することにしてもよい。
これにより、ユーザは、対象化合物に含まれる複合置換基CSの結合位置のバリエーション数Bkをもとに、化学式候補Fiで表現される化学構造の抽象度合いを判断することができる。
また、出力部505は、化学式候補Fiの抽象度Aiを化学式候補Fiと対応付けて出力することにしてもよい。具体的には、例えば、出力部505は、化学式候補Fiの抽象度Aiを化学式候補Fiと対応付けて表す検索結果画面をディスプレイ307(または、クライアント装置201のディスプレイ)に表示することにしてもよい。
これにより、ユーザは、対象化合物に含まれる置換基Sや複合置換基CSの結合位置のバリエーション数を考慮して得られた抽象度Aiをもとに、化学式候補Fiで表現される化学構造の抽象度合いを判断することができる。
また、出力部505は、対象化合物の化合物名に対応する複数の化学式候補が検索された場合には、複数の化学式候補のうちの抽象度が最小の化学式候補Fiの抽象度Aiを化学式候補Fiと対応付けて出力することにしてもよい。これにより、対象化合物の化合物名に対応する複数の化学式候補のうち、化学構造の抽象度合いが最も低いと判断できる化学式候補をユーザに提示することができる。
また、出力部505は、対象化合物の化合物名に対応する複数の化学式候補のうちの抽象度が低いほうから所定数(例えば、3個)の化学式候補の抽象度を、各々の化学式候補と対応付けて出力することにしてもよい。これにより、対象化合物の化合物名に対応する化学式候補として、過剰な数の化学式を提示することによるユーザの混乱を防ぐことができる。
出力部505の出力形式としては、例えば、ディスプレイ307への表示のほか、プリンタ(不図示)への印刷出力、I/F306による外部のコンピュータ(例えば、クライアント装置201)への送信、RAM303、磁気ディスク305等の記憶装置への記憶などがある。なお、ディスプレイ307に表示される検索結果画面の画面例については、図11〜図14を用いて後述する。
(ダミーや誤記のある化合物名による影響の排除)
特許文献などの化学・薬学系文書では、化学式と対応付けて列挙される化合物名群に、ダミーや誤記のある化合物名が含まれている場合がある。このため、構造式DB220に化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmの中に、ダミーや誤記のある化合物名が含まれている場合がある。
化合物名群N1〜Nmの中にダミーや誤記のある化合物名が含まれていると、それらの存在により、置換基Sや複合置換基CSの結合位置のバリエーション数Bkが増加してしまう場合がある。そこで、ダミーや誤記のある化合物名による影響を排除するために、以下のように、部分文字列に付随する数字のバリエーション数Bkを求めることにしてもよい。
具体的には、例えば、算出部504は、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmのうち、部分文字列を含み、かつ、部分文字列に付随する数字が同一の化合物名の数を計数する。より具体的には、例えば、算出部504は、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmのうち、置換基Sを表す文字列Ckを含み、かつ、置換基Sの結合位置が同一の化合物名の数を計数する。そして、算出部504は、計数した化合物名の数が閾値Th以上の場合に、置換基Sの結合位置のバリエーション数Bkをインクリメントすることにしてもよい。なお、バリエーション数Bkの初期値は「0」である。
閾値Thとしては、例えば、化合物名群N1〜Nmに含まれるダミーや誤記のある化合物名の数に相当する値が設定される。閾値Thは、例えば、予め任意に設定されていてもよい。具体的には、例えば、閾値Thは「Th=2」や「Th=3」などに設定される。
また、算出部504が、化合物名群N1〜Nmの総数や、化合物名群N1〜Nmのうちの置換基Sを表す文字列Ckを含む化合物名の数に基づいて、閾値Thを算出することにしてもよい。具体的には、例えば、算出部504が、化合物名群N1〜Nmの総数の数パーセント程度の値(例えば、5%程度の値)を閾値Thとして算出することにしてもよい。
これにより、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmに含まれるダミーや誤記のある化合物名による影響を排除して、置換基Sの結合位置のバリエーション数Bkを求めることができる。
また、例えば、算出部504は、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmのうち、倍数接頭辞を表す文字列を含み、かつ、複合置換基CSの部分文字列に付随する数字が同一の化合物名の数を計数する。より具体的には、例えば、算出部504は、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmのうち、複合置換基CSを表す文字列Ckを含み、かつ、複合置換基CSの結合位置が同一の化合物名の数を計数する。そして、算出部504は、計数した化合物名の数が閾値Th以上の場合に、複合置換基CSの結合位置のバリエーション数Bkをインクリメントすることにしてもよい。
これにより、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmに含まれるダミーや誤記のある化合物名による影響を排除して、複合置換基CSの結合位置のバリエーション数Bkを求めることができる。
(化学式候補Fiの抽象度Aiの算出例)
つぎに、化学式候補Fiの抽象度Aiの算出例について説明する。以下の説明では、対象化合物の化合物名として、「2,2−ビス(3−メチル−4−ヒドロキシフェニル)プロパン」が取得された場合を例に挙げて説明する。
<第1の算出例>
まず、化学式候補Fiのバリエーション数B1〜BKを足し合わせることにより、化学式候補Fiの抽象度Aiを算出する第1の算出例について説明する。
(i)検索部502は、構造式DB220から、対象化合物の化合物名が説明文に含まれる化学式Fiを検索する。ここで、化学式Fiが検索された場合、対象化合物が化学式Fiに対応する代表的な化合物である可能性が高い。このため、出力部505は、対象化合物の化合物名と対応付けて化学式Fiを表す検索結果情報を出力することにしてもよい。ここでは、対象化合物の化合物名が説明文に含まれる化学式Fiが検索されなかった場合を想定する。
(ii)検索部502は、構造式DB220から、対象化合物の化合物名が化合物名群に含まれる化学式候補を検索する。ここでは、化学式F1と対応付けて記憶された化合物名群N1〜Nmに対象化合物の化合物名が含まれ、また、化学式F2と対応付けて記憶された化合物名群N1〜Nmに対象化合物の化合物名が含まれる場合を想定する。
この場合、化学式F1,F2が化学式候補F1,F2として検索される。検索された検索結果は、例えば、図6に示す検索結果テーブル600に記憶される。検索結果テーブル600は、例えば、RAM303、磁気ディスク305等の記憶装置により実現される。
図6〜図8は、検索結果テーブル600の記憶内容の第1変遷例を示す説明図である。図6において、検索結果テーブル600は、化学式ID、化学式、説明文、化合物名群、出典情報、バリエーション数および抽象度のフィールドを有する。各フィールドに情報を設定することにより、検索結果情報(例えば、検索結果情報600−1,600−2)がレコードとして記憶される。
具体的には、化学式候補F1が検索されると、構造式情報400−1の化学式ID、化学式、説明文、化合物名群および出典情報が各フィールドに設定されて、検索結果情報600−1がレコードとして記憶される(図6中、(6−1)参照)。
同様に、化学式候補F2が検索されると、構造式情報400−2の化学式ID、化学式、説明文、化合物名群および出典情報が各フィールドに設定されて、検索結果情報600−2がレコードとして記憶される(図6中、(6−1)参照)。なお、この時点では、検索結果情報600−1,600−2のバリエーション数および抽象度のフィールドは未設定である。
(iii)抽出部503は、対象化合物の化合物名から、対象化合物の置換基Sまたは複合置換基CSの数を示す倍数接頭辞を表す文字列Ckを抽出する。ここでは、対象化合物の化合物名「2,2−ビス(3−メチル−4−ヒドロキシフェニル)プロパン」から、文字列C1「ビス」と文字列C2「メチル」と文字列C3「ヒドロキシフェニル」とが抽出される。
文字列C1「ビス」は、対象化合物の複合置換基「3−メチル−4−ヒドロキシフェニル」の数「2」を示す倍数接頭辞を表している。文字列C2「メチル」は、対象化合物の置換基「メチル基」を表している。文字列C3「ヒドロキシフェニル」は、対象化合物の置換基「ヒドロキシ基」を表している。ただし、文字列C3「ヒドロキシフェニル」には、対象化合物の母核を表す文字列「フェニル」が含まれている。
抽出された文字列C1「ビス」、文字列C2「メチル」、文字列C3「ヒドロキシフェニル」は、例えば、検索結果テーブル600のバリエーション数のサブフィールドに設定される(図6中、(6−2)参照)。以下、化学式候補F1の抽象度A1を算出する場合を例に挙げて説明する。
(iv)算出部504は、化学式候補F1と対応付けて記憶された化合物名群N1〜Nmを参照して、文字列C1「ビス」が表す倍数接頭辞に対応する複合置換基「3−メチル−4−ヒドロキシフェニル」の結合位置のバリエーション数B1を算出する。また、算出部504は、化学式候補F1と対応付けて記憶された化合物名群N1〜Nmを参照して、文字列C2「メチル」が表す置換基「メチル基」の結合位置のバリエーション数B2を算出する。また、算出部504は、化学式候補F1と対応付けて記憶された化合物名群N1〜Nmを参照して、文字列C3「ヒドロキシフェニル」が表す置換基「ヒドロキシ基」の結合位置のバリエーション数B3を算出する。
文字列C3「ヒドロキシフェニル」を例に挙げると、算出部504は、化学式候補F1と対応付けて記憶された化合物名群N1〜Nmのうち、文字列C3「ヒドロキシフェニル」を含み、かつ、置換基「ヒドロキシ基」の結合位置が同一の化合物名の数を計数する。具体的には、例えば、算出部504は、文字列C3「ヒドロキシフェニル」の直前のハイフンで接続された数字ごとに、化合物名の数を計数する。
より具体的には、例えば、算出部504は、図9に示す出現回数テーブル900を用いて、文字列C3「ヒドロキシフェニル」の直前のハイフンで接続された数字ごとに、置換基「ヒドロキシ基」の結合位置の出現回数を計数する。ここで、出現回数テーブル900の記憶内容について説明する。
図9は、出現回数テーブル900の記憶内容の一例を示す説明図である。図9において、出現回数テーブル900は、文字列、結合位置および出現回数のフィールドを有する。文字列C3「ヒドロキシフェニル」の例では、まず、文字列フィールドに「ヒドロキシフェニル」が設定される。
算出部504は、化学式候補F1と対応付けて記憶された化合物名群N1〜Nmから文字列C3「ヒドロキシフェニル」を含む化合物名を検索する。そして、算出部504は、検索した化合物名のうち、文字列C3「ヒドロキシフェニル」の直前のハイフンで接続された数字を参照することにより、置換基「ヒドロキシ基」の結合位置を特定する。
ここで、置換基「ヒドロキシ基」の結合位置「2−」が特定されると、結合位置フィールドに「2−」が設定されて、置換基「ヒドロキシ基」の結合位置「2−」の出現回数がインクリメントされる。なお、出現回数の初期値は「0」である。また、結合位置フィールドに「2−」が設定済みの場合は、置換基「ヒドロキシ基」の結合位置「2−」の出現回数がインクリメントされる。
同様に、置換基「ヒドロキシ基」の結合位置「3−」が特定されると、結合位置フィールドに「3−」が設定されて、置換基「ヒドロキシ基」の結合位置「3−」の出現回数がインクリメントされる。また、置換基「ヒドロキシ基」の結合位置「4−」が特定されると、結合位置フィールドに「4−」が設定されて、置換基「ヒドロキシ基」の結合位置「4−」の出現回数がインクリメントされる。
ここでは、化学式候補F1と対応付けて記憶された化合物名群N1〜Nmのうち、「2−ヒドロキシフェニル」を含む化合物名の数を「2」とする。また、「3−ヒドロキシフェニル」を含む化合物名の数を「4」とし、「4−ヒドロキシフェニル」を含む化合物名の数を「22」とする。この場合、出現回数テーブル900内の置換基「ヒドロキシ基」の結合位置「2−」の出現回数は「2」となり、置換基「ヒドロキシ基」の結合位置「3−」の出現回数は「4」となり、置換基「ヒドロキシ基」の結合位置「4−」の出現回数は「22」となる。
つぎに、算出部504は、閾値Thを算出する。具体的には、例えば、まず、算出部504は、化学式候補F1と対応付けて記憶された化合物名群N1〜Nmのうちの文字列C3「ヒドロキシフェニル」を含む化合物名の数を算出する。より具体的には、例えば、算出部504は、出現回数テーブル900を参照して、置換基「ヒドロキシ基」の結合位置の総出現回数を算出する。
ここでは、文字列C3「ヒドロキシフェニル」を含む化合物名の数は、「28(=2+4+22)」となる。そして、算出部504は、例えば、文字列C3「ヒドロキシフェニル」を含む化合物名の数「28」の5%を、閾値Thとして算出する。ここでは、閾値Thは、「1.4(=28*0.05)」となる。
つぎに、算出部504は、計数した化合物名の数が閾値Th以上の場合に、置換基「ヒドロキシ基」の結合位置のバリエーション数B3をインクリメントする。具体的には、例えば、算出部504は、「2−ヒドロキシフェニル」を含む化合物名の数「2」が閾値Th以上のため、バリエーション数B3をインクリメントして「1」とする。
また、算出部504は、「3−ヒドロキシフェニル」を含む化合物名の数「4」が閾値Th以上のため、バリエーション数B3をインクリメントして「2」とする。また、算出部504は、「4−ヒドロキシフェニル」を含む化合物名の数「22」が閾値Th以上のため、バリエーション数B3をインクリメントして「3」とする。この結果、文字列C3「ヒドロキシフェニル」が表す置換基「ヒドロキシ基」の結合位置のバリエーション数B3「3」が算出される。
同様に、文字列C1「ビス」が表す倍数接頭辞に対応する複合置換基「3−メチル−4−ヒドロキシフェニル」の結合位置のバリエーション数B1「3」が算出される。また、文字列C2「メチル」が表す置換基「メチル基」の結合位置のバリエーション数B2「3」が算出される。
算出されたバリエーション数B1「3」、バリエーション数B2「3」、バリエーション数B3「3」は、例えば、検索結果テーブル600内の検索結果情報600−1のそれぞれ対応するバリエーション数フィールドに設定される(図7中、(6−3)参照)。
(v)算出部504は、算出したバリエーション数B1「3」とバリエーション数B2「3」とバリエーション数B3「3」とを足し合わせることにより、化学式候補F1の抽象度A1を算出する。ここでは、化学式候補F1の抽象度A1は、「9(=3+3+3)」となる。算出された化学式候補F1の抽象度A1「9」は、例えば、検索結果テーブル600内の検索結果情報600−1の抽象度フィールドに設定される(図7中、(6−4)参照)。
また、化学式候補F2についても、上記(iv)および(v)と同様の処理を行うことにより、化学式候補F2の抽象度A2「8」が算出される。算出された化学式候補F2の抽象度A2「8」は、例えば、検索結果テーブル600内の検索結果情報600−2の抽象度フィールドに設定される(図8中、(6−5)参照)。
<第2の算出例>
つぎに、化学式候補F1,F2のバリエーション数B1〜B3のうちの最小のバリエーション数を、化学式候補F1,F2の抽象度A1,A1として算出する第2の算出例について説明する。なお、化学式候補F1,F2のバリエーション数B1〜B3を算出するまでの処理は、第1の算出例の上記(i)〜(iv)と同様のため説明を省略する。
図10は、検索結果テーブル600の記憶内容の第2変遷例を示す説明図である。図10において、検索結果テーブル600には、化学式候補F1,F2のバリエーション数B1〜B3がそれぞれ対応するバリエーション数フィールドに設定されている(図10中、(10−1)参照)。
(vi)算出部504は、算出した化学式候補F1のバリエーション数B1「3」、バリエーション数B2「3」およびバリエーション数B3「3」のうちの最小のバリエーション数「3」を、化学式候補F1の抽象度A1として算出する。ここでは、化学式候補F1の抽象度A1は、「3」となる(図10中、(10−2)参照)。
同様に、算出部504は、算出した化学式候補F2のバリエーション数B1「4」、バリエーション数B2「3」およびバリエーション数B3「1」のうちの最小のバリエーション数「1」を、化学式候補F2の抽象度A2として算出する。ここでは、化学式候補F2の抽象度A2は、「1」となる(図10中、(10−2)参照)。
(検索結果画面の画面例)
つぎに、ディスプレイ307(または、クライアント装置201のディスプレイ)に表示される検索結果画面の画面例について説明する。ここでは、図8に示した検索結果テーブル600の記憶内容に基づく検索結果画面の画面例について説明する。
<画面例1>
図11は、検索結果画面の第1画面例を示す説明図である。図11において、検索結果画面1100には、対象化合物の化合物名「2,2−ビス(3−メチル−4−ヒドロキシフェニル)プロパン」に対応する化学式候補F2に関する検索結果情報1100−1が表示されている。具体的には、検索結果情報1100−1は、化学式と出典情報とを対応付けて表す情報である。化学式は、化学式候補F2を表す画像データである。出典情報は、化学式候補F2を表す画像データの出所を示す情報である。
検索結果画面1100によれば、ユーザは、対象化合物の化合物名と対応付けて表示されている化学式候補F2の画像データを参照することにより、対象化合物の化学構造を理解し易くなる。また、ユーザは、出典情報を参照することにより、化学式候補F2の画像データの出所が「YYY」であることがわかる。
<画面例2>
図12は、検索結果画面の第2画面例を示す説明図である。図12において、検索結果画面1200には、対象化合物の化合物名「2,2−ビス(3−メチル−4−ヒドロキシフェニル)プロパン」に対応する化学式候補F1,F2に関する検索結果情報1200−1,1200−2が表示されている。
具体的には、検索結果情報1200−1,1200−2は、ランキングと、抽象度と、化学式と、出典情報とを対応付けて表す情報である。ランキングは、化学式候補F1,F2を抽象度が低いものから順にランク付けしたものである。抽象度は、各化学式候補F1,F2で表現される化学構造の抽象度合いを表すものである。化学式は、各化学式候補F1,F2を表す画像データである。出典情報は、化学式、各化学式候補F1,F2を表す画像データの出所を示す情報である。
検索結果画面1200によれば、ユーザは、対象化合物の化合物名と対応付けて表示されている化学式候補F1,F2の画像データを参照することにより、対象化合物の化学構造を理解し易くなる。また、ユーザは、化学式候補F1よりも化学式候補F2のほうが表現された化学構造の抽象度合いが低いことがわかる。実際、化学式候補F1では限定されていない「OH」の結合位置が、化学式候補F2では限定されており、化学式候補F1よりも化学式候補F2のほうが表現された化学構造の抽象度合いが低いものとなっている。
<画面例3>
図13および図14は、検索結果画面の第3画面例を示す説明図である。図13において、検索結果画面1300には、対象化合物の化合物名「2,2−ビス(3−メチル−4−ヒドロキシフェニル)プロパン」に対応する化学式候補F1,F2に関する検索結果情報1300−1,1300−2が表示されている。
具体的には、検索結果情報1300−1,1300−2は、ランキングと、化学式と、バリエーション数と、出典情報とを対応付けて表す情報である。バリエーション数は、対象化合物の化合物名から抽出された文字列C1〜C3ごとに表されている(C1:ビス、C2:メチル、C3:ヒドロキシフェニル)。
ここで、検索結果画面1300では、文字列C1「ビス」に対応するバリエーション数、すなわち、複合置換基「3−メチル−4−ヒドロキシフェニル」の結合位置のバリエーション数が昇順となるように化学式候補F1,F2がランク付けされている。
また、検索結果画面1300において、キーボード308やマウス309を用いたユーザの操作入力により、カーソルcrを移動させて、ボタンb1〜b6のいずれかのボタンをクリックすることにより、化学式候補F1,F2をランク付けし直すことができる。具体的には、例えば、カーソルcrを移動させて、ボタンb6をクリックすると、図14に示す検索結果画面1400が表示される。
検索結果画面1400では、文字列C3「ヒドロキシフェニル」に対応するバリエーション数、すなわち、置換基「ヒドロキシ基」の結合位置のバリエーション数が昇順となるように化学式候補F1,F2がランク付けされている。具体的には、図13に示した検索結果情報1300−1と検索結果情報1300−2とのランキングが逆転している。
検索結果画面1300,1400によれば、ユーザは、対象化合物に含まれる複数の部分構造(置換基または複合置換基)から任意に選んだ部分構造の結合位置のバリエーション数をもとに、化学式候補F1,F2をランク付けし直すことができる。例えば、ユーザは、対象化合物の化合物名からヒドロキシル基についての化学構造が想像しにくい場合には、ボタンb6をクリックすることにより、ヒドロキシル基の化学構造がより明確となっている化学式候補を上位にランク付けすることができる。
(情報提供装置101の情報提供処理手順)
つぎに、情報提供装置101の情報提供処理手順について説明する。
図15は、情報提供装置101の情報提供処理手順の一例を示すフローチャートである。図15のフローチャートにおいて、まず、情報提供装置101は、化学式の検索対象となる対象化合物の化合物名を取得したか否かを判断する(ステップS1501)。ここで、情報提供装置101は、対象化合物の化合物名を取得するのを待つ(ステップS1501:No)。
そして、情報提供装置101は、対象化合物の化合物名を取得した場合(ステップS1501:Yes)、化学式Fiの「i」を「i=1」として(ステップS1502)、構造式DB220から化学式Fiを選択する(ステップS1503)。
つぎに、情報提供装置101は、選択した化学式Fiの構造式情報400−iを参照して、説明文に対象化合物の化合物名と一致する化合物名が含まれるか否かを判断する(ステップS1504)。ここで、対象化合物の化合物名と一致する化合物名が含まれない場合(ステップS1504:No)、情報提供装置101は、化学式Fiの「i」をインクリメントする(ステップS1505)。
そして、情報提供装置101は、「i」が「n」より大きくなったか否かを判断する(ステップS1506)。ここで、「i」が「n」以下の場合(ステップS1506:No)、情報提供装置101は、ステップS1503に戻る。
一方、「i」が「n」より大きくなった場合(ステップS1506:Yes)、情報提供装置101は、化学式Fiの「i」を「i=1」として(ステップS1507)、構造式DB220から化学式Fiを選択する(ステップS1508)。
つぎに、情報提供装置101は、選択した化学式Fiの構造式情報400−iを参照して、化合物名群N1〜Nmに対象化合物の化合物名と一致する化合物名が含まれるか否かを判断する(ステップS1509)。ここで、対象化合物の化合物名と一致する化合物名が含まれない場合(ステップS1509:No)、情報提供装置101は、ステップS1511に移行する。
一方、対象化合物の化合物名と一致する化合物名が含まれる場合(ステップS1509:Yes)、情報提供装置101は、化学式Fiを化学式候補Fiとして、化学式候補Fiの抽象度Aiを算出する抽象度算出処理を実行する(ステップS1510)。なお、抽象度算出処理の具体的な処理手順については、図16を用いて後述する。
つぎに、情報提供装置101は、化学式Fiの「i」をインクリメントして(ステップS1511)、「i」が「n」より大きくなったか否かを判断する(ステップS1512)。ここで、「i」が「n」以下の場合(ステップS1512:No)、情報提供装置101は、ステップS1508に戻る。
一方、「i」が「n」より大きくなった場合(ステップS1512:Yes)、情報提供装置101は、検索結果テーブル600を参照して、抽象度Aiが最小の化学式候補Fiを選択する(ステップS1513)。
つぎに、情報提供装置101は、選択した化学式候補Fiの画像データと出典情報とを対応付けて表す検索結果画面を作成する(ステップS1514)。そして、情報提供装置101は、作成した検索結果画面を出力して(ステップS1515)、本フローチャートによる一連の処理を終了する。
また、ステップS1504において、対象化合物の化合物名と一致する化合物名が含まれる場合(ステップS1504:Yes)、情報提供装置101は、ステップS1514に移行して、選択した化学式Fiの画像データと出典情報とを対応付けて表す検索結果画面を作成する。
これにより、対象化合物の化合物名に対応する複数の化学式候補のうち、化学構造の抽象度合いが最も低いと判断できる化学式候補をユーザに提示して、対象化合物の化学構造の理解を支援することができる。
つぎに、図15に示したステップS1510の抽象度算出処理の具体的な処理手順について説明する。
図16は、抽象度算出処理の具体的処理手順の一例を示すフローチャートである。図16のフローチャートにおいて、まず、情報提供装置101は、対象化合物の化合物名から、対象化合物の置換基Sまたは複合置換基CSとその数を示す倍数接頭辞を含む文字列C1〜CKを抽出する(ステップS1601)。
つぎに、情報提供装置101は、文字列Ckの「k」を「k=1」として(ステップS1602)、文字列C1〜CKから文字列Ckを選択する(ステップS1603)。つぎに、情報提供装置101は、化合物名Njの「j」を「j=1」として(ステップS1604)、化合物名群N1〜Nmから化合物名Njを選択する(ステップS1605)。
そして、情報提供装置101は、選択した化合物名Njに文字列Ckが含まれるか否かを判断する(ステップS1606)。ここで、化合物名Njに文字列Ckが含まれない場合(ステップS1606:No)、情報提供装置101は、ステップS1609に移行する。
一方、化合物名Njに文字列Ckが含まれる場合(ステップS1606:Yes)、情報提供装置101は、化合物名Njを参照して、文字列Ckに対応する置換基Sまたは複合置換基CSの結合位置を特定する(ステップS1607)。そして、情報提供装置101は、出現回数テーブル900(図9参照)を用いて、特定した文字列Ckに対応する置換基Sまたは複合置換基CSの結合位置の出現回数をインクリメントする(ステップS1608)。
つぎに、情報提供装置101は、化合物名Njの「j」をインクリメントして(ステップS1609)、「j」が「m」より大きくなったか否かを判断する(ステップS1610)。ここで、「j」が「m」以下の場合(ステップS1610:No)、情報提供装置101は、ステップS1605に戻る。
一方、「j」が「m」より大きくなった場合(ステップS1610:Yes)、情報提供装置101は、出現回数テーブル900を参照して、文字列Ckに対応する置換基Sまたは複合置換基CSの結合位置の総出現回数を算出する(ステップS1611)。そして、情報提供装置101は、算出した総出現回数に基づいて閾値Thを算出する(ステップS1612)。
つぎに、情報提供装置101は、出現回数テーブル900を参照して、置換基Sまたは複合置換基CSの結合位置の出現回数が閾値Th以上の場合に、文字列Ckに対応するバリエーション数Bkをインクリメントすることにより、バリエーション数Bkを算出する(ステップS1613)。算出したバリエーション数Bkは、検索結果テーブル600に記憶される。
つぎに、情報提供装置101は、文字列Ckの「k」をインクリメントして(ステップS1614)、「k」が「K」より大きくなったか否かを判断する(ステップS1615)。ここで、「k」が「K」以下の場合(ステップS1615:No)、情報提供装置101は、ステップS1603に戻る。
一方、「k」が「K」より大きくなった場合(ステップS1615:Yes)、情報提供装置101は、検索結果テーブル600を参照して、化学式候補Fiの抽象度Aiを算出する(ステップS1616)。そして、情報提供装置101は、抽象度算出処理を終了し、抽象度算出処理を呼び出したステップへ戻る。
これにより、対象化合物に含まれる部分構造(置換基や複合置換基)の結合位置のバリエーション数に基づいて、化学式候補Fiで表現される化学構造の抽象度合いを表す抽象度Aiを算出することができる。
なお、情報提供装置101は、例えば、ステップS1513において選択された化学式候補Fiを、対象化合物の化合物名と対応付けて化学式候補DB(不図示)に登録することにしてもよい。以降において、情報提供装置101は、ステップS1501において取得された化合物名に対応する化学式候補Fiを化学式候補DB(不図示)から検索して、化学式候補が検索されなかった場合に、ステップS1502以降の処理を行うことにしてもよい。
以上説明したように、実施の形態にかかる情報提供装置101によれば、構造式DB220から、対象化合物の化合物名に対応する化学式候補Fiを検索することができる。また、情報提供装置101によれば、対象化合物の化合物名から、対象化合物の置換基Sまたは複合置換基CSの数を示す倍数接頭辞を表す文字列Ckを抽出することができる。
また、情報提供装置101によれば、構造式DB220に化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmを参照して、文字列Ckに対応する置換基Sまたは複合置換基CSの結合位置のバリエーション数Bkを算出することができる。また、情報提供装置101によれば、置換基Sまたは複合置換基CSの結合位置のバリエーション数Bkを化学式候補Fiと対応付けて出力することができる。
これにより、ユーザは、置換基Sまたは複合置換基CSの結合位置のバリエーション数Bkの大小によって化学式候補Fiで表現される化学構造の抽象度合いを判断することができ、対象化合物の化学構造を理解し易い化学式候補Fiを判別することができる。
また、情報提供装置101によれば、化学式候補Fiと対応付けて記憶された化合物名群N1〜Nmのうち、文字列Ckを含み、かつ、文字列Ckに対応する置換基Sまたは複合置換基CSの結合位置が同一の化合物名の数を計数することができる。そして、情報提供装置101によれば、計数した化合物名の数が閾値Th以上の場合に、置換基Sまたは複合置換基CSの結合位置のバリエーション数Bkをインクリメントすることができる。
これにより、化合物名群N1〜Nmに含まれるダミーや誤記のある化合物名の存在により、置換基Sまたは複合置換基CSの結合位置のバリエーション数Bkが増加してしまうことを防ぐことができる。
また、情報提供装置101によれば、対象化合物の化合物名から抽出した文字列C1〜CKに対応するバリエーション数B1〜BKに基づいて、化学式候補Fiで表現される化学構造の抽象度合いを表す抽象度Aiを算出することができる。これにより、対象化合物に含まれる置換基Sのバリエーション数や複合置換基CSの結合位置のバリエーション数を総合的に判断して、化学式候補Fiで表現される化学構造の抽象度合いを表す抽象度Aiを算出することができる。
また、情報提供装置101によれば、バリエーション数B1〜BKのうちの最小のバリエーション数Bkを、化学式候補Fiの抽象度Aiとして算出することができる。これにより、バリエーション数Bkが最も少ない置換基Sや複合置換基CSについて、化学構造が最も具体化された化学式候補Fiの抽象度Aiを低くすることができる。
これらのことから、情報提供装置101によれば、化学・薬学系文書の読解時に、化学構造が不明な化合物の化学式候補として、より抽象度合いの低い化学式を提示することができ、化合物の化学構造を理解し易くして読解を支援することができる。
なお、本実施の形態で説明した情報提供方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本情報提供プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また、本情報提供プログラムは、インターネット等のネットワークを介して配布してもよい。
上述した実施の形態に関し、さらに以下の付記を開示する。
(付記1)コンピュータが、
化学式の検索対象となる対象化合物の化合物名を取得し、
化学式と対応付けて、当該化学式で表現される化学構造を有する化合物の化合物名群を記憶するデータベースから、前記対象化合物の化合物名に対応する化学式候補を検索し、
前記対象化合物の化合物名から、前記対象化合物の部分文字列を抽出し、
前記データベースに前記化学式候補と対応付けて記憶された化合物名群のうち、抽出した前記部分文字列を含む化合物名の前記部分文字列に付随する数字を特定することにより、前記部分文字列に付随する数字のバリエーション数を算出し、
前記部分文字列に付随する数字のバリエーション数を前記化学式候補と対応付けて出力する、
処理を実行することを特徴とする情報提供方法。
(付記2)前記コンピュータが、
前記化学式候補と対応付けて記憶された化合物名群のうち、前記部分文字列を含み、かつ、前記部分文字列に付随する数字が同一の化合物名の数を計数する処理を実行し、
前記部分文字列に付随する数字のバリエーション数を算出する処理は、
計数した前記化合物名の数が閾値以上の場合に、前記部分文字列に付随する数字のバリエーション数をインクリメントすることを特徴とする付記1に記載の情報提供方法。
(付記3)前記コンピュータが、
前記対象化合物の複数の部分文字列の各々の部分文字列に付随する数字のバリエーション数を算出した場合、前記各々の部分文字列に付随する数字のバリエーション数に基づいて、前記化学式候補で表現される化学構造の抽象度合いを表す抽象度を算出し、
算出した前記抽象度を前記化学式候補と対応付けて出力する処理を実行することを特徴とする付記1または2に記載の情報提供方法。
(付記4)前記抽象度を算出する処理は、
前記各々の部分文字列に付随する数字のバリエーション数を加算することにより、前記抽象度を算出することを特徴とする付記3に記載の情報提供方法。
(付記5)前記コンピュータが、
前記対象化合物の化合物名から、前記対象化合物の複合置換基名とその数を示す倍数接頭辞を含む文字列を抽出し、
前記化学式候補と対応付けて記憶された化合物名群のうち、抽出した前記倍数接頭辞を含む文字列を含む化合物名の前記複合置換基の部分文字列に付随する数字を特定することにより、前記複合置換基の部分文字列に付随する数字のバリエーション数を算出し、
算出した前記複合置換基の部分文字列に付随する数字のバリエーション数を前記化学式候補と対応付けて出力する処理を実行することを特徴とする付記3または4に記載の情報提供方法。
(付記6)前記コンピュータが、
前記化学式候補と対応付けて記憶された化合物名群のうち、前記倍数接頭辞を表す文字列を含み、かつ、前記複合置換基の部分文字列に付随する数字が同一の化合物名の数を計数する処理を実行し、
前記複合置換基の部分文字列に付随する数字のバリエーション数を算出する処理は、
計数した前記化合物名の数が閾値以上の場合に、前記複合置換基の部分文字列に付随する数字のバリエーション数をインクリメントすることを特徴とする付記5に記載の情報提供方法。
(付記7)前記抽象度を算出する処理は、
前記部分文字列に付随する数字のバリエーション数と前記複合置換基の部分文字列に付随する数字のバリエーション数とに基づいて、前記抽象度を算出する処理を実行することを特徴とする付記5または6に記載の情報提供方法。
(付記8)前記抽象度を算出する処理は、
前記部分文字列に付随する数字のバリエーション数と前記複合置換基の部分文字列に付随する数字のバリエーション数とを加算することにより、前記抽象度を算出する処理を実行することを特徴とする付記7に記載の情報提供方法。
(付記9)前記抽象度を算出する処理は、
前記部分文字列に付随する数字のバリエーション数および前記複合置換基の部分文字列に付随する数字のバリエーション数のうち最小のバリエーション数を前記抽象度として算出することを特徴とする付記7に記載の情報提供方法。
(付記10)前記抽象度を算出する処理は、
前記対象化合物の化合物名から抽出された部分文字列から選ばれたいずれかの部分文字列に付随する数字のバリエーション数に基づいて、前記抽象度を算出する処理を実行することを特徴とする付記7に記載の情報提供方法。
(付記11)前記抽象度を算出する処理は、
前記対象化合物の化合物名から抽出された文字列から選ばれたいずれかの文字列が表す倍数接頭辞に対応する複合置換基の部分文字列に付随する数字のバリエーション数に基づいて、前記抽象度を算出する処理を実行することを特徴とする付記7に記載の情報提供方法。
(付記12)化学式の検索対象となる対象化合物の化合物名を取得する取得部と、
化学式と対応付けて、当該化学式で表現される化学構造を有する化合物の化合物名群を記憶するデータベースから、前記取得部によって取得された前記対象化合物の化合物名に対応する化学式候補を検索する検索部と、
前記対象化合物の化合物名から、前記対象化合物の部分文字列を抽出する抽出部と、
前記検索部によって検索された前記化学式候補と対応付けて前記データベースに記憶された化合物名群のうち、前記抽出部によって抽出された前記部分文字列を含む化合物名の前記部分文字列に付随する数字を特定することにより、前記部分文字列に付随する数字のバリエーション数を算出する算出部と、
前記算出部によって算出された前記部分文字列に付随する数字のバリエーション数を前記化学式候補と対応付けて出力する出力部と、
を有することを特徴とする情報提供装置。
(付記13)コンピュータに、
化学式の検索対象となる対象化合物の化合物名を取得し、
化学式と対応付けて、当該化学式で表現される化学構造を有する化合物の化合物名群を記憶するデータベースから、前記対象化合物の化合物名に対応する化学式候補を検索し、
前記対象化合物の化合物名から、前記対象化合物の部分文字列を抽出し、
前記データベースに前記化学式候補と対応付けて記憶された化合物名群のうち、抽出した前記部分文字列を含む化合物名の前記部分文字列に付随する数字を特定することにより、前記部分文字列に付随する数字のバリエーション数を算出し、
前記部分文字列に付随する数字のバリエーション数を前記化学式候補と対応付けて出力する、
処理を実行させることを特徴とする情報提供プログラム。
(付記14)コンピュータに、
化学式の検索対象となる対象化合物の化合物名を取得し、
化学式と対応付けて、当該化学式で表現される化学構造を有する化合物の化合物名群を記憶するデータベースから、前記対象化合物の化合物名に対応する化学式候補を検索し、
前記対象化合物の化合物名から、前記対象化合物の部分文字列を抽出し、
前記データベースに前記化学式候補と対応付けて記憶された化合物名群のうち、抽出した前記部分文字列を含む化合物名の前記部分文字列に付随する数字を特定することにより、前記部分文字列に付随する数字のバリエーション数を算出し、
前記部分文字列に付随する数字のバリエーション数を前記化学式候補と対応付けて出力する、
処理を実行させる情報提供プログラムを記録したことを特徴とする前記コンピュータに読み取り可能な記録媒体。