JP6954108B2

JP6954108B2 - 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置

Info

Publication number: JP6954108B2
Application number: JP2017250520A
Authority: JP
Inventors: 田中　一成; 一成田中
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-10-27
Anticipated expiration: 2037-12-27
Also published as: JP2019117486A

Description

本発明は、化合物名判定方法、化合物名判定プログラム及び化合物名判定装置に関する。

化学分野の特許文献や論文などの文書に含まれる化合物名を特定できれば、文書のデータに化合物の情報へのリンクを付けたり、同じ化合物名に同じＩＤ（IDentifier）を付けることで、人が文書を読み進めやすくすることができる。また、化合物名毎の出現頻度の計算、化合物の化学式、機能及び用途などの情報の抽出といった分析をコンピュータにより行うことができる。

但し、文書から化合物名を正確に抽出することは容易ではない。例えば複合語の化合物名の場合、１つの化合物名の中にスペースやカンマ、ハイフンなどの記号を含むことがあるため、一般的な形態素解析を行うと化合物名が分断されるといった問題が起きる。

化学構造等の化学データを英語の文書から抽出する技術があるが、この技術によっては化合物名であるか否かの判定を適切に行うことができない場合がある。

米国特許第７９３３７６３号

本発明の目的は、１つの側面では、文書に含まれる要素が化合物名であるか否かの判定の精度を向上させるための技術を提供することである。

一態様に係る化合物名判定方法は、第１の言語の文書のデータから、第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、第１の言語の文書のデータにおいて、特定された部分名が直前及び直後に有り且つ第１のデータ格納部に格納されていない第１の要素を特定し、第１の要素の表記を第２の言語の表記に変換し、変換後の第１の要素が、第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、変換後の第１の要素が第２のデータ格納部に格納されている場合、第１の要素と、第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し、生成された第２の要素を出力する処理を含む。

１つの側面では、文書に含まれる要素が化合物名であるか否かの判定の精度を向上させることができるようになる。

図１は、第１の実施の形態の情報処理装置の機能ブロック図である。図２は、第１文書データ格納部に格納されるデータの一例を示す図である。図３は、部分名辞書格納部に格納される部分名辞書の一例を示す図である。図４は、変換表格納部に格納されるデータの一例を示す図である。図５は、第１の実施の形態における情報処理装置が実行する処理の処理フローを示す図である。図６は、タグ付加処理の処理フローを示す図である。図７は、タグが付加された文書の一例を示す図である。図８は、タグが付加された要素が連続する場合の処理について説明するための図である。図９は、未知の要素の抽出について説明するための図である。図１０は、未知の要素の抽出について説明するための図である。図１１は、第１の実施の形態におけるタグ付替処理の処理フローを示す図である。図１２は、タグの付替えについて説明するための図である。図１３は、第２の実施の形態における情報処理装置の機能ブロック図である。図１４は、第２の実施の形態における情報処理装置が実行する処理の処理フローを示す図である。図１５は、第２の実施の形態の処理について説明するための図である。図１６は、出現回数の管理態様について説明するための図である。図１７は、第２の実施の形態におけるタグ付替処理の処理フローを示す図である。図１８は、タグの付替及び化合物名の抽出について説明するための図である。図１９は、タグの付替及び化合物名の抽出について説明するための図である。図２０は、コンピュータのハードウエア構成図である。

［実施の形態１］
本実施の形態においては、第１の言語の文書から化合物名を抽出する際に、第２の言語の文書を利用することで高精度な抽出を実現する。以下では、第１の言語を英語とし且つ第２の言語を日本語として説明をするが、このような組み合わせに限定されるわけではない。

図１は、第１の実施の形態の情報処理装置１の機能ブロック図である。情報処理装置１は、例えばパーソナルコンピュータ、スマートデバイス、またはサーバ等である。情報処理装置１は、タグ付加部１０１と、タグ付替部１０３と、変換部１０５と、第１文書データ格納部１０７と、部分名辞書格納部１０９と、第２文書データ格納部１１１と、化合物名格納部１１３と、変換表格納部１１５とを含む。

タグ付加部１０１、タグ付替部１０３及び変換部１０５は、例えば、図２０におけるメモリ２５０１にロードされたプログラムがＣＰＵ（Central Processing Unit）２５０３により実行されることで実現される。第１文書データ格納部１０７、部分名辞書格納部１０９、第２文書データ格納部１１１、化合物名格納部１１３及び変換表格納部１１５は、例えば、図２０におけるメモリ２５０１又はＨＤＤ（Hard Disk Drive）２５０５に設けられる。

タグ付加部１０１は、部分名辞書格納部１０９に格納されているデータ及び第１文書データ格納部１０７に格納されているデータに基づき処理を実行し、処理結果をタグ付替部１０３に渡す。変換部１０５は、タグ付替部１０３からの呼び出しに応じて、変換表格納部１１５に格納されているデータに基づき処理を実行し、処理結果をタグ付替部１０３に渡す。タグ付替部１０３は、タグ付加部１０１から受け取った処理結果、変換部１０５から受け取った処理結果及び第２文書データ格納部１１１に格納されているデータに基づき処理を実行し、処理結果を化合物名格納部１１３に格納する。

第１文書データ格納部１０７には、第１の言語の文書のデータが格納される。図２は、第１文書データ格納部１０７に格納されるデータの一例を示す図である。図２の例では、第１の言語である英語の化学文書のデータが格納されている。図２に示した化学文書のデータには化合物名が含まれるが、化合物名ではない単語も含まれる。

部分名辞書格納部１０９には、第１の言語の化合物名の部分名が格納される。部分名とは、１つの化合物名の一部として使用されることがある、文字、数字及びその他の記号（例えばハイフンやカンマなど）の塊である。例えば、１つの化合物名「p-ethyl phenol」における「p-ethyl」及び「phenol」が部分名に該当する。但し、部分名はそれ自体が１つの化合物名にもなり得る。そのような部分名としては、例えば「phenol」及び「propane」等がある。

図３は、部分名辞書格納部１０９に格納される部分名辞書の一例を示す図である。図３の例では、英文字だけではなく、英文字に付加されている数字及びその他の記号（図３の例では、カンマ及びハイフン）等が部分名の一部として扱われている。また、数字に挟まれる記号（図３の例ではカンマ）も部分名の一部として扱われている。但し、数字及びその他の記号であって化合物名の一部として使用されるもの（図３の例であれば、「1,1-」及び「1-」）が、英文字に付加された形ではなく単独で部分名辞書格納部１０９に予め登録されてもよい。

なお、部分名辞書は、化合物名の辞書（例えば日本語の場合には、日本化学物質辞書など）を利用して生成することができる。部分名辞書の生成については、特開２０１３−１０１５０８号公報及び特開２０１３−１０１５０９号公報に開示されているような方法を利用することができるので、ここでは部分名辞書の生成に関する詳細な説明を省略する。

第２文書データ格納部１１１には、第２の言語の化学文書のデータが格納される。本実施の形態においては、第２の言語の化学文書のデータとして、化学分野の日本語の特許文献（例えば、ＦＩ（File Index）がＣである特許文献）のデータが格納される。但し、化学分野の日本語の論文やその他の技術文献等が格納されてもよい。

図４は、変換表格納部１１５に格納されるデータの一例を示す図である。図４においては、「a」、「me」及び「tha」など、ひとつの音が発生する単位毎にエントリが設けられている。変換表格納部１１５は、化合物の部分名であるか否かが不明である第１の言語の要素の表記を第２の言語の表記に変換するために使用される。本実施の形態における「要素」とは、文字、数字及びその他の記号（例えばハイフンやカンマなど）の塊である。

次に、情報処理装置１の動作について説明する。図５は、第１の実施の形態における情報処理装置１が実行する処理の処理フローを示す図である。

まず、情報処理装置１のタグ付加部１０１は、第１文書データ格納部１０７に格納されているデータ及び部分名辞書格納部１０９に格納されている部分名辞書に基づきタグ付加処理を実行する（図５：ステップＳ１）。

図６は、タグ付加処理の処理フローを示す図である。

タグ付加部１０１は、第１の言語の文書のデータを第１文書データ格納部１０７から読み出す（図６：ステップＳ２１）。

タグ付加部１０１は、ステップＳ２１において読み出されたデータに含まれる要素のうち、部分名辞書格納部１０９に部分名として登録されている要素を特定する（ステップＳ２３）。

タグ付加部１０１は、ステップＳ２３において特定された要素の各々にタグ（ここでは、開始タグ及び終了タグ）を付加する（ステップＳ２５）。

図７は、タグが付加された文書の一例を示す図である。図７の例では、図２に示したデータに含まれる要素のうち、部分名辞書格納部１０９に部分名として登録されている要素に開始タグ「＜ｃ＞」及び終了タグ「＜／ｃ＞」が付加されている。部分名に後続する半角スペースは部分名と一緒にタグ付けされている。

タグ付加部１０１は、ステップＳ２５の処理が実行された文書のデータにおいて、タグが付加された要素が連続する場合、連続する要素に付加されたタグのうち最も外側にある開始タグ及び終了タグ以外のタグを削除する（ステップＳ２７）。

図８は、タグが付加された要素が連続する場合の処理について説明するための図である。図８（ａ）に示すように、例えば「p-ethyl 」及び「phenol」にタグが付加されているとする。この場合、図８（ｂ）に示すように、最も外側にある開始タグ及び終了タグ以外のタグは削除される。より具体的には、「p-ethyl 」に付加されている終了タグ及び「phenol」に付加されている開始タグが削除される。

タグ付加部１０１は、ステップＳ２５においてタグが付加されていない要素であって、タグが付加された要素に挟まれた要素を未知の要素として抽出する（ステップＳ２９）。そして処理は呼び出し元に戻る。

図９及び図１０は、未知の要素の抽出について説明するための図である。

図９（ａ）には、「4-glycidyloxyphenyl」という要素が示されている。図９（ｂ）は、図９（ａ）に示した要素に対してタグ付けをした結果を示す図である。「4-」、「glycidyl」及び「phenyl」にタグが付加されている。この場合、未知の要素として文字列「oxy」が抽出される。

図１０（ａ）には、「l-Noradrenaline」という要素が示されている。図１０（ｂ）は、図１０（ａ）に示した要素に対してタグ付けをした結果を示す図である。「l-」及び「adrenaline」にタグが付加されている。この場合、未知の要素として文字列「Nor」が抽出される。

図５の説明に戻り、タグ付替部１０３は、ステップＳ２９において抽出された未知の要素のうち未処理の要素を１つ特定する（ステップＳ３）。

タグ付替部１０３は、変換部１０５を呼び出す。これに応じ、変換部１０５は、変換表格納部１１５に格納されているデータに基づき、ステップＳ３において特定された要素の表記を第２の言語の表記に変換する（ステップＳ５）。図９の例であれば「oxy」が「オキシ」に変換され、図１０の例であれば「Nor」が「ノル」に変換される。なお、本実施の形態においては日本語のカタカナへの変換が行われるとする。未知の要素に文字以外の記号（例えばハイフンなど）が含まれる場合には、その記号についての表記はそのまま維持されるようにしてもよい。

タグ付替部１０３は、ステップＳ５の変換が行われた要素が第２文書データ格納部１１１に格納されているデータに出現する回数を計数する（ステップＳ７）。

タグ付替部１０３は、ステップＳ７において計数された回数が閾値（例えば数回）以上であるか判定する（ステップＳ９）。

ステップＳ７において計数された回数が閾値以上である場合（ステップＳ９：Ｙｅｓルート）、タグ付替部１０３は、第１の実施の形態におけるタグ付替処理を実行する（ステップＳ１１）。そして処理はステップＳ１３に戻る。

図１１は、第１の実施の形態におけるタグ付替処理の処理フローを示す図である。

タグ付替部１０３は、ステップＳ９において出現回数が閾値以上であると判定された要素の変換前の要素の直前にある終了タグを、タグが付加された文書のデータから削除する（図１１：ステップＳ３１）。

タグ付替部１０３は、ステップＳ９において出現回数が閾値以上であると判定された要素の変換前の要素の直後にある開始タグを、タグが付加された文書のデータから削除する（ステップＳ３３）。そして処理は呼び出し元に戻る。

図１２は、タグの付替えについて説明するための図である。図１２（ａ）に示すように、「4,4-」及び「diphenol」にタグが付加されており、「isopropylidene」にはタグが付加されておらず未知の要素として抽出されたとする。ここで、「isopropylidene」をカタカナに変換した「イソプロピリデン」が第２文書データ格納部１１１に登録されている場合には、図１２（ｂ）に示すように、イソプロピリデンの変換前の要素「isopropylidene」の直前にある終了タグ及び直後にある開始タグは削除される。

図５の説明に戻り、ステップＳ７において計数された回数が閾値以上ではない場合（ステップＳ９：Ｎｏルート）、タグ付替部１０３は、未知の要素のうち未処理の要素が有るか判定する（ステップＳ１３）。

未知の要素のうち未処理の要素が有る場合（ステップＳ１３：Ｙｅｓルート）、次の要素を処理するため、処理はステップＳ３に戻る。一方、未知の要素のうち未処理の要素が無い場合（ステップＳ１３：Ｎｏルート）、タグ付替部１０３は、ステップＳ１及びＳ１１の処理を経て最終的にタグが付加されている要素を特定し、特定された要素を化合物名格納部１１３に格納する（ステップＳ１５）。化合物名格納部１１３に格納された化合物名は出力される（例えば、情報処理装置１の表示装置に表示される）。そして処理は終了する。図１２（ｂ）の例であれば、「4,4-isopropylidene diphenol」が化合物名格納部１１３に格納される。

化合物名（特に複合語）には、文の区切りとして使用されるカンマやスペース等が含まれることがあるため、形態素解析を行うと化合物名が分断されることがある。しかし、たとえ複合語であっても、本実施の形態のように部分名の連続によって化合物名であるか否かの判定を行えば、化合物名の区切りを適切に認定することができるようになる。

また、第１の言語の未知の要素が含まれる場合であっても、未知の要素の表記は第２の言語の表記に変換され、変換後の要素が第２の言語の化学文書に存在するか否かに基づき、未知の要素が化合物名の一部であるか否かが判定される。これにより、化合物名をより網羅的に抽出することができるようになる。また、化合物名の一部ではない要素を化合物名として扱うことを防げるようになる。

なお、化学分野の日本語の特許文書の実施例においては、カタカナ語の文字列のほとんどが化合物名であるので、上記のような方法であれば、化合物名の一部に相当するか否かの判定を高精度で行うことができる。

例えば図９の「oxy」については、英語の文書を検索すると「Proxy」、「Oxya」及び「Oxycoccus」等がヒットし、化合物名の一部としての妥当性を判定できない。一方、日本語の文書には「オキシ」を含む単語は化合物名に関するもの以外にほとんど無いので、化合物名の一部としての妥当性を高い確度で判定することができる。

また、例えば図１０の「Nor」については、英語の文書を検索すると接続詞の「nor」等がヒットし、化合物名の一部としての妥当性を判定できない。一方、日本語の文書には「ノル」を含む単語は化合物名に関するもの以外にほとんど無いので、化合物名の一部としての妥当性を高い確度で判定することができる。

また、化合物名の一部として使用される頻度が高いものとして「one」、「ene」、「ide」及び「bora」等の文字列があるが、それぞれ化合物名に関係しない単語または単語の一部として使用されることがしばしばある。例えば、「one」は普通は「１」として使用され、「ene」は「generate」などの一般的な単語に含まれ、「ide」は「residence」などの一般的な単語に含まれ、「bora」は「laboratory」等の一般的な単語に含まれる。一方、日本語の文書には、それらをカタカナに変換した「オン」、「エン」、「イド」及び「ボラ」は化合物名の一部として使用されることが多いので、化合物名の一部としての妥当性を高い確度で判定することができる。

また、英語の化合物名が登録されている化合物ＤＢ（DataBase）（例えば「Pubchem」https://pubchem.ncbi.nlm.nih.gov/）を本実施の形態における第２文書データ格納部１１１として利用すれば、英語を第２の言語として利用することができる。この場合には、化合物名の抽出が英語より相対的に困難である言語が第１の言語である。このように、化合物名の抽出が相対的に困難である言語と、化合物名の抽出が相対的に容易である言語との間で、本実施の形態の方法を利用することができる。

［実施の形態２］
第１の実施の形態においては、第１の言語の１つの未知の要素から第２の言語の１つの要素が生成される。但し、文字列によっては表記ゆれを考慮した方がよい場合がある。例えば「isopropylidene」については、「イソプロピリデン」だけでなく「アイソプロピリデン」についても検索の対象とした方がよい。また、「イソプロピリデン」の一部である「イソ」及び「プロピリデン」等についても検索の対象とすれば、化合物名の一部であるか否かの判定をより細かい単位で実施することができる。このような観点から、第２の実施の形態においては以下で説明するような処理が実行される。

図１３は、第２の実施の形態における情報処理装置１の機能ブロック図である。情報処理装置１は、例えばパーソナルコンピュータ、スマートデバイス、またはサーバ等である。情報処理装置１は、タグ付加部１０１と、タグ付替部１０３と、変換部１０５と、第１文書データ格納部１０７と、部分名辞書格納部１０９と、第２文書データ格納部１１１と、化合物名格納部１１３と、変換表格納部１１５と、派生要素格納部１１７とを含む。

タグ付加部１０１、タグ付替部１０３及び変換部１０５は、例えば、図２０におけるメモリ２５０１にロードされたプログラムがＣＰＵ２５０３により実行されることで実現される。第１文書データ格納部１０７、部分名辞書格納部１０９、第２文書データ格納部１１１、化合物名格納部１１３、変換表格納部１１５及び派生要素格納部１１７は、例えば、図２０におけるメモリ２５０１又はＨＤＤ２５０５に設けられる。

タグ付加部１０１は、部分名辞書格納部１０９に格納されているデータ及び第１文書データ格納部１０７に格納されているデータに基づき処理を実行し、処理結果をタグ付替部１０３に渡す。変換部１０５は、タグ付替部１０３からの呼び出しに応じて、変換表格納部１１５に格納されているデータに基づき処理を実行し、処理結果を派生要素格納部１１７に格納する。タグ付替部１０３は、タグ付加部１０１から受け取った処理結果、第２文書データ格納部１１１に格納されているデータ及び派生要素格納部１１７に格納されているデータに基づき処理を実行し、処理結果を化合物名格納部１１３に格納する。

次に、情報処理装置１の動作について説明する。図１４は、第２の実施の形態における情報処理装置１が実行する処理の処理フローを示す図である。

まず、情報処理装置１のタグ付加部１０１は、第１文書データ格納部１０７に格納されているデータ及び部分名辞書格納部１０９に格納されている部分名辞書に基づきタグ付加処理を実行する（図１４：ステップＳ４１）。第２の実施の形態におけるタグ付加処理は第１の実施の形態におけるタグ付加処理と同様であるので、ここでは説明を省略する。

タグ付替部１０３は、タグ付加処理のステップＳ２９において抽出された未知の要素のうち未処理の要素を１つ特定する（ステップＳ４３）。

タグ付替部１０３は、変換部１０５を呼び出す。これに応じ、変換部１０５は、変換表格納部１１５に格納されているデータに基づき、ステップＳ４３において特定された要素の表記を第２の言語の表記に変換する（ステップＳ４５）。例えば図１５（ａ）に示した「isopropylidene」は、図１５（ｂ）に示した「イソプロピリデン」に変換される。なお、未知の要素に文字以外の記号（例えばハイフンなど）が含まれる場合には、その記号についての表記はそのまま維持されるようにしてもよい。

変換部１０５は、ステップＳ４５における変換後の要素から、分割により複数の要素を生成し（ステップＳ４６）、生成された複数の要素を派生要素格納部１１７に格納する。例えば「イソプロピリデン」からは「イソ」及び「プロピリデン」が生成される。分割は、例えばｎ−ｇｒａｍの技術を利用して実行され、２文字以上の全文字列或いは一部の文字列が使用される。

変換部１０５は、ステップＳ４５における変換後の要素から、表記ゆれの１又は複数の要素を生成し（ステップＳ４７）、生成された１又は複数の要素を派生要素格納部１１７に格納する。例えば「イソプロピリデン」については「アイソプロピリデン」が生成される。従って、ステップＳ４６及びＳ４７の処理により、図１５（ｃ）に示すように、検索の対象として「アイソプロピリデン」、「イソ」及び「プロピリデン」が追加される。

タグ付替部１０３は、ステップＳ４５における変換後の要素および派生要素格納部１１７に格納されている要素の各々が第２文書データ格納部１１１に格納されているデータに出現する回数を計数する（ステップＳ４９）。計数された回数は、例えば図１６に示すような形式で、メモリ２５０１又はＨＤＤ２５０５において管理される。

タグ付替部１０３は、ステップＳ４５における変換後の要素および派生要素格納部１１７に格納されている要素の各々について、ステップＳ４９において計数された回数が閾値（例えば数回）以上であるか判定する（ステップＳ５１）。

ステップＳ４９において計数された回数が閾値以上である要素が有る場合（ステップＳ５１：Ｙｅｓルート）、タグ付替部１０３は、第２の実施の形態におけるタグ付替処理を実行する（ステップＳ５３）。そして処理はステップＳ５５に戻る。

図１７は、第２の実施の形態におけるタグ付替処理の処理フローを示す図である。

タグ付替部１０３は、ステップＳ５１において出現回数が閾値以上であると判定された要素の変換前の要素にタグを付加する（図１７：ステップＳ６１）。

例えば図１５（ｃ）に示した４つの候補のうち「イソ」の出現回数が閾値以上であると判定された場合、図１８（ａ）に示すようにタグ付けが行われる。また、例えば図１５（ｃ）に示した４つの候補のうち「プロピリデン」の出現回数が閾値以上であると判定された場合、図１９（ａ）に示すようにタグ付けが行われる。また、例えば図１５（ｃ）に示した４つの候補のうち「イソ」及び「プロピリデン」の出現回数が閾値以上であると判定された場合には、「iso」及び「propylidene」に対してタグが付加される。また、例えば図１５（ｃ）に示した４つの候補のうち「イソ」及び「イソプロピリデン」の出現回数が閾値以上であると判定された場合には、「isopropylidene」のみに対してタグが付加されるか又は「iso」及び「isopropylidene」の両方にタグが付加される。

タグ付替部１０３は、ステップＳ６１においてタグが付加された要素と、部分名辞書に登録され且つタグが付加されている要素とが連続する場合、連続する複数の要素に付加されたタグのうち最も外側にある開始タグ及び終了タグ以外のタグを削除する（ステップＳ６３）。そして処理は呼び出し元に戻る。

例えば図１８（ａ）の例では、図１８（ｂ）に示すようにタグが削除される。また、例えば図１９（ａ）の例では、図１９（ｂ）に示すようにタグが削除される。

図１４の説明に戻り、ステップＳ４９において計数された回数が閾値以上である要素がない場合（ステップＳ５１：Ｎｏルート）、タグ付替部１０３は、未知の要素のうち未処理の要素が有るか判定する（ステップＳ５５）。

未知の要素のうち未処理の要素が有る場合（ステップＳ５５：Ｙｅｓルート）、次の要素を処理するため、処理はステップＳ４３に戻る。一方、未知の要素のうち未処理の要素が無い場合（ステップＳ５５：Ｎｏルート）、タグ付替部１０３は、ステップＳ４１及びＳ５３の処理を経て最終的にタグが付加されている要素を特定し、特定された要素を化合物名格納部１１３に格納する（ステップＳ５７）。化合物名格納部１１３に格納された化合物名は出力される（例えば、情報処理装置１の表示装置に表示される）。そして処理は終了する。図１８（ｂ）の例であれば「4,4-iso」及び「diphenol」が化合物名格納部１１３に格納され、図１９（ｂ）の例であれば「4,4-」及び「propylidene diphenol」が化合物名格納部１１３に格納される。

また、第１の言語の未知の要素が含まれる場合であっても、未知の要素の表記は第２の言語の表記に変換され、変換後の要素が第２の言語の化学文書に存在するか否かに基づき、未知の要素が化合物名の一部であるか否かが判定される。これにより、化合物名をより網羅的に抽出することができるようになる。また、化合物名の一部ではない文字列を化合物名として扱うことを防げるようになる。

また、第２の実施の形態における処理によれば、化合物名の一部であるか否かの判定をより細かい単位で実施することができるので、化合物名の抽出漏れを抑制できるようになる。

［実施の形態３］
日本語の文書の場合、化合物名はカタカナ及び一部の漢字（例えば「酸」）を使用して記述されることが多いため、パターンマッチングによって候補を抽出することができる。

候補を抽出した後、化合物名として適切かどうか判別するための学習器によって、化合物名として適切ではないものを取り除くことができる。このようにして最終的に残った化合物名の集合を、第２文書データ格納部１１１内のデータとして使用してもよい。

例えば「好ましい酸化防止剤としては、例えば２，６−ジ−ｔ−ブチル−４−メチルフェノール、２，４，６−トリ−ｔ−ブチルフェノール、．．．．．．などをサンプルとして用いることができる。」という日本語の文章があるとする。この文書から、パターンマッチングによって、例えば「２，６−ジ−ｔ−ブチル−４−メチルフェノール」、「２，４，６−トリ−ｔ−ブチルフェノール」及び「サンプル」が抽出されるとする。そして、第２文書データ格納部１１１内のデータとしては、上記の学習器によって最終的に残った「２，６−ジ−ｔ−ブチル−４−メチルフェノール」及び「２，４，６−トリ−ｔ−ブチルフェノール」が使用される。

以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置１の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。

また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。

なお、上で述べた情報処理装置１は、コンピュータ装置であって、図２０に示すように、メモリ２５０１とＣＰＵ２５０３とＨＤＤ２５０５と表示装置２５０９に接続される表示制御部２５０７とリムーバブル・ディスク２５１１用のドライブ装置２５１３と入力装置２５１５とネットワークに接続するための通信制御部２５１７とがバス２５１９で接続されている。オペレーティング・システム（ＯＳ：Operating System）及び本実施例における処理を実施するためのアプリケーション・プログラムは、ＨＤＤ２５０５に格納されており、ＣＰＵ２５０３により実行される際にはＨＤＤ２５０５からメモリ２５０１に読み出される。ＣＰＵ２５０３は、アプリケーション・プログラムの処理内容に応じて表示制御部２５０７、通信制御部２５１７、ドライブ装置２５１３を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ２５０１に格納されるが、ＨＤＤ２５０５に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク２５１１に格納されて頒布され、ドライブ装置２５１３からＨＤＤ２５０５にインストールされる。インターネットなどのネットワーク及び通信制御部２５１７を経由して、ＨＤＤ２５０５にインストールされる場合もある。このようなコンピュータ装置は、上で述べたＣＰＵ２５０３、メモリ２５０１などのハードウエアとＯＳ及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。

以上述べた本発明の実施の形態をまとめると、以下のようになる。

本実施の形態の第１の態様に係る化合物名判定方法は、（Ａ）第１の言語の文書のデータから、第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、（Ｂ）第１の言語の文書のデータにおいて、特定された部分名が直前及び直後に有り且つ第１のデータ格納部に格納されていない第１の要素を特定し、（Ｃ）第１の要素の表記を第２の言語の表記に変換し、（Ｄ）変換後の第１の要素が、第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、（Ｅ）変換後の第１の要素が第２のデータ格納部に格納されている場合、第１の要素と、第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し、（Ｆ）生成された第２の要素を出力する処理を含む。

化合物の部分名に着目することで、文書に含まれる要素が化合物名であるか否かの判定の精度を向上させることができるようになる。

また、本化合物名判定方法は、（Ｆ）変換後の第１の要素を分割して複数の要素を生成し、（Ｇ）生成された複数の要素の各々について、当該要素が第２のデータ格納部に格納されており、且つ、当該要素の変換前の要素と第１の要素の直前及び直後に有る部分名のいずれかとが連続するという第１の条件が満たされるか判定し、（Ｈ）第１の条件が満たされると判定された第３の要素と、第１の要素の直前及び直後に有る部分名のうち当該第３の要素と連続する部分名とを連結して第４の要素を生成し、（Ｉ）生成された第４の要素を出力する処理をさらに含んでもよい。

化合物名をより網羅的に抽出することができるようになる。

また、本化合物名判定方法は、（Ｊ）変換後の第１の要素の表記ゆれに相当する１又は複数の要素を生成し、（Ｋ）生成された１又は複数の要素の各々について、当該要素が第２のデータ格納部に格納されており、且つ、当該要素の変換前の要素と第１の要素の直前及び直後に有る部分名のいずれかとが連続するという第２の条件が満たされるか判定し、（Ｌ）第２の条件が満たされると判定された第５の要素と、第１の要素の直前及び直後に有る部分名のうち当該第５の要素と連続する部分名とを連結して第６の要素を生成し、（Ｍ）生成された第６の要素を出力する処理をさらに含んでもよい。

また、第１の言語は英語であり、第２の言語は日本語であり、変換後の第１の要素はカタカナの文字列であってもよい。

化学文書に含まれるカタカナ語は、アルファベットの化合物名をローマ字読みしたものであることが多い。従って、第１の要素がカタカナの文字列に変換されれば、化合物名の一部であるか否かの判定をより高精度で行うことができるようになる。

また、第２の言語の化学文書は、化学分野の特許文書であってもよい。

本実施の形態の第２の態様に係る化合物名判定装置は、（Ｎ）第１の言語の文書のデータから、第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、第１の言語の文書のデータにおいて、特定された部分名が直前及び直後に有り且つ第１のデータ格納部に格納されていない第１の要素を特定する特定部（実施の形態におけるタグ付加部１０１は上記特定部の一例である）と、（Ｏ）第１の要素の表記を第２の言語の表記に変換する変換部（実施の形態における変換部１０５は上記変換部の一例である）と、（Ｐ）変換後の第１の要素が、第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、変換後の第１の要素が第２のデータ格納部に格納されている場合、第１の要素と、第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し生成された第２の要素を出力する出力部（実施の形態におけるタグ付替部１０３は上記出力部の一例である）とを有する。

なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、ＣＤ−ＲＯＭ、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。

以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。

（付記１）
コンピュータが、
第１の言語の文書のデータから、前記第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、
前記第１の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第１のデータ格納部に格納されていない第１の要素を特定し、
前記第１の要素の表記を第２の言語の表記に変換し、
変換後の前記第１の要素が、前記第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、
変換後の前記第１の要素が前記第２のデータ格納部に格納されている場合、前記第１の要素と、前記第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し、
生成された前記第２の要素を出力する、
処理を実行する化合物名判定方法。

（付記２）
前記コンピュータが、
変換後の前記第１の要素を分割して複数の要素を生成し、
生成された前記複数の要素の各々について、当該要素が前記第２のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第１の要素の直前及び直後に有る部分名のいずれかとが連続するという第１の条件が満たされるか判定し、
前記第１の条件が満たされると判定された第３の要素と、前記第１の要素の直前及び直後に有る部分名のうち当該第３の要素と連続する部分名とを連結して第４の要素を生成し、
生成された前記第４の要素を出力する、
処理をさらに実行する付記１記載の化合物名判定方法。

（付記３）
前記コンピュータが、
変換後の前記第１の要素の表記ゆれに相当する１又は複数の要素を生成し、
生成された前記１又は複数の要素の各々について、当該要素が前記第２のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第１の要素の直前及び直後に有る部分名のいずれかとが連続するという第２の条件が満たされるか判定し、
前記第２の条件が満たされると判定された第５の要素と、前記第１の要素の直前及び直後に有る部分名のうち当該第５の要素と連続する部分名とを連結して第６の要素を生成し、
生成された前記第６の要素を出力する、
処理をさらに実行する付記１記載の化合物名判定方法。

（付記４）
前記第１の言語は英語であり、前記第２の言語は日本語であり、変換後の前記第１の要素はカタカナの文字列である、
付記１乃至３のいずれか１つ記載の化合物名判定方法。

（付記５）
前記第２の言語の化学文書は、化学分野の特許文書である、
付記１乃至４のいずれか１つ記載の化合物名判定方法。

（付記６）
コンピュータに、
第１の言語の文書のデータから、前記第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、
前記第１の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第１のデータ格納部に格納されていない第１の要素を特定し、
前記第１の要素の表記を第２の言語の表記に変換し、
変換後の前記第１の要素が、前記第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、
変換後の前記第１の要素が前記第２のデータ格納部に格納されている場合、前記第１の要素と、前記第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し、
生成された前記第２の要素を出力する、
処理を実行させる化合物名判定プログラム。

（付記７）
第１の言語の文書のデータから、前記第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、前記第１の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第１のデータ格納部に格納されていない第１の要素を特定する特定部と、
前記第１の要素の表記を第２の言語の表記に変換する変換部と、
変換後の前記第１の要素が、前記第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、変換後の前記第１の要素が前記第２のデータ格納部に格納されている場合、前記第１の要素と、前記第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し生成された前記第２の要素を出力する出力部と、
を有する化合物名判定装置。

１情報処理装置１０１タグ付加部
１０３タグ付替部１０５変換部
１０７第１文書データ格納部１０９部分名辞書格納部
１１１第２文書データ格納部１１３化合物名格納部
１１５変換表格納部１１７派生要素格納部

Claims

コンピュータが、
第１の言語の文書のデータから、前記第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、
前記第１の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第１のデータ格納部に格納されていない第１の要素を特定し、
前記第１の要素の表記を第２の言語の表記に変換し、
変換後の前記第１の要素が、前記第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、
変換後の前記第１の要素が前記第２のデータ格納部に格納されている場合、前記第１の要素と、前記第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し、
生成された前記第２の要素を出力する、
処理を実行する化合物名判定方法。
前記コンピュータが、
変換後の前記第１の要素を分割して複数の要素を生成し、
生成された前記複数の要素の各々について、当該要素が前記第２のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第１の要素の直前及び直後に有る部分名のいずれかとが連続するという第１の条件が満たされるか判定し、
前記第１の条件が満たされると判定された第３の要素と、前記第１の要素の直前及び直後に有る部分名のうち当該第３の要素と連続する部分名とを連結して第４の要素を生成し、
生成された前記第４の要素を出力する、
処理をさらに実行する請求項１記載の化合物名判定方法。
前記コンピュータが、
変換後の前記第１の要素の表記ゆれに相当する１又は複数の要素を生成し、
生成された前記１又は複数の要素の各々について、当該要素が前記第２のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第１の要素の直前及び直後に有る部分名のいずれかとが連続するという第２の条件が満たされるか判定し、
前記第２の条件が満たされると判定された第５の要素と、前記第１の要素の直前及び直後に有る部分名のうち当該第５の要素と連続する部分名とを連結して第６の要素を生成し、
生成された前記第６の要素を出力する、
処理をさらに実行する請求項１記載の化合物名判定方法。
前記第１の言語は英語であり、前記第２の言語は日本語であり、変換後の前記第１の要素はカタカナの文字列である、
請求項１乃至３のいずれか１つ記載の化合物名判定方法。
コンピュータに、
第１の言語の文書のデータから、前記第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、
前記第１の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第１のデータ格納部に格納されていない第１の要素を特定し、
前記第１の要素の表記を第２の言語の表記に変換し、
変換後の前記第１の要素が、前記第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、
変換後の前記第１の要素が前記第２のデータ格納部に格納されている場合、前記第１の要素と、前記第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し、
生成された前記第２の要素を出力する、
処理を実行させる化合物名判定プログラム。
第１の言語の文書のデータから、前記第１の言語の化合物名の一部に相当する部分名が格納された第１のデータ格納部に格納されている部分名を特定し、前記第１の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第１のデータ格納部に格納されていない第１の要素を特定する特定部と、
前記第１の要素の表記を第２の言語の表記に変換する変換部と、
変換後の前記第１の要素が、前記第２の言語の化学文書のデータが格納された第２のデータ格納部に格納されているか判定し、変換後の前記第１の要素が前記第２のデータ格納部に格納されている場合、前記第１の要素と、前記第１の要素の直前及び直後に有る部分名とを連結して第２の要素を生成し生成された前記第２の要素を出力する出力部と、
を有する化合物名判定装置。