JP6954108B2 - 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 - Google Patents

化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 Download PDF

Info

Publication number
JP6954108B2
JP6954108B2 JP2017250520A JP2017250520A JP6954108B2 JP 6954108 B2 JP6954108 B2 JP 6954108B2 JP 2017250520 A JP2017250520 A JP 2017250520A JP 2017250520 A JP2017250520 A JP 2017250520A JP 6954108 B2 JP6954108 B2 JP 6954108B2
Authority
JP
Japan
Prior art keywords
stored
storage unit
language
name
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017250520A
Other languages
English (en)
Other versions
JP2019117486A (ja
Inventor
田中 一成
一成 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017250520A priority Critical patent/JP6954108B2/ja
Publication of JP2019117486A publication Critical patent/JP2019117486A/ja
Application granted granted Critical
Publication of JP6954108B2 publication Critical patent/JP6954108B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、化合物名判定方法、化合物名判定プログラム及び化合物名判定装置に関する。
化学分野の特許文献や論文などの文書に含まれる化合物名を特定できれば、文書のデータに化合物の情報へのリンクを付けたり、同じ化合物名に同じID(IDentifier)を付けることで、人が文書を読み進めやすくすることができる。また、化合物名毎の出現頻度の計算、化合物の化学式、機能及び用途などの情報の抽出といった分析をコンピュータにより行うことができる。
但し、文書から化合物名を正確に抽出することは容易ではない。例えば複合語の化合物名の場合、1つの化合物名の中にスペースやカンマ、ハイフンなどの記号を含むことがあるため、一般的な形態素解析を行うと化合物名が分断されるといった問題が起きる。
化学構造等の化学データを英語の文書から抽出する技術があるが、この技術によっては化合物名であるか否かの判定を適切に行うことができない場合がある。
米国特許第7933763号
本発明の目的は、1つの側面では、文書に含まれる要素が化合物名であるか否かの判定の精度を向上させるための技術を提供することである。
一態様に係る化合物名判定方法は、第1の言語の文書のデータから、第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、第1の言語の文書のデータにおいて、特定された部分名が直前及び直後に有り且つ第1のデータ格納部に格納されていない第1の要素を特定し、第1の要素の表記を第2の言語の表記に変換し、変換後の第1の要素が、第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、変換後の第1の要素が第2のデータ格納部に格納されている場合、第1の要素と、第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、生成された第2の要素を出力する処理を含む。
1つの側面では、文書に含まれる要素が化合物名であるか否かの判定の精度を向上させることができるようになる。
図1は、第1の実施の形態の情報処理装置の機能ブロック図である。 図2は、第1文書データ格納部に格納されるデータの一例を示す図である。 図3は、部分名辞書格納部に格納される部分名辞書の一例を示す図である。 図4は、変換表格納部に格納されるデータの一例を示す図である。 図5は、第1の実施の形態における情報処理装置が実行する処理の処理フローを示す図である。 図6は、タグ付加処理の処理フローを示す図である。 図7は、タグが付加された文書の一例を示す図である。 図8は、タグが付加された要素が連続する場合の処理について説明するための図である。 図9は、未知の要素の抽出について説明するための図である。 図10は、未知の要素の抽出について説明するための図である。 図11は、第1の実施の形態におけるタグ付替処理の処理フローを示す図である。 図12は、タグの付替えについて説明するための図である。 図13は、第2の実施の形態における情報処理装置の機能ブロック図である。 図14は、第2の実施の形態における情報処理装置が実行する処理の処理フローを示す図である。 図15は、第2の実施の形態の処理について説明するための図である。 図16は、出現回数の管理態様について説明するための図である。 図17は、第2の実施の形態におけるタグ付替処理の処理フローを示す図である。 図18は、タグの付替及び化合物名の抽出について説明するための図である。 図19は、タグの付替及び化合物名の抽出について説明するための図である。 図20は、コンピュータのハードウエア構成図である。
[実施の形態1]
本実施の形態においては、第1の言語の文書から化合物名を抽出する際に、第2の言語の文書を利用することで高精度な抽出を実現する。以下では、第1の言語を英語とし且つ第2の言語を日本語として説明をするが、このような組み合わせに限定されるわけではない。
図1は、第1の実施の形態の情報処理装置1の機能ブロック図である。情報処理装置1は、例えばパーソナルコンピュータ、スマートデバイス、またはサーバ等である。情報処理装置1は、タグ付加部101と、タグ付替部103と、変換部105と、第1文書データ格納部107と、部分名辞書格納部109と、第2文書データ格納部111と、化合物名格納部113と、変換表格納部115とを含む。
タグ付加部101、タグ付替部103及び変換部105は、例えば、図20におけるメモリ2501にロードされたプログラムがCPU(Central Processing Unit)2503により実行されることで実現される。第1文書データ格納部107、部分名辞書格納部109、第2文書データ格納部111、化合物名格納部113及び変換表格納部115は、例えば、図20におけるメモリ2501又はHDD(Hard Disk Drive)2505に設けられる。
タグ付加部101は、部分名辞書格納部109に格納されているデータ及び第1文書データ格納部107に格納されているデータに基づき処理を実行し、処理結果をタグ付替部103に渡す。変換部105は、タグ付替部103からの呼び出しに応じて、変換表格納部115に格納されているデータに基づき処理を実行し、処理結果をタグ付替部103に渡す。タグ付替部103は、タグ付加部101から受け取った処理結果、変換部105から受け取った処理結果及び第2文書データ格納部111に格納されているデータに基づき処理を実行し、処理結果を化合物名格納部113に格納する。
第1文書データ格納部107には、第1の言語の文書のデータが格納される。図2は、第1文書データ格納部107に格納されるデータの一例を示す図である。図2の例では、第1の言語である英語の化学文書のデータが格納されている。図2に示した化学文書のデータには化合物名が含まれるが、化合物名ではない単語も含まれる。
部分名辞書格納部109には、第1の言語の化合物名の部分名が格納される。部分名とは、1つの化合物名の一部として使用されることがある、文字、数字及びその他の記号(例えばハイフンやカンマなど)の塊である。例えば、1つの化合物名「p-ethyl phenol」における「p-ethyl」及び「phenol」が部分名に該当する。但し、部分名はそれ自体が1つの化合物名にもなり得る。そのような部分名としては、例えば「phenol」及び「propane」等がある。
図3は、部分名辞書格納部109に格納される部分名辞書の一例を示す図である。図3の例では、英文字だけではなく、英文字に付加されている数字及びその他の記号(図3の例では、カンマ及びハイフン)等が部分名の一部として扱われている。また、数字に挟まれる記号(図3の例ではカンマ)も部分名の一部として扱われている。但し、数字及びその他の記号であって化合物名の一部として使用されるもの(図3の例であれば、「1,1-」及び「1-」)が、英文字に付加された形ではなく単独で部分名辞書格納部109に予め登録されてもよい。
なお、部分名辞書は、化合物名の辞書(例えば日本語の場合には、日本化学物質辞書など)を利用して生成することができる。部分名辞書の生成については、特開2013−101508号公報及び特開2013−101509号公報に開示されているような方法を利用することができるので、ここでは部分名辞書の生成に関する詳細な説明を省略する。
第2文書データ格納部111には、第2の言語の化学文書のデータが格納される。本実施の形態においては、第2の言語の化学文書のデータとして、化学分野の日本語の特許文献(例えば、FI(File Index)がCである特許文献)のデータが格納される。但し、化学分野の日本語の論文やその他の技術文献等が格納されてもよい。
図4は、変換表格納部115に格納されるデータの一例を示す図である。図4においては、「a」、「me」及び「tha」など、ひとつの音が発生する単位毎にエントリが設けられている。変換表格納部115は、化合物の部分名であるか否かが不明である第1の言語の要素の表記を第2の言語の表記に変換するために使用される。本実施の形態における「要素」とは、文字、数字及びその他の記号(例えばハイフンやカンマなど)の塊である。
次に、情報処理装置1の動作について説明する。図5は、第1の実施の形態における情報処理装置1が実行する処理の処理フローを示す図である。
まず、情報処理装置1のタグ付加部101は、第1文書データ格納部107に格納されているデータ及び部分名辞書格納部109に格納されている部分名辞書に基づきタグ付加処理を実行する(図5:ステップS1)。
図6は、タグ付加処理の処理フローを示す図である。
タグ付加部101は、第1の言語の文書のデータを第1文書データ格納部107から読み出す(図6:ステップS21)。
タグ付加部101は、ステップS21において読み出されたデータに含まれる要素のうち、部分名辞書格納部109に部分名として登録されている要素を特定する(ステップS23)。
タグ付加部101は、ステップS23において特定された要素の各々にタグ(ここでは、開始タグ及び終了タグ)を付加する(ステップS25)。
図7は、タグが付加された文書の一例を示す図である。図7の例では、図2に示したデータに含まれる要素のうち、部分名辞書格納部109に部分名として登録されている要素に開始タグ「<c>」及び終了タグ「</c>」が付加されている。部分名に後続する半角スペースは部分名と一緒にタグ付けされている。
タグ付加部101は、ステップS25の処理が実行された文書のデータにおいて、タグが付加された要素が連続する場合、連続する要素に付加されたタグのうち最も外側にある開始タグ及び終了タグ以外のタグを削除する(ステップS27)。
図8は、タグが付加された要素が連続する場合の処理について説明するための図である。図8(a)に示すように、例えば「p-ethyl 」及び「phenol」にタグが付加されているとする。この場合、図8(b)に示すように、最も外側にある開始タグ及び終了タグ以外のタグは削除される。より具体的には、「p-ethyl 」に付加されている終了タグ及び「phenol」に付加されている開始タグが削除される。
タグ付加部101は、ステップS25においてタグが付加されていない要素であって、タグが付加された要素に挟まれた要素を未知の要素として抽出する(ステップS29)。そして処理は呼び出し元に戻る。
図9及び図10は、未知の要素の抽出について説明するための図である。
図9(a)には、「4-glycidyloxyphenyl」という要素が示されている。図9(b)は、図9(a)に示した要素に対してタグ付けをした結果を示す図である。「4-」、「glycidyl」及び「phenyl」にタグが付加されている。この場合、未知の要素として文字列「oxy」が抽出される。
図10(a)には、「l-Noradrenaline」という要素が示されている。図10(b)は、図10(a)に示した要素に対してタグ付けをした結果を示す図である。「l-」及び「adrenaline」にタグが付加されている。この場合、未知の要素として文字列「Nor」が抽出される。
図5の説明に戻り、タグ付替部103は、ステップS29において抽出された未知の要素のうち未処理の要素を1つ特定する(ステップS3)。
タグ付替部103は、変換部105を呼び出す。これに応じ、変換部105は、変換表格納部115に格納されているデータに基づき、ステップS3において特定された要素の表記を第2の言語の表記に変換する(ステップS5)。図9の例であれば「oxy」が「オキシ」に変換され、図10の例であれば「Nor」が「ノル」に変換される。なお、本実施の形態においては日本語のカタカナへの変換が行われるとする。未知の要素に文字以外の記号(例えばハイフンなど)が含まれる場合には、その記号についての表記はそのまま維持されるようにしてもよい。
タグ付替部103は、ステップS5の変換が行われた要素が第2文書データ格納部111に格納されているデータに出現する回数を計数する(ステップS7)。
タグ付替部103は、ステップS7において計数された回数が閾値(例えば数回)以上であるか判定する(ステップS9)。
ステップS7において計数された回数が閾値以上である場合(ステップS9:Yesルート)、タグ付替部103は、第1の実施の形態におけるタグ付替処理を実行する(ステップS11)。そして処理はステップS13に戻る。
図11は、第1の実施の形態におけるタグ付替処理の処理フローを示す図である。
タグ付替部103は、ステップS9において出現回数が閾値以上であると判定された要素の変換前の要素の直前にある終了タグを、タグが付加された文書のデータから削除する(図11:ステップS31)。
タグ付替部103は、ステップS9において出現回数が閾値以上であると判定された要素の変換前の要素の直後にある開始タグを、タグが付加された文書のデータから削除する(ステップS33)。そして処理は呼び出し元に戻る。
図12は、タグの付替えについて説明するための図である。図12(a)に示すように、「4,4-」及び「diphenol」にタグが付加されており、「isopropylidene」にはタグが付加されておらず未知の要素として抽出されたとする。ここで、「isopropylidene」をカタカナに変換した「イソプロピリデン」が第2文書データ格納部111に登録されている場合には、図12(b)に示すように、イソプロピリデンの変換前の要素「isopropylidene」の直前にある終了タグ及び直後にある開始タグは削除される。
図5の説明に戻り、ステップS7において計数された回数が閾値以上ではない場合(ステップS9:Noルート)、タグ付替部103は、未知の要素のうち未処理の要素が有るか判定する(ステップS13)。
未知の要素のうち未処理の要素が有る場合(ステップS13:Yesルート)、次の要素を処理するため、処理はステップS3に戻る。一方、未知の要素のうち未処理の要素が無い場合(ステップS13:Noルート)、タグ付替部103は、ステップS1及びS11の処理を経て最終的にタグが付加されている要素を特定し、特定された要素を化合物名格納部113に格納する(ステップS15)。化合物名格納部113に格納された化合物名は出力される(例えば、情報処理装置1の表示装置に表示される)。そして処理は終了する。図12(b)の例であれば、「4,4-isopropylidene diphenol」が化合物名格納部113に格納される。
化合物名(特に複合語)には、文の区切りとして使用されるカンマやスペース等が含まれることがあるため、形態素解析を行うと化合物名が分断されることがある。しかし、たとえ複合語であっても、本実施の形態のように部分名の連続によって化合物名であるか否かの判定を行えば、化合物名の区切りを適切に認定することができるようになる。
また、第1の言語の未知の要素が含まれる場合であっても、未知の要素の表記は第2の言語の表記に変換され、変換後の要素が第2の言語の化学文書に存在するか否かに基づき、未知の要素が化合物名の一部であるか否かが判定される。これにより、化合物名をより網羅的に抽出することができるようになる。また、化合物名の一部ではない要素を化合物名として扱うことを防げるようになる。
なお、化学分野の日本語の特許文書の実施例においては、カタカナ語の文字列のほとんどが化合物名であるので、上記のような方法であれば、化合物名の一部に相当するか否かの判定を高精度で行うことができる。
例えば図9の「oxy」については、英語の文書を検索すると「Proxy」、「Oxya」及び「Oxycoccus」等がヒットし、化合物名の一部としての妥当性を判定できない。一方、日本語の文書には「オキシ」を含む単語は化合物名に関するもの以外にほとんど無いので、化合物名の一部としての妥当性を高い確度で判定することができる。
また、例えば図10の「Nor」については、英語の文書を検索すると接続詞の「nor」等がヒットし、化合物名の一部としての妥当性を判定できない。一方、日本語の文書には「ノル」を含む単語は化合物名に関するもの以外にほとんど無いので、化合物名の一部としての妥当性を高い確度で判定することができる。
また、化合物名の一部として使用される頻度が高いものとして「one」、「ene」、「ide」及び「bora」等の文字列があるが、それぞれ化合物名に関係しない単語または単語の一部として使用されることがしばしばある。例えば、「one」は普通は「1」として使用され、「ene」は「generate」などの一般的な単語に含まれ、「ide」は「residence」などの一般的な単語に含まれ、「bora」は「laboratory」等の一般的な単語に含まれる。一方、日本語の文書には、それらをカタカナに変換した「オン」、「エン」、「イド」及び「ボラ」は化合物名の一部として使用されることが多いので、化合物名の一部としての妥当性を高い確度で判定することができる。
また、英語の化合物名が登録されている化合物DB(DataBase)(例えば「Pubchem」https://pubchem.ncbi.nlm.nih.gov/)を本実施の形態における第2文書データ格納部111として利用すれば、英語を第2の言語として利用することができる。この場合には、化合物名の抽出が英語より相対的に困難である言語が第1の言語である。このように、化合物名の抽出が相対的に困難である言語と、化合物名の抽出が相対的に容易である言語との間で、本実施の形態の方法を利用することができる。
[実施の形態2]
第1の実施の形態においては、第1の言語の1つの未知の要素から第2の言語の1つの要素が生成される。但し、文字列によっては表記ゆれを考慮した方がよい場合がある。例えば「isopropylidene」については、「イソプロピリデン」だけでなく「アイソプロピリデン」についても検索の対象とした方がよい。また、「イソプロピリデン」の一部である「イソ」及び「プロピリデン」等についても検索の対象とすれば、化合物名の一部であるか否かの判定をより細かい単位で実施することができる。このような観点から、第2の実施の形態においては以下で説明するような処理が実行される。
図13は、第2の実施の形態における情報処理装置1の機能ブロック図である。情報処理装置1は、例えばパーソナルコンピュータ、スマートデバイス、またはサーバ等である。情報処理装置1は、タグ付加部101と、タグ付替部103と、変換部105と、第1文書データ格納部107と、部分名辞書格納部109と、第2文書データ格納部111と、化合物名格納部113と、変換表格納部115と、派生要素格納部117とを含む。
タグ付加部101、タグ付替部103及び変換部105は、例えば、図20におけるメモリ2501にロードされたプログラムがCPU2503により実行されることで実現される。第1文書データ格納部107、部分名辞書格納部109、第2文書データ格納部111、化合物名格納部113、変換表格納部115及び派生要素格納部117は、例えば、図20におけるメモリ2501又はHDD2505に設けられる。
タグ付加部101は、部分名辞書格納部109に格納されているデータ及び第1文書データ格納部107に格納されているデータに基づき処理を実行し、処理結果をタグ付替部103に渡す。変換部105は、タグ付替部103からの呼び出しに応じて、変換表格納部115に格納されているデータに基づき処理を実行し、処理結果を派生要素格納部117に格納する。タグ付替部103は、タグ付加部101から受け取った処理結果、第2文書データ格納部111に格納されているデータ及び派生要素格納部117に格納されているデータに基づき処理を実行し、処理結果を化合物名格納部113に格納する。
次に、情報処理装置1の動作について説明する。図14は、第2の実施の形態における情報処理装置1が実行する処理の処理フローを示す図である。
まず、情報処理装置1のタグ付加部101は、第1文書データ格納部107に格納されているデータ及び部分名辞書格納部109に格納されている部分名辞書に基づきタグ付加処理を実行する(図14:ステップS41)。第2の実施の形態におけるタグ付加処理は第1の実施の形態におけるタグ付加処理と同様であるので、ここでは説明を省略する。
タグ付替部103は、タグ付加処理のステップS29において抽出された未知の要素のうち未処理の要素を1つ特定する(ステップS43)。
タグ付替部103は、変換部105を呼び出す。これに応じ、変換部105は、変換表格納部115に格納されているデータに基づき、ステップS43において特定された要素の表記を第2の言語の表記に変換する(ステップS45)。例えば図15(a)に示した「isopropylidene」は、図15(b)に示した「イソプロピリデン」に変換される。なお、未知の要素に文字以外の記号(例えばハイフンなど)が含まれる場合には、その記号についての表記はそのまま維持されるようにしてもよい。
変換部105は、ステップS45における変換後の要素から、分割により複数の要素を生成し(ステップS46)、生成された複数の要素を派生要素格納部117に格納する。例えば「イソプロピリデン」からは「イソ」及び「プロピリデン」が生成される。分割は、例えばn−gramの技術を利用して実行され、2文字以上の全文字列或いは一部の文字列が使用される。
変換部105は、ステップS45における変換後の要素から、表記ゆれの1又は複数の要素を生成し(ステップS47)、生成された1又は複数の要素を派生要素格納部117に格納する。例えば「イソプロピリデン」については「アイソプロピリデン」が生成される。従って、ステップS46及びS47の処理により、図15(c)に示すように、検索の対象として「アイソプロピリデン」、「イソ」及び「プロピリデン」が追加される。
タグ付替部103は、ステップS45における変換後の要素および派生要素格納部117に格納されている要素の各々が第2文書データ格納部111に格納されているデータに出現する回数を計数する(ステップS49)。計数された回数は、例えば図16に示すような形式で、メモリ2501又はHDD2505において管理される。
タグ付替部103は、ステップS45における変換後の要素および派生要素格納部117に格納されている要素の各々について、ステップS49において計数された回数が閾値(例えば数回)以上であるか判定する(ステップS51)。
ステップS49において計数された回数が閾値以上である要素が有る場合(ステップS51:Yesルート)、タグ付替部103は、第2の実施の形態におけるタグ付替処理を実行する(ステップS53)。そして処理はステップS55に戻る。
図17は、第2の実施の形態におけるタグ付替処理の処理フローを示す図である。
タグ付替部103は、ステップS51において出現回数が閾値以上であると判定された要素の変換前の要素にタグを付加する(図17:ステップS61)。
例えば図15(c)に示した4つの候補のうち「イソ」の出現回数が閾値以上であると判定された場合、図18(a)に示すようにタグ付けが行われる。また、例えば図15(c)に示した4つの候補のうち「プロピリデン」の出現回数が閾値以上であると判定された場合、図19(a)に示すようにタグ付けが行われる。また、例えば図15(c)に示した4つの候補のうち「イソ」及び「プロピリデン」の出現回数が閾値以上であると判定された場合には、「iso」及び「propylidene」に対してタグが付加される。また、例えば図15(c)に示した4つの候補のうち「イソ」及び「イソプロピリデン」の出現回数が閾値以上であると判定された場合には、「isopropylidene」のみに対してタグが付加されるか又は「iso」及び「isopropylidene」の両方にタグが付加される。
タグ付替部103は、ステップS61においてタグが付加された要素と、部分名辞書に登録され且つタグが付加されている要素とが連続する場合、連続する複数の要素に付加されたタグのうち最も外側にある開始タグ及び終了タグ以外のタグを削除する(ステップS63)。そして処理は呼び出し元に戻る。
例えば図18(a)の例では、図18(b)に示すようにタグが削除される。また、例えば図19(a)の例では、図19(b)に示すようにタグが削除される。
図14の説明に戻り、ステップS49において計数された回数が閾値以上である要素がない場合(ステップS51:Noルート)、タグ付替部103は、未知の要素のうち未処理の要素が有るか判定する(ステップS55)。
未知の要素のうち未処理の要素が有る場合(ステップS55:Yesルート)、次の要素を処理するため、処理はステップS43に戻る。一方、未知の要素のうち未処理の要素が無い場合(ステップS55:Noルート)、タグ付替部103は、ステップS41及びS53の処理を経て最終的にタグが付加されている要素を特定し、特定された要素を化合物名格納部113に格納する(ステップS57)。化合物名格納部113に格納された化合物名は出力される(例えば、情報処理装置1の表示装置に表示される)。そして処理は終了する。図18(b)の例であれば「4,4-iso」及び「diphenol」が化合物名格納部113に格納され、図19(b)の例であれば「4,4-」及び「propylidene diphenol」が化合物名格納部113に格納される。
化合物名(特に複合語)には、文の区切りとして使用されるカンマやスペース等が含まれることがあるため、形態素解析を行うと化合物名が分断されることがある。しかし、たとえ複合語であっても、本実施の形態のように部分名の連続によって化合物名であるか否かの判定を行えば、化合物名の区切りを適切に認定することができるようになる。
また、第1の言語の未知の要素が含まれる場合であっても、未知の要素の表記は第2の言語の表記に変換され、変換後の要素が第2の言語の化学文書に存在するか否かに基づき、未知の要素が化合物名の一部であるか否かが判定される。これにより、化合物名をより網羅的に抽出することができるようになる。また、化合物名の一部ではない文字列を化合物名として扱うことを防げるようになる。
また、第2の実施の形態における処理によれば、化合物名の一部であるか否かの判定をより細かい単位で実施することができるので、化合物名の抽出漏れを抑制できるようになる。
[実施の形態3]
日本語の文書の場合、化合物名はカタカナ及び一部の漢字(例えば「酸」)を使用して記述されることが多いため、パターンマッチングによって候補を抽出することができる。
候補を抽出した後、化合物名として適切かどうか判別するための学習器によって、化合物名として適切ではないものを取り除くことができる。このようにして最終的に残った化合物名の集合を、第2文書データ格納部111内のデータとして使用してもよい。
例えば「好ましい酸化防止剤としては、例えば2,6−ジ−t−ブチル−4−メチルフェノール、2,4,6−トリ−t−ブチルフェノール、......などをサンプルとして用いることができる。」という日本語の文章があるとする。この文書から、パターンマッチングによって、例えば「2,6−ジ−t−ブチル−4−メチルフェノール」、「2,4,6−トリ−t−ブチルフェノール」及び「サンプル」が抽出されるとする。そして、第2文書データ格納部111内のデータとしては、上記の学習器によって最終的に残った「2,6−ジ−t−ブチル−4−メチルフェノール」及び「2,4,6−トリ−t−ブチルフェノール」が使用される。
以上本発明の一実施の形態を説明したが、本発明はこれに限定されるものではない。例えば、上で説明した情報処理装置1の機能ブロック構成は実際のプログラムモジュール構成に一致しない場合もある。
また、上で説明した各テーブルの構成は一例であって、上記のような構成でなければならないわけではない。さらに、処理フローにおいても、処理結果が変わらなければ処理の順番を入れ替えることも可能である。さらに、並列に実行させるようにしても良い。
なお、上で述べた情報処理装置1は、コンピュータ装置であって、図20に示すように、メモリ2501とCPU2503とHDD2505と表示装置2509に接続される表示制御部2507とリムーバブル・ディスク2511用のドライブ装置2513と入力装置2515とネットワークに接続するための通信制御部2517とがバス2519で接続されている。オペレーティング・システム(OS:Operating System)及び本実施例における処理を実施するためのアプリケーション・プログラムは、HDD2505に格納されており、CPU2503により実行される際にはHDD2505からメモリ2501に読み出される。CPU2503は、アプリケーション・プログラムの処理内容に応じて表示制御部2507、通信制御部2517、ドライブ装置2513を制御して、所定の動作を行わせる。また、処理途中のデータについては、主としてメモリ2501に格納されるが、HDD2505に格納されるようにしてもよい。本発明の実施例では、上で述べた処理を実施するためのアプリケーション・プログラムはコンピュータ読み取り可能なリムーバブル・ディスク2511に格納されて頒布され、ドライブ装置2513からHDD2505にインストールされる。インターネットなどのネットワーク及び通信制御部2517を経由して、HDD2505にインストールされる場合もある。このようなコンピュータ装置は、上で述べたCPU2503、メモリ2501などのハードウエアとOS及びアプリケーション・プログラムなどのプログラムとが有機的に協働することにより、上で述べたような各種機能を実現する。
以上述べた本発明の実施の形態をまとめると、以下のようになる。
本実施の形態の第1の態様に係る化合物名判定方法は、(A)第1の言語の文書のデータから、第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、(B)第1の言語の文書のデータにおいて、特定された部分名が直前及び直後に有り且つ第1のデータ格納部に格納されていない第1の要素を特定し、(C)第1の要素の表記を第2の言語の表記に変換し、(D)変換後の第1の要素が、第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、(E)変換後の第1の要素が第2のデータ格納部に格納されている場合、第1の要素と、第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、(F)生成された第2の要素を出力する処理を含む。
化合物の部分名に着目することで、文書に含まれる要素が化合物名であるか否かの判定の精度を向上させることができるようになる。
また、本化合物名判定方法は、(F)変換後の第1の要素を分割して複数の要素を生成し、(G)生成された複数の要素の各々について、当該要素が第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第1の条件が満たされるか判定し、(H)第1の条件が満たされると判定された第3の要素と、第1の要素の直前及び直後に有る部分名のうち当該第3の要素と連続する部分名とを連結して第4の要素を生成し、(I)生成された第4の要素を出力する処理をさらに含んでもよい。
化合物名をより網羅的に抽出することができるようになる。
また、本化合物名判定方法は、(J)変換後の第1の要素の表記ゆれに相当する1又は複数の要素を生成し、(K)生成された1又は複数の要素の各々について、当該要素が第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第2の条件が満たされるか判定し、(L)第2の条件が満たされると判定された第5の要素と、第1の要素の直前及び直後に有る部分名のうち当該第5の要素と連続する部分名とを連結して第6の要素を生成し、(M)生成された第6の要素を出力する処理をさらに含んでもよい。
化合物名をより網羅的に抽出することができるようになる。
また、第1の言語は英語であり、第2の言語は日本語であり、変換後の第1の要素はカタカナの文字列であってもよい。
化学文書に含まれるカタカナ語は、アルファベットの化合物名をローマ字読みしたものであることが多い。従って、第1の要素がカタカナの文字列に変換されれば、化合物名の一部であるか否かの判定をより高精度で行うことができるようになる。
また、第2の言語の化学文書は、化学分野の特許文書であってもよい。
本実施の形態の第2の態様に係る化合物名判定装置は、(N)第1の言語の文書のデータから、第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、第1の言語の文書のデータにおいて、特定された部分名が直前及び直後に有り且つ第1のデータ格納部に格納されていない第1の要素を特定する特定部(実施の形態におけるタグ付加部101は上記特定部の一例である)と、(O)第1の要素の表記を第2の言語の表記に変換する変換部(実施の形態における変換部105は上記変換部の一例である)と、(P)変換後の第1の要素が、第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、変換後の第1の要素が第2のデータ格納部に格納されている場合、第1の要素と、第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し生成された第2の要素を出力する出力部(実施の形態におけるタグ付替部103は上記出力部の一例である)とを有する。
なお、上記方法による処理をプロセッサに行わせるためのプログラムを作成することができ、当該プログラムは、例えばフレキシブルディスク、CD−ROM、光磁気ディスク、半導体メモリ、ハードディスク等のコンピュータ読み取り可能な記憶媒体又は記憶装置に格納される。尚、中間的な処理結果はメインメモリ等の記憶装置に一時保管される。
以上の実施例を含む実施形態に関し、さらに以下の付記を開示する。
(付記1)
コンピュータが、
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
前記第1の要素の表記を第2の言語の表記に変換し、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
生成された前記第2の要素を出力する、
処理を実行する化合物名判定方法。
(付記2)
前記コンピュータが、
変換後の前記第1の要素を分割して複数の要素を生成し、
生成された前記複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第1の条件が満たされるか判定し、
前記第1の条件が満たされると判定された第3の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第3の要素と連続する部分名とを連結して第4の要素を生成し、
生成された前記第4の要素を出力する、
処理をさらに実行する付記1記載の化合物名判定方法。
(付記3)
前記コンピュータが、
変換後の前記第1の要素の表記ゆれに相当する1又は複数の要素を生成し、
生成された前記1又は複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第2の条件が満たされるか判定し、
前記第2の条件が満たされると判定された第5の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第5の要素と連続する部分名とを連結して第6の要素を生成し、
生成された前記第6の要素を出力する、
処理をさらに実行する付記1記載の化合物名判定方法。
(付記4)
前記第1の言語は英語であり、前記第2の言語は日本語であり、変換後の前記第1の要素はカタカナの文字列である、
付記1乃至3のいずれか1つ記載の化合物名判定方法。
(付記5)
前記第2の言語の化学文書は、化学分野の特許文書である、
付記1乃至4のいずれか1つ記載の化合物名判定方法。
(付記6)
コンピュータに、
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
前記第1の要素の表記を第2の言語の表記に変換し、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
生成された前記第2の要素を出力する、
処理を実行させる化合物名判定プログラム。
(付記7)
第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定する特定部と、
前記第1の要素の表記を第2の言語の表記に変換する変換部と、
変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し生成された前記第2の要素を出力する出力部と、
を有する化合物名判定装置。
1 情報処理装置 101 タグ付加部
103 タグ付替部 105 変換部
107 第1文書データ格納部 109 部分名辞書格納部
111 第2文書データ格納部 113 化合物名格納部
115 変換表格納部 117 派生要素格納部

Claims (6)

  1. コンピュータが、
    第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
    前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
    前記第1の要素の表記を第2の言語の表記に変換し、
    変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
    変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
    生成された前記第2の要素を出力する、
    処理を実行する化合物名判定方法。
  2. 前記コンピュータが、
    変換後の前記第1の要素を分割して複数の要素を生成し、
    生成された前記複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第1の条件が満たされるか判定し、
    前記第1の条件が満たされると判定された第3の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第3の要素と連続する部分名とを連結して第4の要素を生成し、
    生成された前記第4の要素を出力する、
    処理をさらに実行する請求項1記載の化合物名判定方法。
  3. 前記コンピュータが、
    変換後の前記第1の要素の表記ゆれに相当する1又は複数の要素を生成し、
    生成された前記1又は複数の要素の各々について、当該要素が前記第2のデータ格納部に格納されており、且つ、当該要素の変換前の要素と前記第1の要素の直前及び直後に有る部分名のいずれかとが連続するという第2の条件が満たされるか判定し、
    前記第2の条件が満たされると判定された第5の要素と、前記第1の要素の直前及び直後に有る部分名のうち当該第5の要素と連続する部分名とを連結して第6の要素を生成し、
    生成された前記第6の要素を出力する、
    処理をさらに実行する請求項1記載の化合物名判定方法。
  4. 前記第1の言語は英語であり、前記第2の言語は日本語であり、変換後の前記第1の要素はカタカナの文字列である、
    請求項1乃至3のいずれか1つ記載の化合物名判定方法。
  5. コンピュータに、
    第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、
    前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定し、
    前記第1の要素の表記を第2の言語の表記に変換し、
    変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、
    変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し、
    生成された前記第2の要素を出力する、
    処理を実行させる化合物名判定プログラム。
  6. 第1の言語の文書のデータから、前記第1の言語の化合物名の一部に相当する部分名が格納された第1のデータ格納部に格納されている部分名を特定し、前記第1の言語の文書のデータにおいて、特定された前記部分名が直前及び直後に有り且つ前記第1のデータ格納部に格納されていない第1の要素を特定する特定部と、
    前記第1の要素の表記を第2の言語の表記に変換する変換部と、
    変換後の前記第1の要素が、前記第2の言語の化学文書のデータが格納された第2のデータ格納部に格納されているか判定し、変換後の前記第1の要素が前記第2のデータ格納部に格納されている場合、前記第1の要素と、前記第1の要素の直前及び直後に有る部分名とを連結して第2の要素を生成し生成された前記第2の要素を出力する出力部と、
    を有する化合物名判定装置。
JP2017250520A 2017-12-27 2017-12-27 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置 Active JP6954108B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017250520A JP6954108B2 (ja) 2017-12-27 2017-12-27 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017250520A JP6954108B2 (ja) 2017-12-27 2017-12-27 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置

Publications (2)

Publication Number Publication Date
JP2019117486A JP2019117486A (ja) 2019-07-18
JP6954108B2 true JP6954108B2 (ja) 2021-10-27

Family

ID=67304436

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017250520A Active JP6954108B2 (ja) 2017-12-27 2017-12-27 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置

Country Status (1)

Country Link
JP (1) JP6954108B2 (ja)

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7676358B2 (en) * 2003-09-24 2010-03-09 International Business Machines Corporation System and method for the recognition of organic chemical names in text documents
JP2007156797A (ja) * 2005-12-05 2007-06-21 Nippon Telegr & Teleph Corp <Ntt> 化学物質管理装置及び名称登録方法
CN102955773B (zh) * 2011-08-31 2015-12-02 国际商业机器公司 用于在中文文档中识别化学名称的方法及系统

Also Published As

Publication number Publication date
JP2019117486A (ja) 2019-07-18

Similar Documents

Publication Publication Date Title
Liu et al. Insertion, deletion, or substitution? Normalizing text messages without pre-categorization nor supervision
KR101435265B1 (ko) 언어 변환에 있어서 다중 리딩 모호성 해결을 위한 방법
JP5138046B2 (ja) 検索システム、検索方法およびプログラム
Chen et al. Chinese named entity recognition with conditional random fields
CN107145584B (zh) 一种基于n-gram模型的简历解析方法
US8433560B2 (en) Rule based apparatus for modifying word annotations
WO2011006300A1 (en) Acronym extraction
JP2007058380A (ja) 電子文書マスキングシステム
US11868378B2 (en) Creation of indexes for information retrieval
CN113076748A (zh) 弹幕敏感词的处理方法、装置、设备及存储介质
JP2010262577A (ja) 抽出規則作成システム、抽出規則作成方法及び抽出規則作成プログラム
JP2007219620A (ja) テキスト検索装置、テキスト検索プログラム、及びテキスト検索方法
CN111133429A (zh) 提取表达以供自然语言处理
JP6705352B2 (ja) 言語処理装置、言語処理方法、及び言語処理プログラム
JP6954108B2 (ja) 化合物名判定方法、化合物名判定プログラム及び化合物名判定装置
JP6811087B2 (ja) 検索装置、検索方法、及びプログラム
Matsuoka et al. Examination of effective features for CRF-based bibliography extraction from reference strings
KR102355731B1 (ko) 해석 프로그램, 해석 방법 및 해석 장치
WO2021107006A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP5466376B2 (ja) 情報処理装置、姓名識別方法、情報処理システム、およびプログラム
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP5795302B2 (ja) 形態素解析装置、方法、及びプログラム
JP2011065597A (ja) データ検索装置、データ検索方法及びプログラム
JP2010003000A (ja) 項目判定システムおよび項目判定プログラム
WO2020203276A1 (ja) 新語候補抽出装置、新語候補抽出方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200911

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210827

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210831

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210913

R150 Certificate of patent or registration of utility model

Ref document number: 6954108

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150