JP2013101509A - Generation device, generation method, and generation program - Google Patents

Generation device, generation method, and generation program Download PDF

Info

Publication number
JP2013101509A
JP2013101509A JP2011244973A JP2011244973A JP2013101509A JP 2013101509 A JP2013101509 A JP 2013101509A JP 2011244973 A JP2011244973 A JP 2011244973A JP 2011244973 A JP2011244973 A JP 2011244973A JP 2013101509 A JP2013101509 A JP 2013101509A
Authority
JP
Japan
Prior art keywords
name
substance name
partial
substance
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011244973A
Other languages
Japanese (ja)
Other versions
JP5768669B2 (en
Inventor
Kazunari Tanaka
一成 田中
Noriko Ikeda
紀子 池田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2011244973A priority Critical patent/JP5768669B2/en
Publication of JP2013101509A publication Critical patent/JP2013101509A/en
Application granted granted Critical
Publication of JP5768669B2 publication Critical patent/JP5768669B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Organic Low-Molecular-Weight Compounds And Preparation Thereof (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To automatically find out a candidate for a pair of a substance name and its chemical formula in an electronic document.SOLUTION: A generation device extracts a character string "ethane (H3CH3)" estimated to have its substance name and rational formula described in synonymous expression in document information 100-1. The generation device extracts a word "ethane" right before the parentheses in the character string "ethane (H3CH3)". The generation device determines whether or not the word "ethane" is included in a substance name DB in which substance names, and characters and character strings related to the substance names are registered. When the word "ethane" is included, the generation device specifies the word "ethane" as a substance name, and specifies the character string "CH3CH3" having the English letters in the parentheses as a rational formula. The generation device registers the specified substance name "ethane" and rational formula "CH3CH3" in a correspondence relation DB 200.

Description

本発明は、情報を生成する生成装置、生成方法、および生成プログラムに関する。   The present invention relates to a generation device, a generation method, and a generation program that generate information.

化学物質名の命名規則を利用して物質名から化学構造式を作図する従来技術が開示されている。当該従来技術は、作図するための部品は辞書に登録されていることを前提としている。当該従来技術は、水素欠損を表す語尾「ene」や、2か所あることを示す「di」を想定して作図している。   The prior art which draws a chemical structural formula from a substance name using the naming rule of a chemical substance name is disclosed. The prior art assumes that parts for drawing are registered in a dictionary. The prior art is drawn assuming the ending “ene” indicating hydrogen deficiency and “di” indicating that there are two locations.

特開平01−142869号公報Japanese Patent Laid-Open No. 01-142869

しかしながら、既存の物質の数は膨大であり、従来技術では既存の物質の物質名とその化学式が登録されたデータベースを用意することが困難であるという問題がある。   However, the number of existing substances is enormous, and there is a problem in the prior art that it is difficult to prepare a database in which substance names and chemical formulas of existing substances are registered.

本発明は、上述した従来技術による問題点を解消するため、電子文書から物質名とその化学式の組の候補を自動で見つけ出すことができる生成装置、生成方法、および生成プログラムを提供することを目的とする。   An object of the present invention is to provide a generation apparatus, a generation method, and a generation program capable of automatically finding a candidate for a combination of a substance name and its chemical formula from an electronic document in order to solve the above-described problems caused by the conventional technology. And

上述した課題を解決し、目的を達成するため、本発明の一態様によれば、文書情報の中から、物質名と前記物質名の化学式との組を表す条件を満たす文字列を抽出し、抽出された文字列に含まれる前記物質名と前記化学式との組を第1のデータベースに登録する生成装置、生成方法、および生成プログラムが提案される。   In order to solve the above-described problems and achieve the object, according to one aspect of the present invention, a character string that satisfies a condition representing a set of a substance name and a chemical formula of the substance name is extracted from document information, A generation device, a generation method, and a generation program for registering a set of the substance name and the chemical formula included in the extracted character string in a first database are proposed.

本発明の一側面によれば、電子文書から物質名とその化学式の組の候補を自動で見つけ出すことができるという効果を奏する。   According to one aspect of the present invention, it is possible to automatically find a candidate for a combination of a substance name and its chemical formula from an electronic document.

図1は、生成装置による対応関係DBの登録例を示す説明図である。FIG. 1 is an explanatory diagram illustrating an example of registration of the correspondence DB by the generation device. 図2は、対応関係DB200の記憶内容の一例を示す説明図である。FIG. 2 is an explanatory diagram illustrating an example of the contents stored in the correspondence DB 200. 図3は、生成装置による示性式の生成例を示す説明図である。FIG. 3 is an explanatory diagram illustrating an example of generating a sexual expression by the generation device. 図4は、ルールDBの記憶内容の一例を示す説明図である。FIG. 4 is an explanatory diagram of an example of the contents stored in the rule DB. 図5は、生成装置による示性式生成例(その1)を示す説明図である。FIG. 5 is an explanatory diagram of an example of generating a sexual expression by the generator (part 1). 図6は、生成装置による示性式生成例(その2)を示す説明図である。FIG. 6 is an explanatory diagram of an example of generating a sexual expression by the generating device (part 2). 図7は、生成装置による示性式生成例(その3)を示す説明図である。FIG. 7 is an explanatory diagram of an example (part 3) of generating a sexual expression by the generation device. 図8は、語幹辞書の記憶内容の一例を示す説明図である。FIG. 8 is an explanatory diagram showing an example of the contents stored in the stem dictionary. 図9は、部分示性式DBの記憶内容の一例を示す説明図である。FIG. 9 is an explanatory diagram showing an example of the contents stored in the partial characterization formula DB. 図10は、実施の形態にかかる生成装置のハードウェア構成例を示すブロック図である。FIG. 10 is a block diagram of a hardware configuration example of the generation apparatus according to the embodiment. 図11は、生成装置の機能的構成を示すブロック図である。FIG. 11 is a block diagram illustrating a functional configuration of the generation device. 図12は、抽出物質名の分割および確信度の更新に関する一の例を示す説明図である。FIG. 12 is an explanatory diagram showing an example regarding the division of the extracted substance name and the update of the certainty factor. 図13は、抽出物質名の分割および確信度の更新に関する他の例を示す説明図である。FIG. 13 is an explanatory diagram showing another example regarding the division of the extracted substance name and the update of the certainty factor. 図14は、部分示性式DB900の登録数を増やす例を示す説明図である。FIG. 14 is an explanatory diagram showing an example of increasing the registration number of the partial characteristic formula DB 900. 図15は、生成装置1100による対応関係DB200と部分示性式DB900の作成処理手順を示すフローチャートである。FIG. 15 is a flowchart illustrating a creation processing procedure of the correspondence DB 200 and the partial characteristic formula DB 900 by the generation device 1100. 図16は、図15で示した示性式部品化処理(ステップS1506)の詳細な説明を示すフローチャートである。FIG. 16 is a flowchart showing a detailed description of the characteristic type componentization processing (step S1506) shown in FIG. 図17は、図16で示した示性式部品化ルール適用処理(ステップS1602)の詳細な説明を示すフローチャートである。FIG. 17 is a flowchart showing a detailed description of the characteristic expression componentization rule application processing (step S1602) shown in FIG. 図18は、生成装置1100による確信度更新処理手順を示すフローチャートである。FIG. 18 is a flowchart showing a certainty factor update processing procedure by the generation device 1100. 図19は、図18で示した抽出物質名分割処理(ステップS1803)の詳細な説明を示すフローチャートである。FIG. 19 is a flowchart showing a detailed description of the extracted substance name dividing process (step S1803) shown in FIG. 図20は、図19で示した登録処理(ステップS1908)の詳細な説明を示すフローチャートである。FIG. 20 is a flowchart showing a detailed description of the registration process (step S1908) shown in FIG. 図21は、生成装置1100による部分示性式DB900の登録処理手順の一例を示すフローチャートである。FIG. 21 is a flowchart illustrating an example of a registration processing procedure of the partial referential expression DB 900 by the generation device 1100.

以下に添付図面を参照して、この発明にかかる生成装置、生成方法、および生成プログラムの実施の形態を詳細に説明する。また、本明細書において、「化学式」とは物質を原子の記号と数字で表記した式である。たとえば、エタノールの場合、C2H6Oである。また、「示性式」とは化学式をさらに官能基ごとにまとめて表記した式である。たとえば、エタノールの場合、CH3CH2OHである。以下、本実施の形態では、示性式を例に挙げて説明するが、化学式にも適用することができる。   Exemplary embodiments of a generation device, a generation method, and a generation program according to the present invention will be described below in detail with reference to the accompanying drawings. Further, in this specification, the “chemical formula” is a formula in which a substance is expressed by atomic symbols and numbers. For example, in the case of ethanol, it is C2H6O. The “indicative formula” is a formula in which chemical formulas are further grouped into functional groups. For example, in the case of ethanol, it is CH3CH2OH. Hereinafter, in the present embodiment, a description will be given by taking an illustrative formula as an example, but the present invention can also be applied to a chemical formula.

物質の数は膨大であり、物質の物質名とその化学式をカバーする辞書を用意することは困難である。また、既存の物質の物質名とその化学式が登録された化学物質データベースは販売されているが、高価であるため、販売されている化学物質データベースを用いて物質名とその化学式からあらたな化学式を作成するには、費用が増大する。   The number of substances is enormous, and it is difficult to prepare a dictionary that covers substance names and chemical formulas. In addition, although the chemical substance database in which the substance names and chemical formulas of existing substances are registered is sold, it is expensive, so a new chemical formula can be obtained from the substance names and chemical formulas using the chemical substance database sold. To create it increases the cost.

そこで、本実施の形態にかかる生成装置は、電子文書から物質名と化学式とが同義表現で記述されていると推定される部分を抽出して、物質名と化学式の組をデータベースに蓄積する。これにより、生成装置は、既存の電子文書から物質名とその化学式の組の候補を自動で見つけ出すことができる。   Therefore, the generation apparatus according to the present embodiment extracts a part in which a substance name and a chemical formula are presumed to be described in a synonymous expression from an electronic document, and accumulates the combination of the substance name and the chemical formula in a database. Thereby, the generation apparatus can automatically find a candidate for a combination of a substance name and its chemical formula from an existing electronic document.

また、生成装置は、文書情報から作成した第1のデータベース内の物質名と示性式の組を生成元とし、化学反応のルールを適用することにより、あらたに物質名とその示性式の組を生成して、第2のデータベースに蓄積することにしてもよい。このように、生成装置は、化学反応に応じたルールを適用したうえで示性式を生成しているため、化学物質の第1のデータベースに依存することなく、物質名とその示性式を高精度に生成して、自動で第2のデータベースを作成することができる。   In addition, the generation apparatus uses the combination of the substance name and the characteristic expression in the first database created from the document information as a generation source, and applies a chemical reaction rule to newly add the substance name and its characteristic expression. A set may be generated and stored in the second database. In this way, since the generating device generates the referential expression after applying the rules according to the chemical reaction, the substance name and the referential expression are determined without depending on the first database of chemical substances. It is possible to generate the second database with high accuracy and automatically.

また、生成装置は、第1のデータベースに登録された物質名とその示性式の組を、第2のデータベース内の物質名とその示性式の組を連結して再現できるか否かを判断することにしてもよい。上述したように、生成装置は、電子文書から、同義表現で記述されていると推定される部分を抽出して、物質名と示性式の組を第1のデータベースに蓄積しているが、同義表現で記述されていると推定される部分が必ずしも正確であるとは限らない。   In addition, the generation apparatus determines whether or not the combination of the substance name registered in the first database and the characteristic expression thereof can be reproduced by connecting the substance name and the characteristic expression combination in the second database. You may decide to judge. As described above, the generation device extracts a portion estimated to be described in the synonymous expression from the electronic document, and accumulates the combination of the substance name and the sexual expression in the first database. The part presumed to be described in the synonymous expression is not always accurate.

たとえば、同義表現として括弧書きが挙げられるが、括弧書きでは同義語以外の記述が含まれていたり、括弧内のどこからどこまでが同義表現として対応しているか明確でない。そのため、電子文書から抽出した物質名と化学式が必ずしも正確であるとは限らず、電子文書から抽出することで蓄積した第1のデータベース内の物質名と化学式に化学反応のルールが適用されることで得られた物質名と化学式が必ずしも正確であるとは限らない。また、たとえば、物質名とその示性式の組の情報源となる電子情報が十分にある場合、その組の出現回数を基準にして、精度の高い組を第1のデータベースに蓄積させることができるが、物質名とその示性式の同義関係が電子情報内に記載されている機会は必ずしも多くない。   For example, parenthesis is mentioned as a synonymous expression, but it is not clear in parenthesis that a description other than a synonym is included, and where from where to what in parenthesis corresponds as a synonymous expression. Therefore, the substance name and chemical formula extracted from the electronic document are not always accurate, and the chemical reaction rules are applied to the substance name and chemical formula in the first database accumulated by extracting from the electronic document. The substance names and chemical formulas obtained in are not always accurate. In addition, for example, when there is sufficient electronic information that serves as an information source for a combination of a substance name and its characteristic formula, it is possible to store a highly accurate set in the first database based on the number of appearances of the set. However, there are not necessarily many opportunities for the synonymous relationship between substance names and their sexual formulas to be described in electronic information.

そこで、上述のように、生成装置が、第1のデータベースに登録された物質名とその示性式の組を、第2のデータベース内の物質名とその示性式の組を連結して再現できるか否かを判定することにより、第2のデータベースに登録された物質名とその示性式の組の妥当性を判断することができる。具体的には、例えば、生成装置が、再現できるか否かの判定結果に基づいて、第2のデータベース内の物質名とその示性式の組の確度を算出することにしてもよい。これにより、この確度を、第2のデータベース内のどの化学式が有用であるか、あるいは、どの化学式が存在しうるかなどの指標として用いることができる。   Therefore, as described above, the generation device reproduces the combination of the substance name registered in the first database and its characteristic expression by connecting the combination of the substance name and its characteristic expression in the second database. By determining whether or not it can be performed, it is possible to determine the validity of the combination of the substance name registered in the second database and the expression formula thereof. Specifically, for example, the generation device may calculate the accuracy of the combination of the substance name and the characteristic formula in the second database based on the determination result of whether or not the reproduction can be performed. Thereby, this accuracy can be used as an index such as which chemical formula in the second database is useful or which chemical formula may exist.

また、生成装置は、第1のデータベース内の物質名とその示性式の組の要素が第2のデータベース内になければ、その要素を第2のデータベースに登録することにしてもよい。これにより、第2のデータベース内の登録種類数を増やすことができ、第1のデータベース内の物質名とその示性式の組を、第2のデータベース内の物質名とその示性式の組を連結して再現する確率を高めることができる。   Further, the generation apparatus may register the element in the second database if the element of the substance name and the characteristic formula in the first database is not in the second database. As a result, the number of registered types in the second database can be increased, and the combination of the substance name in the first database and its characteristic expression is changed to the combination of the substance name in the second database and its characteristic expression. It is possible to increase the probability of reproducing by connecting.

また、生成装置が、第1のデータベースに登録された物質名とその示性式の組を再現できるか否かの判定処理と第2のデータベース内の登録種類数を増やす処理を交互に繰り返すことにより、第2のデータベースに登録された物質名とその示性式の組の妥当性の判断の機会を増やすことができる。   In addition, the generation apparatus alternately repeats the process of determining whether or not the combination of the substance name registered in the first database and the characteristic formula can be reproduced and the process of increasing the number of registered types in the second database. By this, it is possible to increase the chances of judging the validity of the combination of the substance name registered in the second database and its expression formula.

<対応関係DB(Data Base)の登録例>
まず、生成装置が、電子文書から物質名と化学式とが同義表現で記述されていると推定される部分を抽出して、物質名と化学式の組をデータベースに蓄積する例について説明する。
<Example of Registration of Correspondence DB (Data Base)>
First, an example will be described in which the generation apparatus extracts a part in which a substance name and a chemical formula are presumed to be described in synonymous expressions from an electronic document, and accumulates the combination of the substance name and the chemical formula in a database.

図1は、生成装置による対応関係DBの登録例を示す説明図である。文書情報DB100とは、化学系や薬学系に関する特許文書や論文、雑誌、書籍などのテキストを含む文書情報を記憶するデータベースである。文書情報は、電子文書全体であってもよいし、電子文書から一部を抜き出した情報であってもよい。特許文書を例に挙げると、文書情報は、特許文書内の発明に関する記述部分が抜き出された情報であってもよい。図1では、文書情報DB100は複数の文書情報100−1〜100−nを有している。文書情報DB100は、たとえば、生成装置が有するROM(Read‐Only Memory)やRAM(Random Access Memory)、フラッシュメモリ、ディスクなどの記憶装置により実現される。   FIG. 1 is an explanatory diagram illustrating an example of registration of the correspondence DB by the generation device. The document information DB 100 is a database that stores document information including texts such as patent documents, papers, magazines, books, and the like relating to chemistry and pharmacy. The document information may be the entire electronic document or information obtained by extracting a part from the electronic document. Taking a patent document as an example, the document information may be information obtained by extracting a description portion related to the invention in the patent document. In FIG. 1, the document information DB 100 has a plurality of document information 100-1 to 100-n. The document information DB 100 is realized by a storage device such as a ROM (Read-Only Memory), a RAM (Random Access Memory), a flash memory, a disk, or the like included in the generation device.

対応関係DB200は上述した第1のデータベースである。対応関係DB200には、生成装置によって文書情報DB100から選択された文書情報100−i(i=1〜n)の中から、物質名とその示性式との組を表す条件を満たす文字列から特定された物質名と示性式とが登録される。   The correspondence DB 200 is the first database described above. The correspondence DB 200 includes character strings that satisfy a condition that represents a set of a substance name and a characteristic expression among document information 100-i (i = 1 to n) selected from the document information DB 100 by the generation device. The specified substance name and indication formula are registered.

物質名と物質名の示性式との組を表す条件を満たす文字列とは、たとえば、同義表現を含んでいる文字列である。たとえば、括弧と括弧の直前の単語は、同義である可能性があるため、同義表現を含んでいる文字列とは、たとえば、括弧を有する一文である。括弧は、「 」、( )、{ }、[ ]が挙げられる。   The character string that satisfies the condition that represents the combination of the substance name and the expression of the substance name is, for example, a character string that includes a synonymous expression. For example, since the parenthesis and the word immediately before the parenthesis may be synonymous, the character string including the synonymous expression is, for example, a sentence having parentheses. Examples of parentheses include “”, (), {}, and [].

たとえば、生成装置は、文書情報の中から、括弧を含む一文を抽出する。そして、たとえば、生成装置が、括弧を含む一文から括弧の直前の単語を物質名として、括弧内の文字列を示性式として特定する。   For example, the generation device extracts a sentence including parentheses from the document information. Then, for example, the generation device identifies a word immediately before the parentheses from a sentence including the parentheses as a substance name and a character string in the parentheses as a referential expression.

また、たとえば、物質名や物質名を表す文字を記録したデータベースが予め用意されていてもよい。ここでは、このデータベースを物質名DBと称する。物質名を表す文字とは、たとえば、「酸」、「基」、「素」、「塩」、「炭」などが挙げられる。たとえば、生成装置は、括弧の直前の単語が物質名DB内の文字列を含んでいるか否かを判断する。その単語が物質名DB内の文字列を含んでいる場合、生成装置が、単語を物質名として特定し、括弧内の文字列を示性式として特定する。   Further, for example, a database in which a substance name and characters representing the substance name are recorded may be prepared in advance. Here, this database is referred to as a substance name DB. Examples of the character representing the substance name include “acid”, “group”, “element”, “salt”, “charcoal”, and the like. For example, the generation apparatus determines whether the word immediately before the parenthesis includes a character string in the substance name DB. When the word includes a character string in the substance name DB, the generation apparatus specifies the word as the substance name and specifies the character string in parentheses as a referential expression.

また、生成装置は、括弧内の文字列にアルファベットが含まれているか否かを判断してもよい。括弧内の文字列にアルファベットが含まれていない場合、生成装置が、括弧内の文字列を示性式として特定せず、括弧内の文字列にアルファベットが含まれている場合、生成装置が、括弧内の文字列を示性式として特定する。   The generation device may determine whether or not an alphabet is included in the character string in the parentheses. If the character string in parentheses does not contain alphabets, the generator does not identify the character string in parentheses as a descriptive expression, and if the character strings in parentheses contain alphabets, the generator The character string in parentheses is specified as an indicia expression.

そして、生成装置が、特定した物質名と示性式の組を対応関係DB200に登録する。対応関係DB200については、図2を用いて詳細に説明する。   Then, the generation apparatus registers the specified substance name and characteristic formula pair in the correspondence DB 200. The correspondence DB 200 will be described in detail with reference to FIG.

文書情報100−1を例に挙げると、生成装置は、括弧を含む一文として、「エタン(H3CH3)」、「エタンスルホン酸「CH3CH2SO3H」」、「エタンスルホン酸[CHES]」を抽出する。   Taking the document information 100-1 as an example, the generation apparatus extracts “ethane (H3CH3)”, “ethanesulfonic acid“ CH3CH2SO3H ”, and“ ethanesulfonic acid [CHES] ”as a sentence including parentheses.

たとえば、生成装置が、「エタン(H3CH3)」のうち、括弧の直前の単語「エタン」が物質名DBに含まれているか否かを判断する。単語「エタン」が物質名DBに含まれている場合、生成装置は、単語「エタン」を物質名として特定する。そして、生成装置が、括弧内の文字列「CH3CH3」がアルファベットを含む文字列であるか否かを判断する。括弧内の文字列「CH3CH3」がアルファベットを含む文字列である場合、生成装置が、括弧内の文字列「CH3CH3」を示性式として特定する。生成装置が、括弧内の文字列がアルファベットを含む文字列であるか否かを判断してもよい。そして、生成装置は、特定した物質名と示性式との組を対応関係DB200に登録する。   For example, the generation apparatus determines whether or not the word “ethane” immediately before the parentheses in “ethane (H3CH3)” is included in the substance name DB. When the word “ethane” is included in the substance name DB, the generating apparatus identifies the word “ethane” as the substance name. Then, the generation device determines whether or not the character string “CH3CH3” in parentheses is a character string including alphabets. When the character string “CH3CH3” in the parentheses is a character string including an alphabet, the generation device specifies the character string “CH3CH3” in the parentheses as a sexual expression. The generation device may determine whether or not the character string in parentheses is a character string including an alphabet. Then, the generation apparatus registers the specified combination of the substance name and the characteristic formula in the correspondence DB 200.

同様に、たとえば、生成装置が、「エタンスルホン酸「CH3CH2SO3H」」のうち、括弧の直前の単語「エタンスルホン酸」を物質名として、括弧内の文字列「CH3CH2SO3H」を示性式として特定する。同様に、生成装置が、「エタンスルホン酸[CHES]」のうち、「エタンスルホン酸」を物質名として、括弧内の「CHES」を示性式として特定する。そして、生成装置が、特定した物質名と示性式との組を対応関係DB200に登録する。   Similarly, for example, the generation device specifies the character string “CH3CH2SO3H” in parentheses as a sexual expression with the word “ethanesulfonic acid” immediately before the parentheses in “ethanesulfonic acid“ CH3CH2SO3H ”as a substance name. . Similarly, the generation apparatus identifies “ethanesulfonic acid” in “ethanesulfonic acid [CHES]” as a substance name and “CHES” in parentheses as a sexual expression. Then, the generation apparatus registers the specified combination of the substance name and the characteristic formula in the correspondence DB 200.

また、生成装置が、括弧内の文字列が物質名DBに含まれているか否かを判断することにより、括弧内の文字列を物質名として特定し、括弧内の直前の単語を示性式として特定してもよい。   Further, the generation device determines whether the character string in the parenthesis is included in the substance name DB, thereby specifying the character string in the parenthesis as the substance name, and the word immediately before the parenthesis May be specified.

また、同義表現の記載としては、たとえば、文書情報100−1の中で、「CH3SHはメタンチオールである。」が挙げられる。たとえば、生成装置が、「CH3SHはメタンチオールである。」のうち、物質名DBに登録された文字列を含む単語「メタンチオール」を物質名として特定する。たとえば、生成装置が、アルファベットを含む「CH3SH」を示性式として特定する。そして、生成装置が、特定した物質名と示性式との組を対応関係DB200に登録する。   Moreover, as description of synonymous expression, "CH3SH is methanethiol" is mentioned in the document information 100-1, for example. For example, the generation device identifies a word “methanethiol” including a character string registered in the substance name DB as a substance name among “CH3SH is methanethiol”. For example, the generation device specifies “CH3SH” including an alphabet as a referential expression. Then, the generation apparatus registers the specified combination of the substance name and the characteristic formula in the correspondence DB 200.

図1によれば、生成装置は、既存の電子文書から物質名とその化学式の組の候補を自動で見つけ出すことができる。   According to FIG. 1, the generation apparatus can automatically find a candidate for a combination of a substance name and its chemical formula from an existing electronic document.

このように、生成装置によれば、既存の電子文書から物質名とその化学式の組の候補を自動で見つけ出して、対応関係DB200に蓄積していくことができる。つぎに、図2を用いて、生成装置によって抽出された物質名およびその示性式の組が登録される対応関係DB200の記憶内容について説明する。   As described above, according to the generation apparatus, a candidate for a combination of a substance name and its chemical formula can be automatically found from an existing electronic document and can be accumulated in the correspondence DB 200. Next, the stored contents of the correspondence DB 200 in which a set of the substance name extracted by the generation device and its characteristic formula is registered will be described with reference to FIG.

<対応関係DB200>
図2は、対応関係DB200の記憶内容の一例を示す説明図である。対応関係DB200とは、文書情報DB100内の文書情報100−1〜100−nから生成装置によって抽出された物質名とその示性式とを対応付けて記憶したデータベースである。対応関係DB200は、物質名項目と、示性式項目と、を有する。対応関係DB200は、物質名ごとに各項目が設定されレコードを構成する。物質名項目には物質名が登録されている。また、示性式項目には示性式が登録されている。
<Correspondence DB 200>
FIG. 2 is an explanatory diagram illustrating an example of the contents stored in the correspondence DB 200. The correspondence relationship DB 200 is a database that stores the substance names extracted from the document information 100-1 to 100-n in the document information DB 100 by the generating device and their characteristic formulas in association with each other. The correspondence DB 200 includes a substance name item and a referential expression item. In the correspondence DB 200, each item is set for each substance name to form a record. The substance name is registered in the substance name item. In addition, the indicia formula is registered in the indicia formula item.

たとえば、対応関係DB200の初期状態は空であり、物質名およびその示性式の組が生成される都度、レコードに追加されることになる。図2では、すでに、メタンやメトキシなどの物質について物質名と示性式が登録済みの状態を示している。対応関係DB200で規定された物質名および示性式の組は、部分示性式を生成する際に生成装置から選択される。   For example, the initial state of the correspondence DB 200 is empty, and is added to the record every time a set of a substance name and its characteristic formula is generated. FIG. 2 shows a state where substance names and sexual formulas have already been registered for substances such as methane and methoxy. The combination of the substance name and the characteristic formula defined in the correspondence DB 200 is selected from the generation device when generating the partial characteristic expression.

対応関係DB200は、たとえば、生成装置が有するROMやRAM、フラッシュメモリ、ディスクなどの記憶装置により実現される。   The correspondence DB 200 is realized, for example, by a storage device such as a ROM, a RAM, a flash memory, or a disk included in the generation device.

<示性式の生成例>
図3は、生成装置による示性式の生成例を示す説明図である。図3中、「≒」は物質名と示性式との対応関係を示している。図3では、対応関係DB200に含まれる物質名と示性式の組のうち、一例として、物質名「プロパン」と示性式「CH3CH2CH3」の組を生成元とする。
<Generation formula generation example>
FIG. 3 is an explanatory diagram illustrating an example of generating a sexual expression by the generation device. In FIG. 3, “≈” indicates the correspondence between the substance name and the sexual expression. In FIG. 3, as an example, a combination of the substance name “propane” and the characteristic expression “CH3CH2CH3” is used as a generation source among the substance name and characteristic expression pairs included in the correspondence DB 200.

(1)では、物質名「プロパン」および示性式「CH3CH2CH3」に対し、『炭化水素CHの結合の場合に化学反応として水素が外される』というルールが適用されている。プロパンの示性式「CH3CH2CH3」には、水素Hが3箇所(計8個)存在し、いずれの箇所にもルール適用可能であるが、ここでは説明の便宜上、末尾の「CH3」から水素Hが1つ外されたこととする。これにより、物質名「プロパン」、示性式「CH3CH2CH2」が得られる。本明細書では、ルールが適用された適用後の示性式を「部分示性式」と称す。また、ルールが適用された適用後の物質名を「部分名」と称す。 In (1), the rule that “hydrogen is removed as a chemical reaction when a hydrocarbon CH is bonded” is applied to the substance name “propane” and the characteristic formula “CH 3 CH 2 CH 3”. In the propane characteristic formula “CH 3 CH 2 CH 3”, there are 3 hydrogen Hs (total 8), and the rule can be applied to any of the sites, but here, for convenience of explanation, from the last “CH 3” to the hydrogen H Suppose that one is removed. As a result, the substance name “propane” and the characteristic formula “CH3CH2CH2” are obtained. In the present specification, the applied expression after application of the rule is referred to as “partial expression”. In addition, the substance name after the application of the rule is referred to as “partial name”.

(2)では、(1)で得られた部分名「プロパン」および部分示性式「CH3CH2CH2」に対し、『水素Hが「OH」に置換され、部分名の語尾に「ノール」が追加される』というルールが適用されている。部分示性式「CH3CH2CH2」には、水素Hが3箇所(計7個)存在するが、ここでは、中央の「CH2」の水素HがOHに置換されたこととする。これにより、部分示性式「CH3CHOHCH2」が得られる。また、部分名「プロパン」の語尾には「ノール」が追加されるが、語尾追加の場合は、語幹「プロパ」に語尾「ノール」が追加され、部分名「プロパノール」が得られる。 In (2), “hydrogen H is replaced by“ OH ”and“ nor ”is added to the end of the partial name for the partial name“ propane ”and the partial characteristic formula“ CH3CH2CH2 ”obtained in (1). The rule is applied. In partial partial formula “CH3CH2CH2”, there are three hydrogen Hs (a total of seven), but here, it is assumed that hydrogen H in the center “CH2” is replaced with OH. Thereby, the partial characteristic formula “CH3CHOHCH2” is obtained. In addition, “nor” is added to the end of the partial name “propane”, but in the case of adding the end, the end “nor” is added to the stem “propa”, and the partial name “propanol” is obtained.

(3)では、(1)で得られた部分名「プロパン」および部分示性式「CH3CH2CH2」に対し、『水素Hがフッ素「F」に置換され、部分名の語頭に「フルオロ」が追加される』というルールが適用されている。部分示性式「CH3CH2CH2」には、水素Hが3箇所(計7個)存在するが、ここでは、先頭の「CH3」の水素Hがフッ素Fに置換されたこととする。これにより、部分示性式「CH2FCH2HCH2」が得られる。また、部分名「プロパン」の語頭には「フルオロ」が追加され、部分名「フルオロプロパン」が得られる。 In (3), “hydrogen H is replaced by fluorine“ F ”and“ fluoro ”is added to the beginning of the partial name for the partial name“ propane ”and the partial characteristic formula“ CH3CH2CH2 ”obtained in (1). The rule that “does” is applied. In the partial characteristic formula “CH3CH2CH2”, there are three hydrogens H (a total of seven). Here, it is assumed that the hydrogen “H” in the leading “CH3” is replaced with fluorine F. Thereby, the partial characteristic formula “CH2FCH2HCH2” is obtained. Further, “fluoro” is added to the beginning of the partial name “propane” to obtain the partial name “fluoropropane”.

(4)では、(2)で得られた部分名「プロパノール」および部分示性式「CH3CHOHCH2」に対し、『水素Hが塩素Clに置換され、部分名の語頭に「クロロ」が追加される』というルールが適用されている。部分示性式「CH3CHOHCH2」には、水素Hが4箇所(計7個)存在するが、ここでは、先頭の「CH3」の水素Hが塩素Clに置換されたこととする。これにより、部分示性式「CH2ClCHOHCH2」が得られる。また、部分名「プロパノール」の語頭には「クロロ」が追加され、部分名「クロロプロパノール」が得られる。 In (4), “hydrogen H is replaced by chlorine Cl and“ chloro ”is added to the beginning of the partial name for the partial name“ propanol ”and the partial characteristic formula“ CH 3 CHOHCH 2 ”obtained in (2). Is applied. In the partial characteristic formula “CH3CHOHCH2”, there are four hydrogen Hs (total of seven), but here, it is assumed that the hydrogen H of the leading “CH3” is replaced by chlorine Cl. Thereby, the partial characteristic formula “CH 2 ClCHOHCH 2” is obtained. In addition, “chloro” is added to the beginning of the partial name “propanol” to obtain the partial name “chloropropanol”.

(5)では、(2)で得られた部分名「プロパノール」および部分示性式「CH3CHOHCH2」に対し、『水素Hがフッ素Fに置換され、部分名の語頭に「フルオロ」が追加される』というルールが適用されている。当該ルールは、上記(3)で適用されているが、同一ルールを複数回適用してもよい。部分示性式「CH3CHOHCH2」には、水素Hが4箇所(計7個)存在するが、ここでは、先頭の「CH3」の水素Hがフッ素Fに置換されたこととする。これにより、部分示性式「CH2FCHOHCH2」が得られる。また、部分名「プロパノール」の語頭には「フルオロ」が追加され、部分名「フルオロプロパノール」が得られる。 In (5), “hydrogen H is replaced with fluorine F and“ fluoro ”is added to the beginning of the partial name for the partial name“ propanol ”and the partial characteristic formula“ CH3CHOHCH2 ”obtained in (2). Is applied. The rule is applied in (3) above, but the same rule may be applied multiple times. In the partial characteristic formula “CH 3 CHOHCH 2”, there are four hydrogen H positions (total of seven). Here, it is assumed that the hydrogen H in the leading “CH 3” is replaced with fluorine F. As a result, the partial characteristic formula “CH2FCHOHCH2” is obtained. Further, “fluoro” is added to the beginning of the partial name “propanol” to obtain the partial name “fluoropropanol”.

(6)では、(5)で得られた部分名「フルオロプロパノール」および部分示性式「CH2FCHOHCH2」に対し、『水素Hがフッ素Fに置換され、部分名の語頭に「フルオロ」が追加される』というルールが適用されている。この場合、先頭の「CH2」の水素Hがフッ素Fに置換されると、生成後の部分名および部分示性式が、生成済みの部分名「クロロフルオロプロパノール」の部分示性式「CHClFCHOHCH2」と一致することになる。このような場合は、生成処理が停止される。したがって、生成装置は、部分名および部分示性式の重複生成を抑制することができ、生成処理の負荷低減を図ることができる。 In (6), “hydrogen H is replaced by fluorine F and“ fluoro ”is added to the beginning of the partial name for the partial name“ fluoropropanol ”obtained in (5) and the partial characteristic formula“ CH 2 FCHOHCH 2 ”. The rule is applied. In this case, when the hydrogen “H” in the leading “CH2” is replaced by fluorine F, the partial name and partial characteristic formula after generation are the partial partial expression “CHClFCHOHCH2” of the generated partial name “chlorofluoropropanol”. Will match. In such a case, the generation process is stopped. Therefore, the generation device can suppress the duplicate generation of the part name and the partial expression, and can reduce the load of the generation process.

このように、生成装置によれば、化学反応に応じたルールを適用したうえで示性式を生成しているため、化学物質の第1のデータベースに依存することなく、物質名とその示性式を高精度に生成して、自動で第2のデータベースを作成することができる。   As described above, according to the generating device, the expression is generated after applying the rule according to the chemical reaction. Therefore, the substance name and the indicating characteristic are not dependent on the first database of the chemical substance. The expression can be generated with high accuracy and the second database can be automatically created.

つぎに、図3で適用されたルールについて説明する。本実施の形態において、ルールとは、適用すべき化学反応に関する条件と当該条件を満たした場合の変換内容を規定した情報である。ルールの集合であるルール群は、ルールDBに記憶されている。ルールDBは、たとえば、生成装置が有するROMやRAM、フラッシュメモリ、ディスクなどの記憶装置により実現される。   Next, the rules applied in FIG. 3 will be described. In the present embodiment, a rule is information that defines a condition relating to a chemical reaction to be applied and contents of conversion when the condition is satisfied. A rule group that is a set of rules is stored in the rule DB. The rule DB is realized, for example, by a storage device such as a ROM, a RAM, a flash memory, or a disk included in the generation device.

<ルールDB>
図4は、ルールDBの記憶内容の一例を示す説明図である。ルールDB400は、ルールID項目と、適用条件項目と、変換内容項目と、を有する。ルールDB400は、ルールごとに各項目が設定されレコードを構成する。ルールDB400で規定されたルールは、部分示性式を生成する際に生成装置から選択される。
<Rule DB>
FIG. 4 is an explanatory diagram of an example of the contents stored in the rule DB. The rule DB 400 includes a rule ID item, an application condition item, and a conversion content item. The rule DB 400 configures a record in which each item is set for each rule. The rules defined in the rule DB 400 are selected from the generating device when generating the partial expression.

ルールID項目には、ルールIDがレコードごとに格納される。ルールIDとは、ルールを一意に特定する情報である。適用条件項目には、適用条件がレコードごとに格納される。適用条件とは、ルールを適用するために示性式や部分示性式が満たすべき化学反応に関する条件である。たとえば、エタノールの示性式は「CH3CH2OH」であるため、ルールID=R1の適用条件を満たすことになる。   In the rule ID item, the rule ID is stored for each record. The rule ID is information that uniquely identifies a rule. In the application condition item, an application condition is stored for each record. The application condition is a condition relating to a chemical reaction that should be satisfied by the characteristic expression or the partial characteristic expression in order to apply the rule. For example, since the ethanol equation is “CH3CH2OH”, the application condition of rule ID = R1 is satisfied.

変換内容項目は、示性式項目と物質名項目とを含む。示性式項目には、示性式や部分示性式に適用される化学反応がレコードごとに格納されている。また、物質名項目には、物質名や部分名に適用される名称変更内容がレコードごとに格納されている。名称変更内容には、「変更なし」と「語頭の追加」と「語尾の追加」の3種類がある。   The conversion content item includes a referential expression item and a substance name item. The chemical formula applied to the differential formula or the partial differential formula is stored for each record in the differential formula item. In the substance name item, name change contents applied to the substance name and the partial name are stored for each record. There are three types of name change contents: “no change”, “addition of prefix”, and “addition of ending”.

図5は、生成装置による示性式生成例(その1)を示す説明図である。図5では、図1に示したルールDB400のルールID=R1を適用した場合の例である。図5では、生成元を、物質名「プロパン」、示性式「CH3CH2CH3」とする。   FIG. 5 is an explanatory diagram of an example of generating a sexual expression by the generator (part 1). FIG. 5 shows an example in which the rule ID = R1 of the rule DB 400 shown in FIG. 1 is applied. In FIG. 5, the generation source is assumed to be the substance name “propane” and the characteristic formula “CH3CH2CH3”.

ルールR1が適用されると、示性式「CH3CH2CH3」から、「CH2CH2CH3」,「CH3CHCH3」,「CH3CH2CH2」という3種類の部分示性式が生成される。また、物質名「プロパン」は変更されず、「プロパン」はそのまま部分名となる。   When the rule R1 is applied, three types of partial characteristic expressions “CH2CH2CH3”, “CH3CHCH3”, and “CH3CH2CH2” are generated from the characteristic expression “CH3CH2CH3”. Further, the substance name “propane” is not changed, and “propane” becomes a partial name as it is.

図6は、生成装置による示性式生成例(その2)を示す説明図である。図6では、図4に示したルールDB400のルールID=R2を適用した場合の例である。図6では、生成元を、部分名「プロパン」、部分示性式「CH2CH2CH3」とする。   FIG. 6 is an explanatory diagram of an example of generating a sexual expression by the generating device (part 2). FIG. 6 shows an example in which the rule ID = R2 of the rule DB 400 shown in FIG. 4 is applied. In FIG. 6, the generation source is a partial name “propane” and a partial characteristic formula “CH2CH2CH3”.

ルールR2が適用されると、部分示性式「CH2CH2CH3」から、「CHOHCH2CH3」,「CH2CHOHCH3」,「CH2CH2CH2OH」という3種類の部分示性式が生成される。また、部分名「プロパン」はいずれの部分示性式についても、部分名「プロパノール」となる。なお、部分名「プロパン」に語尾「ノール」がそのまま追加されると、「プロパンノール」となるが、語尾追加の場合は、「プロパン」の語幹「プロパ」に語尾「ノール」が追加されて、「プロパノール」になる。   When the rule R2 is applied, three types of partial characteristic expressions “CHOHCH2CH3”, “CH2CHOHCH3”, and “CH2CH2CH2OH” are generated from the partial characteristic expression “CH2CH2CH3”. In addition, the partial name “propane” becomes the partial name “propanol” for any partial characteristic formula. If the ending “nor” is added to the partial name “propane” as it is, it will be “propanol”, but in the case of adding the ending, the ending “nor” will be added to the stem “propa” of “propane”. Becomes “propanol”.

図7は、生成装置による示性式生成例(その3)を示す説明図である。図7では、図4に示したルールDB400のルールID=R3を適用した場合の例である。図7では、生成元を、部分名「プロパノール」、部分示性式「CHOHCH2CH3」とする。   FIG. 7 is an explanatory diagram of an example (part 3) of generating a sexual expression by the generation device. FIG. 7 shows an example in which the rule ID = R3 of the rule DB 400 shown in FIG. 4 is applied. In FIG. 7, the generation source is a partial name “propanol” and a partial characteristic formula “CHOHCH2CH3”.

ルールR3が適用されると、部分示性式「CHOHCH2CH3」から、「CClOHCH2CH3」,「CHOClCH2CH3」,「CHOHCHClCH3」,「CHOHCH2CH2Cl」という4種類の部分示性式が生成される。また、部分名「プロパン」はいずれの部分示性式についても、部分名「クロロプロパノール」となる。つぎに、図8を用いて、ルールの変換内容において語尾が追加される場合に生成装置によって参照される語幹辞書の記憶内容について説明する。   When the rule R3 is applied, the four partial partial expressions of “CClOHCH2CH3”, “CHOClCH2CH3”, “CHOHCHClCH3”, and “CHOHCH2CH2Cl” are generated from the partial incremental expression “CHOHCH2CH3”. In addition, the partial name “propane” becomes the partial name “chloropropanol” for any partial referential formula. Next, the stored contents of the stem dictionary that is referred to by the generating device when a ending is added in the conversion contents of the rule will be described with reference to FIG.

<語幹辞書>
図8は、語幹辞書の記憶内容の一例を示す説明図である。語幹辞書800とは、物質名や部分名の語幹を特定するためのデータベースである。語幹辞書800には既知の物質名の語幹が登録されている。ルールの変換内容において語尾が追加される場合、生成装置は語幹辞書800を参照する。そして、生成装置は、語幹辞書800を最長一致検索することにより、最長一致した語幹を抽出し、適用されるルールに規定されている語尾を、抽出した語幹の末尾に追加することになる。
<Stem stem dictionary>
FIG. 8 is an explanatory diagram showing an example of the contents stored in the stem dictionary. The stem dictionary 800 is a database for specifying the stems of substance names and partial names. In the word stem dictionary 800, word stems with known substance names are registered. When a ending is added in the conversion contents of the rule, the generating apparatus refers to the stem dictionary 800. Then, the generation device searches the stem dictionary 800 for the longest match, extracts the longest match stem, and adds the ending specified in the applied rule to the end of the extracted stem.

たとえば、図6の例では、部分名「プロパン」については、「プロパ」が最長一致するため、語幹「プロパ」が語幹辞書800から読み出される。そして、読み出された語幹「プロパ」に語尾「ノール」が追加されて、「プロパノール」になる。語幹辞書800は、たとえば、生成装置が有するROMやRAM、フラッシュメモリ、ディスクなどの記憶装置により実現される。つぎに、図9を用いて、生成装置によって生成された部分名およびその部分示性式の組が登録される部分示性式DBの記憶内容について説明する。   For example, in the example of FIG. 6, for the partial name “propane”, “propa” has the longest match, so the stem “propa” is read from the stem dictionary 800. Then, the ending “nor” is added to the read stem “prop” and becomes “propanol”. The stem dictionary 800 is realized by a storage device such as a ROM, a RAM, a flash memory, or a disk included in the generation device, for example. Next, with reference to FIG. 9, a description will be given of the stored contents of the partial characteristic formula DB in which a set of the partial name generated by the generation device and the partial characteristic formula is registered.

<部分示性式DB>
図9は、部分示性式DBの記憶内容の一例を示す説明図である。部分示性式DB900とは、生成装置によって生成された部分名およびその部分示性式の組を登録するデータベースである。部分示性式DB900は、部分名項目と、部分示性式項目と、確信度項目と、を有する。部分示性式DB900は、部分名で特定される物質ごとに各項目が設定されレコードを構成する。部分名項目には部分名が登録される。また、部分示性式項目には部分示性式が登録される。確信度項目には部分名項目に登録された部分名と部分示性式項目に登録された部分示性式との組の確かさを表す確信度が登録される。すなわち、確信度は、部分示性式が部分名の示性式である確かさを表す。本実施の形態では、確信度は点数で表され、点数が高い順に確信度が高いこととするが、これに限らず、点数が低い順に確信度が高いとしてもよい。また、たとえば、確信度はランクで表されてもよい。たとえば、生成装置が確信度をより確からしさを示す値に更新するとは、確信度がランクの場合、ランクを上げ、確信度が点数であり、かつ点数が高いと確信度が高い場合、点数を上げる。
<Partial expression formula DB>
FIG. 9 is an explanatory diagram showing an example of the contents stored in the partial characterization formula DB. The partial characteristic formula DB 900 is a database for registering a part name generated by the generation device and a set of the partial characteristic formulas. The partial characteristic expression DB 900 includes a partial name item, a partial characteristic expression item, and a certainty factor item. In the partial characteristic formula DB 900, each item is set for each substance specified by the partial name, and constitutes a record. The partial name is registered in the partial name item. In addition, a partial characteristic expression is registered in the partial characteristic expression item. In the certainty factor item, a certainty factor indicating the certainty of the set of the partial name registered in the partial name item and the partial indicia equation registered in the partial intensity formula item is registered. That is, the certainty factor represents the certainty that the partial characteristic expression is the partial name characteristic expression. In the present embodiment, the certainty factor is represented by a score, and the certainty factor is high in the descending order of the score. However, the present invention is not limited to this, and the certainty factor may be high in the descending order of the score. Further, for example, the certainty factor may be represented by a rank. For example, when the generation device updates the certainty level to a value indicating more certainty, when the certainty level is rank, the rank is increased, and when the certainty level is high and the high level is high, increase.

たとえば、部分示性式DB900の初期状態は空であり、部分名およびその部分示性式の組が生成される都度、レコードに追加されることになる。部分名およびその部分示性式の組がレコードに追加される時には、確信度項目には0が設定される。   For example, the initial state of the partial characteristic formula DB 900 is empty, and is added to the record every time a set of a partial name and the partial characteristic formula is generated. When a set of a partial name and its partial characteristic formula is added to the record, 0 is set in the certainty factor item.

図9では、すでに、メタンやメトキシなどの物質について部分名と部分示性式が登録済みの状態を示している。   FIG. 9 shows a state where partial names and partial sexual formulas have already been registered for substances such as methane and methoxy.

また、部分示性式DB900に部分名およびその部分示性式の組が登録されている場合には、生成装置は、部分示性式DB900から部分名およびその部分示性式の組を検索することができる。たとえば、特許文書や学術論文には、新規な物質名やその示性式が記載されることがあるが、生成装置は、そのような新規な物質名やその示性式が化学物質データベースに収録されていなくても、生成装置が生成したデータベースから検索することができる。   In addition, when the partial name and the combination of the partial characteristic formula are registered in the partial characteristic formula DB 900, the generation apparatus searches the partial characteristic expression DB 900 for the combination of the partial name and the partial characteristic formula. be able to. For example, patent documents and academic papers may describe new substance names and their formulas, but the generator stores such new substance names and their formulas in the chemical database. Even if it is not done, it can be searched from the database generated by the generation device.

<生成装置のハードウェア構成例>
図10は、実施の形態にかかる生成装置のハードウェア構成例を示すブロック図である。図10において、生成装置は、CPU(Central Processing Unit)1001と、ROM1002と、RAM(Random Access Memory)1003と、を有している。生成装置は、磁気ディスクドライブ1004と、磁気ディスク1005と、光ディスクドライブ1006と、光ディスク1007と、ディスプレイ1008と、I/F(Interface)1009と、キーボード1010と、マウス1011と、を有している。また、各部はバス1000によってそれぞれ接続されている。
<Example of hardware configuration of generation device>
FIG. 10 is a block diagram of a hardware configuration example of the generation apparatus according to the embodiment. In FIG. 10, the generation apparatus includes a CPU (Central Processing Unit) 1001, a ROM 1002, and a RAM (Random Access Memory) 1003. The generation apparatus includes a magnetic disk drive 1004, a magnetic disk 1005, an optical disk drive 1006, an optical disk 1007, a display 1008, an I / F (Interface) 1009, a keyboard 1010, and a mouse 1011. . Each unit is connected by a bus 1000.

ここで、CPU1001は、生成装置の全体の制御を司る。ROM1002は、ブートプログラムなどのプログラムを記憶している。RAM1003は、CPU1001のワークエリアとして使用される。磁気ディスクドライブ1004は、CPU1001の制御にしたがって磁気ディスク1005に対するデータのリード/ライトを制御する。磁気ディスク1005は、磁気ディスクドライブ1004の制御で書き込まれたデータを記憶する。   Here, the CPU 1001 governs overall control of the generation apparatus. The ROM 1002 stores a program such as a boot program. The RAM 1003 is used as a work area for the CPU 1001. The magnetic disk drive 1004 controls reading / writing of data with respect to the magnetic disk 1005 according to the control of the CPU 1001. The magnetic disk 1005 stores data written under the control of the magnetic disk drive 1004.

光ディスクドライブ1006は、CPU1001の制御にしたがって光ディスク1007に対するデータのリード/ライトを制御する。光ディスク1007は、光ディスクドライブ1006の制御で書き込まれたデータを記憶したり、光ディスク1007に記憶されたデータをコンピュータに読み取らせたりする。   The optical disc drive 1006 controls reading / writing of data with respect to the optical disc 1007 according to the control of the CPU 1001. The optical disc 1007 stores data written under the control of the optical disc drive 1006, and causes the computer to read data stored on the optical disc 1007.

ディスプレイ1008は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ1008は、たとえば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。   The display 1008 displays data such as a document, an image, and function information as well as a cursor, an icon, or a tool box. As the display 1008, for example, a CRT, a TFT liquid crystal display, a plasma display, or the like can be adopted.

I/F1009は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワーク1014に接続され、このネットワーク1014を介して他の装置に接続される。そして、I/F1009は、ネットワーク1014と内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F1009には、たとえばモデムやLANアダプタなどを採用することができる。   The I / F 1009 is connected to a network 1014 such as a LAN (Local Area Network), a WAN (Wide Area Network), and the Internet through a communication line, and is connected to another device via the network 1014. The I / F 1009 controls an internal interface with the network 1014 and controls input / output of data from an external device. For example, a modem or a LAN adapter may be employed as the I / F 1009.

キーボード1010は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス1011は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。   The keyboard 1010 includes keys for inputting characters, numbers, various instructions, and the like, and inputs data. Moreover, a touch panel type input pad or a numeric keypad may be used. The mouse 1011 performs cursor movement, range selection, window movement, size change, and the like. A trackball or a joystick may be used as long as they have the same function as a pointing device.

<生成装置の機能的構成例>
図11は、生成装置の機能的構成を示すブロック図である。図11において、生成装置1100は、文書情報DB100と、物質名DB1120と、対応関係DB200と、ルールDB400と、語幹辞書800と、部分示性式DB900を有する。物質名DB1120は、物質名や物質名に関係のある文字や文字列が登録されている。物質名DB1120は、たとえば、ROM1002やRAM1003、磁気ディスク1005、光ディスク1007などの記憶装置により実現される。
<Functional configuration example of generation device>
FIG. 11 is a block diagram illustrating a functional configuration of the generation device. In FIG. 11, the generation apparatus 1100 includes a document information DB 100, a substance name DB 1120, a correspondence relationship DB 200, a rule DB 400, a stemming dictionary 800, and a partial characteristic formula DB 900. In the substance name DB 1120, characters and character strings related to substance names and substance names are registered. The substance name DB 1120 is realized by a storage device such as the ROM 1002, the RAM 1003, the magnetic disk 1005, and the optical disk 1007, for example.

また、生成装置1100は、文字列抽出部1101と、第1の登録部1102と、ルール抽出部1103と、判断部1104と、変換部1105と、第2の登録部1106と、判定部1107と、を有している。生成装置1100は、取得部1108と、分割部1109と、検索部1110と、生成部1111と、判定部1112と、更新部1113と、削除部1114と、を有している。文字列抽出部1101〜削除部1114は、具体的には、たとえば、図10に示したROM1002、RAM1003、磁気ディスク1005、光ディスク1007などの記憶装置に記憶された生成プログラムをCPU1001に実行させることにより、または、I/F1009により、その機能を実現する。また、各機能部の処理結果は、例えば、RAM1003、磁気ディスク1005、光ディスク1007などの記憶装置に記憶される。   The generation apparatus 1100 includes a character string extraction unit 1101, a first registration unit 1102, a rule extraction unit 1103, a determination unit 1104, a conversion unit 1105, a second registration unit 1106, and a determination unit 1107. ,have. The generation apparatus 1100 includes an acquisition unit 1108, a division unit 1109, a search unit 1110, a generation unit 1111, a determination unit 1112, an update unit 1113, and a deletion unit 1114. Specifically, the character string extraction unit 1101 to the deletion unit 1114 causes the CPU 1001 to execute a generation program stored in a storage device such as the ROM 1002, the RAM 1003, the magnetic disk 1005, and the optical disk 1007 shown in FIG. Alternatively, the function is realized by the I / F 1009. Further, the processing results of the respective functional units are stored in a storage device such as the RAM 1003, the magnetic disk 1005, and the optical disk 1007, for example.

文字列抽出部1101は、文書情報の中から、物質名と物質名の示性式との組を表す条件を満たす文字列を抽出する。上述したように、物質名と物質名の示性式との組を表す条件を満たす文字列とは、たとえば、同義表現を含んでいる文字列である。たとえば、括弧と括弧の直前の単語は、同義である可能性があるため、同義表現を含んでいる文字列とは、たとえば、括弧を有する一文である。具体的には、たとえば、文字列抽出部1101は、文書情報DB100内の文書情報から、括弧を有する一文を抽出する。   The character string extraction unit 1101 extracts a character string satisfying a condition representing a set of a substance name and a substance name expression formula from the document information. As described above, the character string that satisfies the condition representing the combination of the substance name and the explicit expression of the substance name is, for example, a character string that includes a synonymous expression. For example, since the parenthesis and the word immediately before the parenthesis may be synonymous, the character string including the synonymous expression is, for example, a sentence having parentheses. Specifically, for example, the character string extraction unit 1101 extracts a sentence having parentheses from the document information in the document information DB 100.

たとえば、図1で示したように、文書情報100−1の中から、括弧を有する「エタン(H3CH3)」が抽出される。文字列抽出部1101は、「エタン(H3CH3)」のうち、括弧内の直前の単語「エタン」を抽出する。そして、文字列抽出部1101は、物質名DB1120を検索することで、物質名DB1120内に単語「エタン」の部分文字列が含まれているか否かを判断する。単語「エタン」の部分文字列が含まれている場合、文字列抽出部1101は、単語「エタン」を物質名として特定し、括弧内の文字列「CH3CH3」を示性式として特定する。   For example, as shown in FIG. 1, “ethane (H3CH3)” having parentheses is extracted from the document information 100-1. The character string extraction unit 1101 extracts the word “ethane” immediately before the parenthesis from “ethane (H3CH3)”. Then, the character string extraction unit 1101 searches the substance name DB 1120 to determine whether or not a partial character string of the word “ethane” is included in the substance name DB 1120. When the partial character string of the word “ethane” is included, the character string extraction unit 1101 identifies the word “ethane” as a substance name and identifies the character string “CH3CH3” in parentheses as a sexual expression.

そして、第1の登録部1102は、抽出された文字列に含まれる物質名とその示性式との組をデータベースに登録する。具体的には、たとえば、第1の登録部1102は、物質名とその示性式との組を対応関係DB200に登録する。たとえば、特定された物質名「エタン」と示性式「CH3CH3」との組が対応関係DB200に登録される。   Then, the first registration unit 1102 registers a set of the substance name included in the extracted character string and its characteristic formula in the database. Specifically, for example, the first registration unit 1102 registers a set of a substance name and its characteristic formula in the correspondence DB 200. For example, a set of the specified substance name “ethane” and the characteristic formula “CH3CH3” is registered in the correspondence DB 200.

ルール抽出部1103は、適用すべき条件と当該条件を満たした場合の変換内容を規定したルール群の中からいずれかのルールを抽出する。具体的には、たとえば、ルール抽出部1103は、ルールDB400のいずれかのルールを抽出する。ルール抽出部1103は、どのルールを抽出するかについては、ランダムでもよく、ルールID順でもよい。また抽出されるルールは、重複してもよい。   The rule extraction unit 1103 extracts any rule from the rule group that defines the condition to be applied and the conversion content when the condition is satisfied. Specifically, for example, the rule extraction unit 1103 extracts any rule from the rule DB 400. The rule extraction unit 1103 may extract random rules or may be in the order of rule IDs. The extracted rules may be duplicated.

判断部1104は、第1の登録部1102によって登録された示性式が、ルール抽出部1103によって抽出されたいずれかのルールでの適用すべき条件を満たすか否かを判断する。具体的には、たとえば、判断部1104は、第1の登録部1102によって登録された示性式が、ルールDB400から抽出されたルールの適用条件を満たすか否かを判断する。たとえば、図5〜図7の例では、抽出されたルールR1〜R3の適用条件を満たしていることになる。一方、エタノールについて、『炭化水素CHの結合』という適用条件(図3を参照)のルールが抽出された場合は、適用条件を満たしていないことになる。   The determination unit 1104 determines whether or not the characteristic expression registered by the first registration unit 1102 satisfies a condition to be applied in any of the rules extracted by the rule extraction unit 1103. Specifically, for example, the determination unit 1104 determines whether or not the characteristic expression registered by the first registration unit 1102 satisfies the application condition of the rule extracted from the rule DB 400. For example, in the examples of FIGS. 5 to 7, the application conditions of the extracted rules R1 to R3 are satisfied. On the other hand, when the rule of the application condition (see FIG. 3) of “bonding hydrocarbon CH” is extracted for ethanol, the application condition is not satisfied.

変換部1105は、判断部1104によって満たすと判断された場合、示性式および物質名を変換内容にしたがって変換する。具体的には、たとえば、変換部1105は、抽出されたルールの適用条件を示性式が満たすと判断された場合、抽出されたルールの変換内容にしたがって、物質名およびその示性式を変換し、部分名およびその部分示性式を出力する。また、変換された部分名およびその部分示性式は、ルール抽出部1103にフィードバックされる。これにより、変換された部分名およびその部分示性式について、ルール抽出部1103による抽出処理、判断部1104による判断処理、および変換部1105による変換処理が、再帰的に実行されることになる。   When it is determined that the condition is satisfied by the determination unit 1104, the conversion unit 1105 converts the referential expression and the substance name according to the conversion content. Specifically, for example, when the conversion unit 1105 determines that the characteristic expression satisfies the application condition of the extracted rule, the conversion unit 1105 converts the substance name and the characteristic expression according to the conversion content of the extracted rule. And output the part name and its partial expression. Also, the converted part name and the partial characteristic formula are fed back to the rule extraction unit 1103. As a result, the extracted processing by the rule extraction unit 1103, the determination processing by the determination unit 1104, and the conversion processing by the conversion unit 1105 are recursively executed for the converted partial name and the partial characteristic expression.

なお、変換部1105による変換例については、図5〜図7に示したように、示性式または部分示性式は、化学反応に応じた変換がおこなわれる。また、物質名または部分名については、変更なし、語頭の追加、または語尾の追加が実行される。抽出されたルールに語尾の追加が規定されている場合には、語幹辞書800に対する最長一致検索により、変換部1105は、物質名または部分名の語幹を抽出する。そして、変換部1105は、抽出した語幹に、ルール規定されている語尾を追加することにより、あらたな部分名を生成することになる。   In addition, about the conversion example by the conversion part 1105, as shown in FIGS. 5-7, the conversion according to a chemical reaction is performed for a characteristic formula or a partial characteristic formula. For the substance name or partial name, no change, addition of a prefix, or addition of a ending is executed. When addition of the ending is defined in the extracted rule, the conversion unit 1105 extracts the stem of the substance name or the partial name by the longest match search with respect to the stem dictionary 800. Then, the conversion unit 1105 generates a new partial name by adding a rule-defined ending to the extracted word stem.

また、変換部1105では、図5〜図7に示したように、複数の変換候補が得られるが、いずれの変換候補について変換をおこなってもよく、いずれか1つについて変換をおこなってもよい。すなわち、少なくとも1つ変換すればよい。変換候補が複数ある場合については、ユーザは、予め変換すべき数の上限を設定しておくこととしてもよい。たとえば、部分示性式DB900の構築を早期に実現したい場合には、ユーザは、当該上限を低く(たとえば、上限=1)に設定すればよく、多くの部分示性式を得たい場合には、ユーザは、当該上限を高く設定すればよい。   In addition, as illustrated in FIGS. 5 to 7, the conversion unit 1105 obtains a plurality of conversion candidates. However, any conversion candidate may be converted, or any one may be converted. . That is, at least one conversion may be performed. When there are a plurality of conversion candidates, the user may set an upper limit of the number to be converted in advance. For example, when the user wants to realize the construction of the partial characteristic formula DB 900 at an early stage, the user only has to set the upper limit to a low value (for example, upper limit = 1). The user may set the upper limit higher.

第2の登録部1106は、変換済みの化学式および物質名をデータベースに登録する。具体的には、たとえば、第2の登録部1106は、変換結果である部分名とその示性式を、部分示性式DB900に登録する。これにより、図9に示したように、部分示性式DB900が構築されることになる。なお、変換結果である部分名とその示性式がすでに部分示性式DB900に登録済みである場合は、第2の登録部1106は、登録処理を実行しない。これにより、レコード数の増加が抑制され、部分示性式DB900の省メモリ化を図ることができる。   The second registration unit 1106 registers the converted chemical formula and substance name in the database. Specifically, for example, the second registration unit 1106 registers the partial name that is the conversion result and its characteristic expression in the partial characteristic expression DB 900. Thereby, as shown in FIG. 9, the partial characteristic formula DB 900 is constructed. Note that if the partial name as a conversion result and its characteristic expression have already been registered in the partial characteristic expression DB 900, the second registration unit 1106 does not execute the registration process. Thereby, the increase in the number of records is suppressed and the memory saving of the partial characteristic formula DB 900 can be achieved.

判定部1107は、変換済みの化学式および物質名が第2の登録部1106において新規登録された化学式および物質名であるか否かを判定する。具体的には、たとえば、判定部1107は、変換結果である部分名とその示性式の部分示性式DB900への登録が新規登録であるか否かを判定する。新規登録である場合、ルール抽出部1103は、ルール群の中からいずれかのルールを抽出する。すなわち、変換部1105から変換結果がルール抽出部1103にフィードバックされるが、判定部1107によって新規登録と判定された場合に限り、ルールDB400からルールが抽出されることになる。これにより、登録済みの部分名とその部分示性式についての抽出処理、判断処理、および変換処理が抑制され、部分示性式DB900の構築作業の効率化を図ることができる。   The determination unit 1107 determines whether the converted chemical formula and substance name are those newly registered in the second registration unit 1106. Specifically, for example, the determination unit 1107 determines whether or not the registration of the partial name that is the conversion result and the specific expression in the partial characteristic formula DB 900 is a new registration. In the case of new registration, the rule extraction unit 1103 extracts one of the rules from the rule group. That is, the conversion result is fed back from the conversion unit 1105 to the rule extraction unit 1103, but the rule is extracted from the rule DB 400 only when the determination unit 1107 determines new registration. As a result, the extraction process, the determination process, and the conversion process for the registered partial name and its partial characteristic formula are suppressed, and the efficiency of the construction work of the partial characteristic formula DB 900 can be improved.

つぎに、生成装置1100は、対応関係DB200内の物質名とその示性式の組を、部分示性式DB900内の物質名とその示性式の組を連結して再現できるか否かを判断することにより、部分示性式DB900に登録された物質名とその示性式の組の確度を判定する処理について説明する。   Next, the generation apparatus 1100 determines whether or not the combination of the substance name in the correspondence DB 200 and its characteristic formula can be reproduced by connecting the substance name in the partial characteristic formula DB 900 and the combination of the specific expression. A process for determining the accuracy of the combination of the substance name registered in the partial characteristic formula DB 900 and the characteristic expression by making the determination will be described.

取得部1108は、文書情報から抽出された物質名および当該物質名の化学式を取得する。具体的には、たとえば、取得部1108は、対応関係DB200のあるレコードを選択することにより、選択されたレコードでの物質名および当該物質名の示性式の組を読み出す。ここで、読み出されたレコードでの物質名を抽出物質名とし、選択されたレコードでの示性式を抽出示性式とする。   The acquisition unit 1108 acquires the substance name extracted from the document information and the chemical formula of the substance name. Specifically, for example, the acquisition unit 1108 selects a record having the correspondence DB 200, and reads a set of a substance name and an explicit expression of the substance name in the selected record. Here, the substance name in the read record is the extracted substance name, and the characteristic expression in the selected record is the extraction characteristic.

そして、分割部1109は、抽出物質名から、当該抽出物質名と一致するデータベース内の第1の物質名を抽出し、抽出物質名から第1の物質名を除いた残余の文字列から、当該残余の文字列と一致するデータベース内の第2の物質名を抽出することにより、抽出物質名を第1の物質名と第2の物質名とに分割する。   Then, the dividing unit 1109 extracts the first substance name in the database that matches the extracted substance name from the extracted substance name, and extracts the first substance name from the extracted substance name from the remaining character string. By extracting the second substance name in the database that matches the remaining character string, the extracted substance name is divided into the first substance name and the second substance name.

図12は、抽出物質名の分割および確信度の更新に関する一の例を示す説明図である。図12では、取得部1108が、対応関係DB200から、物質名「エタンスルホン酸」、示性式「CH3CH2SO3H」を読み出した例を挙げる。具体的には、たとえば、分割部1109は、部分示性式DB900を検索して、部分示性式DB900内の部分名が抽出物質名「エタンスルホン酸」の先頭から最長一致する部分名を抽出する。この場合、部分名「エタン」が抽出されたとする。   FIG. 12 is an explanatory diagram showing an example regarding the division of the extracted substance name and the update of the certainty factor. FIG. 12 illustrates an example in which the acquisition unit 1108 reads the substance name “ethanesulfonic acid” and the qualitative formula “CH3CH2SO3H” from the correspondence DB 200. Specifically, for example, the dividing unit 1109 searches the partial characteristic formula DB 900 and extracts the partial name whose partial name in the partial characteristic formula DB 900 is the longest match from the beginning of the extracted substance name “ethanesulfonic acid”. To do. In this case, it is assumed that the partial name “ethane” is extracted.

分割部1109は、抽出物質名「エタンスルホン酸」から、抽出された部分名「エタン」を除いた残余の文字列「スルホン酸」について、同様に、部分示性式DB900を検索する。その結果、部分名「スルホン酸」が最長一致検索された場合、分割部1109は、残余の文字列「スルホン酸」から部分名「スルホン酸」を抽出する。その結果、残余の文字列がなくなるため、分割部1109による分割は、分割成功となる。これにより、分割部1109は、抽出物質名「エタンスルホン酸」を、部分名「エタン」と部分名「スルホン酸」に分割することができる。   Similarly, the dividing unit 1109 searches the partial characteristic formula DB 900 for the remaining character string “sulfonic acid” obtained by removing the extracted partial name “ethane” from the extracted substance name “ethanesulfonic acid”. As a result, when the partial name “sulfonic acid” is searched for the longest match, the dividing unit 1109 extracts the partial name “sulfonic acid” from the remaining character string “sulfonic acid”. As a result, since there is no remaining character string, the division by the dividing unit 1109 is successful. Thereby, the dividing unit 1109 can divide the extracted substance name “ethanesulfonic acid” into the partial name “ethane” and the partial name “sulfonic acid”.

検索部1110は、分割部1109によって分割された第1の物質名の第1の化学式をデータベースから検索するとともに、分割部1109によって分割された第2の物質名の第2の化学式をデータベースから検索する。図12の例では、分割部1109が抽出物質名「エタンスルホン酸」を、部分名「エタン」と部分名「スルホン酸」に分割した場合を例に挙げている。   The searching unit 1110 searches the database for the first chemical formula of the first substance name divided by the dividing unit 1109 and searches the database for the second chemical formula of the second substance name divided by the dividing unit 1109. To do. In the example of FIG. 12, the dividing unit 1109 divides the extracted substance name “ethanesulfonic acid” into a partial name “ethane” and a partial name “sulfonic acid”.

具体的には、検索部1110は、分割で得られた部分名「エタン」の示性式「CH3CH2」と示性式「CHF2OCHFCF3」を部分示性式DB900から検索する。また、検索部1110は、分割で得られた「スルホン酸」の示性式「SO3H」を部分示性式DB900から検索する。また、分割部1109で3以上の部分名が得られた場合には、検索部1110は、部分名ごとに検索をおこなうことになる。   Specifically, the search unit 1110 searches the partial characteristic formula DB 900 for the characteristic expression “CH3CH2” and the characteristic expression “CHF2OCHFCF3” of the partial name “ethane” obtained by the division. In addition, the search unit 1110 searches the partial formula DB 900 for the formula “SO3H” of “sulfonic acid” obtained by the division. Further, when three or more partial names are obtained by the dividing unit 1109, the search unit 1110 performs a search for each partial name.

生成部1111は、検索部1110によって検索された第1の化学式および第2の化学式を連結した連結化学式を生成する。図12を用いて説明すると、生成部1111は、部分示性式DB900から検索された部分名「エタン」の示性式「CH3CH2」と、部分示性式DB900から検索された「スルホン酸」の示性式「SO3H」と、を連結する。連結の順序は、部分名の順序となる。したがって、部分名「エタン」の示性式「CH3CH2」が先頭となり、「スルホン酸」の示性式「SO3H」が末尾となる。この連結により、生成部1111は、連結示性式として「CH3CH2SO3H」を生成する。   The generation unit 1111 generates a connected chemical formula obtained by connecting the first chemical formula and the second chemical formula searched by the search unit 1110. Referring to FIG. 12, the generation unit 1111 includes the characteristic formula “CH3CH2” of the partial name “ethane” searched from the partial characteristic formula DB 900 and “sulfonic acid” searched from the partial characteristic formula DB 900. Link to the formula “SO3H”. The order of concatenation is the order of the part names. Accordingly, the characteristic formula “CH3CH2” of the partial name “ethane” is at the head, and the characteristic formula “SO3H” of “sulfonic acid” is at the end. By this connection, the generation unit 1111 generates “CH3CH2SO3H” as the connection characteristic formula.

また、図12で示すように検索部1110において示性式が複数検索される場合がある。たとえば、「エタン」の示性式として、「CH3CH2」のほか、部分示性式DB900から部分示性式「CHF2OCHFCF3」が検索される。この場合、上述した連結示性式「CH3CH2SO3H」のほか、「CHF2OCHFCF3SO3H」が生成される。   In addition, as shown in FIG. 12, there may be a case where a plurality of characteristic expressions are searched in the search unit 1110. For example, in addition to “CH3CH2”, the partial formula “CHF2OCHFCF3” is retrieved from the partial formula DB900 in addition to “CH3CH2”. In this case, “CHF2OCHFCF3SO3H” is generated in addition to the above-described linkage characteristic formula “CH3CH2SO3H”.

すなわち、分割された一方の部分名からm1個の部分示性式が検索され、他方の部分示性式からm2個の部分示性式が検索された場合、m1×m2個の連結示性式が生成されることになる。なお、検索部1110で3以上の示性式が検索された場合は、生成部1111は、検索された示性式を連結して連結示性式を生成する。すなわち、分割された部分名がk個、各部分名から検索された部分示性式の数が、m1,m2,…,mk個とすると、m1×m2×…×mk個の連結示性式が生成されることになる。なお、検索により部分示性式が得られなかった場合、生成装置1100は、たとえば、「XXXX」といった不明であることを示す文字列として扱うことにする。上記の例で、スルホン酸の示性式が検索で得られない場合は、「CH3CH2XXXX」となる。   That is, when m1 partial characteristic expressions are retrieved from one divided partial name and m2 partial characteristic expressions are retrieved from the other partial characteristic expression, m1 × m2 connected characteristic expressions are retrieved. Will be generated. When three or more characteristic expressions are retrieved by the retrieval unit 1110, the generation unit 1111 generates a connected characteristic expression by concatenating the retrieved characteristic expressions. That is, assuming that the number of divided partial names is k and the number of partial characteristic expressions retrieved from each partial name is m1, m2,..., Mk, m1 × m2 ×. Will be generated. When the partial characteristic formula is not obtained by the search, the generation device 1100 treats the character string indicating that it is unknown, for example, “XXXX”. In the above example, when the formula of the sulfonic acid cannot be obtained by the search, “CH3CH2XXXX” is obtained.

つぎに、判定部1112は、生成部1111によって生成された連結化学式と、第1のデータベースに含まれる抽出物質名の組である抽出化学式と、が一致するか否かを判定する。具体的には、たとえば、判定部1112は、連結示性式「CH3CH2SO3H」,「CHF2OCHFCF3SO3H」と、抽出示性式「CH3CH2SO3H」と、が完全に一致するか否かを判定する。判定部1112は、連結示性式「CH3CH2SO3H」は抽出示性式と一致するが、連結示性式「CHF2OCHFCF3SO3H」は抽出示性式と一致しないと判定する。   Next, the determination unit 1112 determines whether the linked chemical formula generated by the generation unit 1111 matches the extracted chemical formula that is a set of extracted substance names included in the first database. Specifically, for example, the determination unit 1112 determines whether or not the connection characteristic formulas “CH3CH2SO3H” and “CHF2OCHFCF3SO3H” completely match the extraction characteristic formula “CH3CH2SO3H”. The determination unit 1112 determines that the coupled characteristic “CH3CH2SO3H” matches the extracted characteristic, but the linked characteristic “CHF2OCHFCF3SO3H” does not match the extracted characteristic.

更新部1113は、判定部1112によって一致すると判定された場合、第2のデータベースに含まれる第1の化学式の確かさを表す確信度と第2の化学式の確かさを表す確信度とをより確からしさを示す値に更新する。具体的には、更新部1113は、判定部1112によって一致すると判定された場合、第1の化学式の確かさを表す確信度と第2の化学式の確かさを表す確信度とを更新前よりも高くする。   When it is determined by the determination unit 1112 that the update unit 1113 determines that they match, the update unit 1113 further determines the certainty factor representing the certainty of the first chemical formula and the certainty factor representing the certainty of the second chemical formula included in the second database. Update to a value that indicates the likelihood. Specifically, when it is determined by the determination unit 1112 that the update unit 1113 matches, the update unit 1113 has a certainty factor representing the certainty of the first chemical formula and a certainty factor representing the certainty of the second chemical formula than before the update. Make it high.

より具体的には、たとえば、更新部1113は、判定部1112によって一致すると判定された場合、連結化合式を構成する部分示性式に関する部分示性式DB900内の確信度に加点する。連結化合式「CH3CH2SO3H」は抽出示性式と一致すると判定されたため、更新部1113は、部分名「エタン」および部分示性式「CH3CH2」であるレコードの確信度に1点加点する。更新部1113は、部分名「スルホン酸」および部分示性式「SO3H」であるレコードの確信度に1点加点する。ここでは、加点数を1点としているが特に限定しない。一方、連結示性式「CHF2OCHFCF3SO3H」は抽出示性式と一致しないと判定されたため、更新部1113は、部分名「エタン」および部分示性式「CHF2OCHFCF3」であるレコードの確信度を更新しない。たとえば、更新部1113は、部分示性式DB900内のレコードを確信度の高い順に並び替えてもよい。   More specifically, for example, when the determination unit 1112 determines that the update unit 1113 matches, the update unit 1113 adds points to the certainty factor in the partial characteristic formula DB 900 related to the partial characteristic formulas that form the connected combined formula. Since it is determined that the combined compound expression “CH3CH2SO3H” matches the extracted characteristic expression, the updating unit 1113 adds one point to the certainty factor of the record having the partial name “ethane” and the partial characteristic expression “CH3CH2”. The updating unit 1113 adds one point to the certainty factor of the record having the partial name “sulfonic acid” and the partial characteristic formula “SO3H”. Here, the number of added points is one point, but is not particularly limited. On the other hand, since it is determined that the coupled characteristic “CHF2OCHFCF3SO3H” does not match the extracted characteristic, the updating unit 1113 does not update the certainty factor of the record having the partial name “ethane” and the partial characteristic “CHF2OCHFCF3”. For example, the update unit 1113 may rearrange the records in the partial characteristic formula DB 900 in descending order of certainty.

これにより、文書情報から抽出された物質名とその示性式が誤りであるか否かに関わらず、抽出された物質名とその示性式を再現するごとに部分示性式DB900内の部分名とその部分示性式が寄与したか否かによって部分名とその部分示性式の確かさを判定することができる。   As a result, regardless of whether or not the substance name extracted from the document information and its characteristic expression are incorrect, each time the reproduced substance name and its characteristic expression are reproduced, a portion in the partial characteristic expression DB 900 is reproduced. The certainty of the partial name and the partial characteristic expression can be determined by whether or not the name and the partial characteristic expression contributed.

また、上述した分割部1109による抽出物質名の分割例では、第1の部分名「エタン」と第2の部分名「スルホン酸」とに分割した例を説明したが、残余の文字列がまだ残されている場合は、残余の文字列がなくなるまで再帰的に部分示性式DB900の最長一致検索がおこなわれることになる。その結果、分割成功の場合は、3以上の部分名に分割されることになり、得られた部分名ごとに、示性式が取得されることになる。   In the example of dividing the extracted substance name by the dividing unit 1109 described above, an example in which the first partial name “ethane” and the second partial name “sulfonic acid” are divided has been described. If the character string remains, the longest match search of the partial characteristic formula DB 900 is recursively performed until there is no remaining character string. As a result, when the division is successful, it is divided into three or more partial names, and a characteristic expression is acquired for each obtained partial name.

つぎに、取得部1108によって抽出物質名の分割および確信度の更新に関する他の例について、図13を用いて説明する。   Next, another example regarding the division of the extracted substance name and the update of the certainty factor by the acquisition unit 1108 will be described with reference to FIG.

図13は、抽出物質名の分割および確信度の更新に関する他の例を示す説明図である。図13では、取得部1108が、対応関係DB200から、抽出物質名「エタンスルホン酸」、示性式「CHES」を読み出した例を挙げる。図13では、図12で示した例と同様に、分割部1109が、抽出物質名「エタンスルホン酸」を、部分名「エタン」と部分名「スルホン酸」に分割する。   FIG. 13 is an explanatory diagram showing another example regarding the division of the extracted substance name and the update of the certainty factor. FIG. 13 illustrates an example in which the acquisition unit 1108 reads the extracted substance name “ethanesulfonic acid” and the sexual expression “CHES” from the correspondence DB 200. In FIG. 13, as in the example shown in FIG. 12, the dividing unit 1109 divides the extracted substance name “ethanesulfonic acid” into a partial name “ethane” and a partial name “sulfonic acid”.

そして、図13では、図12で示した例と同様に、生成部1111が、連結示性式「CH3CH2SO3H」,「CHF2OCHFCF3SO3H」を生成する。そして、たとえば、判定部1112は、連結示性式「CH3CH2SO3H」,「CHF2OCHFCF3SO3H」と、抽出示性式「CHES」と、が先頭から完全に一致するか否かを判定する。   In FIG. 13, similarly to the example illustrated in FIG. 12, the generation unit 1111 generates the coupled characteristic expressions “CH3CH2SO3H” and “CHF2OCHFCF3SO3H”. Then, for example, the determination unit 1112 determines whether or not the linked characteristic expressions “CH3CH2SO3H”, “CHF2OCHFCF3SO3H”, and the extracted characteristic expression “CHES” completely match from the top.

図13の例では、判定部1112は、いずれの連結示性式も、抽出示性式とは一致しないと判断される。そして、更新部1113は、部分名「エタン」、部分示性式「CH3CH2」を含むレコードの確信度と、部分名「エタン」、部分示性式「CHF2OCHFCF3」を含むレコードの確信度と、部分名「スルホン酸」、部分示性式「SO3H」を含むレコードの確信度を更新しない。   In the example of FIG. 13, the determination unit 1112 determines that none of the connected characteristic expressions matches the extracted characteristic expression. Then, the update unit 1113 includes the certainty factor of the record including the partial name “ethane” and the partial characteristic expression “CH3CH2”, the certainty factor of the record including the partial name “ethane” and the partial characteristic expression “CHF2OCHFCF3”, and the partial The certainty factor of the record including the name “sulfonic acid” and the partial characteristic formula “SO3H” is not updated.

また、図12および図13で示したような分割部1109による抽出物質名の分割例では、成功例について説明したが、部分示性式DB900の最長一致検索で検索されなかった場合は、分割失敗となる。分割失敗について、対応関係DB200の中の物質名「メタンチオール」、示性式「CH3SH」の場合を例に挙げる。物質名「メタンチオール」を抽出物質名とし、示性式「CH3SH」を抽出示性式とする。   In addition, in the example of dividing the extracted substance name by the dividing unit 1109 as shown in FIG. 12 and FIG. 13, the success example has been described, but when the longest match search in the partial characteristic formula DB 900 is not performed, the division fails It becomes. As for the division failure, the case of the substance name “methanethiol” and the characteristic formula “CH3SH” in the correspondence DB 200 will be described as an example. The substance name “methanethiol” is the extraction substance name, and the characteristic formula “CH3SH” is the extraction characteristic formula.

具体的には、たとえば、分割部1109は、部分示性式DB900を検索して、部分示性式DB900内の部分名が抽出物質名「メタンチオール」の先頭から最長一致する部分名を抽出する。この場合、部分名「メタン」が抽出されたとする。   Specifically, for example, the dividing unit 1109 searches the partial characteristic formula DB 900 and extracts a partial name whose partial name in the partial characteristic formula DB 900 is the longest match from the beginning of the extracted substance name “methanethiol”. . In this case, it is assumed that the partial name “methane” is extracted.

つぎに、分割部1109は、抽出物質名「メタンチオール」から、抽出された部分名「メタン」を除いた残余の文字列「チオール」について、同様に、部分示性式DB900を検索する。分割部1109は、残余の文字列「チオール」について、部分示性式DB900の最長一致検索で検索されない。したがって、分割部1109は、分割失敗となる。   Next, the dividing unit 1109 similarly searches the partial characteristic formula DB 900 for the remaining character string “thiol” obtained by removing the extracted partial name “methane” from the extracted substance name “methanethiol”. The dividing unit 1109 does not search for the remaining character string “thiol” by the longest match search of the partial characteristic formula DB 900. Therefore, the dividing unit 1109 fails to divide.

そして、検索部1110は、部分示性式DB900から、分割部1109によって検索された部分名の部分示性式を検索する。たとえば、検索部1110は、部分示性式DB900の中から、部分名「メタン」の部分示性式「CH3」を検索する。   Then, the search unit 1110 searches the partial characteristic formula DB 900 for the partial characteristic formula of the partial name searched by the dividing unit 1109. For example, the search unit 1110 searches the partial characteristic formula DB 900 for the partial characteristic formula “CH3” having the partial name “methane”.

第2の登録部1106は、抽出示性式から検索部1110によって検索された部分名の部分示性式を除いた示性式と、残余の文字列と、の組を部分示性式DB900に登録する。具体的には、たとえば、第2の登録部1106は、抽出示性式「CH3SH」から部分示性式「CH3」を除いた示性式「SH」と、残余の文字列「チオール」と、の組を部分示性式DB900に登録する。「メタンチオール」の例では抽出示性式に部分示性式が含まれているが、たとえば、抽出示性式に部分示性式が含まれていない場合には、第2の登録部1106はあらたに示性式と物質名の組を登録しない。   The second registration unit 1106 stores the combination of the characteristic formula obtained by removing the partial characteristic expression of the partial name searched by the search unit 1110 from the extracted characteristic expression and the remaining character string in the partial characteristic expression DB 900. sign up. Specifically, for example, the second registration unit 1106 includes a characteristic formula “SH” obtained by removing the partial characteristic formula “CH3” from the extracted characteristic formula “CH3SH”, the remaining character string “thiol”, Are registered in the partial characteristic formula DB 900. In the example of “methanethiol”, the partial characteristic formula is included in the extraction characteristic formula. For example, when the partial characteristic formula is not included in the extraction characteristic formula, the second registration unit 1106 Do not register the combination of the referential expression and the substance name.

また、対応関係DB200内の物質名の示性式から、あらたに部分名と部分示性式とを部分示性式DB900に登録する例について図14を用いて説明する。   Further, an example of newly registering a partial name and a partial characteristic formula in the partial characteristic formula DB 900 from the characteristic formula of the substance name in the correspondence DB 200 will be described with reference to FIG.

図14は、部分示性式DB900の登録数を増やす例を示す説明図である。たとえば、取得部1108は、対応関係DB200の中から、物質名と示性式との組を1つ選択する。ここでは、物質名「メタンチオール」と示性式「CH3SH」を例に挙げて説明する。具体的には、たとえば、分割部1109は、部分示性式DB900を検索して、部分示性式DB900内の部分名が抽出物質名「メタンチオール」の先頭から最長一致する部分名を抽出する。この場合、部分名「メタン」が抽出されたとする。   FIG. 14 is an explanatory diagram showing an example of increasing the registration number of the partial characteristic formula DB 900. For example, the acquisition unit 1108 selects one set of the substance name and the characteristic formula from the correspondence DB 200. Here, the substance name “methanethiol” and the characteristic formula “CH3SH” will be described as examples. Specifically, for example, the dividing unit 1109 searches the partial characteristic formula DB 900 and extracts a partial name whose partial name in the partial characteristic formula DB 900 is the longest match from the beginning of the extracted substance name “methanethiol”. . In this case, it is assumed that the partial name “methane” is extracted.

分割部1109は、抽出物質名「メタンチオール」から、抽出された部分名「メタン」を除いた残余の文字列「チオール」について、同様に、部分示性式DB900を検索する。その結果、部分名「チオール」が最長一致検索されない。   Similarly, the dividing unit 1109 searches the partial characteristic formula DB 900 for the remaining character string “thiol” obtained by removing the extracted partial name “methane” from the extracted substance name “methanethiol”. As a result, the partial name “thiol” is not searched for the longest match.

そこで、検索部1110は、分割部1109によって分割された部分名の化学式をデータベースから検索する。具体的には、たとえば、検索部1110は、部分示性式DB900から部分名「メタン」の部分示性式「CH3」を検索する。   Therefore, the search unit 1110 searches the database for the chemical formula of the partial name divided by the dividing unit 1109. Specifically, for example, the search unit 1110 searches the partial characteristic formula DB 900 for the partial characteristic formula “CH3” of the partial name “methane”.

削除部1114は、分割部1109によって部分示性式DB900から検索されなかった残余の文字列から先頭の文字を削除する。たとえば、削除部1114は、残余の文字列「チオール」の先頭の文字「チ」を削除する。   The deletion unit 1114 deletes the first character from the remaining character string that has not been searched from the partial characteristic formula DB 900 by the dividing unit 1109. For example, the deletion unit 1114 deletes the first character “h” of the remaining character string “thiol”.

分割部1109は、部分示性式DB900を検索して、部分示性式DB900内の部分名が削除部1114による削除後の残余の文字列の先頭から最小一致する部分名を抽出する。そして、削除部1114は、分割部1109によって部分示性式DB900から検索されなかった残余の文字列から先頭の文字を削除する。図14の例では、分割部1109と削除部1114の処理が繰り返されることにより、残余の文字列から文字が無くなる。   The dividing unit 1109 searches the partial characteristic formula DB 900 and extracts a partial name in which the partial names in the partial characteristic formula DB 900 match at least from the beginning of the remaining character string after deletion by the deletion unit 1114. Then, the deleting unit 1114 deletes the first character from the remaining character string that has not been searched from the partial characteristic formula DB 900 by the dividing unit 1109. In the example of FIG. 14, the processing of the dividing unit 1109 and the deleting unit 1114 is repeated, so that there are no characters in the remaining character strings.

そして、第2の登録部1106は、残余の文字列から削除される文字が無い場合、削除部1114によって削除された文字順に並べた文字列と、抽出示性式から、検索部1110により検索された部分名の部分示性式を除いた示性式と、の組を第2のデータベースへ登録する。たとえば、第2の登録部1106は、削除された文字順に並べた文字列「チオール」と、抽出示性式「CH3SH」から部分示性式「CH3」を除いた示性式「SH」と、の組を部分示性式DB900に登録する。   Then, when there is no character to be deleted from the remaining character string, the second registration unit 1106 is searched by the search unit 1110 from the character string arranged in the character order deleted by the deletion unit 1114 and the extracted characteristic formula. A pair of the characteristic expression excluding the partial characteristic expression of the partial name is registered in the second database. For example, the second registration unit 1106 includes a character string “thiol” arranged in the order of deleted characters, a characteristic expression “SH” obtained by removing the partial characteristic expression “CH3” from the extracted characteristic expression “CH3SH”, and Are registered in the partial characteristic formula DB 900.

これにより、生成装置1100が、対応関係DB200からの物質名とその示性式を再現するために、要素となる示性式の種類を部分示性式DB900に増やすことができる。したがって、生成装置1100が、対応関係DB200からの物質名とその示性式を再現できる可能性を向上させることができる。   As a result, the generation apparatus 1100 can increase the types of the characteristic expressions as elements to the partial characteristic expression DB 900 in order to reproduce the substance names and the characteristic expressions from the correspondence DB 200. Therefore, it is possible to improve the possibility that the generation apparatus 1100 can reproduce the substance name from the correspondence relation DB 200 and its expression formula.

<対応関係DB200と部分示性式DB900作成処理手順>
図15は、生成装置1100による対応関係DB200と部分示性式DB900の作成処理手順を示すフローチャートである。まず、生成装置1100は、文書情報DB100から未選択の文書情報があるか否かを判断する(ステップS1501)。文書情報DB100から未選択の文書情報がある場合(ステップS1501:Yes)、生成装置1100は、文書情報DB100から未選択の文書情報を選択する(ステップS1502)。そして、生成装置1100は、選択した文書情報から、物質名と示性式の組を表す条件を満たす文字列を抽出する(ステップS1503)。
<Correspondence Relationship DB 200 and Partial Indication Formula DB 900 Creation Processing Procedure>
FIG. 15 is a flowchart illustrating a creation processing procedure of the correspondence DB 200 and the partial characteristic formula DB 900 by the generation device 1100. First, the generation device 1100 determines whether there is unselected document information from the document information DB 100 (step S1501). When there is unselected document information from the document information DB 100 (step S1501: Yes), the generation apparatus 1100 selects unselected document information from the document information DB 100 (step S1502). Then, the generation device 1100 extracts a character string that satisfies a condition that represents a combination of a substance name and a sexual expression from the selected document information (step S1503).

つぎに、生成装置1100は、抽出した文字列から物質名と示性式を特定し(ステップS1504)、物質名と示性式との組を対応関係DB200に登録する(ステップS1505)。たとえば、生成装置1100が、文書情報から、同義表現の条件を満たす「エタン(H3CH3)」を抽出し、カタカナである「エタン」を物質名として特定し、括弧内のアルファベットを含む「CH3CH3」を示性式として特定する。そして、たとえば、生成装置1100が、特定した物質名「エタン」と示性式「CH3CH3」との組をあらたなレコードとして対応関係DB200に登録する。   Next, the generating apparatus 1100 identifies the substance name and the characteristic expression from the extracted character string (step S1504), and registers the combination of the substance name and the characteristic expression in the correspondence DB 200 (step S1505). For example, the generating apparatus 1100 extracts “ethane (H3CH3)” that satisfies the synonymous expression from the document information, identifies “ethane” that is katakana as a substance name, and includes “CH3CH3” that includes the alphabet in parentheses. Identified as a formula. Then, for example, the generation device 1100 registers the set of the specified substance name “ethane” and the differential expression “CH3CH3” in the correspondence DB 200 as a new record.

そして、生成装置1100は、あらたな物質名と示性式の組に対して、示性式部品化処理を実行し(ステップS1506)、ステップS1501へ戻る。   Then, the generation apparatus 1100 executes a characteristic expression componentization process on the new set of substance name and characteristic expression (step S1506), and returns to step S1501.

図16は、図15で示した示性式部品化処理(ステップS1506)の詳細な説明を示すフローチャートである。まず、生成装置1100は、対応関係DB200から、あらたに登録された部分名と部分示性式を読み込む(ステップS1601)。示性式部品化ルール適用処理を実行する(ステップS1602)。示性式部品化ルール適用処理(ステップS1602)は、物質名とその示性式の組に対しルールDB400のルールを適用することにより、部分名とその部分示性式の組を生成する処理である。示性式部品化ルール適用処理(ステップS1602)の詳細については後述する。   FIG. 16 is a flowchart showing a detailed description of the characteristic type componentization processing (step S1506) shown in FIG. First, the generation device 1100 reads a newly registered partial name and partial characteristic formula from the correspondence DB 200 (step S1601). The characteristic type componentization rule application process is executed (step S1602). The characteristic expression componentization rule application process (step S1602) is a process of generating a combination of a partial name and a partial characteristic expression by applying the rule of the rule DB 400 to the combination of the substance name and the characteristic expression. is there. Details of the characteristic type componentization rule application processing (step S1602) will be described later.

このあと、生成装置1100は、示性式部品化ルール適用処理(ステップS1602)で得られた部分名とその部分示性式の組を部分示性式DB900に登録する(ステップS1603)。そして、生成装置1100は、当該登録が部分名とその部分示性式の組について新規登録であるか否かを判断する(ステップS1604)。新規登録である場合(ステップS1604:Yes)、生成装置1100は、当該登録が部分名とその部分示性式の組についてルール適用が可能か否かを判断する(ステップS1605)。たとえば、適用したルール数が予め設定された上限を超えた場合や、未適用のルールがない場合、生成された部分示性式の数が予め設定された上限を超えた場合、示性式部品化処理(ステップS1506)を開始してから所定時間経過した場合などが挙げられる。   Thereafter, the generation apparatus 1100 registers the combination of the partial name and the partial characteristic formula obtained in the characteristic formula componentization rule application process (step S1602) in the partial characteristic formula DB 900 (step S1603). Then, the generation device 1100 determines whether or not the registration is a new registration for the combination of the partial name and the partial characteristic formula (step S1604). If it is a new registration (step S1604: Yes), the generation device 1100 determines whether or not the registration is applicable to a rule for a combination of a partial name and a partial characteristic formula (step S1605). For example, when the number of applied rules exceeds a preset upper limit, when there are no unapplied rules, or when the number of partial partial formulas generated exceeds a preset upper limit, For example, when a predetermined time has elapsed since the start of the conversion process (step S1506).

適用可能である場合(ステップS1605:Yes)、生成装置1000は、示性式部品化処理を実行する(ステップS1606)。示性式部品化処理(ステップS1606)は、示性式部品化処理(ステップS1506)と同一処理である。これにより、生成装置1100は、部分名とその部分示性式の組を再帰的に生成することができる。示性式部品化処理が再帰的に実行されるため、ステップS1605のYesの場合、ステップS1601に戻る。ステップS1601では、新規登録された部分名とその部分示性式の組が複数ある場合には、生成装置1100は、それぞれ読み込みをおこない、それぞれについて、示性式部品化ルール適用処理(ステップS1602)に戻って再帰的処理をおこなうことになる。   If it is applicable (step S1605: Yes), the generation apparatus 1000 executes a characteristic type componentization process (step S1606). The characteristic type componentization process (step S1606) is the same process as the characteristic type componentization process (step S1506). As a result, the generation apparatus 1100 can recursively generate a pair of a partial name and a partial characteristic expression. Since the characteristic formula componentization process is recursively executed, in the case of Yes in step S1605, the process returns to step S1601. In step S1601, when there are a plurality of pairs of newly registered partial names and their partial characteristic expressions, the generation apparatus 1100 reads each of them, and performs a characteristic expression componentization rule application process (step S1602). Returning to, the recursive process is performed.

また、ステップS1604において、新規登録でない場合(ステップS1604:No)、すでに部分示性式DB900に登録済みであるため、生成装置1100は、示性式部品化処理を終了し示性式部品化処理を呼び出したステップへ戻ることになる。また、ステップS1604において適用不可と判断された場合も(ステップS1604:No)、生成装置1100は、示性式部品化処理を終了し示性式部品化処理を呼び出したステップへ戻ることになる。このようにして、示性式部品化処理(ステップS1506)により、部分名とその部分示性式の組が再帰的に生成されて部分示性式DB900に登録されることになる。   In step S1604, if it is not a new registration (step S1604: No), since it has already been registered in the partial characteristic formula DB 900, the generating apparatus 1100 ends the characteristic formula componentization process and displays the characteristic formula componentization process. Return to the step that called. Also, when it is determined in step S1604 that application is not possible (step S1604: No), the generation device 1100 ends the characteristic type componentization process and returns to the step that called the characteristic type componentization process. In this manner, the combination of the partial name and the partial characteristic formula is recursively generated and registered in the partial characteristic formula DB 900 by the characteristic formula componentization processing (step S1506).

図17は、図16で示した示性式部品化ルール適用処理(ステップS1602)の詳細な説明を示すフローチャートである。まず、生成装置1100は、適用条件がマッチするルールがルールDB400にあるか否かを判断する(ステップS1701)。適用条件がマッチするルールがある場合(ステップS1701:Yes)、生成装置1100は、適用条件がマッチするルールのうち1つを選択する(ステップS1702)。つぎに、生成装置1100は、示性式を選択ルールにしたがって変更する(ステップS1703)。対象となる示性式が部分示性式である場合も同様である。   FIG. 17 is a flowchart showing a detailed description of the characteristic expression componentization rule application processing (step S1602) shown in FIG. First, the generation device 1100 determines whether there is a rule in the rule DB 400 that matches the application condition (step S1701). If there is a rule that matches the application condition (step S1701: Yes), the generation device 1100 selects one of the rules that match the application condition (step S1702). Next, the generating apparatus 1100 changes the characteristic formula according to the selection rule (step S1703). The same applies to the case where the target expression is a partial expression.

そして、生成装置1100は、選択ルールに物質名の変更が規定されているか否かを判断する(ステップS1704)。規定されていない場合(ステップS1704:No)、ステップS1701に戻る。一方、規定されている場合(ステップS1704:Yes)、生成装置1100は、規定されている変更が語尾の追加であるか否かを判断する(ステップS1705)。語尾の追加である場合(ステップS1705:Yes)、生成装置1100は、語幹辞書800から物質名の語幹を特定して(ステップS1706)、ステップS1707に移行する。   Then, the generation device 1100 determines whether or not the substance name is changed in the selection rule (step S1704). If not defined (step S1704: NO), the process returns to step S1701. On the other hand, when defined (step S1704: Yes), the generation device 1100 determines whether the defined change is an addition of a ending (step S1705). When the ending is added (step S1705: Yes), the generation device 1100 identifies the stem of the substance name from the stem dictionary 800 (step S1706), and proceeds to step S1707.

一方、生成装置1100は、ステップS1705において語尾の追加でない場合(ステップS1705:No)、語頭の追加になるため、ステップS1707に移行する。ステップS1707では、語尾または語頭を追加することで、生成装置1100は、部分名を生成し(ステップS1707)、ステップS1701に戻る。ステップS1701において、適用条件がマッチするルールがない場合(ステップS1701:No)、生成装置1100は、示性式部品化ルール適用処理(ステップS1602)で得られた部分名とその部分示性式の組を部分示性式DB900に登録する(ステップS1603)。なお、ステップS1704〜S1707の処理は、対象となる物質名が部分名である場合も同様である。このようにして、示性式部品化ルール適用処理(ステップS1602)により、部分名とその部分示性式が生成されることになる。   On the other hand, if the ending is not added in step S1705 (step S1705: No), the generating apparatus 1100 moves to step S1707 because it adds an ending. In step S1707, the generation device 1100 generates a partial name by adding the ending or the beginning (step S1707), and the process returns to step S1701. In step S1701, when there is no rule that matches the application condition (step S1701: No), the generation device 1100 determines the part name obtained in the characteristic expression componentization rule application process (step S1602) and the partial characteristic expression. The set is registered in the partial characteristic formula DB 900 (step S1603). Note that the processing in steps S1704 to S1707 is the same when the target substance name is a partial name. In this way, the part name and the partial characteristic expression are generated by the characteristic expression componentization rule application process (step S1602).

<確信度更新処理手順>
図18は、生成装置1100による確信度更新処理手順を示すフローチャートである。まず、生成装置1100が、対応関係DB200から未選択の物質名と示性式の組があるか否かを判断する(ステップS1801)。ある場合(ステップS1801:Yes)、生成装置1100は、対応関係DB200から未選択の物質名と示性式の組を読み込み(ステップS1802)。ここで、読み込まれた物質名を抽出物質名と称し、読み込まれた示性式を抽出示性式と称する。そして、生成装置1100は、抽出物質名分割処理を実行する(ステップS1803)。抽出物質名分割処理については、図19を用いて後述する。
<Confidence update processing procedure>
FIG. 18 is a flowchart showing a certainty factor update processing procedure by the generation device 1100. First, the generation device 1100 determines whether or not there is a pair of an unselected substance name and a characteristic formula from the correspondence DB 200 (step S1801). If there is one (step S1801: Yes), the generation device 1100 reads a pair of the unselected substance name and the characteristic formula from the correspondence DB 200 (step S1802). Here, the read substance name is referred to as an extracted substance name, and the read characteristic expression is referred to as an extracted characteristic expression. Then, the generation device 1100 executes the extracted substance name division process (step S1803). The extracted substance name dividing process will be described later with reference to FIG.

生成装置1100は、複数の分割部分名のうち、未選択の分割部分名があるか否かを判断する(ステップS1804)。そして、未選択の分割部分名がある場合(ステップS1804:Yes)、生成装置1100は、選択分割部分名を1つ選択し(ステップS1805)、選択分割部分名の部分示性式を部分示性式DB900から検索し(ステップS1806)、ステップS1804へ戻る。   The generation device 1100 determines whether there is an unselected divided part name among the plurality of divided part names (step S1804). If there is an unselected divided part name (step S1804: Yes), the generation device 1100 selects one selected divided part name (step S1805), and sets the partial characteristic expression of the selected divided part name to the partial characteristic. A search is performed from the formula DB 900 (step S1806), and the process returns to step S1804.

一方、ステップS1804において、未選択の分割部分名がない場合(ステップS1804:No)、生成装置1100が、部分示性式を連結して連結示性式を生成し(ステップS1807)、抽出示性式と連結示性式が一致するか否かを判定する(ステップS1808)。抽出示性式と連結示性式が一致する場合(ステップS1808:Yes)、生成装置1100が、部分示性式DB900内の連結示性式を構成する部分示性式の確信度を更新し(ステップS1809)、ステップS1801へ移行する。抽出示性式と連結示性式が一致しない場合(ステップS1808:No)、生成装置1100が、ステップS1801へ戻る。   On the other hand, in step S1804, when there is no unselected divided part name (step S1804: No), the generation device 1100 generates a connected characteristic expression by concatenating the partial characteristic expressions (step S1807), and the extraction characteristic It is determined whether or not the expression and the connection characteristic expression match (step S1808). When the extracted characteristic formula and the connection characteristic expression match (step S1808: Yes), the generation device 1100 updates the certainty factor of the partial characteristic expression constituting the connection characteristic expression in the partial characteristic expression DB 900 ( Step S1809) and the process proceeds to Step S1801. When the extracted characteristic formula and the connection characteristic formula do not match (step S1808: No), the generation device 1100 returns to step S1801.

また、ステップS1801において、対応関係DB200から未選択の物質名と示性式の組がない場合(ステップS1801:No)、生成装置1100は、一連の処理を終了する。   In step S1801, when there is no combination of an unselected substance name and a specific expression from the correspondence DB 200 (step S1801: No), the generation device 1100 ends a series of processes.

図19は、図18で示した抽出物質名分割処理(ステップS1804)の詳細な説明を示すフローチャートである。まず、生成装置1100は、部分示性式DB900に、未選択の部分名があるか否かを判断する(ステップS1901)。部分示性式DB900に、未選択の部分名がある場合(ステップS1901:Yes)、生成装置1100が、部分示性式DB900から未選択の部分名を1つ選択する(ステップS1902)。選択された部分名を「選択部分名」と称す。   FIG. 19 is a flowchart showing a detailed description of the extracted substance name division process (step S1804) shown in FIG. First, the generation device 1100 determines whether or not there is an unselected partial name in the partial characteristic formula DB 900 (step S1901). When there is an unselected partial name in the partial characteristic formula DB 900 (step S1901: Yes), the generation device 1100 selects one unselected partial name from the partial characteristic formula DB 900 (step S1902). The selected part name is referred to as “selected part name”.

生成装置1100は、選択部分名が抽出物質名に含まれているか否かを判断する(ステップS1903)。たとえば、生成装置1100は、抽出物質名の先頭からの最長一致検索をおこなうことにより判断する。たとえば、選択部分名が「エタン」、抽出物質名が「エタンスルホン酸」である場合、最長一致した選択部分名「エタン」が抽出物質名「エタンスルホン酸」に含まれている。   The generation apparatus 1100 determines whether the selected part name is included in the extracted substance name (step S1903). For example, the generation device 1100 determines by performing a longest match search from the beginning of the extracted substance name. For example, when the selected portion name is “ethane” and the extracted substance name is “ethanesulfonic acid”, the longest matching selected portion name “ethane” is included in the extracted substance name “ethanesulfonic acid”.

選択部分名が抽出物質名に含まれていない場合(ステップS1903:No)、生成装置1100はあらたに部分名を選択するため、ステップS1901に戻る。一方、選択部分名が抽出物質名に含まれている場合(ステップS1903:Yes)、生成装置1100は、選択部分名を抽出物質名からの分割部分名として保持する(ステップS1904)。上述の場合、選択部分名「エタン」を分割部分名として保持する。   When the selected part name is not included in the extracted substance name (step S1903: No), the generation apparatus 1100 returns to step S1901 to newly select the part name. On the other hand, when the selected part name is included in the extracted substance name (step S1903: Yes), the generation device 1100 holds the selected part name as a divided part name from the extracted substance name (step S1904). In the above case, the selected part name “ethane” is held as the divided part name.

このあと、生成装置1100は、選択部分名を除いた残余文字列をあらたに抽出物質名に設定する(ステップS1905)。たとえば、上述の場合、生成装置1100は、抽出物質名「エタンスルホン酸」から選択部分名「エタン」を除いた残余文字列「スルホン酸」をあらたに抽出物質名に設定する。そして、ステップS1901に戻る。   After that, the generation apparatus 1100 newly sets the remaining character string excluding the selected part name as the extracted substance name (step S1905). For example, in the above-described case, the generation apparatus 1100 newly sets the residual character string “sulfonic acid” obtained by removing the selected partial name “ethane” from the extracted substance name “ethanesulfonic acid” as the extracted substance name. Then, the process returns to step S1901.

このようにして、抽出物質名がなくなるまでステップS1901〜S1905を繰り返すことになる。上述の場合、あらたな抽出物質名「スルホン酸」について、選択部分名として「スルホン酸」が出現した場合、選択部分名「スルホン酸」は抽出物質名「スルホン酸」に含まれる。したがって、生成装置1100は、選択部分名「スルホン酸」を分割部分名として保持する。一方、部分示性式DB900に「スルホン酸」が登録されていない場合、抽出物質名「スルホン酸」は、分割部分名として保持されないことになる。   In this way, steps S1901 to S1905 are repeated until there are no extracted substance names. In the case described above, when “sulfonic acid” appears as a selected part name for a new extracted substance name “sulfonic acid”, the selected part name “sulfonic acid” is included in the extracted substance name “sulfonic acid”. Therefore, the generation device 1100 holds the selected part name “sulfonic acid” as the divided part name. On the other hand, when “sulfonic acid” is not registered in the partial characteristic formula DB 900, the extracted substance name “sulfonic acid” is not held as a divided part name.

このあと、ステップS1901において、未選択の部分名がない場合(ステップS1901:No)、生成装置1100は分割成功か否かを判断する(ステップS1906)。たとえば、分割部分名として保持されていない抽出物質名が残ってない場合は、分割部分名が複数保持されているため、分割成功となる。上述の例では、「スルホン酸」が分割部分名として保持された場合は、抽出物質名が残らなくなるため、生成装置1100は分割成功と判断する。一方、「スルホン酸」が分割部分名として保持されなかった場合は、「スルホン酸」が抽出物質名として残るため、生成装置1100は分割失敗と判断する。   Thereafter, when there is no unselected partial name in step S1901 (step S1901: No), the generation device 1100 determines whether the division is successful (step S1906). For example, if there is no extracted substance name that is not held as a divided part name, a plurality of divided part names are held, and the division is successful. In the above-described example, when “sulfonic acid” is held as the divided part name, the name of the extracted substance does not remain, and thus the generation apparatus 1100 determines that the division is successful. On the other hand, when “sulfonic acid” is not retained as the name of the divided part, “sulfonic acid” remains as the name of the extracted substance, and thus the generation apparatus 1100 determines that the division has failed.

分割成功の場合(ステップS1906:Yes)、生成装置1100は、保持された分割部分名を関連付けて保存する(ステップS1907)。そして、ステップS1804に移行し、関連付けられた分割部分名は、ステップS1805での選択対象となる。一方、分割失敗の場合(ステップS1906:No)、ステップS1904での抽出物質名では分割できなかったことになるため、生成装置1100は、登録処理を実行し(ステップS1908)、ステップS1801へ戻る。上述の例では、登録処理(ステップS1908)は、分割部分名として保持されなかった「スルホン酸」をあらたに部分示性式DB900に登録する処理である。登録処理ついては、図20で詳細に説明する。このようにして、抽出物質名分割処理(ステップS1803)では、生成装置1100は、物質名の文字列を複数の部分名に分割することができる。さらに、物質名の文字列の分割に失敗した場合には、部分示性式DB900にあらたなレコードを登録する。   If the division is successful (step S1906: YES), the generation device 1100 associates and stores the held division part name (step S1907). Then, the process proceeds to step S1804, and the associated divided part name becomes a selection target in step S1805. On the other hand, in the case of division failure (step S1906: No), since the extraction substance name in step S1904 cannot be divided, the generation apparatus 1100 executes registration processing (step S1908) and returns to step S1801. In the above-described example, the registration process (step S1908) is a process of newly registering “sulfonic acid” that has not been held as the divided part name in the partial characteristic formula DB 900. The registration process will be described in detail with reference to FIG. In this way, in the extracted substance name dividing process (step S1803), the generation device 1100 can divide the character string of the substance name into a plurality of partial names. Furthermore, when the division of the substance name character string fails, a new record is registered in the partial referential expression DB 900.

図20は、図19で示した登録処理(ステップS1908)の詳細な説明を示すフローチャートである。まず、生成装置1100が、分割部分名があるか否かを判断する(ステップS2001)。分割部分名がない場合(ステップS2001:No)、生成装置1100が、抽出示性式と抽出物質名との組を部分示性式DB900に登録し(ステップS2007)、ステップS1801へ戻る。これにより、部分示性式DB900にあらたな示性式と物質名との組が登録される。   FIG. 20 is a flowchart showing a detailed description of the registration process (step S1908) shown in FIG. First, the generation apparatus 1100 determines whether there is a divided part name (step S2001). When there is no divided part name (step S2001: No), the generation apparatus 1100 registers a set of the extracted characteristic formula and the extracted substance name in the partial characteristic formula DB 900 (step S2007), and the process returns to step S1801. As a result, a new set of the formula and the substance name is registered in the partial formula DB 900.

そして、分割部分名がある場合(ステップS2001:Yes)、生成装置1100は、複数の分割部分名のうち、未選択の分割部分名があるか否かを判断する(ステップS2002)。複数の分割部分名のうち、未選択の分割部分名がある場合(ステップS2002:Yes)、生成装置1100は、選択分割部分名を1つ選択し(ステップS2003)、選択分割部分名の部分示性式を部分示性式DB900から検索し(ステップS2004)、ステップS2002へ戻る。   If there is a divided part name (step S2001: Yes), the generation device 1100 determines whether there is an unselected divided part name among the plurality of divided part names (step S2002). When there is an unselected divided part name among a plurality of divided part names (step S2002: Yes), the generation device 1100 selects one selected divided part name (step S2003), and displays the partial divided part name. The sex formula is searched from the partial characteristic formula DB 900 (step S2004), and the process returns to step S2002.

一方、複数の分割部分名のうち、未選択の分割部分名がない場合(ステップS2002:No)、生成装置1100は、部分示性式を連結して、連結示性式を生成する(ステップS2005)。生成装置1100は、抽出示性式から連結示性式を除いた残余の示性式と分割部分名との組を部分示性式DB900に登録し(ステップS2006)、ステップS1801へ戻る。   On the other hand, when there is no unselected division part name among the plurality of division part names (step S2002: No), the generation device 1100 generates a linked characteristic expression by concatenating the partial characteristic expressions (step S2005). ). The generation apparatus 1100 registers a pair of the remaining characteristic expression obtained by removing the connected characteristic expression from the extracted characteristic expression and the divided part name in the partial characteristic expression DB 900 (step S2006), and returns to step S1801.

<部分示性式DB900の登録処理手順>
図21は、生成装置1100による部分示性式DB900の登録処理手順の一例を示すフローチャートである。生成装置1100が、対応関係DB200から未選択の物質名と示性式の組があるか否かを判断する(ステップS2101)。未選択の物質名と示性式の組がある場合(ステップS2101:Yes)、生成装置1100が、対応関係DB200から未選択の物質名と示性式の組を読み込み(ステップS2102)。ここでは、読み込まれた物質名を抽出物質名と称し、読み込まれた示性式を抽出示性式と称する。
<Registration Processing Procedure of Partial Indication Formula DB900>
FIG. 21 is a flowchart illustrating an example of a registration processing procedure of the partial referential expression DB 900 by the generation device 1100. The generation apparatus 1100 determines whether or not there is a combination of an unselected substance name and a characteristic formula from the correspondence DB 200 (step S2101). When there is a pair of an unselected substance name and an explicit expression (step S2101: Yes), the generation apparatus 1100 reads an unselected substance name and an explicit expression pair from the correspondence DB 200 (step S2102). Here, the read substance name is referred to as an extracted substance name, and the read characteristic expression is referred to as an extracted characteristic expression.

つぎに、生成装置1100が、部分示性式DB900に、未選択の部分名があるか否かを判断する(ステップS2103)。未選択の部分名がある場合(ステップS2103:Yes)、生成装置1100が、部分示性式DB900から未選択の部分名を1つ選択する(ステップS2104)。生成装置1100が、選択部分名が抽出物質名に含まれているか否かを判断する(ステップS2105)。   Next, the generation device 1100 determines whether or not there is an unselected partial name in the partial referential expression DB 900 (step S2103). When there is an unselected partial name (step S2103: Yes), the generation device 1100 selects one unselected partial name from the partial referential expression DB 900 (step S2104). The generation apparatus 1100 determines whether the selected part name is included in the extracted substance name (step S2105).

選択部分名が抽出物質名に含まれていない場合(ステップS2105:No)、ステップS2103に戻る。一方、選択部分名が抽出物質名に含まれている場合(ステップS2105:Yes)、生成装置1100が、ステップS2106へ移行し、生成装置1100が、選択部分名を除いた残余文字列を抽出物質名に設定する(ステップS2106)。たとえば、選択部分名が「メタン」、抽出物質名が「メタンチオール」である場合、最長一致した選択部分名「メタン」が抽出物質名「メタンチオール」に含まれている。生成装置1100が、抽出物質名「メタンチオール」から選択部分名「メタン」を除いた残余文字列「チオール」をあらたに抽出物質名に設定する。   When the selected part name is not included in the extracted substance name (step S2105: No), the process returns to step S2103. On the other hand, when the selected part name is included in the extracted substance name (step S2105: Yes), the generating apparatus 1100 moves to step S2106, and the generating apparatus 1100 extracts the remaining character string excluding the selected part name as the extracted substance. The name is set (step S2106). For example, when the selected part name is “methane” and the extracted substance name is “methanethiol”, the longest matching selected part name “methane” is included in the extracted substance name “methanethiol”. The generation apparatus 1100 newly sets a residual character string “thiol” obtained by removing the selected part name “methane” from the extracted substance name “methanethiol” as the extracted substance name.

そして、生成装置1100が、選択部分名の部分示性式を部分示性式DB900から検索し(ステップS2107)、抽出示性式を除いた残余示性式を抽出示性式に設定する(ステップS2108)。上述の場合、生成装置1100が、選択部分名「メタン」の部分示性式「CH3」を検索する。生成装置1100が、抽出示性式「CH3SH」から部分示性式「CH3」を除いた残余示性式「SH」をあらたに抽出示性式に設定する。   Then, the generation apparatus 1100 searches the partial characteristic formula DB 900 for the selected partial name from the partial characteristic formula DB 900 (step S2107), and sets the residual characteristic expression excluding the extracted characteristic expression as the extracted characteristic (step S2107). S2108). In the above case, the generation apparatus 1100 searches for the partial characteristic formula “CH3” of the selected partial name “methane”. The generation apparatus 1100 newly sets the residual characteristic expression “SH” obtained by removing the partial characteristic expression “CH3” from the extraction characteristic expression “CH3SH” as the extraction characteristic expression.

ステップS2103において、未選択の部分名がない場合(ステップS2103:No)、生成装置1100が、抽出物質名から先頭の1文字を削除し(ステップS2109)、そして、生成装置1100が、削除文字を連結して、削除文字列を生成する(ステップS2110)。上述の場合、たとえば、生成装置1100が、抽出物質名「チオール」から先頭の1文字「チ」を削除し、削除文字列「チ」を生成する。そして、生成装置1100が、削除後の抽出物質名「オール」について、ステップS2103〜ステップS2108の処理を繰り返す。   In step S2103, when there is no unselected partial name (step S2103: No), the generation apparatus 1100 deletes the first character from the extracted substance name (step S2109), and the generation apparatus 1100 displays the deletion character. The deletion character string is generated by concatenating (step S2110). In the above case, for example, the generation device 1100 deletes the first character “Chi” from the extracted substance name “thiol” and generates a deleted character string “Chi”. Then, the generation apparatus 1100 repeats the processing of step S2103 to step S2108 for the extracted substance name “all” after deletion.

生成装置1100が、抽出物質名が空か否かを判断する(ステップS2111)。抽出物質名が空でない場合(ステップS2111:No)、ステップS2103へ戻る。一方、抽出物質名が空である場合(ステップS2111:Yes)、生成装置1100が、削除文字列と抽出示性式との組を部分示性式DB900に登録し(ステップS2112)、ステップS2101へ戻る。上述の場合、抽出物質名「オール」、「ール」、「ル」と一致する部分名が部分示性式DB900内に無いため、生成装置1100が抽出物質名内の文字をすべて削除してしまう。そのため、生成装置1100が、削除文字列「チオール」と抽出示性式「SH」との組を部分示性式DB900に登録する。   The generation apparatus 1100 determines whether the extracted substance name is empty (step S2111). If the extracted substance name is not empty (step S2111: NO), the process returns to step S2103. On the other hand, when the extracted substance name is empty (step S2111: Yes), the generation device 1100 registers the combination of the deleted character string and the extracted characteristic formula in the partial characteristic formula DB 900 (step S2112), and the process proceeds to step S2101. Return. In the above case, since there is no partial name in the partial referential expression DB 900 that matches the extracted substance names “all”, “all”, and “le”, the generation device 1100 deletes all the characters in the extracted substance name. End up. Therefore, the generation device 1100 registers a set of the deletion character string “thiol” and the extracted characteristic expression “SH” in the partial characteristic expression DB 900.

ステップS2101において、未選択の物質名と示性式の組がない場合(ステップS2101:No)、一連の処理を終了する。また、生成装置1100が、図18で示した確信度更新処理のうち分割失敗の場合を除いた処理と、図20で示した部分示性式DB900の登録処理とを交互に繰り返して実行してもよい。   In step S2101, if there is no unselected substance name / indicative formula pair (step S2101: No), the series of processing ends. Further, the generation device 1100 alternately executes the process of removing the reliability failure process shown in FIG. 18 except for the case of the division failure and the registration process of the partial characteristic formula DB 900 shown in FIG. Also good.

以上説明したように、本実施の形態にかかる生成装置、生成プログラム、生成方法は、文書情報の中から、物質名と化学式とが同義表現で記述されていると推定される部分を抽出して、物質名と化学式の組をデータベースに蓄積する。これにより、生成装置が、電子情報から物質名とその化学式の組の候補を自動で見つけ出すことができる。また、販売されている物質名とその化学式の対応関係を示す辞書は高価であるが、本生成装置は、既存の化学系や薬学系の電子文書から自動でデータベースを作成できるため、物質名とその化学式からあらたな化学式を作成するための費用を抑制することができる。   As described above, the generation apparatus, generation program, and generation method according to the present embodiment extract a part that is presumed that a substance name and a chemical formula are described in synonymous expressions from document information. , Accumulate substance name and chemical formula pairs in the database. Thus, the generation apparatus can automatically find a candidate for a combination of a substance name and its chemical formula from electronic information. In addition, although a dictionary showing the correspondence between the names of substances sold and their chemical formulas is expensive, this generator can automatically create a database from existing chemical and pharmaceutical electronic documents. Costs for creating a new chemical formula from the chemical formula can be reduced.

また、生成装置が、電子文書から作成した第1のデータベースに含まれる物質名の化学式に化学反応のルールを適用して、第2のデータベースに登録する。これにより、生成装置が、化学式から派生した化学式の生成精度を向上することができ、自動で第2のデータベースを作成することができる。   In addition, the generation device applies the chemical reaction rule to the chemical formula of the substance name included in the first database created from the electronic document, and registers it in the second database. Thereby, the production | generation apparatus can improve the production | generation precision of the chemical formula derived from chemical formula, and can produce a 2nd database automatically.

また、第1のデータベースに含まれる物質名とその化学式の組が必ずしも正確であるとは限らない。そのため、第1のデータベース内の物質名と化学式の組に化学反応のルールが適用されることで得られた第2のデータベース内の物質名と化学式の組が必ずしも正確であるとは限らない。そこで、生成装置が、第2のデータベースには物質名とその化学式の組が複数登録されているため、生成装置が、第2のデータベース内の物質名とその化学式の組を連結して、第1のデータベース内の物質名とその化学式の組を再現できるか否かを判断する。そして、生成装置が、第1のデータベース内の物質名とその化学式の組を再現できる第2のデータベース内の物質名とその化学式の組は確度が高いと判断する。したがって、ユーザはこの確度を第2のデータベース内のどの化学式が有用であるか、存在しうるかなどの指標として用いることができる。   Moreover, the set of the substance name and its chemical formula included in the first database is not always accurate. Therefore, the combination of the substance name and chemical formula in the second database obtained by applying the chemical reaction rule to the combination of the substance name and chemical formula in the first database is not always accurate. Therefore, since the generation device has a plurality of combinations of substance names and chemical formulas registered in the second database, the generation device connects the substance names and chemical formula combinations in the second database, and It is determined whether or not a set of a substance name and its chemical formula in one database can be reproduced. Then, the generation apparatus determines that the combination of the substance name and the chemical formula in the second database that can reproduce the combination of the substance name and the chemical formula in the first database has high accuracy. Therefore, the user can use this accuracy as an indicator of which chemical formulas in the second database are useful and may exist.

また、第2のデータベースに登録されている物質名とその化学式の組の登録種類数が少ないと、第1のデータベース内の物質名とその化学式を再現できない場合がある。そこで、電子文書から抽出した物質名の部分名とその物質名の示性式の部分示性式とが、第2のデータベース内に登録されていない場合、生成装置が、その部分名とその部分示性式の組をあらたにデータベースに登録する。これにより、生成装置が、データベースへの登録種類数の増加を図ることができる。生成装置が、第2のデータベース内の確度の判定処理と第2のデータベース内の登録種類数を増やす処理を交互に繰り返すことで、第2のデータベース内に登録された示性式から有用な示性式を見つけ出すことができる。   In addition, if the number of registered types of combinations of substance names and chemical formulas registered in the second database is small, the substance names and chemical formulas in the first database may not be reproduced. Therefore, if the partial name of the substance name extracted from the electronic document and the partial explicit expression of the explicit name expression of the substance name are not registered in the second database, the generating device can detect the partial name and the partial name. Register a new set of indicia expressions in the database. As a result, the generation device can increase the number of types registered in the database. The generation device alternately repeats the accuracy determination process in the second database and the process of increasing the number of registered types in the second database, so that a useful indication can be obtained from the characteristic expression registered in the second database. You can find the sex formula.

なお、本実施の形態で説明した生成方法は、予め用意された生成プログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本生成プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本生成プログラムは、インターネット等のネットワークを介して配布してもよい。   Note that the generation method described in the present embodiment can be realized by executing a generation program prepared in advance on a computer such as a personal computer or a workstation. The generation program is recorded on a computer-readable recording medium such as a hard disk, a flexible disk, a CD-ROM, an MO, and a DVD, and is executed by being read from the recording medium by the computer. The generation program may be distributed via a network such as the Internet.

上述した実施の形態に関し、さらに以下の付記を開示する。   The following additional notes are disclosed with respect to the embodiment described above.

(付記1)文書情報の中から、物質名と前記物質名の化学式との組を表す条件を満たす文字列を抽出する文字列抽出部と、
前記文字列抽出部によって抽出された文字列に含まれる前記物質名と前記化学式との組を第1のデータベースに登録する第1の登録部と、
を有することを特徴とする生成装置。
(Supplementary note 1) A character string extraction unit that extracts a character string satisfying a condition representing a combination of a substance name and a chemical formula of the substance name from document information;
A first registration unit that registers a set of the substance name and the chemical formula included in the character string extracted by the character string extraction unit in a first database;
A generation apparatus comprising:

(付記2)適用すべき化学反応に関する条件と当該条件を満たした場合の変換内容を規定したルール群の中からいずれかのルールを抽出するルール抽出部と、
前記登録部によって前記第1のデータベースに登録された前記化学式が、前記ルール抽出部によって抽出されたいずれかのルールでの適用すべき条件を満たすか否かを判断する判断部と、
前記判断部によって満たすと判断された場合、前記化学式の組である前記物質名および前記化学式を前記変換内容にしたがって変換する変換部と、
前記変換部による変換済みの化学式および物質名を第2のデータベースに登録する第2の登録部と、
を有することを特徴とする付記1に記載の生成装置。
(Supplementary Note 2) A rule extraction unit that extracts one of the rules from the rule group that defines the condition related to the chemical reaction to be applied and the conversion content when the condition is satisfied,
A determination unit that determines whether the chemical formula registered in the first database by the registration unit satisfies a condition to be applied in any of the rules extracted by the rule extraction unit;
A conversion unit that converts the substance name and the chemical formula, which are a set of the chemical formulas, according to the conversion content when it is determined by the determination unit to satisfy;
A second registration unit for registering the chemical formula and substance name converted by the conversion unit in a second database;
The generating apparatus according to appendix 1, wherein:

(付記3)前記第2のデータベースが前記変換済みの化学式と前記変換済みの物質名の組ごとに、前記変換済みの化学式と前記変換済みの物質名の組の確かさを表す確信度を有し、
前記第1のデータベースに含まれる抽出物質名が前記第2のデータベース内の第1の物質名を含む場合、前記登録物質名を、前記第1の物質名と、前記抽出物質名から前記第1の物質名を除いた第2の物質名と、に分割する分割部と、
前記分割部によって分割された第1の物質名の第1の化学式を前記第2のデータベースから検索するとともに、前記分割部によって分割された第2の物質名の第2の化学式を前記第2のデータベースから検索する検索部と、
前記検索部によって検索された前記第1の化学式および前記第2の化学式を連結した連結化学式を生成する生成部と、
前記生成部によって生成された連結化学式と、前記第1のデータベースに含まれる前記抽出物質名の組である抽出化学式と、が一致するか否かを判定する判定部と、
前記判定部が一致と判定をすると、前記第2のデータベースに含まれる前記第1の物質名と前記第1の化学式の組の確かさを表す確信度と前記第2の物質名と前記第2の化学式の組の確かさを表す確信度とをより確からしさを示す値に更新する更新部と、
を有することを特徴とする付記2に記載の生成装置。
(Supplementary Note 3) The second database has a certainty factor representing the certainty of the set of the converted chemical formula and the converted substance name for each set of the converted chemical formula and the converted substance name. And
When the extracted substance name included in the first database includes the first substance name in the second database, the registered substance name is determined based on the first substance name and the extracted substance name from the first substance name. A second substance name excluding the substance name of
The first chemical formula of the first substance name divided by the dividing unit is searched from the second database, and the second chemical formula of the second substance name divided by the dividing unit is searched for the second chemical formula. A search unit for searching from a database;
A generating unit that generates a linked chemical formula obtained by connecting the first chemical formula and the second chemical formula searched by the search unit;
A determination unit that determines whether or not the linked chemical formula generated by the generation unit matches the extracted chemical formula that is a set of the extracted substance names included in the first database;
When the determination unit determines that they match, the certainty factor representing the certainty of the set of the first substance name and the first chemical formula included in the second database, the second substance name, and the second An update unit that updates a certainty factor representing the certainty of the set of chemical formulas to a value indicating more certainty,
The generating apparatus according to appendix 2, characterized by comprising:

(付記4)前記更新部は、
前記判定部によって一致すると判定された場合、前記第1の物質名と前記第1の化学式の組の確かさを表す確信度と前記第2の物質名と前記第2の化学式の組の確かさを表す確信度を更新前よりも高くすることを特徴とする付記3に記載の生成装置。
(Appendix 4) The update unit
When it is determined by the determination unit that they match, the certainty factor representing the certainty of the set of the first substance name and the first chemical formula and the certainty of the set of the second substance name and the second chemical formula The generating apparatus according to supplementary note 3, wherein the certainty factor representing the above is higher than that before update.

(付記5)前記検索部は、
前記第2の物質名が前記第2のデータベースに含まれていない場合、前記第1の化学式を前記第2のデータベースから検索し、
前記第2の登録部は、
前記第2の物質名が前記第2のデータベースに含まれていない場合、前記第1のデータベースに含まれる前記抽出物質名の組である抽出化学式のうち、前記検索部により検索された前記第1の化学式を除いた化学式と前記第2の物質名との組を前記第2のデータベースへ登録することを特徴とする付記3に記載の生成装置。
(Supplementary Note 5) The search unit
If the second substance name is not included in the second database, the first chemical formula is searched from the second database,
The second registration unit includes:
When the second substance name is not included in the second database, the first chemical substance searched by the search unit among the extracted chemical formulas that are a set of the extracted substance names included in the first database. The generating apparatus according to claim 3, wherein a set of the chemical formula excluding the chemical formula and the second substance name is registered in the second database.

(付記6)前記第2の物質名が前記第2のデータベースに含まれていない場合、前記第2の物質名から先頭の文字を削除する削除部を有し、
前記削除部は、
前記削除部による削除後の第2の物質名が前記第2のデータベースに含まれていない場合、さらに、第2の物質名から前記先頭の文字を削除し、
前記第2の登録部は、
前記削除部によって前記第2の物質名から削除される文字が無い場合、前記削除部によって削除された文字順に並べた文字列と、前記抽出化学式から前記第1の化学式を除いた化学式と、の組を前記第2のデータベースへ登録することを特徴とする付記5に記載の生成装置。
(Additional remark 6) When the 2nd substance name is not contained in the 2nd database, it has a deletion part which deletes the first character from the 2nd substance name,
The deletion unit is
When the second substance name after deletion by the deletion unit is not included in the second database, the first character is further deleted from the second substance name,
The second registration unit includes:
When there is no character deleted from the second substance name by the deletion unit, a character string arranged in the order of characters deleted by the deletion unit, and a chemical formula obtained by removing the first chemical formula from the extracted chemical formula The generating apparatus according to appendix 5, wherein a set is registered in the second database.

(付記7)コンピュータが、
文書情報の中から、物質名と前記物質名の化学式との組を表す条件を満たす文字列を抽出し、
抽出された文字列に含まれる前記物質名と前記化学式との組を第1のデータベースに登録する、
処理を実行することを特徴とする生成方法。
(Appendix 7) The computer
From the document information, extract a character string that satisfies the condition representing the combination of the substance name and the chemical formula of the substance name,
Registering the set of the substance name and the chemical formula contained in the extracted character string in the first database;
A generation method characterized by executing processing.

(付記8)コンピュータに、
文書情報の中から、物質名と前記物質名の化学式との組を表す条件を満たす文字列を抽出し、
抽出された文字列に含まれる前記物質名と前記化学式との組を第1のデータベースに登録する、
処理を実行させることを特徴とする生成プログラム。
(Appendix 8)
From the document information, extract a character string that satisfies the condition representing the combination of the substance name and the chemical formula of the substance name,
Registering the set of the substance name and the chemical formula contained in the extracted character string in the first database;
A generation program characterized by causing processing to be executed.

200 対応関係DB
900 部分示性式DB
100−1〜100−n 文書情報
1101 文字列抽出部
1102 第1の登録部
1103 ルール抽出部
1104 判断部
1105 変換部
1106 第2の登録部
1109 分割部
1110 検索部
1111 生成部
1112 判定部
1113 更新部
1114 削除部
200 Correspondence DB
900 Partial Indication Formula DB
100-1 to 100-n Document information 1101 Character string extraction unit 1102 First registration unit 1103 Rule extraction unit 1104 Judgment unit 1105 Conversion unit 1106 Second registration unit 1109 Division unit 1110 Search unit 1111 Generation unit 1112 Determination unit 1113 Update Part 1114 Deletion part

Claims (6)

文書情報の中から、物質名と前記物質名の化学式との組を表す条件を満たす文字列を抽出する文字列抽出部と、
前記文字列抽出部によって抽出された文字列に含まれる前記物質名と前記化学式との組を第1のデータベースに登録する第1の登録部と、
を有することを特徴とする生成装置。
A character string extraction unit that extracts a character string satisfying a condition representing a set of a substance name and a chemical formula of the substance name from document information;
A first registration unit that registers a set of the substance name and the chemical formula included in the character string extracted by the character string extraction unit in a first database;
A generation apparatus comprising:
適用すべき化学反応に関する条件と当該条件を満たした場合の変換内容を規定したルール群の中からいずれかのルールを抽出するルール抽出部と、
前記登録部によって前記第1のデータベースに登録された前記化学式が、前記ルール抽出部によって抽出されたいずれかのルールでの適用すべき条件を満たすか否かを判断する判断部と、
前記判断部によって満たすと判断された場合、前記化学式の組である前記物質名および前記化学式を前記変換内容にしたがって変換する変換部と、
前記変換部による変換済みの化学式および物質名を第2のデータベースに登録する第2の登録部と、
を有することを特徴とする請求項1に記載の生成装置。
A rule extraction unit that extracts one of the rules from the rule group that defines the conditions related to the chemical reaction to be applied and the conversion contents when the conditions are satisfied;
A determination unit that determines whether the chemical formula registered in the first database by the registration unit satisfies a condition to be applied in any of the rules extracted by the rule extraction unit;
A conversion unit that converts the substance name and the chemical formula, which are a set of the chemical formulas, according to the conversion content when it is determined by the determination unit to satisfy;
A second registration unit for registering the chemical formula and substance name converted by the conversion unit in a second database;
The generating apparatus according to claim 1, wherein:
前記第2のデータベースが前記変換済みの化学式と前記変換済みの物質名の組ごとに、前記変換済みの化学式と前記変換済みの物質名の組の確かさを表す確信度を有し、
前記第1のデータベースに含まれる抽出物質名が前記第2のデータベース内の第1の物質名を含む場合、前記抽出物質名を、前記第1の物質名と、前記抽出物質名から前記第1の物質名を除いた第2の物質名と、に分割する分割部と、
前記分割部によって分割された第1の物質名の第1の化学式を前記第2のデータベースから検索するとともに、前記分割部によって分割された第2の物質名の第2の化学式を前記第2のデータベースから検索する検索部と、
前記検索部によって検索された前記第1の化学式および前記第2の化学式を連結した連結化学式を生成する生成部と、
前記生成部によって生成された連結化学式と、前記第1のデータベースに含まれる前記抽出物質名の組である抽出化学式と、が一致するか否かを判定する判定部と、
前記判定部が一致と判定をすると、前記第2のデータベースに含まれる前記第1の物質名と前記第1の化学式の組の確かさを表す確信度と前記第2の物質名と前記第2の化学式の組の確かさを表す確信度とをより確からしさを示す値に更新する更新部と、
を有することを特徴とする請求項2に記載の生成装置。
The second database has a certainty factor representing the certainty of the set of the converted chemical formula and the converted substance name for each set of the converted chemical formula and the converted substance name,
When the extracted substance name included in the first database includes the first substance name in the second database, the extracted substance name is determined from the first substance name and the extracted substance name. A second substance name excluding the substance name of
The first chemical formula of the first substance name divided by the dividing unit is searched from the second database, and the second chemical formula of the second substance name divided by the dividing unit is searched for the second chemical formula. A search unit for searching from a database;
A generating unit that generates a linked chemical formula obtained by connecting the first chemical formula and the second chemical formula searched by the search unit;
A determination unit that determines whether or not the linked chemical formula generated by the generation unit matches the extracted chemical formula that is a set of the extracted substance names included in the first database;
When the determination unit determines that they match, the certainty factor representing the certainty of the set of the first substance name and the first chemical formula included in the second database, the second substance name, and the second An update unit that updates a certainty factor representing the certainty of the set of chemical formulas to a value indicating more certainty,
The generating device according to claim 2, wherein
前記検索部は、
前記第2の物質名が前記第2のデータベースに含まれていない場合、前記第1の化学式を前記第2のデータベースから検索し、
前記第2の登録部は、
前記第2の物質名が前記第2のデータベースに含まれていない場合、前記第1のデータベースに含まれる前記抽出物質名の組である抽出化学式のうち、前記検索部により検索された前記第1の化学式を除いた化学式と前記第2の物質名との組を前記第2のデータベースへ登録することを特徴とする請求項3に記載の生成装置。
The search unit
If the second substance name is not included in the second database, the first chemical formula is searched from the second database,
The second registration unit includes:
When the second substance name is not included in the second database, the first chemical substance searched by the search unit among the extracted chemical formulas that are a set of the extracted substance names included in the first database. The generating apparatus according to claim 3, wherein a set of a chemical formula excluding the chemical formula and the second substance name is registered in the second database.
コンピュータが、
文書情報の中から、物質名と前記物質名の化学式との組を表す条件を満たす文字列を抽出し、
抽出された文字列に含まれる前記物質名と前記化学式との組を第1のデータベースに登録する、
処理を実行することを特徴とする生成方法。
Computer
From the document information, extract a character string that satisfies the condition representing the combination of the substance name and the chemical formula of the substance name,
Registering the set of the substance name and the chemical formula contained in the extracted character string in the first database;
A generation method characterized by executing processing.
コンピュータに、
文書情報の中から、物質名と前記物質名の化学式との組を表す条件を満たす文字列を抽出し、
抽出された文字列に含まれる前記物質名と前記化学式との組を第1のデータベースに登録する、
処理を実行させることを特徴とする生成プログラム。
On the computer,
From the document information, extract a character string that satisfies the condition representing the combination of the substance name and the chemical formula of the substance name,
Registering the set of the substance name and the chemical formula contained in the extracted character string in the first database;
A generation program characterized by causing processing to be executed.
JP2011244973A 2011-11-08 2011-11-08 Generating device, generating method, and generating program Active JP5768669B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011244973A JP5768669B2 (en) 2011-11-08 2011-11-08 Generating device, generating method, and generating program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011244973A JP5768669B2 (en) 2011-11-08 2011-11-08 Generating device, generating method, and generating program

Publications (2)

Publication Number Publication Date
JP2013101509A true JP2013101509A (en) 2013-05-23
JP5768669B2 JP5768669B2 (en) 2015-08-26

Family

ID=48622073

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011244973A Active JP5768669B2 (en) 2011-11-08 2011-11-08 Generating device, generating method, and generating program

Country Status (1)

Country Link
JP (1) JP5768669B2 (en)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035172A (en) * 2018-08-30 2020-03-05 富士通株式会社 Generation method, generation program, and generation device
JP2020187647A (en) * 2019-05-16 2020-11-19 富士通株式会社 Search method, search program, and information processing system
CN117688319A (en) * 2023-11-10 2024-03-12 山东恒云信息科技有限公司 Method for analyzing database structure by using AI

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001058962A (en) * 1999-08-20 2001-03-06 Mitsubishi Chemicals Corp Molecular structure development-supporting system and molecular structure development-supporting method, and molecular structure extraction unit, molecular structure extraction method and recording medium readable by molecular structure extraction program-loaded computer
JP2013101508A (en) * 2011-11-08 2013-05-23 Fujitsu Ltd Generation device, generation method, and generation program

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001058962A (en) * 1999-08-20 2001-03-06 Mitsubishi Chemicals Corp Molecular structure development-supporting system and molecular structure development-supporting method, and molecular structure extraction unit, molecular structure extraction method and recording medium readable by molecular structure extraction program-loaded computer
JP2013101508A (en) * 2011-11-08 2013-05-23 Fujitsu Ltd Generation device, generation method, and generation program

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200800165001; 森本貴之、外1名: 'グラフ構造に基づく同値関係自動抽出手法の改善' 情報知識学会誌 第15巻,第1号, 20050210, pp.1〜11, 情報知識学会 *
JPN6014053841; 湯村武、外4名: 'テキストデータベースからの同意表現の抽出' 第47回(平成5年後期)全国大会講演論文集(3) , 19930927, pp.79〜80, 一般社団法人情報処理学会 *
JPN6014053843; 森本貴之、外1名: 'グラフ構造に基づく同値関係自動抽出手法の改善' 情報知識学会誌 第15巻,第1号, 20050210, pp.1〜11, 情報知識学会 *
JPN7014003643; Bingjun Sun et al.: 'Identifying, Indexing, and Ranking Chemical Formulae and Chemical Names in Digital Documents' ACM Transactions on Information Systems Vol.29, No.2, 201104, Article 12, pp.1-38, ACM *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020035172A (en) * 2018-08-30 2020-03-05 富士通株式会社 Generation method, generation program, and generation device
JP7081396B2 (en) 2018-08-30 2022-06-07 富士通株式会社 Generation method, generation program, and generation device
JP2020187647A (en) * 2019-05-16 2020-11-19 富士通株式会社 Search method, search program, and information processing system
JP7322500B2 (en) 2019-05-16 2023-08-08 富士通株式会社 SEARCH METHOD, SEARCH PROGRAM, AND INFORMATION PROCESSING DEVICE
CN117688319A (en) * 2023-11-10 2024-03-12 山东恒云信息科技有限公司 Method for analyzing database structure by using AI
CN117688319B (en) * 2023-11-10 2024-05-07 山东恒云信息科技有限公司 Method for analyzing database structure by using AI

Also Published As

Publication number Publication date
JP5768669B2 (en) 2015-08-26

Similar Documents

Publication Publication Date Title
CN102768681B (en) Recommending system and method used for search input
Heck et al. Leveraging knowledge graphs for web-scale unsupervised semantic parsing
US8782049B2 (en) Keyword presenting device
Ellis et al. Overview of linguistic resources for the tac kbp 2014 evaluations: Planning, execution, and results
Pachet et al. A Comprehensive Online Database of Machine-Readable Lead-Sheets for Jazz Standards.
Lisena et al. Controlled vocabularies for music metadata
JP4839195B2 (en) Method for calculating conformity of XML document, program thereof, and information processing apparatus
JP5768669B2 (en) Generating device, generating method, and generating program
CN104199954B (en) A kind of commending system and method for searching for input
JP7081396B2 (en) Generation method, generation program, and generation device
JP5741387B2 (en) Information providing apparatus, information providing program, and information providing method
CN104268176A (en) Recommendation method and system based on search keyword
US8229970B2 (en) Efficient storage and retrieval of posting lists
JP5497105B2 (en) Document retrieval apparatus and method
CN102257490A (en) Document information selection method and computer program product
JP5741386B2 (en) Generating device, generating method, and generating program
KR20120115005A (en) Method and apparatus for processing query efficiently
JP2015162004A (en) Inter-development document trace link generation support device and method and program
Liu et al. Mining local gazetteers of literary chinese with CRF and pattern based methods for biographical information in Chinese history
Groza et al. Reference information extraction and processing using random conditional fields
JP2008146209A (en) Document retrieval device, document retrieval method and document retrieval program
Angel et al. Qualitative geocoding of persistent web pages
JP2022002034A (en) Extraction method, extraction program, and extraction device
JP2010225077A (en) Program, device and method for output of retrieval result
Risk et al. Melodic Similarity in Traditional French-Canadian Instrumental Dance Tunes.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140704

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20141217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150106

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150526

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150608

R150 Certificate of patent or registration of utility model

Ref document number: 5768669

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150