JP2013152692A - Database construction device, database construction method, and program - Google Patents

Database construction device, database construction method, and program Download PDF

Info

Publication number
JP2013152692A
JP2013152692A JP2012103893A JP2012103893A JP2013152692A JP 2013152692 A JP2013152692 A JP 2013152692A JP 2012103893 A JP2012103893 A JP 2012103893A JP 2012103893 A JP2012103893 A JP 2012103893A JP 2013152692 A JP2013152692 A JP 2013152692A
Authority
JP
Japan
Prior art keywords
name
product
attribute value
company
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012103893A
Other languages
Japanese (ja)
Other versions
JP5312637B2 (en
Inventor
Hidekazu Tanigawa
英和 谷川
Hikari Masumitsu
光 増満
Toshinori Watanabe
俊規 渡辺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IRD KK
IRD KK
Original Assignee
IRD KK
IRD KK
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IRD KK, IRD KK filed Critical IRD KK
Priority to JP2012103893A priority Critical patent/JP5312637B2/en
Publication of JP2013152692A publication Critical patent/JP2013152692A/en
Application granted granted Critical
Publication of JP5312637B2 publication Critical patent/JP5312637B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To solve the problem that two or more relevant technical terms cannot be extracted and information other than technical terms cannot be extracted in a conventional technical term extraction device.SOLUTION: A database construction device comprises: a table storage part for storing a first table including one or more attribute value groups each having m (m≥3) attribute values different in attribute, and two or more second tables including one or more attribute value groups each having n (n≤m-1) attribute values different in attribute; a rule storage part for storing a rule for acquiring one or more attribute value groups each having n attribute values from a Web page; an acquisition part for acquiring one or more attribute value groups each having n attribute values from a Web page according to the rule to add the one or more attribute value groups to the second table; and a coupling part for coupling two or more attribute value groups which two or more second tables have, generating an attribute value group having m attribute values, and adding it to the first table. All of information on the Web can be made into a database by the above-described database construction device.

Description

本発明は、データベースを構築するデータベース構築装置等に関するものである。   The present invention relates to a database construction device for constructing a database.

従来、Webページから専門用語を抽出する専門用語抽出装置等が開発されている(特許文献1参照)。   2. Description of the Related Art Conventionally, a technical term extraction device that extracts technical terms from Web pages has been developed (see Patent Document 1).

特開2008−257511号公報JP 2008-257511 A

Web上には、膨大な量のあらゆる情報が存在している。しかしながら、当該情報は構造化されておらず、また、必要な情報が分散した状態で存在しているのが通常である。従来の専門用語抽出装置では、分散した情報を構造化して、データベースを構築することができなかった。   There is a huge amount of all kinds of information on the Web. However, the information is not structured and the necessary information usually exists in a dispersed state. A conventional technical term extraction device cannot construct a database by structuring distributed information.

本第一の発明のデータベース構築装置は、属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する第一の表と、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する2以上の第二の表とが格納される表格納部と、1以上のWebページからn個の属性値を有する1以上の属性値集合を取得するための1以上のルールが、第二の表に対応付いて格納されるルール格納部と、ルールに従い、1以上のWebページからn個の属性値を有する1以上の属性値集合を取得し、第二の表に追記する取得部と、2以上の第二の表が有する2以上の属性値集合を結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記する結合部とを具備するデータベース構築装置である。   The database construction apparatus according to the first aspect of the present invention includes a first table having one or more attribute value sets having m attribute values (m ≧ 3) having different attributes, and n items having different attributes (n ≦ m− 1) One or more attribute values having n attribute values from one or more Web pages, and a table storage unit storing two or more second tables having one or more attribute value sets having the attribute value 1) One or more rules for acquiring a set are stored in association with the second table, and a one or more attribute value sets having n attribute values from one or more Web pages according to the rules Is obtained, and the acquisition unit for appending to the second table and the two or more attribute value sets of the two or more second tables are combined to generate one or more attribute value sets having m attribute values. , A database construction device comprising a coupling unit to be added to the first table.

このような構成により、1以上のWebページから構造化されたデータベースを構築できる。   With such a configuration, a structured database can be constructed from one or more Web pages.

また、本第二の発明のデータベース構築装置は、第一の発明に対して、ルール格納部には、1以上のWebページからm個の属性値を有する1以上の属性値集合を取得するための1以上のルールが、第一の表に対応付いて格納され、取得部は、ルールに従い、1以上のWebページからm個の属性値を有する1以上の属性値集合を取得し、第一の表に追記するデータベース構築装置である。   The database construction device according to the second aspect of the invention provides the rule storage unit with one or more attribute value sets having m attribute values from one or more Web pages. Are stored in association with the first table, and the acquisition unit acquires one or more attribute value sets having m attribute values from one or more Web pages according to the rule, It is a database construction device that adds to the table.

このような構成により、第一の表が有する属性値集合を取得することができる。   With such a configuration, the attribute value set included in the first table can be acquired.

また、本第三の発明のデータベース構築装置は、第一の発明に対して、表格納部には、属性がユニークであるか否かを示すユニーク識別子を有する第二の表が格納され、結合部は、2以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を有し、かつ属性がユニーク識別子によりユニークであることが示される2以上の属性値集合を、属性値をキーに結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。   Further, in the database construction device of the third invention, the second table having a unique identifier indicating whether or not the attribute is unique is stored in the table storage unit with respect to the first invention. Part is an attribute value set of each of two or more different second tables, has two or more attributes that have the same attribute value of the same attribute, and that the attribute is indicated by a unique identifier This is a database construction apparatus that combines a value set with an attribute value as a key, generates one or more attribute value sets having m attribute values, and adds them to the first table.

このような構成により、2以上の属性値集合を結合し、3以上の属性を有する属性値集合を生成することができる。   With such a configuration, two or more attribute value sets can be combined to generate an attribute value set having three or more attributes.

また、本第四の発明のデータベース構築装置は、第一の発明に対して、結合部は、3以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を2以上有する属性値集合を、属性値をキーに結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。   Further, in the database construction device according to the fourth aspect of the present invention, with respect to the first aspect, the combining unit is an attribute value set possessed by each of three or more different second tables, and the same attribute having the same attribute This is a database construction device that combines an attribute value set having two or more values with the attribute value as a key, generates one or more attribute value sets having m attribute values, and adds them to the first table.

このような構成により、2以上の属性を有する3以上の属性値集合から、3以上の属性を有する属性値集合を生成することができる。   With such a configuration, an attribute value set having three or more attributes can be generated from three or more attribute value sets having two or more attributes.

また、本第五の発明のデータベース構築装置は、第一から第四いずれかの発明に対して、Webページは、Webページを識別するWebページ識別子を有し、取得部は、1以上の属性値集合を取得する際に、Webページが有するWebページ識別子をも取得し、1以上の属性値集合に対応付けてWebページ識別子を第一の表または第二の表に追記するデータベース構築装置である。   In the database construction device according to the fifth aspect of the present invention, the Web page has a Web page identifier for identifying the Web page, and the acquisition unit has one or more attributes. When acquiring a value set, a database construction apparatus that also acquires a Web page identifier of a Web page and adds the Web page identifier to the first table or the second table in association with one or more attribute value sets is there.

このような構成により、属性値集合の取得元を管理することができる。   With such a configuration, the acquisition source of the attribute value set can be managed.

また、本第六の発明のデータベース構築装置は、第一から第五いずれかの発明に対して、取得部は、1以上の属性値集合を取得する際に、属性値集合のスコアをも取得し、1以上の属性値集合に対応付けてスコアを第一の表または第二の表に追記し、結合部は、予め決められた条件を満たすほど高いスコアが対応付いた第二の表が有する2以上の属性値集合を結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。   In the database construction device according to the sixth aspect of the present invention, when the acquisition unit acquires one or more attribute value sets, the acquisition unit also acquires the score of the attribute value set for any of the first to fifth aspects of the invention. In addition, the score is added to the first table or the second table in association with one or more attribute value sets, and the combining unit has a second table with a higher score corresponding to a predetermined condition. This is a database construction device that combines two or more attribute value sets to generate one or more attribute value sets having m attribute values and appends them to the first table.

このような構成により、スコアの高い属性値集合を生成することができる。   With such a configuration, an attribute value set with a high score can be generated.

また、本第七の発明のデータベース構築装置は、第五または第六の発明に対して、Webページ識別子が対応付けられた1以上のスコアが格納されるスコア格納部をさらに具備し、取得部は、1以上の属性値集合を取得する際に、Webページが有するWebページ識別子をも取得し、Webページ識別子に対応するスコアをスコア格納部から取得し、1以上の属性値集合に対応付けてWebページ識別子とスコアとを第一の表または第二の表に追記するデータベース構築装置である。   In addition, the database construction device of the seventh invention further includes a score storage unit that stores one or more scores associated with the Web page identifier, as compared with the fifth or sixth invention, and an acquisition unit When acquiring one or more attribute value sets, it also acquires a Web page identifier that the Web page has, acquires a score corresponding to the Web page identifier from the score storage unit, and associates it with one or more attribute value sets The database construction device additionally writes the Web page identifier and the score to the first table or the second table.

このような構成により、スコアの高い属性値集合を生成することができる。   With such a configuration, an attribute value set with a high score can be generated.

また、本第八の発明のデータベース構築装置は、第六の発明に対して、属性ごとの1以上の属性値の集合である1以上の辞書が格納される辞書格納部をさらに具備し、取得部は、1以上の属性値集合を取得する際に、属性値集合が有する属性値と、属性値の属性と同一の属性の属性値であり、辞書が有する属性値との一致度をスコアとして算出し、1以上の属性値集合に対応付けてスコアを第一の表または第二の表に追記するデータベース構築装置である。   Further, the database construction apparatus of the eighth invention further includes a dictionary storage unit that stores one or more dictionaries that are a set of one or more attribute values for each attribute, as compared with the sixth invention. When acquiring one or more attribute value sets, the attribute value is an attribute value of the attribute value set and the attribute value of the same attribute as the attribute value attribute. It is a database construction device that calculates and adds a score to the first table or the second table in association with one or more attribute value sets.

このような構成により、スコアの高い属性値集合を生成することができる。   With such a configuration, an attribute value set with a high score can be generated.

また、本第九の発明のデータベース構築装置は、第一から第八の発明に対して、1以上のWebページから、表格納部に格納されている1以上の属性値集合が存在する文字列を取得し、文字列のうち、属性値集合以外の文字列をルールとして取得し、ルール格納部に蓄積するルール取得部をさらに具備するデータベース構築装置である。   The database construction apparatus according to the ninth aspect of the invention is a character string in which one or more attribute value sets stored in a table storage unit are present from one or more Web pages with respect to the first to eighth aspects of the invention. Is a database construction device that further includes a rule acquisition unit that acquires a character string other than the attribute value set among the character strings as a rule and accumulates it in the rule storage unit.

このような構成により、ルールを増やすことができる。   With such a configuration, the number of rules can be increased.

また、本第十の発明のデータベース構築装置は、第九の発明に対して、ルール取得部は、取得した1以上のルールを、ルールを取得した際に用いた属性値集合を有する第一の表または第二の表に対応付けて、ルール格納部に蓄積するデータベース構築装置である。   In the database construction device according to the tenth aspect of the present invention, in the ninth aspect, the rule acquisition unit has a set of attribute values used when acquiring the rule for the acquired one or more rules. It is a database construction device that accumulates in a rule storage unit in association with a table or a second table.

このような構成により、取得できる属性値に対応する属性ごとにルールを管理することができる。   With such a configuration, rules can be managed for each attribute corresponding to an attribute value that can be acquired.

また、本第十一の発明のデータベース構築装置は、第一から第十の発明に対して、結合部は、表格納部に格納されている2以上の第二の表が有する属性値集合であり、取得部が取得した属性値集合または属性値生成部が生成した属性値集合のうちの2以上の属性値集合を結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。   In the database construction device according to the eleventh aspect of the invention, in contrast to the first to tenth aspects, the joining unit is an attribute value set having two or more second tables stored in the table storage unit. Yes, two or more attribute value sets of the attribute value set acquired by the acquisition unit or the attribute value set generated by the attribute value generation unit are combined to generate one or more attribute value sets having m attribute values. This is a database construction device that is added to the first table.

このような構成により、属性数の少ない属性値集合を用いて、当該属性数よりも属性数の多い属性値集合を生成することができる。   With such a configuration, an attribute value set having a larger number of attributes than the number of attributes can be generated using an attribute value set having a smaller number of attributes.

本発明によるデータベース構築装置等によれば、1以上のWebページから構造化されたデータベースを構築できる。   According to the database construction device or the like according to the present invention, a structured database can be constructed from one or more Web pages.

実施の形態1におけるデータベース構築装置のブロック図Block diagram of database construction apparatus in embodiment 1 同実施の形態におけるデータベース構築装置のブロック図Block diagram of the database construction device in the same embodiment 同実施の形態における商標侵害検知装置のブロック図Block diagram of trademark infringement detection apparatus in the embodiment 同実施の形態における商標侵害検知装置の商標類否判断部のブロック図The block diagram of the trademark similarity judgment part of the trademark infringement detection device in the embodiment 同実施の形態におけるデータベース構築装置の会社取得部の動作の一例を示すフローチャートThe flowchart which shows an example of operation | movement of the company acquisition part of the database construction apparatus in the embodiment 同実施の形態における会社ルールデータベースに格納されているデータの一例を示す図The figure which shows an example of the data stored in the company rule database in the embodiment 同実施の形態における本発明の実施の形態におけるデータベース構築装置の商品取得部の動作の一例を示すフローチャートThe flowchart which shows an example of operation | movement of the goods acquisition part of the database construction apparatus in embodiment of this invention in the embodiment 同実施の形態における商品ルールデータベースに格納されているデータの一例を示す図The figure which shows an example of the data stored in the goods rule database in the embodiment 同実施の形態におけるデータベース構築装置の固有名称取得部の動作の一例を示すフローチャートThe flowchart which shows an example of operation | movement of the unique name acquisition part of the database construction apparatus in the embodiment 同実施の形態における固有名称ルールデータベースに格納されているデータの一例を示す図The figure which shows an example of the data stored in the proper name rule database in the embodiment 同実施の形態におけるデータベース構築装置の知識獲得部の動作の一例を示すフローチャートThe flowchart which shows an example of operation | movement of the knowledge acquisition part of the database construction apparatus in the embodiment 同実施の形態における知識増殖ルールデータベースに格納されているデータの一例を示す図The figure which shows an example of the data stored in the knowledge proliferation rule database in the embodiment 同実施の形態におけるデータベース構築装置のルール学習部の動作の一例を示すフローチャート1The flowchart 1 which shows an example of operation | movement of the rule learning part of the database construction apparatus in the embodiment 同実施の形態におけるデータベース構築装置のルール学習部の動作の一例を示すフローチャート2The flowchart 2 which shows an example of operation | movement of the rule learning part of the database construction apparatus in the embodiment 同実施の形態におけるデータベース構築装置の動作の一例を示すフローチャートThe flowchart which shows an example of operation | movement of the database construction apparatus in the embodiment 同実施の形態における商標侵害検知装置の動作の一例を示すフローチャートThe flowchart which shows an example of operation | movement of the trademark infringement detection apparatus in the embodiment 同実施の形体における商標侵害検知装置の表示例を示す図The figure which shows the example of a display of the trademark infringement detection apparatus in the form of the embodiment 同実施の形態における同コンピュータシステムの外観の一例を示す図The figure which shows an example of the external appearance of the computer system in the embodiment 同実施の形態における同コンピュータシステムの構成の一例を示す図The figure which shows an example of a structure of the computer system in the embodiment 実施の形態2における商標侵害検知装置のブロック図Block diagram of trademark infringement detection apparatus in Embodiment 2 実施の形態3におけるデータベース構築装置5のブロック図Block diagram of database construction device 5 in Embodiment 3 同実施の形態におけるデータベース構築装置5の全体動作について説明するフローチャートThe flowchart explaining the whole operation | movement of the database construction apparatus 5 in the embodiment 同属性値集合の取得処理について説明するフローチャートFlowchart for explaining processing for acquiring the same attribute value set 同属性値集合の生成処理について説明するフローチャートFlowchart explaining generation processing of same attribute value set 同ルールの取得処理について説明するフローチャートFlowchart explaining the rule acquisition process 同ルールの例を示す図Diagram showing an example of the same rule 同Webページの例を示す図The figure which shows the example of the same Web page 同Webページの例を示す図The figure which shows the example of the same Web page 同第一の表および第二の表の例を示す図The figure which shows the example of the 1st table and the 2nd table 同第一の表および第二の表の例を示す図The figure which shows the example of the 1st table and the 2nd table 同第一の表および第二の表の例を示す図The figure which shows the example of the 1st table and the 2nd table 同第二の表の例を示す図Figure showing an example of the second table 同第二の表の例を示す図Figure showing an example of the second table 同第二の表の例を示す図Figure showing an example of the second table 同第二の表の例を示す図Figure showing an example of the second table 同第二の表の例を示す図Figure showing an example of the second table

以下、データベース構築装置などの実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。   Hereinafter, embodiments of a database construction device and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.

(実施の形態1)
図1は、本実施の形態におけるデータベース構築装置1のブロック図である。データベース構築装置1は、会社データベース101、商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、ルール学習部116を備える。
(Embodiment 1)
FIG. 1 is a block diagram of a database construction device 1 according to the present embodiment. The database construction device 1 includes a company database 101, a product database 102, a unique name database 103, a company product database 104, a company unique name database 105, a product unique name database 106, a company product unique name database 107, a company rule database 108, a product rule. A database 109, a unique name rule database 110, a knowledge multiplication rule database 111, a company name acquisition unit 112, a product name acquisition unit 113, a unique name acquisition unit 114, a knowledge acquisition unit 115, and a rule learning unit 116 are provided.

会社データベース101は、1以上の会社名を格納し得る。会社名とは、商品またはサービスを提供する株式会社、有限会社、公益法人、社団法人、独立行政法人などの法人格をもつ名称、および個人の名称である。   The company database 101 can store one or more company names. The company name is a name having a legal personality such as a stock company, a limited liability company, a public interest corporation, an incorporated association or an independent administrative corporation that provides goods or services, and an individual name.

また、会社名とは、その会社名を特定する情報でも良い。会社データベース101は、会社名だけでなく、会社名を取得した文書の情報、または会社名の取得回数や取得割合などを格納しても良い。会社名の会社を特定する情報とは、会社を一意に特定できる情報であればなんでも良い。例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。会社名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または会社名の前後の文章やHTMLのタグ構造などである。   Further, the company name may be information for specifying the company name. The company database 101 may store not only the company name but also information on the document from which the company name has been acquired, the number of acquisitions of the company name, the acquisition ratio, and the like. The information for identifying the company of the company name may be any information that can uniquely identify the company. For example, it may be information indicating a home page address, an address, a telephone number, or the like. The information of the document from which the company name has been acquired is, for example, the name of the document, the number of pages, information indicating the URL of the Web site, or the text before and after the company name, or the HTML tag structure.

格納とは、不揮発性の記録媒体による長期的な格納や、揮発性の記録媒体による一時的な格納も含む概念である。以下、本発明内における格納の概念は、同一のものとする。   Storage is a concept that includes long-term storage using a non-volatile recording medium and temporary storage using a volatile recording medium. Hereinafter, the concept of storage in the present invention is the same.

また、会社データベース101に会社名が記憶される過程は問わない。例えば、記録媒体を介して会社名が会社データベース101で記憶されるようになってもよく、通信回線等を介して送信された会社名が会社データベース101で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された会社名が会社データベース101で記憶されるようになってもよい。また、会社データベース101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   Further, the process of storing the company name in the company database 101 does not matter. For example, a company name may be stored in the company database 101 via a recording medium, or a company name transmitted via a communication line or the like may be stored in the company database 101. Alternatively, the company name input via the input device may be stored in the company database 101. The company database 101 is preferably a non-volatile recording medium, but can also be realized by a volatile recording medium.

なお、後述する商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、データベース31、データベース401、商品コード管理手段4021の各構成要素について、これらに情報が記憶される過程や、これらの実現手段は、会社データベース101と同様であるので、説明を省略する。   A product database 102, a unique name database 103, a company product database 104, a company unique name database 105, a product unique name database 106, a company product unique name database 107, a company rule database 108, a product rule database 109, a unique name rule, which will be described later. Information is stored in each component of the database 110, the knowledge multiplication rule database 111, the product similar group code correspondence database 21, the company similar group code unique name database 22, the database 31, the database 401, and the product code management means 4021. Since the process and the means for realizing them are the same as those of the company database 101, description thereof is omitted.

商品データベース102は、1以上の商品名を格納し得る。商品名とは、法人、および個人が販売、または提供している商品、または役務の名称である。具体的には、「チョコレート」「パソコン」「宅配」「引越しサービス」などである。ここでいう商品、および役務の名称は、商標法施行規則第6条で規定されている商品および役務の区分(以下、類似群コード表という)に記載されている商品、および役務の名称に必ずしも準じていなくても良い。   The product database 102 can store one or more product names. The product name is the name of a product or service sold or provided by a corporation and an individual. Specifically, “chocolate”, “computer”, “delivery”, “moving service”, and the like. The names of goods and services mentioned here are not necessarily the names of goods and services described in the classification of goods and services (hereinafter referred to as similar group code table) stipulated in Article 6 of the Enforcement Regulations of the Trademark Law. It does not have to comply.

また、商品名は、その商品名を特定する情報でも良い。商品データベース102は、商品名だけでなく、商品名を取得した文書の情報、または商品名の取得回数や取得割合などを格納しても良い。商品名の商品を特定する情報とは、商品を一意に特定できる情報であればなんでも良い。例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品名の前後の文章やHTMLのタグ構造などである。   Further, the product name may be information for specifying the product name. The product database 102 may store not only the product name but also the information of the document from which the product name is acquired, the number of acquisitions of the product name, the acquisition ratio, and the like. The information specifying the product with the product name may be anything as long as it is information that can uniquely specify the product. For example, it may be information indicating a home page address, an address, a telephone number, or the like. The information of the document from which the product name has been acquired is, for example, the name of the document, the number of pages, information indicating the URL of the Web site, or the text before and after the product name, the HTML tag structure, or the like.

固有名称データベース103は、1以上の商品の固有名称を格納し得る。商品の固有名称とは、商品、および役務を識別可能な名称である。具体的には、「雪見だいふく(登録商標)」「宅急便(登録商標)」「PatentSearchAssistant(登録商標)」などである。またここでいう商品の固有名称とは、商標登録されている商標であっても良いし、なくても良い。   The unique name database 103 can store unique names of one or more products. The unique name of the product is a name that can identify the product and service. Specifically, “Yukimi Daifuku (registered trademark)” “Takkyubin (registered trademark)” “PatentSearch Assistant (registered trademark)” and the like. In addition, the proper name of the product referred to here may or may not be a trademark registered.

また、商品の固有名称とは、その商品の固有名称を特定する情報でも良い。固有名称データベース103は、商品の固有名称だけでなく、商品の固有名称を取得した文書の情報、または商品の固有名称の取得回数や取得割合などを格納しても良い。商品の固有名称を特定する情報とは、商品の固有名称を一意に特定できる情報であればなんでも良い。例えば、商標の出願番号や公開番号などであっても良い。商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   Further, the unique name of the product may be information for specifying the unique name of the product. The unique name database 103 may store not only the unique name of the product but also the information of the document that acquired the unique name of the product, the number of acquisitions of the unique name of the product, the acquisition ratio, and the like. The information that identifies the unique name of the product may be any information that can uniquely identify the unique name of the product. For example, it may be a trademark application number or a publication number. The information of the document from which the product unique name is acquired is, for example, the document name, the number of pages, information indicating the URL of the Web site, or the text before and after the product unique name, the HTML tag structure, or the like.

会社商品データベース104は、会社名と商品名とを有する1以上の組を格納し得る。   The company product database 104 may store one or more pairs having a company name and a product name.

会社商品データベース104は、会社名と、商品名だけでなく、同一レコードにある会社名と商品名を取得した文書の情報、または同一レコードにある会社名と商品名の取得回数、取得頻度や共起頻度、文書内で会社名と商品名の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値でも良い。などを格納しても良い。同一レコードにある会社名と商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または会社名と商品名の前後の文章やHTMLのタグ構造などである。   The company product database 104 stores not only the company name and the product name but also the information of the document that acquired the company name and product name in the same record, or the number of times the company name and product name are acquired in the same record, the acquisition frequency, Occurrence frequency, the average distance based on the number of characters, the number of morphemes, or the number of words listed between the company name and the product name in the document, or the total or average of the number of acquisitions and appearance frequency values of each rule described later The value calculated by using any method may be used. Etc. may be stored. The information of the document in which the company name and product name in the same record are acquired is, for example, the document name and the number of pages, or information indicating the URL of the website, the text before and after the company name and product name, and the HTML tag Such as structure.

会社固有名称データベース105は、会社名と商品の固有名称とを有する1以上の組を格納し得る。   The company unique name database 105 may store one or more sets having a company name and a product unique name.

会社固有名称データベース105は、会社名と、商品の固有名称だけでなく、同一レコードにある会社名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある会社名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   The company unique name database 105 stores not only the company name and the unique name of the product, but also the information of the document that acquired the company name and the unique name of the product in the same record, or the company name and the unique name of the product in the same record. Number of acquisitions, acquisition frequency and co-occurrence frequency, the average number of characters, the number of morphemes, the number of words, etc. written between the company name and the unique name of the product in the document, or the acquisition number of each rule described later Or a value calculated by some method such as the sum or average of the appearance frequency values may be stored. The information of the document in which the company name and the unique name of the product in the same record are acquired is, for example, the name of the document, the number of pages, information indicating the URL of the website, the text before and after the unique name of the product, or HTML For example, tag structure.

商品固有名称データベース106は、商品名と商品の固有名称とを有する1以上の組を格納し得る。   The product unique name database 106 may store one or more sets having product names and product unique names.

会社固有名称データベース105は、商品名と、商品の固有名称だけでなく、同一レコードにある商品名と商品の固有名称を取得した文書の情報、または同一レコードにある商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で商品名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   The company unique name database 105 stores not only the product name and the product unique name, but also the information of the document in which the product name and product unique name in the same record are acquired, or the product name and product unique name in the same record. Acquisition count, acquisition frequency, co-occurrence frequency, average distance between the product name and the product unique name in the document, the number of characters, the number of morphemes, the number of words, etc. Or a value calculated by some method such as the sum or average of the appearance frequency values may be stored. The information of the document in which the product name and the unique name of the product in the same record are acquired is, for example, the document name and the number of pages, information indicating the URL of the website, the text before and after the unique name of the product, or HTML For example, tag structure.

会社商品固有名称データベース107は、会社名と商品名と商品の固有名称とを有する1以上の組を格納し得る。   The company product unique name database 107 may store one or more sets having a company name, a product name, and a product unique name.

会社商品固有名称データベース107は、会社名と、商品名と、商品の固有名称だけでなく、同一レコードにある会社名と商品名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品名と商品の固有名称のそれぞれの間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   The company product unique name database 107 includes not only the company name, the product name, and the product unique name, but also the information on the document that acquired the company name, product name, and product unique name in the same record, or the same record. Number of acquisitions of company name, product name and unique name of product, acquisition frequency and co-occurrence frequency, number of characters written between each of company name, product name and unique name of product in document, morpheme number, or An average distance based on the number of words or the like, or a value calculated by using some method such as the total or average of the number of acquired rules and the appearance frequency described later may be stored. The information of the document in which the product name and the unique name of the product in the same record are acquired is, for example, the document name and the number of pages, information indicating the URL of the website, the text before and after the unique name of the product, or HTML For example, tag structure.

また、会社商品固有名称データベース107は、既に出願公開されている商標の情報から登録しても良い。その場合、その識別情報(例えば登録番号)、または登録状況などの情報を格納しても良い。   Further, the company product unique name database 107 may be registered from information on trademarks that have already been filed. In that case, the identification information (for example, registration number) or information such as the registration status may be stored.

会社ルールデータベース108は、文書から会社名を取得するためのルールである1以上の会社ルールを格納し得る。   The company rule database 108 may store one or more company rules that are rules for obtaining a company name from a document.

文書とは、1以上の文の集合であり、会社名や商品名、商品の固有名称が必ずしも記載されている必要はなく、また日本語だけでなく、英語や中国語、その他あらゆる言語であっても良く、2種類以上の言語が混在していても良い。例えば、WebページやHTML、XML、Wordファイルなどあっても良い。   A document is a collection of one or more sentences. The company name, product name, and product unique name do not necessarily have to be written, and are not only Japanese but also English, Chinese, and all other languages. Alternatively, two or more languages may be mixed. For example, there may be a Web page, HTML, XML, Word file, or the like.

文書から会社名を取得するとは、文書から、会社名が記載されている部分を割り出し、会社名を抽出することである。   Obtaining a company name from a document means that a part in which the company name is described is determined from the document and the company name is extracted.

会社ルールとは、文書から会社名を抽出するルールである。例えば、会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、会社名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名を取得する会社ルールの場合、「<td>社名</td><td>株式会社%会社名%</td>」などとして表す。   The company rule is a rule for extracting a company name from a document. For example, it may be a sentence pattern in which the company name can be directly extracted, or a sentence pattern that specifies a sentence in which the company name is described. When the document is a Web page, it may be an HTML tag structure pattern that directly extracts a company name, or an HTML tag structure pattern that specifies a sentence in which the company name is described. . Moreover, the same pattern as the above which cannot extract a company name may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, in the case of a company rule for acquiring a company name described in the “% company name%” portion, “<td> company name </ td> <td>% company name% </ td>”. And so on.

会社ルールデータベース108は、会社ルールだけでなく、会社ルールの取得回数や取得割合、または会社ルールが抽出する対象を格納しても良い。会社ルールが抽出する対象とは、文書から会社ルールを利用した結果、会社名を取得する場合と、会社名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「会社名」または「文章」などの値を格納しても良い。   The company rule database 108 may store not only the company rules but also the number of acquisitions and the acquisition ratio of the company rules, or the targets extracted by the company rules. The target to be extracted by the company rules is when there is a possibility of acquiring multiple types of information, such as when acquiring a company name or when acquiring a sentence including the company name as a result of using the company rule from a document , A value that clearly specifies what to get. Specifically, values such as “company name” or “text” may be stored.

商品ルールデータベース109は、文書から商品名を取得するためのルールである1以上の商品ルールを格納し得る。   The merchandise rule database 109 can store one or more merchandise rules that are rules for obtaining a merchandise name from a document.

文書から商品名を取得するとは、文書から、商品名が記載されている部分を割り出し、商品名を抽出することである。   Obtaining the product name from the document means that the part in which the product name is described is determined from the document and the product name is extracted.

商品ルールとは、文書から商品名を取得するルールである。例えば、商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名を取得する商品ルールの場合、「<title>商品名一覧</title>.*?<div.*?><h[1−5].*?>一覧<h[1−5]></div><ul.*?>(<li.*?><a.*?>%商品名%</a></</li>)+</ul>」などとして表す。   The product rule is a rule for acquiring a product name from a document. For example, it may be a sentence pattern from which a product name can be directly extracted, or a sentence pattern that specifies a sentence in which a product name is described. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts a product name, or an HTML tag structure pattern that specifies a sentence in which the product name is described. . Moreover, the pattern similar to the above which cannot extract a brand name may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, in the case of a product rule for acquiring a product name described in the “% product name%” part, “<title> product name list </ title>. *? <Div. *?> <H [ 1-5]. *?> List <h [1-5]> </ div> <ul. *?> (<Li. *?> <A. *?>% Product name% </a> <// </ Li>) + </ ul> ".

商品ルールデータベース109は、商品ルールだけでなく、商品ルールの取得回数や取得割合、または商品ルールが抽出する対象を格納しても良い。商品ルールが抽出する対象とは、文書から商品ルールを利用した結果、商品名を取得する場合と、商品名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「商品名」または「文章」などの値を格納しても良い。   The product rule database 109 may store not only the product rules but also the number of acquisitions and the acquisition ratio of the product rules, or the objects extracted by the product rules. The target of product rule extraction is when there is a possibility of acquiring multiple types of information, such as when acquiring a product name as a result of using a product rule from a document, or when acquiring a sentence containing the product name , A value that clearly specifies what to get. Specifically, a value such as “product name” or “text” may be stored.

固有名称ルールデータベース110は、文書から商品の固有名称を取得するためのルールである1以上の固有名称ルールを格納し得る。   The unique name rule database 110 can store one or more unique name rules, which are rules for acquiring a unique name of a product from a document.

文書から商品の固有名称を取得するとは、文書から、商品の固有名称が記載されている部分を割り出し、商品名を抽出することである。   Obtaining the unique name of the product from the document means that the part in which the unique name of the product is described is determined from the document and the product name is extracted.

固有名称ルールとは、文書から商品の固有名称を取得するルールである。例えば、商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%固有名称%」の部分に記載された商品の固有名称を取得する固有名称ルールの場合、「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The unique name rule is a rule for acquiring a unique name of a product from a document. For example, the pattern of the text which can extract the specific name of goods directly may be sufficient, and the text pattern which specifies the text in which the unique name of goods is described may be sufficient. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts the unique name of the product, or an HTML tag structure pattern that specifies a sentence in which the unique name of the product is described. There may be. Moreover, the same pattern as the above which cannot extract the proper name of goods may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, in the case of the unique name rule for acquiring the unique name of the product described in the “% unique name%” part, the “<title> product list </ title>. *? <Span. *?> List </ Span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul>

固有名称ルールデータベース110は、固有名称ルールだけでなく、固有名称ルールの取得回数や取得割合、または固有名称ルールが抽出する対象を格納しても良い。固有名称ルールが抽出する対象とは、文書から固有名称ルールを利用した結果、商品の固有名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「商品の固有名称」または「文章」などの値を格納してもよい。   The unique name rule database 110 may store not only the unique name rule but also the number of acquisitions and the acquisition ratio of the unique name rule, or the target extracted by the unique name rule. The target to be extracted by the unique name rule is the acquisition of multiple types of information, such as when acquiring a unique name of a product or when acquiring a sentence containing the unique name of a product as a result of using the unique name rule from a document. If there is a possibility, it is a value that specifies what to get. Specifically, a value such as “product unique name” or “text” may be stored.

知識増殖ルールデータベース111は、文書から、構成数が少ない情報を用いて、より構成数の多い情報を取得するルールである1以上の知識増殖ルールを格納し得る。   The knowledge proliferation rule database 111 can store one or more knowledge proliferation rules that are rules for acquiring information with a larger number of components from a document using information with a smaller number of components.

構成数が少ない情報を用いて、より構成数の多い情報を取得するとは、以下の情報のことである。
・会社データベース101に格納されている情報を用いて、会社商品データベース104、および会社固有名称データベース105、および会社商品固有名称データベース107に格納されている情報を取得すること
・商品データベース102に格納されている情報を用いて、会社商品データベース104、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
・固有名称データベース103に格納されている情報を用いて、会社固有名称データベース105、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
・会社商品データベース104に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
・会社固有名称データベース105に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
・商品固有名称データベース106に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報。を取得すること
The acquisition of information with a larger number of components using information with a smaller number of components is the following information.
-Using the information stored in the company database 101, obtaining information stored in the company product database 104, the company unique name database 105, and the company product unique name database 107-Stored in the product database 102 The information stored in the company product database 104, the product unique name database 106, and the company product unique name database 107 is obtained using the information stored in the unique name database 103. Obtaining information stored in the company unique name database 105, the product unique name database 106, and the company product unique name database 107 ・ Using the information stored in the company product database 104, the company product unique name De Acquiring information stored in the database 107 ・ Using information stored in the company unique name database 105 to acquire information stored in the company product unique name database 107 ・ Product unique name database 106 Information stored in the company product unique name database 107 using the information stored in. To get

知識増殖ルールとは、文書から会社名、または商品名、または商品の固有名称から1、または2種類の情報を利用して、残る2、または1種類の情報を取得するルールである。具体的には、第一知識増殖ルールと、第二知識増殖ルールと、第三知識増殖ルールと、第四知識増殖ルールと、第五知識増殖ルールと、第六知識増殖ルールと、第七知識増殖ルールと、第八知識増殖ルールと、第九知識増殖ルールと、第十知識増殖ルールと、第十一知識増殖ルールと、第十二知識増殖ルールとがある。   The knowledge proliferation rule is a rule for acquiring the remaining two or one type of information using one or two types of information from a company name, a product name, or a unique name of a product from a document. Specifically, the first knowledge proliferation rule, the second knowledge proliferation rule, the third knowledge proliferation rule, the fourth knowledge proliferation rule, the fifth knowledge proliferation rule, the sixth knowledge proliferation rule, and the seventh knowledge There are a proliferation rule, an eighth knowledge proliferation rule, a ninth knowledge proliferation rule, a tenth knowledge proliferation rule, an eleventh knowledge proliferation rule, and a twelfth knowledge proliferation rule.

第一知識増殖ルールは、文書から、会社名を用いて、会社名と商品名との組を取得する。会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。   The first knowledge proliferation rule acquires a combination of a company name and a product name from a document using the company name. Using the company name may be, for example, selecting a document in which one or more company names stored in the company database 101 are described from the documents described above, and the company name is described. For example, a surrounding character string may be extracted.

第一知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品名を直接抽出するHTMLタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。   The first knowledge proliferation rule may be, for example, a sentence pattern in which a product name related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts a product name related to the company name from the Web page on which the company name is described. It may be an HTML tag structure pattern that identifies a sentence that is being read. Moreover, the same pattern as the above which cannot extract the product name related to the company name from the document in which the company name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part, the “<title>% company name% (Handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A. *?>% Product name% </a> </ Li>) + </ ul> ".

第二知識増殖ルールは、文書から、会社名を用いて、会社名と商品の固有名称との組を取得する   The second knowledge proliferation rule uses the company name from the document to obtain a combination of the company name and the unique name of the product

会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the company name may be, for example, selecting a document in which one or more company names stored in the company database 101 are described from the documents described above, and the company name is described. For example, a surrounding character string may be extracted.

第二知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The second knowledge proliferation rule may be, for example, a sentence pattern in which a proper noun of a product related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies sentences in which nouns are written. When the document is a Web page, it may be an HTML tag structure pattern that directly extracts a proper noun of a product related to the company name from the Web page in which the company name is described. The pattern of the HTML tag structure which specifies the sentence in which the noun is described may be sufficient. Moreover, the same pattern as the above which cannot extract the proper noun of the product related to the company name from the document in which the company name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product unique name described in the “% unique name%” part, the “<title>% company name” % (Handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% < / A> </ li>) + </ ul> ".

第三知識増殖ルールは、文書から、会社名を用いて、会社名と商品名と商品の固有名称との組を取得する。   The third knowledge proliferation rule obtains a set of a company name, a product name, and a product unique name from a document using the company name.

会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the company name may be, for example, selecting a document in which one or more company names stored in the company database 101 are described from the documents described above, and the company name is described. For example, a surrounding character string may be extracted.

第三知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品名を直接特定し商品の固有名称を含む文章を特定するHTMLタグ構造のパターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接特定するHTMLタグ構造のパターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The third knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a product name related to a company name and a proper noun of the product among documents in which the company name is described, It may be a sentence pattern that directly extracts the product name and identifies a sentence that includes the unique name of the product, or a sentence pattern that identifies a sentence that includes the product name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. If the document is a web page, it may be a pattern of an HTML tag structure that directly extracts a product name related to the company name and a proper noun of the product from the web page in which the company name is described, It may be an HTML tag structure pattern that directly identifies the product name and identifies a sentence that includes the unique name of the product, or an HTML tag structure pattern that identifies the sentence including the product name and directly identifies the proper noun of the commodity. Alternatively, it may be an HTML tag structure pattern that specifies a sentence in which a product name and a proper noun of the product are described. Moreover, the same pattern as the above in which the product name related to the company name and the proper noun of the product cannot be extracted from the document in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.

第四知識増殖ルールは、文書から、商品名を用いて、会社名と商品名との組を取得する。   The fourth knowledge proliferation rule acquires a combination of a company name and a product name from a document using a product name.

商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the product name may be, for example, selecting a document in which one or more product names stored in the product database 102 are described from the documents described above, and the product name is described. For example, a surrounding character string may be extracted.

第四知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。   The fourth knowledge proliferation rule may be, for example, a sentence pattern in which a company name related to a product name can be directly extracted from a document in which the product name is described, and the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts the company name related to the product name from the Web page on which the product name is described. The pattern of the HTML tag structure which identifies the sentence currently carried out may be sufficient. In addition, a pattern similar to the above in which a company name related to a product name cannot be extracted from documents in which the product name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part, the “<title>% company name% (Handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A. *?>% Product name% </a> </ Li>) + </ ul> ".

第五知識増殖ルールは、文書から、商品名を用いて、商品名と商品の固有名称との組を取得する。   The fifth knowledge proliferation rule acquires a set of a product name and a unique name of the product from the document using the product name.

商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the product name may be, for example, selecting a document in which one or more product names stored in the product database 102 are described from the documents described above, and the product name is described. For example, a surrounding character string may be extracted.

第五知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The fifth knowledge proliferation rule may be, for example, a sentence pattern in which a unique name of a product related to the product name can be directly extracted from a document in which the product name is described. It may be a sentence pattern that identifies a sentence in which a name is described. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts the unique name of the product related to the product name from the Web page describing the product name. It may be an HTML tag structure pattern that identifies a sentence in which a unique name is described. Moreover, the same pattern as the above which cannot extract the unique name of the product related to the product name among the documents in which the product name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of a product name described in the “% product name%” part and a unique name of the product described in the “% unique name%” part, “<span. *?> % Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .

第六知識増殖ルールは、文書から、商品名を用いて、会社名と商品名と商品の固有名称との組を取得する。   The sixth knowledge proliferation rule acquires a combination of a company name, a product name, and a product unique name from a document using the product name.

商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the product name may be, for example, selecting a document in which one or more product names stored in the product database 102 are described from the documents described above, and the product name is described. For example, a surrounding character string may be extracted.

第六知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品の固有名称を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定するタグHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The sixth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a product name and a proper noun of the product among documents in which the product name is described, It may be a sentence pattern that directly extracts the company name and identifies the sentence including the unique name of the product, or may be a sentence pattern that identifies the sentence including the company name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. If the document is a Web page, the HTML tag structure pattern may be used to directly extract the company name and product proper nouns that are related to the product name from the Web page on which the product name is described. The HTML tag structure pattern that directly identifies the company name and identifies the sentence including the unique name of the product may be used, or the HTML tag structure that identifies the sentence including the company name and directly identifies the proper noun of the commodity. A pattern may be sufficient, and the pattern of the tag HTML tag structure which specifies the text in which the company name and the proper noun of the product are described may be used. Moreover, the same pattern as the above in which the company name related to the product name and the proper noun of the product cannot be extracted from the document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.

第七知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品の固有名称との組を取得する。   The seventh knowledge proliferation rule acquires a combination of a company name and a product unique name from a document using the product unique name.

固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the unique name database 103 are described from the above-described documents. It is also possible to extract a surrounding character string in which is described.

第七知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The seventh knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a unique name of a product from documents in which the unique name of the product is described. It may be a sentence pattern that identifies sentences in which names are described. If the document is a Web page, it may be a pattern of an HTML tag structure that directly extracts a company name related to the unique name of the product from the Web page in which the unique name of the product is described. The pattern of the HTML tag structure which specifies the text in which the company name is described may be sufficient. Moreover, the same pattern as the above which cannot extract the company name related to the unique name of the product among the documents in which the unique name of the product is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product unique name described in the “% unique name%” part, the “<title>% company name” % (Handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% < / A> </ li>) + </ ul> ".

第八知識増殖ルールは、文書から、商品の固有名称を用いて、商品名と商品の固有名称との組を取得する。   The eighth knowledge proliferation rule acquires a set of a product name and a product unique name from a document using the product unique name.

固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the unique name database 103 are described from the above-described documents. It is also possible to extract a surrounding character string in which is described.

第八知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The eighth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract the product name related to the product unique name from the document in which the product unique name is described. It may be a sentence pattern that specifies a sentence in which a name is described. Further, when the document is a Web page, it may be an HTML tag structure pattern that directly extracts the product name related to the product unique name from the Web page in which the product unique name is described. It may be an HTML tag structure pattern that identifies a sentence in which a product name is described. Moreover, the same pattern as the above which cannot extract the product name relevant to the product unique name among the documents in which the product unique name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of a product name described in the “% product name%” part and a unique name of the product described in the “% unique name%” part, “<span. *?> % Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .

第九知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品名と商品の固有名称との組を取得する。   The ninth knowledge proliferation rule acquires a set of a company name, a product name, and a product unique name from a document using the product unique name.

固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the unique name database 103 are described from the above-described documents. It is also possible to extract a surrounding character string in which is described.

第九知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品名を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品名を直接抽出する文章パターンであっても良く、会社名と商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品名を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品名を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The ninth knowledge proliferation rule is, for example, a sentence pattern in which a company name and a product name related to a product unique name can be directly extracted from a document in which a product unique name is described. It may be a sentence pattern that directly extracts a company name and identifies a sentence including the product name, or a sentence pattern that identifies a sentence including the company name and directly extracts the product name. It may be a sentence pattern that specifies a sentence in which a name is described. If the document is a Web page, the HTML tag structure pattern that directly extracts the company name and the product name related to the product unique name from the Web page on which the product unique name is described. It may be an HTML tag structure pattern that directly identifies a company name and identifies a sentence including a product name, or an HTML tag structure pattern that identifies a sentence including a company name and directly identifies a product name. It may be a pattern of an HTML tag structure that specifies a sentence in which a company name and a product name are described. Moreover, the same pattern as the above which cannot extract the company name and the product name related to the unique name of the product among the documents in which the unique name of the product is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.

第十知識増殖ルールは、文書から、会社名と商品名の組を用いて、会社名と商品名と商品の固有名称との組を取得する。   The tenth knowledge proliferation rule acquires a combination of a company name, a product name, and a unique name of a product from a document using a combination of the company name and the product name.

会社名と商品名の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、会社名と、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using a combination of a company name and a product name includes, for example, one or more company names stored in the company database 101 and one or more product names stored in the product database 102 from the document described above. It is also possible to select a document that has a name of a company and a character string around the product name.

第十知識増殖ルールとは、例えば、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名と商品名が記載されているWebページのうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The tenth knowledge proliferation rule is, for example, a sentence pattern in which a unique name of a product related to a company name and a product name can be directly extracted from documents in which the company name and the product name are described. Alternatively, it may be a sentence pattern that specifies a sentence in which the unique name of the product is described. Further, when the document is a Web page, it is an HTML tag structure pattern that directly extracts a unique name of a product related to the company name and the product name from the Web page describing the company name and the product name. It may be a pattern of an HTML tag structure that specifies a sentence in which a proper name of a product is described. Moreover, the same pattern as the above which cannot extract the unique name of the product related to the company name and the product name among the documents in which the company name and the product name are described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.

第十一知識増殖ルールは、文書から、会社名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得する。   The eleventh knowledge proliferation rule acquires a combination of a company name, a product name, and a unique name from a document using a combination of the company name and the unique name of the product.

会社名と固有名称の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、会社名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using a combination of company name and unique name means, for example, one or more company names stored in the company database 101 from the above-mentioned document and one or more unique names of one or more products stored in the unique name database 103 May be selected, or a peripheral character string in which the company name and the unique name of the product are described may be extracted.

第十一知識増殖ルールとは、例えば、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名と商品の固有名称が記載されているWebページのうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The eleventh knowledge proliferation rule is, for example, a sentence pattern in which a product name related to a company name and a product unique name can be directly extracted from a document in which the company name and product unique name are described. It may be a sentence pattern that identifies a sentence in which a product name is described. If the document is a Web page, an HTML tag structure pattern that directly extracts the product name related to the company name and the product unique name from the Web page describing the company name and the product unique name. It may be a pattern of an HTML tag structure that specifies a sentence in which a product name is described. Moreover, the same pattern as the above which cannot extract the product name related to the company name and the unique name of the product among the documents in which the company name and the unique name of the product are described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.

第十二知識増殖ルールは、文書から、商品名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得する。   The twelfth knowledge proliferation rule acquires a combination of a company name, a product name, and a unique name from a document using a combination of a product name and a unique name of the product.

商品名と固有名称の組を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using a combination of a product name and a unique name means, for example, one or more product names stored in the product database 102 from the above-mentioned document and a unique name of one or more products stored in the unique name database 103. May be selected, a product name and a surrounding character string in which a product unique name is described may be extracted.

第十二知識増殖ルールとは、例えば、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名と商品の固有名称が記載されているWebページのうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The twelfth knowledge proliferation rule is, for example, a sentence pattern that can directly extract a company name related to a product name and a product unique name from a document in which a product name and a product unique name are described. It may be a sentence pattern that specifies a sentence in which a company name is described. If the document is a Web page, the HTML tag structure pattern that directly extracts the company name related to the product name and the product unique name from the Web page describing the product name and the product unique name. It may be a pattern of an HTML tag structure that specifies a sentence in which a company name is described. Moreover, the same pattern as the above in which the company name related to the product name and the product unique name cannot be extracted from the document in which the product name and the product unique name are described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.

知識増殖ルールデータベース111は、知識増殖ルールだけでなく、知識増殖ルールの種類、または知識増殖ルールの取得回数や取得割合、または知識増殖ルールが抽出する対象を格納しても良い。知識増殖ルールが抽出する対象とは、文書から知識増殖ルールを利用した結果、会社名、または商品名、または商品の固有名称といった名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「名称」または「文章」などの値を格納してもよい。   The knowledge proliferation rule database 111 may store not only the knowledge proliferation rules but also the types of knowledge proliferation rules, the number of acquisitions of knowledge proliferation rules, the acquisition ratio, or the objects extracted by the knowledge proliferation rules. Targets to be extracted by knowledge proliferation rules are the cases where a name such as a company name, a product name, or a unique name of a product is acquired as a result of using the knowledge proliferation rule from a document, and a sentence including a unique name of a product is acquired. If there is a possibility of acquiring multiple types of information, such as the case, it is a value that clearly indicates what to acquire. Specifically, a value such as “name” or “text” may be stored.

また、知識増殖ルールデータベース111は、上述の各知識増殖ルールをフラグとして保持しても良く、または上述の知識増殖ルールごとに別々のデータベースであっても良い。   The knowledge proliferation rule database 111 may hold each of the above knowledge proliferation rules as a flag, or may be a separate database for each of the above knowledge proliferation rules.

会社名取得部112は、1以上のWebサーバ装置から、1以上の会社ルールを用いて、1以上の会社名を取得し、会社データベース101に蓄積する。   The company name acquisition unit 112 acquires one or more company names from one or more Web server devices using one or more company rules, and accumulates them in the company database 101.

Webサーバ装置とは、具体的には、Webサービス、またはデータベースを公開するサーバ装置である。Webサービスとは、HTML形式などのマークアップ言語などにより構成されるものを公開していることに限るものではなく、例えば、Webブラウザ上や専用のアプリケーション実行環境上で動作可能なアプリケーションソフトウェアのシステムを公開していることであっても良い。Webサーバ装置は、インターネット上に公開されているものでも良く、ローカルエリア上に公開されているものでも良い。   Specifically, the Web server device is a server device that publishes a Web service or a database. The Web service is not limited to publishing what is configured in a markup language such as HTML format. For example, a system of application software operable on a Web browser or a dedicated application execution environment May be published. The Web server device may be published on the Internet or may be published on a local area.

会社名取得部112は、Webサーバ装置から取得したWebページから会社ルールを用いて会社名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。   The company name acquisition unit 112 acquires a company name using a company rule from a Web page acquired from a Web server device. Acquiring a Web page from the Web server device is the same as the processing acquired by a so-called Web browser.

会社ルールを用いて会社名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社ルールデータベース108に登録されている会社ルールから会社名を取得することである。例えば、任意の会社ルールで「%会社名%」と記載されている部分に当てはまる文字列を取得する。   Acquiring a company name using a company rule means acquiring a company name from a company rule registered in the company rule database 108 from a document acquired from a Web server device or an HTML structure. For example, a character string that applies to a portion described as “% company name%” in an arbitrary company rule is acquired.

会社名を会社データベース101に蓄積する際、使用した会社ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを会社データベース101に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。   When the company name is stored in the company database 101, a certain threshold may be set for the number of acquisitions and the acquisition ratio of the used company rules, and only information that exceeds the threshold may be registered in the company database 101. . The threshold value may be arbitrarily set according to the operation.

商品名取得部113は、1以上のWebサーバ装置から、1以上の商品ルールを用いて、1以上の商品名を取得し、商品データベース102に蓄積する。   The product name acquisition unit 113 acquires one or more product names from one or more Web server devices using one or more product rules, and accumulates them in the product database 102.

商品名取得部113は、Webサーバ装置から取得したWebページから商品ルールを用いて商品名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。   The product name acquisition unit 113 acquires the product name from the Web page acquired from the Web server device using the product rule. Acquiring a Web page from the Web server device is the same as the processing acquired by a so-called Web browser.

商品ルールを用いて商品名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから商品名を取得することである。例えば、任意の商品ルールで「%商品名%」と記載されている部分に当てはまる文字列を取得する。   Acquiring a product name using a product rule is to acquire a product name from a document acquired from a Web server device, an HTML structure, or the like. For example, a character string corresponding to a portion described as “% product name%” in an arbitrary product rule is acquired.

商品名を商品データベース102に蓄積する際、使用した商品ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを商品データベース102に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。   When accumulating product names in the product database 102, a certain threshold may be set for the number of times and the acquisition ratio of the used product rules, and only information that exceeds the threshold may be registered in the product database 102. . The threshold value may be arbitrarily set according to the operation.

固有名称取得部114は、1以上のWebサーバ装置から、1以上の固有名称ルールを用いて、1以上の固有名称を取得し、固有名称データベース103に蓄積する。   The unique name acquisition unit 114 acquires one or more unique names from one or more Web server devices using one or more unique name rules, and accumulates them in the unique name database 103.

固有名称取得部114は、Webサーバ装置から取得したWebページから固有名称ルールを用いて商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。   The unique name acquisition unit 114 acquires the unique name of the product from the Web page acquired from the Web server device using the unique name rule. Acquiring a Web page from the Web server device is the same as the processing acquired by a so-called Web browser.

固有名称ルールを用いて商品の固有名称を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから商品の固有名称を取得することである。例えば、任意の固有名称ルールで「%固有名称%」と記載されている部分に当てはまる文字列を取得する。   Acquiring the unique name of the product using the unique name rule is to acquire the unique name of the product from the document acquired from the Web server device or the structure of HTML. For example, a character string corresponding to a portion described as “% unique name%” in an arbitrary unique name rule is acquired.

商品の固有名称を固有名称データベース103に蓄積する際、使用した固有名称ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを固有名称データベース103に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。   When storing the unique name of the product in the unique name database 103, a certain threshold is set for the number of acquisitions and the acquisition ratio of the used unique name rule, and only information that exceeds the threshold is registered in the unique name database 103. You may do it. The threshold value may be arbitrarily set according to the operation.

知識獲得部115は、1以上のWebサーバ装置から、会社データベース101の1以上の各会社名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、商品データベース102の1以上の各商品名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、固有名称データベース103の1以上の各固有名称と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、会社商品データベース104の1以上の会社名と商品名の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。または、会社固有名称データベース105の1以上の会社名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。または、商品固有名称データベース106の1以上の商品名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。   The knowledge acquisition unit 115 uses one or more company names and one or more knowledge proliferation rules in the company database 101 from one or more Web server devices, and one or more company names and product names, or one or more. The company name and unique name, or one or more company names, product names, and unique names are acquired, and the acquired information is stored in the corresponding database. Alternatively, using one or more product names and one or more knowledge proliferation rules in the product database 102, one or more company names and product names, or one or more product names and unique names, or one or more companies The name, product name, and unique name are acquired, and the acquired information is stored in the corresponding database. Alternatively, using one or more unique names and one or more knowledge proliferation rules in the unique name database 103, one or more company names and unique names, or one or more product names and unique names, or one or more unique names The company name, product name, and unique name are acquired, and the acquired information is stored in the corresponding database. Alternatively, one or more company names, product names, and unique names are acquired using one or more pairs of one or more company names and product names in the company product database 104 and one or more knowledge proliferation rules. Are stored in the company product unique name database 107. Alternatively, one or more company names, product names, and unique names are acquired using one or more pairs of one or more company names and product unique names in the company unique name database 105 and one or more knowledge proliferation rules. The acquired information is stored in the company product unique name database 107. Alternatively, one or more company names, product names, and unique names are acquired using one or more pairs of one or more product names and product unique names in the product unique name database 106 and one or more knowledge proliferation rules. The acquired information is stored in the company product unique name database 107.

知識獲得部115は、Webサーバ装置から取得したWebページから知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。   The knowledge acquisition unit 115 acquires a company name, a product name, or a unique name of a product from the Web page acquired from the Web server device using the knowledge multiplication rule. Acquiring a Web page from the Web server device is the same as the processing acquired by a so-called Web browser.

会社データベース101の1以上の各会社名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101に蓄積されている会社名が出現し、かつ知識増殖データベースに蓄積されている第一知識増殖、または第二知識増殖ルール、または第三知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   One or more company names and product names, or one or more company names and unique names, or one or more company names, using one or more company names and one or more knowledge proliferation rules in the company database 101 The acquisition of the product name and the unique name means that the company name stored in the company database 101 appears from the document acquired from the Web server device or the HTML structure, and is stored in the knowledge proliferation database. It is to acquire two or more sets of a company name, a product name, or a unique name of a product using the one knowledge growth rule, the second knowledge growth rule, or the third knowledge growth rule. For example, the character string that applies to the part described as “% company name%” in each rule is the company name, the character string that applies to the part described as “% product name%” is the product name, and “% unique name%” "Is acquired as the unique name of the product.

商品データベース102の1以上の各商品名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、商品データベース102に蓄積されている商品名が出現し、かつ知識増殖データベースに蓄積されている第四知識増殖、または第五知識増殖ルール、または第六知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   One or more company names and product names, or one or more product names and unique names, or one or more company names using one or more product names and one or more knowledge proliferation rules in the product database 102 The acquisition of the product name and the unique name means that the product name stored in the product database 102 appears from the document acquired from the Web server device or the HTML structure, and is stored in the knowledge proliferation database. Using the fourth knowledge proliferation rule, the fifth knowledge proliferation rule, or the sixth knowledge proliferation rule, obtaining two or more sets of a company name, a product name, or a unique name of a product. For example, the character string that applies to the part described as “% company name%” in each rule is the company name, the character string that applies to the part described as “% product name%” is the product name, and “% unique name%” "Is acquired as the unique name of the product.

固有名称データベース103の1以上の各固有名称と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、固有名称データベース103に蓄積されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第七知識増殖ルール、または第八知識増殖ルール、または第九知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   One or more company names and unique names, or one or more product names and unique names, or one or more company names using one or more unique names and one or more knowledge proliferation rules in the unique name database 103. The product name and unique name are acquired from the document acquired from the Web server device or the structure of HTML, etc., and the unique name of the product stored in the unique name database 103 appears and is stored in the knowledge proliferation database. Using the seventh knowledge proliferation rule, the eighth knowledge proliferation rule, or the ninth knowledge proliferation rule, two or more sets of company names, product names, or product unique names are obtained. For example, the character string that applies to the part described as “% company name%” in each rule is the company name, the character string that applies to the part described as “% product name%” is the product name, and “% unique name%” "Is acquired as the unique name of the product.

会社商品データベース104の1以上の会社名と商品名の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101の会社名と商品データベース102に蓄積されている商品名が出現し、かつ知識増殖データベースに蓄積されている第十知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   The acquisition of one or more company names, product names, and unique names using one or more pairs of one or more company names and product names in the company product database 104 and one or more knowledge proliferation rules is performed from the Web server device. From the acquired document or HTML structure, the company name in the company database 101 and the product name stored in the product database 102 appear, and using the tenth knowledge proliferation rule accumulated in the knowledge proliferation database, It is to acquire a set of company name, product name, and product unique name. For example, the character string that applies to the part described as “% company name%” in each rule is the company name, the character string that applies to the part described as “% product name%” is the product name, and “% unique name%” "Is acquired as the unique name of the product.

会社固有名称データベース105の1以上の会社名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101の会社名と固有名称データベース103に蓄積されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第十一知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   The acquisition of one or more company names, product names, and unique names using one or more pairs of one or more company names and product unique names in the company unique name database 105 and one or more knowledge proliferation rules From the document acquired from the server device or the structure of HTML, the company name of the company database 101 and the unique name of the product stored in the unique name database 103 appear and the eleventh stored in the knowledge proliferation database It is to acquire a set of a company name, a product name, and a unique name of a product using the knowledge proliferation rule. For example, the character string that applies to the part described as “% company name%” in each rule is the company name, the character string that applies to the part described as “% product name%” is the product name, and “% unique name%” "Is acquired as the unique name of the product.

商品固有名称データベース106の1以上の商品名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、商品データベース102に蓄積されている商品名と固有名称データベース103に登録されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第十二知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   The acquisition of one or more company names, product names, and unique names using one or more pairs of one or more product names and product unique names in the product unique name database 106 and one or more knowledge proliferation rules The product name stored in the product database 102 and the unique name of the product registered in the unique name database 103 appear from the document acquired from the server device or the HTML structure, and are stored in the knowledge proliferation database. The combination of the company name, the product name, and the unique name of the product is acquired using the twelfth knowledge proliferation rule. For example, the character string that applies to the part described as “% company name%” in each rule is the company name, the character string that applies to the part described as “% product name%” is the product name, and “% unique name%” "Is acquired as the unique name of the product.

会社名、および商品名、および商品の固有名称を対応する各データベースに蓄積する際、使用した知識増殖ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを各データベースに登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。   When accumulating company names, product names, and product unique names in the corresponding databases, only information that exceeds the threshold by setting a certain threshold for the number of acquisitions and acquisition ratio of the knowledge proliferation rules used May be registered in each database. The threshold value may be arbitrarily set according to the operation.

ルール学習部116は、1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索し、1以上の情報が出現する1以上のパターンを取得し、パターンが予め決められた条件を満たすほどよく出現する1以上のパターンを取得し、1以上のパターンを対応する各ルールデータベースに蓄積する。   The rule learning unit 116 searches for one or more Web server devices using one or more pieces of information existing in one or more databases, acquires one or more patterns in which one or more pieces of information appear, and the patterns are stored in advance. One or more patterns that appear more frequently as the predetermined condition is satisfied are acquired, and the one or more patterns are accumulated in the corresponding rule databases.

1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索するとは、具体的には、会社データベース101、または商品データベース102、または固有名称データベース103、または会社商品データベース104、または会社固有名称データベース105、または商品固有名称データベース106から1以上のデータベースに格納されている1以上の任意の情報を検索キーワードとして、サーバ装置を検索することである。   Specifically, searching for one or more Web server devices using one or more information existing in each of one or more databases means company database 101, product database 102, unique name database 103, or company product. Searching a server device using one or more arbitrary information stored in one or more databases from the database 104, the company unique name database 105, or the product unique name database 106 as a search keyword.

Webサーバ装置を検索するとは、例えば、インターネット上のWebサーバ装置(図示せず)が提供するWebページに含まれる文字列情報を検索対象とした検索である。Web検索は、例えば、検索用サイトを利用して行われる。ここでは、例えば、検索用サイトが提供するいわゆる検索エンジンに検索キーを含むクエリなどを送信し、検索エンジンが送信する検索結果を示す情報を受信することを、例えば、Web検索を行うことと考える。検索キーの送信などは、検索エンジンが提供するAPIなどを利用することで可能である。   Searching for a Web server device is, for example, searching for character string information included in a Web page provided by a Web server device (not shown) on the Internet. Web search is performed using a search site, for example. Here, for example, transmitting a query including a search key to a so-called search engine provided by a search site and receiving information indicating a search result transmitted by the search engine is considered to be a web search, for example. . The search key can be transmitted by using an API provided by the search engine.

1以上の情報が出現する1以上のパターンを取得するとは、サーバ装置を検索した結果取得した情報から、検索に使用した1以上の各データベースに存在する1以上の情報が含まれているパターンを取得することである。パターンとは、例えば、文章のパターンであっても良く、対象がWebページの場合は、HTMLのタグ構造のパターンであっても良く、上述したルールが複合的に合わさっていても良い。パターンの取得は、会社名、および商品名、および商品の固有名称を取得できる内容あれば何でも良く、例えば文章全体をパターンとして取得しても良く、複数の文章から検索に用いた情報を含む最長共通部分列を取得しても良い。   To acquire one or more patterns in which one or more information appears is a pattern including one or more information existing in one or more databases used for the search from information acquired as a result of searching the server device. Is to get. The pattern may be, for example, a sentence pattern. If the target is a Web page, the pattern may be an HTML tag structure pattern, or the above-described rules may be combined. The acquisition of the pattern may be anything that can acquire the company name, the product name, and the unique name of the product, for example, the entire sentence may be acquired as a pattern, and the longest including information used for the search from multiple sentences The common partial sequence may be acquired.

予め決められた条件を満たすほど良く出現する1以上のパターンを取得は、各ルールデータベースに登録する条件を予め定め、その条件を良く満たすパターンのみを取得する。
予め決められた条件とは、各ルールデータベースに登録する条件を予め定めたものである。条件は、パターンを評価できる値であればなんでも良い。例えば、パターンの取得回数であっても良く、取得したすべてのパターンのうちそのパターンが占める割合であっても良い。
To acquire one or more patterns that appear more frequently when a predetermined condition is satisfied, a condition to be registered in each rule database is determined in advance, and only patterns that satisfy the condition are acquired.
The predetermined condition is a condition that is registered in advance in each rule database. The condition may be any value that can evaluate the pattern. For example, it may be the number of times the pattern is acquired, or may be the ratio occupied by the pattern among all the acquired patterns.

1以上のパターンを対応する各ルールデータベースに蓄積するとは、予め決められた条件を満たすほど良く出現したパターンをそのパターンに対応するデータベースに登録する。対応するデータベースとは、会社名を取得するパターンであれば会社ルールデータベース108、商品名を取得するパターンであれば商品ルールデータベース109、商品の固有名称を取得するパターンであれば固有名称ルールデータベース110、会社名と商品名の組を取得するパターン、および会社名と商品の固有名称の組を取得するパターン、および商品名と商品の固有名称の組を取得するパターン、および会社名と商品名と商品の固有名称の組を取得するパターンであれば知識増殖ルールデータベース111に登録する。   To store one or more patterns in each corresponding rule database, a pattern that appears better enough to satisfy a predetermined condition is registered in the database corresponding to the pattern. The corresponding database is a company rule database 108 for a pattern for acquiring a company name, a product rule database 109 for a pattern for acquiring a product name, and a unique name rule database 110 for a pattern for acquiring a unique name of a product. A pattern for acquiring a pair of company name and product name, a pattern for acquiring a pair of company name and product unique name, a pattern for acquiring a pair of product name and product unique name, and a company name and product name If it is a pattern for acquiring a set of unique names of products, it is registered in the knowledge proliferation rule database 111.

また、ルール学習部116は、2種類以上の情報の組を格納しているデータベースに存在する1以上の情報を用いて、1以上のパターンを取得した場合は、2種類以上の情報の組に対応するルールデータベース、および2種類以上の情報の組の一部分の情報を用いて、2種類以上の情報の組に対応する1以上のルールデータベースに、1以上のパターンを蓄積する。   In addition, when the rule learning unit 116 acquires one or more patterns using one or more information existing in a database storing two or more types of information sets, the rule learning unit 116 sets the two or more types of information sets. One or more patterns are stored in one or more rule databases corresponding to two or more types of information sets using the corresponding rule database and a part of information of two or more types of information sets.

2種類以上の情報の組とは、会社名と商品名、または会社名と商品の固有名称、または商品名と商品の固有名称、または会社名と商品名と商品の固有名称の情報である。2種類以上の情報の組を格納しているデータベースとは、会社商品データベース104、または固有名称データベース103、または商品固有名称データベース106、または会社商品固有名称データベース107である。1以上のパターンを取得した場合とは、2種類以上の情報の組を用いて、会社名と商品名と商品の固有名称のうち2種類以上の組を含むパターンを取得した場合である。2種類以上の情報の組の一部分の情報を用いてとは、2種類の情報の組であった場合は各々の情報、3種類の情報の組であった場合は各々、および任意の2種類の情報の組のすべての組み合わせを用いることである。これら分解した情報を用いてパターンを取得し、取得したパターンを対応するデータベースに登録する。例えば、2種類以上の情報の組が会社名と商品名であった場合、会社名と商品名を取得するパターンを取得するだけでなく、会社名を取得するパターンと商品名を取得するパターンについても取得し、各々対応する知識増殖ルールデータベース111、または会社ルールデータベース108、または商品ルールデータベース109に蓄積する。   The set of two or more types of information is information on a company name and a product name, or a company name and a product unique name, or a product name and a product unique name, or a company name, a product name, and a product unique name. The database storing a set of two or more types of information is the company product database 104, the unique name database 103, the product unique name database 106, or the company product unique name database 107. The case where one or more patterns are acquired is a case where a pattern including two or more combinations among a company name, a product name, and a unique name of a product is acquired using a combination of two or more types of information. Using a part of information of two or more types of information means that each of the information is a combination of two types of information, each of which is a set of three types of information, and any two types All combinations of information sets are used. A pattern is acquired using the decomposed information, and the acquired pattern is registered in the corresponding database. For example, when the combination of two or more types of information is a company name and a product name, not only a pattern for acquiring a company name and a product name but also a pattern for acquiring a company name and a pattern for acquiring a product name Are also stored in the corresponding knowledge growth rule database 111, company rule database 108, or product rule database 109.

図2は、本実施の形態におけるデータベース構築装置2のブロック図である。データベース構築装置2は、会社商品固有名称データベース107、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、会社類似群コード固有名称データベース構築部23を備える。   FIG. 2 is a block diagram of the database construction device 2 in the present embodiment. The database construction device 2 includes a company product unique name database 107, a product similar group code correspondence database 21, a company similar group code unique name database 22, and a company similar group code unique name database construction unit 23.

商品類似群コード対応データベース21は、商品名と類似群コードを関連付けて保持するデータベースである。商品名は会社商品固有名称データベース107に格納されている商品名と同様、法人、および個人が販売、または提供している商品、または役務の名称である。ここでいう商品、および役務の名称は、類似群コード表に記載されている商品、および役務の名称に必ずしも準じていなくても良い。類似群コードとは、商標の審査基準上、互いに類似するものと考えられる商品、役務に付与されたコードで、数字2桁とアルファベット1桁と数字2桁のコードである。(http://www.jpo.go.jp/shiryou/kijun/kijun2/ruiji_kijun9.htm)   The product similar group code correspondence database 21 is a database that stores product names and similar group codes in association with each other. The product name is the name of a product or service that is sold or provided by a corporation and an individual, like the product name stored in the company product unique name database 107. The names of products and services here do not necessarily conform to the names of products and services described in the similar group code table. The similar group code is a code assigned to a product or service that is considered to be similar to each other in accordance with trademark examination standards, and is a code of 2 digits, 1 alphabet, and 2 digits. (Http://www.jpo.go.jp/shiryou/kijun/kijun2/ruiji_kijun9.htm)

商品類似群コード対応データベース21における商品名と類似群コードは、通常1対多の関係で格納されており、複数の商品名に対して同一の類似群コードが関連付けられて格納されている。   The product names and the similar group codes in the product similar group code correspondence database 21 are normally stored in a one-to-many relationship, and the same similar group codes are stored in association with a plurality of product names.

会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107に格納されている1以上の会社名と商品名と商品の固有名称の組から商品名を取得し、取得した商品名を用いて、商品類似群コード対応データベース21から商品の類似群コードを取得し、会社名と取得した類似群コードと商品の固有名称との組を会社類似群コード固有名称データベース22に蓄積する。   The company similar group code unique name database construction unit 23 obtains a product name from a set of one or more company names, product names, and product unique names stored in the company product unique name database 107, and obtains the obtained product name. The similar group code of the product is acquired from the product similar group code correspondence database 21, and the combination of the company name, the acquired similar group code, and the unique name of the product is stored in the company similar group code unique name database 22.

図3は、本実施の形態における商標侵害検知装置3のブロック図である。商標侵害検知装置3は、データベース31、受付部32、商標類否判断部33、商品類否判断部34、出力部35を備える。   FIG. 3 is a block diagram of the trademark infringement detection apparatus 3 in the present embodiment. The trademark infringement detection device 3 includes a database 31, a reception unit 32, a trademark class determination unit 33, a product class determination unit 34, and an output unit 35.

データベース31は、データベース構築装置1が構築した会社商品固有名称データベース107であっても良く、データベース構築装置2が構築した会社類似群コード固有名称データベース22であっても良い。   The database 31 may be the company product unique name database 107 constructed by the database construction device 1 or the company similar group code unique name database 22 constructed by the database construction device 2.

受付部32は、商標および商品の類似群コードを特定する情報であるコード特定情報を有する調査対象商標情報を受け付ける。調査対象商標情報とは、例えば、商標の文字列である商標文字列と、1以上のコード特定情報の組である。コード特定情報とは、商品名、または類似群コードそのものなどの類似群コードを特定する文字列である。商標文字列、および商品名の文字列は1文字以上の文字で構成される。商標文字列、および商品名の文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。また2種類以上の文字が混在していてもよい。ここでの受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線または無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。調査対象商標情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。受付部32は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。   The receiving unit 32 receives survey target trademark information having code specifying information that is information for specifying a similar group code of a trademark and a product. The investigation target trademark information is, for example, a set of a trademark character string that is a trademark character string and one or more code specifying information. The code specifying information is a character string that specifies a similar group code such as a product name or the similar group code itself. The trademark character string and the character string of the product name are composed of one or more characters. The characters constituting the trademark character string and the product name character string may be of any type, such as kanji, alphabet, katakana, and hiragana. Two or more types of characters may be mixed. Acceptance here means acceptance of information input from input devices such as a keyboard, mouse, touch panel, reception of information transmitted via a wired or wireless communication line, recording of an optical disk, magnetic disk, semiconductor memory, etc. It is a concept including reception of information read from a medium. Any means can be used for inputting the trademark information to be investigated, such as a numeric keypad, a keyboard, a mouse, or a menu screen. The receiving unit 32 can be realized by a device driver for input means such as a numeric keypad or a keyboard, control software for a menu screen, and the like.

商標類否判断部33は、データベース31が有する1以上の商品の固有名称と、調査対象商標情報が有する商標とを用いて、商標の類否判断を行う。   The trademark similarity determination unit 33 determines the similarity of a trademark using the unique names of one or more products included in the database 31 and the trademark included in the trademark information to be investigated.

図4は、本実施の形態における商標侵害検知装置3の商標類否判断部33のブロック図である。商標類否判断部33は、商標文字列取得部331、称呼取得部332、称呼表示部333、称呼指定受付部334、類似検索部335、商標類否判断結果取得部336を備える。   FIG. 4 is a block diagram of the trademark similarity determination unit 33 of the trademark infringement detection device 3 according to the present embodiment. The trademark similarity determination unit 33 includes a trademark character string acquisition unit 331, a designation acquisition unit 332, a designation display unit 333, a designation designation reception unit 334, a similarity search unit 335, and a trademark similarity determination result acquisition unit 336.

商標文字列取得部331は、商標の文字列である商標文字列を受け付ける。商標文字列は1文字以上の文字で構成される。商標文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。   The trademark character string acquisition unit 331 receives a trademark character string that is a trademark character string. The trademark character string is composed of one or more characters. The characters constituting the trademark character string may be of any type, such as kanji, alphabet, katakana and hiragana.

称呼取得部332は、商標文字列取得部331が受け付けた商標文字列から、この商標文字列の称呼の情報である称呼情報を取得する。称呼取得部332は、一の商標文字列から複数の称呼情報を取得しても良い。称呼取得部332が取得する称呼情報は、ひらがなまたはカタカナまたはこれらと同などの情報である。称呼情報がこれらのいずれであるかは、例えば、この称呼情報を検索に利用する後述する類似検索部335の仕様などによって決定される。   The name acquisition unit 332 acquires name information, which is information on the name of the trademark character string, from the trademark character string received by the trademark character string acquisition unit 331. The name acquisition unit 332 may acquire a plurality of pieces of name information from one trademark character string. The name information acquired by the name acquisition unit 332 is information such as hiragana, katakana, or the like. Which of these names is determined by, for example, the specification of a similarity search unit 335 (described later) that uses the name information for searching.

称呼取得部332は、称呼情報をどのように取得しても良い。例えば、称呼取得部332は、1以上の文字列と、当該文字列の読みの情報とを対応付けて有する辞書を用いて、図示しない記憶媒体などに格納されている辞書を用いて商標文字列取得部331が受け付けた商標文字列に対応する1以上の称呼情報を自動取得するようにしてもよい。また、ユーザなどから図示しない入力デバイスなどを介して入力された商標文字列に対応する1以上の称呼情報を取得(受付)してもよい。この実施の形態においては、特に、称呼情報を自動取得する場合を例に挙げて説明する。   The name acquisition unit 332 may acquire the name information in any way. For example, the name acquisition unit 332 uses a dictionary having one or more character strings and information on reading of the character strings in association with each other, and uses a trademark character string stored in a storage medium (not shown). One or more pieces of name information corresponding to the trademark character string received by the acquisition unit 331 may be automatically acquired. Further, one or more pieces of name information corresponding to a trademark character string input from a user or the like via an input device (not shown) may be acquired (accepted). In this embodiment, a case where name information is automatically acquired will be described as an example.

称呼取得部332は、例えば、商標文字列に対して形態素解析を行い、形態素解析により得られた商標文字列の読みの情報を称呼情報として取得する。例えば、形態素解析を用いることにより、商標文字列を形態素に分解し、分解された各文字列の読みを取得し、この文字列を組み合わせることで商標文字列の称呼情報を取得することが可能である。形態素解析においては、形態素の分解や形態素に分解された文字列からの読みの取得は、例えば、上記と同様の、形態素となりうる文字列と、その読みの情報とを対応付けて有する辞書を用いて行われる。形態素解析としては、例えば、「Mecab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen.naist.jp)などの形態素解析システムなどが利用可能である。   For example, the name acquisition unit 332 performs morphological analysis on the trademark character string, and acquires the reading information of the trademark character string obtained by the morphological analysis as name information. For example, by using morphological analysis, it is possible to decompose a trademark character string into morphemes, acquire readings of each decomposed character string, and acquire the designation information of the trademark character string by combining these character strings. is there. In morpheme analysis, morpheme decomposition and acquisition of readings from character strings decomposed into morphemes are performed using, for example, a dictionary that associates character strings that can be morphemes with information about the readings, as described above. Done. As the morphological analysis, for example, a morphological analysis system such as “Mecab” (http://mecab.sourceforge.net/) or “ChaSen” (http://chasen.naist.jp) Etc. are available.

また、称呼取得部332は、商標文字列を構成する漢字や、数字や、アルファベットなどの文字や単語などを読みに変換して、称呼情報を取得しても良い。漢字や、数字の文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのいわゆる再変換技術や、上述したような形態素解析システムの技術により実現可能である。また、アルファベットの文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのアルファベット列の入力を日本語に変換する技術により実現可能である。アルファベット列を日本語の読みに変換する技術は、例えば、特開2009−199434号公報などに開示されている。なお、アルファベットや、漢字や、数字の称呼(読み)は、一通りとは限らないため、称呼取得部332は、様々な組合せの複数の情報を取得しても良い。例えば「IT」から「アイティー」、「アイティイ」と「イット」という複数の称呼を取得しても良い。また、「山田」から「ヤマダ」、「ヤマタ」、「ヤマデン」、「サンデン」、「サンダ」、「サンタ」という複数の称呼を取得しても良い。   The name acquisition unit 332 may acquire name information by converting a kanji, a number, a character such as an alphabet, or a word constituting a trademark character string into a reading. The process of converting kanji, numeric characters, and words into readings can be realized by, for example, a so-called re-conversion technique of a Japanese input method or a morphological analysis system technique as described above. Further, the process of converting alphabetic characters and words into readings can be realized, for example, by a technique for converting the input of the alphabet string of the Japanese input method into Japanese. A technique for converting alphabet strings into Japanese readings is disclosed in, for example, Japanese Patent Application Laid-Open No. 2009-199434. In addition, since an alphabet, a kanji, and a numerical name (reading) of a number are not necessarily one way, the name acquisition part 332 may acquire several information of various combinations. For example, a plurality of designations “IT”, “IT” and “It” may be acquired from “IT”. A plurality of designations “Yamada”, “Yamata”, “Yamaden”, “Sanden”, “Sanda”, and “Santa” may be acquired from “Yamada”.

また、称呼取得部332は、商標文字列を構成し得る文字列(例えば、漢字や、アルファベットや、数字など)と、その読みの情報(辞書情報)を予め図示しない格納部に蓄積しておくようにし、商標文字列を構成する各文字についてそれぞれ1以上の読みの情報を取得して、取得した読みの情報を組み合わせたものを称呼情報として取得してもよい。   Further, the name acquisition unit 332 accumulates in advance a character string (for example, kanji, alphabet, numbers, etc.) that can constitute a trademark character string and reading information (dictionary information) in a storage unit (not shown). In this way, one or more reading information may be acquired for each character constituting the trademark character string, and a combination of the acquired reading information may be acquired as name information.

また、例えば、1以上の文字列とその読みを示すカタカナまたはひらがなとを対応付けて有する予め用意された形態素の辞書情報について、称呼取得部332が、商標文字列に含まれるカタカナまたはひらがな以外の文字列と一致する文字列を検索し、検出された文字列に対応付けられた読み(称呼)の情報を辞書情報から順次取得していくことで実現可能である。なお、一の文字列について読みが複数ある場合や、検索に用いる文字数の区切で異なる称呼が得られる場合には、複数の読みを組み合わせたり区切を変更したりしてこれらを適宜組み合わせて複数の称呼情報を取得する。このような辞書情報は、例えば、称呼取得部332が、予め保持しているようにすればよい。称呼取得部332は、このような辞書情報を保持する記憶媒体などを有していても良い。   Further, for example, with respect to morpheme dictionary information prepared in advance having one or more character strings associated with katakana or hiragana indicating the reading, the name acquisition unit 332 may include other than katakana or hiragana included in the trademark character string. This can be realized by searching for a character string that matches the character string and sequentially acquiring reading (name) information associated with the detected character string from the dictionary information. When there are multiple readings for a single character string, or when different designations are obtained by dividing the number of characters used in the search, a combination of multiple readings or changing the dividing may be used to appropriately combine a plurality of readings. Get name information. Such dictionary information may be held in advance by the name acquisition unit 332, for example. The name acquisition unit 332 may include a storage medium that holds such dictionary information.

称呼取得部332は、さらに、上記で取得した1以上の称呼情報を分割して1以上の分割称呼情報を取得してもよい。分割称呼情報は、具体的には、称呼情報の一部分の情報である。分割称呼情報は、例えば、後述する類似検索などで称呼情報と実質的に同じものとして利用される。例えば、称呼取得部332は、取得した称呼情報のそれぞれの文字列を、任意の位置で区切って、その区切った位置によって分割される前または後、またはその両方の文字列を分割称呼情報として取得する。また、称呼取得部332は、文字列の区切る位置を順次変更して、それぞれの区切る位置に応じて分割称呼情報を取得しても良い。例えば、称呼取得部332は、各称呼情報を構成する文字列をそれぞれの文字間で区切っていった場合にそれぞれ得られる区切り位置の前後の文字列を、すべて分割称呼情報として取得しても良い。   The name acquisition unit 332 may further acquire one or more divided name information by dividing the one or more name information acquired above. Specifically, the division name information is information of a part of the name information. The divided name information is used as substantially the same as the name information in, for example, a similarity search described later. For example, the name acquisition unit 332 divides each character string of the acquired name information at an arbitrary position and acquires character strings before or after being divided by the divided position, or both as divided name information. To do. The name acquisition unit 332 may sequentially change the position where the character string is divided, and acquire the divided name information according to each position where the character string is divided. For example, the name acquisition unit 332 may acquire all the character strings before and after the delimiter positions obtained when the character strings constituting the name information are divided between the characters as the divided name information. .

称呼表示部333は、称呼取得部332が取得した1以上の称呼情報を図示しないモニタなどの表示デバイスに表示する。また、称呼表示部333は、称呼取得部332が取得した1以上の分割称呼情報を表示してもよい。称呼表示部333は、表示デバイスを含むと考えても含まないと考えてもよい。称呼表示部333は、表示デバイスのドライバーソフト、または表示デバイスのドライバーソフトと表示デバイスなどで実現され得る。   The name display unit 333 displays one or more pieces of name information acquired by the name acquisition unit 332 on a display device such as a monitor (not shown). The name display unit 333 may display one or more pieces of divided name information acquired by the name acquisition unit 332. The name display unit 333 may be considered as including or not including a display device. The designation display unit 333 can be realized by display device driver software, or display device driver software and a display device.

称呼指定受付部334は、称呼取得部332が取得した称呼情報の1以上を指定する称呼指定情報をユーザなどから受け付ける。例えば、称呼指定情報は、称呼表示部333に表示された称呼情報の1以上を指定する称呼指定情報を受け付ける。また、称呼指定受付部334は、称呼取得部332が取得した称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報をユーザなどから受け付けてもよい。例えば、称呼指定受付部334は、称呼表示部333により表示された称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報を受け付ける。なお、称呼指定受付部334は、予めどのような称呼を指定するか定めたルールを設けることで、ユーザに選択させなくても良いようにしてもよい。称呼指定情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。称呼指定受付部334は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。   The designation designation accepting unit 334 accepts designation designation information for designating one or more pieces of designation information acquired by the designation acquisition unit 332 from a user or the like. For example, the designation designation information accepts designation designation information for designating one or more pieces of designation information displayed on the designation display unit 333. Further, the designation designation accepting unit 334 may accept designation designation information for designating one or more of the designation information and the divided designation information acquired by the designation acquisition unit 332 from a user or the like. For example, the designation designation accepting unit 334 accepts designation designation information for designating one or more of the designation information and the divided designation information displayed by the designation display unit 333. Incidentally, the nominal designation receiver 334, by providing a rule that defines how to specify in advance what nominal, may be may not be selected by the user. The name designation information input means may be anything such as a numeric keypad, keyboard, mouse, or menu screen. The designation designation accepting unit 334 can be realized by a device driver for input means such as a numeric keypad or a keyboard, control software for a menu screen, or the like.

類似検索部335は、称呼取得部332が取得した各称呼情報を用いて類似検索を行う。または、類似検索部335は、称呼取得部332が取得した称呼情報のうちの、称呼指定情報が指定する各称呼情報を用いて類似検索を行うようにしてもよい。また、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とを用いて類似検索を行うようにしてもよい。または、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とのうちの、称呼指定情報が指定する称呼情報と分割称呼情報とを用いて類似検索を行うようにしてもよい。称呼指定情報が指定する称呼情報と分割称呼情報とを用いてとは、例えば、指定された称呼情報または分割称呼情報だけを用いることを意味する。類似検索部335は、図示しない記憶媒体などの格納部に予め格納されている登録商標の称呼の情報(以下、登録称呼情報と称す)の中から、称呼情報(または分割称呼情報)と類似する登録称呼情報を検索する。登録称呼情報は会社商品固有名称データベース107、または会社類似群コード固有名称データベース22の固有名称から、予め作成構築しておく。   The similarity search unit 335 performs a similarity search using each name information acquired by the name acquisition unit 332. Alternatively, the similarity search unit 335 may perform a similar search using each piece of name information specified by the name designation information among the name information acquired by the name acquisition unit 332. Further, the similarity search unit 335 may perform a similarity search using each piece of nominal information acquired by the nominal acquisition unit 332 and each piece of divided nominal information. Alternatively, the similarity search unit 335 performs a similar search by using the name information and the divided name information specified by the name designation information among the name information and the divided name information acquired by the name acquisition unit 332. May be. The use of the designation name information and the division designation information specified by the designation designation information means, for example, that only the designated designation information or division designation information is used. Similarity search unit 335 is similar to name information (or divided name information) from registered trademark name information (hereinafter referred to as registered name information) stored in a storage unit such as a storage medium (not shown). Search registered name information. The registered name information is created and constructed in advance from the unique names in the company product unique name database 107 or the company similar group code unique name database 22.

なお、登録商標の称呼の情報が格納されている図示しない格納部は、商標類否判断部33が有していても良いし、図示しない外部のサーバ装置などが有していても良い。また、図示しない登録商標の類似検索の処理を行うサーバ装置などに、称呼情報または分割称呼情報、および類似群コードを送信して類似検索を実行させ、その検索結果を類似検索部335が受信するようにしても良く、このような場合も、類似検索部335が類似検索を行ったと考えて良い。   Note that a storage unit (not shown) in which registered trademark designation information is stored may be included in the trademark kind determination unit 33 or an external server device (not illustrated). In addition, the similar search unit 335 transmits the name information or the divided name information and the similar group code to a server device or the like that performs a similar search process for a registered trademark (not shown), and the similar search unit 335 receives the search result. In such a case, it may be considered that the similarity search unit 335 has performed a similarity search.

また、類似検索部335による類似検索の処理は、称呼情報の音響学的な判断処理であっても良い。称呼情報の音節などから類似しないと判断される要因を検出し、その要因をペナルティ値に換算し、換算したペナルティ値を用いて、称呼情報が類似するか否かを判断して、商標文字列から取得した称呼情報と類似する称呼情報を登録商標の称呼情報の中から検出する処理である。なお、ここでは、説明の便宜上、分割称呼情報も称呼情報と呼ぶこととする。また、ここでは、登録商標の称呼情報である登録称呼情報が、類似群コードと登録商標の識別情報などと対応付けて図示しない格納部に格納されているものとする。   Further, the similarity search process by the similarity search unit 335 may be an acoustic determination process of name information. Detects a factor that is judged to be dissimilar from syllables of nominal information, converts the factor into a penalty value, determines whether the nominal information is similar using the converted penalty value, and uses a trademark character string This is a process of detecting the name information similar to the name information acquired from the name information of the registered trademark. Here, for convenience of explanation, the division name information is also referred to as name information. In addition, here, it is assumed that registered name information, which is name information of a registered trademark, is stored in a storage unit (not shown) in association with similar group code and registered trademark identification information.

類似検索部335が取得する類似検索の結果は、例えば、少なくとも類似する登録称呼情報が検出されたか否かを示すことが可能な情報である。例えば、類似検索の結果は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でもよい。また類似する登録称呼情報の数などを示す情報でも良い。また、称呼の情報が、登録商標や、その識別情報(例えば登録番号)などと対応付けて上述した図示しない格納部に格納されている場合、類似する登録称呼情報に対応する登録商標やその識別情報を図示しない格納部から取得して検索結果として出力してもよい。また、登録称呼情報に対応付けられた類似群コードの情報を含む情報を出力してもよい。登録商標の称呼について類似検索を行うための具体的な処理については、上述した特許文献1や、日本の特許庁が提供する称呼検索サービスや、商用データベースの称呼検索サービスなどの技術として公知であるので、ここでは詳細な説明は省略する。   The result of the similarity search acquired by the similarity search unit 335 is information that can indicate, for example, whether or not at least similar registered name information is detected. For example, the result of the similarity search may be information indicating the presence or absence of similar registered name information, or may be information indicating one or more similar registered name information. Further, it may be information indicating the number of similar registered name information. In addition, when the name information is stored in the above-described storage unit (not shown) in association with a registered trademark or its identification information (for example, a registration number), the registered trademark corresponding to similar registered name information or its identification Information may be acquired from a storage unit (not shown) and output as a search result. Moreover, you may output the information containing the information of the similar group code matched with registration name call information. Specific processing for performing a similar search for a registered trademark name is known as a technique such as the above-described Patent Document 1, a name search service provided by the Japanese Patent Office, or a name search service for a commercial database. Therefore, detailed description is omitted here.

商標類否判断結果取得部336は、例えば、類似検索部335による類似検索の結果と、類似検索の結果の各称呼情報と関連する会社名と類似群コード特定情報を取得する。類似検索の結果については、類似検索の結果を、類似検索を行った称呼情報ごとに取得する。また、類似検索の結果については、例えば、類似検索の結果を、類似検索を行った分割称呼情報ごとに取得する。また、称呼が類似すると判断された登録商標や、登録商標の識別情報を示す情報も各証拠情報に対して付加しても良い。   The trademark similarity determination result acquisition unit 336 acquires, for example, the result of the similarity search by the similarity search unit 335, the company name and the similar group code specifying information related to the name information of the result of the similarity search. As for the result of the similarity search, the result of the similarity search is acquired for each name information for which the similarity search is performed. As for the result of the similarity search, for example, the result of the similarity search is acquired for each divided name information that has been subjected to the similarity search. In addition, a registered trademark determined to be similar in name and information indicating identification information of the registered trademark may be added to each piece of evidence information.

商品類否判断部34は、データベース31が有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。調査対象商標情報が商品名を保持していた場合、会社商品固有名称データベース107から調査対象商標情報の商品名に関連する商品名をもつレコードの会社名と商品の固有名称を取得する。調査対象商標情報の商品名に関連したとは、例えば、調査対象商標情報の商品名と会社商品固有名称データベース107の商品名とが同一である、または意味的に類似しているなどの場合である。調査対象商標情報が類似群コードを保持していた場合、会社類似群コード固有名称データベース22から調査対象商標情報の類似群コードと同一の類似群コードをもつレコードの会社名と商品の固有名称を取得する。   The merchandise similarity determination unit 34 determines the similarity of the merchandise using one or more product names or one or more similar group codes included in the database 31 and code identification information included in the survey target trademark information. When the survey target trademark information holds the product name, the company name and the product unique name of the record having the product name related to the product name of the survey target trademark information are acquired from the company product unique name database 107. The term “related to the product name of the survey target trademark information” means, for example, the case where the product name of the survey target trademark information and the product name of the company product unique name database 107 are the same or similar in meaning. is there. When the survey target trademark information holds a similar group code, the company name and product unique name of the record having the same similar group code as the similar group code of the survey target trademark information are stored from the company similar group code specific name database 22. get.

出力部35は、商標類否判断部33の判断結果と、商品類否判断部34の判断結果とから、商標の類似、および商品の類似に関する情報を出力する。例えば、類否する情報が検出されたか否かを示すことが可能な情報を出力する。例えば、商標類否判断部33の判断結果の場合は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でも良い。また、類似する登録称呼情報の数などを示す情報でも良い。また、類似する任意数の類似する登録称呼情報であっても良い。また、類似する登録称呼情報に対応する登録商標やその識別情報を出力しても良い。また、上記すべての出力内容について、会社名、または商品名、または類似群コード、または商品の固有名称のうち、一部または全部を付加して出力しても良い。また、例えば商品類否判断部34の判断結果の場合は、該当するコード特定情報の有無を示す情報であっても良いし、該当する1以上のコード特定情報を示す情報でも良い。また、該当するコード特定情報の数などを示す情報でも良い。また、上記すべての出力内容について、会社名、または固有名称のうち、一方または双方を付加して出力しても良い。   The output unit 35 outputs information on the similarity of the trademark and the similarity of the product based on the determination result of the trademark similarity determination unit 33 and the determination result of the product similarity determination unit 34. For example, information that can indicate whether or not similar information is detected is output. For example, in the case of the determination result of the trademark kind determination unit 33, information indicating the presence or absence of similar registered name information may be used, or information indicating one or more similar registered name information may be used. Moreover, the information which shows the number of similar registration name call information etc. may be sufficient. Further, it may be an arbitrary number of similar registered name information. Further, registered trademarks corresponding to similar registered name information and identification information thereof may be output. Further, all or all of the above output contents may be output by adding a part or all of the company name, the product name, the similar group code, or the unique name of the product. Further, for example, in the case of the determination result of the product type rejection determination unit 34, information indicating the presence / absence of corresponding code specifying information may be used, or information indicating one or more corresponding code specifying information may be used. Moreover, the information which shows the number of applicable code specific information etc. may be sufficient. Moreover, about all the said output content, you may add and output one or both among a company name or a specific name.

出力部35は、商標類否判断部33の判断結果すべてと、商品類否判断部34の判断結果をすべて出力しても良く、どちらか一方であっても良い。また、出力部35は商標類否判断部33と商品類否判断部34の結果のうち商品の固有名称が共通するものだけを出力しても良い。   The output unit 35 may output all the judgment results of the trademark kind judgment unit 33 and all judgment results of the product kind judgment unit 34, or may be either one. Further, the output unit 35 may output only the common product unique names among the results of the trademark similarity determination unit 33 and the product similarity determination unit 34.

ここで述べる出力とは、ディスプレイへの表示、プリンタによる紙などへの印字、外部の装置への送信、記録媒体への蓄積などを含む概念である。出力部35は、表示デバイスを含むと考えても含まないと考えてもよい。出力部35は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。   The output described here is a concept including display on a display, printing on paper or the like by a printer, transmission to an external device, accumulation in a recording medium, and the like. The output unit 35 may or may not include a display device. The output unit 35 can be realized by driver software of an output device or driver software of an output device and an output device.

図5は、本実施の形態にかかる会社名取得部112の動作の一例を示すフローチャートである。以下、図5を用いて動作について説明する。   FIG. 5 is a flowchart showing an example of the operation of the company name acquisition unit 112 according to the present embodiment. The operation will be described below with reference to FIG.

(ステップS401)会社名取得部112は、会社ルールデータベース108から会社ルールを取得する。取得できた場合、ステップS402に進み、取得できなかった場合、終了する。   (Step S401) The company name acquisition unit 112 acquires a company rule from the company rule database 108. If it can be acquired, the process proceeds to step S402. If it cannot be acquired, the process ends.

(ステップS402)会社名取得部112は、カウンターmに1を代入する。   (Step S402) The company name acquisition unit 112 substitutes 1 for a counter m.

(ステップS403)会社名取得部112は、ステップS401で取得した会社ルールにm番目の会社ルールがあるか否かを判断する。ある場合は、ステップS404に進み、ない場合は、終了する。   (Step S403) The company name acquisition unit 112 determines whether or not there is an mth company rule in the company rules acquired in step S401. If there is, the process proceeds to step S404, and if not, the process ends.

(ステップS404)会社名取得部112は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、会社ルールデータベース108から会社名を含む文章を取得する会社ルールを用いて、予め取得した会社名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS405へ進み、取得できなかった場合はステップS410に進む。   (Step S404) The company name acquisition unit 112 acquires a Web page from the Web server device. Get it at this time. The Web page may be a Web page that may contain a company name acquired in advance using a company rule that acquires a sentence including the company name from the company rule database 108, or is acquired in large quantities at random. You may do it. If the Web page can be acquired, the process proceeds to step S405. If the Web page cannot be acquired, the process proceeds to step S410.

(ステップS405)会社名取得部112は、カウンターnに1を代入する。   (Step S405) The company name acquisition unit 112 substitutes 1 for a counter n.

(ステップS406)会社名取得部112は、ステップS404で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS407に進み、ない場合は、ステップS410に進む。   (Step S406) The company name acquisition unit 112 determines whether there is an nth Web page in the Web page acquired in Step S404. If there is, the process proceeds to step S407, and if not, the process proceeds to step S410.

(ステップS407)会社名取得部112は、ステップS404で取得したWebページのn番目のWebページに対し、ステップS401で取得した会社ルールのm番目の会社ルールを用いて会社名を取得する。取得できた場合は、ステップS408へ進み、取得できなかった場合は、ステップS409に移動する。   (Step S407) The company name acquisition unit 112 acquires a company name for the nth Web page of the Web page acquired in Step S404 by using the mth company rule of the company rule acquired in Step S401. If it can be acquired, the process proceeds to step S408. If it cannot be acquired, the process proceeds to step S409.

(ステップS409)会社名取得部112は、カウンターnをインクリメントする。そして、ステップS406に戻る。   (Step S409) The company name acquisition unit 112 increments the counter n. Then, the process returns to step S406.

(ステップS410)会社名取得部112は、カウンターmをインクリメントする。そしてステップS403に戻る。   (Step S410) The company name acquisition unit 112 increments the counter m. Then, the process returns to step S403.

以下、本実施の形態における会社名取得部112の具体的な動作について説明する。なお、この具体例において示した会社名取得部112の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the company name acquisition unit 112 in the present embodiment will be described. Note that the acquisition result of the company name acquisition unit 112 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

会社名取得部112が、会社ルールデータベース108から会社名を取得するためのすべてのルールを取得する。もし、会社ルールデータベース108に、会社ルールが抽出する対象に関するデータを保持していた場合、「会社名」が対象の会社ルールだけを取得する。また、もし会社ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた会社ルールだけを取得しても良い。今回の具体例では、会社ルールを5種類取得したとする。   The company name acquisition unit 112 acquires all rules for acquiring a company name from the company rule database 108. If the company rule database 108 holds data related to the target extracted by the company rule, only the company rule whose “company name” is the target is acquired. In addition, if values such as the number of acquisitions and acquisition ratio of company rules are held, only company rules exceeding an arbitrary threshold may be acquired. In this specific example, it is assumed that five types of company rules have been acquired.

図6は会社ルールデータベース108に格納されているデータの一例を示す図である。会社ルールデータベース108は、会社名を取得するパターンを有している。具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名として取得する会社ルールを列挙した。   FIG. 6 is a diagram illustrating an example of data stored in the company rule database 108. The company rule database 108 has a pattern for acquiring a company name. As a specific example, company rules for acquiring a noun phrase corresponding to a part described as “% company name%” as a company name are listed.

会社名取得部112は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。   The company name acquisition unit 112 acquires a Web page. In this specific example, it is assumed that 100 types of Web pages are acquired at random.

会社名取得部112は取得したすべての会社ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、会社ルールが5種類、Webページが100種類なので500回会社名の取得を行う。具体的には、会社ルールが「<title>%会社名%株式会社</title>」の場合、取得したWebページに「<title>サンプル商事株式会社</title>」と記載されていれば、「サンプル商事」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。   The company name acquisition unit 112 acquires company names from all acquired Web pages using all acquired company rules. In this case, since there are 5 types of company rules and 100 types of Web pages, the company name is acquired 500 times. Specifically, if the company rule is “<title>% company name% corporation </ title>”, if “<title> sample trading corporation </ title>” is described in the acquired Web page. , Get “sample trading” part. However, nothing is acquired unless the content corresponding to the pattern is described.

会社名取得部112は、会社名が取得できた場合は、会社データベース101に登録する。今回の場合では、「サンプル商事」を登録する。また、もし会社ルールデータベース108が会社ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル商事株式会社</title>」も一緒に登録しても良い。   The company name acquisition unit 112 registers the company name in the company database 101 when the company name can be acquired. In this case, “Sample Trading” is registered. In addition, if the company rule database 108 holds values such as the number of acquisitions and the acquisition ratio of company rules, it may be registered together with the values, and the “<title> sample trading” around the acquired information. </ Title> "may be registered together.

以上、本実施の形態によれば、任意のWebページから会社名を取得できる。   As described above, according to the present embodiment, a company name can be acquired from an arbitrary Web page.

図7は、本実施の形態にかかる商品名取得部113の動作の一例を示すフローチャートである。以下、図7を用いて動作について説明する。   FIG. 7 is a flowchart showing an example of the operation of the product name acquisition unit 113 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS501)商品名取得部113は、商品ルールデータベース109から商品ルールを取得する。取得できた場合、ステップS502に進み、取得できなかった場合、終了する。   (Step S501) The product name acquisition unit 113 acquires a product rule from the product rule database 109. If it can be acquired, the process proceeds to step S502. If it cannot be acquired, the process ends.

(ステップS502)商品名取得部113は、カウンターmに1を代入する。   (Step S502) The product name acquisition unit 113 substitutes 1 for the counter m.

(ステップS503)商品名取得部113は、ステップS501で取得した商品ルールにm番目の商品ルールがあるか否かを判断する。ある場合は、ステップS504に進み、ない場合は、終了する。   (Step S503) The product name acquisition unit 113 determines whether or not the product rule acquired in step S501 includes the mth product rule. If there is, the process proceeds to step S504, and if not, the process ends.

(ステップS504)商品名取得部113は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、商品ルールデータベース109から商品名を含む文章を取得する商品ルールを用いて、予め取得した商品名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS505へ進み、取得できなかった場合はステップS510に進む。   (Step S504) The product name acquisition unit 113 acquires a Web page from the Web server device. Get it at this time. The Web page may be a Web page that may contain a product name acquired in advance using a product rule that acquires a sentence including the product name from the product rule database 109, or may be acquired in large quantities at random. You may do it. If the Web page can be acquired, the process proceeds to step S505. If the Web page cannot be acquired, the process proceeds to step S510.

(ステップS505)商品名取得部113は、カウンターnに1を代入する。   (Step S505) The product name acquisition unit 113 assigns 1 to the counter n.

(ステップS506)商品名取得部113は、ステップS504で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS507に進み、ない場合は、ステップS510に進む。   (Step S506) The product name acquisition unit 113 determines whether the Web page acquired in Step S504 includes the nth Web page. If there is, the process proceeds to step S507, and if not, the process proceeds to step S510.

(ステップS507)商品名取得部113は、ステップS504で取得したWebページのn番目のWebページに対し、ステップS501で取得した商品ルールのm番目の商品ルールを用いて商品名を取得する。取得できた場合は、ステップS508へ進み、取得できなかった場合は、ステップS509に移動する。   (Step S507) The product name acquisition unit 113 acquires the product name for the nth Web page of the Web page acquired in Step S504, using the mth product rule of the product rule acquired in Step S501. If it can be acquired, the process proceeds to step S508. If it cannot be acquired, the process proceeds to step S509.

(ステップS509)商品名取得部113は、カウンターnをインクリメントする。そして、ステップS506に戻る。   (Step S509) The product name acquisition unit 113 increments the counter n. Then, the process returns to step S506.

(ステップS510)商品名取得部113は、カウンターmをインクリメントする。そしてステップS503に戻る。   (Step S510) The product name acquisition unit 113 increments the counter m. Then, the process returns to step S503.

以下、本実施の形態における商品名取得部113の具体的な動作について説明する。なお、この具体例において示した商品名取得部113の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the product name acquisition unit 113 in the present embodiment will be described. Note that the acquisition result of the product name acquisition unit 113 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

商品名取得部113が、商品ルールデータベース109から商品名を取得するためのすべてのルールを取得する。もし、商品ルールデータベース109に、商品ルールが抽出する対象に関するデータを保持していた場合、「商品名」が対象の商品ルールだけを取得する。また、もし、商品ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた商品ルールだけを取得しても良い。今回の具体例では、商品ルールを5種類取得したとする。   The product name acquisition unit 113 acquires all rules for acquiring product names from the product rule database 109. If the product rule database 109 holds data related to the object to be extracted by the product rule, only the product rule whose “product name” is the target is acquired. Further, if values such as the number of acquisitions of product rules and the acquisition ratio are held, only product rules that exceed an arbitrary threshold may be acquired. In this specific example, it is assumed that five types of product rules have been acquired.

図8は商品ルールデータベース109に格納されているデータの一例を示す図である。商品ルールデータベース109は、商品名を取得するパターンを有している。具体例として、「%商品名%」と記載されている部分に該当する名詞句を商品名として取得する商品ルールを列挙した。   FIG. 8 is a diagram illustrating an example of data stored in the product rule database 109. The product rule database 109 has a pattern for acquiring product names. As a specific example, product rules for acquiring a noun phrase corresponding to a portion described as “% product name%” as a product name are listed.

商品名取得部113は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。   The product name acquisition unit 113 acquires a Web page. In this specific example, it is assumed that 100 types of Web pages are acquired at random.

商品名取得部113は取得したすべての商品ルールを用いて、取得したすべてのWebページから商品名を取得する。今回の場合では、商品ルールが5種類、Webページが100種類なので500回商品名の取得を行う。具体的には、商品ルールが「<title>商品名一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?>%商品名%</li>)+</ul>」の場合、取得したWebページに「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”tv.html”>テレビ</li><li><a href=”dvd.html”>DVDプレイヤ</li><li><a href=”pc.html”>パソコン</li></ul>・・・(省略)・・・」と記載されていれば、「テレビ」「DVDプレイヤ」「パソコン」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。   The product name acquisition unit 113 acquires product names from all acquired Web pages using all acquired product rules. In this case, since there are 5 types of product rules and 100 types of Web pages, the product name is acquired 500 times. Specifically, the product rule is “<title> product name list </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?>% Product name% </ Li>) + </ ul> ”,“ <title> Product name list </ title>... (Omitted)... <Span> list </ span> <ul> <Li> <a href = ”tv. html "> TV </ li> <li> <a href =" dvd. html "> DVD player </ li> <li> <a href =" pc. If “html”> PC </ li> </ UL>... (omitted)..., “TV,” “DVD player,” “PC” is acquired. However, nothing is acquired unless the content corresponding to the pattern is described.

商品名取得部113は、商品名が取得できた場合は、商品データベース102に登録する。今回の場合では、「テレビ」と「DVDプレイヤ」と「パソコン」を登録する。また、もし商品ルールデータベース109が商品ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”tv.html”>テレビ</li><li><a href=”dvd.html”>DVDプレイヤ</li><li><a href=”pc.html”>パソコン</li></ul>・・・(省略)・・・」も一緒に登録しても良い。   The product name acquisition unit 113 registers the product name in the product database 102 when the product name can be acquired. In this case, “TV”, “DVD player”, and “PC” are registered. Also, if the product rule database 109 holds values such as the number of product rule acquisitions and the acquisition ratio, it may be registered together with the values, and the “<title> product name” around the acquired information. List </ title> ... (omitted) ... <span> list </ span> <ul> <li> <a href = ”tv. html "> TV </ li> <li> <a href =" dvd. html "> DVD player </ li> <li> <a href =" pc. html "> PC </ li> </ ul> ... (omitted) ..." may be registered together.

以上、本実施の形態によれば、任意のWebページから商品名を取得できる。   As described above, according to the present embodiment, a product name can be acquired from an arbitrary Web page.

図9は、本実施の形態にかかる固有名称取得部114の動作の一例を示すフローチャートである。以下、図9を用いて動作について説明する。   FIG. 9 is a flowchart showing an example of the operation of the unique name acquisition unit 114 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS601)固有名称取得部114は、固有名称ルールデータベース110から固有名称ルールを取得する。取得できた場合、ステップS602に進み、取得できなかった場合、終了する。   (Step S <b> 601) The unique name acquisition unit 114 acquires a unique name rule from the unique name rule database 110. If it can be acquired, the process proceeds to step S602. If it cannot be acquired, the process ends.

(ステップS602)固有名称取得部114は、カウンターmに1を代入する。   (Step S602) The unique name acquisition unit 114 substitutes 1 for the counter m.

(ステップS603)固有名称取得部114は、ステップS601で取得した固有名称ルールにm番目の固有名称ルールがあるか否かを判断する。ある場合は、ステップS604に進み、ない場合は、終了する。   (Step S603) The unique name acquisition unit 114 determines whether or not there is an mth unique name rule in the unique name rule acquired in step S601. If there is, the process proceeds to step S604, and if not, the process ends.

(ステップS604)固有名称取得部114は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、固有名称ルールデータベース110から商品の固有名称を含む文章を取得する固有名称ルールを用いて、予め取得した商品の固有名称が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS605へ進み、取得できなかった場合はステップS610に進む。   (Step S604) The unique name acquisition unit 114 acquires a Web page from the Web server device. Get it at this time. The web page may be a web page that may include the unique name of the product acquired in advance using the unique name rule for acquiring the sentence including the unique name of the product from the unique name rule database 110. You may acquire a large amount at random. If the Web page can be acquired, the process proceeds to step S605. If the Web page cannot be acquired, the process proceeds to step S610.

(ステップS605)固有名称取得部114は、カウンターnに1を代入する。   (Step S605) The unique name acquisition unit 114 substitutes 1 for the counter n.

(ステップS606)固有名称取得部114は、ステップS604で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS607に進み、ない場合は、ステップS610に進む。   (Step S606) The unique name acquisition unit 114 determines whether or not the Web page acquired in Step S604 includes the nth Web page. If there is, the process proceeds to step S607, and if not, the process proceeds to step S610.

(ステップS607)固有名称取得部114は、ステップS604で取得したWebページのn番目のWebページに対し、ステップS601で取得した固有名称ルールのm番目の固有名称ルールを用いて商品の固有名称を取得する。取得できた場合は、ステップS608へ進み、取得できなかった場合は、ステップS609に移動する。   (Step S607) The unique name acquisition unit 114 uses the mth unique name rule of the unique name rule acquired in step S601 for the nth Web page of the Web page acquired in step S604. get. If it can be acquired, the process proceeds to step S608. If it cannot be acquired, the process proceeds to step S609.

(ステップS609)固有名称取得部114は、カウンターnをインクリメントする。そして、ステップS606に戻る。   (Step S609) The unique name acquisition unit 114 increments the counter n. Then, the process returns to step S606.

(ステップS610)固有名称取得部114は、カウンターmをインクリメントする。そしてステップS603に戻る。   (Step S610) The unique name acquisition unit 114 increments the counter m. Then, the process returns to step S603.

以下、本実施の形態における固有名称取得部114の具体的な動作について説明する。なお、この具体例において示した固有名称取得部114の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the unique name acquisition unit 114 in the present embodiment will be described. Note that the acquisition result of the unique name acquisition unit 114 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

固有名称取得部114が、固有名称ルールデータベース110から商品の固有名称を取得するためのすべてのルールを取得する。もし、固有名称ルールデータベース110に、固有名称ルールが抽出する対象に関するデータを保持していた場合、「商品の固有名称」が対象の固有名称ルールだけを取得する。また、もし固有名称ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた固有名称ルールだけを取得しても良い。今回の具体例では、固有名称ルールを5種類取得したとする。   The unique name acquisition unit 114 acquires all the rules for acquiring the unique name of the product from the unique name rule database 110. If the unique name rule database 110 stores data related to the object extracted by the unique name rule, only the unique name rule for which “product unique name” is the target is acquired. In addition, if values such as the number of acquisitions and acquisition ratios of unique name rules are held, only unique name rules exceeding an arbitrary threshold value may be acquired. In this specific example, it is assumed that five types of unique name rules have been acquired.

図10は固有名称ルールデータベース110に格納されているデータの一例を示す図である。固有名称ルールデータベース110は、商品の固有名称を取得するパターンを有している。具体例として、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する固有名称ルールを列挙した。   FIG. 10 is a diagram illustrating an example of data stored in the unique name rule database 110. The unique name rule database 110 has a pattern for acquiring a unique name of a product. As a specific example, specific name rules for acquiring a noun phrase corresponding to a portion described as “% proper name%” as a proper name of a product are listed.

固有名称取得部114は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。   The unique name acquisition unit 114 acquires a Web page. In this specific example, it is assumed that 100 types of Web pages are acquired at random.

固有名称取得部114は取得したすべての固有名称ルールを用いて、取得したすべてのWebページから商品の固有名称を取得する。今回の場合では、固有名称ルールが5種類、Webページが100種類なので500回商品の固有名称の取得を行う。具体的には、固有名称ルールが「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」の場合、取得したWebページに「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”sc.html”>サンプルカメラ</li><li><a href=”sc2.html”>サンプルカメラ2</li></ul>・・・(省略)・・・」と記載されていれば、「サンプルカメラ」「サンプルカメラ2」を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。   The unique name acquisition unit 114 acquires the unique name of the product from all the acquired web pages using all the acquired unique name rules. In this case, since the unique name rule is 5 types and the web page is 100 types, the unique name of the product is acquired 500 times. Specifically, the unique name rule is “<title> product list </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A. * ?>% Proper name% </a> </ li>) + </ ul> ”,“ <title> product list </ title> ... (omitted) ... <span > List </ span> <ul> <li> <a href = ”sc. html "> sample camera </ li> <li> <a href =" sc2. If “html”> sample camera 2 </ li> </ ul>... (omitted)..., “sample camera” and “sample camera 2” are acquired. However, nothing is acquired unless the content corresponding to the pattern is described.

固有名称取得部114は、商品の固有名称が取得できた場合は、固有名称データベースに登録する。今回の場合では、「サンプルカメラ」と「サンプルカメラ2」を登録する。なお、固有名称ルールデータベース110が固有名称ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”sc.html”>サンプルカメラ</li><li><a href=”sc2.html”>サンプルカメラ2</li></ul>・・・(省略)・・・」も一緒に登録しても良い。   When the unique name of the product can be acquired, the unique name acquisition unit 114 registers it in the unique name database. In this case, “sample camera” and “sample camera 2” are registered. If the unique name rule database 110 holds values such as the number of acquisitions of the unique name rule and the acquisition ratio, it may be registered together with the values, and the “<title> product” around the acquired information may be registered. List </ title> ... (omitted) ... <span> list </ span> <ul> <li> <a href = ”sc. html "> sample camera </ li> <li> <a href =" sc2. html "> sample camera 2 </ li> </ ul> ... (omitted) ..." may be registered together.

以上、本実施の形態によれば、任意のWebページから商品の固有名称を取得できる。   As described above, according to the present embodiment, a unique name of a product can be acquired from an arbitrary Web page.

図11は、本実施の形態にかかる知識獲得部115の動作の一例を示すフローチャートである。以下、図11を用いて動作について説明する。   FIG. 11 is a flowchart showing an example of the operation of the knowledge acquisition unit 115 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS701)知識獲得部115は、知識増殖ルールデータベース111から知識増殖ルールを取得する。取得できた場合、ステップS702に進み、取得できなかった場合、終了する。   (Step S <b> 701) The knowledge acquisition unit 115 acquires a knowledge proliferation rule from the knowledge proliferation rule database 111. If it can be acquired, the process proceeds to step S702. If it cannot be acquired, the process ends.

(ステップS702)知識獲得部115は、カウンターmに1を代入する。   (Step S702) The knowledge acquisition unit 115 substitutes 1 for a counter m.

(ステップS703)知識獲得部115は、ステップS701で取得した知識増殖ルールにm番目の知識増殖ルールがあるか否かを判断する。ある場合は、ステップS704に進み、ない場合は、終了する。   (Step S703) The knowledge acquisition unit 115 determines whether or not the knowledge multiplication rule acquired in step S701 includes the mth knowledge multiplication rule. If there is, the process proceeds to step S704, and if not, the process ends.

(ステップS704)知識獲得部115は、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールが用いるために使用する情報を各データベースから取得する。知識増殖ルールが用いるために使用する情報とは、具体的には、第一から第三知識増殖ルールの場合は会社データベース101から会社名を取得し、第四から第六知識増殖ルールの場合は商品データベース102から商品名を取得し、第七から第九知識増殖ルールの場合は固有名称データベース103から商品の固有名称を取得し、第十知識増殖ルールの場合は会社データベース101と商品データベース102から会社名と商品名を取得し、第十一知識増殖ルールの場合は会社データベース101と固有名称データベース103から会社名と商品の固有名称を取得し、第十二知識増殖ルールの場合は商品データベース102と固有名称データベース103から商品名と商品の固有名称を取得する。   (Step S704) The knowledge acquisition unit 115 acquires information used for the m-th knowledge proliferation rule of the knowledge proliferation rule acquired in step S701 from each database. Specifically, the information used for the knowledge proliferation rule is obtained by acquiring the company name from the company database 101 in the case of the first to third knowledge proliferation rules, and in the case of the fourth to sixth knowledge proliferation rules. The product name is acquired from the product database 102, the unique name of the product is acquired from the unique name database 103 in the case of the seventh to ninth knowledge proliferation rules, and from the company database 101 and the product database 102 in the case of the tenth knowledge proliferation rule. The company name and the product name are acquired. In the case of the eleventh knowledge proliferation rule, the company name and the unique name of the product are acquired from the company database 101 and the unique name database 103. In the case of the twelfth knowledge proliferation rule, the product database 102 is acquired. The product name and the product unique name are acquired from the unique name database 103.

(ステップS705)知識獲得部115は、カウンターnに1を代入する。   (Step S705) The knowledge acquisition unit 115 substitutes 1 for a counter n.

(ステップS706)ステップS704で取得した知識増殖ルールが用いるために使用する情報にn番目の情報があるか否かを判断する。ある場合は、ステップS707へ進み、ない場合はステップS713へ進む。   (Step S706) It is determined whether or not the information used for the knowledge proliferation rule acquired in step S704 includes the nth information. If there is, the process proceeds to step S707, and if not, the process proceeds to step S713.

(ステップS707)知識獲得部115は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS704で取得した知識増殖ルールが用いるために使用する情報のうちn番目の情報を含んだWebページを取得する。Webページを取得できた場合は、ステップS708へ進み、取得できなかった場合はステップS714に進む。   (Step S707) The knowledge acquisition unit 115 acquires a Web page from the Web server device. As the Web page acquired at this time, the Web page including the nth information among the information used for the knowledge proliferation rule acquired in step S704 is acquired. If the Web page can be acquired, the process proceeds to step S708. If the Web page cannot be acquired, the process proceeds to step S714.

(ステップS708)知識獲得部115は、カウンターoに1を代入する。   (Step S708) The knowledge acquisition unit 115 assigns 1 to the counter o.

(ステップS709)知識獲得部115は、ステップS707で取得したWebページにo番目のWebページがあるか否かを判断する。ある場合は、ステップS710に進み、ない場合は、ステップS714に進む。   (Step S709) The knowledge acquisition unit 115 determines whether or not the web page acquired in step S707 includes the o-th web page. If there is, the process proceeds to step S710, and if not, the process proceeds to step S714.

(ステップS710)知識獲得部115は、ステップS707で取得したWebページのo番目のWebページに対し、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールを用いて会社名、または商品名、または商品の固有名称を取得する。取得できた場合は、ステップS711へ進み、取得できなかった場合は、ステップS712に移動する。   (Step S710) The knowledge acquisition unit 115 uses the m-th knowledge proliferation rule of the knowledge proliferation rule acquired in Step S701 for the o-th Web page of the Web page acquired in Step S707. , Or get the unique name of the product. If it can be acquired, the process proceeds to step S711. If it cannot be acquired, the process proceeds to step S712.

(ステップS711)ステップS710で取得した会社名、または商品名、または商品の固有名称を対応するデータベースに蓄積する。   (Step S711) The company name, product name, or product unique name acquired in step S710 is stored in the corresponding database.

(ステップS712)知識獲得部115は、カウンターoをインクリメントする。そして、ステップS709に戻る。   (Step S712) The knowledge acquisition unit 115 increments the counter o. Then, the process returns to step S709.

(ステップS713)知識獲得部115は、カウンターmをインクリメントする。そして、ステップS703に戻る。   (Step S713) The knowledge acquisition unit 115 increments the counter m. Then, the process returns to step S703.

(ステップS714)知識獲得部115は、カウンターnをインクリメントする。そして、ステップS706に戻る。   (Step S714) The knowledge acquisition unit 115 increments the counter n. Then, the process returns to step S706.

以下、本実施の形態における知識獲得部115の具体的な動作について説明する。なお、この具体例において示した知識獲得部115の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the knowledge acquisition unit 115 in the present embodiment will be described. Note that the acquisition result of the knowledge acquisition unit 115 shown in this specific example is prepared for convenience of explanation, and does not indicate actual data.

知識獲得部115は、知識増殖ルールデータベース111から会社名、または商品名、または商品の固有名称を取得するためのすべてのルールを取得する。もし、知識増殖ルールデータベース111に、知識増殖ルールが抽出する対象に関するデータを保持していた場合、「名称」が対象の知識増殖ルールだけを取得する。また、もし知識増殖ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた知識増殖ルールだけを取得しても良い。今回の具体例では、知識増殖ルールを5種類取得したとする。   The knowledge acquisition unit 115 acquires all rules for acquiring a company name, a product name, or a unique name of a product from the knowledge multiplication rule database 111. If the knowledge proliferation rule database 111 holds data related to the object extracted by the knowledge proliferation rule, only the knowledge proliferation rule whose “name” is the object is acquired. In addition, if values such as the number of acquisitions and the acquisition ratio of knowledge proliferation rules are held, only knowledge proliferation rules exceeding an arbitrary threshold may be acquired. In this specific example, it is assumed that five types of knowledge proliferation rules have been acquired.

図12は知識増殖ルールデータベース111に格納されているデータの一例を示す図である。知識増殖ルールデータベース111は、会社名、または商品名、または商品の固有名称を取得するパターンを有している。具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名、同様に「%商品名%」と記載されている部分に該当する名詞句を商品名、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する知識増殖ルールを列挙した。なお、今回の具体例では、知識増殖ルールの種類ごとにデータベースを作成するのではなく、知識増殖データベースに知識増殖ルールの種類を保持させた。   FIG. 12 is a diagram showing an example of data stored in the knowledge growth rule database 111. The knowledge proliferation rule database 111 has a pattern for acquiring a company name, a product name, or a unique name of a product. As a specific example, the noun phrase corresponding to the part described as “% company name%” is the company name, and similarly the noun phrase corresponding to the part described as “% product name%” is the product name, “% The knowledge proliferation rules for acquiring the noun phrases corresponding to the part described as “proprietary name%” as the proper name of the product are listed. In this specific example, instead of creating a database for each type of knowledge proliferation rule, the knowledge proliferation rule type is held in the knowledge proliferation database.

知識獲得部115は、取得した知識増殖ルールが用いるための情報を取得する。例えば、第一知識増殖ルールを取得した場合、会社データベース101に記載されている会社名をすべて取得する。なお、もし会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。   The knowledge acquisition unit 115 acquires information to be used by the acquired knowledge proliferation rule. For example, when the first knowledge proliferation rule is acquired, all company names described in the company database 101 are acquired. Note that if the company database 101 holds values such as the number of acquisitions and the acquisition ratio of the company name, the company name below an arbitrary threshold value may not be acquired. In this specific example, it is assumed that ten types of company names have been acquired.

知識獲得部115は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。   The knowledge acquisition unit 115 acquires a web page. For example, in this specific example, assume that 100 types of Web pages are acquired for each acquired company name.

知識獲得部115は取得したすべての知識増殖ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、知識増殖ルールが5種類、知識増殖ルールが用いる情報が10種類、Webページが100種類なので5000回会社名、商品名、商品の固有名称のうち、1または2種類の情報の取得を行う。
具体的には、知識増殖ルールが「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」で第一の知識増殖ルールであり、用いる情報が「サンプル工業」であった場合、取得したWebページに「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”scr.html”>ネジ</a></li><li><a href=”driv.html”>ドライバー</a></li></ul>・・・(省略)・・・」と記載されていれば、「ネジ」「ドライバー」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
The knowledge acquisition unit 115 acquires company names from all acquired Web pages using all acquired knowledge proliferation rules. In this case, since there are 5 types of knowledge proliferation rules, 10 types of information used by the knowledge proliferation rules, and 100 types of Web pages, there are 1 or 2 types of information among 5000 times company name, product name, and product unique name. Acquire.
Specifically, the knowledge proliferation rule is “<title>% company name% (handling)? Product </ title>. *? <Span. *?> List </ span><ul.*?>(<Li .. *?><A.*?>% Product name% </a></li>) + </ ul> ”and the information used is“ sample industry ” , “<Title> sample industry products </ title>... (Omitted)... <Span> list </ span><ul><li><a href =” scr. html ”> screw </a></li><li><a href =“ driv. If “html”> driver </a></li></ul>... (omitted)..., “screw” and “driver” are acquired. However, nothing is acquired unless the content corresponding to the pattern is described.

知識獲得部115は、新たな情報が取得できた場合は、対応する各データベースに登録する。今回の場合では、「ネジ」と「ドライバー」を商品データベース102、「サンプル工業」と「ネジ」、「サンプル工業」と「ドライバー」を会社商品データベース104に登録する。なお、もし知識増殖ルールデータベース111が知識増殖ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”scr.html”>ネジ</a></li><li><a href=”driv.html”>ドライバー</a></li></ul>・・・(省略)・・・」も一緒に登録しても良い。   When new information can be acquired, the knowledge acquisition unit 115 registers it in each corresponding database. In this case, “screw” and “driver” are registered in the product database 102, “sample industry” and “screw”, and “sample industry” and “driver” are registered in the company product database 104. Note that if the knowledge proliferation rule database 111 holds values such as the number of times of knowledge proliferation rule acquisition and the acquisition ratio, it may be registered together with the values, and “<title>” is the periphery of the acquired information. Sample industry products </ title> ... (omitted) ... <span> list </ span> <ul> <li> <a href = ”scr. html ”> screw </a> </ li> <li> <a href =“ driv. html ”> driver </a> </ li> </ ul>... (omitted)...

以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得できる。   As described above, according to the present embodiment, a company name, a product name, or a unique name of a product can be acquired from an arbitrary Web page.

図13と図14は、本実施の形態にかかるルール学習部116の動作の一例を示すフローチャートである。以下、図13と図14を用いて動作について説明する。   13 and 14 are flowcharts illustrating an example of the operation of the rule learning unit 116 according to the present embodiment. The operation will be described below with reference to FIGS.

(ステップS801)ルール学習部116は、カウンターmに0を代入する。   (Step S801) The rule learning unit 116 substitutes 0 for the counter m.

(ステップS802)ルール学習部116は、カウンターmをインクリメントする。   (Step S802) The rule learning unit 116 increments the counter m.

(ステップS803)ルール学習部116は、カウンターmの値によって処理を分岐する。mの値が1の時はステップS804に進み、mの値が2の時はステップS805に進み、mの値が3の時はステップS806に進み、mの値が4の時はステップS807に進み、mの値が5の時はステップS810に進み、mの値が6の時はステップS813に進み、mの値が7の時はステップS816に進み、mの値が8の場合は終了する。   (Step S803) The rule learning unit 116 branches the process depending on the value of the counter m. When the value of m is 1, the process proceeds to step S804. When the value of m is 2, the process proceeds to step S805. When the value of m is 3, the process proceeds to step S806. When the value of m is 4, the process proceeds to step S807. Proceed to step S810 when the value of m is 5, proceed to step S813 when the value of m is 6, proceed to step S816 when the value of m is 7, and end when the value of m is 8 To do.

(ステップS804)ルール学習部116は、変数oに「会社データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S804) The rule learning unit 116 substitutes “company database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS805)ルール学習部116は、変数oに「商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S805) The rule learning unit 116 substitutes “product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS806)ルール学習部116は、変数oに「固有名称データベース」、変数dに「商品の固有名称」を代入する。そして、ステップS823へ進む。   (Step S806) The rule learning unit 116 substitutes “unique name database” for the variable o and “unique name of the product” for the variable d. Then, the process proceeds to step S823.

(ステップS807)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S807) The rule learning unit 116 substitutes “company product database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS808)ルール学習部116は、変数oに「会社商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S808) The rule learning unit 116 substitutes “company product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS809)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。   (Step S809) The rule learning unit 116 substitutes “company product database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.

(ステップS810)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S810) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS811)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。   (Step S811) The rule learning unit 116 substitutes “company unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS812)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S812) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS813)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S813) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS814)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。   (Step S814) The rule learning unit 116 substitutes “product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS815)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S815) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS816)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S816) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS817)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S817) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS818)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。   (Step S818) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS819)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。   (Step S819) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.

(ステップS820)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S820) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS821)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S821) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS822)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S822) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS823)ルール学習部116は、変数oに格納されているデータベースから、変数dに格納されている情報を取得する。例えば、変数oに「会社データベース」変数dに「会社名」が格納されている場合、会社データベース101から会社名をすべて取得する。また、変数dに格納されている情報が「会社名・商品名」など、「・」で区切って二種類の情報が登録されていた場合、「・」の前後で文字列を分割し、前と後ろの両方の情報の組を取得する。「会社名・商品名」の場合は、「会社名」と「商品名」の組を取得する。取得できた場合は、ステップS824へ進み、取得できなかった場合は829に進む。   (Step S823) The rule learning unit 116 acquires information stored in the variable d from the database stored in the variable o. For example, when “company database” is stored in variable o and “company name” is stored in variable d, all company names are acquired from company database 101. Also, if the information stored in the variable d is “company name / product name”, etc., and two types of information are registered by separating them with “•”, the character string is divided before and after “•”. Get a set of both the back and back information. In the case of “company name / product name”, a set of “company name” and “product name” is acquired. If it can be acquired, the process proceeds to step S824, and if it cannot be acquired, the process proceeds to 829.

(ステップS824)ルール学習部116は、カウンターhに1を代入する。   (Step S824) The rule learning unit 116 substitutes 1 for the counter h.

(ステップS825)ルール学習部116は、ステップS823で取得したoから取得したdに関する情報にh番目の情報があるか否かを判断する。ある場合は、ステップS826に進み、ない場合は、ステップS831に進む。   (Step S825) The rule learning unit 116 determines whether or not there is h-th information in the information regarding d acquired from o acquired in step S823. If there is, the process proceeds to step S826, and if not, the process proceeds to step S831.

(ステップS826)ルール学習部116は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS823で取得したoから取得したdに関するh番目の情報を含んだWebページを取得する。Webページを取得できた場合はステップS827へ進み、取得できなかった場合はステップS829へ進む。   (Step S826) The rule learning unit 116 acquires a Web page from the Web server device. The Web page acquired at this time acquires a Web page including the h-th information regarding d acquired from o acquired in step S823. If the Web page can be acquired, the process proceeds to step S827. If the Web page cannot be acquired, the process proceeds to step S829.

(ステップS827)ルール学習部116は、ステップS826で取得したWebページから、ステップS823で取得したoから取得したdに関するh番目の情報の文字列を情報の内容がわかる文字列に置換する。例えば、会社名の部分を「%会社名%」に置換する。   (Step S827) The rule learning unit 116 replaces the character string of the h-th information related to d acquired from o acquired in Step S823 from the Web page acquired in Step S826 with a character string that understands the content of the information. For example, the company name portion is replaced with “% company name%”.

(ステップS828)ルール学習部116は、ステップS827で置換したWebページを、例えば、図示しないメモリなどの記憶媒体に一時記憶する。   (Step S828) The rule learning unit 116 temporarily stores the Web page replaced in Step S827 in a storage medium such as a memory (not shown).

(ステップS829)ルール学習部116は、カウンターhをインクリメントする。   (Step S829) The rule learning unit 116 increments the counter h.

(ステップS830)ルール学習部116は、ステップS828で記憶したすべてのWebページからパターンを取得する。パターンを取得できた場合は、ステップS831へ進み、取得できなかった場合はステップS833へ進む   (Step S830) The rule learning unit 116 acquires patterns from all the Web pages stored in Step S828. If the pattern can be acquired, the process proceeds to step S831, and if the pattern cannot be acquired, the process proceeds to step S833.

(ステップS831)ルール学習部116は、ステップS830で取得したパターンから5回以上抽出したパターンを選別し取得する。パターンを取得できた場合は、ステップS832へ進み、取得できなかった場合はステップS833へ進む。   (Step S831) The rule learning unit 116 selects and acquires patterns extracted five or more times from the patterns acquired in Step S830. If the pattern can be acquired, the process proceeds to step S832, and if the pattern cannot be acquired, the process proceeds to step S833.

(ステップS832)ルール学習部116は、ステップS831で取得したパターンを変数dに対応するルールデータベースに格納する。具体的には、dの値が「会社名」であれば「会社ルールデータベース」、「商品名」であれば「商品ルールデータベース」、「固有名称」であれば「固有名称ルールデータベース」、「会社名・商品名」「会社名・固有名称」「商品名・固有名称」であれば「知識増殖ルールデータベース」に格納する。   (Step S832) The rule learning unit 116 stores the pattern acquired in step S831 in the rule database corresponding to the variable d. Specifically, if the value of d is “company name”, it is “company rule database”, if it is “product name”, “product rule database”, if it is “unique name”, “unique name rule database”, “ If it is “company name / product name”, “company name / unique name”, “product name / unique name”, it is stored in the “knowledge proliferation rule database”.

(ステップS833)ルール学習部116は、ステップS823へ進む前に実行していた処理の次の処理進む。   (Step S833) The rule learning unit 116 proceeds to a process next to the process executed before proceeding to step S823.

以下、本実施の形態におけるルール学習部116の具体的な動作について説明する。なお、この具体例において示したルール学習部116の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the rule learning unit 116 in the present embodiment will be described. Note that the acquisition result of the rule learning unit 116 shown in this specific example is prepared for convenience of explanation, and does not indicate actual data.

ルール学習部116は、会社データベース101と商品データベース102と固有名称データベース103と会社商品データベース104と会社固有名称データベース105と商品固有名称データベース106と会社商品固有名称データベース107から、会社名、または商品名、または商品の固有名称、またはこれらの組み合わせを可能な限り取得し、取得した情報を取得できるWebページから、データベースから取得した情報を抽出するためのパターンを取得する。   The rule learning unit 116 selects the company name or the product name from the company database 101, the product database 102, the unique name database 103, the company product database 104, the company unique name database 105, the product unique name database 106, and the company product unique name database 107. Alternatively, a unique name of a product or a combination thereof is acquired as much as possible, and a pattern for extracting information acquired from the database is acquired from a Web page from which the acquired information can be acquired.

今回は具体例として、会社データベース101から会社名を取得し会社ルールデータベース108に格納するルールを学習する場合について述べる。   As a specific example, a case will be described in which a rule for acquiring a company name from the company database 101 and storing it in the company rule database 108 is learned.

まず、会社データベース101から会社名をすべて取得する。なお、もし会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。   First, all company names are acquired from the company database 101. Note that if the company database 101 holds values such as the number of acquisitions and the acquisition ratio of the company name, the company name below an arbitrary threshold value may not be acquired. In this specific example, it is assumed that ten types of company names have been acquired.

ルール学習部116は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。   The rule learning unit 116 acquires a web page. For example, in this specific example, assume that 100 types of Web pages are acquired for each acquired company name.

ルール学習部116は、取得したWebページから、取得するために用いた会社名を「%会社名%」に置換する。今回は「%会社名%」であったが、商品名を使用した場合は「%商品名%」、商品の固有名称を使用した場合は「%固有名称%」に置換する。例えば、「サンプル商事」を用いて「<table><tbody><tr><td>社名</td><td>サンプル商事株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」の文章を取得した場合は「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」とする。   The rule learning unit 116 replaces the company name used for acquisition with “% company name%” from the acquired Web page. This time, it was “% company name%”, but if the product name is used, it is replaced with “% product name%”, and if the product unique name is used, it is replaced with “% unique name%”. For example, using “sample trading”, “<table> <tbody> <tr> <td> company name </ td> <td> sample trading corporation </ td> </ tr> <tr> <td> capital </ Td> <td> 10,000,000 Yen </ td> </ tr> "in the case where the text" <table> <tbody> <tr> <td> company name </ td> <td> % Company name% corporation </ td> </ tr> <tr> <td> capital </ td> <td> 10,000,000 yen </ td> </ tr>.

ルール学習部116は、取得したWebページからパターンを取得する。取得したWebページから2以上のWebページを取り出し、取得するために用いた「%会社名%」を含む最長共通部分列を取得する。最長共通部分の取得は、取得したWebページから2つを選ぶすべての組み合わせで行う。例えば「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」と「<table><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>設立</td><td>1950年1月1日</td></tr>」の二つの文章を記載されているWebページがあった場合、「%会社名%」を保持した最も長い文字列である「<tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>」をパターンとして取得する。今回の場合では、会社名が10種類、Webページが会社名に対して100種類なので49500回パターンの取得を行う。なお、パターンの取得対象はHTMLのタグを含まない文章でも良く、また最長共通部分列以外の方法であっても良く、2つ以上のWebページの組み合わせからパターンを取得しても良い。   The rule learning unit 116 acquires a pattern from the acquired web page. Two or more Web pages are extracted from the acquired Web pages, and the longest common subsequence including “% company name%” used for acquisition is acquired. Acquisition of the longest common portion is performed by all combinations of selecting two from the acquired Web pages. For example, “<table> <tbody> <tr> <td> Company name </ td> <td>% Company name% Inc. </ Td> </ tr> <tr> <td> Capital </ td> <td > 10,000,000 Yen </ td> </ tr> and "<table> <tr> <td> Company name </ td> <td>% Company name% Inc. </ Td> </ tr> < If there is a Web page with two sentences “tr> <td> Established </ td> <td> January 1, 1950 </ td> </ tr>”, “% company name%” “<Tr> <td> Company name </ td> <td>% Company name% Inc. </ Td> </ tr> <tr> <td>”, which is the longest character string that holds . In this case, since the company name is 10 types and the Web page is 100 types for the company name, the pattern is acquired 49500 times. The pattern acquisition target may be a sentence that does not include an HTML tag, may be a method other than the longest common subsequence, and may acquire a pattern from a combination of two or more Web pages.

ルール学習部116は、取得したパターンからよく使われているパターンのみを知識増殖データベースに登録する。一定以上の頻度、例えば5回以上出現するパターンを知識増殖ルールデータベース111に登録する。   The rule learning unit 116 registers only frequently used patterns from the acquired patterns in the knowledge multiplication database. A pattern that appears at a certain frequency, for example, five times or more is registered in the knowledge proliferation rule database 111.

以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得するパターンを取得できる。   As described above, according to the present embodiment, it is possible to acquire a pattern for acquiring a company name, a product name, or a unique name of a product from an arbitrary Web page.

図15は、本実施の形態にかかる会社類似群コード固有名称データベース構築部23の動作の一例を示すフローチャートである。以下、図15を用いて動作について説明する。   FIG. 15 is a flowchart showing an example of the operation of the company similar group code unique name database construction unit 23 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS901)会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から会社名と商品名と商品の固有名称の情報を取得する。取得できた場合はステップS902へ進み、取得できなかった場合は終了する。   (Step S <b> 901) The company similar group code unique name database construction unit 23 acquires information on the company name, product name, and product unique name from the company product unique name database 107. If it can be acquired, the process proceeds to step S902. If it cannot be acquired, the process ends.

(ステップS902)会社類似群コード固有名称データベース構築部23は、カウンターmに1を代入する。   (Step S902) The company similar group code unique name database construction unit 23 substitutes 1 for a counter m.

(ステップS903)会社類似群コード固有名称データベース構築部23は、ステップS901で取得した情報にm番目の情報があるか否かを判断する。あった場合はステップS904へ進み、なかった場合は終了する。   (Step S903) The company similar group code unique name database construction unit 23 determines whether or not the information acquired in step S901 includes the m-th information. If there is, the process proceeds to step S904, and if not, the process ends.

(ステップS904)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の商品名をキーにし、商品類似群コード対応データベース21から商品名に対応した類似群コードを取得する。   (Step S904) The company similar group code unique name database construction unit 23 acquires a similar group code corresponding to the product name from the product similar group code correspondence database 21 using the product name of the m-th information acquired in step S901 as a key. To do.

(ステップS905)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の会社名と、商品の固有名称と、ステップS904で取得した類似群コードを1レコードとして会社類似群コード固有名称データベース22に登録する。   (Step S905) The company similar group code unique name database construction unit 23 uses the m-th information company name acquired in step S901, the unique name of the product, and the similar group code acquired in step S904 as one record. Register in the group code unique name database 22.

(ステップS906)会社類似群コード固有名称データベース構築部23は、カウンターmをインクリメントする。   (Step S906) The company similar group code unique name database construction unit 23 increments the counter m.

以下、本実施の形態における会社類似群コード固有名称データベース構築部23の具体的な動作について説明する。なお、この具体例において示した会社類似群コード固有名称データベース構築部23の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the company similar group code unique name database construction unit 23 in the present embodiment will be described. Note that the acquisition result of the company similar group code unique name database construction unit 23 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

会社類似群コード固有名称データベース構築部23は会社商品固有名称データベース107の商品名をキーにして、類似群コード対応データベースから類似群コードを取得し、会社類似群コード固有名称データベース22を構築する。   The company similar group code unique name database construction unit 23 acquires a similar group code from the similar group code correspondence database using the product name of the company product unique name database 107 as a key, and constructs the company similar group code unique name database 22.

まず、会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から、会社名と商品名と商品の固有名称をすべて取得する。なお、もし会社商品固有名称データベース107が取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名と商品名と商品の固有名称の組を10種類取得したとする。   First, the company similar group code unique name database construction unit 23 acquires all the company name, product name, and product unique name from the company product unique name database 107. Note that if the company product unique name database 107 holds values such as the number of acquisitions and the acquisition ratio, the company name below an arbitrary threshold may not be acquired. In this specific example, it is assumed that ten types of combinations of company name, product name, and product unique name have been acquired.

次に、商品類似群コード対応データベース21から各商品名に対応した類似群コードを取得する。なお、この時取得する類似群コードは、商品名の完全一致だけではなく、例えば「テレビ」と「TV」のような商品名が概念的に一致する類似群コードを取得しても良い。   Next, a similar group code corresponding to each product name is acquired from the product similar group code correspondence database 21. Note that the similar group code acquired at this time is not limited to the complete matching of the product names, but may be a similar group code that conceptually matches the product names such as “TV” and “TV”, for example.

そして、取得した会社名と類似群コードと商品の固有名称の組を会社類似群コード固有名称データベース22に登録する。   Then, the set of the acquired company name, similar group code, and product unique name is registered in the company similar group code unique name database 22.

以上、本実施の形態によれば、会社商品固有名称データベース107と類似群コード対応データベースから商品名をキーにして、会社名と類似群コードと商品の固有名称を保持する会社類似群コード固有名称データベース22を構築できる。   As described above, according to the present embodiment, the company similar group code unique name that holds the company name, the similar group code, and the unique name of the product using the product name as a key from the company product unique name database 107 and the similar group code correspondence database. A database 22 can be constructed.

図16は、本実施の形態にかかる商標侵害検知装置3の動作の一例を示すフローチャートである。以下、図16を用いて動作について説明する。   FIG. 16 is a flowchart showing an example of the operation of the trademark infringement detection apparatus 3 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS1001)受付部32は、調査対象商標情報、具体的には商標文字列と商品名、または類似群コードとを受け付けたか否かを判断する。受け付けた場合、ステップS1002に進み、受け付けていない場合、ステップS1001に戻る。   (Step S1001) The receiving unit 32 determines whether or not the investigation target trademark information, specifically, the trademark character string and the product name or the similar group code has been received. If accepted, the process proceeds to step S1002, and if not accepted, the process returns to step S1001.

(ステップS1002)商標文字列取得部331は、調査対象商標情報から商標文字列を取得する。取得できた場合は、ステップS1003に進み、取得できなかった場合はステップS1017へ進む。   (Step S1002) The trademark character string acquisition unit 331 acquires a trademark character string from the investigation target trademark information. If it can be acquired, the process proceeds to step S1003. If it cannot be acquired, the process proceeds to step S1017.

(ステップS1003)称呼取得部332は、ステップS1002で取得した商標文字列を用いて、1以上の称呼情報を取得する。例えば、商標文字列を形態素解析することや、商標文字列を構成する各文字の読みを、予め用意された文字の読みが格納された辞書などから読み出し、それらの組合せを取得することで、称呼情報を取得する。   (Step S1003) The name acquisition unit 332 acquires one or more pieces of name information using the trademark character string acquired in step S1002. For example, a morphological analysis of a trademark character string, or reading of each character constituting the trademark character string is read from a dictionary or the like in which a character reading prepared in advance is stored, and a combination thereof is obtained. Get information.

(ステップS1004)称呼取得部332は、カウンターmに1を代入する。   (Step S1004) The name acquisition unit 332 substitutes 1 for the counter m.

(ステップS1005)称呼取得部332は、ステップS1003で取得した称呼情報にm番目の称呼情報があるか否かを判断する。ある場合、ステップS1006に進み、ない場合、ステップS1011に進む。   (Step S1005) The name acquisition unit 332 determines whether there is m-th name information in the name information acquired in step S1003. If there is, the process proceeds to step S1006, and if not, the process proceeds to step S1011.

(ステップS1006)称呼取得部332は、カウンターnに1を代入する。   (Step S1006) The name acquisition unit 332 substitutes 1 for the counter n.

(ステップS1007)称呼取得部332は、m番目の称呼情報にn番目の区切位置があるか否かを判断する。例えば、称呼情報の全ての文字の間を区切り位置に設定していく場合、n番目の区切り位置とは、例えば、称呼情報の先頭からn番目の文字と(n+1)番目の文字との間である。このため、称呼取得部332は、例えばm番目の称呼情報に、先頭から(n+1)番目の文字があるか否かを判断すればよい。n番目の区切位置がある場合、ステップS1008に進み、ない場合、ステップS1010に進む。なお、称呼情報のうちの、商標文字列を構成する各文字の読みの間や、商標文字列を構成する形態素の読みの間を、区切り位置に設定して称呼情報を分割していくようにしても良い。例えば、商標文字列「ABC」の各文字の読み「エー」と「ビー」と「シー」を組み合わせて称呼情報「エービーシー」が取得された場合、区切り位置に設定できる位置を、「エー」と「ビー」との間、及び「ビー」と「シー」の間としてもよい。   (Step S1007) The name acquisition unit 332 determines whether or not the m-th name information includes the n-th delimiter position. For example, when setting between all characters of the nominal information as the separation position, the nth separation position is, for example, between the nth character and the (n + 1) th character from the beginning of the nominal information. is there. For this reason, the name acquisition unit 332 may determine whether, for example, the mth name information includes the (n + 1) th character from the top. If there is an nth delimiter position, the process proceeds to step S1008, and if not, the process proceeds to step S1010. In the name information, the name information is divided by setting the separation position between reading of each character constituting the trademark character string or reading of the morpheme constituting the trademark character string. May be. For example, when the designation information “ABC” is acquired by combining the readings “A”, “B”, and “C” of each character of the trademark character string “ABC”, the position that can be set as the separation position is “A”. It may be between “Bee” and between “Bee” and “Sea”.

(ステップS1008)称呼取得部332は、n番目の区切位置でm番目の称呼情報を区切って、その前後の文字列である分割称呼情報を取得する。なお、商標の称呼となり得ないような予め指定された文字が先頭に来る文字列は、分割称呼情報として取得しないことが好ましい。予め指定された文字は、例えば長音や、「ン」などである。取得した分割称呼情報は、図示しないメモリなどの記憶媒体に一時記憶する。既に他の分割称呼情報が記憶されている場合は、追記する。   (Step S1008) The name acquisition unit 332 divides the mth name information at the nth position, and acquires divided name information that is a character string before and after the mth name information. It should be noted that a character string preceded by a predesignated character that cannot be a trademark name is preferably not acquired as divided name information. The character designated in advance is, for example, a long sound or “n”. The acquired divided name information is temporarily stored in a storage medium such as a memory (not shown). If other divided name information is already stored, it is added.

(ステップS1009)称呼取得部332は、カウンターnを1インクリメントする。そして、ステップS1007に戻る。   (Step S1009) The name acquisition unit 332 increments the counter n by 1. Then, the process returns to step S1007.

(ステップS1010)称呼取得部332は、カウンターmを1インクリメントする。そして、ステップS1005に戻る。   (Step S1010) The name acquisition unit 332 increments the counter m by 1. Then, the process returns to step S1005.

(ステップS1011)称呼表示部333は、ステップS1003で取得した称呼情報と、ステップS1008で取得した分割称呼情報を表示する。なお、ユーザに選択させず、特定のルールで称呼指定を選択する場合は、本ステップの表示、およびステップS1012の受付をスキップしても良い。   (Step S1011) The name display unit 333 displays the name information acquired in step S1003 and the divided name information acquired in step S1008. Note that when the designation of designation is selected by a specific rule without causing the user to select, the display of this step and the reception of step S1012 may be skipped.

(ステップS1012)称呼指定受付部334は、称呼指定情報または分割称呼指定情報の少なくとも一方を指定する称呼指定情報を受け付けたか否かを判断する。受け付けた場合、例えば、称呼指定情報で指定された称呼情報と割称呼情報とをメモリなどの記憶媒体に一時記憶して、ステップS212に進み、受け付けていない場合、ステップS1012に戻る。   (Step S1012) The designation designation receiving unit 334 determines whether designation designation information for designating at least one of designation designation information or divided designation designation information has been accepted. If accepted, for example, the designation information and assigned call information specified by the designation designation information are temporarily stored in a storage medium such as a memory, and the process proceeds to step S212. If not received, the process returns to step S1012.

(ステップS1013)類似検索部335は、カウンターkに1を代入する。   (Step S1013) The similarity search unit 335 substitutes 1 for the counter k.

(ステップS1014)類似検索部335は、ステップS1012で受け付けた称呼指定情報によって指定された称呼情報と分割称呼情報とを合わせた中に、k番目の称呼情報または分割称呼情報があるか否かを判断する。ある場合、ステップS1015に進み、ない場合、ステップS1017に進む。   (Step S1014) The similarity search unit 335 determines whether there is k-th name information or divided name information in the combination of the name information and the divided name information specified by the name designation information received in Step S1012. to decide. If there is, the process proceeds to step S1015, and if not, the process proceeds to step S1017.

(ステップS1015)k番目の称呼情報または分割称呼情報とを用いて、類似検索を行う。そして、類似検索の結果を、図示しない記憶媒体などに蓄積する。類似検索の結果は、例えば、類似検索に用いられたk番目の称呼情報または分割称呼情報と、類似すると判断された称呼と、その称呼に対応付けられた会社名、および商品の固有名称とを含む情報である。   (Step S1015) Similarity search is performed using the kth name information or divided name information. Then, the result of the similarity search is stored in a storage medium (not shown). As a result of the similarity search, for example, k-th name information or divided name information used for the similarity search, a name determined to be similar, a company name associated with the name, and a unique name of the product It is information to include.

(ステップS1016)類似検索部335は、カウンターkを1インクリメントする。そして、ステップS1014に戻る。   (Step S1016) The similarity search unit 335 increments the counter k by 1. Then, the process returns to step S1014.

(ステップS1017)商品類否判断部34は、ステップS1001で取得した調査対象商標情報をもとに使用するデータベース31を選択する。具体的には、調査対象商標情報に類似群コードが含まれていた場合は会社類似群コード固有名称データベース22を選択し、商品名が含まれていた場合は会社商品固有名称データベース107を選択する。選択できた場合は、ステップS1018に進み、選択できなかった場合はステップS1019に進む。   (Step S1017) The merchandise kind determination unit 34 selects the database 31 to be used based on the survey target trademark information acquired in step S1001. Specifically, the company similar group code unique name database 22 is selected if the similar group code is included in the investigation target trademark information, and the company product unique name database 107 is selected if the product name is included. . If it can be selected, the process proceeds to step S1018. If it cannot be selected, the process proceeds to step S1019.

(ステップS1018)商品類否判断部34は、ステップS1017のデータベース31からステップS1001で取得した調査対象商標情報の商品名、または類似群コードをキーにして商品の類否判断を行う。そして、類否判断の結果を、図示しない記憶媒体などに蓄積する。類否判断の結果は、例えば、類否判断に用いられた商品名、または類似群コードと、一致すると判断された商品名、または類似群コードと、その称呼に対応付けられた会社名と商品の固有名称とを含む情報である。   (Step S1018) The product type determination unit 34 determines the product type using the product name or similar group code of the investigation target trademark information acquired from the database 31 of step S1017 in step S1001 as a key. Then, the result of similarity determination is stored in a storage medium (not shown). The result of similarity determination is, for example, the product name or similar group code used for similarity determination, the product name or similar group code determined to match, and the company name and product associated with the designation. Information including the unique name.

(ステップS1019)ステップS1015で蓄積した類似検索結果と、ステップS1018で蓄積した情報から、商品の固有名称が共通する情報を取得する。   (Step S1019) From the similar search result accumulated in step S1015 and the information accumulated in step S1018, information having a common product unique name is acquired.

(ステップS1020)出力部35は、ステップS1019で取得した情報を出力する。そして処理を終了する。   (Step S1020) The output unit 35 outputs the information acquired in step S1019. Then, the process ends.

以下、本実施の形態における商標侵害検知装置3の具体的な動作について説明する。なお、この具体例において示したデータは、説明のために便宜上用意されたものであって、実際の運用時に使用するものではない。   Hereinafter, a specific operation of the trademark infringement detection device 3 in the present embodiment will be described. Note that the data shown in this specific example is prepared for convenience of explanation, and is not used in actual operation.

まず、ユーザが、中華そばの麺についての「針金麺」という侵害の可能性を判断したいと考えて、「針金麺」という商標文字列と、中華そばの麺の類似群コードである「32F03」を、商標侵害検知装置3にキーボードなどを操作して入力したとする。受付部32は、商標文字列「針金麺」を受け付ける。そして、商標文字列取得部331に商標文字列を取得させ、類似群コードを商品類否判断部34に類似群コードを取得させる。   First, the user wants to determine the possibility of infringement of “wire noodles” for Chinese noodles, and therefore, the trademark character string “wire noodles” and a similar group code “32F03” for Chinese noodles. Is input to the trademark infringement detection device 3 by operating a keyboard or the like. The receiving unit 32 receives the trademark character string “wire noodle”. Then, the trademark character string acquisition unit 331 is caused to acquire a trademark character string, and the similar group code is acquired to the similar product group determination unit 34.

称呼取得部332は、商標文字列取得部331が受け付けた商標文字列「針金麺」の称呼情報を取得する。ここでは、まず、商標文字列に対して形態素解析を行って形態素ごとの読みの情報を取得する。例えば、形態素解析によって「針金麺」は2つの形態素「針金」と「麺」とに分けられ、形態素「針金」からは読みとして「ハリガネ」が、また、形態素「麺」からは読みとして「メン」が取得されたとする。それぞれの形態素には、1つの読みしか取得されないため、「針金麺」の称呼情報の一つとしてこれらの読みを単に結合した「ハリガネメン」を取得する。   The name acquisition unit 332 acquires the name information of the trademark character string “wire noodle” received by the trademark character string acquisition unit 331. Here, first, morphological analysis is performed on the trademark character string to obtain reading information for each morpheme. For example, “wire noodle” is divided into two morphemes “wire” and “noodle” by morphological analysis. “Harigane” is read from the morpheme “wire” and “men” is read from the morpheme “noodle”. ”Is acquired. Since only one reading is acquired for each morpheme, “harnessing” obtained by simply combining these readings is acquired as one of the designation information of “wire noodles”.

さらに、称呼取得部332は、予め用意された漢字の読みが格納された辞書(図示せず)から、商標文字列「針金麺」の各文字の読みを取得する。例えば、「針」からは「ハリ」、「シン」という読みを取得したとする。また「金」からは、「キン」、「コガネ」、「コン」、「カネ」を取得したとする。また、「麺」からは「メン」を取得したとする。そして、取得した文字の読みを、取得元となる文字の並びに沿って組み合わせることで称呼情報を取得する。例えば、「ハリキンメン」、「ハリコガネメン」、「ハリコンメン」、「ハリカネメン」、「シンキンメン」、「シンコガネメン」などの称呼情報が取得される。なお、形態素解析で取得した称呼情報と一致するものは、削除する。   Furthermore, the name acquisition unit 332 acquires a reading of each character of the trademark character string “wire noodle” from a dictionary (not shown) in which kanji readings prepared in advance are stored. For example, it is assumed that readings “harness” and “shin” are acquired from “needle”. In addition, it is assumed that “Kin”, “Kogane”, “Kon”, and “Kane” are acquired from “Gold”. It is also assumed that “Men” is acquired from “Noodles”. Then, the name information is acquired by combining the acquired character readings along the sequence of the characters to be acquired. For example, name information such as “Harikinmen”, “Harikomenmen”, “Harikonmen”, “Harikanmen”, “Shinkinmen”, “Shinkoganen”, etc. is acquired. Note that information that matches the name information acquired by morphological analysis is deleted.

次に、称呼取得部332は、上記で取得した各称呼情報を分割して分割称呼情報を取得する。例えば、称呼情報「ハリガネメン」については、まず、区分位置を1文字目の「ハ」と2文字目の「リ」の間に設定して称呼情報を分割することで、「ハ」という分割称呼情報と、「リガネメン」という分割称呼情報とを取得する。更に、区分位置を2文字目の「リ」と3文字目の「ガ」の間に設定して称呼情報を分割することで、「ハリ」という分割称呼情報と、「ガネメン」という分割称呼情報とを取得する。同様にして、「ハリガ」、「ネメン」、「ハリガネ」、「メン」、「ハリガネメ」を取得する。但し「ン」は、分割称呼情報としては取得しない。同様にして、他の称呼情報についても分割称呼情報を取得する。なお、取得した分割称呼情報において、重複するものは一つを除いて削除する。   Next, the name acquisition unit 332 acquires the divided name information by dividing the name information acquired above. For example, with respect to the designation information “Hariganemen”, first, by dividing the designation information by setting the division position between “Ha” of the first character and “Li” of the second character, the divided designation of “Ha” is given. Information and division name information “Rigane men” are acquired. Further, by dividing the designation information by setting the division position between the second character “Li” and the third character “Ga”, the divided designation information “Hari” and the divided designation information “Ganemen” And get. Similarly, “Hariga”, “Nemen”, “Harigane”, “Men”, “Harigamime” are acquired. However, “n” is not acquired as divided name information. Similarly, divided name information is acquired for other name information. It should be noted that, in the acquired divided name information, duplicates are deleted except for one.

そして、称呼表示部333は、取得した称呼情報と分割称呼情報とをモニタなどに出力する。   Then, the name display unit 333 outputs the acquired name information and divided name information to a monitor or the like.

図17は、称呼表示部333による、称呼情報と分割称呼情報との表示例を示す図である。なお、ここでは、称呼情報も分割称呼情報も、後述する類似検索においては特に区別せずに利用されるため、称呼情報と分割称呼情報とを特に区別せずに称呼として表示している。   FIG. 17 is a diagram showing a display example of the name information and the divided name information by the name display unit 333. In this case, the name information and the divided name information are used without distinction in the later-described similar search, and therefore, the name information and the divided name information are displayed as names without distinction.

次に、ユーザが、図17に示した称呼情報と分割称呼情報とのうちの、類似検索に利用したいと考えるものの横のチェックボックスにチェックを入れて、「指定完了」ボタン31を押したとする。例えば、「ハリガネメン」、「ハリガネ」、「ハリキンメン」の横のチェックボックスに図17に示すようにチェックをいれて「指定完了」ボタン31を押すと、称呼指定受付部334は、チェックの入った称呼情報である「ハリガネメン」および「ハリキンメン」と、チェックの入った分割称呼情報である「ハリガネ」を受け付ける。   Next, it is assumed that the user checks the check box next to the name information and the divided name information shown in FIG. 17 that he / she wants to use for similarity search and presses the “designation complete” button 31. . For example, if the check boxes next to “Harigamimen”, “Harigami”, and “Harikinmen” are checked as shown in FIG. 17 and the “Designation Complete” button 31 is pressed, the designation designation receiving unit 334 is checked. “Hariganemen” and “Harikinmen”, which are the name information, and “Harigane”, which is the divided name information which is checked, are received.

次に、類似検索部335は、称呼指定受付部334が受け付けた称呼情報と分割称呼情報とのそれぞれとを用いて、称呼の類似検索を行う。称呼の類似検索については、公知の技術であるので、詳細な具体例は省略する。例えば、類似検索の結果、称呼情報「ハリガネメン」と分割称呼情報「ハリガネ」については、称呼が類似する登録商標が検出されなかったが、称呼情報「ハリキンメン」については、称呼が類似する登録商標が検出されたとする。具体的には、称呼が「ハリキントン」という商品の固有名称が検出されたとする。商標類否判断結果取得部336は、この検出結果を図示しない記憶媒体などに一時記憶する。   Next, the similarity search unit 335 performs a name similarity search using the name information and the divided name information received by the name designation receiving unit 334. Since the similarity search for names is a known technique, a detailed specific example is omitted. For example, as a result of the similarity search, for the name information “Hariganmen” and the divided name information “Harigane”, a registered trademark having a similar name was not detected. However, for the name information “Harikinmen”, a registered trademark having a similar name Suppose that it was detected. Specifically, it is assumed that a unique name of a product whose name is “Hurricington” is detected. The trademark similarity determination result acquisition unit 336 temporarily stores the detection result in a storage medium (not shown).

そして、商標類否判断結果取得部336は、類似検索の結果を取得する。   Then, the trademark similarity determination result acquisition unit 336 acquires the result of the similarity search.

さらに次に、商品の類否判断を行う、受付部32から取得した類似群コードを用いて、会社類似群コード固有名称データベース22から情報を取得する。「32F03」の場合、穀物の加工品に関する情報が「針金面」に関係なく取得されるが、全て取得する。   Next, information is acquired from the company similar group code unique name database 22 by using the similar group code acquired from the receiving unit 32 for determining the similarity of the product. In the case of “32F03”, information related to the processed grain product is acquired regardless of the “wire surface”, but all information is acquired.

そして、商標類否判断部33の判断結果と商品類否判断部34の判断結果をのうち、商品の固有名称が共通する情報を取得し、会社名と商品の固有名称を出力する。なお、この際に会社データベース101に会社を特定する情報、または会社名の確信度、その他保持している情報があれば出力しても良い。   And among the judgment result of the trademark kind judgment part 33 and the judgment result of the product kind judgment part 34, the information with the common name of goods is acquired, and the company name and the unique name of goods are output. At this time, if there is information for identifying the company in the company database 101, the certainty of the company name, and other held information, it may be output.

以上、本実施の形態によれば、ユーザが指定した調査対象商標文字列から、商標の文字列の称呼情報を自動的に取得して、これを用いた類似検索が行えるようにしたので、商標の総合的な侵害状況の判断材料となる情報をユーザに提供することができる。   As described above, according to the present embodiment, the name information of the trademark character string is automatically acquired from the survey target trademark character string designated by the user, and the similarity search using this can be performed. It is possible to provide the user with information that can be used to determine the overall infringement status.

また、称呼情報を分割した分割称呼情報を取得して、これを用いた類似検索が行えるようにしたので、例えば、ユーザが入力した商標が結合商標である場合には、結合商標を分割した場合の称呼を自動で取得することができ、分割した称呼情報を用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、分割した称呼情報を用いた類似検索をユーザに促すことができる。また、分割称呼情報を取得することで、商標の主要部だけを用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、主要部を用いた類似検索をユーザに促すことができる。   In addition, since the divided name / call information obtained by dividing the name information is acquired and the similarity search using this information can be performed, for example, when the trademark input by the user is a combined trademark, the combined trademark is divided Can be automatically acquired, and an appropriate similarity search using divided name information can be performed. In addition, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the divided name information. In addition, by acquiring the division name information, an appropriate similarity search using only the main part of the trademark becomes possible. Further, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the main part.

(実施の形態2)
本実施の形態は、調査対象商標情報が商品名を保持し、類似群コードを保持していない場合であっても、類似群コードを用いて商品の類否判断ができる事を特徴とする。
(Embodiment 2)
The present embodiment is characterized in that the similarity of the product can be determined using the similar group code even when the investigation target trademark information holds the product name and does not hold the similar group code.

図21は、本実施の形態における商標侵害検知装置4のブロック図である。商標侵害検知装置4は、データベース401、受付部32、商標類否判断部33、商品類否判断部402、出力部35を備える。受付部32、商標類否判断部33、出力部35については、実施の形態1と同様であるため、説明を省略する。   FIG. 21 is a block diagram of trademark infringement detection apparatus 4 in the present embodiment. The trademark infringement detection apparatus 4 includes a database 401, a reception unit 32, a trademark class rejection determination unit 33, a product class determination unit 402, and an output unit 35. Since the reception unit 32, the trademark similarity determination unit 33, and the output unit 35 are the same as those in the first embodiment, description thereof is omitted.

データベース401は、1以上の図示しないWebサーバ装置から取得した情報である、会社名と商品名と商品の固有名称との組を1組以上格納し得る。データベース401は、1以上のWebサーバ装置から取得した情報であれば何でもよく、データベース構築装置1を用いて構築してもよく、無作為、または調査対象商標情報の商品名をキーワードにして検索して収集したWebページから特定のルールを用いて情報を取得して構築してもよい。特定のルールとは、例えば、データベース構築装置1の各ルールデータベースに格納されるルールなどである。   The database 401 can store one or more sets of company names, product names, and product unique names, which are information acquired from one or more Web server devices (not shown). The database 401 may be any information obtained from one or more Web server devices, may be constructed using the database construction device 1, and is searched by using a product name of random or surveyed trademark information as a keyword. Information may be acquired from a Web page collected using a specific rule. The specific rule is, for example, a rule stored in each rule database of the database construction device 1.

商品類否判断部402は、データベース401が有する1以上の商品名と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行い、データベース401に格納されている調査対象商標情報に類似する会社名と商品名と商品の固有名称を取得する。商品類否判断部402は、商品コード管理手段4021、コード特定情報取得手段4022、商品類否判断手段4023を備える。なお、本実施の形態におけるコード特定情報とは、商品名であってもよく、図示しない記憶部で管理されている類似群コードを参照するための番号等であってもよく、類似群コード表における見出しの商品または役務名(たとえば、01A01であれば「化学品」)であってもよく、類似群コード表における商品・役務名であってもよく、類似群コードそのものであってもよい。   The commodity similarity determination unit 402 performs commodity similarity determination using one or more commodity names included in the database 401 and the code identification information included in the investigation target trademark information, and the investigation target stored in the database 401 The company name, product name, and product unique name similar to the trademark information are acquired. The product category determination unit 402 includes a product code management unit 4021, a code identification information acquisition unit 4022, and a product category determination unit 4023. The code specifying information in the present embodiment may be a product name, a number for referring to a similar group code managed in a storage unit (not shown), or the like, and a similar group code table May be the product or service name (for example, “Chemical” in the case of 01A01), the product / service name in the similar group code table, or the similar group code itself.

商品コード管理手段4021は、商品名とコード特定情報との対応を管理している。管理する商品名とコード特定情報は、類似群コードの説明文から特定のルールを用いて取得してもよく、図示しないWebサーバ装置から取得したWebページから特定のルールを用いて取得してもよく、人が手作業で入力してもよい。特定のルールとは、例えば「04A01は、例えば、洗い粉やシャンプーなどがあげられる」といった文章から、コード特定情報として「04A01」を、商品名として「洗い粉」と「シャンプー」を取得するようなルールであってもよく、「<table><tr><td>染料</td><td>藍・あかね</td></tr></table>」といったHTMLの構造から、コード特定情報として「染料」を、商品名として「藍」と「あかね」を取得するルールであってもよい。また、商品コード管理手段4021はその対応を再帰的に探索することで類似群コードを取得できるような構成にしてもよい。具体的には、コード特定情報「01A01」と商品名「化学品」、コード特定情報「化学品」と商品名「アンモニア水」という2組の情報があった場合、商品名「アンモニア水」からコード特定情報「01A01」を取得できるように管理しても良い。   The product code management unit 4021 manages the correspondence between the product name and the code specifying information. The product name to be managed and the code specifying information may be acquired from the description of the similar group code using a specific rule, or may be acquired from a Web page acquired from a Web server device (not shown) using a specific rule. Often, a person may input manually. The specific rule is, for example, a rule for acquiring “04A01” as the code identification information and “washing powder” and “shampoo” as the product name from a sentence such as “04A01 is for example washing powder or shampoo”. From the HTML structure such as “<table> <tr> <td> dye </ td> <td> indigo / akane </ td> </ tr> </ table>” as code specifying information The rule may be to acquire “dye” and “indigo” and “Akane” as trade names. The product code management unit 4021 may be configured to acquire a similar group code by recursively searching for the correspondence. Specifically, when there are two sets of information, code specific information “01A01” and product name “Chemical”, code specific information “Chemical” and product name “Ammonia water”, the product name “Ammonia water” You may manage so that code specific information "01A01" may be acquired.

コード特定情報取得手段4022は、商品コード管理手段4021が管理する商品に対応するコード特定情報を用いて、データベース401が有する1以上の商品名に対応するコード特定情報を取得する。取得するコード特定情報は、データベース401が有する商品名に対応する任意のコード特定情報であっても良く、再帰的に対応を取得した結果取得した類似群コードであってもよく、類似群コードに到るまで再帰的に対応を取得する過程に取得したすべてのコード特定情報であっても良い。コード特定情報取得手段4022は、通常、MPUやメモリ等から実現され得る。コード特定情報取得手段4022の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The code specifying information acquisition unit 4022 acquires code specifying information corresponding to one or more product names included in the database 401, using the code specifying information corresponding to the product managed by the product code management unit 4021. The code specifying information to be acquired may be arbitrary code specifying information corresponding to the product name of the database 401, may be a similar group code acquired as a result of recursively acquiring the correspondence, It may be all the code specifying information acquired in the process of acquiring the correspondence recursively until it arrives. The code specifying information acquisition unit 4022 can be usually realized by an MPU, a memory, or the like. The processing procedure of the code specifying information acquisition unit 4022 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

商品類否判断手段4023は、コード特定情報取得手段4022が取得したコード特定情報と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。商品の類否判断は、調査対象商標情報が有するコード特定情報と、コード特定情報取得手段4022が取得したコード特定情報が同一、または含まれているかどうかを判断し、同一、または含まれていた場合、その情報に対応する会社名と商品名と商品の固有名称とを取得する。商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品類否判断手段4023の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The product type determination unit 4023 makes a product type determination using the code specification information acquired by the code specification information acquisition unit 4022 and the code specification information included in the investigation target trademark information. In determining whether a product is similar, the code specifying information included in the trademark information to be investigated and the code specifying information acquired by the code specifying information acquiring unit 4022 are determined to be the same or included. In this case, the company name, the product name, and the unique name of the product corresponding to the information are acquired. The merchandise kind determination unit 4023 can usually be realized by an MPU, a memory, or the like. The processing procedure of the merchandise kind determination unit 4023 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

本実施の形態にかかる商標侵害検知装置4の動作は、商標侵害検知装置3における図16のステップS1018の処理のみを変更したものもである。   The operation of the trademark infringement detection apparatus 4 according to the present embodiment is the same as the operation of the trademark infringement detection apparatus 3 except for the processing in step S1018 in FIG.

以下、本実施の形態における商標侵害検知装置4における商品類否判断部402の具体的な動作について説明する。なお、この具体例において示した商品類否判断部402の出力結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。ここでは、例として、受付部32が受け付けた調査対象商標情報のコード特定情報を「ビール」とし、データベース401には、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という1組の情報が少なくとも記憶されているものとし、商品コード管理手段4021は、コード特定情報「28A02」と商品名「ビール」、コード特定情報「ビール」と商品名「ラガービール」という2組の情報が少なくとも記憶されているものとする。   Hereinafter, a specific operation of the merchandise inequality determination unit 402 in the trademark infringement detection device 4 according to the present embodiment will be described. It should be noted that the output result of the commodity similarity determination unit 402 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data. Here, as an example, the code specifying information of the investigation target trademark information received by the receiving unit 32 is “beer”, and the database 401 has a company name “A company”, a product name “Lugger beer”, and a unique product name. It is assumed that at least one set of information whose name is “B beer” is stored, and the product code management means 4021 has the code specifying information “28A02” and the product name “beer”, the code specifying information “beer” and the product name “ It is assumed that at least two sets of information “Lager beer” are stored.

コード特定情報取得手段4022は、データベース401から商品名に関する情報を取得する。例えば、「ラガービール」などの情報を取得する。そして、商品コード管理手段4021か管理している情報を用いて、各商品名からコード特定情報を取得する。具体的には、「ラガービール」から「ビール」、「ビール」から「28A02」と類似群コードを取得するまでのコード特定情報をすべて取得し、商品名と対応付けて図示しない記憶部に記憶する。   The code specifying information acquisition unit 4022 acquires information on the product name from the database 401. For example, information such as “Lugger beer” is acquired. Then, using the information managed by the product code management means 4021, the code specifying information is acquired from each product name. Specifically, all code specifying information from “Lager Beer” to “Beer” and “Beer” to “28A02” is acquired and stored in a storage unit (not shown) in association with the product name. To do.

商品類否判断手段4023は、受付部32が受け付けた調査対象商標情報が有する「ビール」と同一のコード特定情報を保持した情報を、コード特定情報取得手段4022が取得し、図示しない記憶部に記憶した情報から探索し、データベース401に格納されている会社名と商品の固有名称を取得する。具体的には、「ビール」および「28A02」と対応付けられている「ラガービール」を取得し、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という情報を取得する。   The product type determination unit 4023 acquires the information holding the code specifying information identical to the “beer” included in the survey target trademark information received by the receiving unit 32 by the code specifying information acquiring unit 4022, and stores it in a storage unit (not shown). Searching from the stored information, the company name and the unique name of the product stored in the database 401 are acquired. Specifically, “Lager Beer” associated with “Beer” and “28A02” is acquired, the company name is “Company A”, the product name is “Lager Beer”, and the product unique name is “B Beer”. Is obtained.

以上、本実施の形態によれば、Webサーバ装置から取得した会社名と商品名と商品の固有名称との組に対して、類似群コードを指定しなくても、類似群コードを考慮した商標の類似検索が行えるようにしたため、商標の侵害状況の判断材料となる情報をユーザに提供することができる。   As described above, according to the present embodiment, a trademark taking account of a similar group code without specifying a similar group code for a set of a company name, a product name, and a product unique name acquired from a Web server device. Thus, it is possible to provide the user with information that can be used to determine the trademark infringement status.

なお、本実施の形態では、コード特定情報取得手段4022でコード特定情報を取得したが、図示しない処理部を用いて、予めコード特定情報を取得しておき、データベース401に格納しておいても良い。   In the present embodiment, the code specifying information is acquired by the code specifying information acquiring unit 4022, but the code specifying information may be acquired in advance using a processing unit (not shown) and stored in the database 401. good.

また、上記実施の形態1、実施の形態2において、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、ルール学習部116、会社類似群コード固有名称データベース構築部23、商品類否判断部34、商標文字列取得部331、称呼取得部332、類似検索部335、商標類否判断結果取得部336、コード特定情報取得手段4022、商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品名取得部113等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   In the first and second embodiments, the company name acquisition unit 112, the product name acquisition unit 113, the unique name acquisition unit 114, the knowledge acquisition unit 115, the rule learning unit 116, and the company similar group code unique name database construction Unit 23, product category determination unit 34, trademark character string acquisition unit 331, name acquisition unit 332, similarity search unit 335, trademark class determination result acquisition unit 336, code identification information acquisition unit 4022, product category determination unit 4023 Usually, it can be realized from an MPU, a memory, or the like. The processing procedure of the product name acquisition unit 113 and the like is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

(実施の形態3)
本実施の形態において、Webページから2以上の属性値集合を取得し、当該2以上の属性値集合から新たな属性値集合を生成するデータベース構築装置5について説明する。
(Embodiment 3)
In the present embodiment, a database construction apparatus 5 that acquires two or more attribute value sets from a Web page and generates a new attribute value set from the two or more attribute value sets will be described.

なお、本実施の形態において、所定の情報が格納され得る格納部等において、当該格納部に情報が記憶される過程は問わないものとする。例えば、記録媒体を介して情報が格納部等で記憶されるようになってもよい。また、通信回線などを介して送信された情報が格納部等で記憶されるようになってもよい。さらに、入力デバイスを介して入力された情報が格納部等で記憶されるようになってもよい。また、本実施の形態において説明する各情報の形式、内容などは、あくまで例示であり、各情報の持つ意味を示すことができれば、形式、内容などは問わない。   In the present embodiment, the storage unit or the like in which predetermined information can be stored does not matter how the information is stored in the storage unit. For example, information may be stored in a storage unit or the like via a recording medium. Information transmitted via a communication line or the like may be stored in a storage unit or the like. Furthermore, information input via the input device may be stored in a storage unit or the like. In addition, the format, content, and the like of each information described in this embodiment are merely examples, and the format, content, and the like are not limited as long as the meaning of each information can be indicated.

図21は、本実施の形態におけるデータベース構築装置5のブロック図である。データベース構築装置5は、表格納部51、ルール格納部52、スコア格納部53、辞書格納部54、取得部55、結合部56、ルール取得部57を備える。   FIG. 21 is a block diagram of the database construction device 5 in the present embodiment. The database construction device 5 includes a table storage unit 51, a rule storage unit 52, a score storage unit 53, a dictionary storage unit 54, an acquisition unit 55, a combining unit 56, and a rule acquisition unit 57.

表格納部51には、第一の表と2以上の第二の表とが格納される。第一の表は、属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する。また、第二の表は、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する。つまり、属性値集合は、一のデータモデルにおけるレコードである。また、第一の表および第二の表は、一のデータモデルにおける1以上のレコードの集合である。例えば、当該データモデルがリレーショナル型データモデルである場合、第一の表および第二の表は、テーブルである。なお、属性、および属性値の内容は問わない。   The table storage unit 51 stores a first table and two or more second tables. The first table has one or more attribute value sets having m attribute values (m ≧ 3) having different attributes. Further, the second table has one or more attribute value sets having n (n ≦ m−1) attribute values having different attributes. That is, the attribute value set is a record in one data model. The first table and the second table are a set of one or more records in one data model. For example, when the data model is a relational data model, the first table and the second table are tables. The contents of attributes and attribute values are not limited.

また、第一の表は、通常、第二の表になり得る。例えば、上記mが3である場合、属性の異なる3個の属性値を有する1以上の属性値集合を有する表が、第一の表であり、属性の異なる2個または1個の属性値を有する1以上の属性値集合を有する表が、第二の表である。また、上記mが4である場合、属性の異なる4個の属性値を有する1以上の属性値集合を有する表が、第一の表となり、属性の異なる3個または2個または1個の属性値を有する1以上の属性値集合を有する表が、第二の表となる。つまり、表格納部51に格納されている表が、第一の表であるか第二の表であるかは、他の表との関係で相対的に決まるものである。   Also, the first table can usually be the second table. For example, when m is 3, a table having one or more attribute value sets having three attribute values having different attributes is the first table, and two or one attribute values having different attributes are A table having one or more attribute value sets is a second table. When m is 4, a table having one or more attribute value sets having four attribute values having different attributes is the first table, and three, two, or one attribute having different attributes. A table having one or more attribute value sets having values is the second table. That is, whether the table stored in the table storage unit 51 is the first table or the second table is relatively determined by the relationship with other tables.

また、「属性の属性値」とは、「属性に対応する属性値」を意味する。また、「属性値の属性」とは、「属性値が対応する属性」を意味する。また、「属性の属性値集合」とは、「属性に対応する属性値集合」を意味し、当該属性の属性値を1以上有する属性値集合を意味する。また、「属性値集合の属性」とは、「属性値集合が対応する属性」を意味し、当該属性値集合が有する1以上の属性値の属性を意味する。   The “attribute value of the attribute” means “attribute value corresponding to the attribute”. The “attribute value attribute” means “attribute corresponding to the attribute value”. Further, “attribute value set of attribute” means “attribute value set corresponding to attribute”, and means an attribute value set having one or more attribute values of the attribute. The “attribute value set attribute” means “attribute corresponding to the attribute value set”, and means one or more attribute value attributes of the attribute value set.

また、第二の表は、n個の各属性がユニークであるか否かを示すユニーク識別子を有していてもよい。当該ユニーク識別子は、通常、各属性が有しているが、当該ユニーク識別子により、どの属性がユニークであるかが示されてもよい。当該ユニーク識別子は、例えば、いわゆるRDBにおけるユニークキーであるが、主キーであってもよい。また、当該ユニーク識別子は、2以上の各第二の表がユニークであるか否かを示すものであってもよい。   The second table may have a unique identifier indicating whether each of the n attributes is unique. The unique identifier usually has each attribute, but the unique identifier may indicate which attribute is unique. The unique identifier is, for example, a unique key in so-called RDB, but may be a primary key. The unique identifier may indicate whether each of the two or more second tables is unique.

また、第一の表および第二の表は、属性値集合に対応するスコアを有していてもよい。当該スコアは、通常、当該属性値集合の信頼度を示す。また、当該スコアは、属性値集合が有する各属性値に対応するものであってもよい。   Further, the first table and the second table may have scores corresponding to the attribute value sets. The score usually indicates the reliability of the attribute value set. Further, the score may correspond to each attribute value included in the attribute value set.

「属性値集合の信頼度」とは、当該属性値集合に対する信頼の度合いを示すものである。「属性値集合の信頼度」は、例えば、当該属性値集合を取得したWebページの信頼度や、当該属性値集合そのものの信頼度などである。「Webページの信頼度」は、例えば、当該WebページがいわゆるオフィシャルサイトのWebページである場合は高く、当該Webページがいわゆるオフィシャルサイト以外のWebページである場合は低いものなどである。また、「属性値集合そのものの信頼度」は、例えば、当該属性値集合の取得元であるWebページの信頼度や、当該属性値集合が有する各属性値と、当該属性値の条件である属性値条件との一致度などである。   The “reliability of attribute value set” indicates the degree of trust for the attribute value set. “The reliability of the attribute value set” is, for example, the reliability of the Web page that acquired the attribute value set, the reliability of the attribute value set itself, or the like. “Web page reliability” is, for example, high when the Web page is a so-called official site Web page, and low when the Web page is a web page other than the so-called official site. The “reliability of the attribute value set itself” is, for example, the reliability of the Web page from which the attribute value set is acquired, the attribute values of the attribute value set, and the attribute that is the condition of the attribute value The degree of coincidence with the value condition.

属性値条件とは、例えば、属性値の例や、属性値のパターンなどである。つまり、「属性値条件との一致度」とは、当該属性値集合が有する各属性値と、当該属性値の属性と同一の属性の属性値の例との一致度や、当該属性値集合が有する各属性値と、当該属性値の属性と同一の属性の属性値のパターンとの一致度などである。なお、属性値の例とは、属性値そのものである。また、属性値のパターンとは、例えば、属性値が予め決められた文字を含むことや、属性値が漢字列であること、属性値がカタカナ列であること、属性値がひらがな列であること、属性値が数値であることなどを示すものなどである。   The attribute value condition is, for example, an attribute value example, an attribute value pattern, or the like. In other words, the “degree of matching with the attribute value condition” means the degree of matching between each attribute value of the attribute value set and an example of the attribute value of the same attribute as the attribute value, This is the degree of coincidence between each attribute value and the attribute value pattern of the same attribute as the attribute value. An example of the attribute value is the attribute value itself. The attribute value pattern includes, for example, that the attribute value includes a predetermined character, that the attribute value is a kanji string, that the attribute value is a katakana string, and that the attribute value is a hiragana string. , Indicating that the attribute value is a numerical value.

なお、「属性値集合の信頼度」は、「属性値集合の精度」や、「属性値集合の確度」と呼んでもよい。また、当該スコアは、属性値集合または当該属性値集合が有する各属性値に対応するスコアであり、当該属性値集合または当該属性値が信頼できるか否か、正しいか否かなどを判断できるものであれば、その内容は問わない。   The “attribute value set reliability” may be called “attribute value set accuracy” or “attribute value set accuracy”. The score is a score corresponding to the attribute value set or each attribute value of the attribute value set, and can determine whether the attribute value set or the attribute value is reliable or correct. If so, the content is not questioned.

ルール格納部52には、1以上のルールが格納される。当該ルールとは、1以上のWebページから、上記m個または上記n個の属性値を有する1以上の属性値集合を取得するためのルールである。当該ルールは、通常、後述の取得部55が使用するが、当該取得部55が使用することで、1以上のWebページから1以上の属性値集合を取得できるルールであればよい。   The rule storage unit 52 stores one or more rules. The rule is a rule for acquiring one or more attribute value sets having the m or n attribute values from one or more Web pages. The rule is normally used by the acquisition unit 55 described later, but may be any rule as long as it can acquire one or more attribute value sets from one or more Web pages.

ルールは、Webページが有するHTML(Hyper Text Markup Language)を解釈して得られるテキスト文書(例えば、いわゆるWebブラウザが表示するWebページ)から、1以上の属性値集合を取得するためのルールや、いわゆるHTML文書であるWebページから、1以上の属性値集合を取得するためのルールなどである。   The rule is a rule for obtaining one or more attribute value sets from a text document (for example, a web page displayed by a so-called web browser) obtained by interpreting HTML (Hyper Text Markup Language) included in the web page, For example, a rule for acquiring one or more attribute value sets from a Web page which is a so-called HTML document.

また、ルールは、通常、正規表現であるが、例えば、いわゆる文字列のパターンや、タグのパターン、URI(Uniform Resource Identifier)のパターン、これら3つのパターンのうちの2以上のパターンの組み合わせなどであってもよい。また、ルールは、その他の表記や表現であってもよい。また、ルールは、通常、属性値を取得することを示す変数を有している。当該変数は、属性に対応するものである。   A rule is usually a regular expression. For example, a rule is a so-called character string pattern, tag pattern, URI (Uniform Resource Identifier) pattern, or a combination of two or more of these three patterns. There may be. Further, the rules may be other notations and expressions. A rule usually has a variable indicating that an attribute value is acquired. The variable corresponds to an attribute.

例えば、Webページがテキスト文書である場合、ルールは、(1)「$会社名$は、.*?$商品名$、$固有名称$を発売しました」や、(2)「%固有名称%:%商品名%」、(3)「会社概要<改行>社名|&会社名&<改行>設立|&設立年月日&」などである。(1)は、会社名と、商品名と、固有名称とを取得するためのルールである。(1)において、例えば、「$会社名$」は、当該箇所にある文字列を会社名として取得することを示す変数である。また、「.*?」は、正規表現である。また、(2)は、固有名称と、商品名とを取得するためのルールである。(2)において、例えば、「%固有名称%」は、当該箇所にある文字列を固有名称として取得することを示す変数である。また、(3)は、会社名と、設立年月日を取得するためのルールである。(3)において、例えば、「&設立年月日&」は、当該箇所にある文字列を設立年月日として取得することを示す変数である。また、「<改行>」は、改行を示す。   For example, if the Web page is a text document, the rules are (1) “$ company name $ is. *? $ Product name $, $ proprietary name $” or (2) “% unique name %:% Product Name% ”, (3)“ Company Overview <New Line> Company Name ”& Company Name & <New Line> Established | & Date of Establishment &&. (1) is a rule for acquiring a company name, a product name, and a unique name. In (1), for example, “$ company name $” is a variable indicating that a character string at the location is acquired as the company name. “. *?” Is a regular expression. Moreover, (2) is a rule for acquiring a unique name and a product name. In (2), for example, “% unique name%” is a variable indicating that a character string at the location is acquired as a unique name. (3) is a rule for acquiring the company name and the date of establishment. In (3), for example, “& date of establishment &” is a variable indicating that a character string at the location is acquired as the date of establishment. “<Line feed>” indicates a line feed.

また、例えば、WebページがHTML文書である場合、ルールは、(4)「<p>$会社名$は、.*?$商品名$、$固有名称$を発表しました</p>」や、(5)「<td>%固有名称%:</td><td>%商品名%</td>」、(6)「<div.*?>会社概要</div><br><div.*?>社名</div><div.*?>&会社名&</div><br><div.*?>設立</div><div.*?>&設立年月日&</div>」などである。なお、当該(4)〜(6)の意味は、上記(1)〜(3)と同様であるので、説明を省略する。また、当該(4)〜(6)の各ルールにおける変数や記号の意味も、上記(1)〜(3)と同様であるので、説明を省略する。   Also, for example, if the Web page is an HTML document, the rule is (4) “<p> $ company name $ is. *? $ Product name $, $ unique name $ </ p>” (5) “<td>% unique name%: </ td> <td>% product name% </ td>”, (6) “<div. *?> Company profile </ div> <br> <Div. *?> Company name </ div> <div. *?> & Company name & </ div> <br> <div. *?> Establishment </ div> <div. *?> & Date of establishment & </ Div> ". In addition, since the meaning of said (4)-(6) is the same as said (1)-(3), description is abbreviate | omitted. Further, the meanings of variables and symbols in the rules (4) to (6) are the same as those in the above (1) to (3), and thus the description thereof is omitted.

また、ルール格納部52には、上記各変数に対応するパターンが格納されてもよい。当該パターンとは、例えば、当該変数により取得することが示される文字列が、予め決められた文字を含むことや、当該文字列が漢字列であること、当該文字列がカタカナ列であること、当該文字列がひらがな列であること、当該文字列が数値であることなどを示すものなどである。   The rule storage unit 52 may store patterns corresponding to the variables. The pattern is, for example, that a character string indicated to be acquired by the variable includes a predetermined character, that the character string is a kanji string, that the character string is a katakana string, This indicates that the character string is a hiragana string, the character string is a numerical value, or the like.

また、Webページは、通常、1以上のWebサイトが有するものであり、当該Webサイトを運用するサーバ装置が有する。また、Webページは、データベース構築装置5が備える任意の記憶装置や、記憶領域に格納されていてもよい。また、Webページは、前述のテキスト文書やHTML文書などの文書や、文、段落、文字、文字列、テキストなどを含み、広く解する。   In addition, the Web page is usually included in one or more Web sites, and is included in a server device that operates the Web site. The web page may be stored in any storage device or storage area provided in the database construction device 5. Web pages include documents such as the above-mentioned text documents and HTML documents, sentences, paragraphs, characters, character strings, texts, and the like, and are widely understood.

また、Webページは、当該Webページを識別するWebページ識別子を有していてもよい。当該Webページ識別子は、当該WebページのURLや、Webページのファイル名、Webページのタイトル(HTMLのtitle要素の要素値)、メタ情報(HTMLのmeta要素のkeyword属性値や、description属性値)などである。なお、URLは、いわゆるドメイン名やホスト名などを含み、広く解する。   The web page may have a web page identifier for identifying the web page. The web page identifier includes the URL of the web page, the file name of the web page, the title of the web page (element value of the HTML title element), meta information (keyword attribute value or description attribute value of the HTML meta element) Etc. The URL includes a so-called domain name and host name and is widely understood.

また、ルールは、通常、当該ルールにより取得できる属性値集合を有する第一の表または第二の表に対応付いてルール格納部52に格納されている。これはつまり、ルールと、当該ルールにより取得できる属性値集合に対応する1以上の属性、または当該属性値集合を有し得る表との対応関係がわかるように格納されているということである。   Further, the rule is usually stored in the rule storage unit 52 in association with the first table or the second table having an attribute value set that can be acquired by the rule. This means that the correspondence between the rule and one or more attributes corresponding to the attribute value set that can be acquired by the rule or a table that can have the attribute value set is stored so as to be understood.

スコア格納部53には、Webページ識別子が対応付けられた1以上のスコアが格納される。当該スコアは、Webページのスコアであり、通常、当該Webページの信頼度を示すものである。   The score storage unit 53 stores one or more scores associated with Web page identifiers. The score is a score of the web page, and usually indicates the reliability of the web page.

辞書格納部54には、属性ごとの1以上の属性値の集合である1以上の辞書が格納される。辞書は、属性値の例の集合であると考えてもよい。また、一の辞書は、通常、一の属性の1以上の属性値の集合である。また、辞書格納部54には、1以上の属性値のパターンが格納されてもよい。この場合、属性値のパターンは、通常、当該属性値の属性と対応付いている。   The dictionary storage unit 54 stores one or more dictionaries that are a set of one or more attribute values for each attribute. A dictionary may be thought of as a collection of example attribute values. One dictionary is usually a set of one or more attribute values of one attribute. The dictionary storage unit 54 may store one or more attribute value patterns. In this case, the attribute value pattern is usually associated with the attribute value attribute.

取得部55は、ルール格納部52に格納されている1以上のルールに従い、1以上のWebページから、1以上の属性値集合を取得する。このとき、取得部55は、通常、当該1以上のWebページから、当該1以上のルールに合致する文字列を取得する。そして、取得部55は、取得した文字列から、使用したルールが有する1以上の変数の箇所にある文字列を、属性値として取得する。そして、取得部55は、当該取得した1以上の属性値集合を、表格納部51に蓄積する。当該蓄積とは、第一の表または第二の表に追記することである。また、当該追記は、追加や挿入の意味も含む。   The acquisition unit 55 acquires one or more attribute value sets from one or more Web pages according to one or more rules stored in the rule storage unit 52. At this time, the acquisition unit 55 normally acquires a character string that matches the one or more rules from the one or more Web pages. And the acquisition part 55 acquires the character string in the location of the 1 or more variable which the used rule has as an attribute value from the acquired character string. Then, the acquisition unit 55 accumulates the acquired one or more attribute value sets in the table storage unit 51. The accumulation is to add to the first table or the second table. The additional writing includes the meaning of addition or insertion.

例えば、ルールに従い上記m個の属性値を有する1以上の属性値集合を取得した場合、取得部55は、当該属性値集合に対応する属性を有する表に、当該取得した属性値集合を追記する。当該表は、通常、第一の表である。また、例えば、ルールに従い上記n個の属性値を有する1以上の属性値集合を取得した場合、取得部55は、当該属性値集合に対応する属性を有する表に、当該取得した属性値集合を追記する。当該表は、通常、第二の表である。   For example, when one or more attribute value sets having the m attribute values are acquired according to the rule, the acquisition unit 55 adds the acquired attribute value set to a table having attributes corresponding to the attribute value set. . This table is usually the first table. Further, for example, when one or more attribute value sets having the n attribute values are acquired according to the rule, the acquisition unit 55 stores the acquired attribute value sets in a table having attributes corresponding to the attribute value sets. Append. This table is usually the second table.

また、取得部55は、ルール格納部52に格納されている1以上のルールが有する変数に、当該変数が対応する属性の属性値であり、表格納部51に格納されている1以上の属性値を代入し、新たなルールを生成し、当該ルールに従い、1以上のWebページから1以上の属性値集合を取得してもよい。   Further, the acquisition unit 55 is an attribute value of an attribute corresponding to the variable of one or more rules stored in the rule storage unit 52, and one or more attributes stored in the table storage unit 51. A value may be substituted to generate a new rule, and one or more attribute value sets may be acquired from one or more Web pages according to the rule.

また、取得部55は、ルール格納部52に格納されている1以上のルールが有する変数に、当該変数のパターンであり、ルール格納部52に格納されているパターンを代入し、新たなルールを生成し、当該ルールに従い、1以上のWebページから1以上の属性値集合を取得してもよい。   In addition, the acquisition unit 55 substitutes the pattern stored in the rule storage unit 52 for the variable of one or more rules stored in the rule storage unit 52 and substitutes the pattern stored in the rule storage unit 52 for a new rule. One or more attribute value sets may be acquired from one or more Web pages according to the rules generated.

また、取得部55は、通常、いわゆるクローリングを行い、いわゆるWebから1以上のWebページを取得する。また、例えば、1以上のWebページが任意の記憶領域に格納されている場合、取得部55は、当該記憶領域から、1以上のWebページを取得する。   The acquisition unit 55 normally performs so-called crawling and acquires one or more Web pages from a so-called Web. For example, when one or more Web pages are stored in an arbitrary storage area, the acquisition unit 55 acquires one or more Web pages from the storage area.

例えば、1以上のWebページに文字列『特許分析株式会社は、特許明細書の分析を行うソフトウェア「PAT−Analyzer」を発売した』が存在しており、ルールが『$会社名$は、.*?$商品名$「$固有名称$」を発売した』である場合、取得部55は、まず、当該ルールに合致する当該文字列を取得する。そして、取得部55は、当該文字列から、属性値を取得するための変数「$会社名$」や、「$商品名$」の箇所にある文字列「特許分析株式会社」、「ソフトウェア」、「PAT−Analyzer」を、それぞれ、会社名、商品名、固有名称として取得する。そして、取得部55は、会社名、商品名、固有名称の3つの属性を有する表に、取得した属性値集合を追記する。   For example, a character string “PATENT ANALYZER has released software“ PAT-Analyzer ”for analyzing patent specifications” exists in one or more Web pages, and the rule is “$ company name $ is. *? If $ product name $ “$ unique name $” has been released ”, the acquisition unit 55 first acquires the character string that matches the rule. Then, the acquisition unit 55 uses the variable “$ company name $” for acquiring the attribute value from the character string, the character strings “patent analysis corporation”, “software” in the place of “$ product name $”. , “PAT-Analyzer” are acquired as the company name, product name, and unique name, respectively. And the acquisition part 55 adds the acquired attribute value set to the table | surface which has three attributes of a company name, a product name, and a specific name.

また、例えば、会社名「特許分析株式会社」が既に表格納部51に格納されている場合、取得部55は、当該会社名を上記ルールに代入し、新たなルール『特許分析株式会社は、.*?$商品名$「$固有名称$」を発売した』を生成し、当該ルールを用いて、上記と同様に文字列「ソフトウェア」、「PAT−Analyzer」を、それぞれ、商品名、固有名称として取得してもよい。そして、取得部55は、商品名、固有名称の3つの属性を有する表に、取得した属性値集合を追記する。   For example, when the company name “Patent Analysis Co., Ltd.” is already stored in the table storage unit 51, the acquisition unit 55 substitutes the company name into the above rule, and a new rule “Patent Analysis Co., Ltd. . *? $ Product name $ "$ Unique name $" was released ", and using this rule, the character strings" Software "and" PAT-Analyzer "were acquired as the product name and unique name, respectively, as described above May be. And the acquisition part 55 adds the acquired attribute value set to the table | surface which has three attributes of a product name and a unique name.

また、例えば、上記の場合において、変数「$会社名$」に対応するパターンが「<漢字列>株式会社」であるとき、取得部55は、上記ルールに「<漢字列>株式会社」を代入し、新たなルール『<漢字列>株式会社は、.*?$商品名$「$固有名称$」を発売した』を生成する。そして、取得部55は、当該ルールに合致する上記文字列を取得する。そして、取得部55は、当該文字列から、属性値を取得するための変数「$会社名$」や、「$商品名$」の箇所にある文字列「特許分析株式会社」、「ソフトウェア」、「PAT−Analyzer」を、それぞれ、会社名、商品名、固有名称として取得する。   For example, in the above case, when the pattern corresponding to the variable “$ company name $” is “<Kanji string> corporation”, the acquisition unit 55 sets “<Kanji string> corporation” in the rule. Substituting a new rule “<Kanji> *? $ Product name $ "$ Unique name $" released "is generated. Then, the acquisition unit 55 acquires the character string that matches the rule. Then, the acquisition unit 55 uses the variable “$ company name $” for acquiring the attribute value from the character string, the character strings “patent analysis corporation”, “software” in the place of “$ product name $”. , “PAT-Analyzer” are acquired as the company name, product name, and unique name, respectively.

また、取得部55は、例えば、属性値集合の取得の際に、当該属性値集合を取得したWebページが有するWebページ識別子を取得してもよい。この場合、取得部55は、当該属性値集合と、当該Webページ識別子とを対応付け、第一の表または第二の表に追記する。   In addition, for example, the acquisition unit 55 may acquire a Web page identifier included in the Web page that acquired the attribute value set when acquiring the attribute value set. In this case, the acquisition unit 55 associates the attribute value set with the Web page identifier and adds the attribute value set to the first table or the second table.

また、取得部55は、例えば、属性値集合の取得の際に、当該属性値集合に対応するスコアを算出してもよい。この場合、取得部55は、当該属性値集合と、当該スコアとを対応付け、第一の表または第二の表に追記する。また、取得部55は、例えば、取得した属性値集合が有する各属性値に対応するスコアを算出してもよい。この場合、取得部55は、当該各属性値と、当該スコアとを対応付け、第一の表または第二の表に追記する。また、取得部55は、当該各属性値に対応するスコアを用いて、当該属性値集合に対応するスコアを算出してもよい。当該算出とは、例えば、各属性値に対応するスコアの平均を算出することなどである。この場合、取得部55は、当該属性値集合と、当該スコアとを対応付け、第一の表または第二の表に追記する。   For example, the acquisition unit 55 may calculate a score corresponding to the attribute value set when acquiring the attribute value set. In this case, the acquisition unit 55 associates the attribute value set with the score and adds the attribute value set to the first table or the second table. Moreover, the acquisition part 55 may calculate the score corresponding to each attribute value which the acquired attribute value set has, for example. In this case, the acquisition unit 55 associates each attribute value with the score and adds the attribute value to the first table or the second table. In addition, the acquisition unit 55 may calculate a score corresponding to the attribute value set using a score corresponding to the attribute value. The calculation is, for example, calculating an average score corresponding to each attribute value. In this case, the acquisition unit 55 associates the attribute value set with the score and adds the attribute value set to the first table or the second table.

例えば、取得部55は、属性値集合を取得したWebページが有するWebページ識別子に対応するスコアを、スコア格納部53から取得してもよい。例えば、属性値集合を取得したWebページのURLが「http://www.webpage.com」であり、当該URLがスコア格納部53においてスコア「95」と対応付いている場合、取得部55は、当該スコア「95」を取得する。そして、取得部55は、当該属性値集合と、当該スコアとを対応付け、第一の表または第二の表に追記する。   For example, the acquisition unit 55 may acquire a score corresponding to the Web page identifier included in the Web page from which the attribute value set has been acquired from the score storage unit 53. For example, when the URL of the Web page from which the attribute value set is acquired is “http://www.webpage.com”, and the URL is associated with the score “95” in the score storage unit 53, the acquisition unit 55 The score “95” is acquired. Then, the acquisition unit 55 associates the attribute value set with the score and adds the attribute value set to the first table or the second table.

また、例えば、取得部55は、取得した属性値集合と、属性値条件との一致度を、スコアとして算出してもよい。この場合、取得部55は、通常、当該属性値集合が有する各属性値と、当該属性値条件との一致度を算出する。また、この場合、取得部55は、通常、当該各属性値の属性と同一の属性の属性値条件との一致度を算出する。   Further, for example, the acquisition unit 55 may calculate the degree of coincidence between the acquired attribute value set and the attribute value condition as a score. In this case, the acquisition unit 55 normally calculates the degree of coincidence between each attribute value included in the attribute value set and the attribute value condition. In this case, the acquisition unit 55 normally calculates the degree of coincidence with the attribute value condition of the same attribute as the attribute of each attribute value.

例えば、当該属性値集合が有する属性値が会社名「特許分析株式会社」であるとする。この場合において、属性値条件が会社名の例「特許分析株式会社」であるとき、当該会社名と会社名の例が一致するので、取得部55は、一致度「100」を取得する。また、この場合において、属性値条件が会社名の例「特許解析株式会社」であるとき、取得部55は、当該会社名の文字のうち当該会社名の例と一致している文字数「7」と、当該会社名の文字数「8」を取得し、「7÷8」を計算し、一致度「0.875」を取得する。また、この場合において、属性値条件が会社名のパターン「漢字列」であるとき、当該会社名が漢字列であるので、取得部55は、一致度「100」を取得する。また、この場合において、属性値条件が会社名のパターン「カタカナ列」であるとき、当該会社名がカタカナを1文字も有さないため、取得部55は、一致度「0」を取得する。   For example, assume that the attribute value of the attribute value set is the company name “Patent Analysis Co., Ltd.”. In this case, when the attribute value condition is the company name example “Patent Analysis Co., Ltd.”, the company name and the company name example match, so the acquisition unit 55 acquires the matching degree “100”. Further, in this case, when the attribute value condition is an example of the company name “Patent Analysis Co., Ltd.”, the acquisition unit 55 sets the number of characters “7” that matches the example of the company name among the characters of the company name. Then, the number of characters “8” of the company name is acquired, “7 ÷ 8” is calculated, and the matching degree “0.875” is acquired. Further, in this case, when the attribute value condition is the company name pattern “Kanji character string”, since the company name is a Kanji character string, the acquisition unit 55 acquires the matching degree “100”. In this case, when the attribute value condition is the company name pattern “katakana string”, the acquisition unit 55 acquires the degree of match “0” because the company name does not include any katakana characters.

なお、属性値条件が属性値の例である場合、当該属性値の例は、通常、辞書格納部54に格納されている属性値である。また、属性値条件が属性値のパターンである場合、当該属性値のパターンは、通常、取得部55が保持しているが、任意の記憶領域または予め決められた記憶領域に格納されていてもよい。   When the attribute value condition is an example of an attribute value, the example of the attribute value is an attribute value normally stored in the dictionary storage unit 54. When the attribute value condition is an attribute value pattern, the attribute value pattern is normally held by the acquisition unit 55, but may be stored in an arbitrary storage area or a predetermined storage area. Good.

また、取得部55は、例えば、取得した属性値集合を、いわゆる検索エンジンにて検索し、当該属性値集合を有するWebページの件数をスコアとして取得してもよい。例えば、取得した属性値集合が会社名「特許分析株式会社」と商品名「PAT−Analyzer」であり、当該2個の属性値の両方を有するWebページを検索エンジンにて検索した結果、「1,000」件存在する場合、取得部55は、当該件数「1,000」をスコアとして取得する。   For example, the acquisition unit 55 may search the acquired attribute value set with a so-called search engine and acquire the number of Web pages having the attribute value set as a score. For example, the acquired attribute value set is a company name “Patent Analysis Co., Ltd.” and a product name “PAT-Analyzer”, and a search engine searches for a Web page having both of the two attribute values. , ”Indicates that the number“ 1,000 ”is acquired as a score.

また、取得部55は、例えば、取得した属性値集合の累積取得回数をスコアとして取得してもよい。当該累積取得回数の取得の方法は自明であるので、詳細な説明を省略する。   In addition, the acquisition unit 55 may acquire, for example, the cumulative acquisition count of the acquired attribute value set as a score. Since the method of acquiring the cumulative number of times of acquisition is self-evident, detailed description is omitted.

結合部56は、第二の表が有する2以上の属性値集合を結合し、第一の表が有し得る新たな属性値集合を生成する。そして、結合部56は、生成した属性値集合を、第一の表に追記する。ここで、「第一の表が有し得る」とは、第一の表が有する属性値集合になり得ることを意味し、上記m個の属性値を有することを意味する。具体的には、属性値集合を生成する際に用いた2以上の属性値集合に対応する属性の数よりも、属性の数が多いことを意味する。   The combining unit 56 combines two or more attribute value sets that the second table has, and generates a new attribute value set that the first table can have. Then, the combining unit 56 adds the generated attribute value set to the first table. Here, “the first table can have” means that it can be a set of attribute values that the first table has, and means that it has the m attribute values. Specifically, it means that the number of attributes is larger than the number of attributes corresponding to two or more attribute value sets used when generating the attribute value set.

例えば、結合部56は、上記m個の属性値を有する属性値集合を、上記n個の属性値を有する2つの属性値集合を結合し、生成したとする。この場合、結合の対象である属性値集合の属性の数(n個)よりも、結合により生成した属性値集合の属性の数(m個)の方が多い。従って、結合部56は、当該生成した属性値集合を、第一の表に追記する。また、例えば、結合部56は、属性の異なる3個の属性値を有する2つの属性値集合を結合し、当該属性の異なる3個の属性値を有する属性値集合を生成したとする。この場合、結合の対象である属性値集合の属性の数(3個)と、結合により生成した属性値集合の属性の数(3個)とが同じである。従って、結合部56は、当該生成した属性値集合を、第一の表に追記しない。また、この場合、結合部56は、通常、結合の対象とする属性値集合の属性の数と、結合により生成する属性値集合の属性の数とを比較し、前者の数よりも後者の数の方が多い場合に、新たな属性値を生成する。   For example, it is assumed that the combining unit 56 generates the attribute value set having the m attribute values by combining the two attribute value sets having the n attribute values. In this case, the number of attributes in the attribute value set (m) generated by the combination is larger than the number of attributes in the attribute value set to be combined (n). Therefore, the combining unit 56 adds the generated attribute value set to the first table. For example, it is assumed that the combining unit 56 combines two attribute value sets having three attribute values having different attributes, and generates an attribute value set having three attribute values having different attributes. In this case, the number of attributes in the attribute value set to be combined (three) is the same as the number of attributes in the attribute value set generated by combining (three). Therefore, the combining unit 56 does not add the generated attribute value set to the first table. In this case, the combining unit 56 usually compares the number of attributes in the attribute value set to be combined with the number of attributes in the attribute value set generated by combining, and the latter number rather than the former number. If there are more, a new attribute value is generated.

また、結合部56は、例えば、以下の方法にて、第一の表が有し得る新たな属性値集合を生成する。
(1)2以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を有し、かつ当該属性が前記ユニーク識別子によりユニークであることが示される2以上の属性値集合を結合する。
(2)3以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を2以上有する属性値集合を結合する。
In addition, the combining unit 56 generates a new attribute value set that the first table may have, for example, by the following method.
(1) Two or more attribute value sets that each of two or more different second tables have, have the same attribute value of the same attribute, and that the attribute is unique by the unique identifier Combine attribute value sets.
(2) An attribute value set included in each of three or more different second tables, and attribute value sets having two or more identical attribute values of the same attribute are combined.

なお、結合とは、いわゆるRDBにおけるテーブルの結合(JOIN)と同義である。つまり、結合とは、結合の対象となる属性値集合において重複する属性値(キー)を1つにし、残りの属性値と対応付け、新たな属性値集合を生成することである。   The term “join” is synonymous with the so-called RDB table join (JOIN). In other words, combining means that a single attribute value (key) is duplicated in the attribute value set to be combined and is associated with the remaining attribute values to generate a new attribute value set.

(1)は、以下の条件に合致する2以上の属性値集合を結合することである。
(a)他の属性値集合の属性と同一の属性を有する。
(b)(a)の属性の属性値であり、他の属性値集合が有する属性値と同一の属性値を有する。
(c)(a)の属性がユニーク識別子によりユニークであることが示される。
(1) is to combine two or more attribute value sets that meet the following conditions.
(A) It has the same attribute as the attribute of another attribute value set.
(B) The attribute value of the attribute of (a), which has the same attribute value as the attribute value of another attribute value set.
(C) The attribute of (a) is indicated by a unique identifier.

なお、(1)は、例えば、結合の対象となる属性値集合のすべてが、当該属性値集合の属性がユニーク識別子を有する場合の結合方法であり、上記(a)〜(c)は、当該結合を行う条件(結合条件)である。また、(1)では、ユニーク識別子によりユニークであることが示される属性をキーに、2以上の属性値集合を結合する。   Note that (1) is, for example, a combination method in which all of the attribute value sets to be combined have a unique identifier, and the above (a) to (c) This is a condition for performing the coupling (joining condition). In (1), two or more attribute value sets are combined using an attribute indicated by the unique identifier as a key.

また、(2)は、以下の条件に合致する3以上の属性値集合を結合することである。
(a)他の2以上の属性値集合の属性と同一の属性を2以上有する。
(b)(a)の属性の属性値であり、他の属性値集合が有する属性値と同一の属性値を有する。
(2) is to combine three or more attribute value sets that satisfy the following conditions.
(A) It has two or more attributes that are the same as the attributes of the other two or more attribute value sets.
(B) The attribute value of the attribute of (a), which has the same attribute value as the attribute value of another attribute value set.

なお、(2)は、例えば、結合の対象となる属性値集合の少なくとも1つが、当該属性値集合の属性がユニーク識別子を有さない場合の結合方法であり、上記(a)、(b)は、当該結合を行う条件(結合条件)である。また、結合部56は、(2)の結合を行う場合、3以上の属性値集合であり、当該3以上の属性値集合の2個ずつの属性の対応関係が、当該3以上の属性値集合から明らかであるような属性値集合を結合することが好適である。   Note that (2) is a combining method when, for example, at least one of the attribute value sets to be combined does not have a unique identifier, and the above (a) and (b) Is a condition (coupling condition) for performing the coupling. Further, when performing the combination of (2), the combining unit 56 is a set of three or more attribute values, and the correspondence between two attributes of the three or more attribute value sets is the three or more attribute value sets. It is preferable to combine attribute value sets that are apparent from

例えば、属性値「A」、「B」、「C」のいずれかを有する3つの属性値集合「A−B」、「B−C」、「C−A」があるとする。これら3つの各属性値集合は、他の2つの属性値集合が有する属性値と同一の属性値を、2以上有する。従って、結合部56は、これら3つの属性値集合を結合し、新たな属性値集合「A−B−C」を生成する。   For example, it is assumed that there are three attribute value sets “AB”, “BC”, and “CA” having any of the attribute values “A”, “B”, and “C”. Each of these three attribute value sets has two or more attribute values that are the same as the attribute values of the other two attribute value sets. Therefore, the combining unit 56 combines these three attribute value sets to generate a new attribute value set “ABC”.

また、例えば、属性値「A」、「B」、「C」、「D」のいずれかを有する3つの属性値集合「A−B−C」、「C−D」、「D−A」があるとする。これら3つの各属性値集合は、他の2つの属性値集合が有する属性値と同一の属性値を、2以上有する。従って、結合部56は、これら3つの属性値集合を結合し、新たな属性値集合「A−B−C−D」を生成する。なお、この場合、これら3つの属性値集合からは、「B」と「D」との対応関係が明らかではない。従って、結合部56は、これら3つの属性値集合を結合しないことが好適である。   Also, for example, three attribute value sets “ABC”, “CD”, “DA” having any of the attribute values “A”, “B”, “C”, “D” Suppose there is. Each of these three attribute value sets has two or more attribute values that are the same as the attribute values of the other two attribute value sets. Accordingly, the combining unit 56 combines these three attribute value sets to generate a new attribute value set “ABCD”. In this case, the correspondence between “B” and “D” is not clear from these three attribute value sets. Therefore, it is preferable that the combining unit 56 does not combine these three attribute value sets.

また、例えば、属性値「A」、「B」、「C」、「D」のいずれかを有する3つの属性値集合「A−B」、「B−C」、「C−D」があるとする。これら3つの属性値集合のうち、「C−D」は、他の2つの属性値集合が有する属性値と同一の属性値を2以上有さない。従って、結合部56は、これら3つの属性値集合を結合しない。これは、つまり、「A」と「D」との対応関係が明らかではない状態で、「A」と「D」との対応関係を構築することを防ぐためである。   For example, there are three attribute value sets “AB”, “BC”, and “CD” having any of the attribute values “A”, “B”, “C”, and “D”. And Of these three attribute value sets, “CD” does not have two or more attribute values that are the same as the attribute values of the other two attribute value sets. Accordingly, the combining unit 56 does not combine these three attribute value sets. In other words, this is for preventing the correspondence between “A” and “D” from being established in a state where the correspondence between “A” and “D” is not clear.

また、例えば、属性値「A」、「B」、「C」、「D」、「E」のいずれかを有する3つの属性値集合「A−B−C」、「A−B−D」、「C−D−E」があるとする。これら3つの各属性値集合は、他の2つの属性値集合が有する属性値と同一の属性値を、2以上有する。従って、結合部56は、これら3つの属性値集合を結合し、新たな属性値集合「A−B−C−D−E」を生成する。なお、この場合、これら3つの属性値集合からは、「E」と「A」、「E」と「B」との対応関係が明らかではない。従って、結合部56は、これら3つの属性値集合を結合しないことが好適である。しかし、結合部56は、これら3つの属性値集合の一部であり、対応関係が明らかである属性値集合を結合し、新たな属性値集合「A−B−C−D」を生成してもよい。   Further, for example, three attribute value sets “ABC” and “ABD” having any of the attribute values “A”, “B”, “C”, “D”, “E” And “C-D-E”. Each of these three attribute value sets has two or more attribute values that are the same as the attribute values of the other two attribute value sets. Accordingly, the combining unit 56 combines these three attribute value sets to generate a new attribute value set “ABCDE”. In this case, the correspondence between “E” and “A” and “E” and “B” is not clear from these three attribute value sets. Therefore, it is preferable that the combining unit 56 does not combine these three attribute value sets. However, the combining unit 56 combines the attribute value sets that are part of these three attribute value sets and have a clear correspondence, and generates a new attribute value set “ABCD”. Also good.

なお、以上について、便宜上、属性値のみで説明したが、通常、当該属性値の属性も同一でないと結合は行わない。   In addition, although the above demonstrated only the attribute value for convenience, normally, unless the attribute of the said attribute value is also the same, combining will not be performed.

また、結合部56は、例えば、当該属性値集合に対応するスコアが、予め決められた条件を満たすほど高い属性値集合のみを用いて、新たな属性値集合を生成してもよい。当該条件は、通常、結合部56が保持しているが、任意の記憶領域に格納されていてもよい。   Further, for example, the combining unit 56 may generate a new attribute value set using only an attribute value set whose score corresponding to the attribute value set is high enough to satisfy a predetermined condition. The condition is normally held by the coupling unit 56, but may be stored in an arbitrary storage area.

なお、結合部56は、第二の表が有する2以上の属性値集合を結合し、第一の表が有し得る新たな属性値集合を生成すればよく、当該結合の方法や手順などは問わない。また、当該生成の元となる第二の表が有する属性値集合は、表格納部51に格納されているものであれば何でもよい。例えば、結合部56は、取得部55が取得した2以上の属性値集合を結合してもよいし、結合部56が生成した2以上の属性値集合を結合してもよいし、取得部55が取得した属性値集合または結合部56が生成した属性値集合のうちの2以上の属性値集合を結合してもよい。   The combining unit 56 may combine two or more attribute value sets included in the second table to generate a new attribute value set that the first table may have. It doesn't matter. Further, the attribute value set of the second table that is the source of the generation may be anything as long as it is stored in the table storage unit 51. For example, the combining unit 56 may combine two or more attribute value sets acquired by the acquiring unit 55, may combine two or more attribute value sets generated by the combining unit 56, or may acquire the acquiring unit 55. Two or more attribute value sets from among the attribute value sets acquired by or the attribute value set generated by the combining unit 56 may be combined.

ルール取得部57は、まず、1以上のWebページから、表格納部51に格納されている1以上の属性値集合が存在する文字列を取得する。そして、ルール取得部57は、当該文字列のうち、当該属性値集合以外の文字列を前記ルールとして取得する。そして、ルール取得部57は、当該取得したルールを、ルール格納部52に蓄積する。   The rule acquisition unit 57 first acquires a character string including one or more attribute value sets stored in the table storage unit 51 from one or more Web pages. And the rule acquisition part 57 acquires character strings other than the said attribute value set among the said character strings as said rule. Then, the rule acquisition unit 57 accumulates the acquired rules in the rule storage unit 52.

ルール取得部57は、例えば、いわゆるクローリングを行い、1以上のWebページを取得する。そして、ルール取得部57は、通常、当該Webページから、属性値集合を有するWebページを取得する。また、ルール取得部57は、例えば、属性値集合を検索キーとし、いわゆる検索エンジンを用いて、1以上のWebページを取得してもよい。   The rule acquisition unit 57 performs, for example, so-called crawling and acquires one or more Web pages. Then, the rule acquisition unit 57 normally acquires a Web page having an attribute value set from the Web page. Further, the rule acquisition unit 57 may acquire one or more Web pages using, for example, a so-called search engine using an attribute value set as a search key.

また、ルール取得部57は、例えば、上記の様にして取得した1以上のWebページから、属性値集合が存在する文や、行、表など、1つのまとまりと言える文字列を取得する。   Also, the rule acquisition unit 57 acquires a character string that can be said to be a single unit, such as a sentence, row, or table in which an attribute value set exists, from one or more Web pages acquired as described above.

また、ルール取得部57は、例えば、上記の様にして取得した文字列に存在する属性値集合を、予め決められた変数に置換する。そして、ルール取得部57は、当該置換後の文字列を、ルールとして取得する。例えば、当該文字列に会社名が存在する場合、ルール取得部57は、当該文字列に存在する会社名を、当該会社名に対応する変数(例えば、「%会社名%」)に置換する。また、例えば、当該文字列に商品名および固有名称が存在する場合、ルール取得部57は、当該文字列に存在する商品名および固有名称を、当該商品名および固有名称に対応する変数(例えば、「$商品名」、「$固有名称$」)に置換する。   For example, the rule acquisition unit 57 replaces the attribute value set existing in the character string acquired as described above with a predetermined variable. Then, the rule acquisition unit 57 acquires the replaced character string as a rule. For example, when a company name exists in the character string, the rule acquisition unit 57 replaces the company name existing in the character string with a variable (for example, “% company name%”) corresponding to the company name. For example, when the product name and the unique name exist in the character string, the rule acquisition unit 57 converts the product name and the unique name that exist in the character string into variables (for example, the product name and the unique name, for example, “$ Product name”, “$ unique name $”).

また、ルール取得部57は、例えば、対象が自明である文字列を、予め決められた変数に置換してもよい。「対象が自明である文字列」は、例えば、日付や、時刻、曜日、人名などである。また、ルール取得部57は、例えば、いわゆる動詞や、助詞、名詞など以外の文字列を、任意の0以上の文字列を示す記号に置換してもよい。   Moreover, the rule acquisition part 57 may replace the character string whose object is self-evident with a predetermined variable, for example. The “character string whose target is self-evident” is, for example, a date, time, day of the week, name of person, and the like. Moreover, the rule acquisition part 57 may replace character strings other than what is called a verb, a particle, a noun, etc. with the symbol which shows arbitrary 0 or more character strings, for example.

また、ルール取得部57は、例えば、取得したルールと、ルール格納部52に既に格納されているルールとから、新たなルールを生成してもよい。この場合、ルール取得部57は、通常、取得したルールとの類似度が予め決められた条件を満たすほど高いルールを、ルール格納部52から取得し、当該2つのルールの共通部分を、新たなルールとして取得する。なお、このとき、共通部分以外は、任意の0以上の文字列を示す記号に置換してもよいし、いわゆる論理和で連結してもよい。また、ルール取得部57は、例えば、取得した2以上のルールから、またはルール格納部52に既に格納される2以上のルールから上記のような新たなルールを作成してもよい。   In addition, the rule acquisition unit 57 may generate a new rule from the acquired rule and the rule already stored in the rule storage unit 52, for example. In this case, the rule acquisition unit 57 normally acquires from the rule storage unit 52 a rule that is so high that the degree of similarity with the acquired rule satisfies a predetermined condition, and sets a common part of the two rules as a new one. Get as a rule. At this time, any part other than the common part may be replaced with an arbitrary symbol indicating zero or more character strings, or may be connected by so-called logical sum. The rule acquisition unit 57 may create a new rule as described above, for example, from two or more acquired rules or from two or more rules already stored in the rule storage unit 52.

また、ルール取得部57は、上記の様にして取得したルールを、ルール格納部52に蓄積する。このとき、ルール取得部57は、通常、取得したルールを、当該ルールを取得した際に用いた属性値集合を有する第一の表または第二の表に対応付けて、ルール格納部52に蓄積する。なお、ルール取得部57は、取得したルールと、当該ルールにより取得できる属性値集合(属性の集合)との対応関係がわかるように、取得したルールをルール格納部52に蓄積すればよく、その方法や手順などは問わない。   Also, the rule acquisition unit 57 accumulates the rules acquired as described above in the rule storage unit 52. At this time, the rule acquisition unit 57 normally accumulates the acquired rule in the rule storage unit 52 in association with the first table or the second table having the attribute value set used when the rule is acquired. To do. Note that the rule acquisition unit 57 may accumulate the acquired rules in the rule storage unit 52 so that the correspondence between the acquired rules and the attribute value set (attribute set) that can be acquired by the rule is understood. Any method or procedure is acceptable.

なお、表格納部51、ルール格納部52、スコア格納部53、辞書格納部54は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   The table storage unit 51, the rule storage unit 52, the score storage unit 53, and the dictionary storage unit 54 are preferably non-volatile recording media, but can also be realized by volatile recording media.

また、取得部55、結合部56、ルール取得部57は、通常、MPUやメモリ等から実現され得る。取得部55等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。   In addition, the acquisition unit 55, the combining unit 56, and the rule acquisition unit 57 can be usually realized by an MPU, a memory, or the like. The processing procedure of the acquisition unit 55 and the like is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

次に、データベース構築装置5の動作について説明する。なお、所定の情報におけるi番目の情報は、「情報[i]」と記載するものとする。図22は、データベース構築装置5の全体動作を示すフローチャートである。   Next, the operation of the database construction device 5 will be described. Note that the i-th information in the predetermined information is described as “information [i]”. FIG. 22 is a flowchart showing the overall operation of the database construction device 5.

(ステップS2201)取得部55は、属性値集合を取得するか否かを判断する。この判断は、具体的には、例えば、データベース構築装置5が、受付部(図示せず)を有しており、当該受付部が属性値集合を取得する旨の指示を受け付けたか否か判断することや、属性値集合を取得するタイミング(周期)が予め決められており、当該タイミングになったか否かを判断することなどである。取得する場合は、ステップS2202に進み、そうでない場合は、ステップS2203に進む。   (Step S2201) The acquisition unit 55 determines whether to acquire an attribute value set. Specifically, for example, the database construction device 5 has a reception unit (not shown), and determines whether or not the reception unit has received an instruction to acquire an attribute value set. In addition, the timing (cycle) for acquiring the attribute value set is determined in advance, and it is determined whether or not the timing is reached. When acquiring, it progresses to step S2202, and when that is not right, it progresses to step S2203.

(ステップS2202)取得部55は、属性値集合を取得する。この処理の詳細は、図23のフローチャートを用いて説明する。そして、ステップS2201に戻る。   (Step S2202) The acquisition unit 55 acquires an attribute value set. Details of this processing will be described with reference to the flowchart of FIG. Then, the process returns to step S2201.

(ステップS2203)結合部56は、属性値集合を生成するか否かを判断する。この判断は、具体的には、例えば、データベース構築装置5が、受付部(図示せず)を有しており、当該受付部が属性値集合を生成する旨の指示を受け付けたか否か判断することや、属性値集合を生成するタイミング(周期)が予め決められており、当該タイミングになったか否かを判断することなどである。生成する場合は、ステップS2204に進み、そうでない場合は、ステップS2205に進む。   (Step S2203) The combining unit 56 determines whether to generate an attribute value set. Specifically, for example, the database construction device 5 has a reception unit (not shown), and determines whether or not the reception unit has received an instruction to generate an attribute value set. The timing (cycle) for generating the attribute value set is determined in advance, and it is determined whether or not the timing is reached. If so, the process proceeds to step S2204; otherwise, the process proceeds to step S2205.

(ステップS2204)結合部56は、属性値集合を生成する。この処理の詳細は、図24のフローチャートを用いて説明する。そして、ステップS2201に戻る。   (Step S2204) The combining unit 56 generates an attribute value set. Details of this processing will be described with reference to the flowchart of FIG. Then, the process returns to step S2201.

(ステップS2205)ルール取得部57は、ルールを取得するか否かを判断する。この判断は、具体的には、例えば、データベース構築装置5が、受付部(図示せず)を有しており、当該受付部がルールを取得する旨の指示を受け付けたか否か判断することや、ルールを取得するタイミング(周期)が予め決められており、当該タイミングになったか否かを判断することなどである。取得する場合は、ステップS2206に進み、そうでない場合は、ステップS2201に戻る。   (Step S2205) The rule acquisition unit 57 determines whether or not to acquire a rule. Specifically, for example, the database construction device 5 has a reception unit (not shown), and it is determined whether or not the reception unit has received an instruction to acquire a rule. The timing (cycle) for acquiring the rule is determined in advance, and it is determined whether or not the timing is reached. When acquiring, it progresses to step S2206, and when that is not right, it returns to step S2201.

(ステップS2206)ルール取得部57は、ルールを取得する。この処理の詳細は、図25のフローチャートを用いて説明する。そして、ステップS2201に戻る。   (Step S2206) The rule acquisition unit 57 acquires a rule. Details of this processing will be described with reference to the flowchart of FIG. Then, the process returns to step S2201.

なお、図22のフローチャートにおいて、電源オフや処理終了の割り込みにより処理を終了してもよい。   In the flowchart of FIG. 22, the process may be terminated by powering off or a process termination interrupt.

また、図22のフローチャートにおいて、ステップS2201の判断、ステップS2203の判断、ステップS2205の判断の順序は問わない。   In the flowchart of FIG. 22, the order of the determination in step S2201, the determination in step S2203, and the determination in step S2205 does not matter.

図23は、図22のフローチャートのステップS2202の属性値集合の取得処理を示すフローチャートである。   FIG. 23 is a flowchart showing the attribute value set acquisition processing in step S2202 of the flowchart of FIG.

(ステップS2301)取得部55は、ルール格納部52に格納されているすべてのルールを取得する。ここで、M個のルールが取得できたものとする。   (Step S2301) The acquisition unit 55 acquires all the rules stored in the rule storage unit 52. Here, it is assumed that M rules have been acquired.

(ステップS2302)取得部55は、クローリングを行い、Webから1以上のWebページを取得する。ここで、N個のWebページが取得できたものとする。   (Step S2302) The acquisition unit 55 performs crawling and acquires one or more Web pages from the Web. Here, it is assumed that N Web pages have been acquired.

(ステップS2303)取得部55は、カウンタiに1をセットする。   (Step S2303) The acquisition unit 55 sets 1 to the counter i.

(ステップS2304)取得部55は、カウンタjに1をセットする。   (Step S2304) The acquisition unit 55 sets 1 to the counter j.

(ステップS2305)取得部55は、変数countに0をセットする。   (Step S2305) The acquisition unit 55 sets 0 to the variable count.

(ステップS2306)取得部55は、ルール[i]に合致する文字列が、Webページ[j]に存在するか否かを判断する。存在する場合は、ステップS2307に進み、そうでない場合は、ステップS2311に進む。   (Step S2306) The acquisition unit 55 determines whether a character string that matches the rule [i] exists in the Web page [j]. When it exists, it progresses to step S2307, and when that is not right, it progresses to step S2311.

(ステップS2307)取得部55は、ルール[i]に合致する文字列を、Webページ[j]から取得する。   (Step S2307) The acquisition unit 55 acquires a character string that matches the rule [i] from the Web page [j].

(ステップS2308)取得部55は、取得した文字列から属性値集合を取得する。   (Step S2308) The acquisition unit 55 acquires an attribute value set from the acquired character string.

(ステップS2309)取得部55は、countを1インクリメントする。   (Step S2309) The acquisition unit 55 increments count by 1.

(ステップS2310)取得部55は、変数attrs[count]に、取得した属性値集合をセットする。   (Step S2310) The acquisition unit 55 sets the acquired attribute value set in the variable attrs [count].

(ステップS2311)取得部55は、jがNであるか否かを判断する。Nである場合は、ステップ2313に進み、そうでない場合は、ステップS2312に進む。   (Step S2311) The acquisition unit 55 determines whether j is N or not. When it is N, it progresses to step 2313, and when that is not right, it progresses to step S2312.

(ステップS2312)取得部55は、jを1インクリメントし、ステップS2306に戻る。   (Step S2312) The acquisition unit 55 increments j by 1, and returns to step S2306.

(ステップS2313)取得部55は、countが1以上であるか否かを判断する。1以上である場合は、ステップS2314に進み、そうでない場合は、S2315に進む。   (Step S2313) The acquisition unit 55 determines whether count is 1 or more. If it is 1 or more, the process proceeds to step S2314; otherwise, the process proceeds to S2315.

(ステップS2314)取得部55は、第二の表にattrsを追記する。   (Step S2314) The acquisition unit 55 adds attrs to the second table.

(ステップS2315)取得部55は、iがMであるか否かを判断する。Mである場合は、上位処理にリターンし、そうでない場合は、ステップS2316に進む。   (Step S2315) The acquisition unit 55 determines whether i is M. If it is M, the process returns to the upper process, and if not, the process proceeds to step S2316.

(ステップS2316)取得部55は、iを1インクリメントし、ステップS2304に戻る。   (Step S2316) The acquisition unit 55 increments i by 1, and returns to Step S2304.

なお、図23のフローチャートにおいて、一のルールごとに、N個のWebページから1以上の属性値集合を取得している。これにより、当該ルールを用いて取得した属性値集合の属性ごとに、取得した属性値集合を、当該属性を有する第二の表に追記することができる。   In the flowchart of FIG. 23, one or more attribute value sets are acquired from N Web pages for each rule. Thereby, for each attribute of the attribute value set acquired using the rule, the acquired attribute value set can be added to the second table having the attribute.

また、図23のフローチャートにおいて、M個のすべての各ルールについて、N個のWebページから1以上の属性値集合を取得し、当該取得したすべての属性値集合を、一括で第二の表に追記してもよい。   In the flowchart of FIG. 23, for all M rules, one or more attribute value sets are acquired from N Web pages, and all the acquired attribute value sets are collectively displayed in the second table. You may add.

図24は、図22のフローチャートのステップS2204の属性値集合の生成処理を示すフローチャートである。   FIG. 24 is a flowchart showing the attribute value set generation processing in step S2204 of the flowchart of FIG.

(ステップS2401)結合部56は、表格納部51に格納されているすべての第二の表を取得する。ここで、M個の属性値集合が取得できたものとする。   (Step S <b> 2401) The combining unit 56 acquires all the second tables stored in the table storage unit 51. Here, it is assumed that M attribute value sets have been acquired.

(ステップS2402)結合部56は、カウンタiに1をセットする。   (Step S2402) The combining unit 56 sets 1 to the counter i.

(ステップS2403)結合部56は、属性値集合[i]に対応する属性のいずれかが、ユニーク識別子を有するか否かを判断する。有する場合は、ステップS2404に進み、そうでない場合は、ステップS2413に進む。   (Step S2403) The combining unit 56 determines whether any of the attributes corresponding to the attribute value set [i] has a unique identifier. If so, the process proceeds to step S2404; otherwise, the process proceeds to step S2413.

(ステップS2404)結合部56は、属性値集合[i]を有する第二の表、および属性値集合[i]から、ユニーク識別子を有する属性、および当該属性に対応する属性値を取得する。   (Step S2404) The combining unit 56 acquires an attribute having a unique identifier and an attribute value corresponding to the attribute from the second table having the attribute value set [i] and the attribute value set [i].

(ステップS2405)結合部56は、カウンタjに1をセットする。   (Step S2405) The combining unit 56 sets 1 to the counter j.

(ステップS2406)結合部56は、iとjが異なるか否かを判断する。異なる場合は、ステップS2407に進み、そうでない場合は、ステップS2409に進む。   (Step S2406) The combining unit 56 determines whether i and j are different. If they are different, the process proceeds to step S2407; otherwise, the process proceeds to step S2409.

(ステップS2407)結合部56は、属性値集合[j]が、ステップS2404で取得した属性に対応し、かつステップS2404で取得した属性値と同一である属性値を有するか否かを判断する。有する場合は、ステップS2408に進み、そうでない場合は、ステップS2409に進む。   (Step S2407) The combining unit 56 determines whether or not the attribute value set [j] has an attribute value corresponding to the attribute acquired in step S2404 and the same as the attribute value acquired in step S2404. If so, the process proceeds to step S2408; otherwise, the process proceeds to step S2409.

(ステップS2408)結合部56は、属性値集合[i]と属性値集合[j]とを結合する。   (Step S2408) The combining unit 56 combines the attribute value set [i] and the attribute value set [j].

(ステップS2409)結合部56は、jがMであるか否かを判断する。Mである場合は、ステップS2411に進み、そうでない場合は、ステップS2410に進む。   (Step S2409) The combining unit 56 determines whether j is M. When it is M, it progresses to step S2411, and when that is not right, it progresses to step S2410.

(ステップS2410)結合部56は、jを1インクリメントし、ステップS2406に戻る。   (Step S2410) The combining unit 56 increments j by 1, and returns to step S2406.

(ステップS2411)結合部56は、iがMであるか否かを判断する。Mである場合は、上位処理にリターンし、そうでない場合は、ステップS2412に進む。   (Step S2411) The combining unit 56 determines whether i is M. If it is M, the process returns to the upper process, and if not, the process proceeds to step S2412.

(ステップS2412)結合部56は、iを1インクリメントし、ステップS2403に戻る。   (Step S2412) The combining unit 56 increments i by 1, and returns to step S2403.

(ステップS2413)結合部56は、jに1をセットする。   (Step S2413) The combining unit 56 sets 1 to j.

(ステップS2414)結合部56は、カウンタkに1をセットする。   (Step S2414) The coupling unit 56 sets 1 to the counter k.

(ステップS2415)結合部56は、iとjとkとが異なるか否かを判断する。異なる場合は、ステップS2416に進み、そうでない場合は、ステップS2418に進む。   (Step S2415) The combining unit 56 determines whether i, j, and k are different. If they are different, the process proceeds to step S2416; otherwise, the process proceeds to step S2418.

(ステップS2416)結合部56は、属性値集合[i]と属性値集合[j]と属性値集合[k]とが、結合条件を満たすか否かを判断する。満たす場合は、ステップS2417に進み、そうでない場合は、ステップS2418に進む。   (Step S2416) The combining unit 56 determines whether or not the attribute value set [i], the attribute value set [j], and the attribute value set [k] satisfy the connection condition. If so, the process proceeds to step S2417; otherwise, the process proceeds to step S2418.

(ステップS2417)結合部56は、属性値集合[i]と属性値集合[j]と属性値集合[k]とを結合する。   (Step S2417) The combining unit 56 combines the attribute value set [i], the attribute value set [j], and the attribute value set [k].

(ステップS2418)結合部56は、kがMであるか否かを判断する。Mである場合は、ステップS2420に進み、そうでない場合は、S2419に進む。   (Step S2418) The combining unit 56 determines whether or not k is M. When it is M, it progresses to step S2420, and when that is not right, it progresses to S2419.

(ステップS2419)結合部56は、kを1インクリメントし、ステップS2415に戻る。   (Step S2419) The combining unit 56 increments k by 1, and returns to step S2415.

(ステップS2420)結合部56は、jがMであるか否かを判断する。Mである場合は、ステップS2411に進み、そうでない場合は、ステップS2421に進む。   (Step S2420) The combining unit 56 determines whether j is M or not. When it is M, it progresses to step S2411, and when that is not right, it progresses to step S2421.

(ステップS2421)結合部56は、jを1インクリメントし、ステップS2414に戻る。   (Step S2421) The combining unit 56 increments j by 1, and returns to step S2414.

なお、図24のフローチャートにおいて、2以上の属性値集合が、ユニーク識別子を有する場合の結合条件を満たすか否かを判断し、満たす場合は、当該2以上の属性値集合を結合するようにしてもよい。   In the flowchart of FIG. 24, it is determined whether or not two or more attribute value sets satisfy a combining condition in the case of having a unique identifier, and if so, the two or more attribute value sets are combined. Also good.

また、図24のフローチャートにおいて、3以上の属性値集合が、ユニーク識別子を有さない場合の結合条件を満たすか否かを判断し、満たす場合は、当該3以上の属性値集合を結合するようにしてもよい。   Also, in the flowchart of FIG. 24, it is determined whether or not the attribute value set of 3 or more satisfies the combining condition in the case where the unique identifier does not exist, and if so, the attribute value set of 3 or more is combined. It may be.

図25は、図22のフローチャートのステップS2206のルールの取得処理を示すフローチャートである。   FIG. 25 is a flowchart showing the rule acquisition processing in step S2206 of the flowchart of FIG.

(ステップS2501)ルール取得部57は、表格納部51に格納されているすべての属性値集合を取得する。ここで、M個の属性値集合が取得できたものとする。   (Step S2501) The rule acquisition unit 57 acquires all attribute value sets stored in the table storage unit 51. Here, it is assumed that M attribute value sets have been acquired.

(ステップS2502)ルール取得部57は、クローリングを行い、Webから1以上のWebページを取得する。ここで、N個のWebページが取得できたものとする。   (Step S2502) The rule acquisition unit 57 performs crawling and acquires one or more Web pages from the Web. Here, it is assumed that N Web pages have been acquired.

(ステップS2503)ルール取得部57は、カウンタiに1をセットする。   (Step S2503) The rule acquisition unit 57 sets 1 to the counter i.

(ステップS2504)ルール取得部57は、カウンタjに1をセットする。   (Step S2504) The rule acquisition unit 57 sets 1 to the counter j.

(ステップS2505)ルール取得部57は、変数countに0をセットする。   (Step S2505) The rule acquisition unit 57 sets 0 to the variable count.

(ステップS2506)ルール取得部57は、属性値集合[i]が存在する文字列が、Webページ[j]に存在するか否かを判断する。存在する場合は、ステップS2507に進み、そうでない場合は、ステップS2511に進む。   (Step S2506) The rule acquisition unit 57 determines whether or not a character string having the attribute value set [i] exists in the Web page [j]. When it exists, it progresses to step S2507, and when that is not right, it progresses to step S2511.

(ステップS2507)ルール取得部57は、属性値集合[i]が存在する文字列を、Webページ[j]から取得する。   (Step S2507) The rule acquisition unit 57 acquires a character string in which the attribute value set [i] exists from the Web page [j].

(ステップS2508)ルール取得部57は、取得した文字列からルールを取得する。   (Step S2508) The rule acquisition unit 57 acquires a rule from the acquired character string.

(ステップS2509)ルール取得部57は、countを1インクリメントする。   (Step S2509) The rule acquisition unit 57 increments count by 1.

(ステップS2510)ルール取得部57は、変数rules[count]に、取得した属性値集合をセットする。   (Step S2510) The rule acquisition unit 57 sets the acquired attribute value set in the variable rules [count].

(ステップS2511)ルール取得部57は、jがNであるか否かを判断する。Nである場合は、ステップ2513に進み、そうでない場合は、ステップS2512に進む。   (Step S2511) The rule acquisition unit 57 determines whether j is N or not. When it is N, it progresses to step 2513, and when that is not right, it progresses to step S2512.

(ステップS2512)ルール取得部57は、jを1インクリメントし、ステップS2506に戻る。   (Step S2512) The rule acquisition unit 57 increments j by 1, and returns to step S2506.

(ステップS2513)ルール取得部57は、countが1以上であるか否かを判断する。1以上である場合は、ステップS2514に進み、そうでない場合は、S2515に進む。   (Step S2513) The rule acquisition unit 57 determines whether the count is 1 or more. When it is 1 or more, the process proceeds to step S2514. Otherwise, the process proceeds to S2515.

(ステップS2514)ルール取得部57は、ルール格納部52にrulesを蓄積する。   (Step S 2514) The rule acquisition unit 57 accumulates rules in the rule storage unit 52.

(ステップS2515)ルール取得部57は、iがMであるか否かを判断する。Mである場合は、上位処理にリターンし、そうでない場合は、ステップS2516に進む   (Step S2515) The rule acquisition unit 57 determines whether i is M or not. If it is M, the process returns to the upper process, and if not, the process proceeds to step S2516.

なお、図25のフローチャートにおいて、一の属性値集合ごとに、N個のWebページから1以上のルールを取得している。これにより、当該属性値集合の属性ごとに、当該取得したルールを、ルール格納部52に蓄積することができる。   In the flowchart of FIG. 25, one or more rules are acquired from N Web pages for each attribute value set. Thereby, the acquired rule can be accumulated in the rule storage unit 52 for each attribute of the attribute value set.

また、図25のフローチャートにおいて、M個のすべての各属性値集合について、N個のWebページから1以上のルールを取得し、当該取得したすべてのルールを、一括でルール格納部52に蓄積してもよい。   Further, in the flowchart of FIG. 25, for all M attribute value sets, one or more rules are acquired from N Web pages, and all the acquired rules are collectively stored in the rule storage unit 52. May be.

(具体例)
次に、データベース構築装置5の動作の具体例について説明する。
(Concrete example)
Next, a specific example of the operation of the database construction device 5 will be described.

(例1:属性値集合の取得)   (Example 1: Acquisition of attribute value set)

本例において、ルール格納部52には、図26に示すルールが格納されているものとする。当該ルールは、各レコードを一意に特定するためのID(項目名:ID)と、ルール(項目名:取得ルール)と、当該ルールにより取得できる属性値集合の属性(項目名:属性)とを対応付けて有する。   In this example, it is assumed that the rule storage unit 52 stores the rules shown in FIG. The rule includes an ID (item name: ID) for uniquely identifying each record, a rule (item name: acquisition rule), and an attribute value set attribute (item name: attribute) that can be acquired by the rule. It has correspondence.

まず、取得部55は、図26のすべてのルールを取得する。   First, the acquisition unit 55 acquires all the rules in FIG.

次に、取得部55は、クローリングを行い、Webから1以上のWebページを取得し、図27および図28に示すWebページを取得したものとする。図27のWebページは、テキスト文書であり、図28のWebページは、HTML文書である。   Next, it is assumed that the acquisition unit 55 performs crawling, acquires one or more Web pages from the Web, and acquires the Web pages illustrated in FIGS. 27 and 28. The web page in FIG. 27 is a text document, and the web page in FIG. 28 is an HTML document.

次に、取得部55は、取得したルールの各々に合致する文字列を、取得したWebページから取得する。ここで、図27のテキスト文書には、図26の「ID=011」のルール「$会社名$、$商品名$、$固有名称$を.*?発売」に合致する文字列「株式会社良品家電、フルHDテレビ、BeautyScreenを発売」が、12行目に存在する。また、図28のHTML文書には、図26の「ID=021」のルール「<h2>$会社名$、$商品名$、固有名称$を.*?発売</h2>」に合致する文字列「<h2>株式会社良品家電、フルHDテレビ、BeautyScreenを発売</h2>」が、12行目に存在する。従って、取得部55は、当該2つの文字列を取得する。   Next, the acquisition unit 55 acquires a character string that matches each of the acquired rules from the acquired Web page. Here, in the text document of FIG. 27, the character string “Co., Ltd.” that matches the rule “$ company name $, $ product name $, $ unique name $. *? Release” of “ID = 011” in FIG. "Released non-defective home appliances, full HD TV, and BeautyScreen" are on the 12th line. In addition, the HTML document of FIG. 28 matches the rule “<h2> $ company name $, $ product name $, and unique name $. *? Release </ h2>” of “ID = 021” in FIG. The character string “<h2> Ryohin Denki Home Appliances Co., Ltd., Full HD TV, Releases BeautyScreen </ h2>” exists on the 12th line. Therefore, the acquisition unit 55 acquires the two character strings.

次に、取得部55は、取得した文字列「株式会社良品家電、フルHDテレビ、BeautyScreenを発売」から、当該文字列を取得した際に用いたルール「$会社名$、$商品名$、$固有名称$を.*?発売」が有する属性値を示す変数の箇所にある文字列を取得する。そして、取得部55は、会社名として「株式会社良品家電」、商品名として「フルHDテレビ」、固有名称として「BeautyScreen」を取得する。また、取得部55は、取得した文字列「<h2>株式会社良品家電、フルHDテレビ、BeautyScreenを発売</h2>」から、当該文字列を取得した際に用いたルール「<h2>$会社名$、$商品名$、$固有名称$を.*?発売</h2>」が有する属性値を示す変数の箇所にある文字列を取得する。そして、取得部55は、会社名として「株式会社良品家電」、商品名として「フルHDテレビ」、固有名称として「BeautyScreen」を取得する。   Next, the acquisition unit 55 uses the rules “$ company name $, $ product name $,” used when acquiring the character string from the acquired character string “Released Ryohin Denki Co., Ltd., Full HD TV, BeautyScreen”. The character string in the variable part indicating the attribute value of “$ unique name $. *? Release” is acquired. Then, the acquisition unit 55 acquires “Ryosan Co., Ltd.” as the company name, “Full HD TV” as the product name, and “BeautyScreen” as the unique name. In addition, the acquisition unit 55 uses the rule “<h2> $ used when acquiring the character string from the acquired character string“ <h2> Ryohin Denki Home Appliances Co., Ltd., Full HD TV, Releases BeautyScreen </ h2> ”. A character string in a variable portion indicating an attribute value of “company name $, $ product name $, $ unique name $. *? Release </ h2>” is acquired. Then, the acquisition unit 55 acquires “Ryosan Co., Ltd.” as the company name, “Full HD TV” as the product name, and “BeautyScreen” as the unique name.

なお、当該取得した2つの属性値集合が重複しているため、取得部55は、通常、いわゆるユニーク処理を行い、最終的に1つの属性値集合「株式会社良品家電|フルHDテレビ|BeautyScreen」を取得する。   Since the two acquired attribute value sets overlap, the acquiring unit 55 normally performs a so-called unique process, and finally ends up with one attribute value set “Ryohin Denki Co., Ltd. | Full HD TV | BeautyScreen”. To get.

次に、取得部55は、取得した属性値集合「株式会社良品家電|フルHDテレビ|BeautyScreen」を、第二の表に追記する。このときの様子は、例えば、図29である。また、このとき、例えば、表格納部51に当該属性値集合に対応する属性を有する表が存在しない場合、取得部55は、まず、取得した属性値集合に対応する属性を有する表を生成し、当該表に取得した属性値集合を追記する。   Next, the acquisition unit 55 adds the acquired attribute value set “Ryohin Denki Co., Ltd. | Full HD TV | BeautyScreen” to the second table. The situation at this time is, for example, FIG. At this time, for example, if there is no table having an attribute corresponding to the attribute value set in the table storage unit 51, the acquisition unit 55 first generates a table having an attribute corresponding to the acquired attribute value set. The attribute value set acquired is added to the table.

また、例えば、図27のWebページのURLが「http://official.beautyscreen.com」であったとする。この場合、取得部55は、当該URLを取得してもよい。そして、取得部55は、当該取得したURLを、取得した属性値集合と対応付けて、第二の表に追記してもよい。このときの様子は、例えば、図30である。   Further, for example, assume that the URL of the Web page in FIG. 27 is “http: // official. Beautyscreen.com”. In this case, the acquisition unit 55 may acquire the URL. Then, the acquisition unit 55 may add the acquired URL to the second table in association with the acquired attribute value set. The state at this time is, for example, FIG.

また、例えば、スコア格納部53に、URL「http://official.beautyscreen.com」とスコア「100」とを対応付けて有するWebページスコア管理情報が格納されているとする。この場合、取得部55は、上記URLに対応するスコア「100」を、スコア格納部53から取得する。そして、取得部55は、当該取得したスコアを、取得した属性値集合と対応付けて、第二の表に追記する。このときの様子は、例えば、図31である。   Further, for example, it is assumed that the web page score management information having the URL “http: // official. Beautyscreen.com” and the score “100” associated with each other is stored in the score storage unit 53. In this case, the acquisition unit 55 acquires the score “100” corresponding to the URL from the score storage unit 53. Then, the acquisition unit 55 adds the acquired score to the second table in association with the acquired attribute value set. The situation at this time is, for example, FIG.

(例2:属性値集合の生成)   (Example 2: Generation of attribute value set)

本例において、表格納部51には、図32から図36に示す第二の表が格納されているものとする。当該第二の表は、それぞれ、2つの属性を有し、かつ当該属性の属性値を有する。また、当該第二の表において、項目名「ID」は、通常、属性値ではないが、属性値としてもよい。また、図32と図33の第二の表において、「*」はユニーク識別子であり、当該ユニーク識別子が付された属性がユニークであることを示す。   In this example, it is assumed that the table storage unit 51 stores the second table shown in FIGS. Each of the second tables has two attributes and has attribute values of the attributes. In the second table, the item name “ID” is not usually an attribute value, but may be an attribute value. In the second table of FIGS. 32 and 33, “*” is a unique identifier, which indicates that the attribute to which the unique identifier is attached is unique.

まず、結合部56は、ユニーク識別子を有する図32と図33の第二の表を取得する。   First, the combining unit 56 acquires the second table in FIG. 32 and FIG. 33 having the unique identifier.

次に、結合部56は、図32の「ID=011」の固有名称「PAT−Analyzer」と同一の属性および属性値を有する属性値集合である図33の「ID=014」の属性値集合「PAT−Analyzer|ソフトウェア」を取得する。そして、結合部56は、図32の「ID=011」の属性値集合「特許分析株式会社|PAT−Analyzer」と、図33の「ID=014」の属性値集合「PAT−Analyzer|ソフトウェア」とを結合し、新たな属性値集合「特許分析株式会社|PAT−Analyzer|ソフトウェア」を生成する。   Next, the combining unit 56 sets the attribute value set of “ID = 014” in FIG. 33 which is an attribute value set having the same attribute and attribute value as the unique name “PAT-Analyzer” of “ID = 011” in FIG. Acquire “PAT-Analyzer | software”. Then, the combining unit 56 sets the attribute value set “PAT-Analyzer” of “ID = 011” in FIG. 32 and the attribute value set “PAT-Analyzer | software” of “ID = 014” in FIG. And a new attribute value set “Patent Analysis Co., Ltd. | PAT-Analyzer | Software” is generated.

次に、結合部56は、生成した属性値集合「特許分析株式会社|PAT−Analyzer|ソフトウェア」を、第一の表が有する属性値集合として、表格納部51に蓄積する。このとき、結合部56は、図32に示すような表の形式にて、属性値集合を生成する。また、このとき、例えば、表格納部51に当該属性値集合に対応する属性を有する表が存在しない場合、結合部56は、まず、生成した属性値集合に対応する属性を有する表を生成し、当該表に取得した属性値集合を追記する。   Next, the combining unit 56 accumulates the generated attribute value set “Patent Analysis Co., Ltd. | PAT-Analyzer | software” in the table storage unit 51 as the attribute value set of the first table. At this time, the combining unit 56 generates an attribute value set in the form of a table as shown in FIG. At this time, for example, if there is no table having an attribute corresponding to the attribute value set in the table storage unit 51, the combining unit 56 first generates a table having an attribute corresponding to the generated attribute value set. The attribute value set acquired is added to the table.

次に、結合部56は、上記と同様に、図32の「ID=012」の固有名称「BeautyScreen」と同一の属性および属性値を有する属性値集合である図33の「ID=011」の属性値集合「BeautyScreen|フルHDテレビ」を取得する。そして、結合部56は、図32の「ID=012」の属性値集合「株式会社良品家電|BeautyScreen」と、図33の「ID=011」の属性値集合「BeautyScreen|フルHDテレビ」とを結合し、新たな属性値集合「株式会社良品家電|BeautyScreen|フルHDテレビ」を生成する。そして、結合部56は、上記と同様に、生成した属性値集合「株式会社良品家電|BeautyScreen|フルHDテレビ」を表格納部51に蓄積する。   Next, in the same manner as described above, the combining unit 56 sets “ID = 011” in FIG. 33, which is an attribute value set having the same attribute and attribute value as the unique name “BeautyScreen” of “ID = 012” in FIG. The attribute value set “BeautyScreen | Full HD TV” is acquired. Then, the combining unit 56 sets the attribute value set “ROKYO ELECTRIC CO., LTD. | BeautyScreen” of “ID = 012” in FIG. 32 and the attribute value set “BeautyScreen | Combined to generate a new attribute value set “Ryohin Denki Co., Ltd. | BeautyScreen | Full HD TV”. Then, the combining unit 56 accumulates the generated attribute value set “non-defective household appliances | BeautyScreen | full HD TV” in the table storage unit 51 as described above.

なお、結合部56は、図32の「ID=013」と「ID=014」の属性値集合については、図33の属性値集合において、同一の属性および属性値を有する属性値集合が存在しないので、結合の処理を行わない。   Note that the combining unit 56 does not have an attribute value set having the same attribute and attribute value in the attribute value set of FIG. 33 for the attribute value sets of “ID = 013” and “ID = 014” in FIG. Therefore, the process of combining is not performed.

次に、結合部56は、ユニーク識別子を有さない図34と図35と図36の第二の表を取得する。   Next, the combining unit 56 acquires the second table in FIG. 34, FIG. 35, and FIG. 36 that does not have a unique identifier.

次に、結合部56は、取得した第二の表の各々から、属性値集合を1つずつ取得し、3つの属性値集合の組み合わせを生成する。例えば、図34の「ID=011」の属性値集合、図35の「ID=011」の属性値集合、図36の「ID=011」の属性値集合を取得し、これら3つの属性値集合の組み合わせ『「特許分析株式会社|情報サービス」、「電気機械器具製造|760,000千円」、「株式会社建築物|640,000千円」』を生成したとする。当該組み合わせは、結合条件を満たさないので、結合部56は、何も行わない。   Next, the combining unit 56 acquires one attribute value set from each of the acquired second tables, and generates a combination of three attribute value sets. For example, the attribute value set of “ID = 011” in FIG. 34, the attribute value set of “ID = 011” in FIG. 35, and the attribute value set of “ID = 011” in FIG. 36 are acquired, and these three attribute value sets are acquired. It is assumed that the combination of ““ Patent Analysis Co., Ltd. | Information Service ”,“ Electrical Machinery Manufacturing | 760,000 Yen ”,“ Building Co., Ltd. | 640,000 Yen ”” is generated. Since the combination does not satisfy the coupling condition, the coupling unit 56 does nothing.

次に、結合部56は、上記と同様に、属性値集合の組み合わせを生成するために、図34の「ID=013」の属性値集合「株式会社建築物|総合工事」、図35の「ID=011」の属性値集合「総合工事|640,000千円」、図36の「ID=011」の属性値集合「株式会社建築物|640,000千円」を取得し、属性値集合の組み合わせ『「株式会社建築物|総合工事」、「総合工事|640,000千円」、「株式会社建築物|640,000千円」』を生成したとする。当該組み合わせは、結合条件を満たすので、結合部56は、当該属性値集合を結合し、新たな属性値集合「株式会社建築物|総合工事|640,000千円」を生成する。そして、結合部56は、上記と同様に、生成した属性値集合を表格納部51に蓄積する。   Next, in the same way as described above, the combining unit 56 generates an attribute value set combination in order to generate an attribute value set “ID = 013” in FIG. The attribute value set “ID = 011” “general construction | 640,000,000 yen” and the attribute value set “ID = 011” in FIG. 36 “Building Co., Ltd. | 640,000,000 yen” are acquired, and the attribute value set It is assumed that the combination ““ Building Co., Ltd. | General Construction ”,“ General Construction | 640,000 Yen ”,“ Building Co., Ltd. | 640,000 Yen ”” is generated. Since the combination satisfies the combination condition, the combining unit 56 combines the attribute value sets to generate a new attribute value set “Building Co., Ltd. | General Construction | 640,000,000 Yen”. Then, the combining unit 56 accumulates the generated attribute value set in the table storage unit 51 in the same manner as described above.

(例3:ルールの取得)   (Example 3: Rule acquisition)

本例において、表格納部51には、例2にて生成した第一の表、および図32から図36に示す第二の表が格納されているものとする。   In this example, it is assumed that the table storage unit 51 stores the first table generated in Example 2 and the second table shown in FIGS.

まず、ルール取得部57は、クローリングを行い、Webから1以上のWebページを取得し、図27および図28に示すWebページを取得したものとする。   First, it is assumed that the rule acquisition unit 57 performs crawling, acquires one or more Web pages from the Web, and acquires the Web pages shown in FIGS.

次に、ルール取得部57は、取得した属性値集合を順に用いて、取得した図27と図28のWebページから、当該属性値が出現する1以上のルールを取得する。ここで、例えば、ルール取得部57は、図32の「ID=012」の属性値集合「株式会社良品家電|BeautyScreen」を用いるとする。すると、ルール取得部57は、当該属性値集合が有する2つの属性値の両方が存在する文字列を、図27と図28のWebページから取得する。図27のテキスト文書には、当該属性値集合を有する文字列が、12行目と、13行目から14行目に掛けて存在する。また、図28のHTML文書には、当該属性値集合を有する文字列が、12行目と、13行目から14行目に掛けて存在する。従って、ルール取得部57は、当該行に存在する文字列「株式会社良品家電、フルHDテレビ、BeautyScreenを発売」、「株式会社良品家電は、新型のフルHDテレビ、BeautyScreenを、<改行>2011年10月14日に発売することを発表しました」、「<h2>株式会社良品家電、フルHDテレビ、BeautyScreenを発売</h2>」、「<p>株式会社良品家電は、新型のフルHDテレビ、BeautyScreenを、<改行>2011年10月14日に発売することを発表しました</p>」を取得する。   Next, the rule acquisition unit 57 acquires one or more rules in which the attribute value appears from the acquired Web pages of FIGS. 27 and 28, using the acquired attribute value set in order. Here, for example, it is assumed that the rule acquisition unit 57 uses the attribute value set “good product home appliances | BeautyScreen” of “ID = 012” in FIG. Then, the rule acquisition unit 57 acquires a character string in which both of the two attribute values that the attribute value set has exist from the Web pages of FIGS. 27 and 28. In the text document of FIG. 27, a character string having the attribute value set exists on the 12th and 13th to 14th lines. In the HTML document of FIG. 28, a character string having the attribute value set exists from the 12th line and from the 13th line to the 14th line. Therefore, the rule acquisition unit 57 releases the character strings “Ryohin Denki Home Appliances Co., Ltd., Full HD TV, Beauty Screen” and “Ryohin Denki Co., Ltd. Announced to be released on October 14, 2011 "," <h2> Ryohin Denki Home Appliances Co., Ltd. launches Full HD TV, BeautyScreen </ h2> "," <p> Announced to release HD TV and BeautyScreen on October 14, 2011.

ここで、会社名に対応する変数を「%会社名%」、固有名称に対応する変数を「%固有名称」とする。次に、ルール取得部57は、取得した文字列中の属性値を、これらの変数で置換し、新たなルール「%会社名%、フルHDテレビ、%固有名称%を発売」、「%会社名%は、新型のフルHDテレビ、%固有名称%を、<改行>2011年10月14日に発売することを発表しました」、「<h2>%会社名%、フルHDテレビ、%固有名称%を発売</h2>」、「<p>%会社名%は、新型のフルHDテレビ、%固有名称%を、<改行>2011年10月14日に発売することを発表しました</p>」を取得する。   Here, the variable corresponding to the company name is “% company name%”, and the variable corresponding to the unique name is “% unique name”. Next, the rule acquisition unit 57 replaces the attribute value in the acquired character string with these variables, and releases the new rules “% company name%, full HD TV,% unique name%”, “% company Name% announced that it will launch a new full HD TV,% proprietary name% on October 14, 2011, "<h2>% company name%, full HD TV,% unique "Name% released </ h2>", "<p>% Company name% announced that it will release a new full HD TV,% proprietary name%, on October 14, 2011 < / P> ".

なお、取得したルールが有する「フルHDテレビ」は、図10の第二の表から、商品名であることが明らかである。また、取得したルールが有する「2011年10月14日」は、その書式から日付であることが明らかである。従って、ルール取得部57は、これらの商品名、日付を、これらに対応する変数に置換したルール「%会社名%、%商品名%、%固有名称%を発売」、「%会社名%は、新型の%商品名%、%固有名称%を、<改行>%日付%に発売することを発表しました」、「<h2>%会社名%、%商品名%、%固有名称%を発売</h2>」、「<p>%会社名%は、新型の%商品名%、%固有名称%を、<改行>%日付%に発売することを発表しました</p>」を取得してもよい。   It should be noted that “Full HD TV” included in the acquired rule is a product name from the second table of FIG. Further, it is clear that “October 14, 2011” in the acquired rule is a date from the format. Accordingly, the rule acquisition unit 57 replaces these product names and dates with the variables corresponding to these rules “Release% company name%,% product name%,% unique name%”, “% company name% is , "% Brand name%,% unique name% announced to be released on <new line>% date%", "<h2>% company name%,% product name%,% unique name% released </ H2> ”,“ <p>% company name% announced that it will release% new product name% and% unique name% on <new line>% date% </ p> ” May be.

次に、ルール取得部57は、当該取得したルールを、ルール格納部52に蓄積する。   Next, the rule acquisition unit 57 accumulates the acquired rules in the rule storage unit 52.

以上、本実施の形態によるデータベース構築装置5によれば、Web上のあらゆる情報を取得し、データベース化することができる。   As mentioned above, according to the database construction apparatus 5 by this Embodiment, all the information on Web can be acquired and it can be made into a database.

また、本実施の形態によるデータベース構築装置5によれば、データベース化した情報を自動的に結合し、属性数の少ない属性値集合から、当該属性数よりも属性数の多い属性値集合を生成することができる。   Further, according to the database construction device 5 according to the present embodiment, the database information is automatically combined, and an attribute value set having a larger number of attributes than the number of attributes is generated from an attribute value set having a smaller number of attributes. be able to.

また、本実施の形態によるデータベース構築装置5によれば、属性値集合を取得する際のルールを、自動的に増やすことができる。   Moreover, according to the database construction device 5 according to the present embodiment, it is possible to automatically increase the rules for acquiring the attribute value set.

(実施の形態4)
上記実施の形態1をさらに明瞭に説明する。図1は、本実施の形態におけるデータベース構築装置1のブロック図である。データベース構築装置1は、会社データベース101、商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、およびルール学習部116を備える。
(Embodiment 4)
The first embodiment will be described more clearly. FIG. 1 is a block diagram of a database construction device 1 according to the present embodiment. The database construction device 1 includes a company database 101, a product database 102, a unique name database 103, a company product database 104, a company unique name database 105, a product unique name database 106, a company product unique name database 107, a company rule database 108, a product rule. A database 109, a unique name rule database 110, a knowledge multiplication rule database 111, a company name acquisition unit 112, a product name acquisition unit 113, a unique name acquisition unit 114, a knowledge acquisition unit 115, and a rule learning unit 116 are provided.

会社データベース101は、1以上の会社名を格納し得る。会社名とは、商品またはサービスを提供する株式会社、有限会社、公益法人、社団法人、独立行政法人などの法人格をもつ名称、および個人の名称である。   The company database 101 can store one or more company names. The company name is a name having a legal personality such as a stock company, a limited liability company, a public interest corporation, an incorporated association or an independent administrative corporation that provides goods or services, and an individual name.

また、会社名とは、その会社名を特定する情報でも良い。会社データベース101は、会社名だけでなく、会社名を取得した文書の情報、または会社名の取得回数や取得割合などを格納していても良い。会社名の会社を特定する情報とは、会社を一意に特定できる情報であればなんでも良い。会社名の会社を特定する情報は、例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。会社名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または会社名の前後の文章やHTMLのタグ構造などである。   Further, the company name may be information for specifying the company name. The company database 101 may store not only the company name but also information on the document from which the company name has been acquired, the number of acquisitions of the company name, the acquisition rate, and the like. The information for identifying the company of the company name may be any information that can uniquely identify the company. The information specifying the company of the company name may be, for example, information indicating a homepage address, an address, a telephone number, or the like. The information of the document from which the company name has been acquired is, for example, the name of the document, the number of pages, information indicating the URL of the Web site, or the text before and after the company name, or the HTML tag structure.

格納とは、不揮発性の記録媒体による長期的な格納や、揮発性の記録媒体による一時的な格納も含む概念である。以下、本発明内における格納の概念は、同一のものとする。   Storage is a concept that includes long-term storage using a non-volatile recording medium and temporary storage using a volatile recording medium. Hereinafter, the concept of storage in the present invention is the same.

また、会社データベース101に会社名が記憶される過程は問わない。例えば、記録媒体を介して会社名が会社データベース101で記憶されるようになってもよく、通信回線等を介して送信された会社名が会社データベース101で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された会社名が会社データベース101で記憶されるようになってもよい。また、会社データベース101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。   Further, the process of storing the company name in the company database 101 does not matter. For example, a company name may be stored in the company database 101 via a recording medium, or a company name transmitted via a communication line or the like may be stored in the company database 101. Alternatively, the company name input via the input device may be stored in the company database 101. The company database 101 is preferably a non-volatile recording medium, but can also be realized by a volatile recording medium.

なお、後述する商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、データベース31、データベース401、商品コード管理手段4021の各構成要素について、これらに情報が記憶される過程や、これらの実現手段は、会社データベース101と同様であるので、説明を省略する。   A product database 102, a unique name database 103, a company product database 104, a company unique name database 105, a product unique name database 106, a company product unique name database 107, a company rule database 108, a product rule database 109, a unique name rule, which will be described later. Information is stored in each component of the database 110, the knowledge multiplication rule database 111, the product similar group code correspondence database 21, the company similar group code unique name database 22, the database 31, the database 401, and the product code management means 4021. Since the process and the means for realizing them are the same as those of the company database 101, description thereof is omitted.

商品データベース102は、1以上の商品名を格納し得る。商品名とは、法人、および個人が販売、または提供している商品、または役務の名称である。商品名は、具体的には、「チョコレート」「パソコン」「宅配」「引越しサービス」などである。ここでいう商品、および役務の名称は、商標法施行規則第6条で規定されている商品および役務の区分(以下、類似群コード表という)に記載されている商品、および役務の名称に必ずしも準じていなくても良い。   The product database 102 can store one or more product names. The product name is the name of a product or service sold or provided by a corporation and an individual. The product names are specifically “chocolate”, “computer”, “delivery”, “moving service”, and the like. The names of goods and services mentioned here are not necessarily the names of goods and services described in the classification of goods and services (hereinafter referred to as similar group code table) stipulated in Article 6 of the Enforcement Regulations of the Trademark Law. It does not have to comply.

また、商品名は、その商品名を特定する情報でも良い。商品データベース102は、商品名だけでなく、商品名を取得した文書の情報、または商品名の取得回数や取得割合などを格納していても良い。商品名の商品を特定する情報とは、商品を一意に特定できる情報であればなんでも良い。商品名の商品を特定する情報は、例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品名の前後の文章やHTMLのタグ構造などである。   Further, the product name may be information for specifying the product name. The product database 102 may store not only the product name but also the information of the document from which the product name is acquired, the number of acquisitions of the product name, the acquisition ratio, and the like. The information specifying the product with the product name may be anything as long as it is information that can uniquely specify the product. The information specifying the product with the product name may be, for example, information indicating a homepage address, an address, a telephone number, or the like. The information of the document from which the product name has been acquired is, for example, the name of the document, the number of pages, information indicating the URL of the Web site, or the text before and after the product name, the HTML tag structure, or the like.

固有名称データベース103は、1以上の商品の固有名称を格納し得る。商品の固有名称とは、商品、および役務を識別可能な名称である。商品、および役務を識別可能な名称は、具体的には、「雪見だいふく(登録商標)」「宅急便(登録商標)」「PatentSearchAssistant(登録商標)」などである。またここでいう商品の固有名称とは、商標登録されている商標であっても良いし、そうでなくても良い。   The unique name database 103 can store unique names of one or more products. The unique name of the product is a name that can identify the product and service. Specific names for identifying the product and service include “Yukimi Daifuku (registered trademark)”, “Takkyubin (registered trademark)”, “PatentSearch Assistant (registered trademark)”, and the like. In addition, the proper name of the product mentioned here may be a trademark registered as a trademark, or may not be.

また、商品の固有名称とは、その商品の固有名称を特定する情報でも良い。固有名称データベース103は、商品の固有名称だけでなく、商品の固有名称を取得した文書の情報、または商品の固有名称の取得回数や取得割合などを格納していても良い。商品の固有名称を特定する情報とは、商品の固有名称を一意に特定できる情報であればなんでも良い。商品の固有名称を一意に特定できる情報は、例えば、商標の出願番号や公開番号などであっても良い。商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   Further, the unique name of the product may be information for specifying the unique name of the product. The unique name database 103 may store not only the unique name of the product but also the information of the document that acquired the unique name of the product, the number of acquisitions of the unique name of the product, the acquisition ratio, and the like. The information that identifies the unique name of the product may be any information that can uniquely identify the unique name of the product. Information that can uniquely identify a unique name of a product may be, for example, a trademark application number or a publication number. The information of the document from which the product unique name is acquired is, for example, the document name, the number of pages, information indicating the URL of the Web site, or the text before and after the product unique name, the HTML tag structure, or the like.

会社商品データベース104は、会社名と商品名とを有する1以上の組を格納し得る。   The company product database 104 may store one or more pairs having a company name and a product name.

会社商品データベース104は、会社名と、商品名だけでなく、同一レコードにある会社名と商品名を取得した文書の情報、または同一レコードにある会社名と商品名の取得回数、取得頻度や共起頻度、文書内で会社名と商品名の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値でも良い。同一レコードにある会社名と商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または会社名と商品名の前後の文章やHTMLのタグ構造などである。   The company product database 104 stores not only the company name and the product name but also the information of the document that acquired the company name and product name in the same record, or the number of times the company name and product name are acquired in the same record, the acquisition frequency, Occurrence frequency, the average distance based on the number of characters, the number of morphemes, or the number of words listed between the company name and the product name in the document, or the total or average of the number of acquisitions and appearance frequency values of each rule described later The value calculated by using any method may be used. The information of the document in which the company name and product name in the same record are acquired is, for example, the document name and the number of pages, or information indicating the URL of the website, the text before and after the company name and product name, and the HTML tag Such as structure.

会社固有名称データベース105は、会社名と商品の固有名称とを有する1以上の組を格納し得る。   The company unique name database 105 may store one or more sets having a company name and a product unique name.

会社固有名称データベース105は、会社名と、商品の固有名称だけでなく、同一レコードにある会社名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納していても良い。同一レコードにある会社名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   The company unique name database 105 stores not only the company name and the unique name of the product, but also the information of the document that acquired the company name and the unique name of the product in the same record, or the company name and the unique name of the product in the same record. Number of acquisitions, acquisition frequency and co-occurrence frequency, the average number of characters, the number of morphemes, the number of words, etc. written between the company name and the unique name of the product in the document, or the acquisition number of each rule described later And a value calculated by using some method such as a sum or average of appearance frequency values may be stored. The information of the document in which the company name and the unique name of the product in the same record are acquired is, for example, the name of the document, the number of pages, information indicating the URL of the website, the text before and after the unique name of the product, or HTML For example, tag structure.

商品固有名称データベース106は、商品名と商品の固有名称とを有する1以上の組を格納し得る。   The product unique name database 106 may store one or more sets having product names and product unique names.

会社固有名称データベース105は、商品名と、商品の固有名称だけでなく、同一レコードにある商品名と商品の固有名称を取得した文書の情報、または同一レコードにある商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で商品名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納していても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   The company unique name database 105 stores not only the product name and the product unique name, but also the information of the document in which the product name and product unique name in the same record are acquired, or the product name and product unique name in the same record. Acquisition count, acquisition frequency, co-occurrence frequency, average distance between the product name and the product unique name in the document, the number of characters, the number of morphemes, the number of words, etc. And a value calculated by using some method such as a sum or average of appearance frequency values may be stored. The information of the document in which the product name and the unique name of the product in the same record are acquired is, for example, the document name and the number of pages, information indicating the URL of the website, the text before and after the unique name of the product, or HTML For example, tag structure.

会社商品固有名称データベース107は、会社名と商品名と商品の固有名称とを有する1以上の組を格納し得る。   The company product unique name database 107 may store one or more sets having a company name, a product name, and a product unique name.

会社商品固有名称データベース107は、会社名と、商品名と、商品の固有名称だけでなく、同一レコードにある会社名と商品名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品名と商品の固有名称のそれぞれの間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納していても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。   The company product unique name database 107 includes not only the company name, the product name, and the product unique name, but also the information on the document that acquired the company name, product name, and product unique name in the same record, or the same record. Number of acquisitions of company name, product name and unique name of product, acquisition frequency and co-occurrence frequency, number of characters written between each of company name, product name and unique name of product in document, morpheme number, or An average distance based on the number of words or the like, or a value calculated by using some method such as a total or average of the number of acquired rules and the appearance frequency described later may be stored. The information of the document in which the product name and the unique name of the product in the same record are acquired is, for example, the document name and the number of pages, information indicating the URL of the website, the text before and after the unique name of the product, or HTML For example, tag structure.

また、会社商品固有名称データベース107に、既に出願公開されている商標の情報を格納していても良い。その場合は、会社商品固有名称データベース107は、商標の識別情報(例えば登録番号)や、登録状況などの情報を格納していても良い。   In addition, the company product unique name database 107 may store trademark information that has already been published. In that case, the company product unique name database 107 may store information such as trademark identification information (for example, registration number) and registration status.

会社ルールデータベース108は、文書から会社名を取得するためのルールである1以上の会社ルールを格納し得る。   The company rule database 108 may store one or more company rules that are rules for obtaining a company name from a document.

文書とは、1以上の文の集合であり、会社名や商品名、商品の固有名称が必ずしも記載されている必要はなく、また日本語だけでなく、英語や中国語、その他あらゆる言語であっても良く、2種類以上の言語が混在していても良い。例えば、文書は、WebページやHTML、XML、Wordファイルなどあっても良い。   A document is a collection of one or more sentences. The company name, product name, and product unique name do not necessarily have to be written, and are not only Japanese but also English, Chinese, and all other languages. Alternatively, two or more languages may be mixed. For example, the document may be a Web page, HTML, XML, Word file, or the like.

文書から会社名を取得するとは、文書から、会社名が記載されている部分を割り出し、会社名を抽出することである。   Obtaining a company name from a document means that a part in which the company name is described is determined from the document and the company name is extracted.

会社ルールとは、文書から会社名を抽出するルールである。会社ルールは、例えば、会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社ルールは、会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、会社名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、会社ルールは、上述したルールが複合的に合わさっていても良い。会社ルールは、具体的には、「%会社名%」の部分に記載された会社名を取得する会社ルールの場合、「<td>社名</td><td>株式会社%会社名%</td>」などとして表す。   The company rule is a rule for extracting a company name from a document. The company rule may be, for example, a sentence pattern in which the company name can be directly extracted, or a sentence pattern that specifies a sentence in which the company name is described. If the document is a Web page, the company rule may be an HTML tag structure pattern that directly extracts the company name, or an HTML tag structure pattern that specifies a sentence in which the company name is described. There may be. Moreover, the same pattern as the above which cannot extract a company name may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the company rules may be combined with the above-described rules. Specifically, the company rule is “<td> company name </ td> <td> company% company name% <” in the case of a company rule for acquiring a company name described in the “% company name%” portion. / Td> ”and the like.

会社ルールデータベース108は、会社ルールだけでなく、会社ルールの取得回数や取得割合、または会社ルールが抽出する対象を格納していても良い。会社ルールが抽出する対象とは、文書から会社ルールを利用した結果、会社名を取得する場合と、会社名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、会社ルールデータベース108は、「会社名」または「文章」などの値を格納していても良い。   The company rule database 108 may store not only the company rules but also the number of acquisitions and the acquisition ratio of the company rules, or the targets extracted by the company rules. The target to be extracted by the company rules is when there is a possibility of acquiring multiple types of information, such as when acquiring a company name or when acquiring a sentence including the company name as a result of using the company rule from a document , A value that clearly specifies what to get. Specifically, the company rule database 108 may store values such as “company name” or “text”.

商品ルールデータベース109は、文書から商品名を取得するためのルールである1以上の商品ルールを格納し得る。   The merchandise rule database 109 can store one or more merchandise rules that are rules for obtaining a merchandise name from a document.

文書から商品名を取得するとは、文書から、商品名が記載されている部分を割り出し、商品名を抽出することである。   Obtaining the product name from the document means that the part in which the product name is described is determined from the document and the product name is extracted.

商品ルールとは、文書から商品名を取得するルールである。例えば、商品ルールは、商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品ルールは、商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品ルールは、商品名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、商品ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名を取得する商品ルールの場合、商品ルールは、「<title>商品名一覧</title>.*?<div.*?><h[1−5].*?>一覧<h[1−5]></div><ul.*?>(<li.*?><a.*?>%商品名%</a></</li>)+</ul>」などとして表す。   The product rule is a rule for acquiring a product name from a document. For example, the product rule may be a text pattern from which a product name can be directly extracted, or a text pattern that specifies a text in which the product name is described. When the document is a Web page, the product rule may be an HTML tag structure pattern that directly extracts the product name, or an HTML tag structure pattern that specifies a sentence in which the product name is described. There may be. Further, the product rule may be a pattern similar to the above in which the product name cannot be extracted. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the product rules may be a combination of the above-described rules. Specifically, in the case of a product rule for acquiring a product name described in the “% product name%” part, the product rule is “<title> product name list </ title>. *? <Div. *? > <H [1-5]. *?> List <h [1-5]> </ div> <ul. *?> (<Li. *?> <A. *?>% Product name% <// a> </ </ li>) + </ ul> ".

商品ルールデータベース109は、商品ルールだけでなく、商品ルールの取得回数や取得割合、または商品ルールが抽出する対象を格納していても良い。商品ルールが抽出する対象とは、文書から商品ルールを利用した結果、商品名を取得する場合と、商品名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、商品ルールデータベース109は、「商品名」または「文章」などの値を格納していても良い。   The product rule database 109 may store not only the product rules, but also the number of acquisitions and the acquisition ratio of the product rules, or the targets extracted by the product rules. The target of product rule extraction is when there is a possibility of acquiring multiple types of information, such as when acquiring a product name as a result of using a product rule from a document, or when acquiring a sentence containing the product name , A value that clearly specifies what to get. Specifically, the product rule database 109 may store values such as “product name” or “text”.

固有名称ルールデータベース110は、文書から商品の固有名称を取得するためのルールである1以上の固有名称ルールを格納し得る。   The unique name rule database 110 can store one or more unique name rules, which are rules for acquiring a unique name of a product from a document.

文書から商品の固有名称を取得するとは、文書から、商品の固有名称が記載されている部分を割り出し、商品名を抽出することである。   Obtaining the unique name of the product from the document means that the part in which the unique name of the product is described is determined from the document and the product name is extracted.

固有名称ルールとは、文書から商品の固有名称を取得するルールである。例えば、固有名称ルールは、商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、固有名称ルールは、商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、固有名称ルールは、商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、固有名称ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%固有名称%」の部分に記載された商品の固有名称を取得する固有名称ルールの場合、固有名称ルールは、「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The unique name rule is a rule for acquiring a unique name of a product from a document. For example, the unique name rule may be a sentence pattern that can directly extract the unique name of the product, or may be a sentence pattern that specifies a sentence in which the unique name of the product is described. If the document is a Web page, the unique name rule may be an HTML tag structure pattern that directly extracts the unique name of the product, and the HTML rule that specifies a sentence in which the unique name of the product is described. It may be a tag structure pattern. The unique name rule may be a pattern similar to the above in which the unique name of the product cannot be extracted. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the unique name rule may be a combination of the above-described rules. Specifically, in the case of the unique name rule for acquiring the unique name of the product described in the “% unique name%” part, the unique name rule is “<title> product list </ title>. *? <Span”. ... ?? list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .

固有名称ルールデータベース110は、固有名称ルールだけでなく、固有名称ルールの取得回数や取得割合、または固有名称ルールが抽出する対象を格納していても良い。固有名称ルールが抽出する対象とは、文書から固有名称ルールを利用した結果、商品の固有名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、固有名称ルールデータベース110は、「商品の固有名称」または「文章」などの値を格納していてもよい。   The unique name rule database 110 may store not only the unique name rule but also the number of acquisitions and the acquisition ratio of the unique name rule, or the target extracted by the unique name rule. The target to be extracted by the unique name rule is the acquisition of multiple types of information, such as when acquiring a unique name of a product or when acquiring a sentence containing the unique name of a product as a result of using the unique name rule from a document. If there is a possibility, it is a value that specifies what to get. Specifically, the unique name rule database 110 may store values such as “unique name of product” or “text”.

知識増殖ルールデータベース111は、文書から、構成数が少ない情報を用いて、より構成数の多い情報を取得するルールである1以上の知識増殖ルールを格納し得る。   The knowledge proliferation rule database 111 can store one or more knowledge proliferation rules that are rules for acquiring information with a larger number of components from a document using information with a smaller number of components.

構成数が少ない情報を用いて、より構成数の多い情報を取得するとは、以下の様なことである。
(1)会社データベース101に格納されている情報を用いて、会社商品データベース104、および会社固有名称データベース105、および会社商品固有名称データベース107に格納されている情報を取得すること
(2)商品データベース102に格納されている情報を用いて、会社商品データベース104、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
(3)固有名称データベース103に格納されている情報を用いて、会社固有名称データベース105、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
(4)会社商品データベース104に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
(5)会社固有名称データベース105に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
(6)商品固有名称データベース106に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
The acquisition of information with a larger number of components using information with a smaller number of components is as follows.
(1) Using information stored in the company database 101 to acquire information stored in the company product database 104, the company unique name database 105, and the company product unique name database 107. (2) Product database Obtain information stored in the company product database 104, the product unique name database 106, and the company product unique name database 107 using the information stored in the information 102. (3) Stored in the unique name database 103 Information stored in the company unique name database 105, the product unique name database 106, and the company product unique name database 107 (4) information stored in the company product database 104 Use the meeting Obtaining information stored in the product unique name database 107 (5) Obtaining information stored in the company unique name database 107 using information stored in the company unique name database 105 ( 6) Acquiring information stored in the company product unique name database 107 using the information stored in the product unique name database 106

知識増殖ルールとは、文書から会社名、または商品名、または商品の固有名称から1、または2種類の情報を利用して、残る2、または1種類の情報を取得するためのルールである。具体的には、知識増殖ルールは、第一知識増殖ルールと、第二知識増殖ルールと、第三知識増殖ルールと、第四知識増殖ルールと、第五知識増殖ルールと、第六知識増殖ルールと、第七知識増殖ルールと、第八知識増殖ルールと、第九知識増殖ルールと、第十知識増殖ルールと、第十一知識増殖ルールと、第十二知識増殖ルールとがある。   The knowledge proliferation rule is a rule for acquiring the remaining two or one type of information using one or two types of information from a company name, a product name, or a unique name of a product from a document. Specifically, the knowledge proliferation rule includes the first knowledge proliferation rule, the second knowledge proliferation rule, the third knowledge proliferation rule, the fourth knowledge proliferation rule, the fifth knowledge proliferation rule, and the sixth knowledge proliferation rule. And a seventh knowledge proliferation rule, an eighth knowledge proliferation rule, a ninth knowledge proliferation rule, a tenth knowledge proliferation rule, an eleventh knowledge proliferation rule, and a twelfth knowledge proliferation rule.

第一知識増殖ルールは、文書から、会社名を用いて、会社名と商品名との組を取得するためのルールである。会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。   The first knowledge proliferation rule is a rule for acquiring a combination of a company name and a product name from a document using a company name. Using the company name may be, for example, selecting a document in which one or more company names stored in the company database 101 are described from the documents described above, and the company name is described. For example, a surrounding character string may be extracted.

第一知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第一知識増殖ルールは、会社名が記載されているWebページのうち、会社名にかかわりのある商品名を直接抽出するHTMLタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第一知識増殖ルールは、会社名が記載されている文書のうち、会社名にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第一知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得することを示す場合、第一知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。   The first knowledge proliferation rule may be, for example, a sentence pattern in which a product name related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, the first knowledge proliferation rule may be an HTML tag structure pattern that directly extracts a product name related to the company name from the Web page on which the company name is described. The pattern of the HTML tag structure which specifies the sentence with which the brand name is described may be sufficient. Further, the first knowledge proliferation rule may be a pattern similar to the above in which a product name related to a company name cannot be extracted from documents in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the first knowledge proliferation rule may be a combination of the above-described rules. Specifically, when it is shown that the combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part is acquired, the first knowledge proliferation rule is For example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A . *?>% Product name% </a> </ li>) + </ ul> ".

第二知識増殖ルールは、文書から、会社名を用いて、会社名と商品の固有名称との組を取得するためのルールである。   The second knowledge proliferation rule is a rule for acquiring a combination of a company name and a product unique name from a document using the company name.

会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the company name may be, for example, selecting a document in which one or more company names stored in the company database 101 are described from the documents described above, and the company name is described. For example, a surrounding character string may be extracted.

第二知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第二知識増殖ルールは、会社名が記載されているWebページのうち、会社名にかかわりのある商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第二知識増殖ルールは、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第二知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第二知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The second knowledge proliferation rule may be, for example, a sentence pattern in which a proper noun of a product related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies sentences in which nouns are written. When the document is a Web page, the second knowledge proliferation rule is a pattern of an HTML tag structure that directly extracts a proper noun of a product related to the company name from the Web page in which the company name is described. Alternatively, it may be an HTML tag structure pattern that identifies a sentence in which a proper noun of a product is described. Further, the second knowledge proliferation rule may be a pattern similar to the above in which a proper noun of a product related to the company name cannot be extracted from the document in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the second knowledge proliferation rule may be a combination of the above-described rules. Specifically, when it is shown that the combination of the company name described in the “% company name%” part and the unique name of the product described in the “% unique name%” part is acquired, the second knowledge multiplication The rule is, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *? > <A. *?>% Proper name% </a> </ li>) + </ ul> ".

第三知識増殖ルールは、文書から、会社名を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。   The third knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a product unique name from a document using the company name.

会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the company name may be, for example, selecting a document in which one or more company names stored in the company database 101 are described from the documents described above, and the company name is described. For example, a surrounding character string may be extracted.

第三知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第三知識増殖ルールは、会社名が記載されているWebページのうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品名を直接特定し商品の固有名称を含む文章を特定するHTMLタグ構造のパターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接特定するHTMLタグ構造のパターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第三知識増殖ルールは、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第三知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第三知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The third knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a product name related to a company name and a proper noun of the product among documents in which the company name is described, It may be a sentence pattern that directly extracts the product name and identifies a sentence that includes the unique name of the product, or a sentence pattern that identifies a sentence that includes the product name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. If the document is a Web page, the third knowledge proliferation rule has an HTML tag structure that directly extracts the product name and the proper noun of the product from the Web page on which the company name is described. It may be a pattern, or it may be an HTML tag structure pattern that directly identifies a product name and identifies a sentence that includes the unique name of the commodity, identifies a sentence that includes the product name, and directly identifies a proper noun of the commodity It may be an HTML tag structure pattern, or an HTML tag structure pattern that identifies a sentence in which a product name and a proper noun of the product are described. Further, the third knowledge proliferation rule may be a pattern similar to the above in which the product name related to the company name and the proper noun of the product cannot be extracted from the document in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the third knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the third knowledge proliferation rule is, for example, “<title>% company name% (handling)? Merchandise </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>

第四知識増殖ルールは、文書から、商品名を用いて、会社名と商品名との組を取得するためのルールである。   The fourth knowledge proliferation rule is a rule for acquiring a combination of a company name and a product name from a document using a product name.

商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the product name may be, for example, selecting a document in which one or more product names stored in the product database 102 are described from the documents described above, and the product name is described. For example, a surrounding character string may be extracted.

第四知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第四知識増殖ルールは、商品名が記載されているWebページのうち、商品名にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第四知識増殖ルールは、商品名が記載されている文書のうち、商品名にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第四知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得することを示す場合、第四知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。   The fourth knowledge proliferation rule may be, for example, a sentence pattern in which a company name related to a product name can be directly extracted from a document in which the product name is described, and the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, the fourth knowledge proliferation rule is a pattern of an HTML tag structure that directly extracts a company name related to a product name from Web pages on which the product name is described. Alternatively, it may be a pattern of an HTML tag structure that specifies a sentence in which a company name is described. Further, the fourth knowledge proliferation rule may be a pattern similar to the above in which the company name related to the product name cannot be extracted from the document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the fourth knowledge proliferation rule may be a combination of the above-described rules. Specifically, when indicating that the combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part is to be acquired, the fourth knowledge proliferation rule is For example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A . *?>% Product name% </a> </ li>) + </ ul> ".

第五知識増殖ルールは、文書から、商品名を用いて、商品名と商品の固有名称との組を取得するためのルールである。   The fifth knowledge proliferation rule is a rule for acquiring a combination of a product name and a product unique name from a document using the product name.

商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the product name may be, for example, selecting a document in which one or more product names stored in the product database 102 are described from the documents described above, and the product name is described. For example, a surrounding character string may be extracted.

第五知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第五知識増殖ルールは、商品名が記載されているWebページのうち、商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第五知識増殖ルールは、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第五知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第五知識増殖ルールは、例えば、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The fifth knowledge proliferation rule may be, for example, a sentence pattern in which a unique name of a product related to the product name can be directly extracted from a document in which the product name is described. It may be a sentence pattern that identifies a sentence in which a name is described. When the document is a Web page, the fifth knowledge proliferation rule is an HTML tag structure pattern that directly extracts a unique name of a product related to the product name from the Web page on which the product name is described. It may be a pattern of an HTML tag structure that specifies a sentence in which a unique name of a product is described. Further, the fifth knowledge proliferation rule may be a pattern similar to the above in which the unique name of the product related to the product name cannot be extracted from the document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the fifth knowledge proliferation rule may be a combination of the above-described rules. Specifically, if it is shown that the combination of the product name described in the “% product name%” part and the product name described in the “% unique name%” part is acquired, The rule is, for example, “<span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> <// li>) + </ ul> ".

第六知識増殖ルールは、文書から、商品名を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。   The sixth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a product unique name from a document using the product name.

商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using the product name may be, for example, selecting a document in which one or more product names stored in the product database 102 are described from the documents described above, and the product name is described. For example, a surrounding character string may be extracted.

第六知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第六知識増殖ルールは、商品名が記載されているWebページのうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品の固有名称を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定するタグHTMLタグ構造のパターンであっても良い。また、第六知識増殖ルールは、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第六知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第六知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The sixth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a product name and a proper noun of the product among documents in which the product name is described, It may be a sentence pattern that directly extracts the company name and identifies the sentence including the unique name of the product, or may be a sentence pattern that identifies the sentence including the company name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. Further, when the document is a Web page, the sixth knowledge proliferation rule is an HTML tag structure that directly extracts a company name related to a product name and a proper noun of the product from the Web page on which the product name is described. It may be a pattern of HTML tag structure that directly identifies the company name and identifies the sentence including the unique name of the product, and identifies the sentence including the company name and directly identifies the proper noun of the commodity. The pattern of the HTML tag structure to identify may be sufficient, and the pattern of the tag HTML tag structure which identifies the sentence in which the company name and the proper noun of the product are described may be used. Further, the sixth knowledge proliferation rule may be a pattern similar to the above in which a company name and a proper noun of a product related to a product name cannot be extracted from a document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the sixth knowledge proliferation rule may be a combination of the above-described rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the sixth knowledge proliferation rule is, for example, “<title>% company name% (handling)? Merchandise </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>

第七知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品の固有名称との組を取得するためのルールである。   The seventh knowledge proliferation rule is a rule for acquiring a combination of a company name and a product unique name from a document using a product unique name.

固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the unique name database 103 are described from the above-described documents. It is also possible to extract a surrounding character string in which is described.

第七知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第七知識増殖ルールは、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第七知識増殖ルールは、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第七知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第七知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The seventh knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a unique name of a product from documents in which the unique name of the product is described. It may be a sentence pattern that identifies sentences in which names are described. If the document is a Web page, the seventh knowledge proliferation rule has an HTML tag structure that directly extracts the company name related to the unique name of the product from the Web page in which the unique name of the product is described. A pattern may be sufficient and the pattern of the HTML tag structure which specifies the text in which the company name is described may be sufficient. Further, the seventh knowledge proliferation rule may be a pattern similar to the above in which a company name related to a unique name of a product cannot be extracted from a document in which the unique name of the product is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the seventh knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, if you indicate that you want to acquire a combination of the company name listed in the “% company name%” part and the unique name of the product listed in the “% unique name%” part, The rule is, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *? > <A. *?>% Proper name% </a> </ li>) + </ ul> ".

第八知識増殖ルールは、文書から、商品の固有名称を用いて、商品名と商品の固有名称との組を取得するためのルールである。   The eighth knowledge proliferation rule is a rule for acquiring a combination of a product name and a product unique name from a document using the product unique name.

固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the unique name database 103 are described from the above-described documents. It is also possible to extract a surrounding character string in which is described.

第八知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第八知識増殖ルールは、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第八知識増殖ルールは、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第八知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第八知識増殖ルールは、例えば、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The eighth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract the product name related to the product unique name from the document in which the product unique name is described. It may be a sentence pattern that specifies a sentence in which a name is described. Further, when the document is a Web page, the eighth knowledge proliferation rule has an HTML tag structure for directly extracting a product name related to the product unique name from the Web page in which the product unique name is described. A pattern may be sufficient and the pattern of the HTML tag structure which specifies the text in which the brand name is described may be sufficient. In addition, the eighth knowledge proliferation rule may be a pattern similar to the above in which a product name related to a product unique name cannot be extracted from a document in which a product unique name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the eighth knowledge proliferation rule may be a combination of the above-described rules. Specifically, if it is indicated that the combination of the product name described in the “% product name%” part and the product unique name described in the “% unique name%” part is acquired, The rule is, for example, “<span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> <// li>) + </ ul> ".

第九知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。   The ninth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a product unique name from a document using the product unique name.

固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the unique name database 103 are described from the above-described documents. It is also possible to extract a surrounding character string in which is described.

第九知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品名を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品名を直接抽出する文章パターンであっても良く、会社名と商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第九知識増殖ルールは、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品名を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品名を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第九知識増殖ルールは、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第九知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第九知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The ninth knowledge proliferation rule is, for example, a sentence pattern in which a company name and a product name related to a product unique name can be directly extracted from a document in which a product unique name is described. It may be a sentence pattern that directly extracts a company name and identifies a sentence including the product name, or a sentence pattern that identifies a sentence including the company name and directly extracts the product name. It may be a sentence pattern that specifies a sentence in which a name is described. Also, if the document is a Web page, the ninth knowledge proliferation rule is an HTML code that directly extracts the company name and product name related to the product unique name from the Web page on which the product unique name is described. It may be a tag structure pattern, or it may be an HTML tag structure pattern that directly identifies the company name and identifies the text including the product name, and identifies the text including the company name and directly identifies the product name. It may be an HTML tag structure pattern, or an HTML tag structure pattern that specifies a sentence in which a company name and a product name are described. Further, the ninth knowledge proliferation rule may be a pattern similar to the above in which the company name and the product name related to the product unique name cannot be extracted from the document in which the product unique name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the ninth knowledge proliferation rule may be a combination of the above-described rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the ninth knowledge proliferation rule is, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>

第十知識増殖ルールは、文書から、会社名と商品名の組を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。   The tenth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a unique name of a product from a document by using the combination of the company name and the product name.

会社名と商品名の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、会社名と、商品名が記載されている周辺の文字列を抽出することなどであっても良い。   Using a combination of a company name and a product name includes, for example, one or more company names stored in the company database 101 and one or more product names stored in the product database 102 from the document described above. It is also possible to select a document that has a name of a company and a character string around the product name.

第十知識増殖ルールとは、例えば、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第十知識増殖ルールは、会社名と商品名が記載されているWebページのうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第十知識増殖ルールは、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第十知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第十知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The tenth knowledge proliferation rule is, for example, a sentence pattern in which a unique name of a product related to a company name and a product name can be directly extracted from documents in which the company name and the product name are described. Alternatively, it may be a sentence pattern that specifies a sentence in which the unique name of the product is described. If the document is a Web page, the tenth knowledge proliferation rule is an HTML that directly extracts a unique name of a product related to the company name and the product name from the Web page in which the company name and the product name are described. The tag structure pattern may be an HTML tag structure pattern that identifies a sentence in which a product unique name is described. Further, the tenth knowledge proliferation rule may be a pattern similar to the above in which a unique name of a product related to the company name and the product name cannot be extracted from the document in which the company name and the product name are described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the tenth knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. 10th knowledge proliferation rule, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>

第十一知識増殖ルールは、文書から、会社名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得するためのルールである。   The eleventh knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a unique name from a document using a combination of the company name and the unique name of the product.

会社名と固有名称の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、会社名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using a combination of company name and unique name means, for example, one or more company names stored in the company database 101 from the above-mentioned document and one or more unique names of one or more products stored in the unique name database 103 May be selected, or a peripheral character string in which the company name and the unique name of the product are described may be extracted.

第十一知識増殖ルールとは、例えば、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第十一知識増殖ルールは、会社名と商品の固有名称が記載されているWebページのうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第十一知識増殖ルールは、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第十一知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、第十一知識増殖ルールは、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第十一知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The eleventh knowledge proliferation rule is, for example, a sentence pattern in which a product name related to a company name and a product unique name can be directly extracted from a document in which the company name and product unique name are described. It may be a sentence pattern that identifies a sentence in which a product name is described. When the document is a Web page, the eleventh knowledge proliferation rule directly selects a product name related to the company name and the unique name of the product among the Web pages on which the company name and the unique name of the product are described. The pattern of the HTML tag structure to extract may be sufficient, and the pattern of the HTML tag structure which specifies the text in which the brand name is described may be sufficient. The eleventh knowledge proliferation rule is a pattern similar to the above in which the product name related to the company name and the product unique name cannot be extracted from the document in which the company name and the product unique name are described. Also good. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the eleventh knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the eleventh knowledge proliferation rule consists of the company name described in the “% company name%” part, the product name described in the “% product name%” part, and the “% unique name%”. In the case where it indicates that a set of unique names of products described in the portion of “<title>%” is to be acquired, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ Ul> ".

第十二知識増殖ルールは、文書から、商品名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得するためのルールである。   The twelfth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a unique name from a document using a combination of a product name and a unique name of a product.

商品名と固有名称の組を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。   Using a combination of a product name and a unique name means, for example, one or more product names stored in the product database 102 from the above-mentioned document and a unique name of one or more products stored in the unique name database 103. May be selected, a product name and a surrounding character string in which a product unique name is described may be extracted.

第十二知識増殖ルールとは、例えば、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第十二知識増殖ルールは、商品名と商品の固有名称が記載されているWebページのうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第十二知識増殖ルールは、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第十二知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第十二知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。   The twelfth knowledge proliferation rule is, for example, a sentence pattern that can directly extract a company name related to a product name and a product unique name from a document in which a product name and a product unique name are described. It may be a sentence pattern that specifies a sentence in which a company name is described. Further, when the document is a Web page, the twelfth knowledge proliferation rule directly selects the company name related to the product name and the product unique name from the Web page on which the product name and the product unique name are described. The pattern of the HTML tag structure to extract may be sufficient, and the pattern of the HTML tag structure which specifies the text in which the company name is described may be sufficient. The twelfth knowledge proliferation rule is a pattern similar to the above in which the company name related to the product name and the product unique name cannot be extracted from the document in which the product name and the product unique name are described. Also good. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the twelfth knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the twelfth knowledge proliferation rule is, for example, “<title>% company name% (handling)? Merchandise </ title>. *? <Span. *?> % Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .

知識増殖ルールデータベース111は、知識増殖ルールだけでなく、知識増殖ルールの種類、または知識増殖ルールの取得回数や取得割合、または知識増殖ルールが抽出する対象を格納していても良い。知識増殖ルールが抽出する対象とは、知識増殖ルールを利用した結果、文書から、会社名、または商品名、または商品の固有名称といった名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、知識増殖ルールデータベース111は、「名称」または「文章」などの値を格納していてもよい。   The knowledge proliferation rule database 111 may store not only the knowledge proliferation rules but also the types of knowledge proliferation rules, the number of acquisitions of the knowledge proliferation rules, the acquisition ratio, or the objects extracted by the knowledge proliferation rules. Targets extracted by knowledge proliferation rules are the results of using knowledge proliferation rules, when acquiring names such as company names, product names, or product unique names from documents, and obtaining sentences that include product unique names. When there is a possibility of acquiring multiple types of information, such as when doing, it is a value that specifies what to acquire. Specifically, the knowledge proliferation rule database 111 may store values such as “name” or “sentence”.

また、知識増殖ルールデータベース111は、上述の各知識増殖ルールをフラグとして保持しても良く、または上述の知識増殖ルールごとに別々のデータベースであっても良い。   The knowledge proliferation rule database 111 may hold each of the above knowledge proliferation rules as a flag, or may be a separate database for each of the above knowledge proliferation rules.

会社名取得部112は、1以上の会社ルールを用いて、1以上の会社名を、1以上のWebサーバ装置から取得し、会社データベース101に蓄積する。   The company name acquisition unit 112 acquires one or more company names from one or more Web server devices using one or more company rules, and accumulates them in the company database 101.

Webサーバ装置とは、具体的には、Webサービス、またはデータベースを公開するサーバ装置である。Webサービスとは、HTML形式などのマークアップ言語などにより構成されるものを公開していることに限るものではなく、例えば、Webブラウザ上や専用のアプリケーション実行環境上で動作可能なアプリケーションソフトウェアのシステムを公開していることであっても良い。Webサーバ装置は、インターネット上に公開されているものでも良く、ローカルエリア上に公開されているものでも良い。   Specifically, the Web server device is a server device that publishes a Web service or a database. The Web service is not limited to publishing what is configured in a markup language such as HTML format. For example, a system of application software operable on a Web browser or a dedicated application execution environment May be published. The Web server device may be published on the Internet or may be published on a local area.

会社名取得部112は、Webサーバ装置から取得したWebページから、会社ルールを用いて会社名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。   The company name acquisition unit 112 acquires a company name from the Web page acquired from the Web server device using a company rule. Acquiring a Web page from the Web server device is the same as the processing acquired by a so-called Web browser.

会社ルールを用いて会社名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などに、会社ルールデータベース108に登録されている会社ルールを適用し、当該会社ルールに合致する会社名を取得することである。例えば、会社名取得部112は、任意の会社ルールで「%会社名%」と記載されている部分に当てはまる文字列を取得する。   The acquisition of a company name using a company rule means that a company name registered in the company rule database 108 is applied to a document acquired from a Web server device or an HTML structure, and the company name matches the company rule. Is to get. For example, the company name acquisition unit 112 acquires a character string that applies to a portion described as “% company name%” in an arbitrary company rule.

会社名取得部112は、会社名を会社データベース101に蓄積する際、使用した会社ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを会社データベース101に登録するようにしても良い。   When the company name is stored in the company database 101, the company name acquisition unit 112 sets a certain threshold for the number of acquisitions and the acquisition ratio of the used company rules, and stores only information that exceeds the threshold in the company database 101. You may make it register.

商品名取得部113は、1以上の商品ルールを用いて、1以上の商品名を、1以上のWebサーバ装置から取得し、商品データベース102に蓄積する。   The product name acquisition unit 113 acquires one or more product names from one or more Web server devices using one or more product rules, and accumulates them in the product database 102.

商品名取得部113は、Webサーバ装置から取得したWebページから、商品ルールを用いて商品名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。   The product name acquisition unit 113 acquires the product name from the Web page acquired from the Web server device using the product rule. Acquiring a Web page from the Web server device is the same as the processing acquired by a so-called Web browser.

商品ルールを用いて商品名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などに、商品ルールデータベース109に登録されている商品ルールを適用し、当該商品ルールに合致する商品名を取得することである。例えば、商品名取得部113は、任意の商品ルールで「%商品名%」と記載されている部分に当てはまる文字列を取得する。   The acquisition of the product name using the product rule means that the product rule registered in the product rule database 109 is applied to the document acquired from the Web server device or the structure of HTML, and the product name that matches the product rule. Is to get. For example, the product name acquisition unit 113 acquires a character string that applies to a portion described as “% product name%” in an arbitrary product rule.

商品名取得部113は、商品名を商品データベース102に蓄積する際、使用した商品ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを商品データベース102に登録するようにしても良い。   When the product name acquisition unit 113 accumulates product names in the product database 102, the product name acquisition unit 113 sets a certain threshold for the number of acquisitions and the acquisition ratio of the used product rules, and stores only information that exceeds the threshold in the product database 102. You may make it register.

固有名称取得部114は、1以上の固有名称ルールを用いて、1以上の固有名称を、1以上のWebサーバ装置から取得し、固有名称データベース103に蓄積する。   The unique name acquisition unit 114 acquires one or more unique names from one or more Web server devices using one or more unique name rules, and accumulates them in the unique name database 103.

固有名称取得部114は、Webサーバ装置から取得したWebページから、固有名称ルールを用いて商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。   The unique name acquisition unit 114 acquires the unique name of the product from the Web page acquired from the Web server device using the unique name rule. Acquiring a Web page from the Web server device is the same as the processing acquired by a so-called Web browser.

固有名称ルールを用いて商品の固有名称を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などに、固有名称ルールデータベース110に格納されている固有名称ルールを適用し、当該固有名称ルールに合致する商品の固有名称を取得することである。例えば、固有名称取得部114は、任意の固有名称ルールで「%固有名称%」と記載されている部分に当てはまる文字列を取得する。   The acquisition of the unique name of the product using the unique name rule means that the unique name rule stored in the unique name rule database 110 is applied to the document acquired from the Web server device or the structure of HTML, and the like. It is to acquire the unique name of the product that matches the rule. For example, the unique name acquisition unit 114 acquires a character string that applies to a portion described as “% unique name%” in an arbitrary unique name rule.

固有名称取得部114は、商品の固有名称を固有名称データベース103に蓄積する際、使用した固有名称ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを固有名称データベース103に登録するようにしても良い。   When the unique name acquisition unit 114 stores the unique name of the product in the unique name database 103, the unique name acquisition unit 114 sets a certain threshold for the number of acquisitions and the acquisition ratio of the unique name rule used, and only information that exceeds the threshold is obtained. It may be registered in the unique name database 103.

知識獲得部115は、1以上のWebサーバ装置から取得したWebページから、所定の情報を用いて、所定の情報を取得し、取得した情報を対応するデータベースに蓄積する。具体的には、知識獲得部115は、以下の様にして所定の情報を取得する。
(1)会社データベース101の1以上の各会社名と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得する。
(2)商品データベース102の1以上の各商品名と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得する。
(3)固有名称データベース103の1以上の各固有名称と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得する。
(4)会社商品データベース104の1以上の会社名と商品名の組と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得する。
(5)会社固有名称データベース105の1以上の会社名と商品の固有名称の組と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得する。
(6)商品固有名称データベース106の1以上の商品名と商品の固有名称の組と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得する。
The knowledge acquisition unit 115 acquires predetermined information using predetermined information from Web pages acquired from one or more Web server devices, and accumulates the acquired information in a corresponding database. Specifically, the knowledge acquisition unit 115 acquires predetermined information as follows.
(1) One or more company names and product names, or one or more company names and unique names, or one or more using one or more company names in the company database 101 and one or more knowledge proliferation rules. Get company name, product name and unique name.
(2) One or more company names and product names, or one or more product names and unique names, or one or more using one or more product names in the product database 102 and one or more knowledge proliferation rules. Get company name, product name and unique name.
(3) One or more company names and unique names, or one or more product names and unique names, or 1 using one or more unique names in the unique name database 103 and one or more knowledge proliferation rules. The above company name, product name, and unique name are acquired.
(4) One or more company names, product names, and unique names are acquired using one or more pairs of one or more company names and product names in the company product database 104 and one or more knowledge proliferation rules.
(5) Acquire one or more company names, product names, and unique names using one or more pairs of one or more company names and product unique names in the company unique name database 105 and one or more knowledge proliferation rules. To do.
(6) One or more company names, product names, and unique names are acquired using a combination of one or more product names and product unique names in the product unique name database 106 and one or more knowledge proliferation rules. To do.

(1)は、会社データベース101に蓄積されている会社名が含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第一知識増殖ルール、または第二知識増殖ルール、または第三知識増殖ルールを適用し、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   (1) acquires a document including the company name stored in the company database 101 from the Web server device, and stores the first knowledge proliferation rule stored in the knowledge proliferation database for the document, or the first Applying the two-knowledge proliferation rule or the third-knowledge proliferation rule to obtain two or more sets of company name, product name, or product unique name. For example, the knowledge acquisition unit 115 sets the character string that applies to the part described as “% company name%” in each rule as the company name, and the character string that applies to the part described as “% product name%” as the product name. , A character string corresponding to the portion described as “% unique name%” is acquired as the unique name of the product.

(2)は、商品データベース102に蓄積されている商品名が含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第四知識増殖ルール、または第五知識増殖ルール、または第六知識増殖ルールを適用し、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   (2) acquires a document including the product name stored in the product database 102 from the Web server device, and stores the fourth knowledge proliferation rule stored in the knowledge proliferation database for the document, or Applying the fifth knowledge proliferation rule or the sixth knowledge proliferation rule to obtain two or more sets of company name, product name, or product unique name. For example, the knowledge acquisition unit 115 sets the character string that applies to the part described as “% company name%” in each rule as the company name, and the character string that applies to the part described as “% product name%” as the product name. , A character string corresponding to the portion described as “% unique name%” is acquired as the unique name of the product.

(3)は、固有名称データベース103に蓄積されている商品の固有名称が含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第七知識増殖ルール、または第八知識増殖ルール、または第九知識増殖ルールを適用し、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   (3) is a seventh knowledge proliferation rule in which a document including the unique name of the product stored in the unique name database 103 is acquired from the Web server device and stored in the knowledge proliferation database for the document. Or applying the eighth knowledge proliferation rule or the ninth knowledge proliferation rule to obtain two or more sets of company names, product names, or unique names of products. For example, the knowledge acquisition unit 115 sets the character string that applies to the part described as “% company name%” in each rule as the company name, and the character string that applies to the part described as “% product name%” as the product name. , A character string corresponding to the portion described as “% unique name%” is acquired as the unique name of the product.

(4)は、会社データベース101の会社名と、商品データベース102に蓄積されている商品名とが含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第十知識増殖ルールを適用し、会社名、商品名、商品の固有名称の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   In (4), a document including the company name of the company database 101 and the product name stored in the product database 102 is acquired from the Web server device, and the document is stored in the knowledge proliferation database. The tenth knowledge proliferation rule is applied to obtain a set of company name, product name, and product unique name. For example, the knowledge acquisition unit 115 sets the character string that applies to the part described as “% company name%” in each rule as the company name, and the character string that applies to the part described as “% product name%” as the product name. , A character string corresponding to the portion described as “% unique name%” is acquired as the unique name of the product.

(5)は、会社データベース101の会社名と、固有名称データベース103に蓄積されている商品の固有名称とが含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第十一知識増殖ルールを適用し、会社名、商品名、商品の固有名称の組取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   (5) acquires a document including the company name in the company database 101 and the unique name of the product stored in the unique name database 103 from the Web server device, and stores the document in the knowledge proliferation database. Applying the accumulated eleventh knowledge multiplication rules, the company name, the product name, and the unique name of the product are acquired. For example, the knowledge acquisition unit 115 sets the character string that applies to the part described as “% company name%” in each rule as the company name, and the character string that applies to the part described as “% product name%” as the product name. , A character string corresponding to the portion described as “% unique name%” is acquired as the unique name of the product.

(6)は、商品データベース102に蓄積されている商品名と、固有名称データベース103に登録されている商品の固有名称とが含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第十二知識増殖ルールを適用し、会社名、商品名、商品の固有名称の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。   (6) acquires a document including the product name stored in the product database 102 and the unique name of the product registered in the unique name database 103 from the Web server device, Applying the twelfth knowledge growth rule stored in the knowledge growth database, and obtaining a set of company name, product name, and product unique name. For example, the knowledge acquisition unit 115 sets the character string that applies to the part described as “% company name%” in each rule as the company name, and the character string that applies to the part described as “% product name%” as the product name. , A character string corresponding to the portion described as “% unique name%” is acquired as the unique name of the product.

知識獲得部115は、会社名、および商品名、および商品の固有名称を対応する各データベースに蓄積する際、使用した知識増殖ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを各データベースに登録するようにしても良い。   When the knowledge acquisition unit 115 accumulates the company name, the product name, and the unique name of the product in each corresponding database, the knowledge acquisition unit 115 sets a certain threshold for the number of acquisitions and the acquisition ratio of the used knowledge proliferation rules. Only information that exceeds the threshold may be registered in each database.

ルール学習部116は、1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索し、1以上の情報が出現する1以上のパターンを取得し、パターンが予め決められた条件を満たすほどよく出現する1以上のパターンを取得し、1以上のパターンを対応する各ルールデータベースに蓄積する。   The rule learning unit 116 searches for one or more Web server devices using one or more pieces of information existing in one or more databases, acquires one or more patterns in which one or more pieces of information appear, and the patterns are stored in advance. One or more patterns that appear more frequently as the predetermined condition is satisfied are acquired, and the one or more patterns are accumulated in the corresponding rule databases.

1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索するとは、具体的には、会社データベース101、または商品データベース102、または固有名称データベース103、または会社商品データベース104、または会社固有名称データベース105、または商品固有名称データベース106から1以上のデータベースに格納されている1以上の任意の情報を検索キーワードとして、サーバ装置を検索することである。   Specifically, searching for one or more Web server devices using one or more information existing in each of one or more databases means company database 101, product database 102, unique name database 103, or company product. Searching a server device using one or more arbitrary information stored in one or more databases from the database 104, the company unique name database 105, or the product unique name database 106 as a search keyword.

Webサーバ装置を検索するとは、例えば、インターネット上のWebサーバ装置(図示せず)が提供するWebページに含まれる文字列情報を検索対象とした検索である。Web検索は、例えば、検索用サイトを利用して行われる。ここでは、例えば、検索用サイトが提供するいわゆる検索エンジンに検索キーを含むクエリなどを送信し、検索エンジンが送信する検索結果を示す情報を受信することを、例えば、Web検索を行うことと考える。検索キーの送信などは、検索エンジンが提供するAPIなどを利用することで可能である。   Searching for a Web server device is, for example, searching for character string information included in a Web page provided by a Web server device (not shown) on the Internet. Web search is performed using a search site, for example. Here, for example, transmitting a query including a search key to a so-called search engine provided by a search site and receiving information indicating a search result transmitted by the search engine is considered to be a web search, for example. . The search key can be transmitted by using an API provided by the search engine.

1以上の情報が出現する1以上のパターンを取得するとは、サーバ装置を検索した結果取得した情報から、検索に使用した1以上の各データベースに存在する1以上の情報が含まれているパターンを取得することである。パターンとは、例えば、文章のパターンであっても良く、対象がWebページの場合は、HTMLのタグ構造のパターンであっても良く、上述したルールが複合的に合わさっていても良い。パターンの取得は、会社名、および商品名、および商品の固有名称を取得できる内容あれば何でも良く、例えば文章全体をパターンとして取得しても良く、複数の文章から検索に用いた情報を含む最長共通部分列を取得しても良い。   To acquire one or more patterns in which one or more information appears is a pattern including one or more information existing in one or more databases used for the search from information acquired as a result of searching the server device. Is to get. The pattern may be, for example, a sentence pattern. If the target is a Web page, the pattern may be an HTML tag structure pattern, or the above-described rules may be combined. The acquisition of the pattern may be anything that can acquire the company name, the product name, and the unique name of the product, for example, the entire sentence may be acquired as a pattern, and the longest including information used for the search from multiple sentences The common partial sequence may be acquired.

予め決められた条件を満たすほど良く出現する1以上のパターンを取得は、各ルールデータベースに登録する条件を予め定め、その条件を良く満たすパターンのみを取得する。
予め決められた条件とは、各ルールデータベースに登録する条件を予め定めたものである。条件は、パターンを評価できる値であればなんでも良い。例えば、条件は、パターンの取得回数であっても良く、取得したすべてのパターンのうちそのパターンが占める割合であっても良い。
To acquire one or more patterns that appear more frequently when a predetermined condition is satisfied, a condition to be registered in each rule database is determined in advance, and only patterns that satisfy the condition are acquired.
The predetermined condition is a condition that is registered in advance in each rule database. The condition may be any value that can evaluate the pattern. For example, the condition may be the number of pattern acquisitions, or the ratio occupied by the pattern among all the acquired patterns.

1以上のパターンを対応する各ルールデータベースに蓄積するとは、予め決められた条件を満たすほど良く出現したパターンをそのパターンに対応するデータベースに登録する。対応するデータベースとは、会社名を取得するパターンであれば会社ルールデータベース108、商品名を取得するパターンであれば商品ルールデータベース109、商品の固有名称を取得するパターンであれば固有名称ルールデータベース110、会社名と商品名の組を取得するパターン、および会社名と商品の固有名称の組を取得するパターン、および商品名と商品の固有名称の組を取得するパターン、および会社名と商品名と商品の固有名称の組を取得するパターンであれば知識増殖ルールデータベース111に登録する。   To store one or more patterns in each corresponding rule database, a pattern that appears better enough to satisfy a predetermined condition is registered in the database corresponding to the pattern. The corresponding database is a company rule database 108 for a pattern for acquiring a company name, a product rule database 109 for a pattern for acquiring a product name, and a unique name rule database 110 for a pattern for acquiring a unique name of a product. A pattern for acquiring a pair of company name and product name, a pattern for acquiring a pair of company name and product unique name, a pattern for acquiring a pair of product name and product unique name, and a company name and product name If it is a pattern for acquiring a set of unique names of products, it is registered in the knowledge proliferation rule database 111.

また、ルール学習部116は、2種類以上の情報の組を格納しているデータベースに存在する1以上の情報を用いて、1以上のパターンを取得した場合は、2種類以上の情報の組に対応するルールデータベース、および2種類以上の情報の組の一部分の情報を用いて、2種類以上の情報の組に対応する1以上のルールデータベースに、1以上のパターンを蓄積する。   In addition, when the rule learning unit 116 acquires one or more patterns using one or more information existing in a database storing two or more types of information sets, the rule learning unit 116 sets the two or more types of information sets. One or more patterns are stored in one or more rule databases corresponding to two or more types of information sets using the corresponding rule database and a part of information of two or more types of information sets.

2種類以上の情報の組とは、会社名と商品名、または会社名と商品の固有名称、または商品名と商品の固有名称、または会社名と商品名と商品の固有名称の情報である。2種類以上の情報の組を格納しているデータベースとは、会社商品データベース104、または会社固有名称データベース105、または商品固有名称データベース106、または会社商品固有名称データベース107である。1以上のパターンを取得した場合とは、2種類以上の情報の組を用いて、会社名と商品名と商品の固有名称のうち2種類以上の組を含むパターンを取得した場合である。2種類以上の情報の組の一部分の情報を用いてとは、2種類の情報の組であった場合は各々の情報、3種類の情報の組であった場合は各々、および任意の2種類の情報の組のすべての組み合わせを用いることである。ルール学習部116は、これら分解した情報を用いてパターンを取得し、取得したパターンを対応するデータベースに登録する。また、ルール学習部116は、例えば、2種類以上の情報の組が会社名と商品名であった場合、会社名と商品名を取得するパターンを取得するだけでなく、会社名を取得するパターンと商品名を取得するパターンについても取得し、取得したパターンを知識増殖ルールデータベース111、または会社ルールデータベース108、または商品ルールデータベース109に取得したパターンを蓄積しても良い。   The set of two or more types of information is information on a company name and a product name, or a company name and a product unique name, or a product name and a product unique name, or a company name, a product name, and a product unique name. The database storing a set of two or more types of information is the company product database 104, the company unique name database 105, the product unique name database 106, or the company product unique name database 107. The case where one or more patterns are acquired is a case where a pattern including two or more combinations among a company name, a product name, and a unique name of a product is acquired using a combination of two or more types of information. Using a part of information of two or more types of information means that each of the information is a combination of two types of information, each of which is a set of three types of information, and any two types All combinations of information sets are used. The rule learning unit 116 acquires a pattern using the decomposed information and registers the acquired pattern in a corresponding database. In addition, for example, when the combination of two or more types of information is a company name and a product name, the rule learning unit 116 not only acquires a pattern for acquiring the company name and product name, but also acquires a company name. Also, a pattern for acquiring the product name may be acquired, and the acquired pattern may be accumulated in the knowledge proliferation rule database 111, the company rule database 108, or the product rule database 109.

図2は、本実施の形態におけるデータベース構築装置2のブロック図である。データベース構築装置2は、会社商品固有名称データベース107、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、会社類似群コード固有名称データベース構築部23を備える。   FIG. 2 is a block diagram of the database construction device 2 in the present embodiment. The database construction device 2 includes a company product unique name database 107, a product similar group code correspondence database 21, a company similar group code unique name database 22, and a company similar group code unique name database construction unit 23.

商品類似群コード対応データベース21は、商品名と類似群コードを関連付けて保持するデータベースである。商品名は、会社商品固有名称データベース107に格納されている商品名と同様、法人、および個人が販売、または提供している商品、または役務の名称である。ここでいう商品、および役務の名称は、類似群コード表に記載されている商品、および役務の名称に必ずしも準じていなくても良い。類似群コードとは、商標の審査基準上、互いに類似するものと考えられる商品、役務に付与されたコードで、数字2桁とアルファベット1桁と数字2桁のコードである。(http://www.jpo.go.jp/shiryou/kijun/kijun2/ruiji_kijun9.htm)   The product similar group code correspondence database 21 is a database that stores product names and similar group codes in association with each other. The product name is the name of a product or service that is sold or provided by a corporation and an individual, like the product name stored in the company product unique name database 107. The names of products and services here do not necessarily conform to the names of products and services described in the similar group code table. The similar group code is a code assigned to a product or service that is considered to be similar to each other in accordance with trademark examination standards, and is a code of 2 digits, 1 alphabet, and 2 digits. (Http://www.jpo.go.jp/shiryou/kijun/kijun2/ruiji_kijun9.htm)

商品類似群コード対応データベース21における商品名と類似群コードは、通常1対多の関係で格納されており、複数の商品名に対して同一の類似群コードが関連付けられて格納されている。   The product names and the similar group codes in the product similar group code correspondence database 21 are normally stored in a one-to-many relationship, and the same similar group codes are stored in association with a plurality of product names.

会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107に格納されている1以上の会社名と商品名と商品の固有名称の組から商品名を取得し、取得した商品名を用いて、商品類似群コード対応データベース21から商品の類似群コードを取得し、会社名と取得した類似群コードと商品の固有名称との組を会社類似群コード固有名称データベース22に蓄積する。   The company similar group code unique name database construction unit 23 obtains a product name from a set of one or more company names, product names, and product unique names stored in the company product unique name database 107, and obtains the obtained product name. The similar group code of the product is acquired from the product similar group code correspondence database 21, and the combination of the company name, the acquired similar group code, and the unique name of the product is stored in the company similar group code unique name database 22.

図3は、本実施の形態における商標侵害検知装置3のブロック図である。商標侵害検知装置3は、データベース31、受付部32、商標類否判断部33、商品類否判断部34、出力部35を備える。   FIG. 3 is a block diagram of the trademark infringement detection apparatus 3 in the present embodiment. The trademark infringement detection device 3 includes a database 31, a reception unit 32, a trademark class determination unit 33, a product class determination unit 34, and an output unit 35.

データベース31は、データベース構築装置1が構築した会社商品固有名称データベース107であっても良く、データベース構築装置2が構築した会社類似群コード固有名称データベース22であっても良い。   The database 31 may be the company product unique name database 107 constructed by the database construction device 1 or the company similar group code unique name database 22 constructed by the database construction device 2.

受付部32は、商標および商品の類似群コードを特定する情報であるコード特定情報を有する調査対象商標情報を受け付ける。調査対象商標情報とは、例えば、商標の文字列である商標文字列と、1以上のコード特定情報の組である。コード特定情報とは、商品名、または類似群コードそのものなどの類似群コードを特定する文字列である。商標文字列、および商品名の文字列は、1文字以上の文字で構成される。商標文字列、および商品名の文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。また、商標文字列、および商品名の文字列を構成する文字は、2種類以上の文字が混在していてもよい。ここでの受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線または無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。調査対象商標情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。受付部32は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。   The receiving unit 32 receives survey target trademark information having code specifying information that is information for specifying a similar group code of a trademark and a product. The investigation target trademark information is, for example, a set of a trademark character string that is a trademark character string and one or more code specifying information. The code specifying information is a character string that specifies a similar group code such as a product name or the similar group code itself. The trademark character string and the character string of the product name are composed of one or more characters. The characters constituting the trademark character string and the product name character string may be of any type, such as kanji, alphabet, katakana, and hiragana. In addition, two or more kinds of characters may be mixed in the characters constituting the trademark character string and the product name character string. Acceptance here means acceptance of information input from input devices such as a keyboard, mouse, touch panel, reception of information transmitted via a wired or wireless communication line, recording of an optical disk, magnetic disk, semiconductor memory, etc. It is a concept including reception of information read from a medium. Any means can be used for inputting the trademark information to be investigated, such as a numeric keypad, a keyboard, a mouse, or a menu screen. The receiving unit 32 can be realized by a device driver for input means such as a numeric keypad or a keyboard, control software for a menu screen, and the like.

商標類否判断部33は、データベース31が有する1以上の商品の固有名称と、調査対象商標情報が有する商標とを用いて、商標の類否判断を行う。   The trademark similarity determination unit 33 determines the similarity of a trademark using the unique names of one or more products included in the database 31 and the trademark included in the trademark information to be investigated.

図4は、本実施の形態における商標侵害検知装置3の商標類否判断部33のブロック図である。商標類否判断部33は、商標文字列取得部331、称呼取得部332、称呼表示部333、称呼指定受付部334、類似検索部335、商標類否判断結果取得部336を備える。   FIG. 4 is a block diagram of the trademark similarity determination unit 33 of the trademark infringement detection device 3 according to the present embodiment. The trademark similarity determination unit 33 includes a trademark character string acquisition unit 331, a designation acquisition unit 332, a designation display unit 333, a designation designation reception unit 334, a similarity search unit 335, and a trademark similarity determination result acquisition unit 336.

商標文字列取得部331は、商標の文字列である商標文字列を受け付ける。商標文字列は、1文字以上の文字で構成される。商標文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。   The trademark character string acquisition unit 331 receives a trademark character string that is a trademark character string. The trademark character string is composed of one or more characters. The characters constituting the trademark character string may be of any type, such as kanji, alphabet, katakana and hiragana.

称呼取得部332は、商標文字列取得部331が受け付けた商標文字列から、この商標文字列の称呼の情報である称呼情報を取得する。称呼取得部332は、一の商標文字列から複数の称呼情報を取得しても良い。称呼取得部332が取得する称呼情報は、ひらがなまたはカタカナまたはこれらと同などの情報である。称呼情報がこれらのいずれであるかは、例えば、この称呼情報を検索に利用する後述する類似検索部335の仕様などによって決定される。   The name acquisition unit 332 acquires name information, which is information on the name of the trademark character string, from the trademark character string received by the trademark character string acquisition unit 331. The name acquisition unit 332 may acquire a plurality of pieces of name information from one trademark character string. The name information acquired by the name acquisition unit 332 is information such as hiragana, katakana, or the like. Which of these names is determined by, for example, the specification of a similarity search unit 335 (described later) that uses the name information for searching.

称呼取得部332は、称呼情報をどのように取得しても良い。例えば、称呼取得部332は、1以上の文字列と、当該文字列の読みの情報とを対応付けて有する辞書を用いて、図示しない記憶媒体などに格納されている辞書を用いて商標文字列取得部331が受け付けた商標文字列に対応する1以上の称呼情報を自動取得するようにしてもよい。また、称呼取得部332は、ユーザなどから図示しない入力デバイスなどを介して入力された商標文字列に対応する1以上の称呼情報を取得(受付)してもよい。この実施の形態においては、特に、称呼情報を自動取得する場合を例に挙げて説明する。   The name acquisition unit 332 may acquire the name information in any way. For example, the name acquisition unit 332 uses a dictionary having one or more character strings and information on reading of the character strings in association with each other, and uses a trademark character string stored in a storage medium (not shown). One or more pieces of name information corresponding to the trademark character string received by the acquisition unit 331 may be automatically acquired. The name acquisition unit 332 may acquire (accept) one or more pieces of name information corresponding to a trademark character string input from a user or the like via an input device (not shown). In this embodiment, a case where name information is automatically acquired will be described as an example.

称呼取得部332は、例えば、商標文字列に対して形態素解析を行い、形態素解析により得られた商標文字列の読みの情報を称呼情報として取得する。例えば、称呼取得部332は、形態素解析を用いることにより、商標文字列を形態素に分解し、分解された各文字列の読みを取得し、この文字列を組み合わせることで商標文字列の称呼情報を取得することが可能である。形態素解析においては、形態素の分解や形態素に分解された文字列からの読みの取得は、例えば、上記と同様の、形態素となりうる文字列と、その読みの情報とを対応付けて有する辞書を用いて行われる。形態素解析としては、例えば、「Mecab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen.naist.jp)などの形態素解析システムなどが利用可能である。   For example, the name acquisition unit 332 performs morphological analysis on the trademark character string, and acquires the reading information of the trademark character string obtained by the morphological analysis as name information. For example, the name acquisition unit 332 uses a morphological analysis to decompose a trademark character string into morphemes, acquires readings of each decomposed character string, and combines the character strings to obtain name information of the trademark character string. It is possible to obtain. In morpheme analysis, morpheme decomposition and acquisition of readings from character strings decomposed into morphemes are performed using, for example, a dictionary that associates character strings that can be morphemes with information about the readings, as described above. Done. As the morphological analysis, for example, a morphological analysis system such as “Mecab” (http://mecab.sourceforge.net/) or “ChaSen” (http://chasen.naist.jp) Etc. are available.

また、称呼取得部332は、商標文字列を構成する漢字や、数字や、アルファベットなどの文字や単語などを読みに変換して、称呼情報を取得しても良い。漢字や、数字の文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのいわゆる再変換技術や、上述したような形態素解析システムの技術により実現可能である。また、アルファベットの文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのアルファベット列の入力を日本語に変換する技術により実現可能である。アルファベット列を日本語の読みに変換する技術は、例えば、特開2009−199434号公報などに開示されている。なお、アルファベットや、漢字や、数字の称呼(読み)は、一通りとは限らないため、称呼取得部332は、様々な組合せの複数の情報を取得しても良い。例えば、称呼取得部332は、「IT」から「アイティー」、「アイティイ」と「イット」という複数の称呼を取得しても良い。また、称呼取得部332は、「山田」から「ヤマダ」、「ヤマタ」、「ヤマデン」、「サンデン」、「サンダ」、「サンタ」という複数の称呼を取得しても良い。   The name acquisition unit 332 may acquire name information by converting a kanji, a number, a character such as an alphabet, or a word constituting a trademark character string into a reading. The process of converting kanji, numeric characters, and words into readings can be realized by, for example, a so-called re-conversion technique of a Japanese input method or a morphological analysis system technique as described above. Further, the process of converting alphabetic characters and words into readings can be realized, for example, by a technique for converting the input of the alphabet string of the Japanese input method into Japanese. A technique for converting alphabet strings into Japanese readings is disclosed in, for example, Japanese Patent Application Laid-Open No. 2009-199434. In addition, since an alphabet, a kanji, and a numerical name (reading) of a number are not necessarily one way, the name acquisition part 332 may acquire several information of various combinations. For example, the designation acquisition unit 332 may acquire a plurality of designations “IT”, “IT”, “IT”, and “It” from “IT”. Further, the designation acquisition unit 332 may acquire a plurality of designations “Yamada”, “Yamata”, “Yamaden”, “Sanden”, “Sanda”, and “Santa” from “Yamada”.

また、称呼取得部332は、商標文字列を構成し得る文字列(例えば、漢字や、アルファベットや、数字など)と、その読みの情報(辞書情報)を予め図示しない格納部に蓄積しておくようにし、商標文字列を構成する各文字についてそれぞれ1以上の読みの情報を取得して、取得した読みの情報を組み合わせたものを称呼情報として取得してもよい。   Further, the name acquisition unit 332 accumulates in advance a character string (for example, kanji, alphabet, numbers, etc.) that can constitute a trademark character string and reading information (dictionary information) in a storage unit (not shown). In this way, one or more reading information may be acquired for each character constituting the trademark character string, and a combination of the acquired reading information may be acquired as name information.

また、例えば、1以上の文字列とその読みを示すカタカナまたはひらがなとを対応付けて有する予め用意された形態素の辞書情報について、称呼取得部332が、商標文字列に含まれるカタカナまたはひらがな以外の文字列と一致する文字列を検索し、検出された文字列に対応付けられた読み(称呼)の情報を辞書情報から順次取得していくことで実現可能である。なお、称呼取得部332は、一の文字列について読みが複数ある場合や、検索に用いる文字数の区切で異なる称呼が得られる場合には、複数の読みを組み合わせたり区切を変更したりしてこれらを適宜組み合わせて複数の称呼情報を取得する。このような辞書情報は、例えば、称呼取得部332が、予め保持しているようにすればよい。称呼取得部332は、このような辞書情報を保持する記憶媒体などを有していても良い。   Further, for example, with respect to morpheme dictionary information prepared in advance having one or more character strings associated with katakana or hiragana indicating the reading, the name acquisition unit 332 may include other than katakana or hiragana included in the trademark character string. This can be realized by searching for a character string that matches the character string and sequentially acquiring reading (name) information associated with the detected character string from the dictionary information. In addition, when there are a plurality of readings for one character string or when a different name is obtained by dividing the number of characters used in the search, the name acquisition unit 332 combines these readings or changes the division. A plurality of designation information is acquired by appropriately combining the above. Such dictionary information may be held in advance by the name acquisition unit 332, for example. The name acquisition unit 332 may include a storage medium that holds such dictionary information.

称呼取得部332は、さらに、上記で取得した1以上の称呼情報を分割して1以上の分割称呼情報を取得してもよい。分割称呼情報は、具体的には、称呼情報の一部分の情報である。分割称呼情報は、例えば、後述する類似検索などで称呼情報と実質的に同じものとして利用される。例えば、称呼取得部332は、取得した称呼情報のそれぞれの文字列を、任意の位置で区切って、その区切った位置によって分割される前または後、またはその両方の文字列を分割称呼情報として取得する。また、称呼取得部332は、文字列の区切る位置を順次変更して、それぞれの区切る位置に応じて分割称呼情報を取得しても良い。例えば、称呼取得部332は、各称呼情報を構成する文字列をそれぞれの文字間で区切っていった場合にそれぞれ得られる区切り位置の前後の文字列を、すべて分割称呼情報として取得しても良い。   The name acquisition unit 332 may further acquire one or more divided name information by dividing the one or more name information acquired above. Specifically, the division name information is information of a part of the name information. The divided name information is used as substantially the same as the name information in, for example, a similarity search described later. For example, the name acquisition unit 332 divides each character string of the acquired name information at an arbitrary position and acquires character strings before or after being divided by the divided position, or both as divided name information. To do. The name acquisition unit 332 may sequentially change the position where the character string is divided, and acquire the divided name information according to each position where the character string is divided. For example, the name acquisition unit 332 may acquire all the character strings before and after the delimiter positions obtained when the character strings constituting the name information are divided between the characters as the divided name information. .

称呼表示部333は、称呼取得部332が取得した1以上の称呼情報を図示しないモニタなどの表示デバイスに表示する。また、称呼表示部333は、称呼取得部332が取得した1以上の分割称呼情報を表示してもよい。称呼表示部333は、表示デバイスを含むと考えても含まないと考えてもよい。称呼表示部333は、表示デバイスのドライバーソフト、または表示デバイスのドライバーソフトと表示デバイスなどで実現され得る。   The name display unit 333 displays one or more pieces of name information acquired by the name acquisition unit 332 on a display device such as a monitor (not shown). The name display unit 333 may display one or more pieces of divided name information acquired by the name acquisition unit 332. The name display unit 333 may be considered as including or not including a display device. The designation display unit 333 can be realized by display device driver software, or display device driver software and a display device.

称呼指定受付部334は、称呼取得部332が取得した称呼情報の1以上を指定する称呼指定情報をユーザなどから受け付ける。例えば、称呼指定情報は、称呼表示部333に表示された称呼情報の1以上を指定する称呼指定情報を受け付ける。また、称呼指定受付部334は、称呼取得部332が取得した称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報をユーザなどから受け付けてもよい。例えば、称呼指定受付部334は、称呼表示部333により表示された称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報を受け付ける。なお、称呼指定受付部334は、予めどのような称呼を指定するか定めたルールを設けることで、ユーザに選択させなくても良いようにしてもよい。称呼指定情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。称呼指定受付部334は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。   The designation designation accepting unit 334 accepts designation designation information for designating one or more pieces of designation information acquired by the designation acquisition unit 332 from a user or the like. For example, the designation designation information accepts designation designation information for designating one or more pieces of designation information displayed on the designation display unit 333. Further, the designation designation accepting unit 334 may accept designation designation information for designating one or more of the designation information and the divided designation information acquired by the designation acquisition unit 332 from a user or the like. For example, the designation designation accepting unit 334 accepts designation designation information for designating one or more of the designation information and the divided designation information displayed by the designation display unit 333. Incidentally, the nominal designation receiver 334, by providing a rule that defines how to specify in advance what nominal, may be may not be selected by the user. The name designation information input means may be anything such as a numeric keypad, keyboard, mouse, or menu screen. The designation designation accepting unit 334 can be realized by a device driver for input means such as a numeric keypad or a keyboard, control software for a menu screen, or the like.

類似検索部335は、称呼取得部332が取得した各称呼情報を用いて類似検索を行う。または、類似検索部335は、称呼取得部332が取得した称呼情報のうちの、称呼指定情報が指定する各称呼情報を用いて類似検索を行うようにしてもよい。また、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とを用いて類似検索を行うようにしてもよい。または、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とのうちの、称呼指定情報が指定する称呼情報と分割称呼情報とを用いて類似検索を行うようにしてもよい。称呼指定情報が指定する称呼情報と分割称呼情報とを用いてとは、例えば、指定された称呼情報または分割称呼情報だけを用いることを意味する。類似検索部335は、図示しない記憶媒体などの格納部に予め格納されている商品の固有名称の称呼の情報(以下、登録称呼情報と称す)の中から、称呼情報(または分割称呼情報)と類似する登録称呼情報を検索する。登録称呼情報は、会社商品固有名称データベース107、または会社類似群コード固有名称データベース22の固有名称から、予め作成構築しておく。   The similarity search unit 335 performs a similarity search using each name information acquired by the name acquisition unit 332. Alternatively, the similarity search unit 335 may perform a similar search using each piece of name information specified by the name designation information among the name information acquired by the name acquisition unit 332. Further, the similarity search unit 335 may perform a similarity search using each piece of nominal information acquired by the nominal acquisition unit 332 and each piece of divided nominal information. Alternatively, the similarity search unit 335 performs a similar search by using the name information and the divided name information specified by the name designation information among the name information and the divided name information acquired by the name acquisition unit 332. May be. The use of the designation name information and the division designation information specified by the designation designation information means, for example, that only the designated designation information or division designation information is used. The similarity search unit 335 selects the name information (or divided name information) from the name information (hereinafter referred to as registered name information) of the product unique name stored in advance in a storage unit such as a storage medium (not shown). Search similar registered name information. The registered name information is created and constructed in advance from the unique names in the company product unique name database 107 or the company similar group code unique name database 22.

なお、商品の固有名称の称呼の情報が格納されている図示しない格納部は、商標類否判断部33が有していても良いし、図示しない外部のサーバ装置などが有していても良い。また、類似検索部335は、図示しない商品の固有名称の類似検索の処理を行うサーバ装置などに、称呼情報または分割称呼情報、および類似群コードを送信して類似検索を実行させ、その検索結果を受信するようにしても良く、このような場合も、類似検索部335が類似検索を行ったと考えて良い。   Note that the storage unit (not shown) in which the name information of the unique name of the product is stored may be included in the trademark kind rejection determination unit 33, or may be included in an external server device (not illustrated). . Also, the similarity search unit 335 transmits the name information or divided name information and the similar group code to a server device or the like that performs a similar search process for the unique name of a product (not shown), and executes the similar search, and the search result In such a case, it may be considered that the similarity search unit 335 has performed a similarity search.

また、類似検索部335による類似検索の処理は、称呼情報の音響学的な判断処理であっても良い。類似検索の処理は、例えば、称呼情報の音節などから類似しないと判断される要因を検出し、その要因をペナルティ値に換算し、換算したペナルティ値を用いて、称呼情報が類似するか否かを判断して、商標文字列から取得した称呼情報と類似する称呼情報を商品の固有名称の称呼情報の中から検出する処理である。なお、ここでは、説明の便宜上、分割称呼情報も称呼情報と呼ぶこととする。また、ここでは、商品の固有名称の称呼情報である登録称呼情報が、類似群コードと商品の固有名称の識別情報などと対応付けて図示しない格納部に格納されているものとする。   Further, the similarity search process by the similarity search unit 335 may be an acoustic determination process of name information. The similarity search process detects, for example, a factor that is judged not to be similar from the syllable of the nominal information, converts the factor into a penalty value, and uses the converted penalty value to determine whether the nominal information is similar The name information similar to the name information acquired from the trademark character string is detected from the name information of the unique name of the product. Here, for convenience of explanation, the division name information is also referred to as name information. Here, it is assumed that registered name information, which is name information of the unique name of the product, is stored in a storage unit (not shown) in association with the similar group code and the identification information of the unique name of the product.

類似検索部335が取得する類似検索の結果は、例えば、少なくとも類似する登録称呼情報が検出されたか否かを示すことが可能な情報である。例えば、類似検索の結果は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でもよい。また、類似検索の結果は、類似する登録称呼情報の数などを示す情報でも良い。また、称呼の情報が、商品の固有名称や、その識別情報(例えば登録番号)などと対応付けて上述した図示しない格納部に格納されている場合、類似検索部335は、類似する登録称呼情報に対応する商品の固有名称やその識別情報を図示しない格納部から取得して検索結果として出力してもよい。また、類似検索部335は、登録称呼情報に対応付けられた類似群コードの情報を含む情報を出力してもよい。商品の固有名称の称呼について類似検索を行うための具体的な処理については、上述した特許文献1や、日本の特許庁が提供する称呼検索サービスや、商用データベースの称呼検索サービスなどの技術として公知であるので、ここでは詳細な説明は省略する。   The result of the similarity search acquired by the similarity search unit 335 is information that can indicate, for example, whether or not at least similar registered name information is detected. For example, the result of the similarity search may be information indicating the presence or absence of similar registered name information, or may be information indicating one or more similar registered name information. Further, the result of the similarity search may be information indicating the number of similar registered name information. In addition, when the name information is stored in the above-described storage unit (not shown) in association with the unique name of the product or its identification information (for example, registration number), the similar search unit 335 displays similar registered name information. May be acquired from a storage unit (not shown) and output as a search result. Also, the similarity search unit 335 may output information including information on similar group codes associated with registered name information. Specific processing for performing a similar search for a title of a product unique name is known as a technique such as the above-mentioned Patent Literature 1, a title search service provided by the Japanese Patent Office, or a title search service for a commercial database. Therefore, detailed description is omitted here.

商標類否判断結果取得部336は、例えば、類似検索部335による類似検索の結果と、類似検索の結果の各称呼情報と関連する会社名と類似群コード特定情報を取得する。類似検索の結果については、類似検索の結果を、類似検索を行った称呼情報ごとに取得する。また、類似検索の結果については、例えば、類似検索の結果を、類似検索を行った分割称呼情報ごとに取得する。また、商標類否判断結果取得部336は、称呼が類似すると判断された商品の固有名称や、商品の固有名称の識別情報を示す情報も各証拠情報に対して付加しても良い。   The trademark similarity determination result acquisition unit 336 acquires, for example, the result of the similarity search by the similarity search unit 335, the company name and the similar group code specifying information related to the name information of the result of the similarity search. As for the result of the similarity search, the result of the similarity search is acquired for each name information for which the similarity search is performed. As for the result of the similarity search, for example, the result of the similarity search is acquired for each divided name information that has been subjected to the similarity search. Further, the trademark similarity determination result acquisition unit 336 may add, to each piece of evidence information, a unique name of a product that has been determined to have a similar name and identification information for the unique name of the product.

商品類否判断部34は、データベース31が有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。調査対象商標情報が商品名を保持していた場合、商品類否判断部34は、会社商品固有名称データベース107から調査対象商標情報の商品名に関連する商品名をもつレコードの会社名と商品の固有名称を取得する。調査対象商標情報の商品名に関連したとは、例えば、調査対象商標情報の商品名と会社商品固有名称データベース107の商品名とが同一である、または意味的に類似しているなどの場合である。調査対象商標情報が類似群コードを保持していた場合、商品類否判断部34は、会社類似群コード固有名称データベース22から調査対象商標情報の類似群コードと同一の類似群コードをもつレコードの会社名と商品の固有名称を取得する。   The merchandise similarity determination unit 34 determines the similarity of the merchandise using one or more product names or one or more similar group codes included in the database 31 and code identification information included in the survey target trademark information. When the survey target trademark information holds the product name, the product type rejection determination unit 34 stores the company name and the product of the record having the product name related to the product name of the survey target trademark information from the company product unique name database 107. Get a unique name. The term “related to the product name of the survey target trademark information” means, for example, the case where the product name of the survey target trademark information and the product name of the company product unique name database 107 are the same or similar in meaning. is there. If the survey target trademark information has a similar group code, the product type determination unit 34 searches for records having the same group code as the similar group code of the survey target trademark information from the company similar group code unique name database 22. Get the company name and the unique name of the product.

出力部35は、商標類否判断部33の判断結果と、商品類否判断部34の判断結果とから、商標の類似、および商品の類似に関する情報を出力する。例えば、出力部35は、類否する情報が検出されたか否かを示すことが可能な情報を出力する。類否する情報が検出されたか否かを示すことが可能な情報は、例えば、商標類否判断部33の判断結果の場合は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でも良い。また、類否する情報が検出されたか否かを示すことが可能な情報は、類似する登録称呼情報の数などを示す情報でも良い。また、類否する情報が検出されたか否かを示すことが可能な情報は、類似する任意数の類似する登録称呼情報であっても良い。また、出力部35は、類似する登録称呼情報に対応する商品の固有名称やその識別情報を出力しても良い。また、出力部35は、上記すべての出力内容について、会社名、または商品名、または類似群コード、または商品の固有名称のうち、一部または全部を付加して出力しても良い。また、例えば、商品類否判断部34の判断結果の場合は、類否する情報が検出されたか否かを示すことが可能な情報は、該当するコード特定情報の有無を示す情報であっても良いし、該当する1以上のコード特定情報を示す情報でも良い。また、類否する情報が検出されたか否かを示すことが可能な情報は、該当するコード特定情報の数などを示す情報でも良い。また、出力部35は、上記すべての出力内容について、会社名、または固有名称のうち、一方または双方を付加して出力しても良い。   The output unit 35 outputs information on the similarity of the trademark and the similarity of the product based on the determination result of the trademark similarity determination unit 33 and the determination result of the product similarity determination unit 34. For example, the output unit 35 outputs information that can indicate whether or not similar information is detected. The information that can indicate whether or not similar information has been detected may be information indicating the presence or absence of similar registered name information in the case of the determination result of the trademark similarity determination unit 33, for example. Information indicating one or more similar registered name / call information may be used. Further, the information that can indicate whether or not similar information is detected may be information that indicates the number of similar registered name information. Further, the information that can indicate whether or not similar information is detected may be an arbitrary number of similar registered name information. Further, the output unit 35 may output the unique name of the product corresponding to similar registered name information and its identification information. Further, the output unit 35 may output all the output contents by adding a part or all of the company name, the product name, the similar group code, or the unique name of the product. Further, for example, in the case of the determination result of the product class determination unit 34, the information that can indicate whether or not similar information is detected may be information indicating the presence or absence of the corresponding code specifying information. It may be good or information indicating one or more corresponding code specifying information. Further, the information that can indicate whether or not similar information is detected may be information indicating the number of corresponding code specifying information. In addition, the output unit 35 may output all the output contents by adding one or both of the company name and the unique name.

出力部35は、商標類否判断部33の判断結果すべてと、商品類否判断部34の判断結果をすべて出力しても良く、どちらか一方であっても良い。また、出力部35は、商標類否判断部33と商品類否判断部34の結果のうち商品の固有名称が共通するものだけを出力しても良い。   The output unit 35 may output all the judgment results of the trademark kind judgment unit 33 and all judgment results of the product kind judgment unit 34, or may be either one. In addition, the output unit 35 may output only the common product unique names among the results of the trademark similarity determination unit 33 and the product similarity determination unit 34.

ここで述べる出力とは、ディスプレイへの表示、プリンタによる紙などへの印字、外部の装置への送信、記録媒体への蓄積などを含む概念である。出力部35は、表示デバイスを含むと考えても含まないと考えてもよい。出力部35は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。   The output described here is a concept including display on a display, printing on paper or the like by a printer, transmission to an external device, accumulation in a recording medium, and the like. The output unit 35 may or may not include a display device. The output unit 35 can be realized by driver software of an output device or driver software of an output device and an output device.

図5は、本実施の形態にかかる会社名取得部112の動作の一例を示すフローチャートである。以下、図5を用いて動作について説明する。   FIG. 5 is a flowchart showing an example of the operation of the company name acquisition unit 112 according to the present embodiment. The operation will be described below with reference to FIG.

(ステップS401)会社名取得部112は、会社ルールデータベース108から会社ルールを取得する。取得できた場合、ステップS402に進み、取得できなかった場合、終了する。   (Step S401) The company name acquisition unit 112 acquires a company rule from the company rule database 108. If it can be acquired, the process proceeds to step S402. If it cannot be acquired, the process ends.

(ステップS402)会社名取得部112は、カウンターmに1を代入する。   (Step S402) The company name acquisition unit 112 substitutes 1 for a counter m.

(ステップS403)会社名取得部112は、ステップS401で取得した会社ルールにm番目の会社ルールがあるか否かを判断する。ある場合は、ステップS404に進み、ない場合は、終了する。   (Step S403) The company name acquisition unit 112 determines whether or not there is an mth company rule in the company rules acquired in step S401. If there is, the process proceeds to step S404, and if not, the process ends.

(ステップS404)会社名取得部112は、Webサーバ装置からWebページを取得する。なお、このとき取得するWebページは、会社ルールデータベース108から会社名を含む文章を取得する会社ルールを用いて、予め取得した会社名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS405へ進み、取得できなかった場合はステップS410に進む。   (Step S404) The company name acquisition unit 112 acquires a Web page from the Web server device. The Web page acquired at this time may be a Web page that may include a company name acquired in advance using a company rule that acquires a sentence including the company name from the company rule database 108. You may acquire a large amount at random. If the Web page can be acquired, the process proceeds to step S405. If the Web page cannot be acquired, the process proceeds to step S410.

(ステップS405)会社名取得部112は、カウンターnに1を代入する。   (Step S405) The company name acquisition unit 112 substitutes 1 for a counter n.

(ステップS406)会社名取得部112は、ステップS404で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS407に進み、ない場合は、ステップS410に進む。   (Step S406) The company name acquisition unit 112 determines whether there is an nth Web page in the Web page acquired in Step S404. If there is, the process proceeds to step S407, and if not, the process proceeds to step S410.

(ステップS407)会社名取得部112は、ステップS404で取得したWebページのn番目のWebページに対し、ステップS401で取得した会社ルールのm番目の会社ルールを用いて会社名を取得する。取得できた場合は、ステップS408へ進み、取得できなかった場合は、ステップS409に進む。   (Step S407) The company name acquisition unit 112 acquires a company name for the nth Web page of the Web page acquired in Step S404 by using the mth company rule of the company rule acquired in Step S401. If it can be acquired, the process proceeds to step S408. If it cannot be acquired, the process proceeds to step S409.

(ステップS408)会社名取得部112は、ステップS407で取得した会社名を会社データベース101に格納する。   (Step S408) The company name acquisition unit 112 stores the company name acquired in step S407 in the company database 101.

(ステップS409)会社名取得部112は、カウンターnを1インクリメントする。そして、ステップS406に戻る。   (Step S409) The company name acquisition unit 112 increments the counter n by 1. Then, the process returns to step S406.

(ステップS410)会社名取得部112は、カウンターmを1インクリメントする。そしてステップS403に戻る。   (Step S410) The company name acquisition unit 112 increments the counter m by 1. Then, the process returns to step S403.

以下、本実施の形態における会社名取得部112の具体的な動作について説明する。なお、この具体例において示した会社名取得部112の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the company name acquisition unit 112 in the present embodiment will be described. Note that the acquisition result of the company name acquisition unit 112 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

会社名取得部112は、会社ルールデータベース108から会社名を取得するためのすべてのルールを取得する。会社名取得部112は、会社ルールデータベース108が、会社ルールが抽出する対象に関するデータを保持していた場合、「会社名」が対象の会社ルールだけを取得する。また、会社名取得部112は、会社ルールデータベース108が会社ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた会社ルールだけを取得しても良い。今回の具体例では、会社ルールを5種類取得したとする。   The company name acquisition unit 112 acquires all rules for acquiring a company name from the company rule database 108. The company name acquisition unit 112 acquires only the company rules whose “company name” is the target when the company rule database 108 holds data related to the targets extracted by the company rules. Further, the company name acquisition unit 112 may acquire only the company rules exceeding an arbitrary threshold when the company rule database 108 holds values such as the number of acquisitions of the company rules and the acquisition ratio. In this specific example, it is assumed that five types of company rules have been acquired.

図6は、会社ルールデータベース108に格納されているデータの一例を示す図である。会社ルールデータベース108は、会社名を取得するパターンを有している。ここでは、具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名として取得する会社ルールを列挙した。   FIG. 6 is a diagram illustrating an example of data stored in the company rule database 108. The company rule database 108 has a pattern for acquiring a company name. Here, as a specific example, company rules for acquiring a noun phrase corresponding to the part described as “% company name%” as a company name are listed.

会社名取得部112は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。   The company name acquisition unit 112 acquires a Web page. In this specific example, it is assumed that 100 types of Web pages are acquired at random.

会社名取得部112は、取得したすべての会社ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、会社名取得部112は、会社ルールが5種類、Webページが100種類なので500回会社名を取得する処理を行う。具体的には、会社名取得部112は、会社ルールが「<title>%会社名%株式会社</title>」の場合、取得したWebページに「<title>サンプル商事株式会社</title>」と記載されていれば、「サンプル商事」の部分を取得する。しかし、会社名取得部112は、パターンに対応する内容が記載されていなければ何も取得しない。   The company name acquisition unit 112 acquires company names from all acquired web pages using all acquired company rules. In this case, the company name acquisition unit 112 performs the process of acquiring the company name 500 times because there are 5 types of company rules and 100 types of Web pages. Specifically, when the company rule is “<title>% company name% corporation </ title>”, the company name acquisition unit 112 displays “<title> sample trading corporation </ title>” on the acquired Web page. ”Is acquired, the“ sample trading ”part is acquired. However, the company name acquisition unit 112 acquires nothing unless the contents corresponding to the pattern are described.

会社名取得部112は、会社名が取得できた場合は、会社データベース101に登録する。今回の場合では、会社名取得部112は、「サンプル商事」を登録する。また、もし会社ルールデータベース108が会社ルールの取得回数や取得割合等の値を保持していた場合、会社名取得部112は、その値と一緒に会社データベース101に登録しても良く、取得した情報の周辺である「<title>サンプル商事株式会社</title>」も一緒に登録しても良い。   The company name acquisition unit 112 registers the company name in the company database 101 when the company name can be acquired. In this case, the company name acquisition unit 112 registers “sample trading”. Further, if the company rule database 108 holds values such as the number of acquisitions and the acquisition ratio of the company rules, the company name acquisition unit 112 may register the values together with the values in the company database 101 and acquire them. “<Title> Sample Trading Co., Ltd. </ Title>”, which is the periphery of the information, may be registered together.

図7は、本実施の形態にかかる商品名取得部113の動作の一例を示すフローチャートである。以下、図7を用いて動作について説明する。   FIG. 7 is a flowchart showing an example of the operation of the product name acquisition unit 113 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS501)商品名取得部113は、商品ルールデータベース109から商品ルールを取得する。取得できた場合、ステップS502に進み、取得できなかった場合、終了する。   (Step S501) The product name acquisition unit 113 acquires a product rule from the product rule database 109. If it can be acquired, the process proceeds to step S502. If it cannot be acquired, the process ends.

(ステップS502)商品名取得部113は、カウンターmに1を代入する。   (Step S502) The product name acquisition unit 113 substitutes 1 for the counter m.

(ステップS503)商品名取得部113は、ステップS501で取得した商品ルールにm番目の商品ルールがあるか否かを判断する。ある場合は、ステップS504に進み、ない場合は、終了する。   (Step S503) The product name acquisition unit 113 determines whether or not the product rule acquired in step S501 includes the mth product rule. If there is, the process proceeds to step S504, and if not, the process ends.

(ステップS504)商品名取得部113は、Webサーバ装置からWebページを取得する。なお、このとき取得するWebページは、商品ルールデータベース109から商品名を含む文章を取得する商品ルールを用いて、予め取得した商品名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS505へ進み、取得できなかった場合はステップS510に進む。   (Step S504) The product name acquisition unit 113 acquires a Web page from the Web server device. The Web page acquired at this time may be a Web page that may include a product name acquired in advance using a product rule that acquires a sentence including a product name from the product rule database 109. You may acquire a large amount at random. If the Web page can be acquired, the process proceeds to step S505. If the Web page cannot be acquired, the process proceeds to step S510.

(ステップS505)商品名取得部113は、カウンターnに1を代入する。   (Step S505) The product name acquisition unit 113 assigns 1 to the counter n.

(ステップS506)商品名取得部113は、ステップS504で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS507に進み、ない場合は、ステップS510に進む。   (Step S506) The product name acquisition unit 113 determines whether the Web page acquired in Step S504 includes the nth Web page. If there is, the process proceeds to step S507, and if not, the process proceeds to step S510.

(ステップS507)商品名取得部113は、ステップS504で取得したWebページのn番目のWebページに対し、ステップS501で取得した商品ルールのm番目の商品ルールを用いて商品名を取得する。取得できた場合は、ステップS508へ進み、取得できなかった場合は、ステップS509に進む。   (Step S507) The product name acquisition unit 113 acquires the product name for the nth Web page of the Web page acquired in Step S504, using the mth product rule of the product rule acquired in Step S501. If it can be obtained, the process proceeds to step S508. If it cannot be obtained, the process proceeds to step S509.

(ステップS508)商品名取得部113は、ステップS507で取得した商品名を商品データベース102に格納する。   (Step S508) The product name acquisition unit 113 stores the product name acquired in step S507 in the product database 102.

(ステップS509)商品名取得部113は、カウンターnを1インクリメントする。そして、ステップS506に戻る。   (Step S509) The product name acquisition unit 113 increments the counter n by 1. Then, the process returns to step S506.

(ステップS510)商品名取得部113は、カウンターmを1インクリメントする。そしてステップS503に戻る。   (Step S510) The product name acquisition unit 113 increments the counter m by 1. Then, the process returns to step S503.

以下、本実施の形態における商品名取得部113の具体的な動作について説明する。なお、この具体例において示した商品名取得部113の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the product name acquisition unit 113 in the present embodiment will be described. Note that the acquisition result of the product name acquisition unit 113 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

商品名取得部113は、商品ルールデータベース109から商品名を取得するためのすべてのルールを取得する。商品名取得部113は、商品ルールデータベース109が、商品ルールが抽出する対象に関するデータを保持していた場合、「商品名」が対象の商品ルールだけを取得する。また、商品名取得部113は、商品ルールデータベース109が、商品ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた商品ルールだけを取得しても良い。今回の具体例では、商品ルールを5種類取得したとする。   The product name acquisition unit 113 acquires all rules for acquiring product names from the product rule database 109. The product name acquisition unit 113 acquires only the product rule whose “product name” is the target when the product rule database 109 holds data related to the target extracted by the product rule. In addition, the product name acquisition unit 113 may acquire only the product rules that exceed an arbitrary threshold when the product rule database 109 holds values such as the number of product rule acquisitions and the acquisition ratio. In this specific example, it is assumed that five types of product rules have been acquired.

図8は商品ルールデータベース109に格納されているデータの一例を示す図である。商品ルールデータベース109は、商品名を取得するパターンを有している。ここでは、具体例として、「%商品名%」と記載されている部分に該当する名詞句を商品名として取得する商品ルールを列挙した。   FIG. 8 is a diagram illustrating an example of data stored in the product rule database 109. The product rule database 109 has a pattern for acquiring product names. Here, as a specific example, product rules for acquiring a noun phrase corresponding to a portion described as “% product name%” as a product name are listed.

商品名取得部113は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。   The product name acquisition unit 113 acquires a Web page. In this specific example, it is assumed that 100 types of Web pages are acquired at random.

商品名取得部113は、取得したすべての商品ルールを用いて、取得したすべてのWebページから商品名を取得する。今回の場合では、商品名取得部113は、商品ルールが5種類、Webページが100種類なので500回商品名を取得する処理を行う。具体的には、商品名取得部113は、商品ルールが「<title>商品名一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?>%商品名%</li>)+</ul>」の場合、取得したWebページに「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”tv.html”>テレビ</li><li><a href=”dvd.html”>DVDプレイヤ</li><li><a href=”pc.html”>パソコン</li></ul>・・・(省略)・・・」と記載されていれば、「テレビ」「DVDプレイヤ」「パソコン」の部分を取得する。しかし、商品名取得部113は、パターンに対応する内容が記載されていなければ何も取得しない。   The product name acquisition unit 113 acquires product names from all acquired Web pages using all acquired product rules. In this case, the product name acquisition unit 113 performs the process of acquiring the product name 500 times because there are 5 types of product rules and 100 types of Web pages. Specifically, the product name acquisition unit 113 sets the product rule “<title> product name list </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?>% Product name% </ li>) + </ ul> ”,“ <title> product name list </ title> ... (omitted) ... <span> list </ Span> <ul> <li> <a href = ”tv. html "> TV </ li> <li> <a href =" dvd. html "> DVD player </ li> <li> <a href =" pc. If “html”> PC </ li> </ UL>... (omitted)..., “TV,” “DVD player,” “PC” is acquired. However, the product name acquisition unit 113 acquires nothing unless the content corresponding to the pattern is described.

商品名取得部113は、商品名が取得できた場合は、商品データベース102に登録する。今回の場合では、商品名取得部113は、「テレビ」と「DVDプレイヤ」と「パソコン」を登録する。また、もし商品ルールデータベース109が商品ルールの取得回数や取得割合等の値を保持していた場合、商品名取得部113は、その値と一緒に商品データベース102に登録しても良く、取得した情報の周辺である「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”tv.html”>テレビ</li><li><a href=”dvd.html”>DVDプレイヤ</li><li><a href=”pc.html”>パソコン</li></ul>・・・(省略)・・・」も一緒に登録しても良い。   The product name acquisition unit 113 registers the product name in the product database 102 when the product name can be acquired. In this case, the product name acquisition unit 113 registers “TV”, “DVD player”, and “PC”. In addition, if the product rule database 109 holds values such as the number of times of product rule acquisition and the acquisition ratio, the product name acquisition unit 113 may register and acquire the values in the product database 102 together with the values. “<Title> Product name list </ title>... (Omitted)... <Span> list </ span> <ul> <li> <a href =” tv. html "> TV </ li> <li> <a href =" dvd. html "> DVD player </ li> <li> <a href =" pc. html "> PC </ li> </ ul> ... (omitted) ..." may be registered together.

以上、本実施の形態によれば、任意のWebページから商品名を取得できる。   As described above, according to the present embodiment, a product name can be acquired from an arbitrary Web page.

図9は、本実施の形態にかかる固有名称取得部114の動作の一例を示すフローチャートである。以下、図9を用いて動作について説明する。   FIG. 9 is a flowchart showing an example of the operation of the unique name acquisition unit 114 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS601)固有名称取得部114は、固有名称ルールデータベース110から固有名称ルールを取得する。取得できた場合、ステップS602に進み、取得できなかった場合、終了する。   (Step S <b> 601) The unique name acquisition unit 114 acquires a unique name rule from the unique name rule database 110. If it can be acquired, the process proceeds to step S602. If it cannot be acquired, the process ends.

(ステップS602)固有名称取得部114は、カウンターmに1を代入する。   (Step S602) The unique name acquisition unit 114 substitutes 1 for the counter m.

(ステップS603)固有名称取得部114は、ステップS601で取得した固有名称ルールにm番目の固有名称ルールがあるか否かを判断する。ある場合は、ステップS604に進み、ない場合は、終了する。   (Step S603) The unique name acquisition unit 114 determines whether or not there is an mth unique name rule in the unique name rule acquired in step S601. If there is, the process proceeds to step S604, and if not, the process ends.

(ステップS604)固有名称取得部114は、Webサーバ装置からWebページを取得する。なお、このとき取得するWebページは、固有名称ルールデータベース110から商品の固有名称を含む文章を取得する固有名称ルールを用いて、予め取得した商品の固有名称が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS605へ進み、取得できなかった場合はステップS610に進む。   (Step S604) The unique name acquisition unit 114 acquires a Web page from the Web server device. The Web page acquired at this time is a Web page that may include the unique name of the product acquired in advance using the unique name rule for acquiring the sentence including the unique name of the product from the unique name rule database 110. There may be, and you may acquire in large quantities at random. If the Web page can be acquired, the process proceeds to step S605. If the Web page cannot be acquired, the process proceeds to step S610.

(ステップS605)固有名称取得部114は、カウンターnに1を代入する。   (Step S605) The unique name acquisition unit 114 substitutes 1 for the counter n.

(ステップS606)固有名称取得部114は、ステップS604で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS607に進み、ない場合は、ステップS610に進む。   (Step S606) The unique name acquisition unit 114 determines whether or not the Web page acquired in Step S604 includes the nth Web page. If there is, the process proceeds to step S607, and if not, the process proceeds to step S610.

(ステップS607)固有名称取得部114は、ステップS604で取得したWebページのn番目のWebページに対し、ステップS601で取得した固有名称ルールのm番目の固有名称ルールを用いて商品の固有名称を取得する。取得できた場合は、ステップS608へ進み、取得できなかった場合は、ステップS609に進む。   (Step S607) The unique name acquisition unit 114 uses the mth unique name rule of the unique name rule acquired in step S601 for the nth Web page of the Web page acquired in step S604. get. If it can be acquired, the process proceeds to step S608. If it cannot be acquired, the process proceeds to step S609.

(ステップS608)固有名称取得部114は、ステップS607で取得した商品の固有名称を固有名称データベース103に格納する。   (Step S608) The unique name acquisition unit 114 stores the unique name of the product acquired in step S607 in the unique name database 103.

(ステップS609)固有名称取得部114は、カウンターnを1インクリメントする。そして、ステップS606に戻る。   (Step S609) The unique name acquisition unit 114 increments the counter n by 1. Then, the process returns to step S606.

(ステップS610)固有名称取得部114は、カウンターmを1インクリメントする。そしてステップS603に戻る。   (Step S610) The unique name acquisition unit 114 increments the counter m by 1. Then, the process returns to step S603.

以下、本実施の形態における固有名称取得部114の具体的な動作について説明する。なお、この具体例において示した固有名称取得部114の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the unique name acquisition unit 114 in the present embodiment will be described. Note that the acquisition result of the unique name acquisition unit 114 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

固有名称取得部114は、固有名称ルールデータベース110から商品の固有名称を取得するためのすべてのルールを取得する。固有名称取得部114は、固有名称ルールデータベース110が、固有名称ルールが抽出する対象に関するデータを保持していた場合、「商品の固有名称」が対象の固有名称ルールだけを取得する。また、固有名称取得部114は、固有名称ルールデータベース110が、固有名称ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた固有名称ルールだけを取得しても良い。今回の具体例では、固有名称ルールを5種類取得したとする。   The unique name acquisition unit 114 acquires all the rules for acquiring the unique name of the product from the unique name rule database 110. When the unique name rule database 110 holds data related to the object extracted by the unique name rule, the unique name acquisition unit 114 acquires only the unique name rule whose target is “product unique name”. In addition, the unique name acquisition unit 114 may acquire only unique name rules exceeding an arbitrary threshold when the unique name rule database 110 holds values such as the number of acquisitions of unique name rules and the acquisition ratio. good. In this specific example, it is assumed that five types of unique name rules have been acquired.

図10は、固有名称ルールデータベース110に格納されているデータの一例を示す図である。固有名称ルールデータベース110は、商品の固有名称を取得するパターンを有している。ここでは、具体例として、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する固有名称ルールを列挙した。   FIG. 10 is a diagram illustrating an example of data stored in the unique name rule database 110. The unique name rule database 110 has a pattern for acquiring a unique name of a product. Here, as a specific example, specific name rules for acquiring a noun phrase corresponding to a portion described as “% proper name%” as a specific name of a product are listed.

固有名称取得部114は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。   The unique name acquisition unit 114 acquires a Web page. In this specific example, it is assumed that 100 types of Web pages are acquired at random.

固有名称取得部114は、取得したすべての固有名称ルールを用いて、取得したすべてのWebページから商品の固有名称を取得する。今回の場合では、固有名称取得部114は、固有名称ルールが5種類、Webページが100種類なので500回商品の固有名称を取得する処理を行う。具体的には、固有名称取得部114は、固有名称ルールが「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」の場合、取得したWebページに「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”sc.html”>サンプルカメラ</li><li><a href=”sc2.html”>サンプルカメラ2</li></ul>・・・(省略)・・・」と記載されていれば、「サンプルカメラ」「サンプルカメラ2」を取得する。しかし、固有名称取得部114は、パターンに対応する内容が記載されていなければ何も取得しない。   The unique name acquisition unit 114 acquires the unique name of the product from all the acquired web pages using all the acquired unique name rules. In this case, the unique name acquisition unit 114 performs processing for acquiring the unique name of the product 500 times because there are five types of unique name rules and 100 types of Web pages. Specifically, the unique name acquisition unit 114 has a unique name rule of “<title> product list </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul> ”,“ <title> product list </ title>... ( Omitted) ... <span> list </ span> <ul> <li> <a href = ”sc. html "> sample camera </ li> <li> <a href =" sc2. If “html”> sample camera 2 </ li> </ ul>... (omitted)..., “sample camera” and “sample camera 2” are acquired. However, the unique name acquisition unit 114 acquires nothing unless the content corresponding to the pattern is described.

固有名称取得部114は、商品の固有名称が取得できた場合は、固有名称データベースに登録する。今回の場合では、固有名称取得部114は、「サンプルカメラ」と「サンプルカメラ2」を登録する。なお、固有名称ルールデータベース110が固有名称ルールの取得回数や取得割合等の値を保持していた場合、固有名称取得部114は、その値と一緒に固有名称データベース103に登録しても良く、取得した情報の周辺である「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”sc.html”>サンプルカメラ</li><li><a href=”sc2.html”>サンプルカメラ2</li></ul>・・・(省略)・・・」も一緒に登録しても良い。   When the unique name of the product can be acquired, the unique name acquisition unit 114 registers it in the unique name database. In this case, the unique name acquisition unit 114 registers “sample camera” and “sample camera 2”. If the unique name rule database 110 holds values such as the number of acquisitions of the unique name rule and the acquisition ratio, the unique name acquisition unit 114 may register the unique name rule together with the values in the proper name database 103. “<Title> product list </ title>... (Omitted)... <Span> list </ span> <ul> <li> <a href =” sc. html "> sample camera </ li> <li> <a href =" sc2. html "> sample camera 2 </ li> </ ul> ... (omitted) ..." may be registered together.

以上、本実施の形態によれば、任意のWebページから商品の固有名称を取得できる。   As described above, according to the present embodiment, a unique name of a product can be acquired from an arbitrary Web page.

図11は、本実施の形態にかかる知識獲得部115の動作の一例を示すフローチャートである。以下、図11を用いて動作について説明する。   FIG. 11 is a flowchart showing an example of the operation of the knowledge acquisition unit 115 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS701)知識獲得部115は、知識増殖ルールデータベース111から知識増殖ルールを取得する。取得できた場合、ステップS702に進み、取得できなかった場合、終了する。   (Step S <b> 701) The knowledge acquisition unit 115 acquires a knowledge proliferation rule from the knowledge proliferation rule database 111. If it can be acquired, the process proceeds to step S702. If it cannot be acquired, the process ends.

(ステップS702)知識獲得部115は、カウンターmに1を代入する。   (Step S702) The knowledge acquisition unit 115 substitutes 1 for a counter m.

(ステップS703)知識獲得部115は、ステップS701で取得した知識増殖ルールにm番目の知識増殖ルールがあるか否かを判断する。ある場合は、ステップS704に進み、ない場合は、終了する。   (Step S703) The knowledge acquisition unit 115 determines whether or not the knowledge multiplication rule acquired in step S701 includes the mth knowledge multiplication rule. If there is, the process proceeds to step S704, and if not, the process ends.

(ステップS704)知識獲得部115は、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールが用いるために使用する情報を各データベースからすべて取得する。知識増殖ルールが用いるために使用する情報とは、具体的には、第一から第三知識増殖ルールの場合は会社データベース101から会社名を取得し、第四から第六知識増殖ルールの場合は商品データベース102から商品名を取得し、第七から第九知識増殖ルールの場合は固有名称データベース103から商品の固有名称を取得し、第十知識増殖ルールの場合は会社商品データベース104から会社名と商品名を取得し、第十一知識増殖ルールの場合は会社固有名称データベース105から会社名と商品の固有名称を取得し、第十二知識増殖ルールの場合は商品固有名称データベース106から商品名と商品の固有名称を取得する。   (Step S704) The knowledge acquisition unit 115 acquires all information used for the m-th knowledge proliferation rule of the knowledge proliferation rule acquired in step S701 from each database. Specifically, the information used for the knowledge proliferation rule is obtained by acquiring the company name from the company database 101 in the case of the first to third knowledge proliferation rules, and in the case of the fourth to sixth knowledge proliferation rules. The product name is acquired from the product database 102, the unique name of the product is acquired from the unique name database 103 in the case of the seventh to ninth knowledge proliferation rules, and the company name and the company name are acquired from the company product database 104 in the case of the tenth knowledge proliferation rule. The product name is acquired. In the case of the eleventh knowledge proliferation rule, the company name and the product unique name are acquired from the company unique name database 105. In the case of the twelfth knowledge proliferation rule, the product name and the product name are acquired from the product unique name database 106. Get the unique name of the product.

(ステップS705)知識獲得部115は、カウンターnに1を代入する。   (Step S705) The knowledge acquisition unit 115 substitutes 1 for a counter n.

(ステップS706)知識獲得部115は、ステップS704で取得した知識増殖ルールが用いるために使用する情報にn番目の情報があるか否かを判断する。ある場合は、ステップS707へ進み、ない場合はステップS713へ進む。   (Step S706) The knowledge acquisition unit 115 determines whether there is n-th information in the information used for the knowledge proliferation rule acquired in step S704. If there is, the process proceeds to step S707, and if not, the process proceeds to step S713.

(ステップS707)知識獲得部115は、Webサーバ装置からWebページを取得する。なお、この時取得するWebページは、ステップS704で取得した知識増殖ルールが用いるために使用する情報のうちn番目の情報を含んだWebページを取得する。Webページを取得できた場合は、ステップS708へ進み、取得できなかった場合はステップS714に進む。   (Step S707) The knowledge acquisition unit 115 acquires a Web page from the Web server device. The Web page acquired at this time acquires a Web page including the nth information among the information used for the knowledge proliferation rule acquired in step S704. If the Web page can be acquired, the process proceeds to step S708. If the Web page cannot be acquired, the process proceeds to step S714.

(ステップS708)知識獲得部115は、カウンターoに1を代入する。   (Step S708) The knowledge acquisition unit 115 assigns 1 to the counter o.

(ステップS709)知識獲得部115は、ステップS707で取得したWebページにo番目のWebページがあるか否かを判断する。ある場合は、ステップS710に進み、ない場合は、ステップS714に進む。   (Step S709) The knowledge acquisition unit 115 determines whether or not the web page acquired in step S707 includes the o-th web page. If there is, the process proceeds to step S710, and if not, the process proceeds to step S714.

(ステップS710)知識獲得部115は、ステップS707で取得したWebページのo番目のWebページに対し、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールを用いて会社名、または商品名、または商品の固有名称を取得する。取得できた場合は、ステップS711へ進み、取得できなかった場合は、ステップS712に進む。   (Step S710) The knowledge acquisition unit 115 uses the m-th knowledge proliferation rule of the knowledge proliferation rule acquired in Step S701 for the o-th Web page of the Web page acquired in Step S707. , Or get the unique name of the product. If it can be acquired, the process proceeds to step S711. If it cannot be acquired, the process proceeds to step S712.

(ステップS711)知識獲得部115は、ステップS710で取得した会社名、または商品名、または商品の固有名称を対応するデータベースに蓄積する。   (Step S711) The knowledge acquisition unit 115 accumulates the company name, the product name, or the unique name of the product acquired in Step S710 in the corresponding database.

(ステップS712)知識獲得部115は、カウンターoを1インクリメントする。そして、ステップS709に戻る。   (Step S712) The knowledge acquisition unit 115 increments the counter o by 1. Then, the process returns to step S709.

(ステップS713)知識獲得部115は、カウンターmを1インクリメントする。そして、ステップS703に戻る。   (Step S713) The knowledge acquisition unit 115 increments the counter m by 1. Then, the process returns to step S703.

(ステップS714)知識獲得部115は、カウンターnを1インクリメントする。そして、ステップS706に戻る。   (Step S714) The knowledge acquisition unit 115 increments the counter n by 1. Then, the process returns to step S706.

以下、本実施の形態における知識獲得部115の具体的な動作について説明する。なお、この具体例において示した知識獲得部115の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the knowledge acquisition unit 115 in the present embodiment will be described. Note that the acquisition result of the knowledge acquisition unit 115 shown in this specific example is prepared for convenience of explanation, and does not indicate actual data.

知識獲得部115は、知識増殖ルールデータベース111から会社名、または商品名、または商品の固有名称を取得するためのすべてのルールを取得する。知識獲得部115は、知識増殖ルールデータベース111に、知識増殖ルールが抽出する対象に関するデータを保持していた場合、「名称」が対象の知識増殖ルールだけを取得する。なお、知識獲得部115は、知識増殖ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた知識増殖ルールだけを取得しても良い。今回の具体例では、知識増殖ルールを5種類取得したとする。   The knowledge acquisition unit 115 acquires all rules for acquiring a company name, a product name, or a unique name of a product from the knowledge multiplication rule database 111. The knowledge acquisition unit 115 acquires only the knowledge proliferation rule whose “name” is the object when the knowledge proliferation rule database 111 holds data related to the object extracted by the knowledge proliferation rule. Note that the knowledge acquisition unit 115 may acquire only knowledge proliferation rules that exceed an arbitrary threshold value when values such as the number of acquisitions and the acquisition ratio of knowledge proliferation rules are held. In this specific example, it is assumed that five types of knowledge proliferation rules have been acquired.

図12は知識増殖ルールデータベース111に格納されているデータの一例を示す図である。知識増殖ルールデータベース111は、会社名、または商品名、または商品の固有名称を取得するパターンを有している。本具体例の知識増殖ルールは、「%会社名%」と記載されている部分に該当する名詞句を会社名、同様に「%商品名%」と記載されている部分に該当する名詞句を商品名、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する知識増殖ルールである。なお、今回の具体例では、知識増殖ルールの種類ごとにデータベースを作成するのではなく、知識増殖データベースに知識増殖ルールの種類を保持させた。   FIG. 12 is a diagram showing an example of data stored in the knowledge growth rule database 111. The knowledge proliferation rule database 111 has a pattern for acquiring a company name, a product name, or a unique name of a product. The knowledge proliferation rule in this specific example is that the noun phrase corresponding to the part described as “% company name%” is the noun phrase corresponding to the part described as “% product name%”. This is a knowledge multiplication rule for acquiring a noun phrase corresponding to the part described as the product name “% proper name%” as the product proper name. In this specific example, instead of creating a database for each type of knowledge proliferation rule, the knowledge proliferation rule type is held in the knowledge proliferation database.

知識獲得部115は、取得した知識増殖ルールが用いるための情報を取得する。例えば、知識獲得部115は、第一知識増殖ルールを取得した場合、会社データベース101に記載されている会社名をすべて取得する。なお、知識獲得部115は、会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。   The knowledge acquisition unit 115 acquires information to be used by the acquired knowledge proliferation rule. For example, when acquiring the first knowledge proliferation rule, the knowledge acquisition unit 115 acquires all the company names described in the company database 101. Note that the knowledge acquisition unit 115 may not acquire a company name equal to or less than an arbitrary threshold when the company database 101 holds values such as the number of acquisitions and the acquisition ratio of the company name. In this specific example, it is assumed that ten types of company names have been acquired.

知識獲得部115は、Webページを取得する。Webページは、例えば今回の具体例では、知識獲得部115は、取得した会社名一つに対して100種類ずつ取得したとする。   The knowledge acquisition unit 115 acquires a web page. For example, in this specific example, it is assumed that the knowledge acquisition unit 115 acquires 100 types of Web pages for each acquired company name.

知識獲得部115は、取得したすべての知識増殖ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、知識獲得部115は、知識増殖ルールが5種類、知識増殖ルールが用いる情報が10種類、Webページが100種類なので5000回会社名、商品名、商品の固有名称のうち、1または2種類の情報の取得を行う。
具体的には、知識獲得部115は、知識増殖ルールが「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」で第一の知識増殖ルールであり、用いる情報が「サンプル工業」であった場合、取得したWebページに「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”scr.html”>ネジ</a></li><li><a href=”driv.html”>ドライバー</a></li></ul>・・・(省略)・・・」と記載されていれば、「ネジ」「ドライバー」の部分を取得する。知識獲得部115は、パターンに対応する内容が記載されていなければ何も取得しない。
The knowledge acquisition unit 115 acquires company names from all acquired Web pages using all acquired knowledge proliferation rules. In this case, the knowledge acquisition unit 115 has 5 types of knowledge proliferation rules, 10 types of information used by the knowledge proliferation rules, and 100 types of Web pages, so 1 of 5000 unique company names, product names, and product unique names. Or two types of information are acquired.
Specifically, the knowledge acquisition unit 115 sets the knowledge multiplication rule to “<title>% company name% (handling)? Merchandise </ title>. *? <Span. *?> List </ span><ul.*?>(<Li.*?><A.*?>% Product name% </a></li>) + </ ul> ”is the first knowledge proliferation rule, and the information used is“ sample In the case of “Industry”, “<title> Sample Industry Products </ title> ... (omitted) ... <span> list </ span><ul><li><a href = "Scr. html ”> screw </a></li><li><a href =“ driv. If “html”> driver </a></li></ul>... (omitted)..., “screw” and “driver” are acquired. The knowledge acquisition unit 115 acquires nothing unless the content corresponding to the pattern is described.

知識獲得部115は、新たな情報が取得できた場合は、対応する各データベースに登録する。今回の場合では、知識獲得部115は、「ネジ」と「ドライバー」を商品データベース102、「サンプル工業」と「ネジ」、「サンプル工業」と「ドライバー」を会社商品データベース104に登録する。なお、知識獲得部115は、知識増殖ルールデータベース111が知識増殖ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”scr.html”>ネジ</a></li><li><a href=”driv.html”>ドライバー</a></li></ul>・・・(省略)・・・」も一緒に登録しても良い。なお、知識獲得部115は、取得した全ての知識増殖ルールに対して上記処理を行う。   When new information can be acquired, the knowledge acquisition unit 115 registers it in each corresponding database. In this case, the knowledge acquisition unit 115 registers “screw” and “driver” in the product database 102, “sample industry” and “screw”, and “sample industry” and “driver” in the company product database 104. The knowledge acquisition unit 115 may register the knowledge proliferation rule database 111 together with the values when the knowledge proliferation rule database 111 holds values such as the number of acquisitions and the acquisition ratio of the knowledge proliferation rules. There are certain “<title> sample industry products </ title>... (Omitted)... <Span> list </ span> <ul> <li> <a href =” scr. html ”> screw </a> </ li> <li> <a href =“ driv. html ”> driver </a> </ li> </ ul>... (omitted)... Note that the knowledge acquisition unit 115 performs the above processing on all acquired knowledge proliferation rules.

以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得できる。   As described above, according to the present embodiment, a company name, a product name, or a unique name of a product can be acquired from an arbitrary Web page.

図13と図14は、本実施の形態にかかるルール学習部116の動作の一例を示すフローチャートである。以下、図13と図14を用いて動作について説明する。   13 and 14 are flowcharts illustrating an example of the operation of the rule learning unit 116 according to the present embodiment. The operation will be described below with reference to FIGS.

(ステップS801)ルール学習部116は、カウンターmに0を代入する。   (Step S801) The rule learning unit 116 substitutes 0 for the counter m.

(ステップS802)ルール学習部116は、カウンターmを1インクリメントする。   (Step S802) The rule learning unit 116 increments the counter m by 1.

(ステップS803)ルール学習部116は、カウンターmの値によって処理を分岐する。mの値が1の時はステップS804に進み、mの値が2の時はステップS805に進み、mの値が3の時はステップS806に進み、mの値が4の時はステップS807に進み、mの値が5の時はステップS810に進み、mの値が6の時はステップS813に進み、mの値が7の時はステップS816に進み、mの値が8の場合は終了する。   (Step S803) The rule learning unit 116 branches the process depending on the value of the counter m. When the value of m is 1, the process proceeds to step S804. When the value of m is 2, the process proceeds to step S805. When the value of m is 3, the process proceeds to step S806. When the value of m is 4, the process proceeds to step S807. Proceed to step S810 when the value of m is 5, proceed to step S813 when the value of m is 6, proceed to step S816 when the value of m is 7, and end when the value of m is 8 To do.

(ステップS804)ルール学習部116は、変数oに「会社データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S804) The rule learning unit 116 substitutes “company database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS805)ルール学習部116は、変数oに「商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S805) The rule learning unit 116 substitutes “product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS806)ルール学習部116は、変数oに「固有名称データベース」、変数dに「商品の固有名称」を代入する。そして、ステップS823へ進む。   (Step S806) The rule learning unit 116 substitutes “unique name database” for the variable o and “unique name of the product” for the variable d. Then, the process proceeds to step S823.

(ステップS807)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S807) The rule learning unit 116 substitutes “company product database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS808)ルール学習部116は、変数oに「会社商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S808) The rule learning unit 116 substitutes “company product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS809)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。   (Step S809) The rule learning unit 116 substitutes “company product database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.

(ステップS810)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S810) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS811)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。   (Step S811) The rule learning unit 116 substitutes “company unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS812)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S812) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS813)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S813) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS814)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。   (Step S814) The rule learning unit 116 substitutes “product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS815)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S815) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS816)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。   (Step S816) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.

(ステップS817)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。   (Step S817) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.

(ステップS818)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。   (Step S818) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS819)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。   (Step S819) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.

(ステップS820)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S820) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS821)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S821) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS822)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名・固有名称」を代入する。そして、ステップS823へ進む。   (Step S822) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name / unique name” for the variable d. Then, the process proceeds to step S823.

(ステップS823)ルール学習部116は、変数oに格納されているデータベースから、変数dに格納されている情報に関する情報を取得する。例えば、変数oに「会社データベース」変数dに「会社名」が格納されている場合、ルール学習部116は、会社データベース101から会社名をすべて取得する。また、ルール学習部116は、変数dに格納されている情報が「会社名・商品名」など、「・」で区切って二種類の情報が登録されていた場合、「・」の前後で文字列を分割し、前と後ろの両方の情報の組を取得する。「会社名・商品名」の場合は、ルール学習部116は、「会社名」と「商品名」の組を取得する。取得できた場合は、ステップS824へ進み、取得できなかった場合は829に進む。   (Step S823) The rule learning unit 116 acquires information related to information stored in the variable d from the database stored in the variable o. For example, when “company database” is stored in the variable o and “company name” is stored in the variable d, the rule learning unit 116 acquires all the company names from the company database 101. In addition, the rule learning unit 116, when the information stored in the variable d is registered with two types of information separated by “·”, such as “company name / product name”, before and after “·” Split the column and get both front and back information pairs. In the case of “company name / product name”, the rule learning unit 116 acquires a set of “company name” and “product name”. If it can be acquired, the process proceeds to step S824, and if it cannot be acquired, the process proceeds to 829.

(ステップS824)ルール学習部116は、カウンターhに1を代入する。   (Step S824) The rule learning unit 116 substitutes 1 for the counter h.

(ステップS825)ルール学習部116は、ステップS823で取得したoから取得したdに関する情報にh番目の情報があるか否かを判断する。ある場合は、ステップS826に進み、ない場合は、ステップS830に進む。   (Step S825) The rule learning unit 116 determines whether or not there is h-th information in the information regarding d acquired from o acquired in step S823. If there is, the process proceeds to step S826, and if not, the process proceeds to step S830.

(ステップS826)ルール学習部116は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS823で取得したoから取得したdに関するh番目の情報を含んだWebページを取得する。Webページを取得できた場合はステップS827へ進み、取得できなかった場合はステップS829へ進む。   (Step S826) The rule learning unit 116 acquires a Web page from the Web server device. The Web page acquired at this time acquires a Web page including the h-th information regarding d acquired from o acquired in step S823. If the Web page can be acquired, the process proceeds to step S827. If the Web page cannot be acquired, the process proceeds to step S829.

(ステップS827)ルール学習部116は、ステップS826で取得したWebページから、ステップS823で取得したoから取得したdに関するh番目の情報の文字列を情報の内容がわかる文字列に置換する。例えば、ルール学習部116は、会社名の部分を「%会社名%」に置換する。   (Step S827) The rule learning unit 116 replaces the character string of the h-th information related to d acquired from o acquired in Step S823 from the Web page acquired in Step S826 with a character string that understands the content of the information. For example, the rule learning unit 116 replaces the company name portion with “% company name%”.

(ステップS828)ルール学習部116は、ステップS827で置換したWebページを、例えば、図示しないメモリなどの記憶媒体に一時記憶する。   (Step S828) The rule learning unit 116 temporarily stores the Web page replaced in Step S827 in a storage medium such as a memory (not shown).

(ステップS829)ルール学習部116は、カウンターhを1インクリメントする。   (Step S829) The rule learning unit 116 increments the counter h by 1.

(ステップS830)ルール学習部116は、ステップS828で記憶したすべてのWebページからパターンを取得する。パターンを取得できた場合は、ステップS831へ進み、取得できなかった場合はステップS833へ進む。   (Step S830) The rule learning unit 116 acquires patterns from all the Web pages stored in Step S828. If the pattern can be acquired, the process proceeds to step S831, and if the pattern cannot be acquired, the process proceeds to step S833.

(ステップS831)ルール学習部116は、ステップS830で取得したパターンから5回以上抽出したパターンを選別し取得する。パターンを取得できた場合は、ステップS832へ進み、取得できなかった場合はステップS833へ進む。   (Step S831) The rule learning unit 116 selects and acquires patterns extracted five or more times from the patterns acquired in Step S830. If the pattern can be acquired, the process proceeds to step S832, and if the pattern cannot be acquired, the process proceeds to step S833.

(ステップS832)ルール学習部116は、ステップS831で取得したパターンを変数dに格納されている情報に対応するルールデータベースに格納する。具体的には、ルール学習部116は、dの値が「会社名」であれば「会社ルールデータベース」、「商品名」であれば「商品ルールデータベース」、「固有名称」であれば「固有名称ルールデータベース」、「会社名・商品名」「会社名・固有名称」「商品名・固有名称」であれば「知識増殖ルールデータベース」に格納する。   (Step S832) The rule learning unit 116 stores the pattern acquired in step S831 in the rule database corresponding to the information stored in the variable d. Specifically, the rule learning unit 116 is “company rule database” if the value of “d” is “company name”, “product rule database” if “d” is “product name”, and “unique” if it is “unique name”. If “name rule database”, “company name / product name”, “company name / unique name”, “product name / unique name” are stored in the “knowledge proliferation rule database”.

(ステップS833)ルール学習部116は、ステップS823へ進む前に実行していた処理の次の処理進む。   (Step S833) The rule learning unit 116 proceeds to a process next to the process executed before proceeding to step S823.

以下、本実施の形態におけるルール学習部116の具体的な動作について説明する。なお、この具体例において示したルール学習部116の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the rule learning unit 116 in the present embodiment will be described. Note that the acquisition result of the rule learning unit 116 shown in this specific example is prepared for convenience of explanation, and does not indicate actual data.

ルール学習部116は、会社データベース101と商品データベース102と固有名称データベース103と会社商品データベース104と会社固有名称データベース105と商品固有名称データベース106と会社商品固有名称データベース107から、会社名、または商品名、または商品の固有名称、またはこれらの組み合わせを可能な限り取得し、取得した情報が記載されたWebページから、各データベースから取得した情報を抽出するためのパターンを取得する。   The rule learning unit 116 selects the company name or the product name from the company database 101, the product database 102, the unique name database 103, the company product database 104, the company unique name database 105, the product unique name database 106, and the company product unique name database 107. Or a unique name of a product or a combination thereof is acquired as much as possible, and a pattern for extracting information acquired from each database is acquired from a Web page on which the acquired information is described.

今回は具体例として、ルール学習部116が、会社データベース101から会社名を取得し会社ルールデータベース108に格納されるルールを学習する場合について述べる。上記以外のルールを学習する場合については、適宜読み替えるものとする。   As a specific example, a case where the rule learning unit 116 acquires a company name from the company database 101 and learns a rule stored in the company rule database 108 will be described. When learning rules other than those described above, the rules shall be read as appropriate.

まず、ルール学習部116は、会社データベース101から会社名をすべて取得する。なお、ルール学習部116は、会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、ルール学習部116は、会社名を10種類取得したとする。   First, the rule learning unit 116 acquires all company names from the company database 101. Note that the rule learning unit 116 may not acquire a company name equal to or less than an arbitrary threshold when the company database 101 holds values such as the number of acquisitions and the acquisition ratio of the company name. In this specific example, it is assumed that the rule learning unit 116 has acquired 10 types of company names.

ルール学習部116は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。   The rule learning unit 116 acquires a web page. For example, in this specific example, assume that 100 types of Web pages are acquired for each acquired company name.

ルール学習部116は、取得したWebページから、取得するために用いた会社名を「%会社名%」に置換する。今回は、例えば、ルール学習部116は、「サンプル商事」を用いて「<table><tbody><tr><td>社名</td><td>サンプル商事株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」の文章を取得した場合は「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」とする。   The rule learning unit 116 replaces the company name used for acquisition with “% company name%” from the acquired Web page. In this case, for example, the rule learning unit 116 uses “sample trading” to read “<table> <tbody> <tr> <td> company name </ td> <td> sample trading corporation </ td> </ tr > <Tr> <td> Capital </ td> <td> 10,000,000 Yen </ td> </ tr> <text> <table> <tbody> <tr> <td > Company name </ td> <td>% Company name% Inc. </ td> </ tr> <tr> <td> Capital </ td> <td> 10,000,000 Yen </ td> <// tr> ”.

ルール学習部116は、取得したWebページからパターンを取得する。ルール学習部116は、取得したWebページから2以上のWebページを取り出し、取得するために用いた「%会社名%」を含む最長共通部分列を取得する。最長共通部分の取得は、取得したWebページから2つを選ぶすべての組み合わせで行う。ルール学習部116は、例えば「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」と「<table><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>設立</td><td>1950年1月1日</td></tr>」の二つの文章を記載されているWebページがあった場合、「%会社名%」を保持した最も長い文字列である「<tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>」をパターンとして取得する。今回の場合では、ルール学習部116は、会社名が10種類、Webページが会社名に対して100種類なので49500回パターンの取得を行う。なお、ルール学習部116は、パターンの取得対象はHTMLのタグを含まない文章でも良く、また最長共通部分列以外の方法であっても良く、2つ以上のWebページの組み合わせからパターンを取得しても良い。   The rule learning unit 116 acquires a pattern from the acquired web page. The rule learning unit 116 extracts two or more Web pages from the acquired Web pages, and acquires the longest common subsequence including “% company name%” used for acquisition. Acquisition of the longest common portion is performed by all combinations of selecting two from the acquired Web pages. The rule learning unit 116, for example, “<table> <tbody> <tr> <td> company name </ td> <td>% company name% corporation </ td> </ tr> <tr> <td> capital </ Td> <td> 10,000,000 Yen </ td> </ tr> ”and“ <table> <tr> <td> Company name </ td> <td>% Company name% Inc. </ Td ” > </ Tr> <tr> <td> founded </ td> <td> January 1, 1950 </ td> </ tr> ” “<Tr> <td> company name </ td> <td>% company name% Inc. </ Td> </ tr> <tr> <td> which is the longest character string holding“% company name% ” "As a pattern. In this case, the rule learning unit 116 acquires the pattern 49500 times because there are 10 types of company names and 100 types of Web pages for the company name. Note that the rule learning unit 116 may acquire a pattern from a combination of two or more Web pages, and the pattern acquisition target may be a sentence that does not include an HTML tag, or may be a method other than the longest common subsequence. May be.

ルール学習部116は、取得したパターンからよく使われているパターンのみを知識増殖データベースに登録する。また、ルール学習部116は、一定以上の頻度、例えば5回以上出現するパターンを知識増殖ルールデータベース111に登録する。   The rule learning unit 116 registers only frequently used patterns from the acquired patterns in the knowledge multiplication database. Further, the rule learning unit 116 registers a pattern that appears at a certain frequency, for example, five times or more, in the knowledge proliferation rule database 111.

以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得するパターンを取得できる。   As described above, according to the present embodiment, it is possible to acquire a pattern for acquiring a company name, a product name, or a unique name of a product from an arbitrary Web page.

図15は、本実施の形態にかかる会社類似群コード固有名称データベース構築部23の動作の一例を示すフローチャートである。以下、図15を用いて動作について説明する。   FIG. 15 is a flowchart showing an example of the operation of the company similar group code unique name database construction unit 23 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS901)会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から会社名と商品名と商品の固有名称の情報を取得する。取得できた場合はステップS902へ進み、取得できなかった場合は終了する。   (Step S <b> 901) The company similar group code unique name database construction unit 23 acquires information on the company name, product name, and product unique name from the company product unique name database 107. If it can be acquired, the process proceeds to step S902. If it cannot be acquired, the process ends.

(ステップS902)会社類似群コード固有名称データベース構築部23は、カウンターmに1を代入する。   (Step S902) The company similar group code unique name database construction unit 23 substitutes 1 for a counter m.

(ステップS903)会社類似群コード固有名称データベース構築部23は、ステップS901で取得した情報にm番目の情報があるか否かを判断する。あった場合はステップS904へ進み、なかった場合は終了する。   (Step S903) The company similar group code unique name database construction unit 23 determines whether or not the information acquired in step S901 includes the m-th information. If there is, the process proceeds to step S904, and if not, the process ends.

(ステップS904)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の商品名をキーにし、商品類似群コード対応データベース21から商品名に対応した類似群コードを取得する。   (Step S904) The company similar group code unique name database construction unit 23 acquires a similar group code corresponding to the product name from the product similar group code correspondence database 21 using the product name of the m-th information acquired in step S901 as a key. To do.

(ステップS905)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の会社名と、商品の固有名称と、ステップS904で取得した類似群コードを1レコードとして会社類似群コード固有名称データベース22に登録する。   (Step S905) The company similar group code unique name database construction unit 23 uses the m-th information company name acquired in step S901, the unique name of the product, and the similar group code acquired in step S904 as one record. Register in the group code unique name database 22.

(ステップS906)会社類似群コード固有名称データベース構築部23は、カウンターmを1インクリメントする。   (Step S906) The company similar group code unique name database construction unit 23 increments the counter m by 1.

以下、本実施の形態における会社類似群コード固有名称データベース構築部23の具体的な動作について説明する。なお、この具体例において示した会社類似群コード固有名称データベース構築部23の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。   Hereinafter, a specific operation of the company similar group code unique name database construction unit 23 in the present embodiment will be described. Note that the acquisition result of the company similar group code unique name database construction unit 23 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data.

会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107の商品名をキーにして、類似群コード対応データベースから類似群コードを取得し、会社類似群コード固有名称データベース22を構築する。   The company similar group code unique name database construction unit 23 acquires a similar group code from the similar group code correspondence database using the product name of the company product unique name database 107 as a key, and constructs the company similar group code unique name database 22. .

まず、会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から、会社名と商品名と商品の固有名称をすべて取得する。なお、会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107が取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名と商品名と商品の固有名称の組を10種類取得したとする。   First, the company similar group code unique name database construction unit 23 acquires all the company name, product name, and product unique name from the company product unique name database 107. In addition, the company similar group code unique name database construction unit 23 does not acquire a company name below an arbitrary threshold when the company product unique name database 107 holds values such as the number of acquisitions and the acquisition ratio. Also good. In this specific example, it is assumed that ten types of combinations of company name, product name, and product unique name have been acquired.

次に、会社類似群コード固有名称データベース構築部23は、商品類似群コード対応データベース21から各商品名に対応した類似群コードを取得する。具体的には、会社類似群コード固有名称データベース構築部23は、商品名の完全一致だけではなく、例えば「テレビ」と「TV」のような商品名が概念的に一致する類似群コードを取得しても良い。   Next, the company similar group code unique name database construction unit 23 acquires a similar group code corresponding to each product name from the product similar group code correspondence database 21. Specifically, the company similar group code unique name database construction unit 23 acquires not only a perfect match of product names but also a similar group code that conceptually matches product names such as “TV” and “TV”, for example. You may do it.

そして、会社類似群コード固有名称データベース構築部23は、取得した会社名と類似群コードと商品の固有名称の組を会社類似群コード固有名称データベース22に登録する。   Then, the company similar group code unique name database construction unit 23 registers the set of the acquired company name, similar group code, and product unique name in the company similar group code unique name database 22.

以上、本実施の形態によれば、会社商品固有名称データベース107と類似群コード対応データベースから商品名をキーにして、会社名と類似群コードと商品の固有名称を保持する会社類似群コード固有名称データベース22を構築できる。   As described above, according to the present embodiment, the company similar group code unique name that holds the company name, the similar group code, and the unique name of the product using the product name as a key from the company product unique name database 107 and the similar group code correspondence database. A database 22 can be constructed.

図16は、本実施の形態にかかる商標侵害検知装置3の動作の一例を示すフローチャートである。以下、図16を用いて動作について説明する。   FIG. 16 is a flowchart showing an example of the operation of the trademark infringement detection apparatus 3 according to the present embodiment. Hereinafter, the operation will be described with reference to FIG.

(ステップS1001)受付部32は、調査対象商標情報、具体的には商標文字列と商品名、または類似群コードとを受け付けたか否かを判断する。受け付けた場合、ステップS1002に進み、受け付けていない場合、ステップS1001に戻る。   (Step S1001) The receiving unit 32 determines whether or not the investigation target trademark information, specifically, the trademark character string and the product name or the similar group code has been received. If accepted, the process proceeds to step S1002, and if not accepted, the process returns to step S1001.

(ステップS1002)商標文字列取得部331は、調査対象商標情報から商標文字列を取得する。取得できた場合は、ステップS1003に進み、取得できなかった場合はステップS1017へ進む。   (Step S1002) The trademark character string acquisition unit 331 acquires a trademark character string from the investigation target trademark information. If it can be acquired, the process proceeds to step S1003. If it cannot be acquired, the process proceeds to step S1017.

(ステップS1003)称呼取得部332は、ステップS1002で取得した商標文字列を用いて、1以上の称呼情報を取得する。例えば、称呼取得部332は、商標文字列を形態素解析することや、商標文字列を構成する各文字の読みを、予め用意された文字の読みが格納された辞書などから読み出し、それらの組合せを取得することで、称呼情報を取得する。   (Step S1003) The name acquisition unit 332 acquires one or more pieces of name information using the trademark character string acquired in step S1002. For example, the name acquisition unit 332 performs morphological analysis on the trademark character string, reads each character constituting the trademark character string from a dictionary or the like in which a character reading prepared in advance is stored, and combines these combinations. By acquiring, name information is acquired.

(ステップS1004)称呼取得部332は、カウンターmに1を代入する。   (Step S1004) The name acquisition unit 332 substitutes 1 for the counter m.

(ステップS1005)称呼取得部332は、ステップS1003で取得した称呼情報にm番目の称呼情報があるか否かを判断する。ある場合、ステップS1006に進み、ない場合、ステップS1011に進む。   (Step S1005) The name acquisition unit 332 determines whether there is m-th name information in the name information acquired in step S1003. If there is, the process proceeds to step S1006, and if not, the process proceeds to step S1011.

(ステップS1006)称呼取得部332は、カウンターnに1を代入する。   (Step S1006) The name acquisition unit 332 substitutes 1 for the counter n.

(ステップS1007)称呼取得部332は、m番目の称呼情報にn番目の区切位置があるか否かを判断する。例えば、称呼情報の全ての文字の間を区切り位置に設定していく場合、n番目の区切り位置とは、例えば、称呼情報の先頭からn番目の文字と(n+1)番目の文字との間である。このため、称呼取得部332は、例えばm番目の称呼情報に、先頭から(n+1)番目の文字があるか否かを判断すればよい。n番目の区切位置がある場合、ステップS1008に進み、ない場合、ステップS1010に進む。なお、称呼取得部332は、称呼情報のうちの、商標文字列を構成する各文字の読みの間や、商標文字列を構成する形態素の読みの間を、区切り位置に設定して称呼情報を分割していくようにしても良い。例えば、称呼取得部332は、商標文字列「ABC」の各文字の読み「エー」と「ビー」と「シー」を組み合わせて称呼情報「エービーシー」が取得された場合、区切り位置に設定できる位置を、「エー」と「ビー」との間、及び「ビー」と「シー」の間としてもよい。   (Step S1007) The name acquisition unit 332 determines whether or not the m-th name information includes the n-th delimiter position. For example, when setting between all characters of the nominal information as the separation position, the nth separation position is, for example, between the nth character and the (n + 1) th character from the beginning of the nominal information. is there. For this reason, the name acquisition unit 332 may determine whether, for example, the mth name information includes the (n + 1) th character from the top. If there is an nth delimiter position, the process proceeds to step S1008, and if not, the process proceeds to step S1010. The name acquisition unit 332 sets the name information by setting the interval between reading of each character constituting the trademark character string or reading of the morpheme constituting the trademark character string in the name information. You may make it divide | segment. For example, when the nominal information “ABC” is acquired by combining the readings “A”, “B”, and “SE” of each character of the trademark character string “ABC”, the nominal acquisition unit 332 is a position that can be set as a separation position. May be between “A” and “B” and between “B” and “SE”.

(ステップS1008)称呼取得部332は、n番目の区切位置でm番目の称呼情報を区切って、その前後の文字列である分割称呼情報を取得する。なお、商標の称呼となり得ないような予め指定された文字が先頭に来る文字列は、分割称呼情報として取得しないことが好ましい。予め指定された文字は、例えば長音や、「ン」などである。取得した分割称呼情報は、図示しないメモリなどの記憶媒体に一時記憶する。既に他の分割称呼情報が記憶されている場合は、追記する。   (Step S1008) The name acquisition unit 332 divides the mth name information at the nth position, and acquires divided name information that is a character string before and after the mth name information. It should be noted that a character string preceded by a predesignated character that cannot be a trademark name is preferably not acquired as divided name information. The character designated in advance is, for example, a long sound or “n”. The acquired divided name information is temporarily stored in a storage medium such as a memory (not shown). If other divided name information is already stored, it is added.

(ステップS1009)称呼取得部332は、カウンターnを1インクリメントする。そして、ステップS1007に戻る。   (Step S1009) The name acquisition unit 332 increments the counter n by 1. Then, the process returns to step S1007.

(ステップS1010)称呼取得部332は、カウンターmを1インクリメントする。そして、ステップS1005に戻る。   (Step S1010) The name acquisition unit 332 increments the counter m by 1. Then, the process returns to step S1005.

(ステップS1011)称呼表示部333は、ステップS1003で取得した称呼情報と、ステップS1008で取得した分割称呼情報を表示する。なお、称呼表示部333は、ユーザに選択させず、特定のルールで称呼指定を選択する場合は、本ステップの表示、およびステップS1012の受付をスキップしても良い。   (Step S1011) The name display unit 333 displays the name information acquired in step S1003 and the divided name information acquired in step S1008. Note that the designation display unit 333 may skip the display of this step and the reception of step S1012 when selecting designation of designation by a specific rule without causing the user to select.

(ステップS1012)称呼指定受付部334は、称呼指定情報または分割称呼指定情報の少なくとも一方を指定する称呼指定情報を受け付けたか否かを判断する。受け付けた場合、称呼表示部333は、例えば、称呼指定情報で指定された称呼情報と割称呼情報とをメモリなどの記憶媒体に一時記憶して、ステップS212に進み、受け付けていない場合、ステップS1012に戻る。   (Step S1012) The designation designation receiving unit 334 determines whether designation designation information for designating at least one of designation designation information or divided designation designation information has been accepted. If accepted, the designation display unit 333 temporarily stores the designation information and designation call information specified by the designation designation information in a storage medium such as a memory, and proceeds to step S212. If not accepted, the designation display unit 333 proceeds to step S1012. Return to.

(ステップS1013)類似検索部335は、カウンターkに1を代入する。   (Step S1013) The similarity search unit 335 substitutes 1 for the counter k.

(ステップS1014)類似検索部335は、ステップS1012で受け付けた称呼指定情報によって指定された称呼情報と分割称呼情報とを合わせた中に、k番目の称呼情報または分割称呼情報があるか否かを判断する。ある場合、ステップS1015に進み、ない場合、ステップS1017に進む。   (Step S1014) The similarity search unit 335 determines whether there is k-th name information or divided name information in the combination of the name information and the divided name information specified by the name designation information received in Step S1012. to decide. If there is, the process proceeds to step S1015, and if not, the process proceeds to step S1017.

(ステップS1015)類似検索部335は、k番目の称呼情報または分割称呼情報を用いて、データベース31を検索し、類似検索を行う。そして、類似検索部335は、類似検索の結果を、図示しない記憶媒体などに蓄積する。類似検索の結果は、例えば、類似検索に用いられたk番目の称呼情報または分割称呼情報と、類似すると判断された称呼と、その称呼に対応付けられた会社名、および商品の固有名称とを含む情報である。   (Step S1015) The similarity search unit 335 searches the database 31 using the k-th name information or divided name information, and performs a similarity search. Then, the similarity search unit 335 accumulates the results of the similarity search in a storage medium (not shown). As a result of the similarity search, for example, k-th name information or divided name information used for the similarity search, a name determined to be similar, a company name associated with the name, and a unique name of the product It is information to include.

(ステップS1016)類似検索部335は、カウンターkを1インクリメントする。そして、ステップS1014に戻る。   (Step S1016) The similarity search unit 335 increments the counter k by 1. Then, the process returns to step S1014.

(ステップS1017)商品類否判断部34は、データベース31からステップS1001で取得した調査対象商標情報をもとに使用するデータベースを選択する。具体的には、商品類否判断部34は、調査対象商標情報に類似群コードが含まれていた場合は、会社類似群コード固有名称データベース22を選択し、商品名が含まれていた場合は会社商品固有名称データベース107を選択する。選択できた場合は、ステップS1018に進み、選択できなかった場合はステップS1019に進む。   (Step S1017) The merchandise type determination unit 34 selects a database to be used based on the survey target trademark information acquired in step S1001 from the database 31. Specifically, the merchandise inequality determination unit 34 selects the company similar group code unique name database 22 when the survey target trademark information includes the similar group code, and when the merchandise name is included. The company product unique name database 107 is selected. If it can be selected, the process proceeds to step S1018. If it cannot be selected, the process proceeds to step S1019.

(ステップS1018)商品類否判断部34は、ステップS1017のデータベース31からステップS1001で取得した調査対象商標情報の商品名、または類似群コードをキーにして商品の類否判断を行う。そして、商品類否判断部34は、類否判断の結果を、図示しない記憶媒体などに蓄積する。類否判断の結果は、例えば、類否判断に用いられた商品名、または類似群コードと、一致すると判断された商品名、または類似群コードと、その称呼に対応付けられた会社名と商品の固有名称とを含む情報である。   (Step S1018) The product type determination unit 34 determines the product type using the product name or similar group code of the investigation target trademark information acquired from the database 31 of step S1017 in step S1001 as a key. Then, the merchandise similarity determination unit 34 accumulates the result of similarity determination in a storage medium (not shown). The result of similarity determination is, for example, the product name or similar group code used for similarity determination, the product name or similar group code determined to match, and the company name and product associated with the designation. Information including the unique name.

(ステップS1019)商標侵害検知装置3は、ステップS1015で蓄積した類似検索結果と、ステップS1018で蓄積した情報から、商品の固有名称が共通する情報を取得する。   (Step S1019) The trademark infringement detection device 3 acquires information having a common product unique name from the similar search result accumulated in step S1015 and the information accumulated in step S1018.

(ステップS1020)出力部35は、ステップS1019で取得した情報を出力する。そして処理を終了する。   (Step S1020) The output unit 35 outputs the information acquired in step S1019. Then, the process ends.

以下、本実施の形態における商標侵害検知装置3の具体的な動作について説明する。なお、この具体例において示したデータは、説明のために便宜上用意されたものである   Hereinafter, a specific operation of the trademark infringement detection device 3 in the present embodiment will be described. The data shown in this specific example is prepared for the sake of explanation.

まず、ユーザが、中華そばの麺である「針金麺」について、侵害の可能性を判断したいと考えて、「針金麺」という商標文字列と、中華そばの麺の類似群コードである「32F03」を、商標侵害検知装置3にキーボードなどを操作して入力したとする。受付部32は、商標文字列「針金麺」を受け付ける。そして、商標文字列取得部331は、商標文字列を取得し、商品類否判断部34は、類似群コードを取得する。   First, the user wants to judge the possibility of infringement of “wire noodles” which are noodles of Chinese noodles, and therefore, the trademark character string “wire noodles” and a similar group code “32F03” of Chinese noodles of noodles. ”Is input to the trademark infringement detection device 3 by operating a keyboard or the like. The receiving unit 32 receives the trademark character string “wire noodle”. Then, the trademark character string acquisition unit 331 acquires a trademark character string, and the product category determination unit 34 acquires a similar group code.

称呼取得部332は、商標文字列取得部331が受け付けた商標文字列「針金麺」の称呼情報を取得する。ここでは、まず、商標文字列に対して形態素解析を行って形態素ごとの読みの情報を取得する。例えば、形態素解析によって「針金麺」は、2つの形態素「針金」と「麺」とに分けられ、形態素「針金」からは読みとして「ハリガネ」が、また、形態素「麺」からは読みとして「メン」が取得されたとする。それぞれの形態素には、1つの読みしか取得されないため、「針金麺」の称呼情報の一つとしてこれらの読みを単に結合した「ハリガネメン」を取得する。   The name acquisition unit 332 acquires the name information of the trademark character string “wire noodle” received by the trademark character string acquisition unit 331. Here, first, morphological analysis is performed on the trademark character string to obtain reading information for each morpheme. For example, “wire noodle” is divided into two morphemes “wire” and “noodle” by morpheme analysis. “Harigane” is read from the morpheme “wire”, and “noodle” is read from the morpheme “noodle”. “Men” is acquired. Since only one reading is acquired for each morpheme, “harnessing” obtained by simply combining these readings is acquired as one of the designation information of “wire noodles”.

さらに、称呼取得部332は、予め用意された漢字の読みが格納された辞書(図示せず)から、商標文字列「針金麺」の各文字の読みを取得する。例えば、「針」からは「ハリ」、「シン」という読みを取得したとする。また「金」からは、「キン」、「コガネ」、「コン」、「カネ」を取得したとする。また、「麺」からは「メン」を取得したとする。そして、称呼取得部332は、取得した文字の読みを、取得元となる文字の並びに沿って組み合わせることで称呼情報を取得する。例えば、称呼取得部332は、「ハリキンメン」、「ハリコガネメン」、「ハリコンメン」、「ハリカネメン」、「シンキンメン」、「シンコガネメン」などの称呼情報が取得する。なお、形態素解析で取得した称呼情報と一致するものは、削除する。   Furthermore, the name acquisition unit 332 acquires a reading of each character of the trademark character string “wire noodle” from a dictionary (not shown) in which kanji readings prepared in advance are stored. For example, it is assumed that readings “harness” and “shin” are acquired from “needle”. In addition, it is assumed that “Kin”, “Kogane”, “Kon”, and “Kane” are acquired from “Gold”. It is also assumed that “Men” is acquired from “Noodles”. Then, the name acquisition unit 332 acquires the name information by combining the acquired reading of the characters along the sequence of the characters as the acquisition source. For example, the designation acquisition unit 332 acquires designation information such as “Harikinmen”, “Harikomenmen”, “Harikonmen”, “Harikanmen”, “Shinkinmen”, “Cincoganmen”, and the like. Note that information that matches the name information acquired by morphological analysis is deleted.

次に、称呼取得部332は、上記で取得した各称呼情報を分割して分割称呼情報を取得する。例えば、称呼情報「ハリガネメン」については、まず、区分位置を1文字目の「ハ」と2文字目の「リ」の間に設定して称呼情報を分割することで、「ハ」という分割称呼情報と、「リガネメン」という分割称呼情報とを取得する。更に、称呼取得部332は、区分位置を2文字目の「リ」と3文字目の「ガ」の間に設定して称呼情報を分割することで、「ハリ」という分割称呼情報と、「ガネメン」という分割称呼情報とを取得する。同様にして、称呼取得部332は、「ハリガ」、「ネメン」、「ハリガネ」、「メン」、「ハリガネメ」を取得する。但し「ン」は、分割称呼情報としては取得しない。同様にして、称呼取得部332は、他の称呼情報についても分割称呼情報を取得する。なお、称呼取得部332は、取得した分割称呼情報において、重複するものは一つを除いて削除する。   Next, the name acquisition unit 332 acquires the divided name information by dividing the name information acquired above. For example, with respect to the designation information “Hariganemen”, first, by dividing the designation information by setting the division position between “Ha” of the first character and “Li” of the second character, the divided designation of “Ha” is given. Information and division name information “Rigane men” are acquired. Further, the name acquisition unit 332 divides the name information by setting the division position between “Li” of the second character and “Ga” of the third character, thereby dividing the divided name information of “Hari” and “ Divided name information “Ganemen” is acquired. Similarly, the name acquisition unit 332 acquires “hariga”, “nemen”, “harness”, “men”, and “harness”. However, “n” is not acquired as divided name information. Similarly, the name acquisition unit 332 acquires divided name information for other name information. Note that the name acquisition unit 332 deletes the acquired divided name information except for one duplicated name information.

そして、称呼表示部333は、取得した称呼情報と分割称呼情報とをモニタなどに出力する。   Then, the name display unit 333 outputs the acquired name information and divided name information to a monitor or the like.

図17は、称呼表示部333による、称呼情報と分割称呼情報との表示例を示す図である。なお、ここでは、称呼情報も分割称呼情報も、後述する類似検索においては特に区別せずに利用されるため、称呼情報と分割称呼情報とを特に区別せずに称呼として表示している。   FIG. 17 is a diagram showing a display example of the name information and the divided name information by the name display unit 333. In this case, the name information and the divided name information are used without distinction in the later-described similar search, and therefore, the name information and the divided name information are displayed as names without distinction.

次に、ユーザが、図17に示した称呼情報と分割称呼情報とのうちの、類似検索に利用したいと考えるものの横のチェックボックスにチェックを入れて、「指定完了」ボタン31を押したとする。例えば、「ハリガネメン」、「ハリガネ」、「ハリキンメン」の横のチェックボックスに図17に示すようにチェックをいれて「指定完了」ボタン31を押すと、称呼指定受付部334は、チェックの入った称呼情報である「ハリガネメン」および「ハリキンメン」と、チェックの入った分割称呼情報である「ハリガネ」を受け付ける。   Next, it is assumed that the user checks the check box next to the name information and the divided name information shown in FIG. 17 that he / she wants to use for similarity search and presses the “designation complete” button 31. . For example, if the check boxes next to “Harigamimen”, “Harigami”, and “Harikinmen” are checked as shown in FIG. 17 and the “Designation Complete” button 31 is pressed, the designation designation receiving unit 334 is checked. “Hariganemen” and “Harikinmen”, which are the name information, and “Harigane”, which is the divided name information which is checked, are received.

次に、類似検索部335は、称呼指定受付部334が受け付けた称呼情報と分割称呼情報とのそれぞれとを用いて、データベース31を検索し、称呼の類似検索を行う。称呼の類似検索については、公知の技術であるので、詳細な具体例は省略する。例えば、類似検索の結果、称呼情報「ハリガネメン」と分割称呼情報「ハリガネ」については、称呼が類似する商品の固有名称が検出されなかったが、称呼情報「ハリキンメン」については、称呼が類似する商品の固有名称が検出されたとする。具体的には、称呼が「ハリキントン」という商品の固有名称が検出されたとする。商標類否判断結果取得部336は、この検出結果を図示しない記憶媒体などに一時記憶する。   Next, the similarity search unit 335 searches the database 31 using the name information and the divided name information received by the name designation reception unit 334, and performs a name similarity search. Since the similarity search for names is a known technique, a detailed specific example is omitted. For example, as a result of the similarity search, for the name information “Hariganmen” and the divided name information “Harigane”, a unique name of a product with a similar name was not detected, but for the name information “Harikinmen”, a product with a similar name Suppose that a unique name is detected. Specifically, it is assumed that a unique name of a product whose name is “Hurricington” is detected. The trademark similarity determination result acquisition unit 336 temporarily stores the detection result in a storage medium (not shown).

そして、商標類否判断結果取得部336は、類似検索の結果を取得する。   Then, the trademark similarity determination result acquisition unit 336 acquires the result of the similarity search.

さらに次に、商品類否判断部34は、商品の類否判断を行う、受付部32から取得した類似群コードを用いて、会社類似群コード固有名称データベース22から情報を取得する。商品類否判断部34は、「32F03」の場合、穀物の加工品に関する情報が「針金面」に関係なく取得されるが、全て取得する。   Next, the merchandise similarity determination unit 34 acquires information from the company similar group code unique name database 22 using the similar group code acquired from the reception unit 32 that determines the similarity of the product. In the case of “32F03”, the product type determination unit 34 acquires all the information related to the processed grain product regardless of the “wire surface”, but acquires all.

そして、出力部35は、商標類否判断部33の判断結果と商品類否判断部34の判断結果をのうち、商品の固有名称が共通する情報を取得し、会社名と商品の固有名称を出力する。なお、出力部35は、この際に会社データベース101に会社を特定する情報、または会社名の確信度、その他保持している情報があれば出力しても良い。   And the output part 35 acquires the information with the common name of goods among the judgment result of the trademark kind judgment part 33, and the judgment result of the goods kind judgment part 34, The company name and the unique name of goods are obtained. Output. At this time, the output unit 35 may output the information that identifies the company in the company database 101, the certainty of the company name, or other information that is held.

以上、本実施の形態によれば、ユーザが指定した調査対象商標文字列から、商標の文字列の称呼情報を自動的に取得して、これを用いた類似検索が行えるようにしたので、商標の総合的な侵害状況の判断材料となる情報をユーザに提供することができる。   As described above, according to the present embodiment, the name information of the trademark character string is automatically acquired from the survey target trademark character string designated by the user, and the similarity search using this can be performed. It is possible to provide the user with information that can be used to determine the overall infringement status.

また、本実施の形態によれば、称呼情報を分割した分割称呼情報を取得して、これを用いた類似検索が行えるようにしたので、例えば、ユーザが入力した商標が結合商標である場合には、結合商標を分割した場合の称呼を自動で取得することができ、分割した称呼情報を用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、分割した称呼情報を用いた類似検索をユーザに促すことができる。また、分割称呼情報を取得することで、商標の主要部だけを用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、主要部を用いた類似検索をユーザに促すことができる。   In addition, according to the present embodiment, the divided name information obtained by dividing the name information is acquired and the similarity search using the divided name information can be performed. For example, when the trademark input by the user is a combined trademark. Can automatically acquire a name when the combined trademark is divided, and an appropriate similarity search using the divided name information can be performed. In addition, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the divided name information. In addition, by acquiring the division name information, an appropriate similarity search using only the main part of the trademark becomes possible. Further, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the main part.

(実施の形態5)
上記実施の形態2をさらに明瞭に説明する。本実施の形態は、調査対象商標情報が商品名を保持し、類似群コードを保持していない場合であっても、類似群コードを用いて商品の類否判断ができる事を特徴とする。
(Embodiment 5)
The second embodiment will be described more clearly. The present embodiment is characterized in that the similarity of the product can be determined using the similar group code even when the investigation target trademark information holds the product name and does not hold the similar group code.

図20は、本実施の形態における商標侵害検知装置4のブロック図である。商標侵害検知装置4は、データベース401、受付部32、商標類否判断部33、商品類否判断部402、出力部35を備える。受付部32、商標類否判断部33、出力部35については、実施の形態4と同様であるため、説明を省略する。   FIG. 20 is a block diagram of the trademark infringement detection device 4 in the present embodiment. The trademark infringement detection apparatus 4 includes a database 401, a reception unit 32, a trademark class rejection determination unit 33, a product class determination unit 402, and an output unit 35. Since the reception unit 32, the trademark similarity determination unit 33, and the output unit 35 are the same as those in the fourth embodiment, description thereof is omitted.

データベース401は、1以上の図示しないWebサーバ装置から取得した情報である、会社名と商品名と商品の固有名称との組を1組以上格納し得る。データベース401は、1以上のWebサーバ装置から取得した情報であれば何でもよく、データベース構築装置1を用いて構築してもよく、無作為、または調査対象商標情報の商品名をキーワードにして検索して収集したWebページから特定のルールを用いて情報を取得して構築してもよい。特定のルールとは、例えば、データベース構築装置1の各ルールデータベースに格納されるルールなどである。   The database 401 can store one or more sets of company names, product names, and product unique names, which are information acquired from one or more Web server devices (not shown). The database 401 may be any information obtained from one or more Web server devices, may be constructed using the database construction device 1, and is searched by using a product name of random or surveyed trademark information as a keyword. Information may be acquired from a Web page collected using a specific rule. The specific rule is, for example, a rule stored in each rule database of the database construction device 1.

商品類否判断部402は、データベース401が有する1以上の商品名と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行い、データベース401に格納されている調査対象商標情報に類似する会社名と商品名と商品の固有名称を取得する。商品類否判断部402は、商品コード管理手段4021、コード特定情報取得手段4022、商品類否判断手段4023を備える。なお、本実施の形態におけるコード特定情報とは、商品名であってもよく、図示しない記憶部で管理されている類似群コードを参照するための番号等であってもよく、類似群コード表における見出しの商品または役務名(たとえば、01A01であれば「化学品」)であってもよく、類似群コード表における商品・役務名であってもよく、類似群コードそのものであってもよい。   The commodity similarity determination unit 402 performs commodity similarity determination using one or more commodity names included in the database 401 and the code identification information included in the investigation target trademark information, and the investigation target stored in the database 401 The company name, product name, and product unique name similar to the trademark information are acquired. The product category determination unit 402 includes a product code management unit 4021, a code identification information acquisition unit 4022, and a product category determination unit 4023. The code specifying information in the present embodiment may be a product name, a number for referring to a similar group code managed in a storage unit (not shown), or the like, and a similar group code table May be the product or service name (for example, “Chemical” in the case of 01A01), the product / service name in the similar group code table, or the similar group code itself.

商品コード管理手段4021は、商品名とコード特定情報との対応を管理している。管理する商品名とコード特定情報は、類似群コードの説明文から特定のルールを用いて取得してもよく、図示しないWebサーバ装置から取得したWebページから特定のルールを用いて取得してもよく、人が手作業で入力してもよい。特定のルールとは、例えば「04A01は、例えば、洗い粉やシャンプーなどがあげられる」といった文章から、コード特定情報として「04A01」を、商品名として「洗い粉」と「シャンプー」を取得するようなルールであってもよく、「<table><tr><td>染料</td><td>藍・あかね</td></tr></table>」といったHTMLの構造から、コード特定情報として「染料」を、商品名として「藍」と「あかね」を取得するルールであってもよい。また、商品コード管理手段4021は、その対応を再帰的に探索することで類似群コードを取得できるような構成にしてもよい。具体的には、コード特定情報「01A01」と商品名「化学品」、コード特定情報「化学品」と商品名「アンモニア水」という2組の情報があった場合、商品名「アンモニア水」からコード特定情報「01A01」を取得できるように管理しても良い。   The product code management unit 4021 manages the correspondence between the product name and the code specifying information. The product name to be managed and the code specifying information may be acquired from the description of the similar group code using a specific rule, or may be acquired from a Web page acquired from a Web server device (not shown) using a specific rule. Often, a person may input manually. The specific rule is, for example, a rule for acquiring “04A01” as the code identification information and “washing powder” and “shampoo” as the product name from a sentence such as “04A01 is for example washing powder or shampoo”. From the HTML structure such as “<table> <tr> <td> dye </ td> <td> indigo / akane </ td> </ tr> </ table>” as code specifying information The rule may be to acquire “dye” and “indigo” and “Akane” as trade names. The product code management unit 4021 may be configured to acquire a similar group code by recursively searching for the correspondence. Specifically, when there are two sets of information, code specific information “01A01” and product name “Chemical”, code specific information “Chemical” and product name “Ammonia water”, the product name “Ammonia water” You may manage so that code specific information "01A01" may be acquired.

コード特定情報取得手段4022は、商品コード管理手段4021が管理する商品に対応するコード特定情報を用いて、データベース401が有する1以上の商品名に対応するコード特定情報を取得する。取得するコード特定情報は、データベース401が有する商品名に対応する任意のコード特定情報であっても良く、再帰的に対応を取得した結果取得した類似群コードであってもよく、類似群コードに到るまで再帰的に対応を取得する過程に取得したすべてのコード特定情報であっても良い。コード特定情報取得手段4022は、通常、MPUやメモリ等から実現され得る。コード特定情報取得手段4022の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The code specifying information acquisition unit 4022 acquires code specifying information corresponding to one or more product names included in the database 401, using the code specifying information corresponding to the product managed by the product code management unit 4021. The code specifying information to be acquired may be arbitrary code specifying information corresponding to the product name of the database 401, may be a similar group code acquired as a result of recursively acquiring the correspondence, It may be all the code specifying information acquired in the process of acquiring the correspondence recursively until it arrives. The code specifying information acquisition unit 4022 can be usually realized by an MPU, a memory, or the like. The processing procedure of the code specifying information acquisition unit 4022 is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

商品類否判断手段4023は、コード特定情報取得手段4022が取得したコード特定情報と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。商品の類否判断は、調査対象商標情報が有するコード特定情報と、コード特定情報取得手段4022が取得したコード特定情報が同一、または含まれているかどうかを判断し、同一、または含まれていた場合、その情報に対応する会社名と商品名と商品の固有名称とを取得する。商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品類否判断手段4023の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   The product type determination unit 4023 makes a product type determination using the code specification information acquired by the code specification information acquisition unit 4022 and the code specification information included in the investigation target trademark information. In determining whether a product is similar, the code specifying information included in the trademark information to be investigated and the code specifying information acquired by the code specifying information acquiring unit 4022 are determined to be the same or included. In this case, the company name, the product name, and the unique name of the product corresponding to the information are acquired. The merchandise kind determination unit 4023 can usually be realized by an MPU, a memory, or the like. The processing procedure of the merchandise kind determination unit 4023 is usually realized by software, and the software is recorded in a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

本実施の形態にかかる商標侵害検知装置4の動作は、商標侵害検知装置3における図16のステップS1018の処理のみを変更したものである。   The operation of the trademark infringement detection apparatus 4 according to the present embodiment is a modification of only the process of step S1018 in FIG.

以下、本実施の形態における商標侵害検知装置4における商品類否判断部402の具体的な動作について説明する。なお、この具体例において示した商品類否判断部402の出力結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。ここでは、例として、受付部32が受け付けた調査対象商標情報のコード特定情報を「ビール」とし、データベース401には、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という1組の情報が少なくとも記憶されているものとし、商品コード管理手段4021は、コード特定情報「28A02」と商品名「ビール」、コード特定情報「ビール」と商品名「ラガービール」という2組の情報が少なくとも記憶されているものとする。   Hereinafter, a specific operation of the merchandise inequality determination unit 402 in the trademark infringement detection device 4 according to the present embodiment will be described. It should be noted that the output result of the commodity similarity determination unit 402 shown in this specific example is prepared for the sake of explanation, and does not indicate actual data. Here, as an example, the code specifying information of the investigation target trademark information received by the receiving unit 32 is “beer”, and the database 401 has a company name “A company”, a product name “Lugger beer”, and a unique product name. It is assumed that at least one set of information whose name is “B beer” is stored, and the product code management means 4021 has the code specifying information “28A02” and the product name “beer”, the code specifying information “beer” and the product name “ It is assumed that at least two sets of information “Lager beer” are stored.

コード特定情報取得手段4022は、データベース401から商品名に関する情報を取得する。例えば、コード特定情報取得手段4022は、「ラガービール」などの情報を取得する。そして、コード特定情報取得手段4022は、商品コード管理手段4021が管理している情報を用いて、各商品名からコード特定情報を取得する。具体的には、コード特定情報取得手段4022は、「ラガービール」から「ビール」、「ビール」から「28A02」と類似群コードを取得するまでのコード特定情報をすべて取得し、商品名と対応付けて図示しない記憶部に記憶する。   The code specifying information acquisition unit 4022 acquires information on the product name from the database 401. For example, the code specifying information acquisition unit 4022 acquires information such as “Lugger beer”. And the code specific information acquisition means 4022 acquires code specific information from each product name using the information which the product code management means 4021 manages. Specifically, the code specifying information acquisition unit 4022 acquires all code specifying information from “Lager Beer” to “Beer” and “Beer” to “28A02” until the similar group code is acquired, and corresponds to the product name. In addition, it is stored in a storage unit (not shown).

商品類否判断手段4023は、受付部32が受け付けた調査対象商標情報が有する「ビール」と同一のコード特定情報を保持した情報を、コード特定情報取得手段4022が取得し、図示しない記憶部に記憶した情報から探索し、データベース401に格納されている会社名と商品の固有名称を取得する。具体的には、商品類否判断手段4023は、「ビール」および「28A02」と対応付けられている「ラガービール」を取得し、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という情報を取得する。   The product type determination unit 4023 acquires the information holding the code specifying information identical to the “beer” included in the survey target trademark information received by the receiving unit 32 by the code specifying information acquiring unit 4022, and stores it in a storage unit (not shown). Searching from the stored information, the company name and the unique name of the product stored in the database 401 are acquired. Specifically, the product type determination unit 4023 acquires “lager beer” associated with “beer” and “28A02”, the company name is “Company A”, the product name is “Lager beer”, The information that the unique name of the product is “B beer” is acquired.

以上、本実施の形態によれば、Webサーバ装置から取得した会社名と商品名と商品の固有名称との組に対して、類似群コードを指定しなくても、類似群コードを考慮した商標の類似検索が行えるようにしたため、商標の侵害状況の判断材料となる情報をユーザに提供することができる。   As described above, according to the present embodiment, a trademark taking account of a similar group code without specifying a similar group code for a set of a company name, a product name, and a product unique name acquired from a Web server device. Thus, it is possible to provide the user with information that can be used to determine the trademark infringement status.

なお、本実施の形態では、コード特定情報取得手段4022でコード特定情報を取得したが、図示しない処理部を用いて、予めコード特定情報を取得しておき、データベース401に格納しておいても良い。   In the present embodiment, the code specifying information is acquired by the code specifying information acquiring unit 4022, but the code specifying information may be acquired in advance using a processing unit (not shown) and stored in the database 401. good.

また、上記実施の形態4、実施の形態5において、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、ルール学習部116、会社類似群コード固有名称データベース構築部23、商品類否判断部34、商標文字列取得部331、称呼取得部332、類似検索部335、商標類否判断結果取得部336、コード特定情報取得手段4022、商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品名取得部113等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。   Further, in the fourth embodiment and the fifth embodiment, the company name acquisition unit 112, the product name acquisition unit 113, the unique name acquisition unit 114, the knowledge acquisition unit 115, the rule learning unit 116, and the company similar group code unique name database construction Unit 23, product category determination unit 34, trademark character string acquisition unit 331, name acquisition unit 332, similarity search unit 335, trademark class determination result acquisition unit 336, code identification information acquisition unit 4022, product category determination unit 4023 Usually, it can be realized from an MPU, a memory, or the like. The processing procedure of the product name acquisition unit 113 and the like is usually realized by software, and the software is recorded on a recording medium such as a ROM. However, it may be realized by hardware (dedicated circuit).

なお、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されてもよいことは言うまでもない。   In each of the above embodiments, it goes without saying that two or more communication means existing in one apparatus may be physically realized by one medium.

また、上記各実施の形態におけるデータベース構築装置は、例えば、スタンドアロンの装置であってもよいし、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、例えば、ASP(Application Service Provider)としてデータベースの構築が行われてもよい。   The database construction device in each of the above embodiments may be, for example, a stand-alone device or a server device in a server / client system. In the latter case, for example, a database may be constructed as an ASP (Application Service Provider).

また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよいし、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。   In each of the above embodiments, each process or each function may be realized by centralized processing by a single device or a single system, or distributed by a plurality of devices or a plurality of systems. It may be realized by being processed.

また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよいし、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。   In each of the above embodiments, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.

また、上記各実施の形態におけるデータベース構築装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する第一の表と、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する2以上の第二の表と、1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得するための1以上のルールが格納されており、コンピュータを、前記ルールに従い、1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得し、前記第二の表に追記する取得部と、前記2以上の第二の表が有する2以上の属性値集合を結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する結合部として機能させるためのプログラムである。   Moreover, the software which implement | achieves the database construction apparatus in each said embodiment is the following programs. That is, this program has a first table having one or more attribute value sets having m attribute values (m ≧ 3) having different attributes and n items having different attributes (n ≦ m−1). ) One or more for obtaining two or more second tables having one or more attribute value sets having attribute values and one or more attribute value sets having the n attribute values from one or more Web pages An acquisition unit that acquires one or more attribute value sets having the n attribute values from one or more Web pages according to the rules, and appends them to the second table; As a combining unit that combines two or more attribute value sets of the two or more second tables, generates one or more attribute value sets having the m attribute values, and appends to the first table It is a program to make it function.

なお、上記プログラムにおいて、ハードウェアでしか行われない処理は少なくとも含まれない。   Note that the program does not include at least processing that is performed only by hardware.

また、上記プログラムは、サーバなどからダウンロードされることによって実行されてもよいし、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。   The program may be executed by being downloaded from a server or the like, or a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed. Further, this program may be used as a program constituting a program product.

また、上記プログラムを実行するコンピュータは、単数であってもよいし、複数であってもよい。つまり、集中処理を行ってもよいし、あるいは分散処理を行ってもよい。   Moreover, the computer which performs the said program may be single, and plural may be sufficient as it. That is, centralized processing may be performed, or distributed processing may be performed.

また、図18は、前述のプログラムを実行して、前述の実施の形態のデータベース構築装置等を実現するコンピュータシステム9の概観図である。前述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。   FIG. 18 is a schematic diagram of the computer system 9 that executes the above-described program to realize the database construction apparatus and the like according to the above-described embodiment. The above-described embodiments can be realized by computer hardware and a computer program executed thereon.

図18において、コンピュータシステム1100は、CD−ROM(Compact Disk Read Only Memory)ドライブ1105、FD(Flexible Disk)ドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。   In FIG. 18, a computer system 1100 includes a computer 1101 including a CD-ROM (Compact Disk Read Only Memory) drive 1105, an FD (Flexible Disk) drive 1106, a keyboard 1102, a mouse 1103, and a monitor 1104.

図19は、コンピュータシステム1100のブロック図である。図19において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU(Micro Processing Unit)1111と、ブートアッププログラムなどのプログラムを記憶するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)1113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク1114と、MPU1111、ROM1112などを相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。   FIG. 19 is a block diagram of the computer system 1100. In FIG. 19, in addition to the CD-ROM drive 1105 and the FD drive 1106, a computer 1101 is connected to an MPU (Micro Processing Unit) 1111, a ROM 1112 for storing a program such as a bootup program, and the MPU 1111. A RAM (Random Access Memory) 1113 that temporarily stores program instructions and a temporary storage space, a hard disk 1114 that stores application programs, system programs, and data, and an MPU 1111 and a ROM 1112 are mutually connected. And a bus 1115. The computer 1101 may include a network card (not shown) that provides connection to the LAN.

コンピュータシステム1100に、上記実施の形態による本発明などの機能を実行させるプログラムは、CD−ROM1121、またはFD1122に記憶されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に記憶されてもよい。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされてもよい。   A program for causing the computer system 1100 to execute the functions of the present invention according to the above-described embodiment is stored in the CD-ROM 1121 or the FD 1122, inserted into the CD-ROM drive 1105 or the FD drive 1106, and transferred to the hard disk 1114. May be. Instead, the program may be transmitted to the computer 1101 via a network (not shown) and stored in the hard disk 1114. The program is loaded into the RAM 1113 when executed. Note that the program may be loaded directly from the CD-ROM 1121, the FD 1122, or the network.

プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラムなどを必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。   The program does not necessarily include an operating system (OS) or a third-party program that causes the computer 1101 to execute the functions of the present invention according to the above-described embodiment. The program may include only a part of an instruction that calls an appropriate function (module) in a controlled manner and obtains a desired result. How the computer system 1100 operates is well known and will not be described in detail.

本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。   The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.

以上のように、本発明にかかるデータベース構築装置は、Webページからデータベースを構築できるという効果を有し、データベースシステム等として有用である。   As described above, the database construction device according to the present invention has an effect that a database can be constructed from a Web page, and is useful as a database system or the like.

1、2、5 データベース構築装置
3、4 商標侵害検知装置
101 会社データベース
102 商品データベース
103 固有名称データベース
104 会社商品データベース
105 会社固有名称データベース
106 商品固有名称データベース
107 会社商品固有名称データベース
108 会社ルールデータベース
109 商品ルールデータベース
110 固有名称ルールデータベース
111 知識増殖ルールデータベース
112 会社名取得部
113 商品名取得部
114 固有名称取得部
115 知識獲得部
116 ルール学習部
21 商品類似群コード対応データベース
22 会社類似群コード固有名称データベース
23 会社類似群コード固有名称データベース構築部
31、401 データベース
32 受付部
33 商標類否判断部
34、402 商品類否判断部
35 出力部
51 表格納部
52 ルール格納部
53 スコア格納部
54 辞書格納部
55 取得部
56 結合部
57 ルール取得部
331 商標文字列取得部
332 称呼取得部
333 称呼表示部
334 称呼指定受付部
335 類似検索部
336 商標類否判断結果取得部
4021 商品コード管理手段
4022 コード特定情報取得手段
4023 商品類否判断手段
1, 2, 5 Database construction device 3, 4 Trademark infringement detection device 101 Company database 102 Product database 103 Unique name database 104 Company product database 105 Company unique name database 106 Product unique name database 107 Company product unique name database 108 Company rule database 109 Product rule database 110 Unique name rule database 111 Knowledge multiplication rule database 112 Company name acquisition unit 113 Product name acquisition unit 114 Unique name acquisition unit 115 Knowledge acquisition unit 116 Rule learning unit 21 Product similarity group code correspondence database 22 Company similarity group code unique name Database 23 Company similar group code unique name database construction unit 31, 401 Database 32 Reception unit 33 Trademark similarity determination unit 34, 4 2 Product type judgment unit 35 Output unit 51 Table storage unit 52 Rule storage unit 53 Score storage unit 54 Dictionary storage unit 55 Acquisition unit 56 Joining unit 57 Rule acquisition unit 331 Trademark character string acquisition unit 332 Name call acquisition unit 333 Name call display unit 334 Name designation accepting unit 335 Similarity search unit 336 Trademark similarity determination result acquisition unit 4021 Product code management means 4022 Code specific information acquisition means 4023 Product similarity determination means

Claims (13)

属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する第一の表と、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する2以上の第二の表とが格納される表格納部と、
1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得するための1以上のルールが、前記第二の表に対応付いて格納されるルール格納部と、
前記ルールに従い、1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得し、前記第二の表に追記する取得部と、
前記2以上の第二の表が有する2以上の属性値集合を結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する結合部とを具備するデータベース構築装置。
A first table having one or more attribute value sets having m attribute values (m ≧ 3) having different attributes, and one or more attributes having n attribute values (n ≦ m−1) having different attributes A table storage for storing two or more second tables having a value set;
A rule storage unit that stores one or more rules for acquiring one or more attribute value sets having the n attribute values from one or more Web pages in association with the second table;
In accordance with the rules, an acquisition unit that acquires one or more attribute value sets having the n attribute values from one or more Web pages and appends to the second table;
Combining two or more attribute value sets included in the two or more second tables, generating one or more attribute value sets having the m attribute values, and adding the combined value to the first table; A database construction device provided.
前記ルール格納部には、
1以上のWebページから前記m個の属性値を有する1以上の属性値集合を取得するための1以上のルールが、前記第一の表に対応付いて格納され、
前記取得部は、
前記ルールに従い、1以上のWebページから前記m個の属性値を有する1以上の属性値集合を取得し、前記第一の表に追記する請求項1記載のデータベース構築装置。
In the rule storage unit,
One or more rules for acquiring one or more attribute value sets having the m attribute values from one or more Web pages are stored in association with the first table,
The acquisition unit
The database construction device according to claim 1, wherein one or more attribute value sets having the m attribute values are acquired from one or more Web pages according to the rule, and added to the first table.
前記表格納部には、
属性がユニークであるか否かを示すユニーク識別子を有する前記第二の表が格納され、
前記結合部は、
前記2以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を有し、かつ当該属性が前記ユニーク識別子によりユニークであることが示される2以上の属性値集合を、当該属性値をキーに結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する請求項1記載のデータベース構築装置。
In the table storage section,
The second table having a unique identifier indicating whether the attribute is unique is stored;
The coupling portion is
Two or more attributes that are attribute value sets that each of the two or more different second tables have, have the same attribute value of the same attribute, and that the attribute is unique by the unique identifier The database construction device according to claim 1, wherein the value set is combined with the attribute value as a key, one or more attribute value sets having the m attribute values are generated, and added to the first table.
前記結合部は、
前記3以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を2以上有する属性値集合を、当該属性値をキーに結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する請求項1記載のデータベース構築装置。
The coupling portion is
Each of the three or more different second tables has an attribute value set, the attribute value set having two or more identical attribute values of the same attribute is combined with the attribute value as a key, and the m attributes The database construction device according to claim 1, wherein one or more attribute value sets having values are generated and added to the first table.
前記Webページは、当該Webページを識別するWebページ識別子を有し、
前記取得部は、
前記1以上の属性値集合を取得する際に、Webページが有するWebページ識別子をも取得し、当該1以上の属性値集合に対応付けて当該Webページ識別子を前記第一の表または第二の表に追記する請求項1から請求項4いずれか記載のデータベース構築装置。
The web page has a web page identifier for identifying the web page,
The acquisition unit
When acquiring the one or more attribute value sets, a Web page identifier of a Web page is also acquired, and the Web page identifier is associated with the one or more attribute value sets in the first table or the second table. The database construction device according to any one of claims 1 to 4, which is added to a table.
前記取得部は、
前記1以上の属性値集合を取得する際に、当該属性値集合のスコアをも取得し、当該1以上の属性値集合に対応付けて当該スコアを前記第一の表または第二の表に追記し、
前記結合部は、
予め決められた条件を満たすほど高いスコアが対応付いた前記第二の表が有する2以上の属性値集合を結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する請求項1から請求項5いずれか記載のデータベース構築装置。
The acquisition unit
When acquiring the one or more attribute value sets, the score of the attribute value set is also acquired, and the score is added to the first table or the second table in association with the one or more attribute value sets. And
The coupling portion is
Combining two or more attribute value sets included in the second table with a higher score corresponding to a predetermined condition to generate one or more attribute value sets having the m attribute values, The database construction device according to any one of claims 1 to 5, which is added to the first table.
Webページ識別子が対応付けられた1以上のスコアが格納されるスコア格納部をさらに具備し、
前記取得部は、
前記1以上の属性値集合を取得する際に、Webページが有するWebページ識別子をも取得し、当該Webページ識別子に対応するスコアを前記スコア格納部から取得し、当該1以上の属性値集合に対応付けて当該Webページ識別子とスコアとを前記第一の表または第二の表に追記する請求項5または請求項6記載のデータベース構築装置。
A score storage unit that stores one or more scores associated with the web page identifier;
The acquisition unit
When acquiring the one or more attribute value sets, the Web page identifier of the Web page is also acquired, a score corresponding to the Web page identifier is acquired from the score storage unit, and the one or more attribute value sets are included. The database construction device according to claim 5 or 6, wherein the Web page identifier and the score are added to the first table or the second table in association with each other.
属性ごとの1以上の属性値の集合である1以上の辞書が格納される辞書格納部をさらに具備し、
前記取得部は、
前記1以上の属性値集合を取得する際に、当該属性値集合が有する属性値と、当該属性値の属性と同一の属性の属性値であり、前記辞書が有する属性値との一致度を前記スコアとして算出し、当該1以上の属性値集合に対応付けて当該スコアを前記第一の表または第二の表に追記する請求項6記載のデータベース構築装置。
A dictionary storage unit that stores one or more dictionaries that are a set of one or more attribute values for each attribute;
The acquisition unit
When acquiring the one or more attribute value sets, the attribute value that the attribute value set has and the attribute value of the attribute that is the same attribute as the attribute value, and the degree of coincidence with the attribute value that the dictionary has The database construction apparatus according to claim 6, wherein the database construction apparatus calculates the score and adds the score to the first table or the second table in association with the one or more attribute value sets.
前記1以上のWebページから、前記表格納部に格納されている1以上の属性値集合が存在する文字列を取得し、当該文字列のうち、当該属性値集合以外の文字列を前記ルールとして取得し、前記ルール格納部に蓄積するルール取得部をさらに具備する請求項1から請求項8記載のデータベース構築装置。 A character string including one or more attribute value sets stored in the table storage unit is acquired from the one or more Web pages, and a character string other than the attribute value set among the character strings is used as the rule. The database construction device according to claim 1, further comprising a rule acquisition unit that acquires and accumulates in the rule storage unit. 前記ルール取得部は、
取得した1以上のルールを、当該ルールを取得した際に用いた属性値集合を有する前記第一の表または第二の表に対応付けて、前記ルール格納部に蓄積する請求項9記載のデータベース構築装置。
The rule acquisition unit
The database according to claim 9, wherein the acquired one or more rules are stored in the rule storage unit in association with the first table or the second table having the attribute value set used when the rule is acquired. Construction device.
前記結合部は、
前記表格納部に格納されている2以上の第二の表が有する属性値集合であり、前記取得部が取得した属性値集合または前記属性値生成部が生成した属性値集合のうちの2以上の属性値集合を結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する請求項1から請求項10記載のデータベース構築装置。
The coupling portion is
Two or more attribute value sets of two or more second tables stored in the table storage unit, and two or more of the attribute value sets acquired by the acquisition unit or the attribute value sets generated by the attribute value generation unit 11. The database construction device according to claim 1, wherein the attribute value sets are combined to generate one or more attribute value sets having the m attribute values, and are added to the first table.
記録媒体に、
属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する第一の表と、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する2以上の第二の表と、
1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得するための1以上のルールが格納されており、
取得部と、結合部とを用いて行われるデータベース構築方法であって、
前記取得部が、前記ルールに従い、1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得し、前記第二の表に追記する取得ステップと、
前記結合部が、前記2以上の第二の表が有する2以上の属性値集合を結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する結合ステップとを具備するデータベース構築方法。
On the recording medium,
A first table having one or more attribute value sets having m attribute values (m ≧ 3) having different attributes, and one or more attributes having n attribute values (n ≦ m−1) having different attributes Two or more second tables having value sets;
One or more rules for acquiring one or more attribute value sets having the n attribute values from one or more Web pages are stored,
A database construction method performed using an acquisition unit and a combination unit,
The acquisition unit, according to the rule, acquires one or more attribute value sets having the n attribute values from one or more Web pages, and adds to the second table;
The combining unit combines two or more attribute value sets of the two or more second tables, generates one or more attribute value sets having the m attribute values, and adds to the first table A database construction method comprising a combining step.
記録媒体に、
属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する第一の表と、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する2以上の第二の表と、
1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得するための1以上のルールが格納されており、
コンピュータを、
前記ルールに従い、1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得し、前記第二の表に追記する取得部と、
前記2以上の第二の表が有する2以上の属性値集合を結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する結合部として機能させるためのプログラム。
On the recording medium,
A first table having one or more attribute value sets having m attribute values (m ≧ 3) having different attributes, and one or more attributes having n attribute values (n ≦ m−1) having different attributes Two or more second tables having value sets;
One or more rules for acquiring one or more attribute value sets having the n attribute values from one or more Web pages are stored,
Computer
In accordance with the rules, an acquisition unit that acquires one or more attribute value sets having the n attribute values from one or more Web pages and appends to the second table;
Functions as a combining unit that combines two or more attribute value sets of the two or more second tables, generates one or more attribute value sets having the m attribute values, and adds the attribute value sets to the first table Program to let you.
JP2012103893A 2011-04-28 2012-04-27 Database construction device, database construction method, and program Expired - Fee Related JP5312637B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012103893A JP5312637B2 (en) 2011-04-28 2012-04-27 Database construction device, database construction method, and program

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2011100439 2011-04-28
JP2011100439 2011-04-28
JP2011287601 2011-12-28
JP2011287601 2011-12-28
JP2012103893A JP5312637B2 (en) 2011-04-28 2012-04-27 Database construction device, database construction method, and program

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013138571A Division JP6095222B2 (en) 2011-04-28 2013-07-02 Trademark infringement detection apparatus, trademark infringement detection method, and program

Publications (2)

Publication Number Publication Date
JP2013152692A true JP2013152692A (en) 2013-08-08
JP5312637B2 JP5312637B2 (en) 2013-10-09

Family

ID=47072355

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2012103893A Expired - Fee Related JP5312637B2 (en) 2011-04-28 2012-04-27 Database construction device, database construction method, and program
JP2013138571A Active JP6095222B2 (en) 2011-04-28 2013-07-02 Trademark infringement detection apparatus, trademark infringement detection method, and program

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013138571A Active JP6095222B2 (en) 2011-04-28 2013-07-02 Trademark infringement detection apparatus, trademark infringement detection method, and program

Country Status (2)

Country Link
JP (2) JP5312637B2 (en)
WO (1) WO2012147840A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181069A (en) * 2015-03-24 2016-10-13 日本電気株式会社 Information extraction device, information extraction method, and display control system
CN108509597A (en) * 2018-04-02 2018-09-07 浙江知夫子信息科技有限公司 Work mark registers power evaluation method and system

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5253668B1 (en) * 2012-11-14 2013-07-31 有限会社アイ・アール・ディー Database construction device, database construction method, and program
JP6626016B2 (en) * 2017-01-11 2019-12-25 日本電信電話株式会社 Matching device, matching method and matching program
CN107045545A (en) * 2017-03-30 2017-08-15 山东省农业科学院 A kind of peanut cultivation information database constructing system
JP6779405B1 (en) * 2020-06-23 2020-11-04 株式会社Ipsign Infringement information extraction systems, methods and programs

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023878A (en) * 2004-07-07 2006-01-26 Quin Land Co Ltd Data extraction system
JP2006065651A (en) * 2004-08-27 2006-03-09 Toshiba Corp Program, apparatus and method for retrieving trademark name
JP2011053734A (en) * 2009-08-31 2011-03-17 Tatsuya Shindo In-site search server, in-site search service method, and program

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0589181A (en) * 1991-08-07 1993-04-09 Res Puro:Kk Trademark retrieving device
JP2000172705A (en) * 1998-12-07 2000-06-23 Spec Kk Information retrieving device, information retrieving method and storage medium storing program for executing the method
CN101197040A (en) * 2006-12-08 2008-06-11 鸿富锦精密工业(深圳)有限公司 Trade mark use evidence management system and method
JP5182767B2 (en) * 2010-02-16 2013-04-17 トムソン・ロイター・プロフェッショナル株式会社 Trademark server device and trademark extraction method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006023878A (en) * 2004-07-07 2006-01-26 Quin Land Co Ltd Data extraction system
JP2006065651A (en) * 2004-08-27 2006-03-09 Toshiba Corp Program, apparatus and method for retrieving trademark name
JP2011053734A (en) * 2009-08-31 2011-03-17 Tatsuya Shindo In-site search server, in-site search service method, and program

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CSNG200000751008; 野田知哉、外2名: 'WWW情報統合のための協調型アーキテクチャ' 第43回 知識ベースシステム研究会資料(SIG-KBS-9803) , 19990323, p.43-48, 社団法人人工知能学会 *
CSNG200600597010; 井原伸介、外2名: '画像情報を含むblog記事検索システムの開発' 電子情報通信学会論文誌 第J89-D巻,第6号, 20060601, p.1236-1247, 社団法人電子情報通信学会 *
JPN6012030677; 野田知哉、外2名: 'WWW情報統合のための協調型アーキテクチャ' 第43回 知識ベースシステム研究会資料(SIG-KBS-9803) , 19990323, p.43-48, 社団法人人工知能学会 *
JPN6012030678; 井原伸介、外2名: '画像情報を含むblog記事検索システムの開発' 電子情報通信学会論文誌 第J89-D巻,第6号, 20060601, p.1236-1247, 社団法人電子情報通信学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016181069A (en) * 2015-03-24 2016-10-13 日本電気株式会社 Information extraction device, information extraction method, and display control system
CN108509597A (en) * 2018-04-02 2018-09-07 浙江知夫子信息科技有限公司 Work mark registers power evaluation method and system
CN108509597B (en) * 2018-04-02 2022-01-28 浙江知夫子信息科技有限公司 Method and system for evaluating success rate of character trademark registration

Also Published As

Publication number Publication date
WO2012147840A1 (en) 2012-11-01
JP6095222B2 (en) 2017-03-15
JP2013191243A (en) 2013-09-26
JP5312637B2 (en) 2013-10-09

Similar Documents

Publication Publication Date Title
JP6095222B2 (en) Trademark infringement detection apparatus, trademark infringement detection method, and program
JP5769327B2 (en) Database construction device, trademark infringement detection device, database construction method, and program
Shaalan et al. NERA: Named entity recognition for Arabic
WO2010047286A1 (en) Search system, search method, and program
Fromont et al. ONZE Miner: the development of a browser-based research tool
Van Hooland et al. Evaluating the success of vocabulary reconciliation for cultural heritage collections
JP2011108085A (en) Knowledge construction device and program
JP4882040B2 (en) Information processing apparatus, information processing system, and program
Houssein et al. Semantic protocol and resource description framework query language: a comprehensive review
JP2022187507A (en) Technical research support device, technical research support method and technical research support program
US20140358522A1 (en) Information search apparatus and information search method
KR20180086801A (en) Apparatus and method for sentence meaning formalization and text generation based on rdf triples
JP2008003656A (en) Concept dictionary creating device, document classifying device, concept dictionary creating method, and document classifying method
Homenda et al. Querying in spaces of music information
JPWO2016151690A1 (en) Document search apparatus, method and program
JP4726683B2 (en) EXPERIENCE INFORMATION EXTRACTION METHOD AND DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM
JP2019121164A (en) Document creating apparatus, document creating method, database construction apparatus, database construction method, and program
KR20190115721A (en) Apparatus, method and computer program for processing inquiry
KR20070008994A (en) System and method for extracting domain information in unstructured web documents
KR20100091367A (en) Method and system for transforming blog posting to ontology-based information
KR101945234B1 (en) Method for Searching Semiconductor Parts Using Algorithm of Eliminating Last Alphabet
JP5187187B2 (en) Experience information search system
WO2006008919A1 (en) Information processing device and program
JP2007011892A (en) Vocabulary acquisition method and device, program, and storage medium storing program
Thanadechteemapat et al. Thai word segmentation for visualization of thai web sites

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130517

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130517

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20130517

TRDD Decision of grant or rejection written
A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20130530

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130604

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130702

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees