JP2013191243A - Trademark infringement detection device, trademark infringement detection method and program - Google Patents
Trademark infringement detection device, trademark infringement detection method and program Download PDFInfo
- Publication number
- JP2013191243A JP2013191243A JP2013138571A JP2013138571A JP2013191243A JP 2013191243 A JP2013191243 A JP 2013191243A JP 2013138571 A JP2013138571 A JP 2013138571A JP 2013138571 A JP2013138571 A JP 2013138571A JP 2013191243 A JP2013191243 A JP 2013191243A
- Authority
- JP
- Japan
- Prior art keywords
- name
- product
- company
- information
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、商標侵害を検知する商標侵害検知装置等に関するものである。 The present invention relates to a trademark infringement detection device that detects trademark infringement.
従来、Webページから専門用語を抽出する専門用語抽出装置等が開発されている(特許文献1参照)。 2. Description of the Related Art Conventionally, a technical term extraction device that extracts technical terms from Web pages has been developed (see Patent Document 1).
Web上には、膨大な量のあらゆる情報が存在している。しかしながら、当該情報は構造化されておらず、また、必要な情報が分散した状態で存在しているのが通常である。従来の専門用語抽出装置では、分散した情報を構造化して、データベースを構築することができなかった。 There is a huge amount of all kinds of information on the Web. However, the information is not structured and the necessary information usually exists in a dispersed state. A conventional technical term extraction device cannot construct a database by structuring distributed information.
本第一の発明のデータベース構築装置は、属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する第一の表と、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する2以上の第二の表とが格納される表格納部と、1以上のWebページからn個の属性値を有する1以上の属性値集合を取得するための1以上のルールが、第二の表に対応付いて格納されるルール格納部と、ルールに従い、1以上のWebページからn個の属性値を有する1以上の属性値集合を取得し、第二の表に追記する取得部と、2以上の第二の表が有する2以上の属性値集合を結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記する結合部とを具備するデータベース構築装置である。 The database construction apparatus according to the first aspect of the present invention includes a first table having one or more attribute value sets having m attribute values (m ≧ 3) having different attributes, and n items having different attributes (n ≦ m− 1) One or more attribute values having n attribute values from one or more Web pages, and a table storage unit storing two or more second tables having one or more attribute value sets having the attribute value 1) One or more rules for acquiring a set are stored in association with the second table, and a one or more attribute value sets having n attribute values from one or more Web pages according to the rules Is obtained, and the acquisition unit for appending to the second table and the two or more attribute value sets of the two or more second tables are combined to generate one or more attribute value sets having m attribute values. , A database construction device comprising a coupling unit to be added to the first table.
このような構成により、1以上のWebページから構造化されたデータベースを構築できる。 With such a configuration, a structured database can be constructed from one or more Web pages.
また、本第二の発明のデータベース構築装置は、第一の発明に対して、ルール格納部には、1以上のWebページからm個の属性値を有する1以上の属性値集合を取得するための1以上のルールが、第一の表に対応付いて格納され、取得部は、ルールに従い、1以上のWebページからm個の属性値を有する1以上の属性値集合を取得し、第一の表に追記するデータベース構築装置である。 The database construction device according to the second aspect of the invention provides the rule storage unit with one or more attribute value sets having m attribute values from one or more Web pages. Are stored in association with the first table, and the acquisition unit acquires one or more attribute value sets having m attribute values from one or more Web pages according to the rule, It is a database construction device that adds to the table.
このような構成により、第一の表が有する属性値集合を取得することができる。 With such a configuration, the attribute value set included in the first table can be acquired.
また、本第三の発明のデータベース構築装置は、第一の発明に対して、表格納部には、属性がユニークであるか否かを示すユニーク識別子を有する第二の表が格納され、結合部は、2以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を有し、かつ属性がユニーク識別子によりユニークであることが示される2以上の属性値集合を、属性値をキーに結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。 Further, in the database construction device of the third invention, the second table having a unique identifier indicating whether or not the attribute is unique is stored in the table storage unit with respect to the first invention. Part is an attribute value set of each of two or more different second tables, has two or more attributes that have the same attribute value of the same attribute, and that the attribute is indicated by a unique identifier This is a database construction apparatus that combines a value set with an attribute value as a key, generates one or more attribute value sets having m attribute values, and adds them to the first table.
このような構成により、2以上の属性値集合を結合し、3以上の属性を有する属性値集合を生成することができる。 With such a configuration, two or more attribute value sets can be combined to generate an attribute value set having three or more attributes.
また、本第四の発明のデータベース構築装置は、第一の発明に対して、結合部は、3以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を2以上有する属性値集合を、属性値をキーに結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。 Further, in the database construction device according to the fourth aspect of the present invention, with respect to the first aspect, the combining unit is an attribute value set possessed by each of three or more different second tables, and the same attribute having the same attribute This is a database construction device that combines an attribute value set having two or more values with the attribute value as a key, generates one or more attribute value sets having m attribute values, and adds them to the first table.
このような構成により、2以上の属性を有する3以上の属性値集合から、3以上の属性を有する属性値集合を生成することができる。 With such a configuration, an attribute value set having three or more attributes can be generated from three or more attribute value sets having two or more attributes.
また、本第五の発明のデータベース構築装置は、第一から第四いずれかの発明に対して、Webページは、Webページを識別するWebページ識別子を有し、取得部は、1以上の属性値集合を取得する際に、Webページが有するWebページ識別子をも取得し、1以上の属性値集合に対応付けてWebページ識別子を第一の表または第二の表に追記するデータベース構築装置である。 In the database construction device according to the fifth aspect of the present invention, the Web page has a Web page identifier for identifying the Web page, and the acquisition unit has one or more attributes. When acquiring a value set, a database construction apparatus that also acquires a Web page identifier of a Web page and adds the Web page identifier to the first table or the second table in association with one or more attribute value sets is there.
このような構成により、属性値集合の取得元を管理することができる。 With such a configuration, the acquisition source of the attribute value set can be managed.
また、本第六の発明のデータベース構築装置は、第一から第五いずれかの発明に対して、取得部は、1以上の属性値集合を取得する際に、属性値集合のスコアをも取得し、1以上の属性値集合に対応付けてスコアを第一の表または第二の表に追記し、結合部は、予め決められた条件を満たすほど高いスコアが対応付いた第二の表が有する2以上の属性値集合を結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。 In the database construction device according to the sixth aspect of the present invention, when the acquisition unit acquires one or more attribute value sets, the acquisition unit also acquires the score of the attribute value set for any of the first to fifth aspects of the invention. In addition, the score is added to the first table or the second table in association with one or more attribute value sets, and the combining unit has a second table with a higher score corresponding to a predetermined condition. This is a database construction device that combines two or more attribute value sets to generate one or more attribute value sets having m attribute values and appends them to the first table.
このような構成により、スコアの高い属性値集合を生成することができる。 With such a configuration, an attribute value set with a high score can be generated.
また、本第七の発明のデータベース構築装置は、第五または第六の発明に対して、Webページ識別子が対応付けられた1以上のスコアが格納されるスコア格納部をさらに具備し、取得部は、1以上の属性値集合を取得する際に、Webページが有するWebページ識別子をも取得し、Webページ識別子に対応するスコアをスコア格納部から取得し、1以上の属性値集合に対応付けてWebページ識別子とスコアとを第一の表または第二の表に追記するデータベース構築装置である。 In addition, the database construction device of the seventh invention further includes a score storage unit that stores one or more scores associated with the Web page identifier, as compared with the fifth or sixth invention, and an acquisition unit When acquiring one or more attribute value sets, it also acquires a Web page identifier that the Web page has, acquires a score corresponding to the Web page identifier from the score storage unit, and associates it with one or more attribute value sets The database construction device additionally writes the Web page identifier and the score to the first table or the second table.
このような構成により、スコアの高い属性値集合を生成することができる。 With such a configuration, an attribute value set with a high score can be generated.
また、本第八の発明のデータベース構築装置は、第六の発明に対して、属性ごとの1以上の属性値の集合である1以上の辞書が格納される辞書格納部をさらに具備し、取得部は、1以上の属性値集合を取得する際に、属性値集合が有する属性値と、属性値の属性と同一の属性の属性値であり、辞書が有する属性値との一致度をスコアとして算出し、1以上の属性値集合に対応付けてスコアを第一の表または第二の表に追記するデータベース構築装置である。 Further, the database construction apparatus of the eighth invention further includes a dictionary storage unit that stores one or more dictionaries that are a set of one or more attribute values for each attribute, as compared with the sixth invention. When acquiring one or more attribute value sets, the attribute value is an attribute value of the attribute value set and the attribute value of the same attribute as the attribute value attribute. It is a database construction device that calculates and adds a score to the first table or the second table in association with one or more attribute value sets.
このような構成により、スコアの高い属性値集合を生成することができる。 With such a configuration, an attribute value set with a high score can be generated.
また、本第九の発明のデータベース構築装置は、第一から第八の発明に対して、1以上のWebページから、表格納部に格納されている1以上の属性値集合が存在する文字列を取得し、文字列のうち、属性値集合以外の文字列をルールとして取得し、ルール格納部に蓄積するルール取得部をさらに具備するデータベース構築装置である。 The database construction apparatus according to the ninth aspect of the invention is a character string in which one or more attribute value sets stored in a table storage unit are present from one or more Web pages with respect to the first to eighth aspects of the invention. Is a database construction device that further includes a rule acquisition unit that acquires a character string other than the attribute value set among the character strings as a rule and accumulates it in the rule storage unit.
このような構成により、ルールを増やすことができる。 With such a configuration, the number of rules can be increased.
また、本第十の発明のデータベース構築装置は、第九の発明に対して、ルール取得部は、取得した1以上のルールを、ルールを取得した際に用いた属性値集合を有する第一の表または第二の表に対応付けて、ルール格納部に蓄積するデータベース構築装置である。 In the database construction device according to the tenth aspect of the present invention, in the ninth aspect, the rule acquisition unit has a set of attribute values used when acquiring the rule for the acquired one or more rules. It is a database construction device that accumulates in a rule storage unit in association with a table or a second table.
このような構成により、取得できる属性値に対応する属性ごとにルールを管理することができる。 With such a configuration, rules can be managed for each attribute corresponding to an attribute value that can be acquired.
また、本第十一の発明のデータベース構築装置は、第一から第十の発明に対して、結合部は、表格納部に格納されている2以上の第二の表が有する属性値集合であり、取得部が取得した属性値集合または属性値生成部が生成した属性値集合のうちの2以上の属性値集合を結合し、m個の属性値を有する1以上の属性値集合を生成し、第一の表に追記するデータベース構築装置である。 In the database construction device according to the eleventh aspect of the invention, in contrast to the first to tenth aspects, the joining unit is an attribute value set having two or more second tables stored in the table storage unit. Yes, two or more attribute value sets of the attribute value set acquired by the acquisition unit or the attribute value set generated by the attribute value generation unit are combined to generate one or more attribute value sets having m attribute values. This is a database construction device that is added to the first table.
このような構成により、属性数の少ない属性値集合を用いて、当該属性数よりも属性数の多い属性値集合を生成することができる。 With such a configuration, an attribute value set having a larger number of attributes than the number of attributes can be generated using an attribute value set having a smaller number of attributes.
本発明によるデータベース構築装置等によれば、1以上のWebページから構造化されたデータベースを構築できる。 According to the database construction device or the like according to the present invention, a structured database can be constructed from one or more Web pages.
以下、データベース構築装置などの実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。 Hereinafter, embodiments of a database construction device and the like will be described with reference to the drawings. In addition, since the component which attached | subjected the same code | symbol in embodiment performs the same operation | movement, description may be abbreviate | omitted again.
(実施の形態1)
図1は、本実施の形態におけるデータベース構築装置1のブロック図である。データベース構築装置1は、会社データベース101、商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、ルール学習部116を備える。
(Embodiment 1)
FIG. 1 is a block diagram of a
会社データベース101は、1以上の会社名を格納し得る。会社名とは、商品またはサービスを提供する株式会社、有限会社、公益法人、社団法人、独立行政法人などの法人格をもつ名称、および個人の名称である。
The
また、会社名とは、その会社名を特定する情報でも良い。会社データベース101は、会社名だけでなく、会社名を取得した文書の情報、または会社名の取得回数や取得割合などを格納しても良い。会社名の会社を特定する情報とは、会社を一意に特定できる情報であればなんでも良い。例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。会社名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または会社名の前後の文章やHTMLのタグ構造などである。
Further, the company name may be information for specifying the company name. The
格納とは、不揮発性の記録媒体による長期的な格納や、揮発性の記録媒体による一時的な格納も含む概念である。以下、本発明内における格納の概念は、同一のものとする。 Storage is a concept that includes long-term storage using a non-volatile recording medium and temporary storage using a volatile recording medium. Hereinafter, the concept of storage in the present invention is the same.
また、会社データベース101に会社名が記憶される過程は問わない。例えば、記録媒体を介して会社名が会社データベース101で記憶されるようになってもよく、通信回線等を介して送信された会社名が会社データベース101で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された会社名が会社データベース101で記憶されるようになってもよい。また、会社データベース101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
Further, the process of storing the company name in the
なお、後述する商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、データベース31、データベース401、商品コード管理手段4021の各構成要素について、これらに情報が記憶される過程や、これらの実現手段は、会社データベース101と同様であるので、説明を省略する。
A
商品データベース102は、1以上の商品名を格納し得る。商品名とは、法人、および個人が販売、または提供している商品、または役務の名称である。具体的には、「チョコレート」「パソコン」「宅配」「引越しサービス」などである。ここでいう商品、および役務の名称は、商標法施行規則第6条で規定されている商品および役務の区分(以下、類似群コード表という)に記載されている商品、および役務の名称に必ずしも準じていなくても良い。
The
また、商品名は、その商品名を特定する情報でも良い。商品データベース102は、商品名だけでなく、商品名を取得した文書の情報、または商品名の取得回数や取得割合などを格納しても良い。商品名の商品を特定する情報とは、商品を一意に特定できる情報であればなんでも良い。例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品名の前後の文章やHTMLのタグ構造などである。
Further, the product name may be information for specifying the product name. The
固有名称データベース103は、1以上の商品の固有名称を格納し得る。商品の固有名称とは、商品、および役務を識別可能な名称である。具体的には、「雪見だいふく(登録商標)」「宅急便(登録商標)」「PatentSearchAssistant(登録商標)」などである。またここでいう商品の固有名称とは、商標登録されている商標であっても良いし、なくても良い。
The
また、商品の固有名称とは、その商品の固有名称を特定する情報でも良い。固有名称データベース103は、商品の固有名称だけでなく、商品の固有名称を取得した文書の情報、または商品の固有名称の取得回数や取得割合などを格納しても良い。商品の固有名称を特定する情報とは、商品の固有名称を一意に特定できる情報であればなんでも良い。例えば、商標の出願番号や公開番号などであっても良い。商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
Further, the unique name of the product may be information for specifying the unique name of the product. The
会社商品データベース104は、会社名と商品名とを有する1以上の組を格納し得る。
The
会社商品データベース104は、会社名と、商品名だけでなく、同一レコードにある会社名と商品名を取得した文書の情報、または同一レコードにある会社名と商品名の取得回数、取得頻度や共起頻度、文書内で会社名と商品名の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値でも良い。などを格納しても良い。同一レコードにある会社名と商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または会社名と商品名の前後の文章やHTMLのタグ構造などである。
The
会社固有名称データベース105は、会社名と商品の固有名称とを有する1以上の組を格納し得る。
The company
会社固有名称データベース105は、会社名と、商品の固有名称だけでなく、同一レコードにある会社名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある会社名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
The company
商品固有名称データベース106は、商品名と商品の固有名称とを有する1以上の組を格納し得る。
The product
会社固有名称データベース105は、商品名と、商品の固有名称だけでなく、同一レコードにある商品名と商品の固有名称を取得した文書の情報、または同一レコードにある商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で商品名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
The company
会社商品固有名称データベース107は、会社名と商品名と商品の固有名称とを有する1以上の組を格納し得る。
The company product
会社商品固有名称データベース107は、会社名と、商品名と、商品の固有名称だけでなく、同一レコードにある会社名と商品名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品名と商品の固有名称のそれぞれの間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
The company product
また、会社商品固有名称データベース107は、既に出願公開されている商標の情報から登録しても良い。その場合、その識別情報(例えば登録番号)、または登録状況などの情報を格納しても良い。
Further, the company product
会社ルールデータベース108は、文書から会社名を取得するためのルールである1以上の会社ルールを格納し得る。
The
文書とは、1以上の文の集合であり、会社名や商品名、商品の固有名称が必ずしも記載されている必要はなく、また日本語だけでなく、英語や中国語、その他あらゆる言語であっても良く、2種類以上の言語が混在していても良い。例えば、WebページやHTML、XML、Wordファイルなどあっても良い。 A document is a collection of one or more sentences. The company name, product name, and product unique name do not necessarily have to be written, and are not only Japanese but also English, Chinese, and all other languages. Alternatively, two or more languages may be mixed. For example, there may be a Web page, HTML, XML, Word file, or the like.
文書から会社名を取得するとは、文書から、会社名が記載されている部分を割り出し、会社名を抽出することである。 Obtaining a company name from a document means that a part in which the company name is described is determined from the document and the company name is extracted.
会社ルールとは、文書から会社名を抽出するルールである。例えば、会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、会社名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名を取得する会社ルールの場合、「<td>社名</td><td>株式会社%会社名%</td>」などとして表す。 The company rule is a rule for extracting a company name from a document. For example, it may be a sentence pattern in which the company name can be directly extracted, or a sentence pattern that specifies a sentence in which the company name is described. When the document is a Web page, it may be an HTML tag structure pattern that directly extracts a company name, or an HTML tag structure pattern that specifies a sentence in which the company name is described. . Moreover, the same pattern as the above which cannot extract a company name may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, in the case of a company rule for acquiring a company name described in the “% company name%” portion, “<td> company name </ td> <td>% company name% </ td>”. And so on.
会社ルールデータベース108は、会社ルールだけでなく、会社ルールの取得回数や取得割合、または会社ルールが抽出する対象を格納しても良い。会社ルールが抽出する対象とは、文書から会社ルールを利用した結果、会社名を取得する場合と、会社名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「会社名」または「文章」などの値を格納しても良い。
The
商品ルールデータベース109は、文書から商品名を取得するためのルールである1以上の商品ルールを格納し得る。 The merchandise rule database 109 can store one or more merchandise rules that are rules for obtaining a merchandise name from a document.
文書から商品名を取得するとは、文書から、商品名が記載されている部分を割り出し、商品名を抽出することである。 Obtaining the product name from the document means that the part in which the product name is described is determined from the document and the product name is extracted.
商品ルールとは、文書から商品名を取得するルールである。例えば、商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名を取得する商品ルールの場合、「<title>商品名一覧</title>.*?<div.*?><h[1−5].*?>一覧<h[1−5]></div><ul.*?>(<li.*?><a.*?>%商品名%</a></</li>)+</ul>」などとして表す。 The product rule is a rule for acquiring a product name from a document. For example, it may be a sentence pattern from which a product name can be directly extracted, or a sentence pattern that specifies a sentence in which a product name is described. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts a product name, or an HTML tag structure pattern that specifies a sentence in which the product name is described. . Moreover, the pattern similar to the above which cannot extract a brand name may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, in the case of a product rule for acquiring a product name described in the “% product name%” part, “<title> product name list </ title>. *? <Div. *?> <H [ 1-5]. *?> List <h [1-5]> </ div> <ul. *?> (<Li. *?> <A. *?>% Product name% </a> <// </ Li>) + </ ul> ".
商品ルールデータベース109は、商品ルールだけでなく、商品ルールの取得回数や取得割合、または商品ルールが抽出する対象を格納しても良い。商品ルールが抽出する対象とは、文書から商品ルールを利用した結果、商品名を取得する場合と、商品名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「商品名」または「文章」などの値を格納しても良い。 The product rule database 109 may store not only the product rules but also the number of acquisitions and the acquisition ratio of the product rules, or the objects extracted by the product rules. The target of product rule extraction is when there is a possibility of acquiring multiple types of information, such as when acquiring a product name as a result of using a product rule from a document, or when acquiring a sentence containing the product name , A value that clearly specifies what to get. Specifically, a value such as “product name” or “text” may be stored.
固有名称ルールデータベース110は、文書から商品の固有名称を取得するためのルールである1以上の固有名称ルールを格納し得る。
The unique
文書から商品の固有名称を取得するとは、文書から、商品の固有名称が記載されている部分を割り出し、商品名を抽出することである。 Obtaining the unique name of the product from the document means that the part in which the unique name of the product is described is determined from the document and the product name is extracted.
固有名称ルールとは、文書から商品の固有名称を取得するルールである。例えば、商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%固有名称%」の部分に記載された商品の固有名称を取得する固有名称ルールの場合、「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The unique name rule is a rule for acquiring a unique name of a product from a document. For example, the pattern of the text which can extract the specific name of goods directly may be sufficient, and the text pattern which specifies the text in which the unique name of goods is described may be sufficient. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts the unique name of the product, or an HTML tag structure pattern that specifies a sentence in which the unique name of the product is described. There may be. Moreover, the same pattern as the above which cannot extract the proper name of goods may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, in the case of the unique name rule for acquiring the unique name of the product described in the “% unique name%” part, the “<title> product list </ title>. *? <Span. *?> List </ Span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul>
固有名称ルールデータベース110は、固有名称ルールだけでなく、固有名称ルールの取得回数や取得割合、または固有名称ルールが抽出する対象を格納しても良い。固有名称ルールが抽出する対象とは、文書から固有名称ルールを利用した結果、商品の固有名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「商品の固有名称」または「文章」などの値を格納してもよい。
The unique
知識増殖ルールデータベース111は、文書から、構成数が少ない情報を用いて、より構成数の多い情報を取得するルールである1以上の知識増殖ルールを格納し得る。
The knowledge
構成数が少ない情報を用いて、より構成数の多い情報を取得するとは、以下の情報のことである。
・会社データベース101に格納されている情報を用いて、会社商品データベース104、および会社固有名称データベース105、および会社商品固有名称データベース107に格納されている情報を取得すること
・商品データベース102に格納されている情報を用いて、会社商品データベース104、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
・固有名称データベース103に格納されている情報を用いて、会社固有名称データベース105、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
・会社商品データベース104に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
・会社固有名称データベース105に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
・商品固有名称データベース106に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報。を取得すること
The acquisition of information with a larger number of components using information with a smaller number of components is the following information.
-Using the information stored in the
知識増殖ルールとは、文書から会社名、または商品名、または商品の固有名称から1、または2種類の情報を利用して、残る2、または1種類の情報を取得するルールである。具体的には、第一知識増殖ルールと、第二知識増殖ルールと、第三知識増殖ルールと、第四知識増殖ルールと、第五知識増殖ルールと、第六知識増殖ルールと、第七知識増殖ルールと、第八知識増殖ルールと、第九知識増殖ルールと、第十知識増殖ルールと、第十一知識増殖ルールと、第十二知識増殖ルールとがある。 The knowledge proliferation rule is a rule for acquiring the remaining two or one type of information using one or two types of information from a company name, a product name, or a unique name of a product from a document. Specifically, the first knowledge proliferation rule, the second knowledge proliferation rule, the third knowledge proliferation rule, the fourth knowledge proliferation rule, the fifth knowledge proliferation rule, the sixth knowledge proliferation rule, and the seventh knowledge There are a proliferation rule, an eighth knowledge proliferation rule, a ninth knowledge proliferation rule, a tenth knowledge proliferation rule, an eleventh knowledge proliferation rule, and a twelfth knowledge proliferation rule.
第一知識増殖ルールは、文書から、会社名を用いて、会社名と商品名との組を取得する。会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
The first knowledge proliferation rule acquires a combination of a company name and a product name from a document using the company name. Using the company name may be, for example, selecting a document in which one or more company names stored in the
第一知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品名を直接抽出するHTMLタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。 The first knowledge proliferation rule may be, for example, a sentence pattern in which a product name related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts a product name related to the company name from the Web page on which the company name is described. It may be an HTML tag structure pattern that identifies a sentence that is being read. Moreover, the same pattern as the above which cannot extract the product name related to the company name from the document in which the company name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part, the “<title>% company name% (Handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A. *?>% Product name% </a> </ Li>) + </ ul> ".
第二知識増殖ルールは、文書から、会社名を用いて、会社名と商品の固有名称との組を取得する The second knowledge proliferation rule uses the company name from the document to obtain a combination of the company name and the unique name of the product
会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the company name may be, for example, selecting a document in which one or more company names stored in the
第二知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The second knowledge proliferation rule may be, for example, a sentence pattern in which a proper noun of a product related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies sentences in which nouns are written. When the document is a Web page, it may be an HTML tag structure pattern that directly extracts a proper noun of a product related to the company name from the Web page in which the company name is described. The pattern of the HTML tag structure which specifies the sentence in which the noun is described may be sufficient. Moreover, the same pattern as the above which cannot extract the proper noun of the product related to the company name from the document in which the company name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product unique name described in the “% unique name%” part, the “<title>% company name” % (Handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% < / A> </ li>) + </ ul> ".
第三知識増殖ルールは、文書から、会社名を用いて、会社名と商品名と商品の固有名称との組を取得する。 The third knowledge proliferation rule obtains a set of a company name, a product name, and a product unique name from a document using the company name.
会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the company name may be, for example, selecting a document in which one or more company names stored in the
第三知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品名を直接特定し商品の固有名称を含む文章を特定するHTMLタグ構造のパターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接特定するHTMLタグ構造のパターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The third knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a product name related to a company name and a proper noun of the product among documents in which the company name is described, It may be a sentence pattern that directly extracts the product name and identifies a sentence that includes the unique name of the product, or a sentence pattern that identifies a sentence that includes the product name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. If the document is a web page, it may be a pattern of an HTML tag structure that directly extracts a product name related to the company name and a proper noun of the product from the web page in which the company name is described, It may be an HTML tag structure pattern that directly identifies the product name and identifies a sentence that includes the unique name of the product, or an HTML tag structure pattern that identifies the sentence including the product name and directly identifies the proper noun of the commodity. Alternatively, it may be an HTML tag structure pattern that specifies a sentence in which a product name and a proper noun of the product are described. Moreover, the same pattern as the above in which the product name related to the company name and the proper noun of the product cannot be extracted from the document in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.
第四知識増殖ルールは、文書から、商品名を用いて、会社名と商品名との組を取得する。 The fourth knowledge proliferation rule acquires a combination of a company name and a product name from a document using a product name.
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the product name may be, for example, selecting a document in which one or more product names stored in the
第四知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。 The fourth knowledge proliferation rule may be, for example, a sentence pattern in which a company name related to a product name can be directly extracted from a document in which the product name is described, and the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts the company name related to the product name from the Web page on which the product name is described. The pattern of the HTML tag structure which identifies the sentence currently carried out may be sufficient. In addition, a pattern similar to the above in which a company name related to a product name cannot be extracted from documents in which the product name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part, the “<title>% company name% (Handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A. *?>% Product name% </a> </ Li>) + </ ul> ".
第五知識増殖ルールは、文書から、商品名を用いて、商品名と商品の固有名称との組を取得する。 The fifth knowledge proliferation rule acquires a set of a product name and a unique name of the product from the document using the product name.
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the product name may be, for example, selecting a document in which one or more product names stored in the
第五知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The fifth knowledge proliferation rule may be, for example, a sentence pattern in which a unique name of a product related to the product name can be directly extracted from a document in which the product name is described. It may be a sentence pattern that identifies a sentence in which a name is described. If the document is a Web page, it may be an HTML tag structure pattern that directly extracts the unique name of the product related to the product name from the Web page describing the product name. It may be an HTML tag structure pattern that identifies a sentence in which a unique name is described. Moreover, the same pattern as the above which cannot extract the unique name of the product related to the product name among the documents in which the product name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of a product name described in the “% product name%” part and a unique name of the product described in the “% unique name%” part, “<span. *?> % Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .
第六知識増殖ルールは、文書から、商品名を用いて、会社名と商品名と商品の固有名称との組を取得する。 The sixth knowledge proliferation rule acquires a combination of a company name, a product name, and a product unique name from a document using the product name.
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the product name may be, for example, selecting a document in which one or more product names stored in the
第六知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品の固有名称を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定するタグHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The sixth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a product name and a proper noun of the product among documents in which the product name is described, It may be a sentence pattern that directly extracts the company name and identifies the sentence including the unique name of the product, or may be a sentence pattern that identifies the sentence including the company name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. If the document is a Web page, the HTML tag structure pattern may be used to directly extract the company name and product proper nouns that are related to the product name from the Web page on which the product name is described. The HTML tag structure pattern that directly identifies the company name and identifies the sentence including the unique name of the product may be used, or the HTML tag structure that identifies the sentence including the company name and directly identifies the proper noun of the commodity. A pattern may be sufficient, and the pattern of the tag HTML tag structure which specifies the text in which the company name and the proper noun of the product are described may be used. Moreover, the same pattern as the above in which the company name related to the product name and the proper noun of the product cannot be extracted from the document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.
第七知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品の固有名称との組を取得する。 The seventh knowledge proliferation rule acquires a combination of a company name and a product unique name from a document using the product unique name.
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the
第七知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The seventh knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a unique name of a product from documents in which the unique name of the product is described. It may be a sentence pattern that specifies a sentence in which a name is described. If the document is a Web page, it may be a pattern of an HTML tag structure that directly extracts a company name related to the unique name of the product from the Web page in which the unique name of the product is described. The pattern of the HTML tag structure which specifies the text in which the company name is described may be sufficient. Moreover, the same pattern as the above which cannot extract the company name related to the unique name of the product among the documents in which the unique name of the product is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of the company name described in the “% company name%” part and the product unique name described in the “% unique name%” part, the “<title>% company name” % (Handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% < / A> </ li>) + </ ul> ".
第八知識増殖ルールは、文書から、商品の固有名称を用いて、商品名と商品の固有名称との組を取得する。 The eighth knowledge proliferation rule acquires a set of a product name and a product unique name from a document using the product unique name.
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the
第八知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The eighth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract the product name related to the product unique name from the document in which the product unique name is described. It may be a sentence pattern that specifies a sentence in which a name is described. Further, when the document is a Web page, it may be an HTML tag structure pattern that directly extracts the product name related to the product unique name from the Web page in which the product unique name is described. It may be an HTML tag structure pattern that identifies a sentence in which a product name is described. Moreover, the same pattern as the above which cannot extract the product name relevant to the product unique name among the documents in which the product unique name is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, when acquiring a combination of a product name described in the “% product name%” part and a unique name of the product described in the “% unique name%” part, “<span. *?> % Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .
第九知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品名と商品の固有名称との組を取得する。 The ninth knowledge proliferation rule acquires a set of a company name, a product name, and a product unique name from a document using the product unique name.
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the
第九知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品名を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品名を直接抽出する文章パターンであっても良く、会社名と商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品名を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品名を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The ninth knowledge proliferation rule is, for example, a sentence pattern in which a company name and a product name related to a product unique name can be directly extracted from a document in which a product unique name is described. It may be a sentence pattern that directly extracts a company name and identifies a sentence including the product name, or a sentence pattern that identifies a sentence including the company name and directly extracts the product name. It may be a sentence pattern that specifies a sentence in which a name is described. If the document is a Web page, the HTML tag structure pattern that directly extracts the company name and the product name related to the product unique name from the Web page on which the product unique name is described. It may be an HTML tag structure pattern that directly identifies a company name and identifies a sentence including a product name, or an HTML tag structure pattern that identifies a sentence including a company name and directly identifies a product name. It may be a pattern of an HTML tag structure that specifies a sentence in which a company name and a product name are described. Moreover, the same pattern as the above which cannot extract the company name and the product name related to the unique name of the product among the documents in which the unique name of the product is described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.
第十知識増殖ルールは、文書から、会社名と商品名の組を用いて、会社名と商品名と商品の固有名称との組を取得する。 The tenth knowledge proliferation rule acquires a combination of a company name, a product name, and a unique name of a product from a document using a combination of the company name and the product name.
会社名と商品名の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、会社名と、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using a combination of a company name and a product name includes, for example, one or more company names stored in the
第十知識増殖ルールとは、例えば、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名と商品名が記載されているWebページのうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The tenth knowledge proliferation rule is, for example, a sentence pattern in which a unique name of a product related to a company name and a product name can be directly extracted from documents in which the company name and the product name are described. Alternatively, it may be a sentence pattern that specifies a sentence in which the unique name of the product is described. Further, when the document is a Web page, it is an HTML tag structure pattern that directly extracts a unique name of a product related to the company name and the product name from the Web page describing the company name and the product name. It may be a pattern of an HTML tag structure that specifies a sentence in which a proper name of a product is described. Moreover, the same pattern as the above which cannot extract the unique name of the product related to the company name and the product name among the documents in which the company name and the product name are described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.
第十一知識増殖ルールは、文書から、会社名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得する。 The eleventh knowledge proliferation rule acquires a combination of a company name, a product name, and a unique name from a document using a combination of the company name and the unique name of the product.
会社名と固有名称の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、会社名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using a combination of company name and unique name means, for example, one or more company names stored in the
第十一知識増殖ルールとは、例えば、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名と商品の固有名称が記載されているWebページのうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The eleventh knowledge proliferation rule is, for example, a sentence pattern in which a product name related to a company name and a product unique name can be directly extracted from a document in which the company name and product unique name are described. It may be a sentence pattern that identifies a sentence in which a product name is described. If the document is a Web page, an HTML tag structure pattern that directly extracts the product name related to the company name and the product unique name from the Web page describing the company name and the product unique name. It may be a pattern of an HTML tag structure that specifies a sentence in which a product name is described. Moreover, the same pattern as the above which cannot extract the product name related to the company name and the unique name of the product among the documents in which the company name and the unique name of the product are described may be used. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.
第十二知識増殖ルールは、文書から、商品名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得する。 The twelfth knowledge proliferation rule acquires a combination of a company name, a product name, and a unique name from a document using a combination of a product name and a unique name of the product.
商品名と固有名称の組を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using a combination of a product name and a unique name means, for example, one or more product names stored in the
第十二知識増殖ルールとは、例えば、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名と商品の固有名称が記載されているWebページのうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The twelfth knowledge proliferation rule is, for example, a sentence pattern that can directly extract a company name related to a product name and a product unique name from a document in which a product name and a product unique name are described. It may be a sentence pattern that specifies a sentence in which a company name is described. If the document is a Web page, the HTML tag structure pattern that directly extracts the company name related to the product name and the product unique name from the Web page describing the product name and the product unique name. It may be a pattern of an HTML tag structure that specifies a sentence in which a company name is described. Moreover, the same pattern as the above in which the company name related to the product name and the product unique name cannot be extracted from the document in which the product name and the product unique name are described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the above-described rules may be combined. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. When acquiring a set of unique names of “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. * ?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> ”.
知識増殖ルールデータベース111は、知識増殖ルールだけでなく、知識増殖ルールの種類、または知識増殖ルールの取得回数や取得割合、または知識増殖ルールが抽出する対象を格納しても良い。知識増殖ルールが抽出する対象とは、文書から知識増殖ルールを利用した結果、会社名、または商品名、または商品の固有名称といった名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「名称」または「文章」などの値を格納してもよい。
The knowledge
また、知識増殖ルールデータベース111は、上述の各知識増殖ルールをフラグとして保持しても良く、または上述の知識増殖ルールごとに別々のデータベースであっても良い。
The knowledge
会社名取得部112は、1以上のWebサーバ装置から、1以上の会社ルールを用いて、1以上の会社名を取得し、会社データベース101に蓄積する。
The company
Webサーバ装置とは、具体的には、Webサービス、またはデータベースを公開するサーバ装置である。Webサービスとは、HTML形式などのマークアップ言語などにより構成されるものを公開していることに限るものではなく、例えば、Webブラウザ上や専用のアプリケーション実行環境上で動作可能なアプリケーションソフトウェアのシステムを公開していることであっても良い。Webサーバ装置は、インターネット上に公開されているものでも良く、ローカルエリア上に公開されているものでも良い。 Specifically, the Web server device is a server device that publishes a Web service or a database. The Web service is not limited to publishing what is configured in a markup language such as HTML format. For example, a system of application software operable on a Web browser or a dedicated application execution environment May be published. The Web server device may be published on the Internet or may be published on a local area.
会社名取得部112は、Webサーバ装置から取得したWebページから会社ルールを用いて会社名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
The company
会社ルールを用いて会社名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社ルールデータベース108に登録されている会社ルールから会社名を取得することである。例えば、任意の会社ルールで「%会社名%」と記載されている部分に当てはまる文字列を取得する。
Acquiring a company name using a company rule means acquiring a company name from a company rule registered in the
会社名を会社データベース101に蓄積する際、使用した会社ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを会社データベース101に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。
When the company name is stored in the
商品名取得部113は、1以上のWebサーバ装置から、1以上の商品ルールを用いて、1以上の商品名を取得し、商品データベース102に蓄積する。
The product
商品名取得部113は、Webサーバ装置から取得したWebページから商品ルールを用いて商品名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
The product
商品ルールを用いて商品名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから商品名を取得することである。例えば、任意の商品ルールで「%商品名%」と記載されている部分に当てはまる文字列を取得する。 Acquiring a product name using a product rule is to acquire a product name from a document acquired from a Web server device, an HTML structure, or the like. For example, a character string corresponding to a portion described as “% product name%” in an arbitrary product rule is acquired.
商品名を商品データベース102に蓄積する際、使用した商品ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを商品データベース102に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。
When accumulating product names in the
固有名称取得部114は、1以上のWebサーバ装置から、1以上の固有名称ルールを用いて、1以上の固有名称を取得し、固有名称データベース103に蓄積する。
The unique
固有名称取得部114は、Webサーバ装置から取得したWebページから固有名称ルールを用いて商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
The unique
固有名称ルールを用いて商品の固有名称を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから商品の固有名称を取得することである。例えば、任意の固有名称ルールで「%固有名称%」と記載されている部分に当てはまる文字列を取得する。 Acquiring the unique name of the product using the unique name rule is to acquire the unique name of the product from the document acquired from the Web server device or the structure of HTML. For example, a character string corresponding to a portion described as “% unique name%” in an arbitrary unique name rule is acquired.
商品の固有名称を固有名称データベース103に蓄積する際、使用した固有名称ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを固有名称データベース103に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。
When storing the unique name of the product in the
知識獲得部115は、1以上のWebサーバ装置から、会社データベース101の1以上の各会社名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、商品データベース102の1以上の各商品名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、固有名称データベース103の1以上の各固有名称と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、会社商品データベース104の1以上の会社名と商品名の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。または、会社固有名称データベース105の1以上の会社名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。または、商品固有名称データベース106の1以上の商品名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。
The
知識獲得部115は、Webサーバ装置から取得したWebページから知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
The
会社データベース101の1以上の各会社名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101に蓄積されている会社名が出現し、かつ知識増殖データベースに蓄積されている第一知識増殖、または第二知識増殖ルール、または第三知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
One or more company names and product names, or one or more company names and unique names, or one or more company names, using one or more company names and one or more knowledge proliferation rules in the
商品データベース102の1以上の各商品名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、商品データベース102に蓄積されている商品名が出現し、かつ知識増殖データベースに蓄積されている第四知識増殖、または第五知識増殖ルール、または第六知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
One or more company names and product names, or one or more product names and unique names, or one or more company names using one or more product names and one or more knowledge proliferation rules in the
固有名称データベース103の1以上の各固有名称と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、固有名称データベース103に蓄積されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第七知識増殖ルール、または第八知識増殖ルール、または第九知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
One or more company names and unique names, or one or more product names and unique names, or one or more company names using one or more unique names and one or more knowledge proliferation rules in the
会社商品データベース104の1以上の会社名と商品名の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101の会社名と商品データベース102に蓄積されている商品名が出現し、かつ知識増殖データベースに蓄積されている第十知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
The acquisition of one or more company names, product names, and unique names using one or more pairs of one or more company names and product names in the
会社固有名称データベース105の1以上の会社名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101の会社名と固有名称データベース103に蓄積されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第十一知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
The acquisition of one or more company names, product names, and unique names using one or more pairs of one or more company names and product unique names in the company
商品固有名称データベース106の1以上の商品名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、商品データベース102に蓄積されている商品名と固有名称データベース103に登録されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第十二知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
The acquisition of one or more company names, product names, and unique names using one or more pairs of one or more product names and product unique names in the product
会社名、および商品名、および商品の固有名称を対応する各データベースに蓄積する際、使用した知識増殖ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを各データベースに登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。 When accumulating company names, product names, and product unique names in the corresponding databases, only information that exceeds the threshold by setting a certain threshold for the number of acquisitions and acquisition ratio of the knowledge proliferation rules used May be registered in each database. The threshold value may be arbitrarily set according to the operation.
ルール学習部116は、1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索し、1以上の情報が出現する1以上のパターンを取得し、パターンが予め決められた条件を満たすほどよく出現する1以上のパターンを取得し、1以上のパターンを対応する各ルールデータベースに蓄積する。 The rule learning unit 116 searches for one or more Web server devices using one or more pieces of information existing in one or more databases, acquires one or more patterns in which one or more pieces of information appear, and the patterns are stored in advance. One or more patterns that appear more frequently as the predetermined condition is satisfied are acquired, and the one or more patterns are accumulated in the corresponding rule databases.
1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索するとは、具体的には、会社データベース101、または商品データベース102、または固有名称データベース103、または会社商品データベース104、または会社固有名称データベース105、または商品固有名称データベース106から1以上のデータベースに格納されている1以上の任意の情報を検索キーワードとして、サーバ装置を検索することである。
Specifically, searching for one or more Web server devices using one or more information existing in each of one or more databases means
Webサーバ装置を検索するとは、例えば、インターネット上のWebサーバ装置(図示せず)が提供するWebページに含まれる文字列情報を検索対象とした検索である。Web検索は、例えば、検索用サイトを利用して行われる。ここでは、例えば、検索用サイトが提供するいわゆる検索エンジンに検索キーを含むクエリなどを送信し、検索エンジンが送信する検索結果を示す情報を受信することを、例えば、Web検索を行うことと考える。検索キーの送信などは、検索エンジンが提供するAPIなどを利用することで可能である。 Searching for a Web server device is, for example, searching for character string information included in a Web page provided by a Web server device (not shown) on the Internet. Web search is performed using a search site, for example. Here, for example, transmitting a query including a search key to a so-called search engine provided by a search site and receiving information indicating a search result transmitted by the search engine is considered to be a web search, for example. . The search key can be transmitted by using an API provided by the search engine.
1以上の情報が出現する1以上のパターンを取得するとは、サーバ装置を検索した結果取得した情報から、検索に使用した1以上の各データベースに存在する1以上の情報が含まれているパターンを取得することである。パターンとは、例えば、文章のパターンであっても良く、対象がWebページの場合は、HTMLのタグ構造のパターンであっても良く、上述したルールが複合的に合わさっていても良い。パターンの取得は、会社名、および商品名、および商品の固有名称を取得できる内容あれば何でも良く、例えば文章全体をパターンとして取得しても良く、複数の文章から検索に用いた情報を含む最長共通部分列を取得しても良い。 To acquire one or more patterns in which one or more information appears is a pattern including one or more information existing in one or more databases used for the search from information acquired as a result of searching the server device. Is to get. The pattern may be, for example, a sentence pattern. If the target is a Web page, the pattern may be an HTML tag structure pattern, or the above-described rules may be combined. The acquisition of the pattern may be anything that can acquire the company name, the product name, and the unique name of the product, for example, the entire sentence may be acquired as a pattern, and the longest including information used for the search from multiple sentences The common partial sequence may be acquired.
予め決められた条件を満たすほど良く出現する1以上のパターンを取得は、各ルールデータベースに登録する条件を予め定め、その条件を良く満たすパターンのみを取得する。
予め決められた条件とは、各ルールデータベースに登録する条件を予め定めたものである。条件は、パターンを評価できる値であればなんでも良い。例えば、パターンの取得回数であっても良く、取得したすべてのパターンのうちそのパターンが占める割合であっても良い。
To acquire one or more patterns that appear more frequently when a predetermined condition is satisfied, a condition to be registered in each rule database is determined in advance, and only patterns that satisfy the condition are acquired.
The predetermined condition is a condition that is registered in advance in each rule database. The condition may be any value that can evaluate the pattern. For example, it may be the number of times the pattern is acquired, or may be the ratio occupied by the pattern among all the acquired patterns.
1以上のパターンを対応する各ルールデータベースに蓄積するとは、予め決められた条件を満たすほど良く出現したパターンをそのパターンに対応するデータベースに登録する。対応するデータベースとは、会社名を取得するパターンであれば会社ルールデータベース108、商品名を取得するパターンであれば商品ルールデータベース109、商品の固有名称を取得するパターンであれば固有名称ルールデータベース110、会社名と商品名の組を取得するパターン、および会社名と商品の固有名称の組を取得するパターン、および商品名と商品の固有名称の組を取得するパターン、および会社名と商品名と商品の固有名称の組を取得するパターンであれば知識増殖ルールデータベース111に登録する。
To store one or more patterns in each corresponding rule database, a pattern that appears better enough to satisfy a predetermined condition is registered in the database corresponding to the pattern. The corresponding database is a
また、ルール学習部116は、2種類以上の情報の組を格納しているデータベースに存在する1以上の情報を用いて、1以上のパターンを取得した場合は、2種類以上の情報の組に対応するルールデータベース、および2種類以上の情報の組の一部分の情報を用いて、2種類以上の情報の組に対応する1以上のルールデータベースに、1以上のパターンを蓄積する。 In addition, when the rule learning unit 116 acquires one or more patterns using one or more information existing in a database storing two or more types of information sets, the rule learning unit 116 sets the two or more types of information sets. One or more patterns are stored in one or more rule databases corresponding to two or more types of information sets using the corresponding rule database and a part of information of two or more types of information sets.
2種類以上の情報の組とは、会社名と商品名、または会社名と商品の固有名称、または商品名と商品の固有名称、または会社名と商品名と商品の固有名称の情報である。2種類以上の情報の組を格納しているデータベースとは、会社商品データベース104、または固有名称データベース103、または商品固有名称データベース106、または会社商品固有名称データベース107である。1以上のパターンを取得した場合とは、2種類以上の情報の組を用いて、会社名と商品名と商品の固有名称のうち2種類以上の組を含むパターンを取得した場合である。2種類以上の情報の組の一部分の情報を用いてとは、2種類の情報の組であった場合は各々の情報、3種類の情報の組であった場合は各々、および任意の2種類の情報の組のすべての組み合わせを用いることである。これら分解した情報を用いてパターンを取得し、取得したパターンを対応するデータベースに登録する。例えば、2種類以上の情報の組が会社名と商品名であった場合、会社名と商品名を取得するパターンを取得するだけでなく、会社名を取得するパターンと商品名を取得するパターンについても取得し、各々対応する知識増殖ルールデータベース111、または会社ルールデータベース108、または商品ルールデータベース109に蓄積する。
The set of two or more types of information is information on a company name and a product name, or a company name and a product unique name, or a product name and a product unique name, or a company name, a product name, and a product unique name. The database storing a set of two or more types of information is the
図2は、本実施の形態におけるデータベース構築装置2のブロック図である。データベース構築装置2は、会社商品固有名称データベース107、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、会社類似群コード固有名称データベース構築部23を備える。
FIG. 2 is a block diagram of the
商品類似群コード対応データベース21は、商品名と類似群コードを関連付けて保持するデータベースである。商品名は会社商品固有名称データベース107に格納されている商品名と同様、法人、および個人が販売、または提供している商品、または役務の名称である。ここでいう商品、および役務の名称は、類似群コード表に記載されている商品、および役務の名称に必ずしも準じていなくても良い。類似群コードとは、商標の審査基準上、互いに類似するものと考えられる商品、役務に付与されたコードで、数字2桁とアルファベット1桁と数字2桁のコードである。(http://www.jpo.go.jp/shiryou/kijun/kijun2/ruiji_kijun9.htm)
The product similar group
商品類似群コード対応データベース21における商品名と類似群コードは、通常1対多の関係で格納されており、複数の商品名に対して同一の類似群コードが関連付けられて格納されている。
The product names and the similar group codes in the product similar group
会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107に格納されている1以上の会社名と商品名と商品の固有名称の組から商品名を取得し、取得した商品名を用いて、商品類似群コード対応データベース21から商品の類似群コードを取得し、会社名と取得した類似群コードと商品の固有名称との組を会社類似群コード固有名称データベース22に蓄積する。
The company similar group code unique name
図3は、本実施の形態における商標侵害検知装置3のブロック図である。商標侵害検知装置3は、データベース31、受付部32、商標類否判断部33、商品類否判断部34、出力部35を備える。
FIG. 3 is a block diagram of the trademark
データベース31は、データベース構築装置1が構築した会社商品固有名称データベース107であっても良く、データベース構築装置2が構築した会社類似群コード固有名称データベース22であっても良い。
The
受付部32は、商標および商品の類似群コードを特定する情報であるコード特定情報を有する調査対象商標情報を受け付ける。調査対象商標情報とは、例えば、商標の文字列である商標文字列と、1以上のコード特定情報の組である。コード特定情報とは、商品名、または類似群コードそのものなどの類似群コードを特定する文字列である。商標文字列、および商品名の文字列は1文字以上の文字で構成される。商標文字列、および商品名の文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。また2種類以上の文字が混在していてもよい。ここでの受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線または無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。調査対象商標情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。受付部32は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。
The receiving
商標類否判断部33は、データベース31が有する1以上の商品の固有名称と、調査対象商標情報が有する商標とを用いて、商標の類否判断を行う。
The trademark
図4は、本実施の形態における商標侵害検知装置3の商標類否判断部33のブロック図である。商標類否判断部33は、商標文字列取得部331、称呼取得部332、称呼表示部333、称呼指定受付部334、類似検索部335、商標類否判断結果取得部336を備える。
FIG. 4 is a block diagram of the trademark
商標文字列取得部331は、商標の文字列である商標文字列を受け付ける。商標文字列は1文字以上の文字で構成される。商標文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。
The trademark character
称呼取得部332は、商標文字列取得部331が受け付けた商標文字列から、この商標文字列の称呼の情報である称呼情報を取得する。称呼取得部332は、一の商標文字列から複数の称呼情報を取得しても良い。称呼取得部332が取得する称呼情報は、ひらがなまたはカタカナまたはこれらと同などの情報である。称呼情報がこれらのいずれであるかは、例えば、この称呼情報を検索に利用する後述する類似検索部335の仕様などによって決定される。
The
称呼取得部332は、称呼情報をどのように取得しても良い。例えば、称呼取得部332は、1以上の文字列と、当該文字列の読みの情報とを対応付けて有する辞書を用いて、図示しない記憶媒体などに格納されている辞書を用いて商標文字列取得部331が受け付けた商標文字列に対応する1以上の称呼情報を自動取得するようにしてもよい。また、ユーザなどから図示しない入力デバイスなどを介して入力された商標文字列に対応する1以上の称呼情報を取得(受付)してもよい。この実施の形態においては、特に、称呼情報を自動取得する場合を例に挙げて説明する。
The
称呼取得部332は、例えば、商標文字列に対して形態素解析を行い、形態素解析により得られた商標文字列の読みの情報を称呼情報として取得する。例えば、形態素解析を用いることにより、商標文字列を形態素に分解し、分解された各文字列の読みを取得し、この文字列を組み合わせることで商標文字列の称呼情報を取得することが可能である。形態素解析においては、形態素の分解や形態素に分解された文字列からの読みの取得は、例えば、上記と同様の、形態素となりうる文字列と、その読みの情報とを対応付けて有する辞書を用いて行われる。形態素解析としては、例えば、「Mecab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen.naist.jp)などの形態素解析システムなどが利用可能である。
For example, the
また、称呼取得部332は、商標文字列を構成する漢字や、数字や、アルファベットなどの文字や単語などを読みに変換して、称呼情報を取得しても良い。漢字や、数字の文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのいわゆる再変換技術や、上述したような形態素解析システムの技術により実現可能である。また、アルファベットの文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのアルファベット列の入力を日本語に変換する技術により実現可能である。アルファベット列を日本語の読みに変換する技術は、例えば、特開2009−199434号公報などに開示されている。なお、アルファベットや、漢字や、数字の称呼(読み)は、一通りとは限らないため、称呼取得部332は、様々な組合せの複数の情報を取得しても良い。例えば「IT」から「アイティー」、「アイティイ」と「イット」という複数の称呼を取得しても良い。また、「山田」から「ヤマダ」、「ヤマタ」、「ヤマデン」、「サンデン」、「サンダ」、「サンタ」という複数の称呼を取得しても良い。
The
また、称呼取得部332は、商標文字列を構成し得る文字列(例えば、漢字や、アルファベットや、数字など)と、その読みの情報(辞書情報)を予め図示しない格納部に蓄積しておくようにし、商標文字列を構成する各文字についてそれぞれ1以上の読みの情報を取得して、取得した読みの情報を組み合わせたものを称呼情報として取得してもよい。
Further, the
また、例えば、1以上の文字列とその読みを示すカタカナまたはひらがなとを対応付けて有する予め用意された形態素の辞書情報について、称呼取得部332が、商標文字列に含まれるカタカナまたはひらがな以外の文字列と一致する文字列を検索し、検出された文字列に対応付けられた読み(称呼)の情報を辞書情報から順次取得していくことで実現可能である。なお、一の文字列について読みが複数ある場合や、検索に用いる文字数の区切で異なる称呼が得られる場合には、複数の読みを組み合わせたり区切を変更したりしてこれらを適宜組み合わせて複数の称呼情報を取得する。このような辞書情報は、例えば、称呼取得部332が、予め保持しているようにすればよい。称呼取得部332は、このような辞書情報を保持する記憶媒体などを有していても良い。
Further, for example, with respect to morpheme dictionary information prepared in advance having one or more character strings associated with katakana or hiragana indicating the reading, the
称呼取得部332は、さらに、上記で取得した1以上の称呼情報を分割して1以上の分割称呼情報を取得してもよい。分割称呼情報は、具体的には、称呼情報の一部分の情報である。分割称呼情報は、例えば、後述する類似検索などで称呼情報と実質的に同じものとして利用される。例えば、称呼取得部332は、取得した称呼情報のそれぞれの文字列を、任意の位置で区切って、その区切った位置によって分割される前または後、またはその両方の文字列を分割称呼情報として取得する。また、称呼取得部332は、文字列の区切る位置を順次変更して、それぞれの区切る位置に応じて分割称呼情報を取得しても良い。例えば、称呼取得部332は、各称呼情報を構成する文字列をそれぞれの文字間で区切っていった場合にそれぞれ得られる区切り位置の前後の文字列を、すべて分割称呼情報として取得しても良い。
The
称呼表示部333は、称呼取得部332が取得した1以上の称呼情報を図示しないモニタなどの表示デバイスに表示する。また、称呼表示部333は、称呼取得部332が取得した1以上の分割称呼情報を表示してもよい。称呼表示部333は、表示デバイスを含むと考えても含まないと考えてもよい。称呼表示部333は、表示デバイスのドライバーソフト、または表示デバイスのドライバーソフトと表示デバイスなどで実現され得る。
The
称呼指定受付部334は、称呼取得部332が取得した称呼情報の1以上を指定する称呼指定情報をユーザなどから受け付ける。例えば、称呼指定情報は、称呼表示部333に表示された称呼情報の1以上を指定する称呼指定情報を受け付ける。また、称呼指定受付部334は、称呼取得部332が取得した称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報をユーザなどから受け付けてもよい。例えば、称呼指定受付部334は、称呼表示部333により表示された称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報を受け付ける。なお、称呼指定受付部334は、予めどのような称呼を指定するか定めたルールを設けることで、ユーザに選択させなくても良いようにしてもよい。称呼指定情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。称呼指定受付部334は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。
The designation
類似検索部335は、称呼取得部332が取得した各称呼情報を用いて類似検索を行う。または、類似検索部335は、称呼取得部332が取得した称呼情報のうちの、称呼指定情報が指定する各称呼情報を用いて類似検索を行うようにしてもよい。また、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とを用いて類似検索を行うようにしてもよい。または、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とのうちの、称呼指定情報が指定する称呼情報と分割称呼情報とを用いて類似検索を行うようにしてもよい。称呼指定情報が指定する称呼情報と分割称呼情報とを用いてとは、例えば、指定された称呼情報または分割称呼情報だけを用いることを意味する。類似検索部335は、図示しない記憶媒体などの格納部に予め格納されている登録商標の称呼の情報(以下、登録称呼情報と称す)の中から、称呼情報(または分割称呼情報)と類似する登録称呼情報を検索する。登録称呼情報は会社商品固有名称データベース107、または会社類似群コード固有名称データベース22の固有名称から、予め作成構築しておく。
The
なお、登録商標の称呼の情報が格納されている図示しない格納部は、商標類否判断部33が有していても良いし、図示しない外部のサーバ装置などが有していても良い。また、図示しない登録商標の類似検索の処理を行うサーバ装置などに、称呼情報または分割称呼情報、および類似群コードを送信して類似検索を実行させ、その検索結果を類似検索部335が受信するようにしても良く、このような場合も、類似検索部335が類似検索を行ったと考えて良い。
Note that a storage unit (not shown) in which registered trademark designation information is stored may be included in the trademark
また、類似検索部335による類似検索の処理は、称呼情報の音響学的な判断処理であっても良い。称呼情報の音節などから類似しないと判断される要因を検出し、その要因をペナルティ値に換算し、換算したペナルティ値を用いて、称呼情報が類似するか否かを判断して、商標文字列から取得した称呼情報と類似する称呼情報を登録商標の称呼情報の中から検出する処理である。なお、ここでは、説明の便宜上、分割称呼情報も称呼情報と呼ぶこととする。また、ここでは、登録商標の称呼情報である登録称呼情報が、類似群コードと登録商標の識別情報などと対応付けて図示しない格納部に格納されているものとする。
Further, the similarity search process by the
類似検索部335が取得する類似検索の結果は、例えば、少なくとも類似する登録称呼情報が検出されたか否かを示すことが可能な情報である。例えば、類似検索の結果は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でもよい。また類似する登録称呼情報の数などを示す情報でも良い。また、称呼の情報が、登録商標や、その識別情報(例えば登録番号)などと対応付けて上述した図示しない格納部に格納されている場合、類似する登録称呼情報に対応する登録商標やその識別情報を図示しない格納部から取得して検索結果として出力してもよい。また、登録称呼情報に対応付けられた類似群コードの情報を含む情報を出力してもよい。登録商標の称呼について類似検索を行うための具体的な処理については、上述した特許文献1や、日本の特許庁が提供する称呼検索サービスや、商用データベースの称呼検索サービスなどの技術として公知であるので、ここでは詳細な説明は省略する。
The result of the similarity search acquired by the
商標類否判断結果取得部336は、例えば、類似検索部335による類似検索の結果と、類似検索の結果の各称呼情報と関連する会社名と類似群コード特定情報を取得する。類似検索の結果については、類似検索の結果を、類似検索を行った称呼情報ごとに取得する。また、類似検索の結果については、例えば、類似検索の結果を、類似検索を行った分割称呼情報ごとに取得する。また、称呼が類似すると判断された登録商標や、登録商標の識別情報を示す情報も各証拠情報に対して付加しても良い。
The trademark similarity determination result
商品類否判断部34は、データベース31が有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。調査対象商標情報が商品名を保持していた場合、会社商品固有名称データベース107から調査対象商標情報の商品名に関連する商品名をもつレコードの会社名と商品の固有名称を取得する。調査対象商標情報の商品名に関連したとは、例えば、調査対象商標情報の商品名と会社商品固有名称データベース107の商品名とが同一である、または意味的に類似しているなどの場合である。調査対象商標情報が類似群コードを保持していた場合、会社類似群コード固有名称データベース22から調査対象商標情報の類似群コードと同一の類似群コードをもつレコードの会社名と商品の固有名称を取得する。
The merchandise
出力部35は、商標類否判断部33の判断結果と、商品類否判断部34の判断結果とから、商標の類似、および商品の類似に関する情報を出力する。例えば、類否する情報が検出されたか否かを示すことが可能な情報を出力する。例えば、商標類否判断部33の判断結果の場合は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でも良い。また、類似する登録称呼情報の数などを示す情報でも良い。また、類似する任意数の類似する登録称呼情報であっても良い。また、類似する登録称呼情報に対応する登録商標やその識別情報を出力しても良い。また、上記すべての出力内容について、会社名、または商品名、または類似群コード、または商品の固有名称のうち、一部または全部を付加して出力しても良い。また、例えば商品類否判断部34の判断結果の場合は、該当するコード特定情報の有無を示す情報であっても良いし、該当する1以上のコード特定情報を示す情報でも良い。また、該当するコード特定情報の数などを示す情報でも良い。また、上記すべての出力内容について、会社名、または固有名称のうち、一方または双方を付加して出力しても良い。
The
出力部35は、商標類否判断部33の判断結果すべてと、商品類否判断部34の判断結果をすべて出力しても良く、どちらか一方であっても良い。また、出力部35は商標類否判断部33と商品類否判断部34の結果のうち商品の固有名称が共通するものだけを出力しても良い。
The
ここで述べる出力とは、ディスプレイへの表示、プリンタによる紙などへの印字、外部の装置への送信、記録媒体への蓄積などを含む概念である。出力部35は、表示デバイスを含むと考えても含まないと考えてもよい。出力部35は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。
The output described here is a concept including display on a display, printing on paper or the like by a printer, transmission to an external device, accumulation in a recording medium, and the like. The
図5は、本実施の形態にかかる会社名取得部112の動作の一例を示すフローチャートである。以下、図5を用いて動作について説明する。
FIG. 5 is a flowchart showing an example of the operation of the company
(ステップS401)会社名取得部112は、会社ルールデータベース108から会社ルールを取得する。取得できた場合、ステップS402に進み、取得できなかった場合、終了する。
(Step S401) The company
(ステップS402)会社名取得部112は、カウンターmに1を代入する。
(Step S402) The company
(ステップS403)会社名取得部112は、ステップS401で取得した会社ルールにm番目の会社ルールがあるか否かを判断する。ある場合は、ステップS404に進み、ない場合は、終了する。
(Step S403) The company
(ステップS404)会社名取得部112は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、会社ルールデータベース108から会社名を含む文章を取得する会社ルールを用いて、予め取得した会社名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS405へ進み、取得できなかった場合はステップS410に進む。
(Step S404) The company
(ステップS405)会社名取得部112は、カウンターnに1を代入する。
(Step S405) The company
(ステップS406)会社名取得部112は、ステップS404で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS407に進み、ない場合は、ステップS410に進む。
(Step S406) The company
(ステップS407)会社名取得部112は、ステップS404で取得したWebページのn番目のWebページに対し、ステップS401で取得した会社ルールのm番目の会社ルールを用いて会社名を取得する。取得できた場合は、ステップS408へ進み、取得できなかった場合は、ステップS409に移動する。
(Step S407) The company
(ステップS409)会社名取得部112は、カウンターnをインクリメントする。そして、ステップS406に戻る。
(Step S409) The company
(ステップS410)会社名取得部112は、カウンターmをインクリメントする。そしてステップS403に戻る。
(Step S410) The company
以下、本実施の形態における会社名取得部112の具体的な動作について説明する。なお、この具体例において示した会社名取得部112の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the company
会社名取得部112が、会社ルールデータベース108から会社名を取得するためのすべてのルールを取得する。もし、会社ルールデータベース108に、会社ルールが抽出する対象に関するデータを保持していた場合、「会社名」が対象の会社ルールだけを取得する。また、もし会社ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた会社ルールだけを取得しても良い。今回の具体例では、会社ルールを5種類取得したとする。
The company
図6は会社ルールデータベース108に格納されているデータの一例を示す図である。会社ルールデータベース108は、会社名を取得するパターンを有している。具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名として取得する会社ルールを列挙した。
FIG. 6 is a diagram illustrating an example of data stored in the
会社名取得部112は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
The company
会社名取得部112は取得したすべての会社ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、会社ルールが5種類、Webページが100種類なので500回会社名の取得を行う。具体的には、会社ルールが「<title>%会社名%株式会社</title>」の場合、取得したWebページに「<title>サンプル商事株式会社</title>」と記載されていれば、「サンプル商事」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
The company
会社名取得部112は、会社名が取得できた場合は、会社データベース101に登録する。今回の場合では、「サンプル商事」を登録する。また、もし会社ルールデータベース108が会社ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル商事株式会社</title>」も一緒に登録しても良い。
The company
以上、本実施の形態によれば、任意のWebページから会社名を取得できる。 As described above, according to the present embodiment, a company name can be acquired from an arbitrary Web page.
図7は、本実施の形態にかかる商品名取得部113の動作の一例を示すフローチャートである。以下、図7を用いて動作について説明する。
FIG. 7 is a flowchart showing an example of the operation of the product
(ステップS501)商品名取得部113は、商品ルールデータベース109から商品ルールを取得する。取得できた場合、ステップS502に進み、取得できなかった場合、終了する。
(Step S501) The product
(ステップS502)商品名取得部113は、カウンターmに1を代入する。
(Step S502) The product
(ステップS503)商品名取得部113は、ステップS501で取得した商品ルールにm番目の商品ルールがあるか否かを判断する。ある場合は、ステップS504に進み、ない場合は、終了する。
(Step S503) The product
(ステップS504)商品名取得部113は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、商品ルールデータベース109から商品名を含む文章を取得する商品ルールを用いて、予め取得した商品名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS505へ進み、取得できなかった場合はステップS510に進む。
(Step S504) The product
(ステップS505)商品名取得部113は、カウンターnに1を代入する。
(Step S505) The product
(ステップS506)商品名取得部113は、ステップS504で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS507に進み、ない場合は、ステップS510に進む。
(Step S506) The product
(ステップS507)商品名取得部113は、ステップS504で取得したWebページのn番目のWebページに対し、ステップS501で取得した商品ルールのm番目の商品ルールを用いて商品名を取得する。取得できた場合は、ステップS508へ進み、取得できなかった場合は、ステップS509に移動する。
(Step S507) The product
(ステップS509)商品名取得部113は、カウンターnをインクリメントする。そして、ステップS506に戻る。
(Step S509) The product
(ステップS510)商品名取得部113は、カウンターmをインクリメントする。そしてステップS503に戻る。
(Step S510) The product
以下、本実施の形態における商品名取得部113の具体的な動作について説明する。なお、この具体例において示した商品名取得部113の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the product
商品名取得部113が、商品ルールデータベース109から商品名を取得するためのすべてのルールを取得する。もし、商品ルールデータベース109に、商品ルールが抽出する対象に関するデータを保持していた場合、「商品名」が対象の商品ルールだけを取得する。また、もし、商品ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた商品ルールだけを取得しても良い。今回の具体例では、商品ルールを5種類取得したとする。
The product
図8は商品ルールデータベース109に格納されているデータの一例を示す図である。商品ルールデータベース109は、商品名を取得するパターンを有している。具体例として、「%商品名%」と記載されている部分に該当する名詞句を商品名として取得する商品ルールを列挙した。 FIG. 8 is a diagram illustrating an example of data stored in the product rule database 109. The product rule database 109 has a pattern for acquiring product names. As a specific example, product rules for acquiring a noun phrase corresponding to a portion described as “% product name%” as a product name are listed.
商品名取得部113は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
The product
商品名取得部113は取得したすべての商品ルールを用いて、取得したすべてのWebページから商品名を取得する。今回の場合では、商品ルールが5種類、Webページが100種類なので500回商品名の取得を行う。具体的には、商品ルールが「<title>商品名一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?>%商品名%</li>)+</ul>」の場合、取得したWebページに「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="tv.html">テレビ</li><li><a href="dvd.html">DVDプレイヤ</li><li><a href="pc.html">パソコン</li></ul>・・・(省略)・・・」と記載されていれば、「テレビ」「DVDプレイヤ」「パソコン」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
The product
商品名取得部113は、商品名が取得できた場合は、商品データベース102に登録する。今回の場合では、「テレビ」と「DVDプレイヤ」と「パソコン」を登録する。また、もし商品ルールデータベース109が商品ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="tv.html">テレビ</li><li><a href="dvd.html">DVDプレイヤ</li><li><a href="pc.html">パソコン</li></ul>・・・(省略)・・・」も一緒に登録しても良い。
The product
以上、本実施の形態によれば、任意のWebページから商品名を取得できる。 As described above, according to the present embodiment, a product name can be acquired from an arbitrary Web page.
図9は、本実施の形態にかかる固有名称取得部114の動作の一例を示すフローチャートである。以下、図9を用いて動作について説明する。
FIG. 9 is a flowchart showing an example of the operation of the unique
(ステップS601)固有名称取得部114は、固有名称ルールデータベース110から固有名称ルールを取得する。取得できた場合、ステップS602に進み、取得できなかった場合、終了する。
(Step S <b> 601) The unique
(ステップS602)固有名称取得部114は、カウンターmに1を代入する。
(Step S602) The unique
(ステップS603)固有名称取得部114は、ステップS601で取得した固有名称ルールにm番目の固有名称ルールがあるか否かを判断する。ある場合は、ステップS604に進み、ない場合は、終了する。
(Step S603) The unique
(ステップS604)固有名称取得部114は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、固有名称ルールデータベース110から商品の固有名称を含む文章を取得する固有名称ルールを用いて、予め取得した商品の固有名称が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS605へ進み、取得できなかった場合はステップS610に進む。
(Step S604) The unique
(ステップS605)固有名称取得部114は、カウンターnに1を代入する。
(Step S605) The unique
(ステップS606)固有名称取得部114は、ステップS604で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS607に進み、ない場合は、ステップS610に進む。
(Step S606) The unique
(ステップS607)固有名称取得部114は、ステップS604で取得したWebページのn番目のWebページに対し、ステップS601で取得した固有名称ルールのm番目の固有名称ルールを用いて商品の固有名称を取得する。取得できた場合は、ステップS608へ進み、取得できなかった場合は、ステップS609に移動する。
(Step S607) The unique
(ステップS609)固有名称取得部114は、カウンターnをインクリメントする。そして、ステップS606に戻る。
(Step S609) The unique
(ステップS610)固有名称取得部114は、カウンターmをインクリメントする。そしてステップS603に戻る。
(Step S610) The unique
以下、本実施の形態における固有名称取得部114の具体的な動作について説明する。なお、この具体例において示した固有名称取得部114の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the unique
固有名称取得部114が、固有名称ルールデータベース110から商品の固有名称を取得するためのすべてのルールを取得する。もし、固有名称ルールデータベース110に、固有名称ルールが抽出する対象に関するデータを保持していた場合、「商品の固有名称」が対象の固有名称ルールだけを取得する。また、もし固有名称ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた固有名称ルールだけを取得しても良い。今回の具体例では、固有名称ルールを5種類取得したとする。
The unique
図10は固有名称ルールデータベース110に格納されているデータの一例を示す図である。固有名称ルールデータベース110は、商品の固有名称を取得するパターンを有している。具体例として、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する固有名称ルールを列挙した。
FIG. 10 is a diagram illustrating an example of data stored in the unique
固有名称取得部114は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
The unique
固有名称取得部114は取得したすべての固有名称ルールを用いて、取得したすべてのWebページから商品の固有名称を取得する。今回の場合では、固有名称ルールが5種類、Webページが100種類なので500回商品の固有名称の取得を行う。具体的には、固有名称ルールが「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」の場合、取得したWebページに「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="sc.html">サンプルカメラ</li><li><a href="sc2.html">サンプルカメラ2</li></ul>・・・(省略)・・・」と記載されていれば、「サンプルカメラ」「サンプルカメラ2」を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
The unique
固有名称取得部114は、商品の固有名称が取得できた場合は、固有名称データベースに登録する。今回の場合では、「サンプルカメラ」と「サンプルカメラ2」を登録する。なお、固有名称ルールデータベース110が固有名称ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="sc.html">サンプルカメラ</li><li><a href="sc2.html">サンプルカメラ2</li></ul>・・・(省略)・・・」も一緒に登録しても良い。
When the unique name of the product can be acquired, the unique
以上、本実施の形態によれば、任意のWebページから商品の固有名称を取得できる。 As described above, according to the present embodiment, a unique name of a product can be acquired from an arbitrary Web page.
図11は、本実施の形態にかかる知識獲得部115の動作の一例を示すフローチャートである。以下、図11を用いて動作について説明する。
FIG. 11 is a flowchart showing an example of the operation of the
(ステップS701)知識獲得部115は、知識増殖ルールデータベース111から知識増殖ルールを取得する。取得できた場合、ステップS702に進み、取得できなかった場合、終了する。
(Step S <b> 701) The
(ステップS702)知識獲得部115は、カウンターmに1を代入する。
(Step S702) The
(ステップS703)知識獲得部115は、ステップS701で取得した知識増殖ルールにm番目の知識増殖ルールがあるか否かを判断する。ある場合は、ステップS704に進み、ない場合は、終了する。
(Step S703) The
(ステップS704)知識獲得部115は、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールが用いるために使用する情報を各データベースから取得する。知識増殖ルールが用いるために使用する情報とは、具体的には、第一から第三知識増殖ルールの場合は会社データベース101から会社名を取得し、第四から第六知識増殖ルールの場合は商品データベース102から商品名を取得し、第七から第九知識増殖ルールの場合は固有名称データベース103から商品の固有名称を取得し、第十知識増殖ルールの場合は会社データベース101と商品データベース102から会社名と商品名を取得し、第十一知識増殖ルールの場合は会社データベース101と固有名称データベース103から会社名と商品の固有名称を取得し、第十二知識増殖ルールの場合は商品データベース102と固有名称データベース103から商品名と商品の固有名称を取得する。
(Step S704) The
(ステップS705)知識獲得部115は、カウンターnに1を代入する。
(Step S705) The
(ステップS706)ステップS704で取得した知識増殖ルールが用いるために使用する情報にn番目の情報があるか否かを判断する。ある場合は、ステップS707へ進み、ない場合はステップS713へ進む。 (Step S706) It is determined whether or not the information used for the knowledge proliferation rule acquired in step S704 includes the nth information. If there is, the process proceeds to step S707, and if not, the process proceeds to step S713.
(ステップS707)知識獲得部115は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS704で取得した知識増殖ルールが用いるために使用する情報のうちn番目の情報を含んだWebページを取得する。Webページを取得できた場合は、ステップS708へ進み、取得できなかった場合はステップS714に進む。
(Step S707) The
(ステップS708)知識獲得部115は、カウンターoに1を代入する。
(Step S708) The
(ステップS709)知識獲得部115は、ステップS707で取得したWebページにo番目のWebページがあるか否かを判断する。ある場合は、ステップS710に進み、ない場合は、ステップS714に進む。
(Step S709) The
(ステップS710)知識獲得部115は、ステップS707で取得したWebページのo番目のWebページに対し、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールを用いて会社名、または商品名、または商品の固有名称を取得する。取得できた場合は、ステップS711へ進み、取得できなかった場合は、ステップS712に移動する。
(Step S710) The
(ステップS711)ステップS710で取得した会社名、または商品名、または商品の固有名称を対応するデータベースに蓄積する。 (Step S711) The company name, product name, or product unique name acquired in step S710 is stored in the corresponding database.
(ステップS712)知識獲得部115は、カウンターoをインクリメントする。そして、ステップS709に戻る。
(Step S712) The
(ステップS713)知識獲得部115は、カウンターmをインクリメントする。そして、ステップS703に戻る。
(Step S713) The
(ステップS714)知識獲得部115は、カウンターnをインクリメントする。そして、ステップS706に戻る。
(Step S714) The
以下、本実施の形態における知識獲得部115の具体的な動作について説明する。なお、この具体例において示した知識獲得部115の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the
知識獲得部115は、知識増殖ルールデータベース111から会社名、または商品名、または商品の固有名称を取得するためのすべてのルールを取得する。もし、知識増殖ルールデータベース111に、知識増殖ルールが抽出する対象に関するデータを保持していた場合、「名称」が対象の知識増殖ルールだけを取得する。また、もし知識増殖ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた知識増殖ルールだけを取得しても良い。今回の具体例では、知識増殖ルールを5種類取得したとする。
The
図12は知識増殖ルールデータベース111に格納されているデータの一例を示す図である。知識増殖ルールデータベース111は、会社名、または商品名、または商品の固有名称を取得するパターンを有している。具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名、同様に「%商品名%」と記載されている部分に該当する名詞句を商品名、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する知識増殖ルールを列挙した。なお、今回の具体例では、知識増殖ルールの種類ごとにデータベースを作成するのではなく、知識増殖データベースに知識増殖ルールの種類を保持させた。
FIG. 12 is a diagram showing an example of data stored in the knowledge
知識獲得部115は、取得した知識増殖ルールが用いるための情報を取得する。例えば、第一知識増殖ルールを取得した場合、会社データベース101に記載されている会社名をすべて取得する。なお、もし会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。
The
知識獲得部115は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。
The
知識獲得部115は取得したすべての知識増殖ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、知識増殖ルールが5種類、知識増殖ルールが用いる情報が10種類、Webページが100種類なので5000回会社名、商品名、商品の固有名称のうち、1または2種類の情報の取得を行う。
具体的には、知識増殖ルールが「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」で第一の知識増殖ルールであり、用いる情報が「サンプル工業」であった場合、取得したWebページに「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="scr.html">ネジ</a></li><li><a href="driv.html">ドライバー</a></li></ul>・・・(省略)・・・」と記載されていれば、「ネジ」「ドライバー」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
The
Specifically, the knowledge proliferation rule is “<title>% company name% (handling)? Product </ title>. *? <Span. *?> List </ span><ul.*?>(<Li .. *?><A.*?>% Product name% </a></li>) + </ ul> ”and the information used is“ sample industry ” , “<Title> sample industry products </ title>... (Omitted)... <Span> list </ span><ul><li><a href =“ scr. html "> screw </a></li><li><a href =" driv. If “html”> driver </a></li></ul>... (omitted)..., “screw” and “driver” are acquired. However, nothing is acquired unless the content corresponding to the pattern is described.
知識獲得部115は、新たな情報が取得できた場合は、対応する各データベースに登録する。今回の場合では、「ネジ」と「ドライバー」を商品データベース102、「サンプル工業」と「ネジ」、「サンプル工業」と「ドライバー」を会社商品データベース104に登録する。なお、もし知識増殖ルールデータベース111が知識増殖ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="scr.html">ネジ</a></li><li><a href="driv.html">ドライバー</a></li></ul>・・・(省略)・・・」も一緒に登録しても良い。
When new information can be acquired, the
以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得できる。 As described above, according to the present embodiment, a company name, a product name, or a unique name of a product can be acquired from an arbitrary Web page.
図13と図14は、本実施の形態にかかるルール学習部116の動作の一例を示すフローチャートである。以下、図13と図14を用いて動作について説明する。 13 and 14 are flowcharts illustrating an example of the operation of the rule learning unit 116 according to the present embodiment. The operation will be described below with reference to FIGS.
(ステップS801)ルール学習部116は、カウンターmに0を代入する。
(Step S801) The rule learning unit 116
(ステップS802)ルール学習部116は、カウンターmをインクリメントする。 (Step S802) The rule learning unit 116 increments the counter m.
(ステップS803)ルール学習部116は、カウンターmの値によって処理を分岐する。mの値が1の時はステップS804に進み、mの値が2の時はステップS805に進み、mの値が3の時はステップS806に進み、mの値が4の時はステップS807に進み、mの値が5の時はステップS810に進み、mの値が6の時はステップS813に進み、mの値が7の時はステップS816に進み、mの値が8の場合は終了する。 (Step S803) The rule learning unit 116 branches the process depending on the value of the counter m. When the value of m is 1, the process proceeds to step S804. When the value of m is 2, the process proceeds to step S805. When the value of m is 3, the process proceeds to step S806. When the value of m is 4, the process proceeds to step S807. Proceed to step S810 when the value of m is 5, proceed to step S813 when the value of m is 6, proceed to step S816 when the value of m is 7, and end when the value of m is 8 To do.
(ステップS804)ルール学習部116は、変数oに「会社データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S804) The rule learning unit 116 substitutes “company database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS805)ルール学習部116は、変数oに「商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S805) The rule learning unit 116 substitutes “product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS806)ルール学習部116は、変数oに「固有名称データベース」、変数dに「商品の固有名称」を代入する。そして、ステップS823へ進む。 (Step S806) The rule learning unit 116 substitutes “unique name database” for the variable o and “unique name of the product” for the variable d. Then, the process proceeds to step S823.
(ステップS807)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S807) The rule learning unit 116 substitutes “company product database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS808)ルール学習部116は、変数oに「会社商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S808) The rule learning unit 116 substitutes “company product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS809)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。 (Step S809) The rule learning unit 116 substitutes “company product database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.
(ステップS810)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S810) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS811)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。 (Step S811) The rule learning unit 116 substitutes “company unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS812)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S812) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS813)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S813) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS814)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。 (Step S814) The rule learning unit 116 substitutes “product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS815)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S815) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS816)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S816) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS817)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S817) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS818)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。 (Step S818) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS819)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。 (Step S819) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.
(ステップS820)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S820) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS821)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S821) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS822)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S822) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS823)ルール学習部116は、変数oに格納されているデータベースから、変数dに格納されている情報を取得する。例えば、変数oに「会社データベース」変数dに「会社名」が格納されている場合、会社データベース101から会社名をすべて取得する。また、変数dに格納されている情報が「会社名・商品名」など、「・」で区切って二種類の情報が登録されていた場合、「・」の前後で文字列を分割し、前と後ろの両方の情報の組を取得する。「会社名・商品名」の場合は、「会社名」と「商品名」の組を取得する。取得できた場合は、ステップS824へ進み、取得できなかった場合は829に進む。
(Step S823) The rule learning unit 116 acquires information stored in the variable d from the database stored in the variable o. For example, when “company database” is stored in variable o and “company name” is stored in variable d, all company names are acquired from
(ステップS824)ルール学習部116は、カウンターhに1を代入する。
(Step S824) The rule learning unit 116
(ステップS825)ルール学習部116は、ステップS823で取得したoから取得したdに関する情報にh番目の情報があるか否かを判断する。ある場合は、ステップS826に進み、ない場合は、ステップS831に進む。 (Step S825) The rule learning unit 116 determines whether or not there is h-th information in the information regarding d acquired from o acquired in step S823. If there is, the process proceeds to step S826, and if not, the process proceeds to step S831.
(ステップS826)ルール学習部116は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS823で取得したoから取得したdに関するh番目の情報を含んだWebページを取得する。Webページを取得できた場合はステップS827へ進み、取得できなかった場合はステップS829へ進む。 (Step S826) The rule learning unit 116 acquires a Web page from the Web server device. The Web page acquired at this time acquires a Web page including the h-th information regarding d acquired from o acquired in step S823. If the Web page can be acquired, the process proceeds to step S827. If the Web page cannot be acquired, the process proceeds to step S829.
(ステップS827)ルール学習部116は、ステップS826で取得したWebページから、ステップS823で取得したoから取得したdに関するh番目の情報の文字列を情報の内容がわかる文字列に置換する。例えば、会社名の部分を「%会社名%」に置換する。 (Step S827) The rule learning unit 116 replaces the character string of the h-th information related to d acquired from o acquired in Step S823 from the Web page acquired in Step S826 with a character string that understands the content of the information. For example, the company name portion is replaced with “% company name%”.
(ステップS828)ルール学習部116は、ステップS827で置換したWebページを、例えば、図示しないメモリなどの記憶媒体に一時記憶する。 (Step S828) The rule learning unit 116 temporarily stores the Web page replaced in Step S827 in a storage medium such as a memory (not shown).
(ステップS829)ルール学習部116は、カウンターhをインクリメントする。 (Step S829) The rule learning unit 116 increments the counter h.
(ステップS830)ルール学習部116は、ステップS828で記憶したすべてのWebページからパターンを取得する。パターンを取得できた場合は、ステップS831へ進み、取得できなかった場合はステップS833へ進む (Step S830) The rule learning unit 116 acquires patterns from all the Web pages stored in Step S828. If the pattern can be acquired, the process proceeds to step S831, and if the pattern cannot be acquired, the process proceeds to step S833.
(ステップS831)ルール学習部116は、ステップS830で取得したパターンから5回以上抽出したパターンを選別し取得する。パターンを取得できた場合は、ステップS832へ進み、取得できなかった場合はステップS833へ進む。 (Step S831) The rule learning unit 116 selects and acquires patterns extracted five or more times from the patterns acquired in Step S830. If the pattern can be acquired, the process proceeds to step S832, and if the pattern cannot be acquired, the process proceeds to step S833.
(ステップS832)ルール学習部116は、ステップS831で取得したパターンを変数dに対応するルールデータベースに格納する。具体的には、dの値が「会社名」であれば「会社ルールデータベース」、「商品名」であれば「商品ルールデータベース」、「固有名称」であれば「固有名称ルールデータベース」、「会社名・商品名」「会社名・固有名称」「商品名・固有名称」であれば「知識増殖ルールデータベース」に格納する。 (Step S832) The rule learning unit 116 stores the pattern acquired in step S831 in the rule database corresponding to the variable d. Specifically, if the value of d is “company name”, it is “company rule database”, if it is “product name”, “product rule database”, if it is “unique name”, “unique name rule database”, “ If it is “company name / product name”, “company name / unique name”, “product name / unique name”, it is stored in the “knowledge proliferation rule database”.
(ステップS833)ルール学習部116は、ステップS823へ進む前に実行していた処理の次の処理進む。 (Step S833) The rule learning unit 116 proceeds to a process next to the process executed before proceeding to step S823.
以下、本実施の形態におけるルール学習部116の具体的な動作について説明する。なお、この具体例において示したルール学習部116の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。 Hereinafter, a specific operation of the rule learning unit 116 in the present embodiment will be described. Note that the acquisition result of the rule learning unit 116 shown in this specific example is prepared for convenience of explanation, and does not indicate actual data.
ルール学習部116は、会社データベース101と商品データベース102と固有名称データベース103と会社商品データベース104と会社固有名称データベース105と商品固有名称データベース106と会社商品固有名称データベース107から、会社名、または商品名、または商品の固有名称、またはこれらの組み合わせを可能な限り取得し、取得した情報を取得できるWebページから、データベースから取得した情報を抽出するためのパターンを取得する。
The rule learning unit 116 selects the company name or the product name from the
今回は具体例として、会社データベース101から会社名を取得し会社ルールデータベース108に格納するルールを学習する場合について述べる。
As a specific example, a case will be described in which a rule for acquiring a company name from the
まず、会社データベース101から会社名をすべて取得する。なお、もし会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。
First, all company names are acquired from the
ルール学習部116は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。 The rule learning unit 116 acquires a web page. For example, in this specific example, assume that 100 types of Web pages are acquired for each acquired company name.
ルール学習部116は、取得したWebページから、取得するために用いた会社名を「%会社名%」に置換する。今回は「%会社名%」であったが、商品名を使用した場合は「%商品名%」、商品の固有名称を使用した場合は「%固有名称%」に置換する。例えば、「サンプル商事」を用いて「<table><tbody><tr><td>社名</td><td>サンプル商事株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」の文章を取得した場合は「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」とする。 The rule learning unit 116 replaces the company name used for acquisition with “% company name%” from the acquired Web page. This time, it was “% company name%”, but if the product name is used, it is replaced with “% product name%”, and if the product unique name is used, it is replaced with “% unique name%”. For example, using “sample trading”, “<table> <tbody> <tr> <td> company name </ td> <td> sample trading corporation </ td> </ tr> <tr> <td> capital </ Td> <td> 10,000,000 Yen </ td> </ tr> "in the case where the text" <table> <tbody> <tr> <td> company name </ td> <td> % Company name% corporation </ td> </ tr> <tr> <td> capital </ td> <td> 10,000,000 yen </ td> </ tr>.
ルール学習部116は、取得したWebページからパターンを取得する。取得したWebページから2以上のWebページを取り出し、取得するために用いた「%会社名%」を含む最長共通部分列を取得する。最長共通部分の取得は、取得したWebページから2つを選ぶすべての組み合わせで行う。例えば「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」と「<table><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>設立</td><td>1950年1月1日</td></tr>」の二つの文章を記載されているWebページがあった場合、「%会社名%」を保持した最も長い文字列である「<tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>」をパターンとして取得する。今回の場合では、会社名が10種類、Webページが会社名に対して100種類なので49500回パターンの取得を行う。なお、パターンの取得対象はHTMLのタグを含まない文章でも良く、また最長共通部分列以外の方法であっても良く、2つ以上のWebページの組み合わせからパターンを取得しても良い。 The rule learning unit 116 acquires a pattern from the acquired web page. Two or more Web pages are extracted from the acquired Web pages, and the longest common subsequence including “% company name%” used for acquisition is acquired. Acquisition of the longest common portion is performed by all combinations of selecting two from the acquired Web pages. For example, “<table> <tbody> <tr> <td> Company name </ td> <td>% Company name% Inc. </ Td> </ tr> <tr> <td> Capital </ td> <td > 10,000,000 Yen </ td> </ tr> and "<table> <tr> <td> Company name </ td> <td>% Company name% Inc. </ Td> </ tr> < If there is a Web page with two sentences “tr> <td> Established </ td> <td> January 1, 1950 </ td> </ tr>”, “% company name%” “<Tr> <td> Company name </ td> <td>% Company name% Inc. </ Td> </ tr> <tr> <td>”, which is the longest character string that holds . In this case, since the company name is 10 types and the Web page is 100 types for the company name, the pattern is acquired 49500 times. The pattern acquisition target may be a sentence that does not include an HTML tag, may be a method other than the longest common subsequence, and may acquire a pattern from a combination of two or more Web pages.
ルール学習部116は、取得したパターンからよく使われているパターンのみを知識増殖データベースに登録する。一定以上の頻度、例えば5回以上出現するパターンを知識増殖ルールデータベース111に登録する。
The rule learning unit 116 registers only frequently used patterns from the acquired patterns in the knowledge multiplication database. A pattern that appears at a certain frequency, for example, five times or more is registered in the knowledge
以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得するパターンを取得できる。 As described above, according to the present embodiment, it is possible to acquire a pattern for acquiring a company name, a product name, or a unique name of a product from an arbitrary Web page.
図15は、本実施の形態にかかる会社類似群コード固有名称データベース構築部23の動作の一例を示すフローチャートである。以下、図15を用いて動作について説明する。
FIG. 15 is a flowchart showing an example of the operation of the company similar group code unique name
(ステップS901)会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から会社名と商品名と商品の固有名称の情報を取得する。取得できた場合はステップS902へ進み、取得できなかった場合は終了する。
(Step S <b> 901) The company similar group code unique name
(ステップS902)会社類似群コード固有名称データベース構築部23は、カウンターmに1を代入する。
(Step S902) The company similar group code unique name
(ステップS903)会社類似群コード固有名称データベース構築部23は、ステップS901で取得した情報にm番目の情報があるか否かを判断する。あった場合はステップS904へ進み、なかった場合は終了する。
(Step S903) The company similar group code unique name
(ステップS904)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の商品名をキーにし、商品類似群コード対応データベース21から商品名に対応した類似群コードを取得する。
(Step S904) The company similar group code unique name
(ステップS905)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の会社名と、商品の固有名称と、ステップS904で取得した類似群コードを1レコードとして会社類似群コード固有名称データベース22に登録する。
(Step S905) The company similar group code unique name
(ステップS906)会社類似群コード固有名称データベース構築部23は、カウンターmをインクリメントする。
(Step S906) The company similar group code unique name
以下、本実施の形態における会社類似群コード固有名称データベース構築部23の具体的な動作について説明する。なお、この具体例において示した会社類似群コード固有名称データベース構築部23の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the company similar group code unique name
会社類似群コード固有名称データベース構築部23は会社商品固有名称データベース107の商品名をキーにして、類似群コード対応データベースから類似群コードを取得し、会社類似群コード固有名称データベース22を構築する。
The company similar group code unique name
まず、会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から、会社名と商品名と商品の固有名称をすべて取得する。なお、もし会社商品固有名称データベース107が取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名と商品名と商品の固有名称の組を10種類取得したとする。
First, the company similar group code unique name
次に、商品類似群コード対応データベース21から各商品名に対応した類似群コードを取得する。なお、この時取得する類似群コードは、商品名の完全一致だけではなく、例えば「テレビ」と「TV」のような商品名が概念的に一致する類似群コードを取得しても良い。
Next, a similar group code corresponding to each product name is acquired from the product similar group
そして、取得した会社名と類似群コードと商品の固有名称の組を会社類似群コード固有名称データベース22に登録する。
Then, the set of the acquired company name, similar group code, and product unique name is registered in the company similar group code
以上、本実施の形態によれば、会社商品固有名称データベース107と類似群コード対応データベースから商品名をキーにして、会社名と類似群コードと商品の固有名称を保持する会社類似群コード固有名称データベース22を構築できる。
As described above, according to the present embodiment, the company similar group code unique name that holds the company name, the similar group code, and the unique name of the product using the product name as a key from the company product
図16は、本実施の形態にかかる商標侵害検知装置3の動作の一例を示すフローチャートである。以下、図16を用いて動作について説明する。
FIG. 16 is a flowchart showing an example of the operation of the trademark
(ステップS1001)受付部32は、調査対象商標情報、具体的には商標文字列と商品名、または類似群コードとを受け付けたか否かを判断する。受け付けた場合、ステップS1002に進み、受け付けていない場合、ステップS1001に戻る。
(Step S1001) The receiving
(ステップS1002)商標文字列取得部331は、調査対象商標情報から商標文字列を取得する。取得できた場合は、ステップS1003に進み、取得できなかった場合はステップS1017へ進む。
(Step S1002) The trademark character
(ステップS1003)称呼取得部332は、ステップS1002で取得した商標文字列を用いて、1以上の称呼情報を取得する。例えば、商標文字列を形態素解析することや、商標文字列を構成する各文字の読みを、予め用意された文字の読みが格納された辞書などから読み出し、それらの組合せを取得することで、称呼情報を取得する。
(Step S1003) The
(ステップS1004)称呼取得部332は、カウンターmに1を代入する。
(Step S1004) The
(ステップS1005)称呼取得部332は、ステップS1003で取得した称呼情報にm番目の称呼情報があるか否かを判断する。ある場合、ステップS1006に進み、ない場合、ステップS1011に進む。
(Step S1005) The
(ステップS1006)称呼取得部332は、カウンターnに1を代入する。
(Step S1006) The
(ステップS1007)称呼取得部332は、m番目の称呼情報にn番目の区切位置があるか否かを判断する。例えば、称呼情報の全ての文字の間を区切り位置に設定していく場合、n番目の区切り位置とは、例えば、称呼情報の先頭からn番目の文字と(n+1)番目の文字との間である。このため、称呼取得部332は、例えばm番目の称呼情報に、先頭から(n+1)番目の文字があるか否かを判断すればよい。n番目の区切位置がある場合、ステップS1008に進み、ない場合、ステップS1010に進む。なお、称呼情報のうちの、商標文字列を構成する各文字の読みの間や、商標文字列を構成する形態素の読みの間を、区切り位置に設定して称呼情報を分割していくようにしても良い。例えば、商標文字列「ABC」の各文字の読み「エー」と「ビー」と「シー」を組み合わせて称呼情報「エービーシー」が取得された場合、区切り位置に設定できる位置を、「エー」と「ビー」との間、及び「ビー」と「シー」の間としてもよい。
(Step S1007) The
(ステップS1008)称呼取得部332は、n番目の区切位置でm番目の称呼情報を区切って、その前後の文字列である分割称呼情報を取得する。なお、商標の称呼となり得ないような予め指定された文字が先頭に来る文字列は、分割称呼情報として取得しないことが好ましい。予め指定された文字は、例えば長音や、「ン」などである。取得した分割称呼情報は、図示しないメモリなどの記憶媒体に一時記憶する。既に他の分割称呼情報が記憶されている場合は、追記する。
(Step S1008) The
(ステップS1009)称呼取得部332は、カウンターnを1インクリメントする。そして、ステップS1007に戻る。
(Step S1009) The
(ステップS1010)称呼取得部332は、カウンターmを1インクリメントする。そして、ステップS1005に戻る。
(Step S1010) The
(ステップS1011)称呼表示部333は、ステップS1003で取得した称呼情報と、ステップS1008で取得した分割称呼情報を表示する。なお、ユーザに選択させず、特定のルールで称呼指定を選択する場合は、本ステップの表示、およびステップS1012の受付をスキップしても良い。
(Step S1011) The
(ステップS1012)称呼指定受付部334は、称呼指定情報または分割称呼指定情報の少なくとも一方を指定する称呼指定情報を受け付けたか否かを判断する。受け付けた場合、例えば、称呼指定情報で指定された称呼情報と割称呼情報とをメモリなどの記憶媒体に一時記憶して、ステップS212に進み、受け付けていない場合、ステップS1012に戻る。
(Step S1012) The designation
(ステップS1013)類似検索部335は、カウンターkに1を代入する。
(Step S1013) The
(ステップS1014)類似検索部335は、ステップS1012で受け付けた称呼指定情報によって指定された称呼情報と分割称呼情報とを合わせた中に、k番目の称呼情報または分割称呼情報があるか否かを判断する。ある場合、ステップS1015に進み、ない場合、ステップS1017に進む。
(Step S1014) The
(ステップS1015)k番目の称呼情報または分割称呼情報とを用いて、類似検索を行う。そして、類似検索の結果を、図示しない記憶媒体などに蓄積する。類似検索の結果は、例えば、類似検索に用いられたk番目の称呼情報または分割称呼情報と、類似すると判断された称呼と、その称呼に対応付けられた会社名、および商品の固有名称とを含む情報である。 (Step S1015) Similarity search is performed using the kth name information or divided name information. Then, the result of the similarity search is stored in a storage medium (not shown). As a result of the similarity search, for example, k-th name information or divided name information used for the similarity search, a name determined to be similar, a company name associated with the name, and a unique name of the product It is information to include.
(ステップS1016)類似検索部335は、カウンターkを1インクリメントする。そして、ステップS1014に戻る。
(Step S1016) The
(ステップS1017)商品類否判断部34は、ステップS1001で取得した調査対象商標情報をもとに使用するデータベース31を選択する。具体的には、調査対象商標情報に類似群コードが含まれていた場合は会社類似群コード固有名称データベース22を選択し、商品名が含まれていた場合は会社商品固有名称データベース107を選択する。選択できた場合は、ステップS1018に進み、選択できなかった場合はステップS1019に進む。
(Step S1017) The merchandise
(ステップS1018)商品類否判断部34は、ステップS1017のデータベース31からステップS1001で取得した調査対象商標情報の商品名、または類似群コードをキーにして商品の類否判断を行う。そして、類否判断の結果を、図示しない記憶媒体などに蓄積する。類否判断の結果は、例えば、類否判断に用いられた商品名、または類似群コードと、一致すると判断された商品名、または類似群コードと、その称呼に対応付けられた会社名と商品の固有名称とを含む情報である。
(Step S1018) The product
(ステップS1019)ステップS1015で蓄積した類似検索結果と、ステップS1018で蓄積した情報から、商品の固有名称が共通する情報を取得する。 (Step S1019) From the similar search result accumulated in step S1015 and the information accumulated in step S1018, information having a common product unique name is acquired.
(ステップS1020)出力部35は、ステップS1019で取得した情報を出力する。そして処理を終了する。
(Step S1020) The
以下、本実施の形態における商標侵害検知装置3の具体的な動作について説明する。なお、この具体例において示したデータは、説明のために便宜上用意されたものであって、実際の運用時に使用するものではない。
Hereinafter, a specific operation of the trademark
まず、ユーザが、中華そばの麺についての「針金麺」という侵害の可能性を判断したいと考えて、「針金麺」という商標文字列と、中華そばの麺の類似群コードである「32F03」を、商標侵害検知装置3にキーボードなどを操作して入力したとする。受付部32は、商標文字列「針金麺」を受け付ける。そして、商標文字列取得部331に商標文字列を取得させ、類似群コードを商品類否判断部34に類似群コードを取得させる。
First, the user wants to determine the possibility of infringement of “wire noodles” for Chinese noodles, and therefore, the trademark character string “wire noodles” and a similar group code “32F03” for Chinese noodles. Is input to the trademark
称呼取得部332は、商標文字列取得部331が受け付けた商標文字列「針金麺」の称呼情報を取得する。ここでは、まず、商標文字列に対して形態素解析を行って形態素ごとの読みの情報を取得する。例えば、形態素解析によって「針金麺」は2つの形態素「針金」と「麺」とに分けられ、形態素「針金」からは読みとして「ハリガネ」が、また、形態素「麺」からは読みとして「メン」が取得されたとする。それぞれの形態素には、1つの読みしか取得されないため、「針金麺」の称呼情報の一つとしてこれらの読みを単に結合した「ハリガネメン」を取得する。
The
さらに、称呼取得部332は、予め用意された漢字の読みが格納された辞書(図示せず)から、商標文字列「針金麺」の各文字の読みを取得する。例えば、「針」からは「ハリ」、「シン」という読みを取得したとする。また「金」からは、「キン」、「コガネ」、「コン」、「カネ」を取得したとする。また、「麺」からは「メン」を取得したとする。そして、取得した文字の読みを、取得元となる文字の並びに沿って組み合わせることで称呼情報を取得する。例えば、「ハリキンメン」、「ハリコガネメン」、「ハリコンメン」、「ハリカネメン」、「シンキンメン」、「シンコガネメン」などの称呼情報が取得される。なお、形態素解析で取得した称呼情報と一致するものは、削除する。
Furthermore, the
次に、称呼取得部332は、上記で取得した各称呼情報を分割して分割称呼情報を取得する。例えば、称呼情報「ハリガネメン」については、まず、区分位置を1文字目の「ハ」と2文字目の「リ」の間に設定して称呼情報を分割することで、「ハ」という分割称呼情報と、「リガネメン」という分割称呼情報とを取得する。更に、区分位置を2文字目の「リ」と3文字目の「ガ」の間に設定して称呼情報を分割することで、「ハリ」という分割称呼情報と、「ガネメン」という分割称呼情報とを取得する。同様にして、「ハリガ」、「ネメン」、「ハリガネ」、「メン」、「ハリガネメ」を取得する。但し「ン」は、分割称呼情報としては取得しない。同様にして、他の称呼情報についても分割称呼情報を取得する。なお、取得した分割称呼情報において、重複するものは一つを除いて削除する。
Next, the
そして、称呼表示部333は、取得した称呼情報と分割称呼情報とをモニタなどに出力する。
Then, the
図17は、称呼表示部333による、称呼情報と分割称呼情報との表示例を示す図である。なお、ここでは、称呼情報も分割称呼情報も、後述する類似検索においては特に区別せずに利用されるため、称呼情報と分割称呼情報とを特に区別せずに称呼として表示している。
FIG. 17 is a diagram showing a display example of the name information and the divided name information by the
次に、ユーザが、図17に示した称呼情報と分割称呼情報とのうちの、類似検索に利用したいと考えるものの横のチェックボックスにチェックを入れて、「指定完了」ボタン31を押したとする。例えば、「ハリガネメン」、「ハリガネ」、「ハリキンメン」の横のチェックボックスに図17に示すようにチェックをいれて「指定完了」ボタン31を押すと、称呼指定受付部334は、チェックの入った称呼情報である「ハリガネメン」および「ハリキンメン」と、チェックの入った分割称呼情報である「ハリガネ」を受け付ける。
Next, it is assumed that the user checks the check box next to the name information and the divided name information shown in FIG. 17 that he / she wants to use for similarity search and presses the “designation complete”
次に、類似検索部335は、称呼指定受付部334が受け付けた称呼情報と分割称呼情報とのそれぞれとを用いて、称呼の類似検索を行う。称呼の類似検索については、公知の技術であるので、詳細な具体例は省略する。例えば、類似検索の結果、称呼情報「ハリガネメン」と分割称呼情報「ハリガネ」については、称呼が類似する登録商標が検出されなかったが、称呼情報「ハリキンメン」については、称呼が類似する登録商標が検出されたとする。具体的には、称呼が「ハリキントン」という商品の固有名称が検出されたとする。商標類否判断結果取得部336は、この検出結果を図示しない記憶媒体などに一時記憶する。
Next, the
そして、商標類否判断結果取得部336は、類似検索の結果を取得する。
Then, the trademark similarity determination result
さらに次に、商品の類否判断を行う、受付部32から取得した類似群コードを用いて、会社類似群コード固有名称データベース22から情報を取得する。「32F03」の場合、穀物の加工品に関する情報が「針金面」に関係なく取得されるが、全て取得する。
Next, information is acquired from the company similar group code
そして、商標類否判断部33の判断結果と商品類否判断部34の判断結果をのうち、商品の固有名称が共通する情報を取得し、会社名と商品の固有名称を出力する。なお、この際に会社データベース101に会社を特定する情報、または会社名の確信度、その他保持している情報があれば出力しても良い。
And among the judgment result of the trademark
以上、本実施の形態によれば、ユーザが指定した調査対象商標文字列から、商標の文字列の称呼情報を自動的に取得して、これを用いた類似検索が行えるようにしたので、商標の総合的な侵害状況の判断材料となる情報をユーザに提供することができる。 As described above, according to the present embodiment, the name information of the trademark character string is automatically acquired from the survey target trademark character string designated by the user, and the similarity search using this can be performed. It is possible to provide the user with information that can be used to determine the overall infringement status.
また、称呼情報を分割した分割称呼情報を取得して、これを用いた類似検索が行えるようにしたので、例えば、ユーザが入力した商標が結合商標である場合には、結合商標を分割した場合の称呼を自動で取得することができ、分割した称呼情報を用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、分割した称呼情報を用いた類似検索をユーザに促すことができる。また、分割称呼情報を取得することで、商標の主要部だけを用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、主要部を用いた類似検索をユーザに促すことができる。 In addition, since the divided name / call information obtained by dividing the name information is acquired and the similarity search using this information can be performed, for example, when the trademark input by the user is a combined trademark, the combined trademark is divided Can be automatically acquired, and an appropriate similarity search using divided name information can be performed. In addition, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the divided name information. In addition, by acquiring the division name information, an appropriate similarity search using only the main part of the trademark becomes possible. Further, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the main part.
(実施の形態2)
本実施の形態は、調査対象商標情報が商品名を保持し、類似群コードを保持していない場合であっても、類似群コードを用いて商品の類否判断ができる事を特徴とする。
(Embodiment 2)
The present embodiment is characterized in that the similarity of the product can be determined using the similar group code even when the investigation target trademark information holds the product name and does not hold the similar group code.
図21は、本実施の形態における商標侵害検知装置4のブロック図である。商標侵害検知装置4は、データベース401、受付部32、商標類否判断部33、商品類否判断部402、出力部35を備える。受付部32、商標類否判断部33、出力部35については、実施の形態1と同様であるため、説明を省略する。
FIG. 21 is a block diagram of trademark infringement detection apparatus 4 in the present embodiment. The trademark infringement detection apparatus 4 includes a
データベース401は、1以上の図示しないWebサーバ装置から取得した情報である、会社名と商品名と商品の固有名称との組を1組以上格納し得る。データベース401は、1以上のWebサーバ装置から取得した情報であれば何でもよく、データベース構築装置1を用いて構築してもよく、無作為、または調査対象商標情報の商品名をキーワードにして検索して収集したWebページから特定のルールを用いて情報を取得して構築してもよい。特定のルールとは、例えば、データベース構築装置1の各ルールデータベースに格納されるルールなどである。
The
商品類否判断部402は、データベース401が有する1以上の商品名と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行い、データベース401に格納されている調査対象商標情報に類似する会社名と商品名と商品の固有名称を取得する。商品類否判断部402は、商品コード管理手段4021、コード特定情報取得手段4022、商品類否判断手段4023を備える。なお、本実施の形態におけるコード特定情報とは、商品名であってもよく、図示しない記憶部で管理されている類似群コードを参照するための番号等であってもよく、類似群コード表における見出しの商品または役務名(たとえば、01A01であれば「化学品」)であってもよく、類似群コード表における商品・役務名であってもよく、類似群コードそのものであってもよい。
The commodity
商品コード管理手段4021は、商品名とコード特定情報との対応を管理している。管理する商品名とコード特定情報は、類似群コードの説明文から特定のルールを用いて取得してもよく、図示しないWebサーバ装置から取得したWebページから特定のルールを用いて取得してもよく、人が手作業で入力してもよい。特定のルールとは、例えば「04A01は、例えば、洗い粉やシャンプーなどがあげられる」といった文章から、コード特定情報として「04A01」を、商品名として「洗い粉」と「シャンプー」を取得するようなルールであってもよく、「<table><tr><td>染料</td><td>藍・あかね</td></tr></table>」といったHTMLの構造から、コード特定情報として「染料」を、商品名として「藍」と「あかね」を取得するルールであってもよい。また、商品コード管理手段4021はその対応を再帰的に探索することで類似群コードを取得できるような構成にしてもよい。具体的には、コード特定情報「01A01」と商品名「化学品」、コード特定情報「化学品」と商品名「アンモニア水」という2組の情報があった場合、商品名「アンモニア水」からコード特定情報「01A01」を取得できるように管理しても良い。
The product
コード特定情報取得手段4022は、商品コード管理手段4021が管理する商品に対応するコード特定情報を用いて、データベース401が有する1以上の商品名に対応するコード特定情報を取得する。取得するコード特定情報は、データベース401が有する商品名に対応する任意のコード特定情報であっても良く、再帰的に対応を取得した結果取得した類似群コードであってもよく、類似群コードに到るまで再帰的に対応を取得する過程に取得したすべてのコード特定情報であっても良い。コード特定情報取得手段4022は、通常、MPUやメモリ等から実現され得る。コード特定情報取得手段4022の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The code specifying
商品類否判断手段4023は、コード特定情報取得手段4022が取得したコード特定情報と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。商品の類否判断は、調査対象商標情報が有するコード特定情報と、コード特定情報取得手段4022が取得したコード特定情報が同一、または含まれているかどうかを判断し、同一、または含まれていた場合、その情報に対応する会社名と商品名と商品の固有名称とを取得する。商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品類否判断手段4023の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The product
本実施の形態にかかる商標侵害検知装置4の動作は、商標侵害検知装置3における図16のステップS1018の処理のみを変更したものもである。
The operation of the trademark infringement detection apparatus 4 according to the present embodiment is the same as the operation of the trademark
以下、本実施の形態における商標侵害検知装置4における商品類否判断部402の具体的な動作について説明する。なお、この具体例において示した商品類否判断部402の出力結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。ここでは、例として、受付部32が受け付けた調査対象商標情報のコード特定情報を「ビール」とし、データベース401には、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という1組の情報が少なくとも記憶されているものとし、商品コード管理手段4021は、コード特定情報「28A02」と商品名「ビール」、コード特定情報「ビール」と商品名「ラガービール」という2組の情報が少なくとも記憶されているものとする。
Hereinafter, a specific operation of the merchandise
コード特定情報取得手段4022は、データベース401から商品名に関する情報を取得する。例えば、「ラガービール」などの情報を取得する。そして、商品コード管理手段4021か管理している情報を用いて、各商品名からコード特定情報を取得する。具体的には、「ラガービール」から「ビール」、「ビール」から「28A02」と類似群コードを取得するまでのコード特定情報をすべて取得し、商品名と対応付けて図示しない記憶部に記憶する。
The code specifying
商品類否判断手段4023は、受付部32が受け付けた調査対象商標情報が有する「ビール」と同一のコード特定情報を保持した情報を、コード特定情報取得手段4022が取得し、図示しない記憶部に記憶した情報から探索し、データベース401に格納されている会社名と商品の固有名称を取得する。具体的には、「ビール」および「28A02」と対応付けられている「ラガービール」を取得し、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という情報を取得する。
The product
以上、本実施の形態によれば、Webサーバ装置から取得した会社名と商品名と商品の固有名称との組に対して、類似群コードを指定しなくても、類似群コードを考慮した商標の類似検索が行えるようにしたため、商標の侵害状況の判断材料となる情報をユーザに提供することができる。 As described above, according to the present embodiment, a trademark taking account of a similar group code without specifying a similar group code for a set of a company name, a product name, and a product unique name acquired from a Web server device. Thus, it is possible to provide the user with information that can be used to determine the trademark infringement status.
なお、本実施の形態では、コード特定情報取得手段4022でコード特定情報を取得したが、図示しない処理部を用いて、予めコード特定情報を取得しておき、データベース401に格納しておいても良い。
In the present embodiment, the code specifying information is acquired by the code specifying
また、上記実施の形態1、実施の形態2において、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、ルール学習部116、会社類似群コード固有名称データベース構築部23、商品類否判断部34、商標文字列取得部331、称呼取得部332、類似検索部335、商標類否判断結果取得部336、コード特定情報取得手段4022、商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品名取得部113等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
In the first and second embodiments, the company
(実施の形態3)
本実施の形態において、Webページから2以上の属性値集合を取得し、当該2以上の属性値集合から新たな属性値集合を生成するデータベース構築装置5について説明する。
(Embodiment 3)
In the present embodiment, a
なお、本実施の形態において、所定の情報が格納され得る格納部等において、当該格納部に情報が記憶される過程は問わないものとする。例えば、記録媒体を介して情報が格納部等で記憶されるようになってもよい。また、通信回線などを介して送信された情報が格納部等で記憶されるようになってもよい。さらに、入力デバイスを介して入力された情報が格納部等で記憶されるようになってもよい。また、本実施の形態において説明する各情報の形式、内容などは、あくまで例示であり、各情報の持つ意味を示すことができれば、形式、内容などは問わない。 In the present embodiment, the storage unit or the like in which predetermined information can be stored does not matter how the information is stored in the storage unit. For example, information may be stored in a storage unit or the like via a recording medium. Information transmitted via a communication line or the like may be stored in a storage unit or the like. Furthermore, information input via the input device may be stored in a storage unit or the like. In addition, the format, content, and the like of each information described in this embodiment are merely examples, and the format, content, and the like are not limited as long as the meaning of each information can be indicated.
図21は、本実施の形態におけるデータベース構築装置5のブロック図である。データベース構築装置5は、表格納部51、ルール格納部52、スコア格納部53、辞書格納部54、取得部55、結合部56、ルール取得部57を備える。
FIG. 21 is a block diagram of the
表格納部51には、第一の表と2以上の第二の表とが格納される。第一の表は、属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する。また、第二の表は、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する。つまり、属性値集合は、一のデータモデルにおけるレコードである。また、第一の表および第二の表は、一のデータモデルにおける1以上のレコードの集合である。例えば、当該データモデルがリレーショナル型データモデルである場合、第一の表および第二の表は、テーブルである。なお、属性、および属性値の内容は問わない。
The
また、第一の表は、通常、第二の表になり得る。例えば、上記mが3である場合、属性の異なる3個の属性値を有する1以上の属性値集合を有する表が、第一の表であり、属性の異なる2個または1個の属性値を有する1以上の属性値集合を有する表が、第二の表である。また、上記mが4である場合、属性の異なる4個の属性値を有する1以上の属性値集合を有する表が、第一の表となり、属性の異なる3個または2個または1個の属性値を有する1以上の属性値集合を有する表が、第二の表となる。つまり、表格納部51に格納されている表が、第一の表であるか第二の表であるかは、他の表との関係で相対的に決まるものである。
Also, the first table can usually be the second table. For example, when m is 3, a table having one or more attribute value sets having three attribute values having different attributes is the first table, and two or one attribute values having different attributes are A table having one or more attribute value sets is a second table. When m is 4, a table having one or more attribute value sets having four attribute values having different attributes is the first table, and three, two, or one attribute having different attributes. A table having one or more attribute value sets having values is the second table. That is, whether the table stored in the
また、「属性の属性値」とは、「属性に対応する属性値」を意味する。また、「属性値の属性」とは、「属性値が対応する属性」を意味する。また、「属性の属性値集合」とは、「属性に対応する属性値集合」を意味し、当該属性の属性値を1以上有する属性値集合を意味する。また、「属性値集合の属性」とは、「属性値集合が対応する属性」を意味し、当該属性値集合が有する1以上の属性値の属性を意味する。 The “attribute value of the attribute” means “attribute value corresponding to the attribute”. The “attribute value attribute” means “attribute corresponding to the attribute value”. Further, “attribute value set of attribute” means “attribute value set corresponding to attribute”, and means an attribute value set having one or more attribute values of the attribute. The “attribute value set attribute” means “attribute corresponding to the attribute value set”, and means one or more attribute value attributes of the attribute value set.
また、第二の表は、n個の各属性がユニークであるか否かを示すユニーク識別子を有していてもよい。当該ユニーク識別子は、通常、各属性が有しているが、当該ユニーク識別子により、どの属性がユニークであるかが示されてもよい。当該ユニーク識別子は、例えば、いわゆるRDBにおけるユニークキーであるが、主キーであってもよい。また、当該ユニーク識別子は、2以上の各第二の表がユニークであるか否かを示すものであってもよい。 The second table may have a unique identifier indicating whether each of the n attributes is unique. The unique identifier usually has each attribute, but the unique identifier may indicate which attribute is unique. The unique identifier is, for example, a unique key in so-called RDB, but may be a primary key. The unique identifier may indicate whether each of the two or more second tables is unique.
また、第一の表および第二の表は、属性値集合に対応するスコアを有していてもよい。当該スコアは、通常、当該属性値集合の信頼度を示す。また、当該スコアは、属性値集合が有する各属性値に対応するものであってもよい。 Further, the first table and the second table may have scores corresponding to the attribute value sets. The score usually indicates the reliability of the attribute value set. Further, the score may correspond to each attribute value included in the attribute value set.
「属性値集合の信頼度」とは、当該属性値集合に対する信頼の度合いを示すものである。「属性値集合の信頼度」は、例えば、当該属性値集合を取得したWebページの信頼度や、当該属性値集合そのものの信頼度などである。「Webページの信頼度」は、例えば、当該WebページがいわゆるオフィシャルサイトのWebページである場合は高く、当該Webページがいわゆるオフィシャルサイト以外のWebページである場合は低いものなどである。また、「属性値集合そのものの信頼度」は、例えば、当該属性値集合の取得元であるWebページの信頼度や、当該属性値集合が有する各属性値と、当該属性値の条件である属性値条件との一致度などである。 The “reliability of attribute value set” indicates the degree of trust for the attribute value set. “The reliability of the attribute value set” is, for example, the reliability of the Web page that acquired the attribute value set, the reliability of the attribute value set itself, or the like. “Web page reliability” is, for example, high when the Web page is a so-called official site Web page, and low when the Web page is a web page other than the so-called official site. The “reliability of the attribute value set itself” is, for example, the reliability of the Web page from which the attribute value set is acquired, the attribute values of the attribute value set, and the attribute that is the condition of the attribute value The degree of coincidence with the value condition.
属性値条件とは、例えば、属性値の例や、属性値のパターンなどである。つまり、「属性値条件との一致度」とは、当該属性値集合が有する各属性値と、当該属性値の属性と同一の属性の属性値の例との一致度や、当該属性値集合が有する各属性値と、当該属性値の属性と同一の属性の属性値のパターンとの一致度などである。なお、属性値の例とは、属性値そのものである。また、属性値のパターンとは、例えば、属性値が予め決められた文字を含むことや、属性値が漢字列であること、属性値がカタカナ列であること、属性値がひらがな列であること、属性値が数値であることなどを示すものなどである。 The attribute value condition is, for example, an attribute value example, an attribute value pattern, or the like. In other words, the “degree of matching with the attribute value condition” means the degree of matching between each attribute value of the attribute value set and an example of the attribute value of the same attribute as the attribute value, This is the degree of coincidence between each attribute value and the attribute value pattern of the same attribute as the attribute value. An example of the attribute value is the attribute value itself. The attribute value pattern includes, for example, that the attribute value includes a predetermined character, that the attribute value is a kanji string, that the attribute value is a katakana string, and that the attribute value is a hiragana string. , Indicating that the attribute value is a numerical value.
なお、「属性値集合の信頼度」は、「属性値集合の精度」や、「属性値集合の確度」と呼んでもよい。また、当該スコアは、属性値集合または当該属性値集合が有する各属性値に対応するスコアであり、当該属性値集合または当該属性値が信頼できるか否か、正しいか否かなどを判断できるものであれば、その内容は問わない。 The “attribute value set reliability” may be called “attribute value set accuracy” or “attribute value set accuracy”. The score is a score corresponding to the attribute value set or each attribute value of the attribute value set, and can determine whether the attribute value set or the attribute value is reliable or correct. If so, the content is not questioned.
ルール格納部52には、1以上のルールが格納される。当該ルールとは、1以上のWebページから、上記m個または上記n個の属性値を有する1以上の属性値集合を取得するためのルールである。当該ルールは、通常、後述の取得部55が使用するが、当該取得部55が使用することで、1以上のWebページから1以上の属性値集合を取得できるルールであればよい。
The
ルールは、Webページが有するHTML(Hyper Text Markup Language)を解釈して得られるテキスト文書(例えば、いわゆるWebブラウザが表示するWebページ)から、1以上の属性値集合を取得するためのルールや、いわゆるHTML文書であるWebページから、1以上の属性値集合を取得するためのルールなどである。 The rule is a rule for obtaining one or more attribute value sets from a text document (for example, a web page displayed by a so-called web browser) obtained by interpreting HTML (Hyper Text Markup Language) included in the web page, For example, a rule for acquiring one or more attribute value sets from a Web page which is a so-called HTML document.
また、ルールは、通常、正規表現であるが、例えば、いわゆる文字列のパターンや、タグのパターン、URI(Uniform Resource Identifier)のパターン、これら3つのパターンのうちの2以上のパターンの組み合わせなどであってもよい。また、ルールは、その他の表記や表現であってもよい。また、ルールは、通常、属性値を取得することを示す変数を有している。当該変数は、属性に対応するものである。 A rule is usually a regular expression. For example, a rule is a so-called character string pattern, tag pattern, URI (Uniform Resource Identifier) pattern, or a combination of two or more of these three patterns. There may be. Further, the rules may be other notations and expressions. A rule usually has a variable indicating that an attribute value is acquired. The variable corresponds to an attribute.
例えば、Webページがテキスト文書である場合、ルールは、(1)「$会社名$は、.*?$商品名$、$固有名称$を発売しました」や、(2)「%固有名称%:%商品名%」、(3)「会社概要<改行>社名|&会社名&<改行>設立|&設立年月日&」などである。(1)は、会社名と、商品名と、固有名称とを取得するためのルールである。(1)において、例えば、「$会社名$」は、当該箇所にある文字列を会社名として取得することを示す変数である。また、「.*?」は、正規表現である。また、(2)は、固有名称と、商品名とを取得するためのルールである。(2)において、例えば、「%固有名称%」は、当該箇所にある文字列を固有名称として取得することを示す変数である。また、(3)は、会社名と、設立年月日を取得するためのルールである。(3)において、例えば、「&設立年月日&」は、当該箇所にある文字列を設立年月日として取得することを示す変数である。また、「<改行>」は、改行を示す。 For example, if the Web page is a text document, the rules are (1) “$ company name $ is. *? $ Product name $, $ proprietary name $” or (2) “% unique name %:% Product Name% ”, (3)“ Company Overview <New Line> Company Name ”& Company Name & <New Line> Established | & Date of Establishment &&. (1) is a rule for acquiring a company name, a product name, and a unique name. In (1), for example, “$ company name $” is a variable indicating that a character string at the location is acquired as the company name. “. *?” Is a regular expression. Moreover, (2) is a rule for acquiring a unique name and a product name. In (2), for example, “% unique name%” is a variable indicating that a character string at the location is acquired as a unique name. (3) is a rule for acquiring the company name and the date of establishment. In (3), for example, “& date of establishment &” is a variable indicating that a character string at the location is acquired as the date of establishment. “<Line feed>” indicates a line feed.
また、例えば、WebページがHTML文書である場合、ルールは、(4)「<p>$会社名$は、.*?$商品名$、$固有名称$を発表しました</p>」や、(5)「<td>%固有名称%:</td><td>%商品名%</td>」、(6)「<div.*?>会社概要</div><br><div.*?>社名</div><div.*?>&会社名&</div><br><div.*?>設立</div><div.*?>&設立年月日&</div>」などである。なお、当該(4)〜(6)の意味は、上記(1)〜(3)と同様であるので、説明を省略する。また、当該(4)〜(6)の各ルールにおける変数や記号の意味も、上記(1)〜(3)と同様であるので、説明を省略する。 Also, for example, if the Web page is an HTML document, the rule is (4) “<p> $ company name $ is. *? $ Product name $, $ unique name $ </ p>” (5) “<td>% unique name%: </ td> <td>% product name% </ td>”, (6) “<div. *?> Company profile </ div> <br> <Div. *?> Company name </ div> <div. *?> & Company name & </ div> <br> <div. *?> Establishment </ div> <div. *?> & Date of establishment & </ Div> ". In addition, since the meaning of said (4)-(6) is the same as said (1)-(3), description is abbreviate | omitted. Further, the meanings of variables and symbols in the rules (4) to (6) are the same as those in the above (1) to (3), and thus the description thereof is omitted.
また、ルール格納部52には、上記各変数に対応するパターンが格納されてもよい。当該パターンとは、例えば、当該変数により取得することが示される文字列が、予め決められた文字を含むことや、当該文字列が漢字列であること、当該文字列がカタカナ列であること、当該文字列がひらがな列であること、当該文字列が数値であることなどを示すものなどである。
The
また、Webページは、通常、1以上のWebサイトが有するものであり、当該Webサイトを運用するサーバ装置が有する。また、Webページは、データベース構築装置5が備える任意の記憶装置や、記憶領域に格納されていてもよい。また、Webページは、前述のテキスト文書やHTML文書などの文書や、文、段落、文字、文字列、テキストなどを含み、広く解する。
In addition, the Web page is usually included in one or more Web sites, and is included in a server device that operates the Web site. The web page may be stored in any storage device or storage area provided in the
また、Webページは、当該Webページを識別するWebページ識別子を有していてもよい。当該Webページ識別子は、当該WebページのURLや、Webページのファイル名、Webページのタイトル(HTMLのtitle要素の要素値)、メタ情報(HTMLのmeta要素のkeyword属性値や、description属性値)などである。なお、URLは、いわゆるドメイン名やホスト名などを含み、広く解する。 The web page may have a web page identifier for identifying the web page. The web page identifier includes the URL of the web page, the file name of the web page, the title of the web page (element value of the HTML title element), meta information (keyword attribute value or description attribute value of the HTML meta element) Etc. The URL includes a so-called domain name and host name and is widely understood.
また、ルールは、通常、当該ルールにより取得できる属性値集合を有する第一の表または第二の表に対応付いてルール格納部52に格納されている。これはつまり、ルールと、当該ルールにより取得できる属性値集合に対応する1以上の属性、または当該属性値集合を有し得る表との対応関係がわかるように格納されているということである。
Further, the rule is usually stored in the
スコア格納部53には、Webページ識別子が対応付けられた1以上のスコアが格納される。当該スコアは、Webページのスコアであり、通常、当該Webページの信頼度を示すものである。
The
辞書格納部54には、属性ごとの1以上の属性値の集合である1以上の辞書が格納される。辞書は、属性値の例の集合であると考えてもよい。また、一の辞書は、通常、一の属性の1以上の属性値の集合である。また、辞書格納部54には、1以上の属性値のパターンが格納されてもよい。この場合、属性値のパターンは、通常、当該属性値の属性と対応付いている。
The
取得部55は、ルール格納部52に格納されている1以上のルールに従い、1以上のWebページから、1以上の属性値集合を取得する。このとき、取得部55は、通常、当該1以上のWebページから、当該1以上のルールに合致する文字列を取得する。そして、取得部55は、取得した文字列から、使用したルールが有する1以上の変数の箇所にある文字列を、属性値として取得する。そして、取得部55は、当該取得した1以上の属性値集合を、表格納部51に蓄積する。当該蓄積とは、第一の表または第二の表に追記することである。また、当該追記は、追加や挿入の意味も含む。
The
例えば、ルールに従い上記m個の属性値を有する1以上の属性値集合を取得した場合、取得部55は、当該属性値集合に対応する属性を有する表に、当該取得した属性値集合を追記する。当該表は、通常、第一の表である。また、例えば、ルールに従い上記n個の属性値を有する1以上の属性値集合を取得した場合、取得部55は、当該属性値集合に対応する属性を有する表に、当該取得した属性値集合を追記する。当該表は、通常、第二の表である。
For example, when one or more attribute value sets having the m attribute values are acquired according to the rule, the
また、取得部55は、ルール格納部52に格納されている1以上のルールが有する変数に、当該変数が対応する属性の属性値であり、表格納部51に格納されている1以上の属性値を代入し、新たなルールを生成し、当該ルールに従い、1以上のWebページから1以上の属性値集合を取得してもよい。
Further, the
また、取得部55は、ルール格納部52に格納されている1以上のルールが有する変数に、当該変数のパターンであり、ルール格納部52に格納されているパターンを代入し、新たなルールを生成し、当該ルールに従い、1以上のWebページから1以上の属性値集合を取得してもよい。
In addition, the
また、取得部55は、通常、いわゆるクローリングを行い、いわゆるWebから1以上のWebページを取得する。また、例えば、1以上のWebページが任意の記憶領域に格納されている場合、取得部55は、当該記憶領域から、1以上のWebページを取得する。
The
例えば、1以上のWebページに文字列『特許分析株式会社は、特許明細書の分析を行うソフトウェア「PAT−Analyzer」を発売した』が存在しており、ルールが『$会社名$は、.*?$商品名$「$固有名称$」を発売した』である場合、取得部55は、まず、当該ルールに合致する当該文字列を取得する。そして、取得部55は、当該文字列から、属性値を取得するための変数「$会社名$」や、「$商品名$」の箇所にある文字列「特許分析株式会社」、「ソフトウェア」、「PAT−Analyzer」を、それぞれ、会社名、商品名、固有名称として取得する。そして、取得部55は、会社名、商品名、固有名称の3つの属性を有する表に、取得した属性値集合を追記する。
For example, a character string “PATENT ANALYZER has released software“ PAT-Analyzer ”for analyzing patent specifications” exists in one or more Web pages, and the rule is “$ company name $ is. *? If $ product name $ “$ unique name $” has been released ”, the
また、例えば、会社名「特許分析株式会社」が既に表格納部51に格納されている場合、取得部55は、当該会社名を上記ルールに代入し、新たなルール『特許分析株式会社は、.*?$商品名$「$固有名称$」を発売した』を生成し、当該ルールを用いて、上記と同様に文字列「ソフトウェア」、「PAT−Analyzer」を、それぞれ、商品名、固有名称として取得してもよい。そして、取得部55は、商品名、固有名称の3つの属性を有する表に、取得した属性値集合を追記する。
For example, when the company name “Patent Analysis Co., Ltd.” is already stored in the
また、例えば、上記の場合において、変数「$会社名$」に対応するパターンが「<漢字列>株式会社」であるとき、取得部55は、上記ルールに「<漢字列>株式会社」を代入し、新たなルール『<漢字列>株式会社は、.*?$商品名$「$固有名称$」を発売した』を生成する。そして、取得部55は、当該ルールに合致する上記文字列を取得する。そして、取得部55は、当該文字列から、属性値を取得するための変数「$会社名$」や、「$商品名$」の箇所にある文字列「特許分析株式会社」、「ソフトウェア」、「PAT−Analyzer」を、それぞれ、会社名、商品名、固有名称として取得する。
For example, in the above case, when the pattern corresponding to the variable “$ company name $” is “<Kanji string> corporation”, the
また、取得部55は、例えば、属性値集合の取得の際に、当該属性値集合を取得したWebページが有するWebページ識別子を取得してもよい。この場合、取得部55は、当該属性値集合と、当該Webページ識別子とを対応付け、第一の表または第二の表に追記する。
In addition, for example, the
また、取得部55は、例えば、属性値集合の取得の際に、当該属性値集合に対応するスコアを算出してもよい。この場合、取得部55は、当該属性値集合と、当該スコアとを対応付け、第一の表または第二の表に追記する。また、取得部55は、例えば、取得した属性値集合が有する各属性値に対応するスコアを算出してもよい。この場合、取得部55は、当該各属性値と、当該スコアとを対応付け、第一の表または第二の表に追記する。また、取得部55は、当該各属性値に対応するスコアを用いて、当該属性値集合に対応するスコアを算出してもよい。当該算出とは、例えば、各属性値に対応するスコアの平均を算出することなどである。この場合、取得部55は、当該属性値集合と、当該スコアとを対応付け、第一の表または第二の表に追記する。
For example, the
例えば、取得部55は、属性値集合を取得したWebページが有するWebページ識別子に対応するスコアを、スコア格納部53から取得してもよい。例えば、属性値集合を取得したWebページのURLが「http://www.webpage.com」であり、当該URLがスコア格納部53においてスコア「95」と対応付いている場合、取得部55は、当該スコア「95」を取得する。そして、取得部55は、当該属性値集合と、当該スコアとを対応付け、第一の表または第二の表に追記する。
For example, the
また、例えば、取得部55は、取得した属性値集合と、属性値条件との一致度を、スコアとして算出してもよい。この場合、取得部55は、通常、当該属性値集合が有する各属性値と、当該属性値条件との一致度を算出する。また、この場合、取得部55は、通常、当該各属性値の属性と同一の属性の属性値条件との一致度を算出する。
Further, for example, the
例えば、当該属性値集合が有する属性値が会社名「特許分析株式会社」であるとする。この場合において、属性値条件が会社名の例「特許分析株式会社」であるとき、当該会社名と会社名の例が一致するので、取得部55は、一致度「100」を取得する。また、この場合において、属性値条件が会社名の例「特許解析株式会社」であるとき、取得部55は、当該会社名の文字のうち当該会社名の例と一致している文字数「7」と、当該会社名の文字数「8」を取得し、「7÷8」を計算し、一致度「0.875」を取得する。また、この場合において、属性値条件が会社名のパターン「漢字列」であるとき、当該会社名が漢字列であるので、取得部55は、一致度「100」を取得する。また、この場合において、属性値条件が会社名のパターン「カタカナ列」であるとき、当該会社名がカタカナを1文字も有さないため、取得部55は、一致度「0」を取得する。
For example, assume that the attribute value of the attribute value set is the company name “Patent Analysis Co., Ltd.”. In this case, when the attribute value condition is the company name example “Patent Analysis Co., Ltd.”, the company name and the company name example match, so the
なお、属性値条件が属性値の例である場合、当該属性値の例は、通常、辞書格納部54に格納されている属性値である。また、属性値条件が属性値のパターンである場合、当該属性値のパターンは、通常、取得部55が保持しているが、任意の記憶領域または予め決められた記憶領域に格納されていてもよい。
When the attribute value condition is an example of an attribute value, the example of the attribute value is an attribute value normally stored in the
また、取得部55は、例えば、取得した属性値集合を、いわゆる検索エンジンにて検索し、当該属性値集合を有するWebページの件数をスコアとして取得してもよい。例えば、取得した属性値集合が会社名「特許分析株式会社」と商品名「PAT−Analyzer」であり、当該2個の属性値の両方を有するWebページを検索エンジンにて検索した結果、「1,000」件存在する場合、取得部55は、当該件数「1,000」をスコアとして取得する。
For example, the
また、取得部55は、例えば、取得した属性値集合の累積取得回数をスコアとして取得してもよい。当該累積取得回数の取得の方法は自明であるので、詳細な説明を省略する。
In addition, the
結合部56は、第二の表が有する2以上の属性値集合を結合し、第一の表が有し得る新たな属性値集合を生成する。そして、結合部56は、生成した属性値集合を、第一の表に追記する。ここで、「第一の表が有し得る」とは、第一の表が有する属性値集合になり得ることを意味し、上記m個の属性値を有することを意味する。具体的には、属性値集合を生成する際に用いた2以上の属性値集合に対応する属性の数よりも、属性の数が多いことを意味する。
The combining
例えば、結合部56は、上記m個の属性値を有する属性値集合を、上記n個の属性値を有する2つの属性値集合を結合し、生成したとする。この場合、結合の対象である属性値集合の属性の数(n個)よりも、結合により生成した属性値集合の属性の数(m個)の方が多い。従って、結合部56は、当該生成した属性値集合を、第一の表に追記する。また、例えば、結合部56は、属性の異なる3個の属性値を有する2つの属性値集合を結合し、当該属性の異なる3個の属性値を有する属性値集合を生成したとする。この場合、結合の対象である属性値集合の属性の数(3個)と、結合により生成した属性値集合の属性の数(3個)とが同じである。従って、結合部56は、当該生成した属性値集合を、第一の表に追記しない。また、この場合、結合部56は、通常、結合の対象とする属性値集合の属性の数と、結合により生成する属性値集合の属性の数とを比較し、前者の数よりも後者の数の方が多い場合に、新たな属性値を生成する。
For example, it is assumed that the combining
また、結合部56は、例えば、以下の方法にて、第一の表が有し得る新たな属性値集合を生成する。
(1)2以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を有し、かつ当該属性が前記ユニーク識別子によりユニークであることが示される2以上の属性値集合を結合する。
(2)3以上の異なる第二の表の各々が有する属性値集合であり、同一の属性の同一の属性値を2以上有する属性値集合を結合する。
In addition, the combining
(1) Two or more attribute value sets that each of two or more different second tables have, have the same attribute value of the same attribute, and that the attribute is unique by the unique identifier Combine attribute value sets.
(2) An attribute value set included in each of three or more different second tables, and attribute value sets having two or more identical attribute values of the same attribute are combined.
なお、結合とは、いわゆるRDBにおけるテーブルの結合(JOIN)と同義である。つまり、結合とは、結合の対象となる属性値集合において重複する属性値(キー)を1つにし、残りの属性値と対応付け、新たな属性値集合を生成することである。 The term “join” is synonymous with the so-called RDB table join (JOIN). In other words, combining means that a single attribute value (key) is duplicated in the attribute value set to be combined and is associated with the remaining attribute values to generate a new attribute value set.
(1)は、以下の条件に合致する2以上の属性値集合を結合することである。
(a)他の属性値集合の属性と同一の属性を有する。
(b)(a)の属性の属性値であり、他の属性値集合が有する属性値と同一の属性値を有する。
(c)(a)の属性がユニーク識別子によりユニークであることが示される。
(1) is to combine two or more attribute value sets that meet the following conditions.
(A) It has the same attribute as the attribute of another attribute value set.
(B) The attribute value of the attribute of (a), which has the same attribute value as the attribute value of another attribute value set.
(C) The attribute of (a) is indicated by a unique identifier.
なお、(1)は、例えば、結合の対象となる属性値集合のすべてが、当該属性値集合の属性がユニーク識別子を有する場合の結合方法であり、上記(a)〜(c)は、当該結合を行う条件(結合条件)である。また、(1)では、ユニーク識別子によりユニークであることが示される属性をキーに、2以上の属性値集合を結合する。 Note that (1) is, for example, a combination method in which all of the attribute value sets to be combined have a unique identifier, and the above (a) to (c) This is a condition for performing the coupling (joining condition). In (1), two or more attribute value sets are combined using an attribute indicated by the unique identifier as a key.
また、(2)は、以下の条件に合致する3以上の属性値集合を結合することである。
(a)他の2以上の属性値集合の属性と同一の属性を2以上有する。
(b)(a)の属性の属性値であり、他の属性値集合が有する属性値と同一の属性値を有する。
(2) is to combine three or more attribute value sets that satisfy the following conditions.
(A) It has two or more attributes that are the same as the attributes of the other two or more attribute value sets.
(B) The attribute value of the attribute of (a), which has the same attribute value as the attribute value of another attribute value set.
なお、(2)は、例えば、結合の対象となる属性値集合の少なくとも1つが、当該属性値集合の属性がユニーク識別子を有さない場合の結合方法であり、上記(a)、(b)は、当該結合を行う条件(結合条件)である。また、結合部56は、(2)の結合を行う場合、3以上の属性値集合であり、当該3以上の属性値集合の2個ずつの属性の対応関係が、当該3以上の属性値集合から明らかであるような属性値集合を結合することが好適である。
Note that (2) is a combining method when, for example, at least one of the attribute value sets to be combined does not have a unique identifier, and the above (a) and (b) Is a condition (coupling condition) for performing the coupling. Further, when performing the combination of (2), the combining
例えば、属性値「A」、「B」、「C」のいずれかを有する3つの属性値集合「A−B」、「B−C」、「C−A」があるとする。これら3つの各属性値集合は、他の2つの属性値集合が有する属性値と同一の属性値を、2以上有する。従って、結合部56は、これら3つの属性値集合を結合し、新たな属性値集合「A−B−C」を生成する。
For example, it is assumed that there are three attribute value sets “AB”, “BC”, and “CA” having any of the attribute values “A”, “B”, and “C”. Each of these three attribute value sets has two or more attribute values that are the same as the attribute values of the other two attribute value sets. Therefore, the combining
また、例えば、属性値「A」、「B」、「C」、「D」のいずれかを有する3つの属性値集合「A−B−C」、「C−D」、「D−A」があるとする。これら3つの各属性値集合は、他の2つの属性値集合が有する属性値と同一の属性値を、2以上有する。従って、結合部56は、これら3つの属性値集合を結合し、新たな属性値集合「A−B−C−D」を生成する。なお、この場合、これら3つの属性値集合からは、「B」と「D」との対応関係が明らかではない。従って、結合部56は、これら3つの属性値集合を結合しないことが好適である。
Also, for example, three attribute value sets “ABC”, “CD”, “DA” having any of the attribute values “A”, “B”, “C”, “D” Suppose there is. Each of these three attribute value sets has two or more attribute values that are the same as the attribute values of the other two attribute value sets. Accordingly, the combining
また、例えば、属性値「A」、「B」、「C」、「D」のいずれかを有する3つの属性値集合「A−B」、「B−C」、「C−D」があるとする。これら3つの属性値集合のうち、「C−D」は、他の2つの属性値集合が有する属性値と同一の属性値を2以上有さない。従って、結合部56は、これら3つの属性値集合を結合しない。これは、つまり、「A」と「D」との対応関係が明らかではない状態で、「A」と「D」との対応関係を構築することを防ぐためである。
For example, there are three attribute value sets “AB”, “BC”, and “CD” having any of the attribute values “A”, “B”, “C”, and “D”. And Of these three attribute value sets, “CD” does not have two or more attribute values that are the same as the attribute values of the other two attribute value sets. Accordingly, the combining
また、例えば、属性値「A」、「B」、「C」、「D」、「E」のいずれかを有する3つの属性値集合「A−B−C」、「A−B−D」、「C−D−E」があるとする。これら3つの各属性値集合は、他の2つの属性値集合が有する属性値と同一の属性値を、2以上有する。従って、結合部56は、これら3つの属性値集合を結合し、新たな属性値集合「A−B−C−D−E」を生成する。なお、この場合、これら3つの属性値集合からは、「E」と「A」、「E」と「B」との対応関係が明らかではない。従って、結合部56は、これら3つの属性値集合を結合しないことが好適である。しかし、結合部56は、これら3つの属性値集合の一部であり、対応関係が明らかである属性値集合を結合し、新たな属性値集合「A−B−C−D」を生成してもよい。
Further, for example, three attribute value sets “ABC” and “ABD” having any of the attribute values “A”, “B”, “C”, “D”, “E” And “C-D-E”. Each of these three attribute value sets has two or more attribute values that are the same as the attribute values of the other two attribute value sets. Accordingly, the combining
なお、以上について、便宜上、属性値のみで説明したが、通常、当該属性値の属性も同一でないと結合は行わない。 In addition, although the above demonstrated only the attribute value for convenience, normally, unless the attribute of the said attribute value is also the same, combining will not be performed.
また、結合部56は、例えば、当該属性値集合に対応するスコアが、予め決められた条件を満たすほど高い属性値集合のみを用いて、新たな属性値集合を生成してもよい。当該条件は、通常、結合部56が保持しているが、任意の記憶領域に格納されていてもよい。
Further, for example, the combining
なお、結合部56は、第二の表が有する2以上の属性値集合を結合し、第一の表が有し得る新たな属性値集合を生成すればよく、当該結合の方法や手順などは問わない。また、当該生成の元となる第二の表が有する属性値集合は、表格納部51に格納されているものであれば何でもよい。例えば、結合部56は、取得部55が取得した2以上の属性値集合を結合してもよいし、結合部56が生成した2以上の属性値集合を結合してもよいし、取得部55が取得した属性値集合または結合部56が生成した属性値集合のうちの2以上の属性値集合を結合してもよい。
The combining
ルール取得部57は、まず、1以上のWebページから、表格納部51に格納されている1以上の属性値集合が存在する文字列を取得する。そして、ルール取得部57は、当該文字列のうち、当該属性値集合以外の文字列を前記ルールとして取得する。そして、ルール取得部57は、当該取得したルールを、ルール格納部52に蓄積する。
The
ルール取得部57は、例えば、いわゆるクローリングを行い、1以上のWebページを取得する。そして、ルール取得部57は、通常、当該Webページから、属性値集合を有するWebページを取得する。また、ルール取得部57は、例えば、属性値集合を検索キーとし、いわゆる検索エンジンを用いて、1以上のWebページを取得してもよい。
The
また、ルール取得部57は、例えば、上記の様にして取得した1以上のWebページから、属性値集合が存在する文や、行、表など、1つのまとまりと言える文字列を取得する。
Also, the
また、ルール取得部57は、例えば、上記の様にして取得した文字列に存在する属性値集合を、予め決められた変数に置換する。そして、ルール取得部57は、当該置換後の文字列を、ルールとして取得する。例えば、当該文字列に会社名が存在する場合、ルール取得部57は、当該文字列に存在する会社名を、当該会社名に対応する変数(例えば、「%会社名%」)に置換する。また、例えば、当該文字列に商品名および固有名称が存在する場合、ルール取得部57は、当該文字列に存在する商品名および固有名称を、当該商品名および固有名称に対応する変数(例えば、「$商品名」、「$固有名称$」)に置換する。
For example, the
また、ルール取得部57は、例えば、対象が自明である文字列を、予め決められた変数に置換してもよい。「対象が自明である文字列」は、例えば、日付や、時刻、曜日、人名などである。また、ルール取得部57は、例えば、いわゆる動詞や、助詞、名詞など以外の文字列を、任意の0以上の文字列を示す記号に置換してもよい。
Moreover, the
また、ルール取得部57は、例えば、取得したルールと、ルール格納部52に既に格納されているルールとから、新たなルールを生成してもよい。この場合、ルール取得部57は、通常、取得したルールとの類似度が予め決められた条件を満たすほど高いルールを、ルール格納部52から取得し、当該2つのルールの共通部分を、新たなルールとして取得する。なお、このとき、共通部分以外は、任意の0以上の文字列を示す記号に置換してもよいし、いわゆる論理和で連結してもよい。また、ルール取得部57は、例えば、取得した2以上のルールから、またはルール格納部52に既に格納される2以上のルールから上記のような新たなルールを作成してもよい。
In addition, the
また、ルール取得部57は、上記の様にして取得したルールを、ルール格納部52に蓄積する。このとき、ルール取得部57は、通常、取得したルールを、当該ルールを取得した際に用いた属性値集合を有する第一の表または第二の表に対応付けて、ルール格納部52に蓄積する。なお、ルール取得部57は、取得したルールと、当該ルールにより取得できる属性値集合(属性の集合)との対応関係がわかるように、取得したルールをルール格納部52に蓄積すればよく、その方法や手順などは問わない。
Also, the
なお、表格納部51、ルール格納部52、スコア格納部53、辞書格納部54は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
The
また、取得部55、結合部56、ルール取得部57は、通常、MPUやメモリ等から実現され得る。取得部55等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現してもよい。
In addition, the
次に、データベース構築装置5の動作について説明する。なお、所定の情報におけるi番目の情報は、「情報[i]」と記載するものとする。図22は、データベース構築装置5の全体動作を示すフローチャートである。
Next, the operation of the
(ステップS2201)取得部55は、属性値集合を取得するか否かを判断する。この判断は、具体的には、例えば、データベース構築装置5が、受付部(図示せず)を有しており、当該受付部が属性値集合を取得する旨の指示を受け付けたか否か判断することや、属性値集合を取得するタイミング(周期)が予め決められており、当該タイミングになったか否かを判断することなどである。取得する場合は、ステップS2202に進み、そうでない場合は、ステップS2203に進む。
(Step S2201) The
(ステップS2202)取得部55は、属性値集合を取得する。この処理の詳細は、図23のフローチャートを用いて説明する。そして、ステップS2201に戻る。
(Step S2202) The
(ステップS2203)結合部56は、属性値集合を生成するか否かを判断する。この判断は、具体的には、例えば、データベース構築装置5が、受付部(図示せず)を有しており、当該受付部が属性値集合を生成する旨の指示を受け付けたか否か判断することや、属性値集合を生成するタイミング(周期)が予め決められており、当該タイミングになったか否かを判断することなどである。生成する場合は、ステップS2204に進み、そうでない場合は、ステップS2205に進む。
(Step S2203) The combining
(ステップS2204)結合部56は、属性値集合を生成する。この処理の詳細は、図24のフローチャートを用いて説明する。そして、ステップS2201に戻る。
(Step S2204) The combining
(ステップS2205)ルール取得部57は、ルールを取得するか否かを判断する。この判断は、具体的には、例えば、データベース構築装置5が、受付部(図示せず)を有しており、当該受付部がルールを取得する旨の指示を受け付けたか否か判断することや、ルールを取得するタイミング(周期)が予め決められており、当該タイミングになったか否かを判断することなどである。取得する場合は、ステップS2206に進み、そうでない場合は、ステップS2201に戻る。
(Step S2205) The
(ステップS2206)ルール取得部57は、ルールを取得する。この処理の詳細は、図25のフローチャートを用いて説明する。そして、ステップS2201に戻る。
(Step S2206) The
なお、図22のフローチャートにおいて、電源オフや処理終了の割り込みにより処理を終了してもよい。 In the flowchart of FIG. 22, the process may be terminated by powering off or a process termination interrupt.
また、図22のフローチャートにおいて、ステップS2201の判断、ステップS2203の判断、ステップS2205の判断の順序は問わない。 In the flowchart of FIG. 22, the order of the determination in step S2201, the determination in step S2203, and the determination in step S2205 does not matter.
図23は、図22のフローチャートのステップS2202の属性値集合の取得処理を示すフローチャートである。 FIG. 23 is a flowchart showing the attribute value set acquisition processing in step S2202 of the flowchart of FIG.
(ステップS2301)取得部55は、ルール格納部52に格納されているすべてのルールを取得する。ここで、M個のルールが取得できたものとする。
(Step S2301) The
(ステップS2302)取得部55は、クローリングを行い、Webから1以上のWebページを取得する。ここで、N個のWebページが取得できたものとする。
(Step S2302) The
(ステップS2303)取得部55は、カウンタiに1をセットする。
(Step S2303) The
(ステップS2304)取得部55は、カウンタjに1をセットする。
(Step S2304) The
(ステップS2305)取得部55は、変数countに0をセットする。
(Step S2305) The
(ステップS2306)取得部55は、ルール[i]に合致する文字列が、Webページ[j]に存在するか否かを判断する。存在する場合は、ステップS2307に進み、そうでない場合は、ステップS2311に進む。
(Step S2306) The
(ステップS2307)取得部55は、ルール[i]に合致する文字列を、Webページ[j]から取得する。
(Step S2307) The
(ステップS2308)取得部55は、取得した文字列から属性値集合を取得する。
(Step S2308) The
(ステップS2309)取得部55は、countを1インクリメントする。
(Step S2309) The
(ステップS2310)取得部55は、変数attrs[count]に、取得した属性値集合をセットする。
(Step S2310) The
(ステップS2311)取得部55は、jがNであるか否かを判断する。Nである場合は、ステップ2313に進み、そうでない場合は、ステップS2312に進む。
(Step S2311) The
(ステップS2312)取得部55は、jを1インクリメントし、ステップS2306に戻る。
(Step S2312) The
(ステップS2313)取得部55は、countが1以上であるか否かを判断する。1以上である場合は、ステップS2314に進み、そうでない場合は、S2315に進む。
(Step S2313) The
(ステップS2314)取得部55は、第二の表にattrsを追記する。
(Step S2314) The
(ステップS2315)取得部55は、iがMであるか否かを判断する。Mである場合は、上位処理にリターンし、そうでない場合は、ステップS2316に進む。
(Step S2315) The
(ステップS2316)取得部55は、iを1インクリメントし、ステップS2304に戻る。
(Step S2316) The
なお、図23のフローチャートにおいて、一のルールごとに、N個のWebページから1以上の属性値集合を取得している。これにより、当該ルールを用いて取得した属性値集合の属性ごとに、取得した属性値集合を、当該属性を有する第二の表に追記することができる。 In the flowchart of FIG. 23, one or more attribute value sets are acquired from N Web pages for each rule. Thereby, for each attribute of the attribute value set acquired using the rule, the acquired attribute value set can be added to the second table having the attribute.
また、図23のフローチャートにおいて、M個のすべての各ルールについて、N個のWebページから1以上の属性値集合を取得し、当該取得したすべての属性値集合を、一括で第二の表に追記してもよい。 In the flowchart of FIG. 23, for all M rules, one or more attribute value sets are acquired from N Web pages, and all the acquired attribute value sets are collectively displayed in the second table. You may add.
図24は、図22のフローチャートのステップS2204の属性値集合の生成処理を示すフローチャートである。 FIG. 24 is a flowchart showing the attribute value set generation processing in step S2204 of the flowchart of FIG.
(ステップS2401)結合部56は、表格納部51に格納されているすべての第二の表を取得する。ここで、M個の属性値集合が取得できたものとする。
(Step S <b> 2401) The combining
(ステップS2402)結合部56は、カウンタiに1をセットする。
(Step S2402) The combining
(ステップS2403)結合部56は、属性値集合[i]に対応する属性のいずれかが、ユニーク識別子を有するか否かを判断する。有する場合は、ステップS2404に進み、そうでない場合は、ステップS2413に進む。
(Step S2403) The combining
(ステップS2404)結合部56は、属性値集合[i]を有する第二の表、および属性値集合[i]から、ユニーク識別子を有する属性、および当該属性に対応する属性値を取得する。
(Step S2404) The combining
(ステップS2405)結合部56は、カウンタjに1をセットする。
(Step S2405) The combining
(ステップS2406)結合部56は、iとjが異なるか否かを判断する。異なる場合は、ステップS2407に進み、そうでない場合は、ステップS2409に進む。
(Step S2406) The combining
(ステップS2407)結合部56は、属性値集合[j]が、ステップS2404で取得した属性に対応し、かつステップS2404で取得した属性値と同一である属性値を有するか否かを判断する。有する場合は、ステップS2408に進み、そうでない場合は、ステップS2409に進む。
(Step S2407) The combining
(ステップS2408)結合部56は、属性値集合[i]と属性値集合[j]とを結合する。
(Step S2408) The combining
(ステップS2409)結合部56は、jがMであるか否かを判断する。Mである場合は、ステップS2411に進み、そうでない場合は、ステップS2410に進む。
(Step S2409) The combining
(ステップS2410)結合部56は、jを1インクリメントし、ステップS2406に戻る。
(Step S2410) The combining
(ステップS2411)結合部56は、iがMであるか否かを判断する。Mである場合は、上位処理にリターンし、そうでない場合は、ステップS2412に進む。
(Step S2411) The combining
(ステップS2412)結合部56は、iを1インクリメントし、ステップS2403に戻る。
(Step S2412) The combining
(ステップS2413)結合部56は、jに1をセットする。
(Step S2413) The combining
(ステップS2414)結合部56は、カウンタkに1をセットする。
(Step S2414) The
(ステップS2415)結合部56は、iとjとkとが異なるか否かを判断する。異なる場合は、ステップS2416に進み、そうでない場合は、ステップS2418に進む。
(Step S2415) The combining
(ステップS2416)結合部56は、属性値集合[i]と属性値集合[j]と属性値集合[k]とが、結合条件を満たすか否かを判断する。満たす場合は、ステップS2417に進み、そうでない場合は、ステップS2418に進む。
(Step S2416) The combining
(ステップS2417)結合部56は、属性値集合[i]と属性値集合[j]と属性値集合[k]とを結合する。
(Step S2417) The combining
(ステップS2418)結合部56は、kがMであるか否かを判断する。Mである場合は、ステップS2420に進み、そうでない場合は、S2419に進む。
(Step S2418) The combining
(ステップS2419)結合部56は、kを1インクリメントし、ステップS2415に戻る。
(Step S2419) The combining
(ステップS2420)結合部56は、jがMであるか否かを判断する。Mである場合は、ステップS2411に進み、そうでない場合は、ステップS2421に進む。
(Step S2420) The combining
(ステップS2421)結合部56は、jを1インクリメントし、ステップS2414に戻る。
(Step S2421) The combining
なお、図24のフローチャートにおいて、2以上の属性値集合が、ユニーク識別子を有する場合の結合条件を満たすか否かを判断し、満たす場合は、当該2以上の属性値集合を結合するようにしてもよい。 In the flowchart of FIG. 24, it is determined whether or not two or more attribute value sets satisfy a combining condition in the case of having a unique identifier, and if so, the two or more attribute value sets are combined. Also good.
また、図24のフローチャートにおいて、3以上の属性値集合が、ユニーク識別子を有さない場合の結合条件を満たすか否かを判断し、満たす場合は、当該3以上の属性値集合を結合するようにしてもよい。 Also, in the flowchart of FIG. 24, it is determined whether or not the attribute value set of 3 or more satisfies the combining condition in the case where the unique identifier does not exist, and if so, the attribute value set of 3 or more is combined. It may be.
図25は、図22のフローチャートのステップS2206のルールの取得処理を示すフローチャートである。 FIG. 25 is a flowchart showing the rule acquisition processing in step S2206 of the flowchart of FIG.
(ステップS2501)ルール取得部57は、表格納部51に格納されているすべての属性値集合を取得する。ここで、M個の属性値集合が取得できたものとする。
(Step S2501) The
(ステップS2502)ルール取得部57は、クローリングを行い、Webから1以上のWebページを取得する。ここで、N個のWebページが取得できたものとする。
(Step S2502) The
(ステップS2503)ルール取得部57は、カウンタiに1をセットする。
(Step S2503) The
(ステップS2504)ルール取得部57は、カウンタjに1をセットする。
(Step S2504) The
(ステップS2505)ルール取得部57は、変数countに0をセットする。
(Step S2505) The
(ステップS2506)ルール取得部57は、属性値集合[i]が存在する文字列が、Webページ[j]に存在するか否かを判断する。存在する場合は、ステップS2507に進み、そうでない場合は、ステップS2511に進む。
(Step S2506) The
(ステップS2507)ルール取得部57は、属性値集合[i]が存在する文字列を、Webページ[j]から取得する。
(Step S2507) The
(ステップS2508)ルール取得部57は、取得した文字列からルールを取得する。
(Step S2508) The
(ステップS2509)ルール取得部57は、countを1インクリメントする。
(Step S2509) The
(ステップS2510)ルール取得部57は、変数rules[count]に、取得した属性値集合をセットする。
(Step S2510) The
(ステップS2511)ルール取得部57は、jがNであるか否かを判断する。Nである場合は、ステップ2513に進み、そうでない場合は、ステップS2512に進む。
(Step S2511) The
(ステップS2512)ルール取得部57は、jを1インクリメントし、ステップS2506に戻る。
(Step S2512) The
(ステップS2513)ルール取得部57は、countが1以上であるか否かを判断する。1以上である場合は、ステップS2514に進み、そうでない場合は、S2515に進む。
(Step S2513) The
(ステップS2514)ルール取得部57は、ルール格納部52にrulesを蓄積する。
(Step S 2514) The
(ステップS2515)ルール取得部57は、iがMであるか否かを判断する。Mである場合は、上位処理にリターンし、そうでない場合は、ステップS2516に進む
(Step S2515) The
なお、図25のフローチャートにおいて、一の属性値集合ごとに、N個のWebページから1以上のルールを取得している。これにより、当該属性値集合の属性ごとに、当該取得したルールを、ルール格納部52に蓄積することができる。
In the flowchart of FIG. 25, one or more rules are acquired from N Web pages for each attribute value set. Thereby, the acquired rule can be accumulated in the
また、図25のフローチャートにおいて、M個のすべての各属性値集合について、N個のWebページから1以上のルールを取得し、当該取得したすべてのルールを、一括でルール格納部52に蓄積してもよい。
Further, in the flowchart of FIG. 25, for all M attribute value sets, one or more rules are acquired from N Web pages, and all the acquired rules are collectively stored in the
(具体例)
次に、データベース構築装置5の動作の具体例について説明する。
(Concrete example)
Next, a specific example of the operation of the
(例1:属性値集合の取得) (Example 1: Acquisition of attribute value set)
本例において、ルール格納部52には、図26に示すルールが格納されているものとする。当該ルールは、各レコードを一意に特定するためのID(項目名:ID)と、ルール(項目名:取得ルール)と、当該ルールにより取得できる属性値集合の属性(項目名:属性)とを対応付けて有する。
In this example, it is assumed that the
まず、取得部55は、図26のすべてのルールを取得する。
First, the
次に、取得部55は、クローリングを行い、Webから1以上のWebページを取得し、図27および図28に示すWebページを取得したものとする。図27のWebページは、テキスト文書であり、図28のWebページは、HTML文書である。
Next, it is assumed that the
次に、取得部55は、取得したルールの各々に合致する文字列を、取得したWebページから取得する。ここで、図27のテキスト文書には、図26の「ID=011」のルール「$会社名$、$商品名$、$固有名称$を.*?発売」に合致する文字列「株式会社良品家電、フルHDテレビ、BeautyScreenを発売」が、12行目に存在する。また、図28のHTML文書には、図26の「ID=021」のルール「<h2>$会社名$、$商品名$、固有名称$を.*?発売</h2>」に合致する文字列「<h2>株式会社良品家電、フルHDテレビ、BeautyScreenを発売</h2>」が、12行目に存在する。従って、取得部55は、当該2つの文字列を取得する。
Next, the
次に、取得部55は、取得した文字列「株式会社良品家電、フルHDテレビ、BeautyScreenを発売」から、当該文字列を取得した際に用いたルール「$会社名$、$商品名$、$固有名称$を.*?発売」が有する属性値を示す変数の箇所にある文字列を取得する。そして、取得部55は、会社名として「株式会社良品家電」、商品名として「フルHDテレビ」、固有名称として「BeautyScreen」を取得する。また、取得部55は、取得した文字列「<h2>株式会社良品家電、フルHDテレビ、BeautyScreenを発売</h2>」から、当該文字列を取得した際に用いたルール「<h2>$会社名$、$商品名$、$固有名称$を.*?発売</h2>」が有する属性値を示す変数の箇所にある文字列を取得する。そして、取得部55は、会社名として「株式会社良品家電」、商品名として「フルHDテレビ」、固有名称として「BeautyScreen」を取得する。
Next, the
なお、当該取得した2つの属性値集合が重複しているため、取得部55は、通常、いわゆるユニーク処理を行い、最終的に1つの属性値集合「株式会社良品家電|フルHDテレビ|BeautyScreen」を取得する。
Since the two acquired attribute value sets overlap, the acquiring
次に、取得部55は、取得した属性値集合「株式会社良品家電|フルHDテレビ|BeautyScreen」を、第二の表に追記する。このときの様子は、例えば、図29である。また、このとき、例えば、表格納部51に当該属性値集合に対応する属性を有する表が存在しない場合、取得部55は、まず、取得した属性値集合に対応する属性を有する表を生成し、当該表に取得した属性値集合を追記する。
Next, the
また、例えば、図27のWebページのURLが「http://official.beautyscreen.com」であったとする。この場合、取得部55は、当該URLを取得してもよい。そして、取得部55は、当該取得したURLを、取得した属性値集合と対応付けて、第二の表に追記してもよい。このときの様子は、例えば、図30である。
Further, for example, assume that the URL of the Web page in FIG. 27 is “http: // official. Beautyscreen.com”. In this case, the
また、例えば、スコア格納部53に、URL「http://official.beautyscreen.com」とスコア「100」とを対応付けて有するWebページスコア管理情報が格納されているとする。この場合、取得部55は、上記URLに対応するスコア「100」を、スコア格納部53から取得する。そして、取得部55は、当該取得したスコアを、取得した属性値集合と対応付けて、第二の表に追記する。このときの様子は、例えば、図31である。
Further, for example, it is assumed that the web page score management information having the URL “http: // official. Beautyscreen.com” and the score “100” associated with each other is stored in the
(例2:属性値集合の生成) (Example 2: Generation of attribute value set)
本例において、表格納部51には、図32から図36に示す第二の表が格納されているものとする。当該第二の表は、それぞれ、2つの属性を有し、かつ当該属性の属性値を有する。また、当該第二の表において、項目名「ID」は、通常、属性値ではないが、属性値としてもよい。また、図32と図33の第二の表において、「*」はユニーク識別子であり、当該ユニーク識別子が付された属性がユニークであることを示す。
In this example, it is assumed that the
まず、結合部56は、ユニーク識別子を有する図32と図33の第二の表を取得する。
First, the combining
次に、結合部56は、図32の「ID=011」の固有名称「PAT−Analyzer」と同一の属性および属性値を有する属性値集合である図33の「ID=014」の属性値集合「PAT−Analyzer|ソフトウェア」を取得する。そして、結合部56は、図32の「ID=011」の属性値集合「特許分析株式会社|PAT−Analyzer」と、図33の「ID=014」の属性値集合「PAT−Analyzer|ソフトウェア」とを結合し、新たな属性値集合「特許分析株式会社|PAT−Analyzer|ソフトウェア」を生成する。
Next, the combining
次に、結合部56は、生成した属性値集合「特許分析株式会社|PAT−Analyzer|ソフトウェア」を、第一の表が有する属性値集合として、表格納部51に蓄積する。このとき、結合部56は、図32に示すような表の形式にて、属性値集合を生成する。また、このとき、例えば、表格納部51に当該属性値集合に対応する属性を有する表が存在しない場合、結合部56は、まず、生成した属性値集合に対応する属性を有する表を生成し、当該表に取得した属性値集合を追記する。
Next, the combining
次に、結合部56は、上記と同様に、図32の「ID=012」の固有名称「BeautyScreen」と同一の属性および属性値を有する属性値集合である図33の「ID=011」の属性値集合「BeautyScreen|フルHDテレビ」を取得する。そして、結合部56は、図32の「ID=012」の属性値集合「株式会社良品家電|BeautyScreen」と、図33の「ID=011」の属性値集合「BeautyScreen|フルHDテレビ」とを結合し、新たな属性値集合「株式会社良品家電|BeautyScreen|フルHDテレビ」を生成する。そして、結合部56は、上記と同様に、生成した属性値集合「株式会社良品家電|BeautyScreen|フルHDテレビ」を表格納部51に蓄積する。
Next, in the same manner as described above, the combining
なお、結合部56は、図32の「ID=013」と「ID=014」の属性値集合については、図33の属性値集合において、同一の属性および属性値を有する属性値集合が存在しないので、結合の処理を行わない。
Note that the combining
次に、結合部56は、ユニーク識別子を有さない図34と図35と図36の第二の表を取得する。
Next, the combining
次に、結合部56は、取得した第二の表の各々から、属性値集合を1つずつ取得し、3つの属性値集合の組み合わせを生成する。例えば、図34の「ID=011」の属性値集合、図35の「ID=011」の属性値集合、図36の「ID=011」の属性値集合を取得し、これら3つの属性値集合の組み合わせ『「特許分析株式会社|情報サービス」、「電気機械器具製造|760,000千円」、「株式会社建築物|640,000千円」』を生成したとする。当該組み合わせは、結合条件を満たさないので、結合部56は、何も行わない。
Next, the combining
次に、結合部56は、上記と同様に、属性値集合の組み合わせを生成するために、図34の「ID=013」の属性値集合「株式会社建築物|総合工事」、図35の「ID=011」の属性値集合「総合工事|640,000千円」、図36の「ID=011」の属性値集合「株式会社建築物|640,000千円」を取得し、属性値集合の組み合わせ『「株式会社建築物|総合工事」、「総合工事|640,000千円」、「株式会社建築物|640,000千円」』を生成したとする。当該組み合わせは、結合条件を満たすので、結合部56は、当該属性値集合を結合し、新たな属性値集合「株式会社建築物|総合工事|640,000千円」を生成する。そして、結合部56は、上記と同様に、生成した属性値集合を表格納部51に蓄積する。
Next, in the same way as described above, the combining
(例3:ルールの取得) (Example 3: Rule acquisition)
本例において、表格納部51には、例2にて生成した第一の表、および図32から図36に示す第二の表が格納されているものとする。
In this example, it is assumed that the
まず、ルール取得部57は、クローリングを行い、Webから1以上のWebページを取得し、図27および図28に示すWebページを取得したものとする。
First, it is assumed that the
次に、ルール取得部57は、取得した属性値集合を順に用いて、取得した図27と図28のWebページから、当該属性値が出現する1以上のルールを取得する。ここで、例えば、ルール取得部57は、図32の「ID=012」の属性値集合「株式会社良品家電|BeautyScreen」を用いるとする。すると、ルール取得部57は、当該属性値集合が有する2つの属性値の両方が存在する文字列を、図27と図28のWebページから取得する。図27のテキスト文書には、当該属性値集合を有する文字列が、12行目と、13行目から14行目に掛けて存在する。また、図28のHTML文書には、当該属性値集合を有する文字列が、12行目と、13行目から14行目に掛けて存在する。従って、ルール取得部57は、当該行に存在する文字列「株式会社良品家電、フルHDテレビ、BeautyScreenを発売」、「株式会社良品家電は、新型のフルHDテレビ、BeautyScreenを、<改行>2011年10月14日に発売することを発表しました」、「<h2>株式会社良品家電、フルHDテレビ、BeautyScreenを発売</h2>」、「<p>株式会社良品家電は、新型のフルHDテレビ、BeautyScreenを、<改行>2011年10月14日に発売することを発表しました</p>」を取得する。
Next, the
ここで、会社名に対応する変数を「%会社名%」、固有名称に対応する変数を「%固有名称」とする。次に、ルール取得部57は、取得した文字列中の属性値を、これらの変数で置換し、新たなルール「%会社名%、フルHDテレビ、%固有名称%を発売」、「%会社名%は、新型のフルHDテレビ、%固有名称%を、<改行>2011年10月14日に発売することを発表しました」、「<h2>%会社名%、フルHDテレビ、%固有名称%を発売</h2>」、「<p>%会社名%は、新型のフルHDテレビ、%固有名称%を、<改行>2011年10月14日に発売することを発表しました</p>」を取得する。
Here, the variable corresponding to the company name is “% company name%”, and the variable corresponding to the unique name is “% unique name”. Next, the
なお、取得したルールが有する「フルHDテレビ」は、図10の第二の表から、商品名であることが明らかである。また、取得したルールが有する「2011年10月14日」は、その書式から日付であることが明らかである。従って、ルール取得部57は、これらの商品名、日付を、これらに対応する変数に置換したルール「%会社名%、%商品名%、%固有名称%を発売」、「%会社名%は、新型の%商品名%、%固有名称%を、<改行>%日付%に発売することを発表しました」、「<h2>%会社名%、%商品名%、%固有名称%を発売</h2>」、「<p>%会社名%は、新型の%商品名%、%固有名称%を、<改行>%日付%に発売することを発表しました</p>」を取得してもよい。
It should be noted that “Full HD TV” included in the acquired rule is a product name from the second table of FIG. Further, it is clear that “October 14, 2011” in the acquired rule is a date from the format. Accordingly, the
次に、ルール取得部57は、当該取得したルールを、ルール格納部52に蓄積する。
Next, the
以上、本実施の形態によるデータベース構築装置5によれば、Web上のあらゆる情報を取得し、データベース化することができる。
As mentioned above, according to the
また、本実施の形態によるデータベース構築装置5によれば、データベース化した情報を自動的に結合し、属性数の少ない属性値集合から、当該属性数よりも属性数の多い属性値集合を生成することができる。
Further, according to the
また、本実施の形態によるデータベース構築装置5によれば、属性値集合を取得する際のルールを、自動的に増やすことができる。
Moreover, according to the
(実施の形態4)
上記実施の形態1をさらに明瞭に説明する。図1は、本実施の形態におけるデータベース構築装置1のブロック図である。データベース構築装置1は、会社データベース101、商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、およびルール学習部116を備える。
(Embodiment 4)
The first embodiment will be described more clearly. FIG. 1 is a block diagram of a
会社データベース101は、1以上の会社名を格納し得る。会社名とは、商品またはサービスを提供する株式会社、有限会社、公益法人、社団法人、独立行政法人などの法人格をもつ名称、および個人の名称である。
The
また、会社名とは、その会社名を特定する情報でも良い。会社データベース101は、会社名だけでなく、会社名を取得した文書の情報、または会社名の取得回数や取得割合などを格納していても良い。会社名の会社を特定する情報とは、会社を一意に特定できる情報であればなんでも良い。会社名の会社を特定する情報は、例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。会社名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または会社名の前後の文章やHTMLのタグ構造などである。
Further, the company name may be information for specifying the company name. The
格納とは、不揮発性の記録媒体による長期的な格納や、揮発性の記録媒体による一時的な格納も含む概念である。以下、本発明内における格納の概念は、同一のものとする。 Storage is a concept that includes long-term storage using a non-volatile recording medium and temporary storage using a volatile recording medium. Hereinafter, the concept of storage in the present invention is the same.
また、会社データベース101に会社名が記憶される過程は問わない。例えば、記録媒体を介して会社名が会社データベース101で記憶されるようになってもよく、通信回線等を介して送信された会社名が会社データベース101で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された会社名が会社データベース101で記憶されるようになってもよい。また、会社データベース101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
Further, the process of storing the company name in the
なお、後述する商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、データベース31、データベース401、商品コード管理手段4021の各構成要素について、これらに情報が記憶される過程や、これらの実現手段は、会社データベース101と同様であるので、説明を省略する。
A
商品データベース102は、1以上の商品名を格納し得る。商品名とは、法人、および個人が販売、または提供している商品、または役務の名称である。商品名は、具体的には、「チョコレート」「パソコン」「宅配」「引越しサービス」などである。ここでいう商品、および役務の名称は、商標法施行規則第6条で規定されている商品および役務の区分(以下、類似群コード表という)に記載されている商品、および役務の名称に必ずしも準じていなくても良い。
The
また、商品名は、その商品名を特定する情報でも良い。商品データベース102は、商品名だけでなく、商品名を取得した文書の情報、または商品名の取得回数や取得割合などを格納していても良い。商品名の商品を特定する情報とは、商品を一意に特定できる情報であればなんでも良い。商品名の商品を特定する情報は、例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品名の前後の文章やHTMLのタグ構造などである。
Further, the product name may be information for specifying the product name. The
固有名称データベース103は、1以上の商品の固有名称を格納し得る。商品の固有名称とは、商品、および役務を識別可能な名称である。商品、および役務を識別可能な名称は、具体的には、「雪見だいふく(登録商標)」「宅急便(登録商標)」「PatentSearchAssistant(登録商標)」などである。またここでいう商品の固有名称とは、商標登録されている商標であっても良いし、そうでなくても良い。
The
また、商品の固有名称とは、その商品の固有名称を特定する情報でも良い。固有名称データベース103は、商品の固有名称だけでなく、商品の固有名称を取得した文書の情報、または商品の固有名称の取得回数や取得割合などを格納していても良い。商品の固有名称を特定する情報とは、商品の固有名称を一意に特定できる情報であればなんでも良い。商品の固有名称を一意に特定できる情報は、例えば、商標の出願番号や公開番号などであっても良い。商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
Further, the unique name of the product may be information for specifying the unique name of the product. The
会社商品データベース104は、会社名と商品名とを有する1以上の組を格納し得る。
The
会社商品データベース104は、会社名と、商品名だけでなく、同一レコードにある会社名と商品名を取得した文書の情報、または同一レコードにある会社名と商品名の取得回数、取得頻度や共起頻度、文書内で会社名と商品名の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値でも良い。同一レコードにある会社名と商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または会社名と商品名の前後の文章やHTMLのタグ構造などである。
The
会社固有名称データベース105は、会社名と商品の固有名称とを有する1以上の組を格納し得る。
The company
会社固有名称データベース105は、会社名と、商品の固有名称だけでなく、同一レコードにある会社名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納していても良い。同一レコードにある会社名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
The company
商品固有名称データベース106は、商品名と商品の固有名称とを有する1以上の組を格納し得る。
The product
会社固有名称データベース105は、商品名と、商品の固有名称だけでなく、同一レコードにある商品名と商品の固有名称を取得した文書の情報、または同一レコードにある商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で商品名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納していても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
The company
会社商品固有名称データベース107は、会社名と商品名と商品の固有名称とを有する1以上の組を格納し得る。
The company product
会社商品固有名称データベース107は、会社名と、商品名と、商品の固有名称だけでなく、同一レコードにある会社名と商品名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品名と商品の固有名称のそれぞれの間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納していても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
The company product
また、会社商品固有名称データベース107に、既に出願公開されている商標の情報を格納していても良い。その場合は、会社商品固有名称データベース107は、商標の識別情報(例えば登録番号)や、登録状況などの情報を格納していても良い。
In addition, the company product
会社ルールデータベース108は、文書から会社名を取得するためのルールである1以上の会社ルールを格納し得る。
The
文書とは、1以上の文の集合であり、会社名や商品名、商品の固有名称が必ずしも記載されている必要はなく、また日本語だけでなく、英語や中国語、その他あらゆる言語であっても良く、2種類以上の言語が混在していても良い。例えば、文書は、WebページやHTML、XML、Wordファイルなどあっても良い。 A document is a collection of one or more sentences. The company name, product name, and product unique name do not necessarily have to be written, and are not only Japanese but also English, Chinese, and all other languages. Alternatively, two or more languages may be mixed. For example, the document may be a Web page, HTML, XML, Word file, or the like.
文書から会社名を取得するとは、文書から、会社名が記載されている部分を割り出し、会社名を抽出することである。 Obtaining a company name from a document means that a part in which the company name is described is determined from the document and the company name is extracted.
会社ルールとは、文書から会社名を抽出するルールである。会社ルールは、例えば、会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社ルールは、会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、会社名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、会社ルールは、上述したルールが複合的に合わさっていても良い。会社ルールは、具体的には、「%会社名%」の部分に記載された会社名を取得する会社ルールの場合、「<td>社名</td><td>株式会社%会社名%</td>」などとして表す。 The company rule is a rule for extracting a company name from a document. The company rule may be, for example, a sentence pattern in which the company name can be directly extracted, or a sentence pattern that specifies a sentence in which the company name is described. If the document is a Web page, the company rule may be an HTML tag structure pattern that directly extracts the company name, or an HTML tag structure pattern that specifies a sentence in which the company name is described. There may be. Moreover, the same pattern as the above which cannot extract a company name may be sufficient. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the company rules may be combined with the above-described rules. Specifically, the company rule is “<td> company name </ td> <td> company% company name% <” in the case of a company rule for acquiring a company name described in the “% company name%” portion. / Td> ”and the like.
会社ルールデータベース108は、会社ルールだけでなく、会社ルールの取得回数や取得割合、または会社ルールが抽出する対象を格納していても良い。会社ルールが抽出する対象とは、文書から会社ルールを利用した結果、会社名を取得する場合と、会社名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、会社ルールデータベース108は、「会社名」または「文章」などの値を格納していても良い。
The
商品ルールデータベース109は、文書から商品名を取得するためのルールである1以上の商品ルールを格納し得る。 The merchandise rule database 109 can store one or more merchandise rules that are rules for obtaining a merchandise name from a document.
文書から商品名を取得するとは、文書から、商品名が記載されている部分を割り出し、商品名を抽出することである。 Obtaining the product name from the document means that the part in which the product name is described is determined from the document and the product name is extracted.
商品ルールとは、文書から商品名を取得するルールである。例えば、商品ルールは、商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品ルールは、商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品ルールは、商品名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、商品ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名を取得する商品ルールの場合、商品ルールは、「<title>商品名一覧</title>.*?<div.*?><h[1−5].*?>一覧<h[1−5]></div><ul.*?>(<li.*?><a.*?>%商品名%</a></</li>)+</ul>」などとして表す。 The product rule is a rule for acquiring a product name from a document. For example, the product rule may be a text pattern from which a product name can be directly extracted, or a text pattern that specifies a text in which the product name is described. When the document is a Web page, the product rule may be an HTML tag structure pattern that directly extracts the product name, or an HTML tag structure pattern that specifies a sentence in which the product name is described. There may be. Further, the product rule may be a pattern similar to the above in which the product name cannot be extracted. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the product rules may be a combination of the above-described rules. Specifically, in the case of a product rule for acquiring a product name described in the “% product name%” part, the product rule is “<title> product name list </ title>. *? <Div. *? > <H [1-5]. *?> List <h [1-5]> </ div> <ul. *?> (<Li. *?> <A. *?>% Product name% <// a> </ </ li>) + </ ul> ".
商品ルールデータベース109は、商品ルールだけでなく、商品ルールの取得回数や取得割合、または商品ルールが抽出する対象を格納していても良い。商品ルールが抽出する対象とは、文書から商品ルールを利用した結果、商品名を取得する場合と、商品名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、商品ルールデータベース109は、「商品名」または「文章」などの値を格納していても良い。 The product rule database 109 may store not only the product rules, but also the number of acquisitions and the acquisition ratio of the product rules, or the targets extracted by the product rules. The target of product rule extraction is when there is a possibility of acquiring multiple types of information, such as when acquiring a product name as a result of using a product rule from a document, or when acquiring a sentence containing the product name , A value that clearly specifies what to get. Specifically, the product rule database 109 may store values such as “product name” or “text”.
固有名称ルールデータベース110は、文書から商品の固有名称を取得するためのルールである1以上の固有名称ルールを格納し得る。
The unique
文書から商品の固有名称を取得するとは、文書から、商品の固有名称が記載されている部分を割り出し、商品名を抽出することである。 Obtaining the unique name of the product from the document means that the part in which the unique name of the product is described is determined from the document and the product name is extracted.
固有名称ルールとは、文書から商品の固有名称を取得するルールである。例えば、固有名称ルールは、商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、固有名称ルールは、商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、固有名称ルールは、商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、固有名称ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%固有名称%」の部分に記載された商品の固有名称を取得する固有名称ルールの場合、固有名称ルールは、「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The unique name rule is a rule for acquiring a unique name of a product from a document. For example, the unique name rule may be a sentence pattern that can directly extract the unique name of the product, or may be a sentence pattern that specifies a sentence in which the unique name of the product is described. If the document is a Web page, the unique name rule may be an HTML tag structure pattern that directly extracts the unique name of the product, and the HTML rule that specifies a sentence in which the unique name of the product is described. It may be a tag structure pattern. The unique name rule may be a pattern similar to the above in which the unique name of the product cannot be extracted. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the unique name rule may be a combination of the above-described rules. Specifically, in the case of the unique name rule for acquiring the unique name of the product described in the “% unique name%” part, the unique name rule is “<title> product list </ title>. *? <Span”. ... ?? list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .
固有名称ルールデータベース110は、固有名称ルールだけでなく、固有名称ルールの取得回数や取得割合、または固有名称ルールが抽出する対象を格納していても良い。固有名称ルールが抽出する対象とは、文書から固有名称ルールを利用した結果、商品の固有名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、固有名称ルールデータベース110は、「商品の固有名称」または「文章」などの値を格納していてもよい。
The unique
知識増殖ルールデータベース111は、文書から、構成数が少ない情報を用いて、より構成数の多い情報を取得するルールである1以上の知識増殖ルールを格納し得る。
The knowledge
構成数が少ない情報を用いて、より構成数の多い情報を取得するとは、以下の様なことである。
(1)会社データベース101に格納されている情報を用いて、会社商品データベース104、および会社固有名称データベース105、および会社商品固有名称データベース107に格納されている情報を取得すること
(2)商品データベース102に格納されている情報を用いて、会社商品データベース104、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
(3)固有名称データベース103に格納されている情報を用いて、会社固有名称データベース105、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
(4)会社商品データベース104に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
(5)会社固有名称データベース105に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
(6)商品固有名称データベース106に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
The acquisition of information with a larger number of components using information with a smaller number of components is as follows.
(1) Using information stored in the
知識増殖ルールとは、文書から会社名、または商品名、または商品の固有名称から1、または2種類の情報を利用して、残る2、または1種類の情報を取得するためのルールである。具体的には、知識増殖ルールは、第一知識増殖ルールと、第二知識増殖ルールと、第三知識増殖ルールと、第四知識増殖ルールと、第五知識増殖ルールと、第六知識増殖ルールと、第七知識増殖ルールと、第八知識増殖ルールと、第九知識増殖ルールと、第十知識増殖ルールと、第十一知識増殖ルールと、第十二知識増殖ルールとがある。 The knowledge proliferation rule is a rule for acquiring the remaining two or one type of information using one or two types of information from a company name, a product name, or a unique name of a product from a document. Specifically, the knowledge proliferation rule includes the first knowledge proliferation rule, the second knowledge proliferation rule, the third knowledge proliferation rule, the fourth knowledge proliferation rule, the fifth knowledge proliferation rule, and the sixth knowledge proliferation rule. And a seventh knowledge proliferation rule, an eighth knowledge proliferation rule, a ninth knowledge proliferation rule, a tenth knowledge proliferation rule, an eleventh knowledge proliferation rule, and a twelfth knowledge proliferation rule.
第一知識増殖ルールは、文書から、会社名を用いて、会社名と商品名との組を取得するためのルールである。会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
The first knowledge proliferation rule is a rule for acquiring a combination of a company name and a product name from a document using a company name. Using the company name may be, for example, selecting a document in which one or more company names stored in the
第一知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第一知識増殖ルールは、会社名が記載されているWebページのうち、会社名にかかわりのある商品名を直接抽出するHTMLタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第一知識増殖ルールは、会社名が記載されている文書のうち、会社名にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第一知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得することを示す場合、第一知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。 The first knowledge proliferation rule may be, for example, a sentence pattern in which a product name related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, the first knowledge proliferation rule may be an HTML tag structure pattern that directly extracts a product name related to the company name from the Web page on which the company name is described. The pattern of the HTML tag structure which specifies the sentence with which the brand name is described may be sufficient. Further, the first knowledge proliferation rule may be a pattern similar to the above in which a product name related to a company name cannot be extracted from documents in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the first knowledge proliferation rule may be a combination of the above-described rules. Specifically, when it is shown that the combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part is acquired, the first knowledge proliferation rule is For example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A . *?>% Product name% </a> </ li>) + </ ul> ".
第二知識増殖ルールは、文書から、会社名を用いて、会社名と商品の固有名称との組を取得するためのルールである。 The second knowledge proliferation rule is a rule for acquiring a combination of a company name and a product unique name from a document using the company name.
会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the company name may be, for example, selecting a document in which one or more company names stored in the
第二知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第二知識増殖ルールは、会社名が記載されているWebページのうち、会社名にかかわりのある商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第二知識増殖ルールは、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第二知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第二知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The second knowledge proliferation rule may be, for example, a sentence pattern in which a proper noun of a product related to a company name can be directly extracted from a document in which the company name is described. It may be a sentence pattern that identifies sentences in which nouns are written. When the document is a Web page, the second knowledge proliferation rule is a pattern of an HTML tag structure that directly extracts a proper noun of a product related to the company name from the Web page in which the company name is described. Alternatively, it may be an HTML tag structure pattern that identifies a sentence in which a proper noun of a product is described. Further, the second knowledge proliferation rule may be a pattern similar to the above in which a proper noun of a product related to the company name cannot be extracted from the document in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the second knowledge proliferation rule may be a combination of the above-described rules. Specifically, when it is shown that the combination of the company name described in the “% company name%” part and the unique name of the product described in the “% unique name%” part is acquired, the second knowledge multiplication The rule is, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *? > <A. *?>% Proper name% </a> </ li>) + </ ul> ".
第三知識増殖ルールは、文書から、会社名を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。 The third knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a product unique name from a document using the company name.
会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the company name may be, for example, selecting a document in which one or more company names stored in the
第三知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、商品名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第三知識増殖ルールは、会社名が記載されているWebページのうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品名を直接特定し商品の固有名称を含む文章を特定するHTMLタグ構造のパターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接特定するHTMLタグ構造のパターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第三知識増殖ルールは、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第三知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第三知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The third knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a product name related to a company name and a proper noun of the product among documents in which the company name is described, It may be a sentence pattern that directly extracts the product name and identifies a sentence that includes the unique name of the product, or a sentence pattern that identifies a sentence that includes the product name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. If the document is a Web page, the third knowledge proliferation rule has an HTML tag structure that directly extracts the product name and the proper noun of the product from the Web page on which the company name is described. It may be a pattern, or it may be an HTML tag structure pattern that directly identifies a product name and identifies a sentence that includes the unique name of the commodity, identifies a sentence that includes the product name, and directly identifies a proper noun of the commodity It may be an HTML tag structure pattern, or an HTML tag structure pattern that identifies a sentence in which a product name and a proper noun of the product are described. Further, the third knowledge proliferation rule may be a pattern similar to the above in which the product name related to the company name and the proper noun of the product cannot be extracted from the document in which the company name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the third knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the third knowledge proliferation rule is, for example, “<title>% company name% (handling)? Merchandise </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>
第四知識増殖ルールは、文書から、商品名を用いて、会社名と商品名との組を取得するためのルールである。 The fourth knowledge proliferation rule is a rule for acquiring a combination of a company name and a product name from a document using a product name.
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the product name may be, for example, selecting a document in which one or more product names stored in the
第四知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第四知識増殖ルールは、商品名が記載されているWebページのうち、商品名にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第四知識増殖ルールは、商品名が記載されている文書のうち、商品名にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第四知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得することを示す場合、第四知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。 The fourth knowledge proliferation rule may be, for example, a sentence pattern in which a company name related to a product name can be directly extracted from a document in which the product name is described, and the company name is described. It may be a sentence pattern that identifies the existing sentence. If the document is a Web page, the fourth knowledge proliferation rule is a pattern of an HTML tag structure that directly extracts a company name related to a product name from Web pages on which the product name is described. Alternatively, it may be a pattern of an HTML tag structure that specifies a sentence in which a company name is described. Further, the fourth knowledge proliferation rule may be a pattern similar to the above in which the company name related to the product name cannot be extracted from the document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the fourth knowledge proliferation rule may be a combination of the above-described rules. Specifically, when indicating that the combination of the company name described in the “% company name%” part and the product name described in the “% product name%” part is to be acquired, the fourth knowledge proliferation rule is For example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> List </ span> <ul. *?> (<Li. *?> <A . *?>% Product name% </a> </ li>) + </ ul> ".
第五知識増殖ルールは、文書から、商品名を用いて、商品名と商品の固有名称との組を取得するためのルールである。 The fifth knowledge proliferation rule is a rule for acquiring a combination of a product name and a product unique name from a document using the product name.
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the product name may be, for example, selecting a document in which one or more product names stored in the
第五知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第五知識増殖ルールは、商品名が記載されているWebページのうち、商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第五知識増殖ルールは、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第五知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第五知識増殖ルールは、例えば、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The fifth knowledge proliferation rule may be, for example, a sentence pattern in which a unique name of a product related to the product name can be directly extracted from a document in which the product name is described. It may be a sentence pattern that identifies a sentence in which a name is described. When the document is a Web page, the fifth knowledge proliferation rule is an HTML tag structure pattern that directly extracts a unique name of a product related to the product name from the Web page on which the product name is described. It may be a pattern of an HTML tag structure that specifies a sentence in which a unique name of a product is described. Further, the fifth knowledge proliferation rule may be a pattern similar to the above in which the unique name of the product related to the product name cannot be extracted from the document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the fifth knowledge proliferation rule may be a combination of the above-described rules. Specifically, if it is shown that the combination of the product name described in the “% product name%” part and the product name described in the “% unique name%” part is acquired, The rule is, for example, “<span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> <// li>) + </ ul> ".
第六知識増殖ルールは、文書から、商品名を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。 The sixth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a product unique name from a document using the product name.
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using the product name may be, for example, selecting a document in which one or more product names stored in the
第六知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第六知識増殖ルールは、商品名が記載されているWebページのうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品の固有名称を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定するタグHTMLタグ構造のパターンであっても良い。また、第六知識増殖ルールは、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第六知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第六知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The sixth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a product name and a proper noun of the product among documents in which the product name is described, It may be a sentence pattern that directly extracts the company name and identifies the sentence including the unique name of the product, or may be a sentence pattern that identifies the sentence including the company name and directly extracts the proper noun of the product. And a sentence pattern that identifies a sentence in which the proper noun of the product is described. Further, when the document is a Web page, the sixth knowledge proliferation rule is an HTML tag structure that directly extracts a company name related to a product name and a proper noun of the product from the Web page on which the product name is described. It may be a pattern of HTML tag structure that directly identifies the company name and identifies the sentence including the unique name of the product, and identifies the sentence including the company name and directly identifies the proper noun of the commodity. The pattern of the HTML tag structure to identify may be sufficient, and the pattern of the tag HTML tag structure which identifies the sentence in which the company name and the proper noun of the product are described may be used. Further, the sixth knowledge proliferation rule may be a pattern similar to the above in which a company name and a proper noun of a product related to a product name cannot be extracted from a document in which the product name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the sixth knowledge proliferation rule may be a combination of the above-described rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the sixth knowledge proliferation rule is, for example, “<title>% company name% (handling)? Merchandise </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>
第七知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品の固有名称との組を取得するためのルールである。 The seventh knowledge proliferation rule is a rule for acquiring a combination of a company name and a product unique name from a document using a product unique name.
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the
第七知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第七知識増殖ルールは、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第七知識増殖ルールは、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第七知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第七知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The seventh knowledge proliferation rule may be, for example, a sentence pattern that can directly extract a company name related to a unique name of a product from documents in which the unique name of the product is described. It may be a sentence pattern that specifies a sentence in which a name is described. If the document is a Web page, the seventh knowledge proliferation rule has an HTML tag structure that directly extracts the company name related to the unique name of the product from the Web page in which the unique name of the product is described. A pattern may be sufficient and the pattern of the HTML tag structure which specifies the text in which the company name is described may be sufficient. Further, the seventh knowledge proliferation rule may be a pattern similar to the above in which a company name related to a unique name of a product cannot be extracted from a document in which the unique name of the product is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the seventh knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, if you indicate that you want to acquire a combination of the company name listed in the “% company name%” part and the unique name of the product listed in the “% unique name%” part, The rule is, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?> Product list </ span> <ul. *?> (<Li. *? > <A. *?>% Proper name% </a> </ li>) + </ ul> ".
第八知識増殖ルールは、文書から、商品の固有名称を用いて、商品名と商品の固有名称との組を取得するためのルールである。 The eighth knowledge proliferation rule is a rule for acquiring a combination of a product name and a product unique name from a document using the product unique name.
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the
第八知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第八知識増殖ルールは、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第八知識増殖ルールは、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第八知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第八知識増殖ルールは、例えば、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The eighth knowledge proliferation rule may be, for example, a sentence pattern that can directly extract the product name related to the product unique name from the document in which the product unique name is described. It may be a sentence pattern that specifies a sentence in which a name is described. Further, when the document is a Web page, the eighth knowledge proliferation rule has an HTML tag structure for directly extracting a product name related to the product unique name from the Web page in which the product unique name is described. A pattern may be sufficient and the pattern of the HTML tag structure which specifies the text in which the brand name is described may be sufficient. In addition, the eighth knowledge proliferation rule may be a pattern similar to the above in which a product name related to a product unique name cannot be extracted from a document in which a product unique name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the eighth knowledge proliferation rule may be a combination of the above-described rules. Specifically, if it is indicated that the combination of the product name described in the “% product name%” part and the product unique name described in the “% unique name%” part is acquired, The rule is, for example, “<span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> <// li>) + </ ul> ".
第九知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。 The ninth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a product unique name from a document using the product unique name.
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using the unique name may be, for example, selecting a document in which the unique names of one or more products stored in the
第九知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出することができる文章のパターンであっても良く、会社名を直接抽出し商品名を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品名を直接抽出する文章パターンであっても良く、会社名と商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第九知識増殖ルールは、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品名を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品名を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第九知識増殖ルールは、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第九知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第九知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The ninth knowledge proliferation rule is, for example, a sentence pattern in which a company name and a product name related to a product unique name can be directly extracted from a document in which a product unique name is described. It may be a sentence pattern that directly extracts a company name and identifies a sentence including the product name, or a sentence pattern that identifies a sentence including the company name and directly extracts the product name. It may be a sentence pattern that specifies a sentence in which a name is described. Also, if the document is a Web page, the ninth knowledge proliferation rule is an HTML code that directly extracts the company name and product name related to the product unique name from the Web page on which the product unique name is described. It may be a tag structure pattern, or it may be an HTML tag structure pattern that directly identifies the company name and identifies the text including the product name, and identifies the text including the company name and directly identifies the product name. It may be an HTML tag structure pattern, or an HTML tag structure pattern that specifies a sentence in which a company name and a product name are described. Further, the ninth knowledge proliferation rule may be a pattern similar to the above in which the company name and the product name related to the product unique name cannot be extracted from the document in which the product unique name is described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Further, the ninth knowledge proliferation rule may be a combination of the above-described rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the ninth knowledge proliferation rule is, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>
第十知識増殖ルールは、文書から、会社名と商品名の組を用いて、会社名と商品名と商品の固有名称との組を取得するためのルールである。 The tenth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a unique name of a product from a document by using the combination of the company name and the product name.
会社名と商品名の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、会社名と、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
Using a combination of a company name and a product name includes, for example, one or more company names stored in the
第十知識増殖ルールとは、例えば、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出することができる文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第十知識増殖ルールは、会社名と商品名が記載されているWebページのうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第十知識増殖ルールは、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第十知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第十知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The tenth knowledge proliferation rule is, for example, a sentence pattern in which a unique name of a product related to a company name and a product name can be directly extracted from documents in which the company name and the product name are described. Alternatively, it may be a sentence pattern that specifies a sentence in which the unique name of the product is described. If the document is a Web page, the tenth knowledge proliferation rule is an HTML that directly extracts a unique name of a product related to the company name and the product name from the Web page in which the company name and the product name are described. The tag structure pattern may be an HTML tag structure pattern that identifies a sentence in which a product unique name is described. Further, the tenth knowledge proliferation rule may be a pattern similar to the above in which a unique name of a product related to the company name and the product name cannot be extracted from the document in which the company name and the product name are described. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the tenth knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. 10th knowledge proliferation rule, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ ul>
第十一知識増殖ルールは、文書から、会社名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得するためのルールである。 The eleventh knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a unique name from a document using a combination of the company name and the unique name of the product.
会社名と固有名称の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、会社名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using a combination of company name and unique name means, for example, one or more company names stored in the
第十一知識増殖ルールとは、例えば、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出することができる文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第十一知識増殖ルールは、会社名と商品の固有名称が記載されているWebページのうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第十一知識増殖ルールは、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第十一知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、第十一知識増殖ルールは、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第十一知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The eleventh knowledge proliferation rule is, for example, a sentence pattern in which a product name related to a company name and a product unique name can be directly extracted from a document in which the company name and product unique name are described. It may be a sentence pattern that identifies a sentence in which a product name is described. When the document is a Web page, the eleventh knowledge proliferation rule directly selects a product name related to the company name and the unique name of the product among the Web pages on which the company name and the unique name of the product are described. The pattern of the HTML tag structure to extract may be sufficient, and the pattern of the HTML tag structure which specifies the text in which the brand name is described may be sufficient. The eleventh knowledge proliferation rule is a pattern similar to the above in which the product name related to the company name and the product unique name cannot be extracted from the document in which the company name and the product unique name are described. Also good. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the eleventh knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the eleventh knowledge proliferation rule consists of the company name described in the “% company name%” part, the product name described in the “% product name%” part, and the “% unique name%”. In the case where it indicates that a set of unique names of products described in the portion of “<title>%” is to be acquired, for example, “<title>% company name% (handling)? Product </ title>. *? <Span. *?>% Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Unique name% </a> </ li>) + </ Ul> ".
第十二知識増殖ルールは、文書から、商品名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得するためのルールである。 The twelfth knowledge proliferation rule is a rule for acquiring a combination of a company name, a product name, and a unique name from a document using a combination of a product name and a unique name of a product.
商品名と固有名称の組を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
Using a combination of a product name and a unique name means, for example, one or more product names stored in the
第十二知識増殖ルールとは、例えば、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出することができる文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、第十二知識増殖ルールは、商品名と商品の固有名称が記載されているWebページのうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、第十二知識増殖ルールは、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらに、第十二知識増殖ルールは、上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得することを示す場合、第十二知識増殖ルールは、例えば、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。 The twelfth knowledge proliferation rule is, for example, a sentence pattern that can directly extract a company name related to a product name and a product unique name from a document in which a product name and a product unique name are described. It may be a sentence pattern that specifies a sentence in which a company name is described. Further, when the document is a Web page, the twelfth knowledge proliferation rule directly selects the company name related to the product name and the product unique name from the Web page on which the product name and the product unique name are described. The pattern of the HTML tag structure to extract may be sufficient, and the pattern of the HTML tag structure which specifies the text in which the company name is described may be sufficient. The twelfth knowledge proliferation rule is a pattern similar to the above in which the company name related to the product name and the product unique name cannot be extracted from the document in which the product name and the product unique name are described. Also good. Each pattern may be a fixed character string, a regular expression, or a part of speech or the number of characters. Furthermore, the twelfth knowledge proliferation rule may be a combination of the above-mentioned rules. Specifically, the company name listed in the “% company name%” part, the product name listed in the “% product name%” part, and the product listed in the “% unique name%” part. In the case of indicating that a set of unique names is acquired, the twelfth knowledge proliferation rule is, for example, “<title>% company name% (handling)? Merchandise </ title>. *? <Span. *?> % Product name% list </ span> <ul. *?> (<Li. *?> <A. *?>% Proper name% </a> </ li>) + </ ul> .
知識増殖ルールデータベース111は、知識増殖ルールだけでなく、知識増殖ルールの種類、または知識増殖ルールの取得回数や取得割合、または知識増殖ルールが抽出する対象を格納していても良い。知識増殖ルールが抽出する対象とは、知識増殖ルールを利用した結果、文書から、会社名、または商品名、または商品の固有名称といった名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、知識増殖ルールデータベース111は、「名称」または「文章」などの値を格納していてもよい。
The knowledge
また、知識増殖ルールデータベース111は、上述の各知識増殖ルールをフラグとして保持しても良く、または上述の知識増殖ルールごとに別々のデータベースであっても良い。
The knowledge
会社名取得部112は、1以上の会社ルールを用いて、1以上の会社名を、1以上のWebサーバ装置から取得し、会社データベース101に蓄積する。
The company
Webサーバ装置とは、具体的には、Webサービス、またはデータベースを公開するサーバ装置である。Webサービスとは、HTML形式などのマークアップ言語などにより構成されるものを公開していることに限るものではなく、例えば、Webブラウザ上や専用のアプリケーション実行環境上で動作可能なアプリケーションソフトウェアのシステムを公開していることであっても良い。Webサーバ装置は、インターネット上に公開されているものでも良く、ローカルエリア上に公開されているものでも良い。 Specifically, the Web server device is a server device that publishes a Web service or a database. The Web service is not limited to publishing what is configured in a markup language such as HTML format. For example, a system of application software operable on a Web browser or a dedicated application execution environment May be published. The Web server device may be published on the Internet or may be published on a local area.
会社名取得部112は、Webサーバ装置から取得したWebページから、会社ルールを用いて会社名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
The company
会社ルールを用いて会社名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などに、会社ルールデータベース108に登録されている会社ルールを適用し、当該会社ルールに合致する会社名を取得することである。例えば、会社名取得部112は、任意の会社ルールで「%会社名%」と記載されている部分に当てはまる文字列を取得する。
The acquisition of a company name using a company rule means that a company name registered in the
会社名取得部112は、会社名を会社データベース101に蓄積する際、使用した会社ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを会社データベース101に登録するようにしても良い。
When the company name is stored in the
商品名取得部113は、1以上の商品ルールを用いて、1以上の商品名を、1以上のWebサーバ装置から取得し、商品データベース102に蓄積する。
The product
商品名取得部113は、Webサーバ装置から取得したWebページから、商品ルールを用いて商品名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
The product
商品ルールを用いて商品名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などに、商品ルールデータベース109に登録されている商品ルールを適用し、当該商品ルールに合致する商品名を取得することである。例えば、商品名取得部113は、任意の商品ルールで「%商品名%」と記載されている部分に当てはまる文字列を取得する。
The acquisition of the product name using the product rule means that the product rule registered in the product rule database 109 is applied to the document acquired from the Web server device or the structure of HTML, and the product name that matches the product rule. Is to get. For example, the product
商品名取得部113は、商品名を商品データベース102に蓄積する際、使用した商品ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを商品データベース102に登録するようにしても良い。
When the product
固有名称取得部114は、1以上の固有名称ルールを用いて、1以上の固有名称を、1以上のWebサーバ装置から取得し、固有名称データベース103に蓄積する。
The unique
固有名称取得部114は、Webサーバ装置から取得したWebページから、固有名称ルールを用いて商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
The unique
固有名称ルールを用いて商品の固有名称を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などに、固有名称ルールデータベース110に格納されている固有名称ルールを適用し、当該固有名称ルールに合致する商品の固有名称を取得することである。例えば、固有名称取得部114は、任意の固有名称ルールで「%固有名称%」と記載されている部分に当てはまる文字列を取得する。
The acquisition of the unique name of the product using the unique name rule means that the unique name rule stored in the unique
固有名称取得部114は、商品の固有名称を固有名称データベース103に蓄積する際、使用した固有名称ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを固有名称データベース103に登録するようにしても良い。
When the unique
知識獲得部115は、1以上のWebサーバ装置から取得したWebページから、所定の情報を用いて、所定の情報を取得し、取得した情報を対応するデータベースに蓄積する。具体的には、知識獲得部115は、以下の様にして所定の情報を取得する。
(1)会社データベース101の1以上の各会社名と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得する。
(2)商品データベース102の1以上の各商品名と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得する。
(3)固有名称データベース103の1以上の各固有名称と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得する。
(4)会社商品データベース104の1以上の会社名と商品名の組と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得する。
(5)会社固有名称データベース105の1以上の会社名と商品の固有名称の組と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得する。
(6)商品固有名称データベース106の1以上の商品名と商品の固有名称の組と、1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得する。
The
(1) One or more company names and product names, or one or more company names and unique names, or one or more using one or more company names in the
(2) One or more company names and product names, or one or more product names and unique names, or one or more using one or more product names in the
(3) One or more company names and unique names, or one or more product names and unique names, or 1 using one or more unique names in the
(4) One or more company names, product names, and unique names are acquired using one or more pairs of one or more company names and product names in the
(5) Acquire one or more company names, product names, and unique names using one or more pairs of one or more company names and product unique names in the company
(6) One or more company names, product names, and unique names are acquired using a combination of one or more product names and product unique names in the product
(1)は、会社データベース101に蓄積されている会社名が含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第一知識増殖ルール、または第二知識増殖ルール、または第三知識増殖ルールを適用し、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
(1) acquires a document including the company name stored in the
(2)は、商品データベース102に蓄積されている商品名が含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第四知識増殖ルール、または第五知識増殖ルール、または第六知識増殖ルールを適用し、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
(2) acquires a document including the product name stored in the
(3)は、固有名称データベース103に蓄積されている商品の固有名称が含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第七知識増殖ルール、または第八知識増殖ルール、または第九知識増殖ルールを適用し、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
(3) is a seventh knowledge proliferation rule in which a document including the unique name of the product stored in the
(4)は、会社データベース101の会社名と、商品データベース102に蓄積されている商品名とが含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第十知識増殖ルールを適用し、会社名、商品名、商品の固有名称の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
In (4), a document including the company name of the
(5)は、会社データベース101の会社名と、固有名称データベース103に蓄積されている商品の固有名称とが含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第十一知識増殖ルールを適用し、会社名、商品名、商品の固有名称の組取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
(5) acquires a document including the company name in the
(6)は、商品データベース102に蓄積されている商品名と、固有名称データベース103に登録されている商品の固有名称とが含まれている文書をWebサーバ装置から取得し、当該文書に対して知識増殖データベースに蓄積されている第十二知識増殖ルールを適用し、会社名、商品名、商品の固有名称の組を取得することである。例えば、知識獲得部115は、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
(6) acquires a document including the product name stored in the
知識獲得部115は、会社名、および商品名、および商品の固有名称を対応する各データベースに蓄積する際、使用した知識増殖ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを各データベースに登録するようにしても良い。
When the
ルール学習部116は、1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索し、1以上の情報が出現する1以上のパターンを取得し、パターンが予め決められた条件を満たすほどよく出現する1以上のパターンを取得し、1以上のパターンを対応する各ルールデータベースに蓄積する。 The rule learning unit 116 searches for one or more Web server devices using one or more pieces of information existing in one or more databases, acquires one or more patterns in which one or more pieces of information appear, and the patterns are stored in advance. One or more patterns that appear more frequently as the predetermined condition is satisfied are acquired, and the one or more patterns are accumulated in the corresponding rule databases.
1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索するとは、具体的には、会社データベース101、または商品データベース102、または固有名称データベース103、または会社商品データベース104、または会社固有名称データベース105、または商品固有名称データベース106から1以上のデータベースに格納されている1以上の任意の情報を検索キーワードとして、サーバ装置を検索することである。
Specifically, searching for one or more Web server devices using one or more information existing in each of one or more databases means
Webサーバ装置を検索するとは、例えば、インターネット上のWebサーバ装置(図示せず)が提供するWebページに含まれる文字列情報を検索対象とした検索である。Web検索は、例えば、検索用サイトを利用して行われる。ここでは、例えば、検索用サイトが提供するいわゆる検索エンジンに検索キーを含むクエリなどを送信し、検索エンジンが送信する検索結果を示す情報を受信することを、例えば、Web検索を行うことと考える。検索キーの送信などは、検索エンジンが提供するAPIなどを利用することで可能である。 Searching for a Web server device is, for example, searching for character string information included in a Web page provided by a Web server device (not shown) on the Internet. Web search is performed using a search site, for example. Here, for example, transmitting a query including a search key to a so-called search engine provided by a search site and receiving information indicating a search result transmitted by the search engine is considered to be a web search, for example. . The search key can be transmitted by using an API provided by the search engine.
1以上の情報が出現する1以上のパターンを取得するとは、サーバ装置を検索した結果取得した情報から、検索に使用した1以上の各データベースに存在する1以上の情報が含まれているパターンを取得することである。パターンとは、例えば、文章のパターンであっても良く、対象がWebページの場合は、HTMLのタグ構造のパターンであっても良く、上述したルールが複合的に合わさっていても良い。パターンの取得は、会社名、および商品名、および商品の固有名称を取得できる内容あれば何でも良く、例えば文章全体をパターンとして取得しても良く、複数の文章から検索に用いた情報を含む最長共通部分列を取得しても良い。 To acquire one or more patterns in which one or more information appears is a pattern including one or more information existing in one or more databases used for the search from information acquired as a result of searching the server device. Is to get. The pattern may be, for example, a sentence pattern. If the target is a Web page, the pattern may be an HTML tag structure pattern, or the above-described rules may be combined. The acquisition of the pattern may be anything that can acquire the company name, the product name, and the unique name of the product, for example, the entire sentence may be acquired as a pattern, and the longest including information used for the search from multiple sentences The common partial sequence may be acquired.
予め決められた条件を満たすほど良く出現する1以上のパターンを取得は、各ルールデータベースに登録する条件を予め定め、その条件を良く満たすパターンのみを取得する。
予め決められた条件とは、各ルールデータベースに登録する条件を予め定めたものである。条件は、パターンを評価できる値であればなんでも良い。例えば、条件は、パターンの取得回数であっても良く、取得したすべてのパターンのうちそのパターンが占める割合であっても良い。
To acquire one or more patterns that appear more frequently when a predetermined condition is satisfied, a condition to be registered in each rule database is determined in advance, and only patterns that satisfy the condition are acquired.
The predetermined condition is a condition that is registered in advance in each rule database. The condition may be any value that can evaluate the pattern. For example, the condition may be the number of pattern acquisitions, or the ratio occupied by the pattern among all the acquired patterns.
1以上のパターンを対応する各ルールデータベースに蓄積するとは、予め決められた条件を満たすほど良く出現したパターンをそのパターンに対応するデータベースに登録する。対応するデータベースとは、会社名を取得するパターンであれば会社ルールデータベース108、商品名を取得するパターンであれば商品ルールデータベース109、商品の固有名称を取得するパターンであれば固有名称ルールデータベース110、会社名と商品名の組を取得するパターン、および会社名と商品の固有名称の組を取得するパターン、および商品名と商品の固有名称の組を取得するパターン、および会社名と商品名と商品の固有名称の組を取得するパターンであれば知識増殖ルールデータベース111に登録する。
To store one or more patterns in each corresponding rule database, a pattern that appears better enough to satisfy a predetermined condition is registered in the database corresponding to the pattern. The corresponding database is a
また、ルール学習部116は、2種類以上の情報の組を格納しているデータベースに存在する1以上の情報を用いて、1以上のパターンを取得した場合は、2種類以上の情報の組に対応するルールデータベース、および2種類以上の情報の組の一部分の情報を用いて、2種類以上の情報の組に対応する1以上のルールデータベースに、1以上のパターンを蓄積する。 In addition, when the rule learning unit 116 acquires one or more patterns using one or more information existing in a database storing two or more types of information sets, the rule learning unit 116 sets the two or more types of information sets. One or more patterns are stored in one or more rule databases corresponding to two or more types of information sets using the corresponding rule database and a part of information of two or more types of information sets.
2種類以上の情報の組とは、会社名と商品名、または会社名と商品の固有名称、または商品名と商品の固有名称、または会社名と商品名と商品の固有名称の情報である。2種類以上の情報の組を格納しているデータベースとは、会社商品データベース104、または会社固有名称データベース105、または商品固有名称データベース106、または会社商品固有名称データベース107である。1以上のパターンを取得した場合とは、2種類以上の情報の組を用いて、会社名と商品名と商品の固有名称のうち2種類以上の組を含むパターンを取得した場合である。2種類以上の情報の組の一部分の情報を用いてとは、2種類の情報の組であった場合は各々の情報、3種類の情報の組であった場合は各々、および任意の2種類の情報の組のすべての組み合わせを用いることである。ルール学習部116は、これら分解した情報を用いてパターンを取得し、取得したパターンを対応するデータベースに登録する。また、ルール学習部116は、例えば、2種類以上の情報の組が会社名と商品名であった場合、会社名と商品名を取得するパターンを取得するだけでなく、会社名を取得するパターンと商品名を取得するパターンについても取得し、取得したパターンを知識増殖ルールデータベース111、または会社ルールデータベース108、または商品ルールデータベース109に取得したパターンを蓄積しても良い。
The set of two or more types of information is information on a company name and a product name, or a company name and a product unique name, or a product name and a product unique name, or a company name, a product name, and a product unique name. The database storing a set of two or more types of information is the
図2は、本実施の形態におけるデータベース構築装置2のブロック図である。データベース構築装置2は、会社商品固有名称データベース107、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、会社類似群コード固有名称データベース構築部23を備える。
FIG. 2 is a block diagram of the
商品類似群コード対応データベース21は、商品名と類似群コードを関連付けて保持するデータベースである。商品名は、会社商品固有名称データベース107に格納されている商品名と同様、法人、および個人が販売、または提供している商品、または役務の名称である。ここでいう商品、および役務の名称は、類似群コード表に記載されている商品、および役務の名称に必ずしも準じていなくても良い。類似群コードとは、商標の審査基準上、互いに類似するものと考えられる商品、役務に付与されたコードで、数字2桁とアルファベット1桁と数字2桁のコードである。(http://www.jpo.go.jp/shiryou/kijun/kijun2/ruiji_kijun9.htm)
The product similar group
商品類似群コード対応データベース21における商品名と類似群コードは、通常1対多の関係で格納されており、複数の商品名に対して同一の類似群コードが関連付けられて格納されている。
The product names and the similar group codes in the product similar group
会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107に格納されている1以上の会社名と商品名と商品の固有名称の組から商品名を取得し、取得した商品名を用いて、商品類似群コード対応データベース21から商品の類似群コードを取得し、会社名と取得した類似群コードと商品の固有名称との組を会社類似群コード固有名称データベース22に蓄積する。
The company similar group code unique name
図3は、本実施の形態における商標侵害検知装置3のブロック図である。商標侵害検知装置3は、データベース31、受付部32、商標類否判断部33、商品類否判断部34、出力部35を備える。
FIG. 3 is a block diagram of the trademark
データベース31は、データベース構築装置1が構築した会社商品固有名称データベース107であっても良く、データベース構築装置2が構築した会社類似群コード固有名称データベース22であっても良い。
The
受付部32は、商標および商品の類似群コードを特定する情報であるコード特定情報を有する調査対象商標情報を受け付ける。調査対象商標情報とは、例えば、商標の文字列である商標文字列と、1以上のコード特定情報の組である。コード特定情報とは、商品名、または類似群コードそのものなどの類似群コードを特定する文字列である。商標文字列、および商品名の文字列は、1文字以上の文字で構成される。商標文字列、および商品名の文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。また、商標文字列、および商品名の文字列を構成する文字は、2種類以上の文字が混在していてもよい。ここでの受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線または無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。調査対象商標情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。受付部32は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。
The receiving
商標類否判断部33は、データベース31が有する1以上の商品の固有名称と、調査対象商標情報が有する商標とを用いて、商標の類否判断を行う。
The trademark
図4は、本実施の形態における商標侵害検知装置3の商標類否判断部33のブロック図である。商標類否判断部33は、商標文字列取得部331、称呼取得部332、称呼表示部333、称呼指定受付部334、類似検索部335、商標類否判断結果取得部336を備える。
FIG. 4 is a block diagram of the trademark
商標文字列取得部331は、商標の文字列である商標文字列を受け付ける。商標文字列は、1文字以上の文字で構成される。商標文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。
The trademark character
称呼取得部332は、商標文字列取得部331が受け付けた商標文字列から、この商標文字列の称呼の情報である称呼情報を取得する。称呼取得部332は、一の商標文字列から複数の称呼情報を取得しても良い。称呼取得部332が取得する称呼情報は、ひらがなまたはカタカナまたはこれらと同などの情報である。称呼情報がこれらのいずれであるかは、例えば、この称呼情報を検索に利用する後述する類似検索部335の仕様などによって決定される。
The
称呼取得部332は、称呼情報をどのように取得しても良い。例えば、称呼取得部332は、1以上の文字列と、当該文字列の読みの情報とを対応付けて有する辞書を用いて、図示しない記憶媒体などに格納されている辞書を用いて商標文字列取得部331が受け付けた商標文字列に対応する1以上の称呼情報を自動取得するようにしてもよい。また、称呼取得部332は、ユーザなどから図示しない入力デバイスなどを介して入力された商標文字列に対応する1以上の称呼情報を取得(受付)してもよい。この実施の形態においては、特に、称呼情報を自動取得する場合を例に挙げて説明する。
The
称呼取得部332は、例えば、商標文字列に対して形態素解析を行い、形態素解析により得られた商標文字列の読みの情報を称呼情報として取得する。例えば、称呼取得部332は、形態素解析を用いることにより、商標文字列を形態素に分解し、分解された各文字列の読みを取得し、この文字列を組み合わせることで商標文字列の称呼情報を取得することが可能である。形態素解析においては、形態素の分解や形態素に分解された文字列からの読みの取得は、例えば、上記と同様の、形態素となりうる文字列と、その読みの情報とを対応付けて有する辞書を用いて行われる。形態素解析としては、例えば、「Mecab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen.naist.jp)などの形態素解析システムなどが利用可能である。
For example, the
また、称呼取得部332は、商標文字列を構成する漢字や、数字や、アルファベットなどの文字や単語などを読みに変換して、称呼情報を取得しても良い。漢字や、数字の文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのいわゆる再変換技術や、上述したような形態素解析システムの技術により実現可能である。また、アルファベットの文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのアルファベット列の入力を日本語に変換する技術により実現可能である。アルファベット列を日本語の読みに変換する技術は、例えば、特開2009−199434号公報などに開示されている。なお、アルファベットや、漢字や、数字の称呼(読み)は、一通りとは限らないため、称呼取得部332は、様々な組合せの複数の情報を取得しても良い。例えば、称呼取得部332は、「IT」から「アイティー」、「アイティイ」と「イット」という複数の称呼を取得しても良い。また、称呼取得部332は、「山田」から「ヤマダ」、「ヤマタ」、「ヤマデン」、「サンデン」、「サンダ」、「サンタ」という複数の称呼を取得しても良い。
The
また、称呼取得部332は、商標文字列を構成し得る文字列(例えば、漢字や、アルファベットや、数字など)と、その読みの情報(辞書情報)を予め図示しない格納部に蓄積しておくようにし、商標文字列を構成する各文字についてそれぞれ1以上の読みの情報を取得して、取得した読みの情報を組み合わせたものを称呼情報として取得してもよい。
Further, the
また、例えば、1以上の文字列とその読みを示すカタカナまたはひらがなとを対応付けて有する予め用意された形態素の辞書情報について、称呼取得部332が、商標文字列に含まれるカタカナまたはひらがな以外の文字列と一致する文字列を検索し、検出された文字列に対応付けられた読み(称呼)の情報を辞書情報から順次取得していくことで実現可能である。なお、称呼取得部332は、一の文字列について読みが複数ある場合や、検索に用いる文字数の区切で異なる称呼が得られる場合には、複数の読みを組み合わせたり区切を変更したりしてこれらを適宜組み合わせて複数の称呼情報を取得する。このような辞書情報は、例えば、称呼取得部332が、予め保持しているようにすればよい。称呼取得部332は、このような辞書情報を保持する記憶媒体などを有していても良い。
Further, for example, with respect to morpheme dictionary information prepared in advance having one or more character strings associated with katakana or hiragana indicating the reading, the
称呼取得部332は、さらに、上記で取得した1以上の称呼情報を分割して1以上の分割称呼情報を取得してもよい。分割称呼情報は、具体的には、称呼情報の一部分の情報である。分割称呼情報は、例えば、後述する類似検索などで称呼情報と実質的に同じものとして利用される。例えば、称呼取得部332は、取得した称呼情報のそれぞれの文字列を、任意の位置で区切って、その区切った位置によって分割される前または後、またはその両方の文字列を分割称呼情報として取得する。また、称呼取得部332は、文字列の区切る位置を順次変更して、それぞれの区切る位置に応じて分割称呼情報を取得しても良い。例えば、称呼取得部332は、各称呼情報を構成する文字列をそれぞれの文字間で区切っていった場合にそれぞれ得られる区切り位置の前後の文字列を、すべて分割称呼情報として取得しても良い。
The
称呼表示部333は、称呼取得部332が取得した1以上の称呼情報を図示しないモニタなどの表示デバイスに表示する。また、称呼表示部333は、称呼取得部332が取得した1以上の分割称呼情報を表示してもよい。称呼表示部333は、表示デバイスを含むと考えても含まないと考えてもよい。称呼表示部333は、表示デバイスのドライバーソフト、または表示デバイスのドライバーソフトと表示デバイスなどで実現され得る。
The
称呼指定受付部334は、称呼取得部332が取得した称呼情報の1以上を指定する称呼指定情報をユーザなどから受け付ける。例えば、称呼指定情報は、称呼表示部333に表示された称呼情報の1以上を指定する称呼指定情報を受け付ける。また、称呼指定受付部334は、称呼取得部332が取得した称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報をユーザなどから受け付けてもよい。例えば、称呼指定受付部334は、称呼表示部333により表示された称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報を受け付ける。なお、称呼指定受付部334は、予めどのような称呼を指定するか定めたルールを設けることで、ユーザに選択させなくても良いようにしてもよい。称呼指定情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。称呼指定受付部334は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。
The designation
類似検索部335は、称呼取得部332が取得した各称呼情報を用いて類似検索を行う。または、類似検索部335は、称呼取得部332が取得した称呼情報のうちの、称呼指定情報が指定する各称呼情報を用いて類似検索を行うようにしてもよい。また、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とを用いて類似検索を行うようにしてもよい。または、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とのうちの、称呼指定情報が指定する称呼情報と分割称呼情報とを用いて類似検索を行うようにしてもよい。称呼指定情報が指定する称呼情報と分割称呼情報とを用いてとは、例えば、指定された称呼情報または分割称呼情報だけを用いることを意味する。類似検索部335は、図示しない記憶媒体などの格納部に予め格納されている商品の固有名称の称呼の情報(以下、登録称呼情報と称す)の中から、称呼情報(または分割称呼情報)と類似する登録称呼情報を検索する。登録称呼情報は、会社商品固有名称データベース107、または会社類似群コード固有名称データベース22の固有名称から、予め作成構築しておく。
The
なお、商品の固有名称の称呼の情報が格納されている図示しない格納部は、商標類否判断部33が有していても良いし、図示しない外部のサーバ装置などが有していても良い。また、類似検索部335は、図示しない商品の固有名称の類似検索の処理を行うサーバ装置などに、称呼情報または分割称呼情報、および類似群コードを送信して類似検索を実行させ、その検索結果を受信するようにしても良く、このような場合も、類似検索部335が類似検索を行ったと考えて良い。
Note that the storage unit (not shown) in which the name information of the unique name of the product is stored may be included in the trademark kind
また、類似検索部335による類似検索の処理は、称呼情報の音響学的な判断処理であっても良い。類似検索の処理は、例えば、称呼情報の音節などから類似しないと判断される要因を検出し、その要因をペナルティ値に換算し、換算したペナルティ値を用いて、称呼情報が類似するか否かを判断して、商標文字列から取得した称呼情報と類似する称呼情報を商品の固有名称の称呼情報の中から検出する処理である。なお、ここでは、説明の便宜上、分割称呼情報も称呼情報と呼ぶこととする。また、ここでは、商品の固有名称の称呼情報である登録称呼情報が、類似群コードと商品の固有名称の識別情報などと対応付けて図示しない格納部に格納されているものとする。
Further, the similarity search process by the
類似検索部335が取得する類似検索の結果は、例えば、少なくとも類似する登録称呼情報が検出されたか否かを示すことが可能な情報である。例えば、類似検索の結果は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でもよい。また、類似検索の結果は、類似する登録称呼情報の数などを示す情報でも良い。また、称呼の情報が、商品の固有名称や、その識別情報(例えば登録番号)などと対応付けて上述した図示しない格納部に格納されている場合、類似検索部335は、類似する登録称呼情報に対応する商品の固有名称やその識別情報を図示しない格納部から取得して検索結果として出力してもよい。また、類似検索部335は、登録称呼情報に対応付けられた類似群コードの情報を含む情報を出力してもよい。商品の固有名称の称呼について類似検索を行うための具体的な処理については、上述した特許文献1や、日本の特許庁が提供する称呼検索サービスや、商用データベースの称呼検索サービスなどの技術として公知であるので、ここでは詳細な説明は省略する。
The result of the similarity search acquired by the
商標類否判断結果取得部336は、例えば、類似検索部335による類似検索の結果と、類似検索の結果の各称呼情報と関連する会社名と類似群コード特定情報を取得する。類似検索の結果については、類似検索の結果を、類似検索を行った称呼情報ごとに取得する。また、類似検索の結果については、例えば、類似検索の結果を、類似検索を行った分割称呼情報ごとに取得する。また、商標類否判断結果取得部336は、称呼が類似すると判断された商品の固有名称や、商品の固有名称の識別情報を示す情報も各証拠情報に対して付加しても良い。
The trademark similarity determination result
商品類否判断部34は、データベース31が有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。調査対象商標情報が商品名を保持していた場合、商品類否判断部34は、会社商品固有名称データベース107から調査対象商標情報の商品名に関連する商品名をもつレコードの会社名と商品の固有名称を取得する。調査対象商標情報の商品名に関連したとは、例えば、調査対象商標情報の商品名と会社商品固有名称データベース107の商品名とが同一である、または意味的に類似しているなどの場合である。調査対象商標情報が類似群コードを保持していた場合、商品類否判断部34は、会社類似群コード固有名称データベース22から調査対象商標情報の類似群コードと同一の類似群コードをもつレコードの会社名と商品の固有名称を取得する。
The merchandise
出力部35は、商標類否判断部33の判断結果と、商品類否判断部34の判断結果とから、商標の類似、および商品の類似に関する情報を出力する。例えば、出力部35は、類否する情報が検出されたか否かを示すことが可能な情報を出力する。類否する情報が検出されたか否かを示すことが可能な情報は、例えば、商標類否判断部33の判断結果の場合は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でも良い。また、類否する情報が検出されたか否かを示すことが可能な情報は、類似する登録称呼情報の数などを示す情報でも良い。また、類否する情報が検出されたか否かを示すことが可能な情報は、類似する任意数の類似する登録称呼情報であっても良い。また、出力部35は、類似する登録称呼情報に対応する商品の固有名称やその識別情報を出力しても良い。また、出力部35は、上記すべての出力内容について、会社名、または商品名、または類似群コード、または商品の固有名称のうち、一部または全部を付加して出力しても良い。また、例えば、商品類否判断部34の判断結果の場合は、類否する情報が検出されたか否かを示すことが可能な情報は、該当するコード特定情報の有無を示す情報であっても良いし、該当する1以上のコード特定情報を示す情報でも良い。また、類否する情報が検出されたか否かを示すことが可能な情報は、該当するコード特定情報の数などを示す情報でも良い。また、出力部35は、上記すべての出力内容について、会社名、または固有名称のうち、一方または双方を付加して出力しても良い。
The
出力部35は、商標類否判断部33の判断結果すべてと、商品類否判断部34の判断結果をすべて出力しても良く、どちらか一方であっても良い。また、出力部35は、商標類否判断部33と商品類否判断部34の結果のうち商品の固有名称が共通するものだけを出力しても良い。
The
ここで述べる出力とは、ディスプレイへの表示、プリンタによる紙などへの印字、外部の装置への送信、記録媒体への蓄積などを含む概念である。出力部35は、表示デバイスを含むと考えても含まないと考えてもよい。出力部35は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。
The output described here is a concept including display on a display, printing on paper or the like by a printer, transmission to an external device, accumulation in a recording medium, and the like. The
図5は、本実施の形態にかかる会社名取得部112の動作の一例を示すフローチャートである。以下、図5を用いて動作について説明する。
FIG. 5 is a flowchart showing an example of the operation of the company
(ステップS401)会社名取得部112は、会社ルールデータベース108から会社ルールを取得する。取得できた場合、ステップS402に進み、取得できなかった場合、終了する。
(Step S401) The company
(ステップS402)会社名取得部112は、カウンターmに1を代入する。
(Step S402) The company
(ステップS403)会社名取得部112は、ステップS401で取得した会社ルールにm番目の会社ルールがあるか否かを判断する。ある場合は、ステップS404に進み、ない場合は、終了する。
(Step S403) The company
(ステップS404)会社名取得部112は、Webサーバ装置からWebページを取得する。なお、このとき取得するWebページは、会社ルールデータベース108から会社名を含む文章を取得する会社ルールを用いて、予め取得した会社名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS405へ進み、取得できなかった場合はステップS410に進む。
(Step S404) The company
(ステップS405)会社名取得部112は、カウンターnに1を代入する。
(Step S405) The company
(ステップS406)会社名取得部112は、ステップS404で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS407に進み、ない場合は、ステップS410に進む。
(Step S406) The company
(ステップS407)会社名取得部112は、ステップS404で取得したWebページのn番目のWebページに対し、ステップS401で取得した会社ルールのm番目の会社ルールを用いて会社名を取得する。取得できた場合は、ステップS408へ進み、取得できなかった場合は、ステップS409に進む。
(Step S407) The company
(ステップS408)会社名取得部112は、ステップS407で取得した会社名を会社データベース101に格納する。
(Step S408) The company
(ステップS409)会社名取得部112は、カウンターnを1インクリメントする。そして、ステップS406に戻る。
(Step S409) The company
(ステップS410)会社名取得部112は、カウンターmを1インクリメントする。そしてステップS403に戻る。
(Step S410) The company
以下、本実施の形態における会社名取得部112の具体的な動作について説明する。なお、この具体例において示した会社名取得部112の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the company
会社名取得部112は、会社ルールデータベース108から会社名を取得するためのすべてのルールを取得する。会社名取得部112は、会社ルールデータベース108が、会社ルールが抽出する対象に関するデータを保持していた場合、「会社名」が対象の会社ルールだけを取得する。また、会社名取得部112は、会社ルールデータベース108が会社ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた会社ルールだけを取得しても良い。今回の具体例では、会社ルールを5種類取得したとする。
The company
図6は、会社ルールデータベース108に格納されているデータの一例を示す図である。会社ルールデータベース108は、会社名を取得するパターンを有している。ここでは、具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名として取得する会社ルールを列挙した。
FIG. 6 is a diagram illustrating an example of data stored in the
会社名取得部112は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
The company
会社名取得部112は、取得したすべての会社ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、会社名取得部112は、会社ルールが5種類、Webページが100種類なので500回会社名を取得する処理を行う。具体的には、会社名取得部112は、会社ルールが「<title>%会社名%株式会社</title>」の場合、取得したWebページに「<title>サンプル商事株式会社</title>」と記載されていれば、「サンプル商事」の部分を取得する。しかし、会社名取得部112は、パターンに対応する内容が記載されていなければ何も取得しない。
The company
会社名取得部112は、会社名が取得できた場合は、会社データベース101に登録する。今回の場合では、会社名取得部112は、「サンプル商事」を登録する。また、もし会社ルールデータベース108が会社ルールの取得回数や取得割合等の値を保持していた場合、会社名取得部112は、その値と一緒に会社データベース101に登録しても良く、取得した情報の周辺である「<title>サンプル商事株式会社</title>」も一緒に登録しても良い。
The company
図7は、本実施の形態にかかる商品名取得部113の動作の一例を示すフローチャートである。以下、図7を用いて動作について説明する。
FIG. 7 is a flowchart showing an example of the operation of the product
(ステップS501)商品名取得部113は、商品ルールデータベース109から商品ルールを取得する。取得できた場合、ステップS502に進み、取得できなかった場合、終了する。
(Step S501) The product
(ステップS502)商品名取得部113は、カウンターmに1を代入する。
(Step S502) The product
(ステップS503)商品名取得部113は、ステップS501で取得した商品ルールにm番目の商品ルールがあるか否かを判断する。ある場合は、ステップS504に進み、ない場合は、終了する。
(Step S503) The product
(ステップS504)商品名取得部113は、Webサーバ装置からWebページを取得する。なお、このとき取得するWebページは、商品ルールデータベース109から商品名を含む文章を取得する商品ルールを用いて、予め取得した商品名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS505へ進み、取得できなかった場合はステップS510に進む。
(Step S504) The product
(ステップS505)商品名取得部113は、カウンターnに1を代入する。
(Step S505) The product
(ステップS506)商品名取得部113は、ステップS504で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS507に進み、ない場合は、ステップS510に進む。
(Step S506) The product
(ステップS507)商品名取得部113は、ステップS504で取得したWebページのn番目のWebページに対し、ステップS501で取得した商品ルールのm番目の商品ルールを用いて商品名を取得する。取得できた場合は、ステップS508へ進み、取得できなかった場合は、ステップS509に進む。
(Step S507) The product
(ステップS508)商品名取得部113は、ステップS507で取得した商品名を商品データベース102に格納する。
(Step S508) The product
(ステップS509)商品名取得部113は、カウンターnを1インクリメントする。そして、ステップS506に戻る。
(Step S509) The product
(ステップS510)商品名取得部113は、カウンターmを1インクリメントする。そしてステップS503に戻る。
(Step S510) The product
以下、本実施の形態における商品名取得部113の具体的な動作について説明する。なお、この具体例において示した商品名取得部113の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the product
商品名取得部113は、商品ルールデータベース109から商品名を取得するためのすべてのルールを取得する。商品名取得部113は、商品ルールデータベース109が、商品ルールが抽出する対象に関するデータを保持していた場合、「商品名」が対象の商品ルールだけを取得する。また、商品名取得部113は、商品ルールデータベース109が、商品ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた商品ルールだけを取得しても良い。今回の具体例では、商品ルールを5種類取得したとする。
The product
図8は商品ルールデータベース109に格納されているデータの一例を示す図である。商品ルールデータベース109は、商品名を取得するパターンを有している。ここでは、具体例として、「%商品名%」と記載されている部分に該当する名詞句を商品名として取得する商品ルールを列挙した。 FIG. 8 is a diagram illustrating an example of data stored in the product rule database 109. The product rule database 109 has a pattern for acquiring product names. Here, as a specific example, product rules for acquiring a noun phrase corresponding to a portion described as “% product name%” as a product name are listed.
商品名取得部113は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
The product
商品名取得部113は、取得したすべての商品ルールを用いて、取得したすべてのWebページから商品名を取得する。今回の場合では、商品名取得部113は、商品ルールが5種類、Webページが100種類なので500回商品名を取得する処理を行う。具体的には、商品名取得部113は、商品ルールが「<title>商品名一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?>%商品名%</li>)+</ul>」の場合、取得したWebページに「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="tv.html">テレビ</li><li><a href="dvd.html">DVDプレイヤ</li><li><a href="pc.html">パソコン</li></ul>・・・(省略)・・・」と記載されていれば、「テレビ」「DVDプレイヤ」「パソコン」の部分を取得する。しかし、商品名取得部113は、パターンに対応する内容が記載されていなければ何も取得しない。
The product
商品名取得部113は、商品名が取得できた場合は、商品データベース102に登録する。今回の場合では、商品名取得部113は、「テレビ」と「DVDプレイヤ」と「パソコン」を登録する。また、もし商品ルールデータベース109が商品ルールの取得回数や取得割合等の値を保持していた場合、商品名取得部113は、その値と一緒に商品データベース102に登録しても良く、取得した情報の周辺である「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="tv.html">テレビ</li><li><a href="dvd.html">DVDプレイヤ</li><li><a href="pc.html">パソコン</li></ul>・・・(省略)・・・」も一緒に登録しても良い。
The product
以上、本実施の形態によれば、任意のWebページから商品名を取得できる。 As described above, according to the present embodiment, a product name can be acquired from an arbitrary Web page.
図9は、本実施の形態にかかる固有名称取得部114の動作の一例を示すフローチャートである。以下、図9を用いて動作について説明する。
FIG. 9 is a flowchart showing an example of the operation of the unique
(ステップS601)固有名称取得部114は、固有名称ルールデータベース110から固有名称ルールを取得する。取得できた場合、ステップS602に進み、取得できなかった場合、終了する。
(Step S <b> 601) The unique
(ステップS602)固有名称取得部114は、カウンターmに1を代入する。
(Step S602) The unique
(ステップS603)固有名称取得部114は、ステップS601で取得した固有名称ルールにm番目の固有名称ルールがあるか否かを判断する。ある場合は、ステップS604に進み、ない場合は、終了する。
(Step S603) The unique
(ステップS604)固有名称取得部114は、Webサーバ装置からWebページを取得する。なお、このとき取得するWebページは、固有名称ルールデータベース110から商品の固有名称を含む文章を取得する固有名称ルールを用いて、予め取得した商品の固有名称が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS605へ進み、取得できなかった場合はステップS610に進む。
(Step S604) The unique
(ステップS605)固有名称取得部114は、カウンターnに1を代入する。
(Step S605) The unique
(ステップS606)固有名称取得部114は、ステップS604で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS607に進み、ない場合は、ステップS610に進む。
(Step S606) The unique
(ステップS607)固有名称取得部114は、ステップS604で取得したWebページのn番目のWebページに対し、ステップS601で取得した固有名称ルールのm番目の固有名称ルールを用いて商品の固有名称を取得する。取得できた場合は、ステップS608へ進み、取得できなかった場合は、ステップS609に進む。
(Step S607) The unique
(ステップS608)固有名称取得部114は、ステップS607で取得した商品の固有名称を固有名称データベース103に格納する。
(Step S608) The unique
(ステップS609)固有名称取得部114は、カウンターnを1インクリメントする。そして、ステップS606に戻る。
(Step S609) The unique
(ステップS610)固有名称取得部114は、カウンターmを1インクリメントする。そしてステップS603に戻る。
(Step S610) The unique
以下、本実施の形態における固有名称取得部114の具体的な動作について説明する。なお、この具体例において示した固有名称取得部114の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the unique
固有名称取得部114は、固有名称ルールデータベース110から商品の固有名称を取得するためのすべてのルールを取得する。固有名称取得部114は、固有名称ルールデータベース110が、固有名称ルールが抽出する対象に関するデータを保持していた場合、「商品の固有名称」が対象の固有名称ルールだけを取得する。また、固有名称取得部114は、固有名称ルールデータベース110が、固有名称ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた固有名称ルールだけを取得しても良い。今回の具体例では、固有名称ルールを5種類取得したとする。
The unique
図10は、固有名称ルールデータベース110に格納されているデータの一例を示す図である。固有名称ルールデータベース110は、商品の固有名称を取得するパターンを有している。ここでは、具体例として、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する固有名称ルールを列挙した。
FIG. 10 is a diagram illustrating an example of data stored in the unique
固有名称取得部114は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
The unique
固有名称取得部114は、取得したすべての固有名称ルールを用いて、取得したすべてのWebページから商品の固有名称を取得する。今回の場合では、固有名称取得部114は、固有名称ルールが5種類、Webページが100種類なので500回商品の固有名称を取得する処理を行う。具体的には、固有名称取得部114は、固有名称ルールが「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」の場合、取得したWebページに「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="sc.html">サンプルカメラ</li><li><a href="sc2.html">サンプルカメラ2</li></ul>・・・(省略)・・・」と記載されていれば、「サンプルカメラ」「サンプルカメラ2」を取得する。しかし、固有名称取得部114は、パターンに対応する内容が記載されていなければ何も取得しない。
The unique
固有名称取得部114は、商品の固有名称が取得できた場合は、固有名称データベースに登録する。今回の場合では、固有名称取得部114は、「サンプルカメラ」と「サンプルカメラ2」を登録する。なお、固有名称ルールデータベース110が固有名称ルールの取得回数や取得割合等の値を保持していた場合、固有名称取得部114は、その値と一緒に固有名称データベース103に登録しても良く、取得した情報の周辺である「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="sc.html">サンプルカメラ</li><li><a href="sc2.html">サンプルカメラ2</li></ul>・・・(省略)・・・」も一緒に登録しても良い。
When the unique name of the product can be acquired, the unique
以上、本実施の形態によれば、任意のWebページから商品の固有名称を取得できる。 As described above, according to the present embodiment, a unique name of a product can be acquired from an arbitrary Web page.
図11は、本実施の形態にかかる知識獲得部115の動作の一例を示すフローチャートである。以下、図11を用いて動作について説明する。
FIG. 11 is a flowchart showing an example of the operation of the
(ステップS701)知識獲得部115は、知識増殖ルールデータベース111から知識増殖ルールを取得する。取得できた場合、ステップS702に進み、取得できなかった場合、終了する。
(Step S <b> 701) The
(ステップS702)知識獲得部115は、カウンターmに1を代入する。
(Step S702) The
(ステップS703)知識獲得部115は、ステップS701で取得した知識増殖ルールにm番目の知識増殖ルールがあるか否かを判断する。ある場合は、ステップS704に進み、ない場合は、終了する。
(Step S703) The
(ステップS704)知識獲得部115は、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールが用いるために使用する情報を各データベースからすべて取得する。知識増殖ルールが用いるために使用する情報とは、具体的には、第一から第三知識増殖ルールの場合は会社データベース101から会社名を取得し、第四から第六知識増殖ルールの場合は商品データベース102から商品名を取得し、第七から第九知識増殖ルールの場合は固有名称データベース103から商品の固有名称を取得し、第十知識増殖ルールの場合は会社商品データベース104から会社名と商品名を取得し、第十一知識増殖ルールの場合は会社固有名称データベース105から会社名と商品の固有名称を取得し、第十二知識増殖ルールの場合は商品固有名称データベース106から商品名と商品の固有名称を取得する。
(Step S704) The
(ステップS705)知識獲得部115は、カウンターnに1を代入する。
(Step S705) The
(ステップS706)知識獲得部115は、ステップS704で取得した知識増殖ルールが用いるために使用する情報にn番目の情報があるか否かを判断する。ある場合は、ステップS707へ進み、ない場合はステップS713へ進む。
(Step S706) The
(ステップS707)知識獲得部115は、Webサーバ装置からWebページを取得する。なお、この時取得するWebページは、ステップS704で取得した知識増殖ルールが用いるために使用する情報のうちn番目の情報を含んだWebページを取得する。Webページを取得できた場合は、ステップS708へ進み、取得できなかった場合はステップS714に進む。
(Step S707) The
(ステップS708)知識獲得部115は、カウンターoに1を代入する。
(Step S708) The
(ステップS709)知識獲得部115は、ステップS707で取得したWebページにo番目のWebページがあるか否かを判断する。ある場合は、ステップS710に進み、ない場合は、ステップS714に進む。
(Step S709) The
(ステップS710)知識獲得部115は、ステップS707で取得したWebページのo番目のWebページに対し、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールを用いて会社名、または商品名、または商品の固有名称を取得する。取得できた場合は、ステップS711へ進み、取得できなかった場合は、ステップS712に進む。
(Step S710) The
(ステップS711)知識獲得部115は、ステップS710で取得した会社名、または商品名、または商品の固有名称を対応するデータベースに蓄積する。
(Step S711) The
(ステップS712)知識獲得部115は、カウンターoを1インクリメントする。そして、ステップS709に戻る。
(Step S712) The
(ステップS713)知識獲得部115は、カウンターmを1インクリメントする。そして、ステップS703に戻る。
(Step S713) The
(ステップS714)知識獲得部115は、カウンターnを1インクリメントする。そして、ステップS706に戻る。
(Step S714) The
以下、本実施の形態における知識獲得部115の具体的な動作について説明する。なお、この具体例において示した知識獲得部115の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the
知識獲得部115は、知識増殖ルールデータベース111から会社名、または商品名、または商品の固有名称を取得するためのすべてのルールを取得する。知識獲得部115は、知識増殖ルールデータベース111に、知識増殖ルールが抽出する対象に関するデータを保持していた場合、「名称」が対象の知識増殖ルールだけを取得する。なお、知識獲得部115は、知識増殖ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた知識増殖ルールだけを取得しても良い。今回の具体例では、知識増殖ルールを5種類取得したとする。
The
図12は知識増殖ルールデータベース111に格納されているデータの一例を示す図である。知識増殖ルールデータベース111は、会社名、または商品名、または商品の固有名称を取得するパターンを有している。本具体例の知識増殖ルールは、「%会社名%」と記載されている部分に該当する名詞句を会社名、同様に「%商品名%」と記載されている部分に該当する名詞句を商品名、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する知識増殖ルールである。なお、今回の具体例では、知識増殖ルールの種類ごとにデータベースを作成するのではなく、知識増殖データベースに知識増殖ルールの種類を保持させた。
FIG. 12 is a diagram showing an example of data stored in the knowledge
知識獲得部115は、取得した知識増殖ルールが用いるための情報を取得する。例えば、知識獲得部115は、第一知識増殖ルールを取得した場合、会社データベース101に記載されている会社名をすべて取得する。なお、知識獲得部115は、会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。
The
知識獲得部115は、Webページを取得する。Webページは、例えば今回の具体例では、知識獲得部115は、取得した会社名一つに対して100種類ずつ取得したとする。
The
知識獲得部115は、取得したすべての知識増殖ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、知識獲得部115は、知識増殖ルールが5種類、知識増殖ルールが用いる情報が10種類、Webページが100種類なので5000回会社名、商品名、商品の固有名称のうち、1または2種類の情報の取得を行う。
具体的には、知識獲得部115は、知識増殖ルールが「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」で第一の知識増殖ルールであり、用いる情報が「サンプル工業」であった場合、取得したWebページに「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="scr.html">ネジ</a></li><li><a href="driv.html">ドライバー</a></li></ul>・・・(省略)・・・」と記載されていれば、「ネジ」「ドライバー」の部分を取得する。知識獲得部115は、パターンに対応する内容が記載されていなければ何も取得しない。
The
Specifically, the
知識獲得部115は、新たな情報が取得できた場合は、対応する各データベースに登録する。今回の場合では、知識獲得部115は、「ネジ」と「ドライバー」を商品データベース102、「サンプル工業」と「ネジ」、「サンプル工業」と「ドライバー」を会社商品データベース104に登録する。なお、知識獲得部115は、知識増殖ルールデータベース111が知識増殖ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href="scr.html">ネジ</a></li><li><a href="driv.html">ドライバー</a></li></ul>・・・(省略)・・・」も一緒に登録しても良い。なお、知識獲得部115は、取得した全ての知識増殖ルールに対して上記処理を行う。
When new information can be acquired, the
以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得できる。 As described above, according to the present embodiment, a company name, a product name, or a unique name of a product can be acquired from an arbitrary Web page.
図13と図14は、本実施の形態にかかるルール学習部116の動作の一例を示すフローチャートである。以下、図13と図14を用いて動作について説明する。 13 and 14 are flowcharts illustrating an example of the operation of the rule learning unit 116 according to the present embodiment. The operation will be described below with reference to FIGS.
(ステップS801)ルール学習部116は、カウンターmに0を代入する。
(Step S801) The rule learning unit 116
(ステップS802)ルール学習部116は、カウンターmを1インクリメントする。 (Step S802) The rule learning unit 116 increments the counter m by 1.
(ステップS803)ルール学習部116は、カウンターmの値によって処理を分岐する。mの値が1の時はステップS804に進み、mの値が2の時はステップS805に進み、mの値が3の時はステップS806に進み、mの値が4の時はステップS807に進み、mの値が5の時はステップS810に進み、mの値が6の時はステップS813に進み、mの値が7の時はステップS816に進み、mの値が8の場合は終了する。 (Step S803) The rule learning unit 116 branches the process depending on the value of the counter m. When the value of m is 1, the process proceeds to step S804. When the value of m is 2, the process proceeds to step S805. When the value of m is 3, the process proceeds to step S806. When the value of m is 4, the process proceeds to step S807. Proceed to step S810 when the value of m is 5, proceed to step S813 when the value of m is 6, proceed to step S816 when the value of m is 7, and end when the value of m is 8 To do.
(ステップS804)ルール学習部116は、変数oに「会社データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S804) The rule learning unit 116 substitutes “company database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS805)ルール学習部116は、変数oに「商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S805) The rule learning unit 116 substitutes “product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS806)ルール学習部116は、変数oに「固有名称データベース」、変数dに「商品の固有名称」を代入する。そして、ステップS823へ進む。 (Step S806) The rule learning unit 116 substitutes “unique name database” for the variable o and “unique name of the product” for the variable d. Then, the process proceeds to step S823.
(ステップS807)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S807) The rule learning unit 116 substitutes “company product database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS808)ルール学習部116は、変数oに「会社商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S808) The rule learning unit 116 substitutes “company product database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS809)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。 (Step S809) The rule learning unit 116 substitutes “company product database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.
(ステップS810)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S810) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS811)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。 (Step S811) The rule learning unit 116 substitutes “company unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS812)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S812) The rule learning unit 116 substitutes “company unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS813)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S813) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS814)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。 (Step S814) The rule learning unit 116 substitutes “product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS815)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S815) The rule learning unit 116 substitutes “product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS816)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。 (Step S816) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name” for the variable d. Then, the process proceeds to step S823.
(ステップS817)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。 (Step S817) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name” for the variable d. Then, the process proceeds to step S823.
(ステップS818)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。 (Step S818) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS819)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。 (Step S819) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name” for the variable d. Then, the process proceeds to step S823.
(ステップS820)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S820) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS821)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S821) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “product name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS822)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名・固有名称」を代入する。そして、ステップS823へ進む。 (Step S822) The rule learning unit 116 substitutes “company product unique name database” for the variable o and “company name / product name / unique name” for the variable d. Then, the process proceeds to step S823.
(ステップS823)ルール学習部116は、変数oに格納されているデータベースから、変数dに格納されている情報に関する情報を取得する。例えば、変数oに「会社データベース」変数dに「会社名」が格納されている場合、ルール学習部116は、会社データベース101から会社名をすべて取得する。また、ルール学習部116は、変数dに格納されている情報が「会社名・商品名」など、「・」で区切って二種類の情報が登録されていた場合、「・」の前後で文字列を分割し、前と後ろの両方の情報の組を取得する。「会社名・商品名」の場合は、ルール学習部116は、「会社名」と「商品名」の組を取得する。取得できた場合は、ステップS824へ進み、取得できなかった場合は829に進む。
(Step S823) The rule learning unit 116 acquires information related to information stored in the variable d from the database stored in the variable o. For example, when “company database” is stored in the variable o and “company name” is stored in the variable d, the rule learning unit 116 acquires all the company names from the
(ステップS824)ルール学習部116は、カウンターhに1を代入する。
(Step S824) The rule learning unit 116
(ステップS825)ルール学習部116は、ステップS823で取得したoから取得したdに関する情報にh番目の情報があるか否かを判断する。ある場合は、ステップS826に進み、ない場合は、ステップS830に進む。 (Step S825) The rule learning unit 116 determines whether or not there is h-th information in the information regarding d acquired from o acquired in step S823. If there is, the process proceeds to step S826, and if not, the process proceeds to step S830.
(ステップS826)ルール学習部116は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS823で取得したoから取得したdに関するh番目の情報を含んだWebページを取得する。Webページを取得できた場合はステップS827へ進み、取得できなかった場合はステップS829へ進む。 (Step S826) The rule learning unit 116 acquires a Web page from the Web server device. The Web page acquired at this time acquires a Web page including the h-th information regarding d acquired from o acquired in step S823. If the Web page can be acquired, the process proceeds to step S827. If the Web page cannot be acquired, the process proceeds to step S829.
(ステップS827)ルール学習部116は、ステップS826で取得したWebページから、ステップS823で取得したoから取得したdに関するh番目の情報の文字列を情報の内容がわかる文字列に置換する。例えば、ルール学習部116は、会社名の部分を「%会社名%」に置換する。 (Step S827) The rule learning unit 116 replaces the character string of the h-th information related to d acquired from o acquired in Step S823 from the Web page acquired in Step S826 with a character string that understands the content of the information. For example, the rule learning unit 116 replaces the company name portion with “% company name%”.
(ステップS828)ルール学習部116は、ステップS827で置換したWebページを、例えば、図示しないメモリなどの記憶媒体に一時記憶する。 (Step S828) The rule learning unit 116 temporarily stores the Web page replaced in Step S827 in a storage medium such as a memory (not shown).
(ステップS829)ルール学習部116は、カウンターhを1インクリメントする。 (Step S829) The rule learning unit 116 increments the counter h by 1.
(ステップS830)ルール学習部116は、ステップS828で記憶したすべてのWebページからパターンを取得する。パターンを取得できた場合は、ステップS831へ進み、取得できなかった場合はステップS833へ進む。 (Step S830) The rule learning unit 116 acquires patterns from all the Web pages stored in Step S828. If the pattern can be acquired, the process proceeds to step S831, and if the pattern cannot be acquired, the process proceeds to step S833.
(ステップS831)ルール学習部116は、ステップS830で取得したパターンから5回以上抽出したパターンを選別し取得する。パターンを取得できた場合は、ステップS832へ進み、取得できなかった場合はステップS833へ進む。 (Step S831) The rule learning unit 116 selects and acquires patterns extracted five or more times from the patterns acquired in Step S830. If the pattern can be acquired, the process proceeds to step S832, and if the pattern cannot be acquired, the process proceeds to step S833.
(ステップS832)ルール学習部116は、ステップS831で取得したパターンを変数dに格納されている情報に対応するルールデータベースに格納する。具体的には、ルール学習部116は、dの値が「会社名」であれば「会社ルールデータベース」、「商品名」であれば「商品ルールデータベース」、「固有名称」であれば「固有名称ルールデータベース」、「会社名・商品名」「会社名・固有名称」「商品名・固有名称」であれば「知識増殖ルールデータベース」に格納する。 (Step S832) The rule learning unit 116 stores the pattern acquired in step S831 in the rule database corresponding to the information stored in the variable d. Specifically, the rule learning unit 116 is “company rule database” if the value of “d” is “company name”, “product rule database” if “d” is “product name”, and “unique” if it is “unique name”. If “name rule database”, “company name / product name”, “company name / unique name”, “product name / unique name” are stored in the “knowledge proliferation rule database”.
(ステップS833)ルール学習部116は、ステップS823へ進む前に実行していた処理の次の処理進む。 (Step S833) The rule learning unit 116 proceeds to a process next to the process executed before proceeding to step S823.
以下、本実施の形態におけるルール学習部116の具体的な動作について説明する。なお、この具体例において示したルール学習部116の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。 Hereinafter, a specific operation of the rule learning unit 116 in the present embodiment will be described. Note that the acquisition result of the rule learning unit 116 shown in this specific example is prepared for convenience of explanation, and does not indicate actual data.
ルール学習部116は、会社データベース101と商品データベース102と固有名称データベース103と会社商品データベース104と会社固有名称データベース105と商品固有名称データベース106と会社商品固有名称データベース107から、会社名、または商品名、または商品の固有名称、またはこれらの組み合わせを可能な限り取得し、取得した情報が記載されたWebページから、各データベースから取得した情報を抽出するためのパターンを取得する。
The rule learning unit 116 selects the company name or the product name from the
今回は具体例として、ルール学習部116が、会社データベース101から会社名を取得し会社ルールデータベース108に格納されるルールを学習する場合について述べる。上記以外のルールを学習する場合については、適宜読み替えるものとする。
As a specific example, a case where the rule learning unit 116 acquires a company name from the
まず、ルール学習部116は、会社データベース101から会社名をすべて取得する。なお、ルール学習部116は、会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、ルール学習部116は、会社名を10種類取得したとする。
First, the rule learning unit 116 acquires all company names from the
ルール学習部116は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。 The rule learning unit 116 acquires a web page. For example, in this specific example, assume that 100 types of Web pages are acquired for each acquired company name.
ルール学習部116は、取得したWebページから、取得するために用いた会社名を「%会社名%」に置換する。今回は、例えば、ルール学習部116は、「サンプル商事」を用いて「<table><tbody><tr><td>社名</td><td>サンプル商事株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」の文章を取得した場合は「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」とする。 The rule learning unit 116 replaces the company name used for acquisition with “% company name%” from the acquired Web page. In this case, for example, the rule learning unit 116 uses “sample trading” to read “<table> <tbody> <tr> <td> company name </ td> <td> sample trading corporation </ td> </ tr > <Tr> <td> Capital </ td> <td> 10,000,000 Yen </ td> </ tr> <text> <table> <tbody> <tr> <td > Company name </ td> <td>% Company name% Inc. </ td> </ tr> <tr> <td> Capital </ td> <td> 10,000,000 Yen </ td> <// tr> ”.
ルール学習部116は、取得したWebページからパターンを取得する。ルール学習部116は、取得したWebページから2以上のWebページを取り出し、取得するために用いた「%会社名%」を含む最長共通部分列を取得する。最長共通部分の取得は、取得したWebページから2つを選ぶすべての組み合わせで行う。ルール学習部116は、例えば「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」と「<table><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>設立</td><td>1950年1月1日</td></tr>」の二つの文章を記載されているWebページがあった場合、「%会社名%」を保持した最も長い文字列である「<tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>」をパターンとして取得する。今回の場合では、ルール学習部116は、会社名が10種類、Webページが会社名に対して100種類なので49500回パターンの取得を行う。なお、ルール学習部116は、パターンの取得対象はHTMLのタグを含まない文章でも良く、また最長共通部分列以外の方法であっても良く、2つ以上のWebページの組み合わせからパターンを取得しても良い。 The rule learning unit 116 acquires a pattern from the acquired web page. The rule learning unit 116 extracts two or more Web pages from the acquired Web pages, and acquires the longest common subsequence including “% company name%” used for acquisition. Acquisition of the longest common portion is performed by all combinations of selecting two from the acquired Web pages. The rule learning unit 116, for example, “<table> <tbody> <tr> <td> company name </ td> <td>% company name% corporation </ td> </ tr> <tr> <td> capital </ Td> <td> 10,000,000 Yen </ td> </ tr> ”and“ <table> <tr> <td> Company name </ td> <td>% Company name% Inc. </ Td ” > </ Tr> <tr> <td> founded </ td> <td> January 1, 1950 </ td> </ tr> ” “<Tr> <td> company name </ td> <td>% company name% Inc. </ Td> </ tr> <tr> <td> which is the longest character string holding“% company name% ” "As a pattern. In this case, the rule learning unit 116 acquires the pattern 49500 times because there are 10 types of company names and 100 types of Web pages for the company name. Note that the rule learning unit 116 may acquire a pattern from a combination of two or more Web pages, and the pattern acquisition target may be a sentence that does not include an HTML tag, or may be a method other than the longest common subsequence. May be.
ルール学習部116は、取得したパターンからよく使われているパターンのみを知識増殖データベースに登録する。また、ルール学習部116は、一定以上の頻度、例えば5回以上出現するパターンを知識増殖ルールデータベース111に登録する。
The rule learning unit 116 registers only frequently used patterns from the acquired patterns in the knowledge multiplication database. Further, the rule learning unit 116 registers a pattern that appears at a certain frequency, for example, five times or more, in the knowledge
以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得するパターンを取得できる。 As described above, according to the present embodiment, it is possible to acquire a pattern for acquiring a company name, a product name, or a unique name of a product from an arbitrary Web page.
図15は、本実施の形態にかかる会社類似群コード固有名称データベース構築部23の動作の一例を示すフローチャートである。以下、図15を用いて動作について説明する。
FIG. 15 is a flowchart showing an example of the operation of the company similar group code unique name
(ステップS901)会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から会社名と商品名と商品の固有名称の情報を取得する。取得できた場合はステップS902へ進み、取得できなかった場合は終了する。
(Step S <b> 901) The company similar group code unique name
(ステップS902)会社類似群コード固有名称データベース構築部23は、カウンターmに1を代入する。
(Step S902) The company similar group code unique name
(ステップS903)会社類似群コード固有名称データベース構築部23は、ステップS901で取得した情報にm番目の情報があるか否かを判断する。あった場合はステップS904へ進み、なかった場合は終了する。
(Step S903) The company similar group code unique name
(ステップS904)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の商品名をキーにし、商品類似群コード対応データベース21から商品名に対応した類似群コードを取得する。
(Step S904) The company similar group code unique name
(ステップS905)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の会社名と、商品の固有名称と、ステップS904で取得した類似群コードを1レコードとして会社類似群コード固有名称データベース22に登録する。
(Step S905) The company similar group code unique name
(ステップS906)会社類似群コード固有名称データベース構築部23は、カウンターmを1インクリメントする。
(Step S906) The company similar group code unique name
以下、本実施の形態における会社類似群コード固有名称データベース構築部23の具体的な動作について説明する。なお、この具体例において示した会社類似群コード固有名称データベース構築部23の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
Hereinafter, a specific operation of the company similar group code unique name
会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107の商品名をキーにして、類似群コード対応データベースから類似群コードを取得し、会社類似群コード固有名称データベース22を構築する。
The company similar group code unique name
まず、会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から、会社名と商品名と商品の固有名称をすべて取得する。なお、会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107が取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名と商品名と商品の固有名称の組を10種類取得したとする。
First, the company similar group code unique name
次に、会社類似群コード固有名称データベース構築部23は、商品類似群コード対応データベース21から各商品名に対応した類似群コードを取得する。具体的には、会社類似群コード固有名称データベース構築部23は、商品名の完全一致だけではなく、例えば「テレビ」と「TV」のような商品名が概念的に一致する類似群コードを取得しても良い。
Next, the company similar group code unique name
そして、会社類似群コード固有名称データベース構築部23は、取得した会社名と類似群コードと商品の固有名称の組を会社類似群コード固有名称データベース22に登録する。
Then, the company similar group code unique name
以上、本実施の形態によれば、会社商品固有名称データベース107と類似群コード対応データベースから商品名をキーにして、会社名と類似群コードと商品の固有名称を保持する会社類似群コード固有名称データベース22を構築できる。
As described above, according to the present embodiment, the company similar group code unique name that holds the company name, the similar group code, and the unique name of the product using the product name as a key from the company product
図16は、本実施の形態にかかる商標侵害検知装置3の動作の一例を示すフローチャートである。以下、図16を用いて動作について説明する。
FIG. 16 is a flowchart showing an example of the operation of the trademark
(ステップS1001)受付部32は、調査対象商標情報、具体的には商標文字列と商品名、または類似群コードとを受け付けたか否かを判断する。受け付けた場合、ステップS1002に進み、受け付けていない場合、ステップS1001に戻る。
(Step S1001) The receiving
(ステップS1002)商標文字列取得部331は、調査対象商標情報から商標文字列を取得する。取得できた場合は、ステップS1003に進み、取得できなかった場合はステップS1017へ進む。
(Step S1002) The trademark character
(ステップS1003)称呼取得部332は、ステップS1002で取得した商標文字列を用いて、1以上の称呼情報を取得する。例えば、称呼取得部332は、商標文字列を形態素解析することや、商標文字列を構成する各文字の読みを、予め用意された文字の読みが格納された辞書などから読み出し、それらの組合せを取得することで、称呼情報を取得する。
(Step S1003) The
(ステップS1004)称呼取得部332は、カウンターmに1を代入する。
(Step S1004) The
(ステップS1005)称呼取得部332は、ステップS1003で取得した称呼情報にm番目の称呼情報があるか否かを判断する。ある場合、ステップS1006に進み、ない場合、ステップS1011に進む。
(Step S1005) The
(ステップS1006)称呼取得部332は、カウンターnに1を代入する。
(Step S1006) The
(ステップS1007)称呼取得部332は、m番目の称呼情報にn番目の区切位置があるか否かを判断する。例えば、称呼情報の全ての文字の間を区切り位置に設定していく場合、n番目の区切り位置とは、例えば、称呼情報の先頭からn番目の文字と(n+1)番目の文字との間である。このため、称呼取得部332は、例えばm番目の称呼情報に、先頭から(n+1)番目の文字があるか否かを判断すればよい。n番目の区切位置がある場合、ステップS1008に進み、ない場合、ステップS1010に進む。なお、称呼取得部332は、称呼情報のうちの、商標文字列を構成する各文字の読みの間や、商標文字列を構成する形態素の読みの間を、区切り位置に設定して称呼情報を分割していくようにしても良い。例えば、称呼取得部332は、商標文字列「ABC」の各文字の読み「エー」と「ビー」と「シー」を組み合わせて称呼情報「エービーシー」が取得された場合、区切り位置に設定できる位置を、「エー」と「ビー」との間、及び「ビー」と「シー」の間としてもよい。
(Step S1007) The
(ステップS1008)称呼取得部332は、n番目の区切位置でm番目の称呼情報を区切って、その前後の文字列である分割称呼情報を取得する。なお、商標の称呼となり得ないような予め指定された文字が先頭に来る文字列は、分割称呼情報として取得しないことが好ましい。予め指定された文字は、例えば長音や、「ン」などである。取得した分割称呼情報は、図示しないメモリなどの記憶媒体に一時記憶する。既に他の分割称呼情報が記憶されている場合は、追記する。
(Step S1008) The
(ステップS1009)称呼取得部332は、カウンターnを1インクリメントする。そして、ステップS1007に戻る。
(Step S1009) The
(ステップS1010)称呼取得部332は、カウンターmを1インクリメントする。そして、ステップS1005に戻る。
(Step S1010) The
(ステップS1011)称呼表示部333は、ステップS1003で取得した称呼情報と、ステップS1008で取得した分割称呼情報を表示する。なお、称呼表示部333は、ユーザに選択させず、特定のルールで称呼指定を選択する場合は、本ステップの表示、およびステップS1012の受付をスキップしても良い。
(Step S1011) The
(ステップS1012)称呼指定受付部334は、称呼指定情報または分割称呼指定情報の少なくとも一方を指定する称呼指定情報を受け付けたか否かを判断する。受け付けた場合、称呼表示部333は、例えば、称呼指定情報で指定された称呼情報と割称呼情報とをメモリなどの記憶媒体に一時記憶して、ステップS212に進み、受け付けていない場合、ステップS1012に戻る。
(Step S1012) The designation
(ステップS1013)類似検索部335は、カウンターkに1を代入する。
(Step S1013) The
(ステップS1014)類似検索部335は、ステップS1012で受け付けた称呼指定情報によって指定された称呼情報と分割称呼情報とを合わせた中に、k番目の称呼情報または分割称呼情報があるか否かを判断する。ある場合、ステップS1015に進み、ない場合、ステップS1017に進む。
(Step S1014) The
(ステップS1015)類似検索部335は、k番目の称呼情報または分割称呼情報を用いて、データベース31を検索し、類似検索を行う。そして、類似検索部335は、類似検索の結果を、図示しない記憶媒体などに蓄積する。類似検索の結果は、例えば、類似検索に用いられたk番目の称呼情報または分割称呼情報と、類似すると判断された称呼と、その称呼に対応付けられた会社名、および商品の固有名称とを含む情報である。
(Step S1015) The
(ステップS1016)類似検索部335は、カウンターkを1インクリメントする。そして、ステップS1014に戻る。
(Step S1016) The
(ステップS1017)商品類否判断部34は、データベース31からステップS1001で取得した調査対象商標情報をもとに使用するデータベースを選択する。具体的には、商品類否判断部34は、調査対象商標情報に類似群コードが含まれていた場合は、会社類似群コード固有名称データベース22を選択し、商品名が含まれていた場合は会社商品固有名称データベース107を選択する。選択できた場合は、ステップS1018に進み、選択できなかった場合はステップS1019に進む。
(Step S1017) The merchandise
(ステップS1018)商品類否判断部34は、ステップS1017のデータベース31からステップS1001で取得した調査対象商標情報の商品名、または類似群コードをキーにして商品の類否判断を行う。そして、商品類否判断部34は、類否判断の結果を、図示しない記憶媒体などに蓄積する。類否判断の結果は、例えば、類否判断に用いられた商品名、または類似群コードと、一致すると判断された商品名、または類似群コードと、その称呼に対応付けられた会社名と商品の固有名称とを含む情報である。
(Step S1018) The product
(ステップS1019)商標侵害検知装置3は、ステップS1015で蓄積した類似検索結果と、ステップS1018で蓄積した情報から、商品の固有名称が共通する情報を取得する。
(Step S1019) The trademark
(ステップS1020)出力部35は、ステップS1019で取得した情報を出力する。そして処理を終了する。
(Step S1020) The
以下、本実施の形態における商標侵害検知装置3の具体的な動作について説明する。なお、この具体例において示したデータは、説明のために便宜上用意されたものである
Hereinafter, a specific operation of the trademark
まず、ユーザが、中華そばの麺である「針金麺」について、侵害の可能性を判断したいと考えて、「針金麺」という商標文字列と、中華そばの麺の類似群コードである「32F03」を、商標侵害検知装置3にキーボードなどを操作して入力したとする。受付部32は、商標文字列「針金麺」を受け付ける。そして、商標文字列取得部331は、商標文字列を取得し、商品類否判断部34は、類似群コードを取得する。
First, the user wants to judge the possibility of infringement of “wire noodles” which are noodles of Chinese noodles, and therefore, the trademark character string “wire noodles” and a similar group code “32F03” of Chinese noodles of noodles. ”Is input to the trademark
称呼取得部332は、商標文字列取得部331が受け付けた商標文字列「針金麺」の称呼情報を取得する。ここでは、まず、商標文字列に対して形態素解析を行って形態素ごとの読みの情報を取得する。例えば、形態素解析によって「針金麺」は、2つの形態素「針金」と「麺」とに分けられ、形態素「針金」からは読みとして「ハリガネ」が、また、形態素「麺」からは読みとして「メン」が取得されたとする。それぞれの形態素には、1つの読みしか取得されないため、「針金麺」の称呼情報の一つとしてこれらの読みを単に結合した「ハリガネメン」を取得する。
The
さらに、称呼取得部332は、予め用意された漢字の読みが格納された辞書(図示せず)から、商標文字列「針金麺」の各文字の読みを取得する。例えば、「針」からは「ハリ」、「シン」という読みを取得したとする。また「金」からは、「キン」、「コガネ」、「コン」、「カネ」を取得したとする。また、「麺」からは「メン」を取得したとする。そして、称呼取得部332は、取得した文字の読みを、取得元となる文字の並びに沿って組み合わせることで称呼情報を取得する。例えば、称呼取得部332は、「ハリキンメン」、「ハリコガネメン」、「ハリコンメン」、「ハリカネメン」、「シンキンメン」、「シンコガネメン」などの称呼情報が取得する。なお、形態素解析で取得した称呼情報と一致するものは、削除する。
Furthermore, the
次に、称呼取得部332は、上記で取得した各称呼情報を分割して分割称呼情報を取得する。例えば、称呼情報「ハリガネメン」については、まず、区分位置を1文字目の「ハ」と2文字目の「リ」の間に設定して称呼情報を分割することで、「ハ」という分割称呼情報と、「リガネメン」という分割称呼情報とを取得する。更に、称呼取得部332は、区分位置を2文字目の「リ」と3文字目の「ガ」の間に設定して称呼情報を分割することで、「ハリ」という分割称呼情報と、「ガネメン」という分割称呼情報とを取得する。同様にして、称呼取得部332は、「ハリガ」、「ネメン」、「ハリガネ」、「メン」、「ハリガネメ」を取得する。但し「ン」は、分割称呼情報としては取得しない。同様にして、称呼取得部332は、他の称呼情報についても分割称呼情報を取得する。なお、称呼取得部332は、取得した分割称呼情報において、重複するものは一つを除いて削除する。
Next, the
そして、称呼表示部333は、取得した称呼情報と分割称呼情報とをモニタなどに出力する。
Then, the
図17は、称呼表示部333による、称呼情報と分割称呼情報との表示例を示す図である。なお、ここでは、称呼情報も分割称呼情報も、後述する類似検索においては特に区別せずに利用されるため、称呼情報と分割称呼情報とを特に区別せずに称呼として表示している。
FIG. 17 is a diagram showing a display example of the name information and the divided name information by the
次に、ユーザが、図17に示した称呼情報と分割称呼情報とのうちの、類似検索に利用したいと考えるものの横のチェックボックスにチェックを入れて、「指定完了」ボタン31を押したとする。例えば、「ハリガネメン」、「ハリガネ」、「ハリキンメン」の横のチェックボックスに図17に示すようにチェックをいれて「指定完了」ボタン31を押すと、称呼指定受付部334は、チェックの入った称呼情報である「ハリガネメン」および「ハリキンメン」と、チェックの入った分割称呼情報である「ハリガネ」を受け付ける。
Next, it is assumed that the user checks the check box next to the name information and the divided name information shown in FIG. 17 that he / she wants to use for similarity search and presses the “designation complete”
次に、類似検索部335は、称呼指定受付部334が受け付けた称呼情報と分割称呼情報とのそれぞれとを用いて、データベース31を検索し、称呼の類似検索を行う。称呼の類似検索については、公知の技術であるので、詳細な具体例は省略する。例えば、類似検索の結果、称呼情報「ハリガネメン」と分割称呼情報「ハリガネ」については、称呼が類似する商品の固有名称が検出されなかったが、称呼情報「ハリキンメン」については、称呼が類似する商品の固有名称が検出されたとする。具体的には、称呼が「ハリキントン」という商品の固有名称が検出されたとする。商標類否判断結果取得部336は、この検出結果を図示しない記憶媒体などに一時記憶する。
Next, the
そして、商標類否判断結果取得部336は、類似検索の結果を取得する。
Then, the trademark similarity determination result
さらに次に、商品類否判断部34は、商品の類否判断を行う、受付部32から取得した類似群コードを用いて、会社類似群コード固有名称データベース22から情報を取得する。商品類否判断部34は、「32F03」の場合、穀物の加工品に関する情報が「針金面」に関係なく取得されるが、全て取得する。
Next, the merchandise
そして、出力部35は、商標類否判断部33の判断結果と商品類否判断部34の判断結果をのうち、商品の固有名称が共通する情報を取得し、会社名と商品の固有名称を出力する。なお、出力部35は、この際に会社データベース101に会社を特定する情報、または会社名の確信度、その他保持している情報があれば出力しても良い。
And the
以上、本実施の形態によれば、ユーザが指定した調査対象商標文字列から、商標の文字列の称呼情報を自動的に取得して、これを用いた類似検索が行えるようにしたので、商標の総合的な侵害状況の判断材料となる情報をユーザに提供することができる。 As described above, according to the present embodiment, the name information of the trademark character string is automatically acquired from the survey target trademark character string designated by the user, and the similarity search using this can be performed. It is possible to provide the user with information that can be used to determine the overall infringement status.
また、本実施の形態によれば、称呼情報を分割した分割称呼情報を取得して、これを用いた類似検索が行えるようにしたので、例えば、ユーザが入力した商標が結合商標である場合には、結合商標を分割した場合の称呼を自動で取得することができ、分割した称呼情報を用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、分割した称呼情報を用いた類似検索をユーザに促すことができる。また、分割称呼情報を取得することで、商標の主要部だけを用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、主要部を用いた類似検索をユーザに促すことができる。 In addition, according to the present embodiment, the divided name information obtained by dividing the name information is acquired and the similarity search using the divided name information can be performed. For example, when the trademark input by the user is a combined trademark. Can automatically acquire a name when the combined trademark is divided, and an appropriate similarity search using the divided name information can be performed. In addition, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the divided name information. In addition, by acquiring the division name information, an appropriate similarity search using only the main part of the trademark becomes possible. Further, it is possible to easily input the divided name information and to prompt the user to perform a similar search using the main part.
(実施の形態5)
上記実施の形態2をさらに明瞭に説明する。本実施の形態は、調査対象商標情報が商品名を保持し、類似群コードを保持していない場合であっても、類似群コードを用いて商品の類否判断ができる事を特徴とする。
(Embodiment 5)
The second embodiment will be described more clearly. The present embodiment is characterized in that the similarity of the product can be determined using the similar group code even when the investigation target trademark information holds the product name and does not hold the similar group code.
図20は、本実施の形態における商標侵害検知装置4のブロック図である。商標侵害検知装置4は、データベース401、受付部32、商標類否判断部33、商品類否判断部402、出力部35を備える。受付部32、商標類否判断部33、出力部35については、実施の形態4と同様であるため、説明を省略する。
FIG. 20 is a block diagram of the trademark infringement detection device 4 in the present embodiment. The trademark infringement detection apparatus 4 includes a
データベース401は、1以上の図示しないWebサーバ装置から取得した情報である、会社名と商品名と商品の固有名称との組を1組以上格納し得る。データベース401は、1以上のWebサーバ装置から取得した情報であれば何でもよく、データベース構築装置1を用いて構築してもよく、無作為、または調査対象商標情報の商品名をキーワードにして検索して収集したWebページから特定のルールを用いて情報を取得して構築してもよい。特定のルールとは、例えば、データベース構築装置1の各ルールデータベースに格納されるルールなどである。
The
商品類否判断部402は、データベース401が有する1以上の商品名と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行い、データベース401に格納されている調査対象商標情報に類似する会社名と商品名と商品の固有名称を取得する。商品類否判断部402は、商品コード管理手段4021、コード特定情報取得手段4022、商品類否判断手段4023を備える。なお、本実施の形態におけるコード特定情報とは、商品名であってもよく、図示しない記憶部で管理されている類似群コードを参照するための番号等であってもよく、類似群コード表における見出しの商品または役務名(たとえば、01A01であれば「化学品」)であってもよく、類似群コード表における商品・役務名であってもよく、類似群コードそのものであってもよい。
The commodity
商品コード管理手段4021は、商品名とコード特定情報との対応を管理している。管理する商品名とコード特定情報は、類似群コードの説明文から特定のルールを用いて取得してもよく、図示しないWebサーバ装置から取得したWebページから特定のルールを用いて取得してもよく、人が手作業で入力してもよい。特定のルールとは、例えば「04A01は、例えば、洗い粉やシャンプーなどがあげられる」といった文章から、コード特定情報として「04A01」を、商品名として「洗い粉」と「シャンプー」を取得するようなルールであってもよく、「<table><tr><td>染料</td><td>藍・あかね</td></tr></table>」といったHTMLの構造から、コード特定情報として「染料」を、商品名として「藍」と「あかね」を取得するルールであってもよい。また、商品コード管理手段4021は、その対応を再帰的に探索することで類似群コードを取得できるような構成にしてもよい。具体的には、コード特定情報「01A01」と商品名「化学品」、コード特定情報「化学品」と商品名「アンモニア水」という2組の情報があった場合、商品名「アンモニア水」からコード特定情報「01A01」を取得できるように管理しても良い。
The product
コード特定情報取得手段4022は、商品コード管理手段4021が管理する商品に対応するコード特定情報を用いて、データベース401が有する1以上の商品名に対応するコード特定情報を取得する。取得するコード特定情報は、データベース401が有する商品名に対応する任意のコード特定情報であっても良く、再帰的に対応を取得した結果取得した類似群コードであってもよく、類似群コードに到るまで再帰的に対応を取得する過程に取得したすべてのコード特定情報であっても良い。コード特定情報取得手段4022は、通常、MPUやメモリ等から実現され得る。コード特定情報取得手段4022の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The code specifying
商品類否判断手段4023は、コード特定情報取得手段4022が取得したコード特定情報と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。商品の類否判断は、調査対象商標情報が有するコード特定情報と、コード特定情報取得手段4022が取得したコード特定情報が同一、または含まれているかどうかを判断し、同一、または含まれていた場合、その情報に対応する会社名と商品名と商品の固有名称とを取得する。商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品類否判断手段4023の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
The product
本実施の形態にかかる商標侵害検知装置4の動作は、商標侵害検知装置3における図16のステップS1018の処理のみを変更したものである。 The operation of the trademark infringement detection apparatus 4 according to the present embodiment is a modification of only the process of step S1018 in FIG.
以下、本実施の形態における商標侵害検知装置4における商品類否判断部402の具体的な動作について説明する。なお、この具体例において示した商品類否判断部402の出力結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。ここでは、例として、受付部32が受け付けた調査対象商標情報のコード特定情報を「ビール」とし、データベース401には、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という1組の情報が少なくとも記憶されているものとし、商品コード管理手段4021は、コード特定情報「28A02」と商品名「ビール」、コード特定情報「ビール」と商品名「ラガービール」という2組の情報が少なくとも記憶されているものとする。
Hereinafter, a specific operation of the merchandise
コード特定情報取得手段4022は、データベース401から商品名に関する情報を取得する。例えば、コード特定情報取得手段4022は、「ラガービール」などの情報を取得する。そして、コード特定情報取得手段4022は、商品コード管理手段4021が管理している情報を用いて、各商品名からコード特定情報を取得する。具体的には、コード特定情報取得手段4022は、「ラガービール」から「ビール」、「ビール」から「28A02」と類似群コードを取得するまでのコード特定情報をすべて取得し、商品名と対応付けて図示しない記憶部に記憶する。
The code specifying
商品類否判断手段4023は、受付部32が受け付けた調査対象商標情報が有する「ビール」と同一のコード特定情報を保持した情報を、コード特定情報取得手段4022が取得し、図示しない記憶部に記憶した情報から探索し、データベース401に格納されている会社名と商品の固有名称を取得する。具体的には、商品類否判断手段4023は、「ビール」および「28A02」と対応付けられている「ラガービール」を取得し、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という情報を取得する。
The product
以上、本実施の形態によれば、Webサーバ装置から取得した会社名と商品名と商品の固有名称との組に対して、類似群コードを指定しなくても、類似群コードを考慮した商標の類似検索が行えるようにしたため、商標の侵害状況の判断材料となる情報をユーザに提供することができる。 As described above, according to the present embodiment, a trademark taking account of a similar group code without specifying a similar group code for a set of a company name, a product name, and a product unique name acquired from a Web server device. Thus, it is possible to provide the user with information that can be used to determine the trademark infringement status.
なお、本実施の形態では、コード特定情報取得手段4022でコード特定情報を取得したが、図示しない処理部を用いて、予めコード特定情報を取得しておき、データベース401に格納しておいても良い。
In the present embodiment, the code specifying information is acquired by the code specifying
また、上記実施の形態4、実施の形態5において、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、ルール学習部116、会社類似群コード固有名称データベース構築部23、商品類否判断部34、商標文字列取得部331、称呼取得部332、類似検索部335、商標類否判断結果取得部336、コード特定情報取得手段4022、商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品名取得部113等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
Further, in the fourth embodiment and the fifth embodiment, the company
なお、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されてもよいことは言うまでもない。 In each of the above embodiments, it goes without saying that two or more communication means existing in one apparatus may be physically realized by one medium.
また、上記各実施の形態におけるデータベース構築装置は、例えば、スタンドアロンの装置であってもよいし、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、例えば、ASP(Application Service Provider)としてデータベースの構築が行われてもよい。 The database construction device in each of the above embodiments may be, for example, a stand-alone device or a server device in a server / client system. In the latter case, for example, a database may be constructed as an ASP (Application Service Provider).
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよいし、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。 In each of the above embodiments, each process or each function may be realized by centralized processing by a single device or a single system, or distributed by a plurality of devices or a plurality of systems. It may be realized by being processed.
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよいし、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。 In each of the above embodiments, each component may be configured by dedicated hardware, or a component that can be realized by software may be realized by executing a program. For example, each component can be realized by a program execution unit such as a CPU reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
また、上記各実施の形態におけるデータベース構築装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、記録媒体に、属性の異なるm個(m≧3)の属性値を有する1以上の属性値集合を有する第一の表と、属性の異なるn個(n≦m−1)の属性値を有する1以上の属性値集合を有する2以上の第二の表と、1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得するための1以上のルールが格納されており、コンピュータを、前記ルールに従い、1以上のWebページから前記n個の属性値を有する1以上の属性値集合を取得し、前記第二の表に追記する取得部と、前記2以上の第二の表が有する2以上の属性値集合を結合し、前記m個の属性値を有する1以上の属性値集合を生成し、前記第一の表に追記する結合部として機能させるためのプログラムである。 Moreover, the software which implement | achieves the database construction apparatus in each said embodiment is the following programs. That is, this program has a first table having one or more attribute value sets having m attribute values (m ≧ 3) having different attributes and n items having different attributes (n ≦ m−1). ) One or more for obtaining two or more second tables having one or more attribute value sets having attribute values and one or more attribute value sets having the n attribute values from one or more Web pages An acquisition unit that acquires one or more attribute value sets having the n attribute values from one or more Web pages according to the rules, and appends them to the second table; As a combining unit that combines two or more attribute value sets of the two or more second tables, generates one or more attribute value sets having the m attribute values, and appends to the first table It is a program to make it function.
なお、上記プログラムにおいて、ハードウェアでしか行われない処理は少なくとも含まれない。 Note that the program does not include at least processing that is performed only by hardware.
また、上記プログラムは、サーバなどからダウンロードされることによって実行されてもよいし、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。また、このプログラムは、プログラムプロダクトを構成するプログラムとして用いられてもよい。 The program may be executed by being downloaded from a server or the like, or a program recorded on a predetermined recording medium (for example, an optical disk such as a CD-ROM, a magnetic disk, a semiconductor memory, or the like) is read out. May be executed. Further, this program may be used as a program constituting a program product.
また、上記プログラムを実行するコンピュータは、単数であってもよいし、複数であってもよい。つまり、集中処理を行ってもよいし、あるいは分散処理を行ってもよい。 Moreover, the computer which performs the said program may be single, and plural may be sufficient as it. That is, centralized processing may be performed, or distributed processing may be performed.
また、図18は、前述のプログラムを実行して、前述の実施の形態のデータベース構築装置等を実現するコンピュータシステム9の概観図である。前述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。 FIG. 18 is a schematic diagram of the computer system 9 that executes the above-described program to realize the database construction apparatus and the like according to the above-described embodiment. The above-described embodiments can be realized by computer hardware and a computer program executed thereon.
図18において、コンピュータシステム1100は、CD−ROM(Compact Disk Read Only Memory)ドライブ1105、FD(Flexible Disk)ドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。
In FIG. 18, a
図19は、コンピュータシステム1100のブロック図である。図19において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU(Micro Processing Unit)1111と、ブートアッププログラムなどのプログラムを記憶するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)1113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク1114と、MPU1111、ROM1112などを相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
FIG. 19 is a block diagram of the
コンピュータシステム1100に、上記実施の形態による本発明などの機能を実行させるプログラムは、CD−ROM1121、またはFD1122に記憶されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に記憶されてもよい。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされてもよい。
A program for causing the
プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラムなどを必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。
The program does not necessarily include an operating system (OS) or a third-party program that causes the
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。 The present invention is not limited to the above-described embodiments, and various modifications are possible, and it goes without saying that these are also included in the scope of the present invention.
以上のように、本発明にかかるデータベース構築装置は、Webページからデータベースを構築できるという効果を有し、データベースシステム等として有用である。 As described above, the database construction device according to the present invention has an effect that a database can be constructed from a Web page, and is useful as a database system or the like.
1、2、5 データベース構築装置
3、4 商標侵害検知装置
101 会社データベース
102 商品データベース
103 固有名称データベース
104 会社商品データベース
105 会社固有名称データベース
106 商品固有名称データベース
107 会社商品固有名称データベース
108 会社ルールデータベース
109 商品ルールデータベース
110 固有名称ルールデータベース
111 知識増殖ルールデータベース
112 会社名取得部
113 商品名取得部
114 固有名称取得部
115 知識獲得部
116 ルール学習部
21 商品類似群コード対応データベース
22 会社類似群コード固有名称データベース
23 会社類似群コード固有名称データベース構築部
31、401 データベース
32 受付部
33 商標類否判断部
34、402 商品類否判断部
35 出力部
51 表格納部
52 ルール格納部
53 スコア格納部
54 辞書格納部
55 取得部
56 結合部
57 ルール取得部
331 商標文字列取得部
332 称呼取得部
333 称呼表示部
334 称呼指定受付部
335 類似検索部
336 商標類否判断結果取得部
4021 商品コード管理手段
4022 コード特定情報取得手段
4023 商品類否判断手段
1, 2, 5
Claims (3)
商標と、商品の類似群コードを特定するコード特定情報とを有する調査対象商標情報を受け付ける受付部と、
前記データベースが有する1以上の各属性値集合の固有名称と、調査対象商標情報が有する商標との類否判断を行う商標類否判断部と、
前記データベースが有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う商品類否判断部と、
前記商標類否判断部の判断結果と、前記商品類否判断部の判断結果とから、商標の類似および商品の類似に関する情報を出力する出力部とを具備する商標侵害検知装置。 A database having terms acquired from a web page, and storing one or more attribute value sets having company names, product names or similar group codes, and unique names;
An accepting unit for receiving survey target trademark information having a trademark and code specifying information for specifying a similar group code of a product;
A trademark similarity determination unit that determines similarity between a unique name of each attribute value set of one or more of the database and a trademark included in the trademark information to be investigated;
A product similarity determination unit that determines the similarity of a product using one or more product names or one or more similar group codes included in the database and code identification information included in the survey target trademark information;
A trademark infringement detection apparatus comprising: an output unit configured to output information relating to trademark similarity and product similarity based on a determination result of the trademark similarity determination unit and a determination result of the commodity similarity determination unit.
Webページから取得された用語を有するデータベースであり、会社名と、商品名または類似群コードと、固有名称とを有する属性値集合を1以上格納しているデータベースを格納しており、
受付部、商標類否判断部、商品類否判断部、および出力部により実現され得る商標侵害検知方法であって、
前記受付部が、商標と、商品の類似群コードを特定するコード特定情報とを有する調査対象商標情報を受け付ける受付部と、
前記商標類否判断部が、前記データベースが有する1以上の各属性値集合の固有名称と、調査対象商標情報が有する商標との類否判断を行う商標類否判断部と、
前記商品類否判断部が、前記データベースが有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う商品類否判断部と、
前記出力部が、前記商標類否判断部の判断結果と、前記商品類否判断部の判断結果とから、商標の類似および商品の類似に関する情報を出力する出力部とを具備する商標侵害検知方法。 On the recording medium,
A database having terms acquired from a web page, storing a database storing at least one attribute value set having a company name, a product name or similar group code, and a unique name;
A trademark infringement detection method that can be implemented by a reception unit, a trademark class determination unit, a product class determination unit, and an output unit,
The accepting unit accepting survey target trademark information having a trademark and code specifying information for specifying a similar group code of a product;
A trademark similarity determination unit that determines similarity between a unique name of each of the one or more attribute value sets included in the database and a trademark included in the investigation target trademark information;
Product categorization in which the product categorization determination unit determines the similarity of a product using one or more product names or one or more similar group codes included in the database and code identification information included in the trademark information to be investigated A determination unit;
The trademark infringement detection method, wherein the output unit includes an output unit that outputs information on the similarity of the trademark and the similarity of the product based on the determination result of the trademark similarity determination unit and the determination result of the commodity similarity determination unit. .
Webページから取得された用語を有するデータベースであり、会社名と、商品名または類似群コードと、固有名称とを有する属性値集合を1以上格納しているデータベースを格納しており、
コンピュータを、
商標と、商品の類似群コードを特定するコード特定情報とを有する調査対象商標情報を受け付ける受付部と、
前記データベースが有する1以上の各属性値集合の固有名称と、調査対象商標情報が有する商標との類否判断を行う商標類否判断部と、
前記データベースが有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う商品類否判断部と、
前記商標類否判断部の判断結果と、前記商品類否判断部の判断結果とから、商標の類似および商品の類似に関する情報を出力する出力部として機能させるためのプログラム。 A computer-accessible recording medium
A database having terms acquired from a web page, storing a database storing at least one attribute value set having a company name, a product name or similar group code, and a unique name;
Computer
An accepting unit for receiving survey target trademark information having a trademark and code specifying information for specifying a similar group code of a product;
A trademark similarity determination unit that determines similarity between a unique name of each attribute value set of one or more of the database and a trademark included in the trademark information to be investigated;
A product similarity determination unit that determines the similarity of a product using one or more product names or one or more similar group codes included in the database and code identification information included in the survey target trademark information;
A program for functioning as an output unit that outputs information on trademark similarity and product similarity based on the determination result of the trademark similarity determination unit and the determination result of the commodity similarity determination unit.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013138571A JP6095222B2 (en) | 2011-04-28 | 2013-07-02 | Trademark infringement detection apparatus, trademark infringement detection method, and program |
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011100439 | 2011-04-28 | ||
JP2011100439 | 2011-04-28 | ||
JP2011287601 | 2011-12-28 | ||
JP2011287601 | 2011-12-28 | ||
JP2013138571A JP6095222B2 (en) | 2011-04-28 | 2013-07-02 | Trademark infringement detection apparatus, trademark infringement detection method, and program |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012103893A Division JP5312637B2 (en) | 2011-04-28 | 2012-04-27 | Database construction device, database construction method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013191243A true JP2013191243A (en) | 2013-09-26 |
JP6095222B2 JP6095222B2 (en) | 2017-03-15 |
Family
ID=47072355
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012103893A Expired - Fee Related JP5312637B2 (en) | 2011-04-28 | 2012-04-27 | Database construction device, database construction method, and program |
JP2013138571A Active JP6095222B2 (en) | 2011-04-28 | 2013-07-02 | Trademark infringement detection apparatus, trademark infringement detection method, and program |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012103893A Expired - Fee Related JP5312637B2 (en) | 2011-04-28 | 2012-04-27 | Database construction device, database construction method, and program |
Country Status (2)
Country | Link |
---|---|
JP (2) | JP5312637B2 (en) |
WO (1) | WO2012147840A1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018112867A (en) * | 2017-01-11 | 2018-07-19 | 日本電信電話株式会社 | Check-up device, check-up method and check-up program |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5253668B1 (en) * | 2012-11-14 | 2013-07-31 | 有限会社アイ・アール・ディー | Database construction device, database construction method, and program |
JP6578693B2 (en) * | 2015-03-24 | 2019-09-25 | 日本電気株式会社 | Information extraction apparatus, information extraction method, and display control system |
CN107045545A (en) * | 2017-03-30 | 2017-08-15 | 山东省农业科学院 | A kind of peanut cultivation information database constructing system |
CN108509597B (en) * | 2018-04-02 | 2022-01-28 | 浙江知夫子信息科技有限公司 | Method and system for evaluating success rate of character trademark registration |
JP6779405B1 (en) * | 2020-06-23 | 2020-11-04 | 株式会社Ipsign | Infringement information extraction systems, methods and programs |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0589181A (en) * | 1991-08-07 | 1993-04-09 | Res Puro:Kk | Trademark retrieving device |
JP2000172705A (en) * | 1998-12-07 | 2000-06-23 | Spec Kk | Information retrieving device, information retrieving method and storage medium storing program for executing the method |
JP2006065651A (en) * | 2004-08-27 | 2006-03-09 | Toshiba Corp | Program, apparatus and method for retrieving trademark name |
US20080140808A1 (en) * | 2006-12-08 | 2008-06-12 | Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. | System and method for managing trademarks use |
JP2010140504A (en) * | 2010-02-16 | 2010-06-24 | Brandy International Inc | Trademark server device and trademark extraction method |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006023878A (en) * | 2004-07-07 | 2006-01-26 | Quin Land Co Ltd | Data extraction system |
JP2011053734A (en) * | 2009-08-31 | 2011-03-17 | Tatsuya Shindo | In-site search server, in-site search service method, and program |
-
2012
- 2012-04-26 WO PCT/JP2012/061187 patent/WO2012147840A1/en active Application Filing
- 2012-04-27 JP JP2012103893A patent/JP5312637B2/en not_active Expired - Fee Related
-
2013
- 2013-07-02 JP JP2013138571A patent/JP6095222B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0589181A (en) * | 1991-08-07 | 1993-04-09 | Res Puro:Kk | Trademark retrieving device |
JP2000172705A (en) * | 1998-12-07 | 2000-06-23 | Spec Kk | Information retrieving device, information retrieving method and storage medium storing program for executing the method |
JP2006065651A (en) * | 2004-08-27 | 2006-03-09 | Toshiba Corp | Program, apparatus and method for retrieving trademark name |
US20080140808A1 (en) * | 2006-12-08 | 2008-06-12 | Hong Fu Jin Precision Industry (Shenzhen) Co., Ltd. | System and method for managing trademarks use |
JP2010140504A (en) * | 2010-02-16 | 2010-06-24 | Brandy International Inc | Trademark server device and trademark extraction method |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018112867A (en) * | 2017-01-11 | 2018-07-19 | 日本電信電話株式会社 | Check-up device, check-up method and check-up program |
Also Published As
Publication number | Publication date |
---|---|
WO2012147840A1 (en) | 2012-11-01 |
JP6095222B2 (en) | 2017-03-15 |
JP2013152692A (en) | 2013-08-08 |
JP5312637B2 (en) | 2013-10-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6095222B2 (en) | Trademark infringement detection apparatus, trademark infringement detection method, and program | |
JP5769327B2 (en) | Database construction device, trademark infringement detection device, database construction method, and program | |
Shaalan et al. | NERA: Named entity recognition for Arabic | |
WO2010047286A1 (en) | Search system, search method, and program | |
Fromont et al. | ONZE Miner: the development of a browser-based research tool | |
Van Hooland et al. | Evaluating the success of vocabulary reconciliation for cultural heritage collections | |
JP2011108085A (en) | Knowledge construction device and program | |
Yıldırım et al. | Mastering Transformers: Build state-of-the-art models from scratch with advanced natural language processing techniques | |
JP4882040B2 (en) | Information processing apparatus, information processing system, and program | |
JP2022187507A (en) | Technical research support device, technical research support method and technical research support program | |
US20140358522A1 (en) | Information search apparatus and information search method | |
KR20180086801A (en) | Apparatus and method for sentence meaning formalization and text generation based on rdf triples | |
JP2008003656A (en) | Concept dictionary creating device, document classifying device, concept dictionary creating method, and document classifying method | |
Homenda et al. | Querying in spaces of music information | |
JPWO2016151690A1 (en) | Document search apparatus, method and program | |
JP4726683B2 (en) | EXPERIENCE INFORMATION EXTRACTION METHOD AND DEVICE, PROGRAM, AND COMPUTER-READABLE RECORDING MEDIUM | |
KR20070008994A (en) | System and method for extracting domain information in unstructured web documents | |
KR20100091367A (en) | Method and system for transforming blog posting to ontology-based information | |
KR101945234B1 (en) | Method for Searching Semiconductor Parts Using Algorithm of Eliminating Last Alphabet | |
JP5187187B2 (en) | Experience information search system | |
WO2006008919A1 (en) | Information processing device and program | |
JP2007011892A (en) | Vocabulary acquisition method and device, program, and storage medium storing program | |
JP4119413B2 (en) | Knowledge information collection system, knowledge search system, and knowledge information collection method | |
US9092507B2 (en) | Apparatus and method for computing n-way co-occurrences of data tuples in scalar indexes | |
JP2010079347A (en) | Information processing apparatus, information processing method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150422 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20160705 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170210 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6095222 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |