以下、データベース構築装置などの実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態におけるデータベース構築装置1のブロック図である。データベース構築装置1は、会社データベース101、商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、会社名取得部112、商品名取得部113、固有名称取得部114、知識獲得部115、ルール学習部116を備える。
会社データベース101は、1以上の会社名を格納し得る。会社名とは、商品またはサービスを提供する株式会社、有限会社、公益法人、社団法人、独立行政法人などの法人格をもつ名称、および個人の名称である。
また、会社名とは、その会社名を特定する情報でも良い。会社データベース101は、会社名だけでなく、会社名を取得した文書の情報、または会社名の取得回数や取得割合などを格納しても良い。会社名の会社を特定する情報とは、会社を一意に特定できる情報であればなんでも良い。例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。会社名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または会社名の前後の文章やHTMLのタグ構造などである。
格納とは、不揮発性の記録媒体による長期的な格納や、揮発性の記録媒体による一時的な格納も含む概念である。以下、本発明内における格納の概念は、同一のものとする。
会社名データベース101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。後述する商品データベース102、固有名称データベース103、会社商品データベース104、会社固有名称データベース105、商品固有名称データベース106、会社商品固有名称データベース107、会社ルールデータベース108、商品ルールデータベース109、固有名称ルールデータベース110、知識増殖ルールデータベース111、データベース31、データベース401、商品コード管理手段4021についても会社名データベース101にならう。
商品データベース102は、1以上の商品名を格納し得る。商品名とは、法人、および個人が販売、または提供している商品、または役務の名称である。具体的には、「チョコレート」「パソコン」「宅配」「引越しサービス」などである。ここでいう商品、および役務の名称は、商標法施行規則第6条で規定されている商品および役務の区分(以下、類似群コード表という)に記載されている商品、および役務の名称に必ずしも準じていなくても良い。
また、商品名は、その商品名を特定する情報でも良い。商品データベース102は、商品名だけでなく、商品名を取得した文書の情報、または商品名の取得回数や取得割合などを格納しても良い。商品名の商品を特定する情報とは、商品を一意に特定できる情報であればなんでも良い。例えば、ホームページのアドレスなどを示す情報、または住所、または電話番号などであっても良い。商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品名の前後の文章やHTMLのタグ構造などである。
固有名称データベース103は、1以上の商品の固有名称を格納し得る。商品の固有名称とは、商品、および役務を識別可能な名称である。具体的には、「雪見だいふく(登録商標)」「宅急便(登録商標)」「PatentSearchAssistant(登録商標)」などである。またここでいう商品の固有名称とは、商標登録されている商標であっても良いし、なくても良い。
また、商品の固有名称とは、その商品の固有名称を特定する情報でも良い。固有名称データベース103は、商品の固有名称だけでなく、商品の固有名称を取得した文書の情報、または商品の固有名称の取得回数や取得割合などを格納しても良い。商品の固有名称を特定する情報とは、商品の固有名称を一意に特定できる情報であればなんでも良い。例えば、商標の出願番号や公開番号などであっても良い。商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報など、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
会社商品データベース104は、会社名と商品名とを有する1以上の組を格納し得る。
会社商品データベース104は、会社名と、商品名だけでなく、同一レコードにある会社名と商品名を取得した文書の情報、または同一レコードにある会社名と商品名の取得回数、取得頻度や共起頻度、文書内で会社名と商品名の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値でも良い。などを格納しても良い。同一レコードにある会社名と商品名を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または会社名と商品名の前後の文章やHTMLのタグ構造などである。
会社固有名称データベース105は、会社名と商品の固有名称とを有する1以上の組を格納し得る。
会社固有名称データベース105は、会社名と、商品の固有名称だけでなく、同一レコードにある会社名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある会社名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
商品固有名称データベース106は、商品名と商品の固有名称とを有する1以上の組を格納し得る。
会社固有名称データベース105は、商品名と、商品の固有名称だけでなく、同一レコードにある商品名と商品の固有名称を取得した文書の情報、または同一レコードにある商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で商品名と商品の固有名称の間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
会社商品固有名称データベース107は、会社名と商品名と商品の固有名称とを有する1以上の組を格納し得る。
会社商品固有名称データベース107は、会社名と、商品名と、商品の固有名称だけでなく、同一レコードにある会社名と商品名と商品の固有名称を取得した文書の情報、または同一レコードにある会社名と商品名と商品の固有名称の取得回数、取得頻度や共起頻度、文書内で会社名と商品名と商品の固有名称のそれぞれの間に記載されている文字数や、形態素数、または単語数などによる平均距離、または、後述する各ルールの取得数や出現頻度の値の合計や平均など何らかの方法で用いて算出した値などを格納しても良い。同一レコードにある商品名と商品の固有名称を取得した文書の情報とは、例えば、文書の名称やそのページ数、またはWebサイトのURL示す情報、または商品の固有名称の前後の文章やHTMLのタグ構造などである。
また、会社商品固有名称データベース107は、既に出願公開されている商標の情報から登録しても良い。その場合、その識別情報(例えば登録番号)、または登録状況などの情報を格納しても良い。
会社ルールデータベース108は、文書から会社名を取得するためのルールである1以上の会社ルールを格納し得る。
文書とは、1以上の文の集合であり、会社名や商品名、商品の固有名称が必ずしも記載されている必要はなく、また日本語だけでなく、英語や中国語、その他あらゆる言語であっても良く、2種類以上の言語が混在していても良い。例えば、WebページやHTML,XML,Wordファイルなどあっても良い。
文書から会社名を取得するとは、文書から、会社名が記載されている部分を割り出し、会社名を抽出することである。
会社ルールとは、文書から会社名を抽出するルールである。例えば、会社名を直接抽出することが出来る文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、会社名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名を取得する会社ルールの場合、「<td>社名</td><td>株式会社%会社名%</td>」などとして表す。
会社ルールデータベース108は、会社ルールだけでなく、会社ルールの取得回数や取得割合、または会社ルールが抽出する対象を格納しても良い。会社ルールが抽出する対象とは、文書から会社ルールを利用した結果、会社名を取得する場合と、会社名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「会社名」または「文章」などの値を格納しても良い。
商品ルールデータベース109は、文書から商品名を取得するためのルールである1以上の商品ルールを格納し得る。
文書から商品名を取得するとは、文書から、商品名が記載されている部分を割り出し、商品名を抽出することである。
商品ルールとは、文書から商品名を取得するルールである。例えば、商品名を直接抽出することが出来る文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品名を抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名を取得する商品ルールの場合、「<title>商品名一覧</title>.*?<div.*?><h[1−5].*?>一覧<h[1−5]></div><ul.*?>(<li.*?><a.*?>%商品名%</a></</li>)+</ul>」などとして表す。
商品ルールデータベース109は、商品ルールだけでなく、商品ルールの取得回数や取得割合、または商品ルールが抽出する対象を格納しても良い。商品ルールが抽出する対象とは、文書から商品ルールを利用した結果、商品名を取得する場合と、商品名を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「商品名」または「文章」などの値を格納しても良い。
固有名称ルールデータベース110は、文書から商品の固有名称を取得するためのルールである1以上の固有名称ルールを格納し得る。
文書から商品の固有名称を取得するとは、文書から、商品の固有名称が記載されている部分を割り出し、商品名を抽出することである。
固有名称ルールとは、文書から商品の固有名称を取得するルールである。例えば、商品の固有名称を直接抽出することが出来る文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLのタグ構造のパターンであっても良い。また、商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%固有名称%」の部分に記載された商品の固有名称を取得する固有名称ルールの場合、「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
固有名称ルールデータベース110は、固有名称ルールだけでなく、固有名称ルールの取得回数や取得割合、または固有名称ルールが抽出する対象を格納しても良い。固有名称ルールが抽出する対象とは、文書から固有名称ルールを利用した結果、商品の固有名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「商品の固有名称」または「文章」などの値を格納してもよい。
知識増殖ルールデータベース111は、文書から、構成数が少ない情報を用いて、より構成数の多い情報を取得するルールである1以上の知識増殖ルールを格納し得る。
構成数が少ない情報を用いて、より構成数の多い情報を取得するとは、以下の情報のことである。
・会社データベース101に格納されている情報を用いて、会社商品データベース104、および会社固有名称データベース105、および会社商品固有名称データベース107に格納されている情報を取得すること
・商品データベース102に格納されている情報を用いて、会社商品データベース104、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
・固有名称データベース103に格納されている情報を用いて、会社固有名称データベース105、および商品固有名称データベース106、および会社商品固有名称データベース107に格納されている情報を取得すること
・会社商品データベース104に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
・会社固有名称データベース105に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報を取得すること
・商品固有名称データベース106に格納されている情報を用いて、会社商品固有名称データベース107に格納されている情報。を取得すること
知識増殖ルールとは、文書から会社名、または商品名、または商品の固有名称から1、または2種類の情報を利用して、残る2,または1種類の情報を取得するルールである。具体的には、第一知識増殖ルールと、第二知識増殖ルールと、第三知識増殖ルールと、第四知識増殖ルールと、第五知識増殖ルールと、第六知識増殖ルールと、第七知識増殖ルールと、第八知識増殖ルールと、第九知識増殖ルールと、第十知識増殖ルールと、第十一知識増殖ルールと、第十二知識増殖ルールとがある。
第一知識増殖ルールは、文書から、会社名を用いて、会社名と商品名との組を取得する。会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
第一知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名を直接抽出することが出来る文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品名を直接抽出するHTMLタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。
第二知識増殖ルールは、文書から、会社名を用いて、会社名と商品の固有名称との組を取得する
会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
第二知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞を直接抽出することが出来る文章のパターンであっても良く、商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第三知識増殖ルールは、文書から、会社名を用いて、会社名と商品名と商品の固有名称との組を取得する。
会社名を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名が記載されている文書を選別することであっても良く、会社名が記載されている周辺の文字列を抽出することなどであっても良い。
第三知識増殖ルールとは、例えば、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出することが出来る文章のパターンであっても良く、商品名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名が記載されているWebページのうち、会社名にかかわりのある商品名と商品の固有名詞を直接抽出するHTMLタグ構造のパターンであっても良く、商品名を直接特定し商品の固有名称を含む文章を特定するHTMLタグ構造のパターンであっても良く、商品名を含む文章を特定し商品の固有名詞を直接特定するHTMLタグ構造のパターンであっても良く、商品名と商品の固有名詞が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名が記載されている文書のうち、会社名にかかわりのある商品名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第四知識増殖ルールは、文書から、商品名を用いて、会社名と商品名との組を取得する。
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
第四知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名を直接抽出することが出来る文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%商品名%」の部分に記載された商品名の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」などとして表す。
第五知識増殖ルールは、文書から、商品名を用いて、商品名と商品の固有名称との組を取得する。
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
第五知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称を直接抽出することが出来る文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第六知識増殖ルールは、文書から、商品名を用いて、会社名と商品名と商品の固有名称との組を取得する。
商品名を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
第六知識増殖ルールとは、例えば、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出することが出来る文章のパターンであっても良く、会社名を直接抽出し商品の固有名称を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接抽出する文章パターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名が記載されているWebページのうち、商品名にかかわりのある会社名と商品の固有名詞を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品の固有名称を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品の固有名詞を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品の固有名詞が記載されている文章を特定するタグHTMLタグ構造のパターンであっても良い。また、商品名が記載されている文書のうち、商品名にかかわりのある会社名と商品の固有名詞が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第七知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品の固有名称との組を取得する。
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
第七知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名を直接抽出することが出来る文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>製品一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第八知識増殖ルールは、文書から、商品の固有名称を用いて、商品名と商品の固有名称との組を取得する。
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
第八知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名を直接抽出することが出来る文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%商品名%」の部分に記載された商品名と「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第九知識増殖ルールは、文書から、商品の固有名称を用いて、会社名と商品名と商品の固有名称との組を取得する。
固有名称を用いてとは、例えば、上述する文書から固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
第九知識増殖ルールとは、例えば、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出することが出来る文章のパターンであっても良く、会社名を直接抽出し商品名を含む文章を特定する文章パターンであっても良く、会社名を含む文章を特定し商品名を直接抽出する文章パターンであっても良く、会社名と商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品の固有名称が記載されているWebページのうち、商品の固有名称にかかわりのある会社名と商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名を直接特定し商品名を含む文章を特定するHTMLのタグ構造のパターンであっても良く、会社名を含む文章を特定し商品名を直接特定するHTMLのタグ構造のパターンであっても良く、会社名と商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品の固有名称が記載されている文書のうち、商品の固有名称にかかわりのある会社名と商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第十知識増殖ルールは、文書から、会社名と商品名の組を用いて、会社名と商品名と商品の固有名称との組を取得する。
会社名と商品名の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、商品データベース102に格納されている1以上の商品名が記載されている文書を選別することであっても良く、会社名と、商品名が記載されている周辺の文字列を抽出することなどであっても良い。
第十知識増殖ルールとは、例えば、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出することが出来る文章のパターンであっても良く、商品の固有名称が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名と商品名が記載されているWebページのうち、会社名と商品名にかかわりのある商品の固有名称を直接抽出するHTMLのタグ構造のパターンであっても良く、商品の固有名称が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名と商品名が記載されている文書のうち、会社名と商品名にかかわりのある商品の固有名称が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第十一知識増殖ルールは、文書から、会社名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得する。
会社名と固有名称の組を用いてとは、例えば、上述する文書から会社データベース101に格納されている1以上の会社名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、会社名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
第十一知識増殖ルールとは、例えば、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出することが出来る文章のパターンであっても良く、商品名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、会社名と商品の固有名称が記載されているWebページのうち、会社名と商品の固有名称にかかわりのある商品名を直接抽出するHTMLのタグ構造のパターンであっても良く、商品名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、会社名と商品の固有名称が記載されている文書のうち、会社名と商品の固有名称にかかわりのある商品名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
第十二知識増殖ルールは、文書から、商品名と商品の固有名称の組を用いて、会社名と商品名と固有名称との組を取得する。
商品名と固有名称の組を用いてとは、例えば、上述する文書から商品データベース102に格納されている1以上の商品名と、固有名称データベース103に格納されている1以上の商品の固有名称が記載されている文書を選別することであっても良く、商品名と、商品の固有名称が記載されている周辺の文字列を抽出することなどであっても良い。
第十二知識増殖ルールとは、例えば、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出することが出来る文章のパターンであっても良く、会社名が記載されている文章を特定する文章パターンであっても良い。また、文書がWebページの場合は、商品名と商品の固有名称が記載されているWebページのうち、商品名と商品の固有名称とかかわりのある会社名を直接抽出するHTMLのタグ構造のパターンであっても良く、会社名が記載されている文章を特定するHTMLタグ構造のパターンであっても良い。また、商品名と商品の固有名称が記載されている文書のうち、商品名と商品の固有名称とかかわりのある会社名が抽出できない上記と同様のパターンであっても良い。また、上記各パターンは、例えば、決め打ちの文字列であっても良く、正規表現であってもよく、品詞や文字数などを指定するものであっても良い。さらには上述したルールが複合的に合わさっていても良い。具体的には、「%会社名%」の部分に記載された会社名と、「%商品名%」の部分に記載された商品名と、「%固有名称%」の部分に記載された商品の固有名称の組を取得する場合、「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>%商品名%一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」などとして表す。
知識増殖ルールデータベース111は、知識増殖ルールだけでなく、知識増殖ルールの種類、または知識増殖ルールの取得回数や取得割合、または知識増殖ルールが抽出する対象を格納しても良い。知識増殖ルールが抽出する対象とは、文書から知識増殖ルールを利用した結果、会社名、または商品名、または商品の固有名称といった名称を取得する場合と、商品の固有名称を含む文章を取得する場合など、複数の種類の情報を取得する可能性がある場合、何を取得するのか明示する値である。具体的には、「名称」または「文章」などの値を格納してもよい。
また、知識増殖ルールデータベース111は、上述の各知識増殖ルールをフラグとして保持しても良く、または上述の知識増殖ルールごとに別々のデータベースであっても良い。
会社名取得部112は、1以上のWebサーバ装置から、1以上の会社ルールを用いて、1以上の会社名を取得し、会社データベース101に蓄積する。
Webサーバ装置とは、具体的には、Webサービス、またはデータベースを公開するサーバ装置である。Webサービスとは、HTML形式などのマークアップ言語などにより構成されるものを公開していることに限るものではなく、例えば、Webブラウザ上や専用のアプリケーション実行環境上で動作可能なアプリケーションソフトウェアのシステムを公開していることであっても良い。Webサーバ装置は、インターネット上に公開されているものでも良く、ローカルエリア上に公開されているものでも良い。
会社名取得部112は、Webサーバ装置から取得したWebページから会社ルールを用いて会社名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
会社ルールを用いて会社名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社ルールデータベース108に登録されている会社ルールから会社名を取得することである。例えば、任意の会社ルールで「%会社名%」と記載されている部分に当てはまる文字列を取得する。
会社名を会社データベース101に蓄積する際、使用した会社ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを会社データベース101に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。
会社名取得部112と、商品名取得部113と、固有名称取得部114と、知識獲得部115と、ルール学習部116と、称呼取得部332と、類似検索部335は、通常、MPUやメモリなどから実現され得る。会社名取得部112などの処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROMなどの記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
商品名取得部113は、1以上のWebサーバ装置から、1以上の商品ルールを用いて、1以上の商品名を取得し、商品データベース102に蓄積する。
商品名取得部113は、Webサーバ装置から取得したWebページから商品ルールを用いて商品名を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
商品ルールを用いて商品名を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから商品名を取得することである。例えば、任意の商品ルールで「%商品名%」と記載されている部分に当てはまる文字列を取得する。
商品名を商品データベース102に蓄積する際、使用した商品ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを商品データベース102に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。
固有名称取得部114は、1以上のWebサーバ装置から、1以上の固有名称ルールを用いて、1以上の固有名称を取得し、固有名称データベース103に蓄積する。
固有名称取得部114は、Webサーバ装置から取得したWebページから固有名称ルールを用いて商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
固有名称ルールを用いて商品の固有名称を取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから商品の固有名称を取得することである。例えば、任意の固有名称ルールで「%固有名称%」と記載されている部分に当てはまる文字列を取得する。
商品の固有名称を固有名称データベース103に蓄積する際、使用した固有名称ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを固有名称データベース103に登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。
知識獲得部115は、1以上のWebサーバ装置から、会社データベース101の1以上の各会社名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、商品データベース102の1以上の各商品名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、固有名称データベース103の1以上の各固有名称と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得し、取得した情報を対応するデータベースに蓄積する。または、会社商品データベース104の1以上の会社名と商品名の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。または、会社固有名称データベース105の1以上の会社名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。または、商品固有名称データベース106の1以上の商品名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得し、取得した情報を会社商品固有名称データベース107に蓄積する。
知識獲得部115は、Webサーバ装置から取得したWebページから知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称を取得する。Webサーバ装置からWebページを取得するとは、いわゆるWebブラウザが取得する処理と同様である。
会社データベース101の1以上の各会社名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の会社名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101に蓄積されている会社名が出現し、かつ知識増殖データベースに蓄積されている第一知識増殖、または第二知識増殖ルール、または第三知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
商品データベース102の1以上の各商品名と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、商品データベース102に蓄積されている商品名が出現し、かつ知識増殖データベースに蓄積されている第四知識増殖、または第五知識増殖ルール、または第六知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
固有名称データベース103の1以上の各固有名称と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と固有名称、または1以上の商品名と固有名称、または1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、固有名称データベース103に蓄積されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第七知識増殖ルール、または第八知識増殖ルール、または第九知識増殖ルールを用いて、会社名、または商品名、または商品の固有名称の2以上の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
会社商品データベース104の1以上の会社名と商品名の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101の会社名と商品データベース102に蓄積されている商品名が出現し、かつ知識増殖データベースに蓄積されている第十知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
会社固有名称データベース105の1以上の会社名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、会社データベース101の会社名と固有名称データベース103に蓄積されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第十一知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
商品固有名称データベース106の1以上の商品名と商品の固有名称の組と1以上の知識増殖ルールのいずれかとを用いて、1以上の会社名と商品名と固有名称とを取得するとは、Webサーバ装置から取得した文書、またはHTMLの構造などから、商品データベース102に蓄積されている商品名と固有名称データベース103に登録されている商品の固有名称が出現し、かつ知識増殖データベースに蓄積されている第十二知識増殖ルールを用いて、会社名、商品名、商品の固有名称の組を取得することである。例えば、各ルールで「%会社名%」と記載されている部分に当てはまる文字列を会社名、「%商品名%」と記載されている部分に当てはまる文字列を商品名、「%固有名称%」と記載されている部分に当てはまる文字列を商品の固有名称として取得する。
会社名、および商品名、および商品の固有名称を対応する各データベースに蓄積する際、使用した知識増殖ルールの取得回数や取得割合に対して、一定の閾値を設けてその閾値を超えた情報のみを各データベースに登録するようにしても良い。閾値は、運用に応じて任意に設定しても良い。
ルール学習部116は、1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索し、1以上の情報が出現する1以上のパターンを取得し、パターンが予め決められた条件を満たすほどよく出現する1以上のパターンを取得し、1以上のパターンを対応する各ルールデータベースに蓄積する。
1以上の各データベースに存在する1以上の情報を用いて、1以上のWebサーバ装置を検索するとは、具体的には、会社データベース101、または商品データベース102、または固有名称データベース103、または会社商品データベース104、または会社固有名称データベース105、または商品固有名称データベース106から1以上のデータベースに格納されている1以上の任意の情報を検索キーワードとして、サーバ装置を検索することである。
Webサーバ装置を検索するとは、例えば、インターネット上のWebサーバ装置(図示せず)が提供するWebページに含まれる文字列情報を検索対象とした検索である。Web検索は、例えば、検索用サイトを利用して行われる。ここでは、例えば、検索用サイトが提供するいわゆる検索エンジンに検索キーを含むクエリなどを送信し、検索エンジンが送信する検索結果を示す情報を受信することを、例えば、Web検索を行うことと考える。検索キーの送信などは、検索エンジンが提供するAPIなどを利用することで可能である。
1以上の情報が出現する1以上のパターンを取得するとは、サーバ装置を検索した結果取得した情報から、検索に使用した1以上の各データベースに存在する1以上の情報が含まれているパターンを取得することである。パターンとは、例えば、文章のパターンであっても良く、対象がWebページの場合は、HTMLのタグ構造のパターンであっても良く、上述したルールが複合的に合わさっていても良い。パターンの取得は、会社名、および商品名、および商品の固有名称を取得できる内容あれば何でも良く、例えば文章全体をパターンとして取得しても良く、複数の文章から検索に用いた情報を含む最長共通部分列を取得しても良い。
予め決められた条件を満たすほど良く出現する1以上のパターンを取得は、各ルールデータベースに登録する条件を予め定め、その条件を良く満たすパターンのみを取得する。
予め決められた条件とは、各ルールデータベースに登録する条件を予め定めたものである。条件は、パターンを評価できる値であればなんでも良い。例えば、パターンの取得回数であっても良く、取得したすべてのパターンのうちそのパターンが占める割合であっても良い。
1以上のパターンを対応する各ルールデータベースに蓄積するとは、予め決められた条件を満たすほど良く出現したパターンをそのパターンに対応するデータベースに登録する。対応するデータベースとは、会社名を取得するパターンであれば会社ルールデータベース108、商品名を取得するパターンであれば商品ルールデータベース109、商品の固有名称を取得するパターンであれば固有名称ルールデータベース110、会社名と商品名の組を取得するパターン、および会社名と商品の固有名称の組を取得するパターン、および商品名と商品の固有名称の組を取得するパターン、および会社名と商品名と商品の固有名称の組を取得するパターンであれば知識増殖ルールデータベース111に登録する。
また、ルール学習部116は、2種類以上の情報の組を格納しているデータベースに存在する1以上の情報を用いて、1以上のパターンを取得した場合は、2種類以上の情報の組に対応するルールデータベース、および2種類以上の情報の組の一部分の情報を用いて、2種類以上の情報の組に対応する1以上のルールデータベースに、1以上のパターンを蓄積する。
2種類以上の情報の組とは、会社名と商品名、または会社名と商品の固有名称、または商品名と商品の固有名称、または会社名と商品名と商品の固有名称の情報である。2種類以上の情報の組を格納しているデータベースとは、会社商品データベース104、または固有名称データベース103、または商品固有名称データベース106、または会社商品固有名称データベース107である。1以上のパターンを取得した場合とは、2種類以上の情報の組を用いて、会社名と商品名と商品の固有名称のうち2種類以上の組を含むパターンを取得した場合である。2種類以上の情報の組の一部分の情報を用いてとは、2種類の情報の組であった場合は各々の情報、3種類の情報の組であった場合は各々、および任意の2種類の情報の組のすべての組み合わせを用いることである。これら分解した情報を用いてパターンを取得し、取得したパターンを対応するデータベースに登録する。例えば、2種類以上の情報の組が会社名と商品名であった場合、会社名と商品名を取得するパターンを取得するだけでなく、会社名を取得するパターンと商品名を取得するパターンについても取得し、各々対応する知識増殖ルールデータベース111、または会社ルールデータベース108、または商品ルールデータベース109に蓄積する。
図2は、本実施の形態におけるデータベース構築装置2のブロック図である。データベース構築装置2は、会社商品固有名称データベース107、商品類似群コード対応データベース21、会社類似群コード固有名称データベース22、会社類似群コード固有名称データベース構築部23を備える。
商品類似群コード対応データベース21は、商品名と類似群コードを関連付けて保持するデータベースである。商品名は会社商品固有名称データベース107に格納されている商品名と同様、法人、および個人が販売、または提供している商品、または役務の名称である。ここでいう商品、および役務の名称は、類似群コード表に記載されている商品、および役務の名称に必ずしも準じていなくても良い。類似群コードとは、商標の審査基準上、互いに類似するものと考えられる商品、役務に付与されたコードで、数字2桁とアルファベット1桁と数字2桁のコードである。(http://www.jpo.go.jp/shiryou/kijun/kijun2/ruiji_kijun9.htm)
商品類似群コード対応データベース21における商品名と類似群コードは、通常1対多の関係で格納されており、複数の商品名に対して同一の類似群コードが関連付けられて格納されている。
会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107に格納されている1以上の会社名と商品名と商品の固有名称の組から商品名を取得し、取得した商品名を用いて、商品類似群コード対応データベース21から商品の類似群コードを取得し、会社名と取得した類似群コードと商品の固有名称との組を会社類似群コード固有名称データベース22に蓄積する。
図3は、本実施の形態における商標侵害検知装置3のブロック図である。
商標侵害検知装置3は、データベース31、受付部32、商標類否判断部33、商品類否判断部34、出力部35を備える。
データベース31は、データベース構築装置1が構築した会社商品固有名称データベース107であっても良く、データベース構築装置2が構築した会社類似群コード固有名称データベース22であっても良い。
受付部32は、商標および商品の類似群コードを特定する情報であるコード特定情報を有する調査対象商標情報を受け付ける。調査対象商標情報とは、例えば、商標の文字列である商標文字列と、1以上のコード特定情報の組である。コード特定情報とは、商品名、または類似群コードそのものなどの類似群コードを特定する文字列である。商標文字列、および商品名の文字列は1文字以上の文字で構成される。商標文字列、および商品名の文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。また2種類以上の文字が混在していてもよい。ここでの受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線または無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。調査対象商標情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。
商標類否判断部33は、データベース31が有する1以上の商品の固有名称と、調査対象商標情報が有する商標とを用いて、商標の類否判断を行う。
図4は、本実施の形態における商標侵害検知装置3の商標類否判断部33のブロック図である。商標類否判断部33は、商標文字列取得部331、称呼取得部332、称呼表示部333、称呼指定受付部334、類似検索部335、商標類否判断結果取得部336を備える。
商標文字列取得部331は、商標の文字列である商標文字列を受け付ける。商標文字列は1文字以上の文字で構成される。商標文字列を構成する文字は、漢字やアルファベットやカタカナやひらがななど、種類は問わない。
称呼取得部332は、商標文字列取得部331が受け付けた商標文字列から、この商標文字列の称呼の情報である称呼情報を取得する。称呼取得部332は、一の商標文字列から複数の称呼情報を取得しても良い。称呼取得部332が取得する称呼情報は、ひらがなまたはカタカナまたはこれらと同などの情報である。称呼情報がこれらのいずれであるかは、例えば、この称呼情報を検索に利用する後述する類似検索部335の仕様などによって決定される。
称呼取得部332は、称呼情報をどのように取得しても良い。例えば、称呼取得部332は、1以上の文字列と、当該文字列の読みの情報とを対応付けて有する辞書を用いて、図示しない記憶媒体などに格納されている辞書を用いて商標文字列取得部331が受け付けた商標文字列に対応する1以上の称呼情報を自動取得するようにしてもよい。また、ユーザなどから図示しない入力デバイスなどを介して入力された商標文字列に対応する1以上の称呼情報を取得(受付)してもよい。この実施の形態においては、特に、称呼情報を自動取得する場合を例に挙げて説明する。
称呼取得部332は、例えば、商標文字列に対して形態素解析を行い、形態素解析により得られた商標文字列の読みの情報を称呼情報として取得する。例えば、形態素解析を用いることにより、商標文字列を形態素に分解し、分解された各文字列の読みを取得し、この文字列を組み合わせることで商標文字列の称呼情報を取得することが可能である。形態素解析においては、形態素の分解や形態素に分解された文字列からの読みの取得は、例えば、上記と同様の、形態素となりうる文字列と、その読みの情報とを対応付けて有する辞書を用いて行われる。形態素解析としては、例えば、「Mecab(和布蕪)」(http://mecab.sourceforge.net/)や、「ChaSen(茶筌)」(http://chasen.naist.jp)などの形態素解析システムなどが利用可能である。
また、称呼取得部332は、商標文字列を構成する漢字や、数字や、アルファベットなどの文字や単語などを読みに変換して、称呼情報を取得しても良い。漢字や、数字の文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのいわゆる再変換技術や、上述したような形態素解析システムの技術により実現可能である。また、アルファベットの文字や単語を読みに変換する処理は、例えば、日本語のインプットメソッドのアルファベット列の入力を日本語に変換する技術により実現可能である。アルファベット列を日本語のよみに変換する技術は、例えば、特開2009−199434号公報などに開示されている。なお、アルファベットや、漢字や、数字の称呼(読み)は、一通りとは限らないため、称呼取得部332は、様々な組合せの複数の情報を取得しても良い。例えば「IT」から「アイティー」、「アイティイ」と「イット」という複数の称呼を取得しても良い。また、「山田」から「ヤマダ」、「ヤマタ」、「ヤマデン」、「サンデン」、「サンダ」、「サンタ」という複数の称呼を取得しても良い。
また、称呼取得部332は、商標文字列を構成し得る文字列(例えば、漢字や、アルファベットや、数字など)と、その読みの情報(辞書情報)を予め図示しない格納部に蓄積しておくようにし、商標文字列を構成する各文字についてそれぞれ1以上の読みの情報を取得して、取得した読みの情報を組み合わせたものを称呼情報として取得してもよい。
また、例えば、1以上の文字列とその読みを示すカタカナまたはひらがなとを対応付けて有する予め用意された形態素の辞書情報について、称呼取得部332が、商標文字列に含まれるカタカナまたはひらがな以外の文字列と一致する文字列を検索し、検出された文字列に対応付けられた読み(称呼)の情報を辞書情報から順次取得していくことで実現可能である。なお、一の文字列について読みが複数ある場合や、検索に用いる文字数の区切で異なる称呼が得られる場合には、複数の読みを組み合わせたり区切を変更したりしてこれらを適宜組み合わせて複数の称呼情報を取得する。このような辞書情報は、例えば、称呼取得部332が、予め保持しているようにすればよい。称呼取得部332は、このような辞書情報を保持する記憶媒体などを有していても良い。
称呼取得部332は、さらに、上記で取得した1以上の称呼情報を分割して1以上の分割称呼情報を取得してもよい。分割称呼情報は、具体的には、称呼情報の一部分の情報である。分割称呼情報は、例えば、後述する類似検索などで称呼情報と実質的に同じものとして利用される。例えば、称呼取得部332は、取得した称呼情報のそれぞれの文字列を、任意の位置で区切って、その区切った位置によって分割される前または後、またはその両方の文字列を分割称呼情報として取得する。また、称呼取得部332は、文字列の区切る位置を順次変更して、それぞれの区切る位置に応じて分割称呼情報を取得しても良い。例えば、称呼取得部332は、各称呼情報を構成する文字列をそれぞれの文字間で区切っていった場合にそれぞれ得られる区切り位置の前後の文字列を、すべて分割称呼情報として取得しても良い。
称呼表示部333は、称呼取得部332が取得した1以上の称呼情報を図示しないモニタなどの表示デバイスに表示する。また、称呼表示部333は、称呼取得部332が取得した1以上の分割称呼情報を表示してもよい。称呼表示部333は、表示デバイスを含むと考えても含まないと考えても良い。称呼表示部333は、表示デバイスのドライバーソフト、または表示デバイスのドライバーソフトと表示デバイスなどで実現され得る。
称呼指定受付部334は、称呼取得部332が取得した称呼情報の1以上を指定する称呼指定情報をユーザなどから受け付ける。例えば、称呼指定情報は、称呼表示部333に表示された称呼情報の1以上を指定する称呼指定情報を受け付ける。また、称呼指定受付部334は、称呼取得部332が取得した称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報をユーザなどから受け付けてもよい。例えば、称呼指定受付部334は、称呼表示部333により表示された称呼情報と分割称呼情報とのうちの1以上を指定する称呼指定情報を受け付ける。なお、呼称指定受付部334は、予めどのような呼称を指定するか定めたルールを設けることで、ユーザに選択させなくても良いようにしてもよい。称呼指定情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるものなど、何でも良い。称呼指定受付部334は、テンキーやキーボードなどの入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェアなどで実現され得る。
類似検索部335は、称呼取得部332が取得した各称呼情報を用いて類似検索を行う。または、類似検索部335は、称呼取得部332が取得した称呼情報のうちの、称呼指定情報が指定する各称呼情報を用いて類似検索を行うようにしてもよい。また、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とを用いて類似検索を行うようにしてもよい。または、類似検索部335は、称呼取得部332が取得した各称呼情報と各分割称呼情報とのうちの、称呼指定情報が指定する称呼情報と分割称呼情報とを用いて類似検索を行うようにしてもよい。称呼指定情報が指定する称呼情報と分割称呼情報とを用いてとは、例えば、指定された称呼情報または分割称呼情報だけを用いることを意味する。類似検索部335は、図示しない記憶媒体などの格納部に予め格納されている登録商標の称呼の情報(以下、登録称呼情報と称す)の中から、称呼情報(または分割称呼情報)と類似する登録称呼情報を検索する。登録称呼情報は会社商品固有名称データベース107、または会社類似群コード固有名称データベース22の固有名称から、予め作成構築しておく。
なお、登録商標の称呼の情報が格納されている図示しない格納部は、商標類否判断部33が有していても良いし、図示しない外部のサーバ装置などが有していても良い。また、図示しない登録商標の類似検索の処理を行うサーバ装置などに、称呼情報または分割称呼情報、および類似群コードを送信して類似検索を実行させ、その検索結果を類似検索部335が受信するようにしても良く、このような場合も、類似検索部335が類似検索を行ったと考えて良い。
また、類似検索部335による類似検索の処理は、称呼情報の音響学的な判断処理であっても良い。称呼情報の音節などから類似しないと判断される要因を検出し、その要因をペナルティ値に換算し、換算したペナルティ値を用いて、称呼情報が類似するか否かを判断して、商標文字列から取得した称呼情報と類似する称呼情報を登録商標の称呼情報の中から検出する処理である。なお、ここでは、説明の便宜上、分割称呼情報も称呼情報と呼ぶこととする。また、ここでは、登録商標の称呼情報である登録称呼情報が、類似群コードと登録商標の識別情報などと対応付けて図示しない格納部に格納されているものとする。
類似検索部335が取得する類似検索の結果は、例えば、少なくとも類似する登録称呼情報が検出されたか否かを示すことが可能な情報である。例えば、類似検索の結果は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でもよい。また類似する登録称呼情報の数などを示す情報でも良い。また、称呼の情報が、登録商標や、その識別情報(例えば登録番号)などと対応付けて上述した図示しない格納部に格納されている場合、類似する登録称呼情報に対応する登録商標やその識別情報を図示しない格納部から取得して検索結果として出力してもよい。また、登録称呼情報に対応付けられた類似群コードの情報を含む情報を出力してもよい。登録商標の称呼について類似検索を行うための具体的な処理については、上述した特許文献1や、日本の特許庁が提供する称呼検索サービスや、商用データベースの称呼検索サービスなどの技術として公知であるので、ここでは詳細な説明は省略する。
商標類否判断結果取得部336は、例えば、類似検索部335による類似検索の結果と、類似検索の結果の各称呼情報と関連する会社名と類似群コード特定情報を取得する。類似検索の結果については、類似検索の結果を、類似検索を行った称呼情報ごとに取得する。また、類似検索の結果については、例えば、類似検索の結果を、類似検索を行った分割称呼情報ごとに取得する。また、称呼が類似すると判断された登録商標や、登録商標の識別情報を示す情報も各証拠情報に対して付加しても良い。
商品類否判断部34は、データベース31が有する1以上の商品名または1以上の類似群コードと、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。調査対象商標情報が商品名を保持していた場合、会社商品固有名称データベース107から調査対象商標情報の商品名に関連する商品名をもつレコードの会社名と商品の固有名称を取得する。調査対象商標情報の商品名に関連したとは、例えば、調査対象商標情報の商品名と会社商品固有名称データベース107の商品名とが同一である、または意味的に類似しているなどの場合である。調査対象商標情報が類似群コードを保持していた場合、会社類似群コード固有名称データベース22から調査対象商標情報の類似群コードと同一の類似群コードをもつレコードの会社名と商品の固有名称を取得する。
出力部35は、商標類否判断部33の判断結果と、商品類否判断部34の判断結果とから、商標の類似、および商品の類似に関する情報を出力する。例えば、類否する情報が検出されたか否かを示すことが可能な情報を出力する。例えば、商標類否判断部33の判断結果の場合は、類似する登録称呼情報の有無を示す情報であっても良いし、類似する1以上の登録称呼情報を示す情報でも良い。また、類似する登録称呼情報の数などを示す情報でも良い。また、類似する任意数の類似する登録称呼情報であっても良い。また、類似する登録称呼情報に対応する登録商標やその識別情報を出力しても良い。また、上記すべての出力内容について、会社名、または商品名、または類似群コード、または商品の固有名称のうち、一部または全部を付加して出力しても良い。また、例えば商品類否判断部34の判断結果の場合は、該当するコード特定情報の有無を示す情報であっても良いし、該当する1以上のコード特定情報を示す情報でも良い。また、該当するコード特定情報の数などを示す情報でも良い。また、上記すべての出力内容について、会社名、または固有名称のうち、一方または双方を付加して出力しても良い。
出力部35は、商標類否判断部33の判断結果すべてと、商品類否判断部34の判断結果をすべて出力しても良く、どちらか一方であっても良い。また、出力部35は商標類否判断部33と商品類否判断部34の結果のうち商品の固有名称が共通するものだけを出力しても良い。
ここで述べる出力とは、ディスプレイへの表示、プリンタによる紙などへの印字、外部の装置への送信、記録媒体への蓄積などを含む概念である。出力部35は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイスなどで実現され得る。
図5は、本実施の形態にかかる会社名取得部112の動作の一例を示すフローチャートである。以下、図5を用いて動作について説明する。
(ステップS401)会社名取得部112は、会社ルールデータベース108から会社ルールを取得する。取得できた場合、ステップS402に進み、取得出来ていない場合終了する。
(ステップS402)会社名取得部112は、カウンターmに1を代入する。
(ステップS403)会社名取得部112は、ステップS401で取得した会社ルールにm番目の会社ルールがあるか否かを判断する。ある場合は、ステップS404に進み、ない場合は、終了する。
(ステップS404)会社名取得部112は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、会社ルールデータベース108から会社名を含む文章を取得する会社ルールを用いて、予め取得した会社名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS405へ進み、取得できなかった場合はステップS410に進む。
(ステップS405)会社名取得部112は、カウンターnに1を代入する。
(ステップS406)会社名取得部112は、ステップS404で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS407に進み、ない場合は、ステップS410に進む。
(ステップS407)会社名取得部112は、ステップS404で取得したWebページのn番目のWebページに対し、ステップS401で取得した会社ルールのm番目の会社ルールを用いて会社名を取得する。取得できた場合は、ステップS408へ進み、取得できなかった場合は、ステップS409に移動する。
(ステップS409)会社名取得部112は、カウンターnをインクリメントする。そして、ステップS406に戻る。
(ステップS410)会社名取得部112は、カウンターmをインクリメントする。そしてステップS403に戻る。
以下、本実施の形態における会社名取得部112の具体的な動作について説明する。なお、この具体例において示した会社名取得部112の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
会社名取得部112が、会社ルールデータベース108から会社名を取得するためのすべてのルールを取得する。もし、会社ルールデータベース108に、会社ルールが抽出する対象に関するデータを保持していた場合、「会社名」が対象の会社ルールだけを取得する。また、もし会社ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた会社ルールだけを取得しても良い。今回の具体例では、会社ルールを5種類取得したとする。
図6は会社ルールデータベース108に格納されているデータの一例を示す図である。会社ルールデータベース108は、会社名を取得するパターンを有している。具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名として取得する会社ルールを列挙した。
会社名取得部112は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
会社名取得部112は取得したすべての会社ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、会社ルールが5種類、Webページが100種類なので500回会社名の取得を行う。具体的には、会社ルールが「<title>%会社名%株式会社</title>」の場合、取得したWebページに「<title>サンプル商事株式会社</title>」と記載されていれば、「サンプル商事」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
会社名取得部112は、会社名が取得できた場合は、会社名データベースに登録する。今回の場合では、「サンプル商事」を登録する。また、もし会社ルールデータベース108が会社ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル商事株式会社</title>」も一緒に登録しても良い。
以上、本実施の形態によれば、任意のWebページから会社名を取得できる。
図7は、本実施の形態にかかる商品名取得部113の動作の一例を示すフローチャートである。以下、図7を用いて動作について説明する。
(ステップS501)商品名取得部113は、商品ルールデータベース109から商品ルールを取得する。取得できた場合、ステップS502に進み、取得出来ていない場合終了する。
(ステップS502)商品名取得部113は、カウンターmに1を代入する。
(ステップS503)商品名取得部113は、ステップS501で取得した商品ルールにm番目の商品ルールがあるか否かを判断する。ある場合は、ステップS504に進み、ない場合は、終了する。
(ステップS504)商品名取得部113は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、商品ルールデータベース109から商品名を含む文章を取得する商品ルールを用いて、予め取得した商品名が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS505へ進み、取得できなかった場合はステップS510に進む。
(ステップS505)商品名取得部113は、カウンターnに1を代入する。
(ステップS506)商品名取得部113は、ステップS504で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS507に進み、ない場合は、ステップS510に進む。
(ステップS507)商品名取得部113は、ステップS504で取得したWebページのn番目のWebページに対し、ステップS501で取得した商品ルールのm番目の商品ルールを用いて商品名を取得する。取得できた場合は、ステップS508へ進み、取得できなかった場合は、ステップS509に移動する。
(ステップS509)商品名取得部113は、カウンターnをインクリメントする。そして、ステップS506に戻る。
(ステップS510)商品名取得部113は、カウンターmをインクリメントする。そしてステップS503に戻る。
以下、本実施の形態における商品名取得部113の具体的な動作について説明する。なお、この具体例において示した商品名取得部113の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
商品名取得部113が、商品ルールデータベース109から商品名を取得するためのすべてのルールを取得する。もし、商品ルールデータベース109に、商品ルールが抽出する対象に関するデータを保持していた場合、「商品名」が対象の商品ルールだけを取得する。また、もし、商品ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた商品ルールだけを取得しても良い。今回の具体例では、商品ルールを5種類取得したとする。
図8は商品ルールデータベース109に格納されているデータの一例を示す図である。商品ルールデータベース109は、商品名を取得するパターンを有している。具体例として、「%商品名%」と記載されている部分に該当する名詞句を商品名として取得する商品ルールを列挙した。
商品名取得部113は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
商品名取得部113は取得したすべての商品ルールを用いて、取得したすべてのWebページから商品名を取得する。今回の場合では、商品ルールが5種類、Webページが100種類なので500回商品名の取得を行う。具体的には、商品ルールが「<title>商品名一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?>%商品名%</li>)+</ul>」の場合、取得したWebページに「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”tv.html”>テレビ</li><li><a href=”dvd.html”>DVDプレイヤ</li><li><a href=”pc.html”>パソコン</li></ul>・・・(省略)・・・」と記載されていれば、「テレビ」「DVDプレイヤ」「パソコン」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
商品名取得部113は、商品名が取得できた場合は、商品名データベースに登録する。今回の場合では、「テレビ」と「DVDプレイヤ」と「パソコン」を登録する。また、もし商品ルールデータベース109が商品ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>商品名一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”tv.html”>テレビ</li><li><a href=”dvd.html”>DVDプレイヤ</li><li><a href=”pc.html”>パソコン</li></ul>・・・(省略)・・・」も一緒に登録しても良い。
以上、本実施の形態によれば、任意のWebページから商品名を取得できる。
図9は、本実施の形態にかかる固有名称取得部114の動作の一例を示すフローチャートである。以下、図9を用いて動作について説明する。
(ステップS601)固有名称取得部114は、固有名称ルールデータベース110から固有名称ルールを取得する。取得できた場合、ステップS602に進み、取得出来ていない場合終了する。
(ステップS602)固有名称取得部114は、カウンターmに1を代入する。
(ステップS603)固有名称取得部114は、ステップS601で取得した固有名称ルールにm番目の固有名称ルールがあるか否かを判断する。ある場合は、ステップS604に進み、ない場合は、終了する。
(ステップS604)固有名称取得部114は、Webサーバ装置からWebページを取得する。このとき取得する。Webページは、固有名称ルールデータベース110から商品の固有名称を含む文章を取得する固有名称ルールを用いて、予め取得した商品の固有名称が含まれる可能性のあるWebページであっても良いし、無作為に大量に取得しても良い。Webページを取得できた場合は、ステップS605へ進み、取得できなかった場合はステップS610に進む。
(ステップS605)固有名称取得部114は、カウンターnに1を代入する。
(ステップS606)固有名称取得部114は、ステップS604で取得したWebページにn番目のWebページがあるか否かを判断する。ある場合は、ステップS607に進み、ない場合は、ステップS610に進む。
(ステップS607)固有名称取得部114は、ステップS604で取得したWebページのn番目のWebページに対し、ステップS601で取得した固有名称ルールのm番目の固有名称ルールを用いて商品の固有名称を取得する。取得できた場合は、ステップS608へ進み、取得できなかった場合は、ステップS609に移動する。
(ステップS609)固有名称取得部114は、カウンターnをインクリメントする。そして、ステップS606に戻る。
(ステップS610)固有名称取得部114は、カウンターmをインクリメントする。そしてステップS603に戻る。
以下、本実施の形態における固有名称取得部114の具体的な動作について説明する。なお、この具体例において示した固有名称取得部114の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
固有名称取得部114が、固有名称ルールデータベース110から商品の固有名称を取得するためのすべてのルールを取得する。もし、固有名称ルールデータベース110に、固有名称ルールが抽出する対象に関するデータを保持していた場合、「商品の固有名称」が対象の固有名称ルールだけを取得する。また、もし固有名称ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた固有名称ルールだけを取得しても良い。今回の具体例では、固有名称ルールを5種類取得したとする。
図10は固有名称ルールデータベース110に格納されているデータの一例を示す図である。固有名称ルールデータベース110は、商品の固有名称を取得するパターンを有している。具体例として、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する固有名称ルールを列挙した。
固有名称取得部114は、Webページを取得する。今回の具体例では、Webページを無作為に100種類取得したとする。
固有名称取得部114は取得したすべての固有名称ルールを用いて、取得したすべてのWebページから商品の固有名称を取得する。今回の場合では、固有名称ルールが5種類、Webページが100種類なので500回商品の固有名称の取得を行う。具体的には、固有名称ルールが「<title>製品一覧</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%固有名称%</a></li>)+</ul>」の場合、取得したWebページに「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”sc.html”>サンプルカメラ</li><li><a href=”sc2.html”>サンプルカメラ2</li></ul>・・・(省略)・・・」と記載されていれば、「サンプルカメラ」「サンプルカメラ2」を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
固有名称取得部114は、商品の固有名称が取得できた場合は、固有名称データベースに登録する。今回の場合では、「サンプルカメラ」と「サンプルカメラ2」を登録する。なお、固有名称ルールデータベース110が固有名称ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>製品一覧</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”sc.html”>サンプルカメラ</li><li><a href=”sc2.html”>サンプルカメラ2</li></ul>・・・(省略)・・・」も一緒に登録しても良い。
以上、本実施の形態によれば、任意のWebページから商品の固有名称を取得できる。
図11は、本実施の形態にかかる知識獲得部115の動作の一例を示すフローチャートである。以下、図11を用いて動作について説明する。
(ステップS701)知識獲得部115は、知識増殖ルールデータベース111から知識増殖ルールを取得する。取得できた場合、ステップS702に進み、取得出来ていない場合終了する。
(ステップS702)知識獲得部115は、カウンターmに1を代入する。
(ステップS703)知識獲得部115は、ステップS701で取得した知識増殖ルールにm番目の知識増殖ルールがあるか否かを判断する。ある場合は、ステップS704に進み、ない場合は、終了する。
(ステップS704)知識獲得部115は、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールが用いるために使用する情報を各データベースから取得する。知識増殖ルールが用いるために使用する情報とは、具体的には、第一から第三知識増殖ルールの場合は会社データベース101から会社名を取得し、第四から第六知識増殖ルールの場合は商品データベース102から商品名を取得し、第七から第九知識増殖ルールの場合は固有名称データベース103から商品の固有名称を取得し、第十知識増殖ルールの場合は会社データベース101と商品データベース102から会社名と商品名を取得し、第十一知識増殖ルールの場合は会社データベース101と固有名称データベース103から会社名と商品の固有名称を取得し、第十二知識増殖ルールの場合は商品データベース102と固有名称データベース103から商品名と商品の固有名称を取得する。
(ステップS705)知識獲得部115は、カウンターnに1を代入する。
(ステップS706)ステップS704で取得した知識増殖ルールが用いるために使用する情報にn番目の情報があるか否かを判断する。ある場合は、ステップS707へ進み、ない場合はステップS713へ進む。
(ステップS707)知識獲得部115は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS704で取得した知識増殖ルールが用いるために使用する情報のうちn番目の情報を含んだWebページを取得する。Webページを取得できた場合は、ステップS708へ進み、取得できなかった場合はステップS714に進む。
(ステップS708)知識獲得部115は、カウンターoに1を代入する。
(ステップS709)知識獲得部115は、ステップS707で取得したWebページにo番目のWebページがあるか否かを判断する。ある場合は、ステップS710に進み、ない場合は、ステップS714に進む。
(ステップS710)知識獲得部115は、ステップS707で取得したWebページのo番目のWebページに対し、ステップS701で取得した知識増殖ルールのm番目の知識増殖ルールを用いて会社名、または商品名、または商品の固有名称を取得する。取得できた場合は、ステップS711へ進み、取得できなかった場合は、ステップS712に移動する。
(ステップS711)ステップS710で取得した会社名、または商品名、または商品の固有名称を対応するデータベースに蓄積する。
(ステップS712)知識獲得部115は、カウンターoをインクリメントする。そして、ステップS709に戻る。
(ステップS713)知識獲得部115は、カウンターmをインクリメントする。そして、ステップS703に戻る。
(ステップS714)知識獲得部115は、カウンターnをインクリメントする。そして、ステップS706に戻る。
以下、本実施の形態における知識獲得部115の具体的な動作について説明する。なお、この具体例において示した知識獲得部115の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
知識獲得部115は、知識増殖ルールデータベース111から会社名、または商品名、または商品の固有名称を取得するためのすべてのルールを取得する。もし、知識増殖ルールデータベース111に、知識増殖ルールが抽出する対象に関するデータを保持していた場合、「名称」が対象の知識増殖ルールだけを取得する。また、もし知識増殖ルールの取得回数や取得割合等の値を保持していた場合、任意の閾値を超えた知識増殖ルールだけを取得しても良い。今回の具体例では、知識増殖ルールを5種類取得したとする。
図12は知識増殖ルールデータベース111に格納されているデータの一例を示す図である。知識増殖ルールデータベース111は、会社名、または商品名、または商品の固有名称を取得するパターンを有している。具体例として、「%会社名%」と記載されている部分に該当する名詞句を会社名、同様に「%商品名%」と記載されている部分に該当する名詞句を商品名、「%固有名称%」と記載されている部分に該当する名詞句を商品の固有名称として取得する知識増殖ルールを列挙した。なお、今回の具体例では、知識増殖ルールの種類ごとにデータベースを作成するのではなく、知識増殖データベースに知識増殖ルールの種類を保持させた。
知識獲得部115は、取得した知識増殖ルールが用いるための情報を取得する。例えば、第一知識増殖ルールを取得した場合、会社データベース101に記載されている会社名をすべて取得する。なお、もし会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。
知識獲得部115は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。
知識獲得部115は取得したすべての知識増殖ルールを用いて、取得したすべてのWebページから会社名を取得する。今回の場合では、知識増殖ルールが5種類、知識増殖ルールが用いる情報が10種類、Webページが100種類なので5000回会社名、商品名、商品の固有名称のうち、1または2種類の情報の取得を行う。
具体的には、知識増殖ルールが「<title>%会社名%の(取り扱い)?商品</title>.*?<span.*?>一覧</span><ul.*?>(<li.*?><a.*?>%商品名%</a></li>)+</ul>」で第一の知識増殖ルールであり、用いる情報が「サンプル工業」であった場合、取得したWebページに「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”scr.html”>ネジ</a></li><li><a href=”driv.html”>ドライバー</a></li></ul>・・・(省略)・・・」と記載されていれば、「ネジ」「ドライバー」の部分を取得する。しかし、パターンに対応する内容が記載されていなければ何も取得しない。
知識獲得部115は、新たな情報が取得できた場合は、対応する各データベースに登録する。今回の場合では、「ネジ」と「ドライバー」を商品名データベース、「サンプル工業」と「ネジ」、「サンプル工業」と「ドライバー」を会社商品データベース104に登録する。なお、もし知識増殖ルールデータベース111が知識増殖ルールの取得回数や取得割合等の値を保持していた場合、その値と一緒に登録しても良く、取得した情報の周辺である「<title>サンプル工業の商品</title>・・・(省略)・・・<span>一覧</span><ul><li><a href=”scr.html”>ネジ</a></li><li><a href=”driv.html”>ドライバー</a></li></ul>・・・(省略)・・・」も一緒に登録しても良い。
以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得できる。
図13と図14は、本実施の形態にかかるルール学習部116の動作の一例を示すフローチャートである。以下、図13と図14を用いて動作について説明する。
(ステップS801)ルール学習部116は、カウンターmに0を代入する。
(ステップS802)ルール学習部116は、カウンターmをインクリメント。
(ステップS803)ルール学習部116は、カウンターmの値によって処理を分岐する。mの値が1の時はステップS804に進み、mの値が2の時はステップS805に進み、mの値が3の時はステップS806に進み、mの値が4の時はステップS807に進み、mの値が5の時はステップS810に進み、mの値が6の時はステップS813に進み、mの値が7の時はステップS816に進み、mの値が8の場合は終了する。
(ステップS804)ルール学習部116は、変数oに「会社データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。
(ステップS805)ルール学習部116は、変数oに「商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。
(ステップS806)ルール学習部116は、変数oに「固有名称データベース」、変数dに「商品の固有名称」を代入する。そして、ステップS823へ進む。
(ステップS807)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。
(ステップS808)ルール学習部116は、変数oに「会社商品データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。
(ステップS809)ルール学習部116は、変数oに「会社商品データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。
(ステップS810)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。
(ステップS811)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。
(ステップS812)ルール学習部116は、変数oに「会社固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。
(ステップS813)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。
(ステップS814)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。
(ステップS815)ルール学習部116は、変数oに「商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。
(ステップS816)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名」を代入する。そして、ステップS823へ進む。
(ステップS817)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名」を代入する。そして、ステップS823へ進む。
(ステップS818)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「固有名称」を代入する。そして、ステップS823へ進む。
(ステップS819)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名」を代入する。そして、ステップS823へ進む。
(ステップS820)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・固有名称」を代入する。そして、ステップS823へ進む。
(ステップS821)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「商品名・固有名称」を代入する。そして、ステップS823へ進む。
(ステップS822)ルール学習部116は、変数oに「会社商品固有名称データベース」、変数dに「会社名・商品名・固有名称」を代入する。そして、ステップS823へ進む。
(ステップS823)ルール学習部116は、変数oに格納されているデータベースから、変数dに格納されている情報を取得する。例えば、変数oに「会社データベース」変数dに「会社名」が格納されている場合、会社データベース101から会社名をすべて取得する。また、変数dに格納されている情報が「会社名・商品名」など、「・」で区切って二種類の情報が登録されていた場合、「・」の前後で文字列を分割し、前と後ろの両方の情報の組を取得する。「会社名・商品名」の場合は、「会社名」と「商品名」の組を取得する。取得できた場合は、ステップS824へ進み、取得できなかった場合は829に進む。
(ステップS824)ルール学習部116は、カウンターhに1を代入する。
(ステップS825)ルール学習部116は、ステップS823で取得したoから取得したdに関する情報にh番目の情報があるか否かを判断する。ある場合はステップS826に進み、取得出来ていない場合ステップS831に進む。
(ステップS826)ルール学習部116は、Webサーバ装置からWebページを取得する。この時取得するWebページは、ステップS823で取得したoから取得したdに関するh番目の情報を含んだWebページを取得する。Webページを取得できた場合はステップS827へ進み、取得できなかった場合はステップS829へ進む。
(ステップS827)ルール学習部116は、ステップS826で取得したWebページから、ステップS823で取得したoから取得したdに関するh番目の情報の文字列を情報の内容がわかる文字列に置換する。例えば、会社名の部分を「%会社名%」に置換する。
(ステップS828)ルール学習部116は、ステップS827で置換したWebページを、例えば、図示しないメモリなどの記憶媒体に一時記憶する。
(ステップS829)ルール学習部116は、カウンターhをインクリメントする。
(ステップS830)ルール学習部116は、ステップS828で記憶したすべてのWebページからパターンを取得する。パターンを取得できた場合は、ステップS831へ進み、取得できなかった場合はステップS833へ進む
(ステップS831)ルール学習部116は、ステップS830で取得したパターンから5回以上抽出したパターンを選別し取得する。パターンを取得できた場合は、ステップS832へ進み、取得できなかった場合はステップS833へ進む。
(ステップS832)ルール学習部116は、ステップS831で取得したパターンを変数dに対応するルールデータベースに格納する。具体的には、dの値が「会社名」であれば「会社ルールデータベース」、「商品名」であれば「商品ルールデータベース」、「固有名称」であれば「固有名称ルールデータベース」、「会社名・商品名」「会社名・固有名称」「商品名・固有名称」であれば「知識増殖ルールデータベース」に格納する。
(ステップS833)ルール学習部116は、ステップS823へ進む前に実行していた処理の次の処理進む。
以下、本実施の形態におけるルール学習部116の具体的な動作について説明する。なお、この具体例において示したルール学習部116の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
ルール学習部116は、会社データベース101と商品データベース102と固有名称データベース103と会社商品データベース104と会社固有名称データベース105と商品固有名称データベース106と会社商品固有名称データベース107から、会社名、または商品名、または商品の固有名称、またはこれらの組み合わせを可能な限り取得し、取得した情報を取得できるWebページから、データベースから取得した情報を抽出するためのパターンを取得する。
今回は具体例として、会社データベース101から会社名を取得し会社ルールデータベース108に格納するルールを学習する場合について述べる。
まず、会社データベース101から会社名をすべて取得する。なお、もし会社データベース101が会社名の取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名を10種類取得したとする。
ルール学習部116は、Webページを取得する。Webページは、例えば今回の具体例では、取得した会社名一つに対して100種類ずつ取得したとする。
ルール学習部116は、取得したWebページから、取得するために用いた会社名を「%会社名%」に置換する。今回は「%会社名%」であったが、商品名を使用した場合は「%商品名%」、商品の固有名称を使用した場合は「%固有名称%」に置換する。例えば、「サンプル商事」を用いて「<table><tbody><tr><td>社名</td><td>サンプル商事株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」の文章を取得した場合は「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」とする。
ルール学習部116は、取得したWebページからパターンを取得する。取得したWebページから2以上のWebページを取り出し、取得するために用いた「%会社名%」を含む最長共通部分列を取得する。最長共通部分の取得は、取得したWebページから2つを選ぶすべての組み合わせで行う。例えば「<table><tbody><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>資本金</td><td>10,000,000 円</td></tr>」と「<table><tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>設立</td><td>1950年1月1日</td></tr>」の二つの文章を記載されているWebページがあった場合、「%会社名%」を保持した最も長い文字列である「<tr><td>社名</td><td>%会社名%株式会社</td></tr><tr><td>」をパターンとして取得する。今回の場合では、会社名が10種類、Webページが会社名に対して100種類なので49500回パターンの取得を行う。なお、パターンの取得対象はHTMLのタグを含まない文章でも良く、また最長共通部分列以外の方法であっても良く、2つ以上のWebページの組み合わせからパターンを取得しても良い。
ルール学習部116は、取得したパターンからよく使われているパターンのみを知識増殖データベースに登録する。一定以上の頻度、例えば5回以上出現するパターンを知識増殖ルールデータベース111に登録する。
以上、本実施の形態によれば、任意のWebページから会社名、または商品名、または商品の固有名称を取得するパターンを取得できる。
図15は、本実施の形態にかかる会社類似群コード固有名称データベース構築部23の動作の一例を示すフローチャートである。以下、図15を用いて動作について説明する。
(ステップS901)会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から会社名と商品名と商品の固有名称の情報を取得する。取得できた場合はステップS902へ進み、取得できなかった場合は終了する。
(ステップS902)会社類似群コード固有名称データベース構築部23は、カウンターmに1を代入する。
(ステップS903)会社類似群コード固有名称データベース構築部23は、ステップS901で取得した情報にm番目の情報があるか否かを判断する。あった場合はステップS904へ進み、なかった場合は終了する。
(ステップS904)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の商品名をキーにし、商品類似群コード対応データベース21から商品名に対応した類似群コードを取得する。
(ステップS905)会社類似群コード固有名称データベース構築部23は、ステップS901で取得したm番目の情報の会社名と、商品の固有名称と、ステップS904で取得した類似群コードを1レコードとして会社類似群コード固有名称データベース22に登録する。
(ステップS906)会社類似群コード固有名称データベース構築部23は、カウンターmをインクリメントする。
以下、本実施の形態における会社類似群コード固有名称データベース構築部23の具体的な動作について説明する。なお、この具体例において示した会社類似群コード固有名称データベース構築部23の取得結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。
会社類似群コード固有名称データベース構築部23は会社商品固有名称データベース107の商品名をキーにして、類似群コード対応データベースから類似群コードを取得し、会社類似群コード固有名称データベース22を構築する。
まず、会社類似群コード固有名称データベース構築部23は、会社商品固有名称データベース107から、会社名と商品名と商品の固有名称をすべて取得する。なお、もし会社商品固有名称データベース107が取得回数や取得割合等の値を保持している場合は、任意の閾値以下の会社名を取得しないようにしても良い。今回の具体例では、会社名と商品名と商品の固有名称の組を10種類取得したとする。
次に、商品類似群コード対応データベース21から各商品名に対応した類似群コードを取得する。なお、この時取得する類似群コードは、商品名の完全一致だけではなく、例えば「テレビ」と「TV」のような商品名が概念的に一致する類似群コードを取得しても良い。
そして、取得した会社名と類似群コードと商品の固有名称の組を会社類似群コード固有名称データベース22に登録する。
以上、本実施の形態によれば、会社商品固有名称データベース107と類似群コード対応データベースから商品名をキーにして、会社名と類似群コードと商品の固有名称を保持する会社類似群コード固有名称データベース22を構築できる。
図16は、本実施の形態にかかる商標侵害検知装置3の動作の一例を示すフローチャートである。以下、図16を用いて動作について説明する。
(ステップS1001)受付部32は、調査対象商標情報、具体的には商標文字列と商品名、または類似群コードとを受け付けたか否かを判断する。受け付けた場合、ステップS1002に進み、受け付けていない場合、ステップS1001に戻る。
(ステップS1002)商標文字列取得部331は、調査対象商標情報から商標文字列を取得する。取得できた場合は、ステップS1003に進み、取得できなかった場合はステップS1017へ進む。
(ステップS1003)称呼取得部332は、ステップS1002で取得した商標文字列を用いて、1以上の称呼情報を取得する。例えば、商標文字列を形態素解析することや、商標文字列を構成する各文字の読みを、予め用意された文字の読みが格納された辞書などから読み出し、それらの組合せを取得することで、称呼情報を取得する。
(ステップS1004)称呼取得部332は、カウンターmに1を代入する。
(ステップS1005)称呼取得部332は、ステップS1003で取得した称呼情報にm番目の称呼情報があるか否かを判断する。ある場合、ステップS1006に進み、ない場合、ステップS1011に進む。
(ステップS1006)称呼取得部332は、カウンターnに1を代入する。
(ステップS1007)称呼取得部332は、m番目の称呼情報にn番目の区切位置があるか否かを判断する。例えば、称呼情報の全ての文字の間を区切り位置に設定していく場合、n番目の区切り位置とは、例えば、称呼情報の先頭からn番目の文字と(n+1)番目の文字との間である。このため、称呼取得部332は、例えばm番目の称呼情報に、先頭から(n+1)番目の文字があるか否かを判断すればよい。n番目の区切位置がある場合、ステップS1008に進み、ない場合、ステップS1010に進む。なお、称呼情報のうちの、商標文字列を構成する各文字の読みの間や、商標文字列を構成する形態素の読みの間を、区切り位置に設定して称呼情報を分割していくようにしても良い。例えば、商標文字列「ABC」の各文字の読み「エー」と「ビー」と「シー」を組み合わせて称呼情報「エービーシー」が取得された場合、区切り位置に設定できる位置を、「エー」と「ビー」との間、及び「ビー」と「シー」の間としてもよい。
(ステップS1008)称呼取得部332は、n番目の区切位置でm番目の称呼情報を区切って、その前後の文字列である分割称呼情報を取得する。なお、商標の称呼となり得ないような予め指定された文字が先頭に来る文字列は、分割称呼情報として取得しないことが好ましい。予め指定された文字は、例えば長音や、「ン」などである。取得した分割称呼情報は、図示しないメモリなどの記憶媒体に一時記憶する。既に他の分割称呼情報が記憶されている場合は、追記する。
(ステップS1009)称呼取得部332は、カウンターnを1インクリメントする。そして、ステップS1007に戻る。
(ステップS1010)称呼取得部332は、カウンターmを1インクリメントする。そして、ステップS1005に戻る。
(ステップS1011)称呼表示部333は、ステップS1003で取得した称呼情報と、ステップS1008で取得した分割称呼情報を表示する。なお、ユーザに選択させず、特定のルールで呼称指定を選択する場合は、本ステップの表示、およびステップS1012の受付をスキップしても良い。
(ステップS1012)称呼指定受付部334は、称呼指定情報または分割称呼指定情報の少なくとも一方を指定する称呼指定情報を受け付けたか否かを判断する。受け付けた場合、例えば、称呼指定情報で指定された称呼情報と割称呼情報とをメモリなどの記憶媒体に一時記憶して、ステップS212に進み、受け付けていない場合、ステップS1012に戻る。
(ステップS1013)類似検索部335は、カウンターkに1を代入する。
(ステップS1014)類似検索部335は、ステップS1012で受け付けた称呼指定情報によって指定された称呼情報と分割称呼情報とを合わせた中に、k番目の称呼情報または分割称呼情報があるか否かを判断する。ある場合、ステップS1015に進み、ない場合、ステップS1017に進む。
(ステップS1015)k番目の称呼情報または分割称呼情報とを用いて、類似検索を行う。そして、類似検索の結果を、図示しない記憶媒体などに蓄積する。類似検索の結果は、例えば、類似検索に用いられたk番目の称呼情報または分割称呼情報と、類似すると判断された称呼と、その称呼に対応付けられた会社名、および商品の固有名称とを含む情報である。
(ステップS1016)類似検索部335は、カウンターkを1インクリメントする。そして、ステップS1014に戻る。
(ステップS1017)商品類否判断部34は、ステップS1001で取得した調査対象商標情報をもとに使用するデータベース31を選択する。具体的には、調査対象商標情報に類似群コードが含まれていた場合は会社類似群コード固有名称データベース22を選択し、商品名が含まれていた場合は会社商品固有名称データベース107を選択する。選択できた場合は、ステップS1018に進み、選択できなかった場合はステップS1019に進む。
(ステップS1018)商品類否判断部34は、ステップS1017のデータベース31からステップS1001で取得した調査対象商標情報の商品名、または類似群コードをキーにして商品の類否判断を行う。そして、類否判断の結果を、図示しない記憶媒体などに蓄積する。類否判断の結果は、例えば、類否判断に用いられた商品名、または類似群コードと、一致すると判断された商品名、または類似群コードと、その称呼に対応付けられた会社名と商品の固有名称とを含む情報である。
(ステップS1019)ステップS1015で蓄積した類似検索結果と、ステップS1018で蓄積した情報から、商品の固有名称が共通する情報を取得する。
(ステップS1020)出力部35は、ステップS1019で取得した情報を出力する。そして処理を終了する。
以下、本実施の形態における商標侵害検知装置3の具体的な動作について説明する。なお、この具体例において示したデータは、説明のために便宜上用意されたものであって、実際の運用時に使用するものではない。
まず、ユーザが、中華そばの麺についての「針金麺」という侵害の可能性を判断したいと考えて、「針金麺」という商標文字列と、中華そばの麺の類似群コードである「32F03」を、商標侵害検知装置3にキーボードなどを操作して入力したとする。受付部32は、商標文字列「針金麺」を受け付ける。そして、商標文字列取得部331に商標文字列を取得させ、類似群コードを商品類否判断部34に類似群コードを取得させる。
称呼取得部332は、商標文字列取得部331が受け付けた商標文字列「針金麺」の称呼情報を取得する。ここでは、まず、商標文字列に対して形態素解析を行って形態素ごとの読みの情報を取得する。例えば、形態素解析によって「針金麺」は2つの形態素「針金」と「麺」とに分けられ、形態素「針金」からは読みとして「ハリガネ」が、また、形態素「麺」からは読みとして「メン」が取得されたとする。それぞれの形態素には、1つの読みしか取得されないため、「針金麺」の称呼情報の一つとしてこれらの読みを単に結合した「ハリガネメン」を取得する。
さらに、称呼取得部332は、予め用意された漢字の読みが格納された辞書(図示せず)から、商標文字列「針金麺」の各文字の読みを取得する。例えば、「針」からは「ハリ」、「シン」という読みを取得したとする。また「金」からは、「キン」、「コガネ」、「コン」、「カネ」を取得したとする。また、「麺」からは「メン」を取得したとする。そして、取得した文字の読みを、取得元となる文字の並びに沿って組み合わせることで称呼情報を取得する。例えば、「ハリキンメン」、「ハリコガネメン」、「ハリコンメン」、「ハリカネメン」、「シンキンメン」、「シンコガネメン」などの称呼情報が取得される。なお、形態素解析で取得した称呼情報と一致するものは、削除する。
次に、称呼取得部332は、上記で取得した各称呼情報を分割して分割称呼情報を取得する。例えば、称呼情報「ハリガネメン」については、まず、区分位置を1文字目の「ハ」と2文字目の「リ」の間に設定して称呼情報を分割することで、「ハ」という分割称呼情報と、「リガネメン」という分割称呼情報とを取得する。更に、区分位置を2文字目の「リ」と3文字目の「ガ」の間に設定して称呼情報を分割することで、「ハリ」という分割称呼情報と、「ガネメン」という分割称呼情報とを取得する。同様にして、「ハリガ」、「ネメン」、「ハリガネ」、「メン」、「ハリガネメ」を取得する。但し「ン」は、分割称呼情報としては取得しない。同様にして、他の称呼情報についても分割称呼情報を取得する。なお、取得した分割称呼情報において、重複するものは一つを除いて削除する。
そして、称呼表示部333は、取得した称呼情報と分割称呼情報とをモニタなどに出力する。
図17は、称呼表示部333による、称呼情報と分割称呼情報との表示例を示す図である。なお、ここでは、称呼情報も分割称呼情報も、後述する類似検索においては特に区別せずに利用されるため、称呼情報と分割称呼情報とを特に区別せずに称呼として表示している。
次に、ユーザが、図17に示した称呼情報と分割称呼情報とのうちの、類似検索に利用したいと考えるものの横のチェックボックスにチェックを入れて、「指定完了」ボタン31を押したとする。例えば、「ハリガネメン」、「ハリガネ」、「ハリキンメン」の横のチェックボックスに図17に示すようにチェックをいれて「指定完了」ボタン31を押すと、称呼指定受付部334は、チェックの入った称呼情報である「ハリガネメン」および「ハリキンメン」と、チェックの入った分割称呼情報である「ハリガネ」を受け付ける。
次に、類似検索部335は、称呼指定受付部334が受け付けた称呼情報と分割称呼情報とのそれぞれとを用いて、称呼の類似検索を行う。称呼の類似検索については、公知の技術であるので、詳細な具体例は省略する。例えば、類似検索の結果、称呼情報「ハリガネメン」と分割称呼情報「ハリガネ」については、称呼が類似する登録商標が検出されなかったが、称呼情報「ハリキンメン」については、称呼が類似する登録商標が検出されたとする。具体的には、称呼が「ハリキントン」という商品の固有名称が検出されたとする。商標類否判断結果取得部336は、この検出結果を図示しない記憶媒体などに一時記憶する。
そして、商標類否判断結果取得部336は、類似検索の結果を取得する。
さらに次に、商品の類否判断を行う、受付部32から取得した類似群コードを用いて、会社類似群コード固有名称データベース22から情報を取得する。「32F03」の場合、穀物の加工品に関する情報が「針金面」に関係なく取得されるが、全て取得する。
そして、商標類否判断部33の判断結果と商品類否判断部34の判断結果をのうち、商品の固有名称が共通する情報を取得し、会社名と商品の固有名称を出力する。なお、この際に会社データベース101に会社を特定する情報、または会社名の確信度、その他保持している情報があれば出力しても良い。
以上、本実施の形態によれば、ユーザが指定した調査対象商標文字列から、商標の文字列の称呼情報を自動的に取得して、これを用いた類似検索が行えるようにしたので、商標の総合的な侵害状況の判断材料となる情報をユーザに提供することができる。
また、称呼情報を分割した分割称呼情報を取得して、これを用いた類似検索が行えるようにしたので、例えば、ユーザが入力した商標が結合商標である場合には、結合商標を分割した場合の称呼を自動で取得することができ、分割した称呼情報を用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、分割した称呼情報を用いた類似検索をユーザに促すことができる。また、分割称呼情報を取得することで、商標の主要部だけを用いた適切な類似検索が可能となる。また、分割した称呼情報の入力を容易にすることができるとともに、主要部を用いた類似検索をユーザに促すことができる。
(実施の形態2)
本実施の形態は、調査対象商標情報が商品名を保持し、類似群コードを保持していない場合であっても、類似群コードを用いて商品の類比判断ができる事を特徴とする。
図21は、本実施の形態における商標侵害装置4のブロック図である。
商標侵害検知装置4は、データベース401、受付部32、商標類否判断部33、商品類否判断部402、出力部35を備える。受付部32、商標類比判断部33出力部35については、実施の形態1と同様であるため、説明を省略する。
データベース401は、1以上の図示しないWebサーバ装置から取得した情報である、会社名と商品名と商品の固有名称との組を1組以上格納し得る。データベース401は、1以上のWebサーバ装置から取得した情報であれば何でもよく、データベース構築装置1を用いて構築してもよく、無作為、または調査対象商標情報の商品名をキーワードにして検索して収集したWebページから特定のルールを用いて情報を取得して構築してもよい。特定のルールとは、例えば、データベース構築装置1の各ルールデータベースに格納されるルールなどである。
商品類否判断部402は、データベース401が有する1以上の商品名と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行い、データベース401に格納されている調査対象商標情報に類似する会社名と商品名と商品の固有名称を取得する。商品類否判断部402は、商品コード管理手段4021、コード特定情報取得手段4022、商品類否判断手段4023を備える。なお、本実施の形態におけるコード特定情報とは、商品名であってもよく、図示しない記憶部で管理されている類似群コードを参照するための番号等であってもよく、類似群コード表における見出しの商品または役務名(たとえば、01A01であれば「化学品」)であってもよく、類似群コード表における商品・役務名であってもよく、類似群コードそのものであってもよい。
商品コード管理手段4021は、商品名とコード特定情報との対応を管理している。管理する商品名とコード特定情報は、類似群コードの説明文から特定のルールを用いて取得してもよく、図示しないWebサーバ装置から取得したWebページから特定のルールを用いて取得してもよく、人が手作業で入力してもよい。特定のルールとは、例えば「04A01は、例えば、洗い粉やシャンプーなどがあげられる」といった文章から、コード特定情報として「04A01」を、商品名として「洗い粉」と「シャンプー」を取得するようなルールであってもよく、「<table><tr><td>染料</td><td>藍・あかね</td></tr></table>」といったHTMLの構造から、コード特定情報として「染料」を、商品名として「藍」と「あかね」を取得するルールであってもよい。また、商品コード管理手段4021はその対応を再帰的に探索することで類似群コードを取得できるような構成にしてもよい。具体的には、コード特定情報「01A01」と商品名「化学品」、コード特定情報「化学品」と商品名「アンモニア水」という2組の情報があった場合、商品名「アンモニア水」からコード特定情報「01A01」を取得できるように管理しても良い。
コード特定情報取得手段4022は、商品コード管理手段4021が管理する商品に対応するコード特定情報を用いて、データベース401が有する1以上の商品名に対応するコード特定情報を取得する。取得するコード特定情報は、データベース401が有する商品名に対応する任意のコード特定情報であっても良く、再帰的に対応を取得した結果取得した類似群コードであってもよく、類似群コードに到るまで再帰的に対応を取得する過程に取得したすべてのコード特定情報であっても良い。コード特定情報取得手段4022は、通常、MPUやメモリ等から実現され得る。コード特定情報取得手段4022の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
商品類否判断手段4023は、コード特定情報取得手段4022が取得したコード特定情報と、調査対象商標情報が有するコード特定情報とを用いて、商品の類否判断を行う。商品の類比判断は、調査対象商標情報が有するコード特定情報と、コード特定情報取得手段4022が取得したコード特定情報が同一、または含まれているかどうかを判断し、同一、または含まれていた場合、その情報に対応する会社名と商品名と商品の固有名称とを取得する。商品類否判断手段4023は、通常、MPUやメモリ等から実現され得る。商品類否判断手段4023の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
本実施の形態にかかる商標侵害検知装置4の動作は、商標侵害検知装置3における図16のステップS1018の処理のみを変更したものもである。
以下、本実施の形態における商標侵害検知装置4における商品類比判断部402の具体的な動作について説明する。なお、この具体例において示した商品類比判断部402の出力結果は、説明のために便宜上用意されたものであって、実際のデータを示すものではない。ここでは、例として、受付部32が受け付けた調査対象商標情報のコード特定情報を「ビール」とし、データベース401には、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という1組の情報が少なくとも記憶されているものとし、商品コード管理手段4021は、コード特定情報「28A02」と商品名「ビール」、コード特定情報「ビール」と商品名「ラガービール」という2組の情報が少なくとも記憶されているものとする。
コード特定情報取得手段4022は、データベース401から商品名に関する情報を取得する。例えば、「ラガービール」などの情報を取得する。そして、商品コード管理手段4021か管理している情報を用いて、各商品名からコード特定情報を取得する。具体的には、「ラガービール」から「ビール」、「ビール」から「28A02」と類似群コードを取得するまでのコード特定情報をすべて取得し、商品名と対応付けて図示しない記憶部に記憶する。
商品類比判断手段4023は、受付部32が受け付けた調査対象商標情報が有する「ビール」と同一のコード特定情報を保持した情報を、コード特定情報取得手段4022が取得し、図示しない記憶部に記憶した情報から探索し、データベース401に格納されている会社名と商品の固有名称を取得する。具体的には、「ビール」および「28A02」と対応付けられている「ラガービール」を取得し、会社名が「A社」、商品名が「ラガービール」、商品の固有名称が「Bビール」という情報を取得する。
以上、本実施の形態によれば、Webサーバ装置から取得した会社名と商品名と商品の固有名称との組に対して、類似群コードを指定しなくても、類似群コードを考慮した商標の類似検索が行えるようにしたため、商標の侵害状況の判断材料となる情報をユーザに提供することができる。
なお、本実施の形態では、コード特定情報取得手段4022でコード特定情報を取得したが、図示しない処理部を用いて、予めコード特定情報を取得しておき、データベース401に格納しておいても良い。
なお、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、または、複数の装置によって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(会社名取得部112など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
また、上記各実施の形態では、本発明がスタンドアロンである場合について説明したが、本発明は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、または、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリなどの記録媒体に記録されたソフトウェア・プログラムをCPUなどのプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。
なお、上記各実施の形態における本発明を実現するソフトウェアは、以下のようなプログラムである。つまり、コンピュータを、商標の文字列である商標文字列を受け付ける受付部と、商標文字列を検索キーとしてWEB検索を行う検索部と、商標文字列の称呼の情報である1以上の称呼情報を取得する称呼取得部332と、称呼取得部332が取得した各称呼情報を用いて類似検索を行う類似検索部335と、商標文字列のWEB上での使用件数を含む検索部の検索結果と、称呼情報ごとの類似検索の結果とを出力する出力部と、して機能させるためのプログラムである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を取得する取得部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には含まれない。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、または分散処理を行ってもよい。
図17は、上記プログラムを実行して、上記実施の形態による本発明を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現されうる。
図17において、コンピュータシステム1100は、CD−ROM(Compact Disk Read Only Memory)ドライブ1105、FD(Floppy(登録商標) Disk)ドライブ1106を含むコンピュータ1101と、キーボード1102と、マウス1103と、モニタ1104とを備える。
図18は、コンピュータシステム1100の内部構成を示す図である。図18において、コンピュータ1101は、CD−ROMドライブ1105、FDドライブ1106に加えて、MPU(Micro Processing Unit)1111と、ブートアッププログラムなどのプログラムを記憶するためのROM1112と、MPU1111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)1113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク1114と、MPU1111、ROM1112などを相互に接続するバス1115とを備える。なお、コンピュータ1101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム1100に、上記実施の形態による本発明などの機能を実行させるプログラムは、CD−ROM1121、またはFD1122に記憶されて、CD−ROMドライブ1105、またはFDドライブ1106に挿入され、ハードディスク1114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ1101に送信され、ハードディスク1114に記憶されてもよい。プログラムは実行の際にRAM1113にロードされる。なお、プログラムは、CD−ROM1121やFD1122、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ1101に、上記実施の形態による本発明の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラムなどを必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム1100がどのように動作するのかについては周知であり、詳細な説明は省略する。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。