JP5125161B2 - Web情報収集装置、Web情報収集方法、Web情報収集プログラム - Google Patents

Web情報収集装置、Web情報収集方法、Web情報収集プログラム Download PDF

Info

Publication number
JP5125161B2
JP5125161B2 JP2007067837A JP2007067837A JP5125161B2 JP 5125161 B2 JP5125161 B2 JP 5125161B2 JP 2007067837 A JP2007067837 A JP 2007067837A JP 2007067837 A JP2007067837 A JP 2007067837A JP 5125161 B2 JP5125161 B2 JP 5125161B2
Authority
JP
Japan
Prior art keywords
information
web
web information
meta
attribute
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007067837A
Other languages
English (en)
Other versions
JP2008226204A (ja
Inventor
繁 細野
繁明 松元
貴稔 北野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2007067837A priority Critical patent/JP5125161B2/ja
Publication of JP2008226204A publication Critical patent/JP2008226204A/ja
Application granted granted Critical
Publication of JP5125161B2 publication Critical patent/JP5125161B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、Web情報収集装置、Web情報収集方法、Web情報収集プログラムに関し、特に業界構造分析を支援するWeb情報収集装置、Web情報収集方法、Web情報収集プログラムに関する。
企業が新規製品を開発する場合に、競合する他の企業の動向を把握して、企業戦略を立案するための分析(例えば、SWOT分析)を実行することがある。この動向把握には、競合企業の製品(他社製品)が保有する機能のリスト(機能リスト)の収集や、他社製品に関連するデータの傾向変化を時間軸で把握することで、機能開発のトレンドを認識することが必要となる。
また、企業が新規製品を開発する場合には、競合企業の動向だけでなく、自社における部品供給者の部品価格の変化や、販売先となる企業や一般消費者の価格交渉力などを把握することが必要である。
近年、インターネットの普及に伴い、企業や個人が情報をWebサイトなどに公開することが増えてきた。Webサイトなどで公開された情報(以下、Web情報と呼ぶ)を収集し、そのWeb情報に基づいたSWOT分析などが行なわれることが多くなってきている。
マーケティング戦略や企業戦略立案などに有用な分析を実行するためには、収集したWeb情報を適切に分類・整理しておくことが要求される。Web情報を、人間が内容を見て整理するのは困難であることが多い。情報の属性を示すメタ情報(例えば、RDF(Resource Description Framework)など)が付加されたWeb情報が公開されている場合に、情報処理装置でそのWeb情報を収集し、そのメタ情報を利用して情報の分類・整理を行うことがある。その一例として、企業などのWebサイトの最新情報の要約として、RSS(Rich Site Summary)が急速に浸透しつつある。このような情報の分類・整理に関する技術が知られている(例えば、特許文献1〜9参照。)。
例えば、特許文献1(特開2004−302694号公報)には、競合企業の情報を予め定義した必要技術情報DBやニーズ情報DBにより情報を取捨選択する技術が開示されている。特許文献2(特開2005−165736号公報)には、製品機能とそのイメージに対応する情報を収集する技術が開示されている。特許文献3(特開2005−222489号公報)には、商品種類同士の競合関係を示すデータを取得する技術が開示されている。特許文献4(特開2003−248737号公報)には、Web情報に付随するメタ情報に関することが記載されている。特許文献5(特開2004−133652号公報)には、経営情報分析、戦略情報の提示を行う経営ソリューションシステムの関する技術が開示されている。特許文献6(特開2004−228780号公報)には、メタメタデータに関することが記載されている。特許文献7(特開2006−134183号公報)には、話題語集約ルールに基づいて、同一の意味に取れるような語句同士を集約する技術が記載されている。特許文献8(特開平07−311616号公報)には、属性特性ルールを設定し、属性を選択する技術が記載されている。特許文献9(特開平08−030626号公報)には、日本語読み検索辞書のひらがな表記揺らぎに関する記載がある。
特開2004−302694号公報 特開2005−165736号公報 特開2005−222489号公報 特開2003−248737号公報 特開2004−133652号公報 特開2004−228780号公報 特開2006−134183号公報 特開平07−311616号公報 特開平08−030626号公報
従来技術では、Web情報が関係する情報か否かを判定するために、内容(テキスト)を字句解析や構文解析、また製品固有情報を保持した辞書データとのマッチングを行っている。そのため、Web情報の内容の表現の仕方や揺らぎ、字句の表記誤りなどを正確に解釈することが困難であり、ある対象に直接関係する情報を取得できない場合が生じることがある。
また、Web上の情報にデータ生成時刻が含まれていない場合には、対象のライフサイクルから外れた過去、或いは将来の製品に関係する情報を判別することが困難である。また、対象に関連するサービスなど、業界の背景知識を判別するための規則をWeb上の情報が持っていないとき、その対象に関連する情報を判別することが困難になることがある。これによって、対象のマーケティング・マネジメントの点で、関係のないWeb情報を収集してしまう場合がある。また、関係するWeb情報を収集できない場合が生じる。
また、収集したWeb情報の意味検索に必要となる規則を持たない場合には、キーワードによる全文検索以上の検索を行うことが困難となる。それによって、収集したWeb情報から、細分化した情報検索が困難になる場合がある。例えば、ある製品を利用する全ての製品やサービスに関する情報を抽出したり、ある製品のみに関わる研究開発・販売などの情報を抽出したりするなど、業界構造を分析するために細分化した情報検索が困難となることがある。
以下に、[発明を実施するための最良の形態]で使用される番号を用いて、課題を解決するための手段を説明する。これらの番号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]との対応関係を明らかにするために付加されたものである。ただし、それらの番号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。
上記課題を解決するために、語彙集合リストを保持する語彙集合リスト保管部(4)と、属性特性ルールを保持する属性特性ルール保管部(5)と、Web情報と前記Web情報に付随するメタ情報とを収集する情報収集部(2)と、収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断する情報判定部(3)とを具備するWeb情報集約装置(1)を構成する。ここにおいて、前記情報判定部(3)は、前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合する。また、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合する。そして、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断する。
そのWeb情報集約装置(1)において、さらに、Web情報を公開しているWebサイトからRSSデータを収集するRSS(Rich Site Summary)情報収集部(14)と、前記RSSデータから、個々のWeb情報のメタ情報を抽出するRSS情報解析部(15)とを備える構成であっても良い。この場合において、前記RSS情報収集部(14)は、前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを前記RSS情報解析部(15)に供給する。また、前記RSS情報解析部(15)は、前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部(2)供給する。そして、その分解によって得られた前記Web情報を情報判定部(3)に供給する構成を備えていることが好ましい。ここで、前記情報判定部(3)は、前記RSS情報解析部(15)から供給される前記メタ情報に示される本文へのリンク情報に基づいて、Web情報を収集するWeb情報集約装置(1)であっても良い。
そのWeb情報集約装置(1)において、前記語彙集合リストは、複数の語彙集合を含むものであることが好ましい。また、前記複数の語彙集合のそれぞれは、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であることが好ましい。
さらに、そのWeb情報集約装置(1)において、前記属性特性ルールは、異なる属性間の制約条件を示すものであることが好ましい。
そのWeb情報集約装置(1)において、さらに、情報検索部(7)を備える構成であっても良い。この場合に、前記情報判定部(3)は、前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成することが好ましい。そして、前記情報検索部(7)は、前記Web情報の検索要求に対し、前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給する構成を備えていることが好ましい。
また、上記課題を解決するために、語彙集合リストを保持する語彙集合リスト保管部(4)と属性特性ルールを保持する属性特性ルール保管部(5)とを具備するコンピュータを、Web情報集約装置(1)として機能させるための手順を示すWeb情報集約プログラムを構成する。ここにおいて、そのWeb情報集約プログラムは、
(a)Web情報と前記Web情報に付随するメタ情報とを収集するステップと、
(b)収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップとを具備し、前記(b)ステップが、
前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合し、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合し、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断するステップを含む方法によってコンピュータをWeb情報集約装置(1)として機能させることが好ましい。
そのWeb情報集約プログラムにおいて、さらに、
(c)Web情報を公開しているWebサイトからRSS(Rich Site Summary)データを収集するステップと、
(d)前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップとを具備し、前記(c)ステップは、
前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
前記(d)ステップは、
前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部(2)供給するステップと、その分解によって得られた前記Web情報を前記情報判定部(3)に供給するステップを含む方法によってコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであっても良い。
そのWeb情報集約プログラムにおいて、前記語彙集合リストは、複数の語彙集合を含み、前記複数の語彙集合のそれぞれは、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であるときにコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであることが好ましい。
そのWeb情報集約プログラムにおいて、前記属性特性ルールが、異なる属性間の制約条件を示すときにコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであることが好ましい。
そのWeb情報集約プログラムにおいて、さらに、
(e)Web情報の検索要求に対し、前記Web情報を取得して検索要求の送信元に供給するステップを具備し、前記(b)ステップは、
前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成するステップを含み、
前記(e)ステップは、
前記Web情報の検索要求に対し、前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給する方法によってコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであることが好ましい。
また、上記課題を解決するために、下記行為の連鎖によって、Web情報を集約する。ここにおいて、そのWeb情報集約方法は、
(a)Web情報と前記Web情報に付随するメタ情報とを収集するステップと、
(b)収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップとを具備し、
前記(b)ステップが、
前記メタ情報に基づいて特定した前記Web情報の属性と、語彙集合リスト保管部(4)から読み出した語彙集合リストとを照合するステップと、
前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と属性特性ルール保管部(5)から読み出した属性特性ルールとを照合するステップと、
前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断するステップ
を含むWeb情報集約方法であることが好ましい。
そのWeb情報集約方法において、さらに、
(c)Web情報を公開しているWebサイトからRSS(Rich Site Summary)データを収集するステップと、
(d)前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップとを具備し、前記(c)ステップは、
前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
前記(d)ステップは、
前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部(2)供給するステップと、
その分解によって得られた前記Web情報を前記情報判定部(3)に供給するステップ
を含むWeb情報集約方法であっても良い。
そのWeb情報集約方法において、前記語彙集合リストは、複数の語彙集合を含み、前記複数の語彙集合のそれぞれが、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であることが好ましい。
また、そのWeb情報集約方法において、前記属性特性ルールが、異なる属性間の制約条件を示すことが好ましい。
そのWeb情報集約方法において、さらに、
(e)Web情報の検索要求に対し、前記Web情報を取得して検索要求の送信元に供給するステップを具備していても良い。この場合において、
前記(b)ステップは、
前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成するステップを含み、
前記(e)ステップは、
前記Web情報の検索要求に対し、前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給することが好ましい。
上述の属性特性ルールは、属性間の制約条件を示し、関数規則、対称規則、推移規則などを定義できるものであることが好ましい。ここで、関数規則は、属性間の関係を一意に決定し、従属属性の存在条件を決定するものであることが好ましい。対称規則は、属性間において前記関数規則が相互に成立する条件を示すものであることが好ましい。推移規則は、三者以上の属性間において、属性A→属性Bかつ属性B→属性Cならば属性A→属性Cが成立する、といった推移条件を示すものであることが好ましい。また、前記メタ情報は、前記Web情報の内容の区分、概要、生成時刻などが含まれるものであることが好ましい。
Web情報集約装置は、収集したメタ情報の属性および属性値を、語彙集合リストに照合し、合致するか否かを判定する。続いて、前記Web情報集約装置は、属性特性ルールに照合し、合致するか否かを判定する。Web情報集約装置は、前記の全ての判定で合致したメタ情報を当該製品に関連する情報とみなし、メタ情報と、Web情報を保管する。また、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルールをメタメタ情報として保管する。保管されたWeb情報から、任意の意味検索を行うために、このメタメタ情報を検索手段に用いる。
これらのメタ情報に含まれる属性や属性値(語句)は、表記法が統一されていない場合がある。そのため、語句の意味統合を行ったオントロジー辞書を用いて、語句分類を行ってもよい。
本発明によると、外部環境分析としてある業界構造を分析するときに、HTMLファイルやPDFファイルなど半構造化・非構造化の状態にあるWeb情報を再構造化することにより、必要となるWeb情報を集約し、分類、検索を容易にすることが可能となる。
[第1実施形態]
以下に、図面を参照して本発明を実施するための形態について説明する。図1は、本発明における、第1実施形態のWeb情報集約装置1の構成を例示するブロック図である。本実施形態のWeb情報集約装置1は、インターネット上に公開されるWeb情報から、ある製品のライフサイクルに関連する情報を取得するために、Web情報の属性(テーマや作成時刻など)を示すメタ情報を利用し、Web情報収集の判断に用いている。図1を参照すると、Web情報集約装置1は、情報収集部2と、情報判定部3と、語彙集合リスト保管部4と、属性特性ルール保管部5と、情報保管部6と、情報検索部7とを含んで構成されている。また、情報保管部6は、Web情報を保持するWeb情報保管部11と、メタ情報を保持するメタ情報保管部12と、メタメタ情報を保持するメタメタ情報保管部13とを含んで構成されている。
語彙集合リスト保管部4は、複数の語彙集合を有するリスト(語彙集合リスト)を示すデータを保持している。語彙集合リストには、同一の概念に考えられる属性や属性値が、語彙集合として構成されている。属性特性ルール保管部5は、属性特性ルールを示すデータを保持している。属性特性ルールには、「開発〜販売」といった製品ライフサイクルや、「ある製品が他製品や別サービス事業の生産財として使用される」といった間接的に関連する事業との関係性などが属性間の属性特性ルールとして示されている。
情報収集部2は、インターネット上に公開されるHTMLファイルやPDFファイルなどのWeb情報と、そのWeb情報に付与されるメタ情報を収集する。情報判定部3は、収集されたメタ情報の属性および属性値を、語彙集合リスト保管部4の語彙集合リストに照合し、合致するか否かを判定する。情報判定部3は、収集されたメタ情報の属性および属性値を属性特性ルール保管部5の属性特性ルールに照合し、合致するか否かを判定する。情報判定部3は、それらの判定で合致した場合、メタ情報を当該製品に関連する情報とみなし、メタ情報と、Web情報を情報保管部6に格納する。また、情報判定部3は、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルール、および保管されたWeb情報とメタ情報へのリンク情報をメタメタ情報として情報保管部6に格納する。
情報検索部7は、Web情報の検索要求に対し、検索要求を集約情報と、属性特性ルールに置換する。情報検索部7は、集約情報と属性と属性特性ルールに合致するメタメタ情報の全てを情報保管部6から取得し、それぞれのメタメタ情報のリンク情報から、Web情報を取得し、返却する。
Web情報集約装置1は、それぞれのWeb情報に対して、語彙集合に合致したもの、及び、該当した属性特性ルールを、Web情報を再構造化する情報(メタ情報のメタ)として保持する。Web情報集約装置1は、この再構造化した情報を、収集したWeb情報の分類や検索キーに用いている。
図2は、上述の語彙集合リスト保管部4に保持される語彙集合リストの構成を例示するテーブル(以下、語彙集合リストテーブル21と呼ぶ)である。図2を参照すると、語彙集合リスト保管部4は、関連性があると考えられる複数の語句を語彙集合としている。語彙集合は、メタ情報に含まれる属性や属性値の意味は同一で、かつ表記法が異なるものを、一つのカテゴリとして集約された集合である。語彙集合リスト保管部4には、語彙集合と、その語彙集合を示す集約語とが関連付けて保持されている。
図3は、属性特性ルール保管部5に保持される属性特性ルールの構成を例示するテーブル(以下、属性特性ルールテーブル22と呼ぶ)である。図3を参照すると、属性特性ルール保管部5は、複数の制約条件を属性特性ルールとして保持している。本実施形態においては、制約条件として、関数規則、対称規則、推移規則などを定義できる。例えは、関数規則は、属性間の関係を一意に決定し、従属属性の存在条件を決定する。また、対称規則は、属性間において前記関数規則が相互に成立する条件を示す。また、推移規則は、三者以上の属性間において、属性A→属性Bかつ属性B→属性Cならば属性A→属性Cが成立する、といった推移条件を示す。
例えば、Webニュース記事において、ニュースカテゴリの技術開発は、ニュースカテゴリの製品販売に時間的に先立って行われるといった制約を属性特性ルールと定義する。この場合、当該製品に関係する技術開発であっても、製品に関係しないと判定し、情報を取捨選択するためのルールとして使用する。また、部品の供給、受給関係にあるA社、B社のWeb情報において、A社から見た「供給」に関する記事は、B社から見た「受給」と対称であるという制約を属性特性ルールと定義する。この場合に、両者が意味的に同じと判定するためのルールとして使用する。
図4は、本実施形態におけるメタ情報保管部12に保持されるメタ情報の構成を例示するリストである。また、図5は、本実施形態におけるメタメタ情報保管部13に保持されるメタメタ情報の構成を例示するリストである。
以下に、本実施形態の動作について説明を行う。以下では、本願発明の理解を容易にするために、パソコン製品に関連した業界構造分析を行う場合を例に、本実施形態の動作の説明を行う。また、本実施形態の動作においては、上述のような語彙集合リストと属性特性ルールとを定義する。図6は、この場合の語彙集合リストを例示するテーブルである。図7は、この場合の属性特性ルールを例示するテーブルである。
図8は、本実施形態の動作を例示するフローチャートである。ステップS101において、Web情報集約装置1の情報収集部2は、特定の製品に関連すると思われるインターネット上に公開されるWeb情報を収集し、Web情報保管部11に格納する。また、情報収集部2は、そのWeb情報に付随するメタ情報を収集し、情報判定部3に供給する。
ステップS102において、情報判定部3は、このとき情報収集部2から供給されたメタ情報を抽出し、その属性および属性値と、語彙集合リスト保管部4の語彙集合リストとを照合して、合致するか否かを判定する。その判定の結果、適合するものがない場合には処理は終了する。その判定の結果、適合する属性および属性値が存在する場合には、処理はステップS103に進む。
ステップS103において、情報判定部3は、供給されたメタ情報と、属性特性ルール保管部5の属性特性ルールとを照合し、合致するか否かを判定する。その判定の結果、適合するものがない場合には処理は終了する。その判定の結果、適合するものが存在する場合、つまり、属性および属性値が語彙集合リストと属性特性ルールとの両方に合致した場合、処理はステップS104に進む。
ステップS104において、情報判定部3は、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルール、および保管されたWeb情報とメタ情報へのリンク情報をメタメタ情報として作成する。ステップS105において、情報判定部3は、収集したメタ情報を当該製品に関連する情報とみなし、収集したメタ情報とWeb情報とを情報保管部6に格納する。また、生成したメタメタ情報を情報保管部6のメタメタ情報保管部13に格納する。
その後、情報検索部7は、Web情報の検索要求に対し、検索要求を集約情報と属性特性ルールに置換する。情報検索部7は、その集約情報と属性と属性特性ルールに合致するメタメタ情報の全てを情報保管部6から取得する。そして、それぞれのメタメタ情報のリンク情報から、Web情報を取得して検索要求の送信元に供給する。このように、本実施形態では、Web情報のメタ情報が、メタメタ情報で再構造化されている。そのため、その再構造化データを用いて、Web情報の抽出が容易にできる。
本実施形態のWeb情報集約装置1は、語彙集合リストにより、製品ライフサイクルにおいて、部品供給企業や製品技術など、製品に直接関係するキーワードを、その表記の揺らぎを包括して、抽出できる。また、属性特性ルールにより、製品に間接的に関係するサービスなどを抽出できる。これによって、本実施形態のWeb情報集約装置1では、製品に関連する情報を網羅的に収集することが可能となる。
換言すると、図9のマイケル・ポーターが提唱し、広く認知されているに5つの競争要因分析や、図10のSWOT分析における機会と脅威、図11の3C分析における競争と市場・顧客など、外部要因の分析に必要な情報を網羅的に抽出できる。
また、本実施形態のWeb情報集約装置1は、収集したWeb情報ごとに、集約情報と、適合した属性特性ルールをメタメタ情報として保管している。本実施形態のWeb情報集約装置1は、このメタメタ情報を意味検索ルールとして利用することができる。そのため、本実施形態のWeb情報集約装置1は、収集、保管した情報から、部品供給に関連する企業や技術開発などに関する情報だけを抽出するなどの意味検索を適切に実行することができる。
例えば、流通チャネルに関する情報検索や、技術トレンドの検索、代替品・サービスの増加傾向の検索などを行えるため、外部環境分析として、図9のマイケル・ポーターが提唱し、広く認知されているに5つの競争要因分析や、図10のSWOT分析における機会と脅威、図11の3C(Customer(顧客)、Competitor(競合)、 Company(自社))分析における競争と市場・顧客などの要因分析がし易くなるためである。
[第2実施形態]
以下に、本発明の第2実施形態について説明を行う。図12は、第2実施形態のWeb情報集約装置1の構成を例示するブロック図である。第2実施形態のWeb情報集約装置1は、第1実施形態のWeb情報集約装置1の構成に、さらに、RSS情報収集部14とRSS情報解析部15とを含んでいる。RSS情報収集部14は、RSSデータが公開されているWebサイトのURLのリストを保管している。RSSデータは、あるWebサイトで公開される複数のWeb情報の要約として、Webサイト毎に公開されている。RSS情報収集部14は、保管しているURLに示されるWebサイトにアクセスし、そのWebサイトから収集したRSSデータを格納する。RSS情報解析部15は、RSS情報収集部14が保管しているRSSデータから、個々のWeb情報のメタ情報に分解する。
以下に、第2実施形態の動作について説明を行う。図13は、第2実施形態の動作を例示するフローチャートである。図13を参照すると、ステップS201において、RSS情報収集部14は、保管しているURLに示されるWebサイトにアクセスする。RSS情報収集部14は、特定の製品に関連すると思われるWeb情報を公開しているWebサイトから収集したRSSデータをRSS情報解析部15に供給する。ステップS202において、RSS情報解析部15は、RSS情報収集部14が保管しているRSSデータを受け取り、そのRSSデータを個々のWeb情報とメタ情報とに分解する。
ステップS203において、情報収集部2は、RSS情報解析部15が、分解処理することによって得られたメタ情報に示される本文へのリンク情報に基づいて、Web情報を収集する。情報収集部2は、収集したWeb情報を情報保管部6に格納する。
ステップS204において、情報判定部3は、RSSデータをWeb情報のメタ情報として利用し、その属性および属性値と、語彙集合リスト保管部4の語彙集合とを照合し、属性および属性値が語彙集合に合致するか否かの判定を行う。その判定の結果、合致しなかった場合には、処理は終了する。その判定の結果、適合する属性および属性値が存在する場合には、処理はステップS205に進む。
ステップS205において、情報判定部3は、RSS情報解析部15が解析したメタ情報と、属性特性ルール保管部5の属性特性ルールとを照合する。情報判定部3は、その照合によって、そのメタ情報が属性特性ルールに合致するか否かを判定する。その判定の結果、合致しなかった場合には、処理は終了する。その判定の結果、属性特性ルールに適合するものが存在する場合、つまり、属性および属性値が語彙集合リストと属性特性ルールとの両方に合致した場合、処理はステップS206に進む。
ステップS206において、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルールと、保管されたWeb情報とメタ情報へのリンク情報とを生成する。ステップS207において、メタ情報を当該製品に関連する情報とみなし、メタ情報とWeb情報とを情報保管部6に格納する。また、ステップS206で生成したメタメタ情報を情報保管部6に格納する。
第2実施形態では、RSS情報解析部15が、Webサイトの要約情報から、個々のWeb情報のメタ情報を抽出している。そのため、個々のWeb情報毎にメタ情報が公開されていない場合においても、Web情報の構造化をすることが可能となる。なお、上述の複数の実施形態は、その構成・動作に矛盾が生じない範囲において、組み合わせて実施することが可能である。また、本願発明は、上述の実施形態に限定されることなく、インターネット上に公開されるニュース記事や製品情報から、特定の製品に関連する情報を収集する情報収集装置や、情報収集装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、検索装置や、検索装置をコンピュータ上に実現するためのプログラムといった用途にも適用できる。
図1は、第1実施形態のWeb情報集約装置1の構成を例示するブロック図である。 図2は、語彙集合リストの構成を例示するテーブルである。 図3は、属性特性ルールの構成を例示するテーブルである。 図4は、第1実施形態におけるメタ情報保管部12に保持されるメタ情報の構成を例示するリストである。 図5は、第1実施形態におけるメタメタ情報保管部13に保持されるメタメタ情報の構成を例示するリストである。 図6は、語彙集合リストの具体的な構成を例示するテーブルである。 図7は、属性特性ルールの具体的な構成を例示するテーブルである。 図8は、第1実施形態の動作を例示するフローチャートである。 図9は、5つの競争要因分析を示すブロック図である。 図10は、SWOT分析における機会と脅威を示す図である。 図11の3C分析(Customer(顧客)、Competitor(競合)、 Company(自社))における構造を示す図である。 図12は、第2実施形態のWeb情報集約装置1の構成を例示するブロック図である。 図13は、第2実施形態の動作を例示するフローチャートである。
符号の説明
1…Web情報集約装置
2…情報収集部
3…情報判定部
4…語彙集合リスト保管部
5…属性特性ルール保管部
6…情報保管部
7…情報検索部
11…Web情報保管部
12…メタ情報保管部
13…メタメタ情報保管部
14…RSS情報収集部
15…RSS情報解析部
21…語彙集合リストテーブル
22…属性特性ルールテーブル

Claims (15)

  1. 語彙集合リストを保持する語彙集合リスト保管部と、
    属性特性ルールを保持する属性特性ルール保管部と、
    Web情報と前記Web情報に付随するメタ情報とを収集する情報収集部と、
    収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断する情報判定部と
    を具備し、
    前記情報判定部は、
    前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合し、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合し、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断し、前記語彙集合リストと合致した属性と属性値、前記属性特性ルール、前記Web情報へのリンク情報および前記メタ情報へのリンク情報を含む再構造化情報を作成する
    Web情報集約装置。
  2. 請求項1に記載のWeb情報集約装置において、さらに、
    Web情報を公開しているWebサイトからRSSデータを収集するRSS(Rich Site Summary)情報取得部と、
    前記RSSデータから、個々のWeb情報のメタ情報を抽出するRSS情報解析部と
    を備え、
    前記RSS情報取得部は、
    前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを前記RSS情報解析部に供給し、
    前記RSS情報解析部は、
    前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部供給し、その分解によって得られた前記Web情報を情報判定部に供給する
    Web情報集約装置。
  3. 請求項1または2に記載のWeb情報集約装置において、
    前記語彙集合リストは、複数の語彙集合を含み、
    前記複数の語彙集合のそれぞれは、
    メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合である
    Web情報集約装置。
  4. 請求項1乃至3のいずれかに記載のWeb情報集約装置において、
    前記属性特性ルールは、異なる属性間の制約条件を示す
    Web情報集約装置。
  5. 請求項1乃至4のいずれかに記載のWeb情報集約装置において、
    前記Web情報の検索要求に対し、前記検索要求に合致する前記再構造化情報に含まれるリンク情報に基づいて、前記Web情報を取得して前記検索要求の送信元に供給する情報検索部をさらに備える
    Web情報集約装置。
  6. 語彙集合リストを保持する語彙集合リスト保管部と属性特性ルールを保持する属性特性ルール保管部とを具備するコンピュータをWeb情報集約装置として機能させるための手順を示すWeb情報集約プログラムであって、
    (a)Web情報と前記Web情報に付随するメタ情報とを収集するステップと、
    (b)収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップと
    を具備し、
    前記(b)ステップが、
    前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合し、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合し、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断し、前記語彙集合リストと合致した属性と属性値、前記属性特性ルール、前記Web情報へのリンク情報およびメタ情報へのリンク情報を含む再構造化情報を作成するステップ
    を含む方法によってコンピュータをWeb情報集約装置として機能させる
    Web情報集約プログラム。
  7. 請求項6に記載のWeb情報集約プログラムにおいて、さらに、
    (c)Web情報を公開しているWebサイトからRSS(Rich Site Summary)データを収集するステップと、
    (d)前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップと
    を具備し、
    前記(c)ステップは、
    前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
    前記(d)ステップは、
    前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部供給するステップと、
    その分解によって得られた前記Web情報を前記情報判定部に供給するステップ
    を含む
    方法によってコンピュータをWeb情報集約装置として機能させる
    Web情報集約プログラム。
  8. 請求項6または7に記載のWeb情報集約プログラムにおいて、
    前記語彙集合リストは、複数の語彙集合を含み、
    前記複数の語彙集合のそれぞれは、
    メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であるときに、
    コンピュータをWeb情報集約装置として機能させる
    Web情報集約プログラム。
  9. 請求項6乃至8のいずれかに記載のWeb情報集約プログラムにおいて、
    前記属性特性ルールは、異なる属性間の制約条件を示すときに
    コンピュータをWeb情報集約装置として機能させる
    Web情報集約プログラム。
  10. 請求項6乃至9のいずれかに記載のWeb情報集約プログラムにおいて、さらに、
    (e)Web情報の検索要求に対し、前記検索要求に合致する前記再構造化情報に含まれるリンク情報に基づいて、前記Web情報を取得して前記検索要求の送信元に供給するステップ
    を具備する方法によってコンピュータをWeb情報集約装置として機能させる
    Web情報集約プログラム。
  11. 情報収集部と情報判定部とを備えるWeb情報集約装置でWeb情報を集約するWeb情報集約方法において、
    (a)前記情報収集部が、Web情報と前記Web情報に付随するメタ情報とを収集するステップと、
    (b)前記情報判定部が、収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップと
    を具備し、
    前記(b)ステップが、
    前記メタ情報に基づいて特定した前記Web情報の属性と、語彙集合リスト保管部から読み出した語彙集合リストとを照合するステップと、
    前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と属性特性ルール保管部から読み出した属性特性ルールとを照合するステップと、
    前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断し、前記語彙集合リストと合致した属性と属性値、前記属性特性ルール、前記Web情報へのリンク情報およびメタ情報へのリンク情報を含む再構造化情報を作成するステップ
    を含むWeb情報集約方法。
  12. 請求項11に記載のWeb情報集約方法において、前記Web情報集約装置が、RSS(Rich Site Summary)情報取得部とRSS情報解析部をさらに備え、
    (c)前記RSS情報取得部が、Web情報を公開しているWebサイトからRSSデータを収集するステップと、
    (d)前記RSS情報解析部が、前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップと
    を具備し、
    前記(c)ステップは、
    前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
    前記(d)ステップは、
    前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部供給するステップと、
    その分解によって得られた前記Web情報を前記情報判定部に供給するステップ
    を含む
    Web情報集約方法。
  13. 請求項11または12に記載のWeb情報集約方法において、
    前記語彙集合リストは、複数の語彙集合を含み、
    前記複数の語彙集合のそれぞれが、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合である
    Web情報集約方法。
  14. 請求項11乃至13のいずれかに記載のWeb情報集約方法において、
    前記属性特性ルールが、異なる属性間の制約条件を示す
    Web情報集約方法。
  15. 請求項11乃至14のいずれかに記載のWeb情報集約方法において、さらに、
    (e)前記Web情報集約装置が、Web情報の検索要求に対し、前記検索要求に合致する前記再構造化情報に含まれるリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給するステップ
    を具備する
    Web情報集約方法。
JP2007067837A 2007-03-16 2007-03-16 Web情報収集装置、Web情報収集方法、Web情報収集プログラム Expired - Fee Related JP5125161B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007067837A JP5125161B2 (ja) 2007-03-16 2007-03-16 Web情報収集装置、Web情報収集方法、Web情報収集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007067837A JP5125161B2 (ja) 2007-03-16 2007-03-16 Web情報収集装置、Web情報収集方法、Web情報収集プログラム

Publications (2)

Publication Number Publication Date
JP2008226204A JP2008226204A (ja) 2008-09-25
JP5125161B2 true JP5125161B2 (ja) 2013-01-23

Family

ID=39844679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007067837A Expired - Fee Related JP5125161B2 (ja) 2007-03-16 2007-03-16 Web情報収集装置、Web情報収集方法、Web情報収集プログラム

Country Status (1)

Country Link
JP (1) JP5125161B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4725627B2 (ja) * 2008-10-02 2011-07-13 ブラザー工業株式会社 通信装置
JP4702434B2 (ja) 2008-11-14 2011-06-15 ブラザー工業株式会社 通信装置および制御プログラム
US9020959B2 (en) * 2009-12-07 2015-04-28 International Business Machines Corporation Contextual support for publish-subscribe systems

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4721740B2 (ja) * 2005-03-23 2011-07-13 富士通株式会社 記事又は話題を管理するためのプログラム
JP2006236381A (ja) * 2006-05-01 2006-09-07 Sony Corp 情報処理装置、情報処理方法および記録媒体

Also Published As

Publication number Publication date
JP2008226204A (ja) 2008-09-25

Similar Documents

Publication Publication Date Title
Genc-Nayebi et al. A systematic literature review: Opinion mining studies from mobile app store user reviews
Dijkman et al. Similarity of business process models: Metrics and evaluation
US8983963B2 (en) Techniques for comparing and clustering documents
US8117207B2 (en) System and methods for evaluating feature opinions for products, services, and entities
Segev et al. Context-based matching and ranking of web services for composition
WO2009096523A1 (ja) 情報分析装置、検索システム、情報分析方法及び情報分析用プログラム
US20140180934A1 (en) Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters
Trappey et al. An R&D knowledge management method for patent document summarization
Jeong et al. On the functional quality of service (FQoS) to discover and compose interoperable web services
Wong et al. A multi-phase correlation search framework for mining non-taxonomic relations from unstructured text
Navarro Bullock et al. Accessing information with tags: search and ranking
US20180189380A1 (en) Job search engine
Rodriguez-Prieto et al. Discovering related scientific literature beyond semantic similarity: a new co-citation approach
JP5125161B2 (ja) Web情報収集装置、Web情報収集方法、Web情報収集プログラム
Djuana Tjhwa et al. Constructing tag ontology from folksonomy based on WordNet
AbuJarour et al. Collecting, annotating, and classifying public web services
Shahid et al. Extension of Direct Citation Model Using In-Text Citations.
Modoni et al. The knowledge reuse in an industrial scenario: A case study
US12093222B2 (en) Data tagging and synchronisation system
Bank et al. Social networks as data source for recommendation systems
US20080033953A1 (en) Method to search transactional web pages
US20140236940A1 (en) System and method for organizing search results
Xabier Saralegi Kimatu, a tool for cleaning non-content text parts from HTML docs
Yale-Loehr et al. Discovering shared services from cross-organizational software specifications
Rai et al. Multi-domain Opinion Mining: authenticity of Data Using Sentiment Mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091027

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111121

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20111130

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120130

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120725

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120912

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121002

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121015

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees