JP2008226204A - Device, method, and program for gathering web information - Google Patents
Device, method, and program for gathering web information Download PDFInfo
- Publication number
- JP2008226204A JP2008226204A JP2007067837A JP2007067837A JP2008226204A JP 2008226204 A JP2008226204 A JP 2008226204A JP 2007067837 A JP2007067837 A JP 2007067837A JP 2007067837 A JP2007067837 A JP 2007067837A JP 2008226204 A JP2008226204 A JP 2008226204A
- Authority
- JP
- Japan
- Prior art keywords
- information
- web
- web information
- meta
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims description 45
- 230000002776 aggregation Effects 0.000 claims description 54
- 238000003860 storage Methods 0.000 claims description 53
- 238000004220 aggregation Methods 0.000 claims description 36
- 238000004458 analytical method Methods 0.000 claims description 33
- 230000004931 aggregating effect Effects 0.000 claims description 29
- 230000004044 response Effects 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000000354 decomposition reaction Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000010354 integration Effects 0.000 abstract 4
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 230000007704 transition Effects 0.000 description 6
- 230000002860 competitive effect Effects 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007726 management method Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 2
- 238000009826 distribution Methods 0.000 description 1
- 238000000556 factor analysis Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000007480 spreading Effects 0.000 description 1
- 238000003892 spreading Methods 0.000 description 1
- 238000012916 structural analysis Methods 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、Web情報収集装置、Web情報収集方法、Web情報収集プログラムに関し、特に業界構造分析を支援するWeb情報収集装置、Web情報収集方法、Web情報収集プログラムに関する。 The present invention relates to a web information collection apparatus, a web information collection method, and a web information collection program, and more particularly to a web information collection apparatus, a web information collection method, and a web information collection program that support industry structure analysis.
企業が新規製品を開発する場合に、競合する他の企業の動向を把握して、企業戦略を立案するための分析(例えば、SWOT分析)を実行することがある。この動向把握には、競合企業の製品(他社製品)が保有する機能のリスト(機能リスト)の収集や、他社製品に関連するデータの傾向変化を時間軸で把握することで、機能開発のトレンドを認識することが必要となる。 When a company develops a new product, an analysis (for example, SWOT analysis) for grasping the trends of other competing companies and drafting a corporate strategy may be executed. This trend can be grasped by collecting function lists (function lists) held by competitors' products (other companies' products) and grasping trends in data related to other companies' products over time. It is necessary to recognize.
また、企業が新規製品を開発する場合には、競合企業の動向だけでなく、自社における部品供給者の部品価格の変化や、販売先となる企業や一般消費者の価格交渉力などを把握することが必要である。 In addition, when a company develops a new product, not only the trends of competitors, but also the changes in the parts prices of parts suppliers in the company, the price negotiation ability of companies and general consumers who sell to them, etc. It is necessary.
近年、インターネットの普及に伴い、企業や個人が情報をWebサイトなどに公開することが増えてきた。Webサイトなどで公開された情報(以下、Web情報と呼ぶ)を収集し、そのWeb情報に基づいたSWOT分析などが行なわれることが多くなってきている。 In recent years, with the spread of the Internet, companies and individuals have increased the number of information disclosed on websites. Increasingly, information published on Web sites (hereinafter referred to as Web information) is collected, and SWOT analysis based on the Web information is performed.
マーケティング戦略や企業戦略立案などに有用な分析を実行するためには、収集したWeb情報を適切に分類・整理しておくことが要求される。Web情報を、人間が内容を見て整理するのは困難であることが多い。情報の属性を示すメタ情報(例えば、RDF(Resource Description Framework)など)が付加されたWeb情報が公開されている場合に、情報処理装置でそのWeb情報を収集し、そのメタ情報を利用して情報の分類・整理を行うことがある。その一例として、企業などのWebサイトの最新情報の要約として、RSS(Rich Site Summary)が急速に浸透しつつある。このような情報の分類・整理に関する技術が知られている(例えば、特許文献1〜9参照。)。
In order to execute a useful analysis for marketing strategy and corporate strategy planning, it is required to appropriately classify and organize collected Web information. It is often difficult for humans to organize Web information by looking at the contents. When Web information to which meta information (for example, RDF (Resource Description Framework)) indicating information attributes is added is published, the information processing apparatus collects the Web information and uses the meta information. Information may be classified and organized. As an example, RSS (Rich Site Summary) is rapidly spreading as a summary of the latest information on websites of companies and the like. Techniques relating to such information classification and organization are known (see, for example,
例えば、特許文献1(特開2004−302694号公報)には、競合企業の情報を予め定義した必要技術情報DBやニーズ情報DBにより情報を取捨選択する技術が開示されている。特許文献2(特開2005−165736号公報)には、製品機能とそのイメージに対応する情報を収集する技術が開示されている。特許文献3(特開2005−222489号公報)には、商品種類同士の競合関係を示すデータを取得する技術が開示されている。特許文献4(特開2003−248737号公報)には、Web情報に付随するメタ情報に関することが記載されている。特許文献5(特開2004−133652号公報)には、経営情報分析、戦略情報の提示を行う経営ソリューションシステムの関する技術が開示されている。特許文献6(特開2004−228780号公報)には、メタメタデータに関することが記載されている。特許文献7(特開2006−134183号公報)には、話題語集約ルールに基づいて、同一の意味に取れるような語句同士を集約する技術が記載されている。特許文献8(特開平07−311616号公報)には、属性特性ルールを設定し、属性を選択する技術が記載されている。特許文献9(特開平08−030626号公報)には、日本語読み検索辞書のひらがな表記揺らぎに関する記載がある。 For example, Patent Document 1 (Japanese Patent Application Laid-Open No. 2004-302694) discloses a technique for selecting information using a necessary technical information DB or a needs information DB in which information on competitors is defined in advance. Japanese Patent Laid-Open No. 2005-165736 discloses a technique for collecting information corresponding to product functions and their images. Patent Document 3 (Japanese Patent Application Laid-Open No. 2005-222489) discloses a technique for acquiring data indicating a competitive relationship between product types. Patent Document 4 (Japanese Patent Application Laid-Open No. 2003-248737) describes meta information associated with Web information. Patent Document 5 (Japanese Patent Application Laid-Open No. 2004-133652) discloses a technology related to a management solution system that analyzes management information and presents strategy information. Patent Document 6 (Japanese Patent Application Laid-Open No. 2004-228780) describes the meta-metadata. Patent Document 7 (Japanese Patent Laid-Open No. 2006-134183) describes a technique for aggregating words that can be taken to have the same meaning based on a topic word aggregation rule. Patent Document 8 (Japanese Patent Application Laid-Open No. 07-31616) describes a technique for setting an attribute characteristic rule and selecting an attribute. Patent Document 9 (Japanese Patent Application Laid-Open No. 08-030626) describes a hiragana notation fluctuation in a Japanese reading search dictionary.
従来技術では、Web情報が関係する情報か否かを判定するために、内容(テキスト)を字句解析や構文解析、また製品固有情報を保持した辞書データとのマッチングを行っている。そのため、Web情報の内容の表現の仕方や揺らぎ、字句の表記誤りなどを正確に解釈することが困難であり、ある対象に直接関係する情報を取得できない場合が生じることがある。 In the prior art, in order to determine whether the Web information is related information, the contents (text) are matched with lexical analysis, syntax analysis, and dictionary data holding product specific information. For this reason, it is difficult to accurately interpret how to express the contents of Web information, fluctuations, typographical errors, and the like, and information directly related to a certain target may not be acquired.
また、Web上の情報にデータ生成時刻が含まれていない場合には、対象のライフサイクルから外れた過去、或いは将来の製品に関係する情報を判別することが困難である。また、対象に関連するサービスなど、業界の背景知識を判別するための規則をWeb上の情報が持っていないとき、その対象に関連する情報を判別することが困難になることがある。これによって、対象のマーケティング・マネジメントの点で、関係のないWeb情報を収集してしまう場合がある。また、関係するWeb情報を収集できない場合が生じる。 In addition, when the data generation time is not included in the information on the Web, it is difficult to determine information related to past or future products that are out of the target life cycle. In addition, when information on the Web does not have rules for determining background knowledge of the industry such as services related to an object, it may be difficult to determine information related to the object. As a result, Web information that is not related in terms of target marketing management may be collected. In addition, there are cases where related Web information cannot be collected.
また、収集したWeb情報の意味検索に必要となる規則を持たない場合には、キーワードによる全文検索以上の検索を行うことが困難となる。それによって、収集したWeb情報から、細分化した情報検索が困難になる場合がある。例えば、ある製品を利用する全ての製品やサービスに関する情報を抽出したり、ある製品のみに関わる研究開発・販売などの情報を抽出したりするなど、業界構造を分析するために細分化した情報検索が困難となることがある。 In addition, when there is no rule necessary for the semantic search of the collected Web information, it is difficult to perform a search more than a full text search using keywords. As a result, it may be difficult to search for fragmented information from the collected Web information. For example, to extract information on all products and services that use a certain product, or to extract information on R & D, sales, etc. related only to a certain product, etc. May be difficult.
以下に、[発明を実施するための最良の形態]で使用される番号を用いて、課題を解決するための手段を説明する。これらの番号は、[特許請求の範囲]の記載と[発明を実施するための最良の形態]との対応関係を明らかにするために付加されたものである。ただし、それらの番号を、[特許請求の範囲]に記載されている発明の技術的範囲の解釈に用いてはならない。 The means for solving the problem will be described below using the numbers used in [Best Mode for Carrying Out the Invention]. These numbers are added to clarify the correspondence between the description of [Claims] and [Best Mode for Carrying Out the Invention]. However, these numbers should not be used to interpret the technical scope of the invention described in [Claims].
上記課題を解決するために、語彙集合リストを保持する語彙集合リスト保管部(4)と、属性特性ルールを保持する属性特性ルール保管部(5)と、Web情報と前記Web情報に付随するメタ情報とを収集する情報収集部(2)と、収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断する情報判定部(3)とを具備するWeb情報集約装置(1)を構成する。ここにおいて、前記情報判定部(3)は、前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合する。また、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合する。そして、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断する。 In order to solve the above problems, a vocabulary set list storage unit (4) that holds a vocabulary set list, an attribute characteristic rule storage unit (5) that holds attribute characteristic rules, Web information, and meta data associated with the Web information An information collecting unit (2) that collects information, and an information determining unit (3) that determines whether the Web information is information related to a target based on the collected meta-information An information aggregating apparatus (1) is configured. Here, the information determination unit (3) collates the attribute of the Web information specified based on the meta information with the vocabulary set list. In addition, when the vocabulary set matching the attribute is included in the vocabulary set list, the attribute and the attribute characteristic rule are collated. When the attribute matches the attribute characteristic rule, it is determined that the Web information corresponding to the meta information is information related to the target.
そのWeb情報集約装置(1)において、さらに、Web情報を公開しているWebサイトからRSSデータを収集するRSS(Rich Site Summary)情報収集部(14)と、前記RSSデータから、個々のWeb情報のメタ情報を抽出するRSS情報解析部(15)とを備える構成であっても良い。この場合において、前記RSS情報収集部(14)は、前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを前記RSS情報解析部(15)に供給する。また、前記RSS情報解析部(15)は、前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部(2)供給する。そして、その分解によって得られた前記Web情報を情報判定部(3)に供給する構成を備えていることが好ましい。ここで、前記情報判定部(3)は、前記RSS情報解析部(15)から供給される前記メタ情報に示される本文へのリンク情報に基づいて、Web情報を収集するWeb情報集約装置(1)であっても良い。 In the Web information aggregating apparatus (1), an RSS (Rich Site Summary) information collecting unit (14) that collects RSS data from a Web site that publishes Web information, and individual Web information from the RSS data. The structure provided with the RSS information analysis part (15) which extracts meta information of this may be sufficient. In this case, the RSS information collection unit (14) accesses the website and supplies the RSS data collected from the website to the RSS information analysis unit (15). The RSS information analysis unit (15) supplies the information collection unit (2) with the meta information obtained by decomposing the RSS data into individual Web information and meta information. And it is preferable to have the structure which supplies the said Web information obtained by the decomposition | disassembly to an information determination part (3). Here, the information determination unit (3) collects Web information based on link information to the text shown in the meta information supplied from the RSS information analysis unit (15). ).
そのWeb情報集約装置(1)において、前記語彙集合リストは、複数の語彙集合を含むものであることが好ましい。また、前記複数の語彙集合のそれぞれは、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であることが好ましい。
さらに、そのWeb情報集約装置(1)において、前記属性特性ルールは、異なる属性間の制約条件を示すものであることが好ましい。
In the Web information aggregation device (1), the vocabulary set list preferably includes a plurality of vocabulary sets. Further, each of the plurality of vocabulary sets is preferably a set of character strings indicating the attributes included in the meta information and having character strings having the same meaning and different notation as one category.
Further, in the Web information aggregating apparatus (1), the attribute characteristic rule preferably indicates a constraint condition between different attributes.
そのWeb情報集約装置(1)において、さらに、情報検索部(7)を備える構成であっても良い。この場合に、前記情報判定部(3)は、前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成することが好ましい。そして、前記情報検索部(7)は、前記Web情報の検索要求に対し、前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給する構成を備えていることが好ましい。 The Web information aggregation device (1) may further include an information search unit (7). In this case, when the information determination unit (3) determines that the Web information is information related to the target, the information determination unit (3) may create link information to the Web information and meta information as meta-meta information. preferable. In response to the Web information search request, the information search unit (7) acquires the Web information based on the link information of the meta-meta information that matches the search request and supplies the Web information to the search request transmission source. It is preferable to have a configuration.
また、上記課題を解決するために、語彙集合リストを保持する語彙集合リスト保管部(4)と属性特性ルールを保持する属性特性ルール保管部(5)とを具備するコンピュータを、Web情報集約装置(1)として機能させるための手順を示すWeb情報集約プログラムを構成する。ここにおいて、そのWeb情報集約プログラムは、
(a)Web情報と前記Web情報に付随するメタ情報とを収集するステップと、
(b)収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップとを具備し、前記(b)ステップが、
前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合し、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合し、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断するステップを含む方法によってコンピュータをWeb情報集約装置(1)として機能させることが好ましい。
In order to solve the above problem, a computer comprising a vocabulary set list storage unit (4) for holding a vocabulary set list and an attribute characteristic rule storage unit (5) for holding attribute characteristic rules is provided as a Web information aggregating apparatus. A Web information aggregation program showing a procedure for functioning as (1) is configured. Here, the Web information aggregation program is
(A) collecting web information and meta information accompanying the web information;
And (b) determining whether the Web information is information related to a target based on the collected meta information, and the step (b) includes:
The attribute of the Web information specified based on the meta-information is compared with the vocabulary set list, and when the vocabulary set matching the attribute is included in the vocabulary set list, the attribute and the attribute characteristic rule are If the attribute matches the attribute characteristic rule, the computer is identified as a Web information aggregating apparatus (1) by a method including determining that the Web information corresponding to the meta information is information related to the object. ).
そのWeb情報集約プログラムにおいて、さらに、
(c)Web情報を公開しているWebサイトからRSS(Rich Site Summary)データを収集するステップと、
(d)前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップとを具備し、前記(c)ステップは、
前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
前記(d)ステップは、
前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部(2)供給するステップと、その分解によって得られた前記Web情報を前記情報判定部(3)に供給するステップを含む方法によってコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであっても良い。
In the Web information aggregation program,
(C) collecting RSS (Rich Site Summary) data from a website that publishes web information;
(D) extracting meta information of individual Web information from the RSS data, and the step (c) includes:
Accessing the website and supplying RSS data collected from the website;
The step (d) includes:
Supplying the information collection unit (2) with the meta information obtained by decomposing the RSS data into individual Web information and meta information, and the Web information obtained by the decomposition as the information determination unit ( It may be a Web information aggregation program that causes a computer to function as the Web information aggregation device (1) by a method including the step of supplying to 3).
そのWeb情報集約プログラムにおいて、前記語彙集合リストは、複数の語彙集合を含み、前記複数の語彙集合のそれぞれは、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であるときにコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであることが好ましい。 In the Web information aggregation program, the vocabulary set list includes a plurality of vocabulary sets, and each of the plurality of vocabulary sets is a character string indicating the attribute included in the meta information, has the same meaning, and has a notation method. It is preferable that the web information aggregation program causes the computer to function as the web information aggregation device (1) when the character strings are aggregates of different character strings as one category.
そのWeb情報集約プログラムにおいて、前記属性特性ルールが、異なる属性間の制約条件を示すときにコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであることが好ましい。 In the Web information aggregation program, the attribute information rule is preferably a Web information aggregation program that causes the computer to function as the Web information aggregation device (1) when the attribute characteristic rule indicates a constraint condition between different attributes.
そのWeb情報集約プログラムにおいて、さらに、
(e)Web情報の検索要求に対し、前記Web情報を取得して検索要求の送信元に供給するステップを具備し、前記(b)ステップは、
前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成するステップを含み、
前記(e)ステップは、
前記Web情報の検索要求に対し、前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給する方法によってコンピュータをWeb情報集約装置(1)として機能させるWeb情報集約プログラムであることが好ましい。
In the Web information aggregation program,
(E) In response to a search request for Web information, the method includes the step of acquiring the Web information and supplying the Web information to a transmission source of the search request.
When it is determined that the Web information is information related to the object, a step of creating link information to the Web information and meta information as meta-meta information,
The step (e) includes:
In response to the search request for the Web information, a Web information aggregating apparatus (1) is obtained by a method of acquiring the Web information based on link information of meta-meta information matching the search request and supplying the Web information to a search request transmission source. It is preferable that the program is a Web information aggregation program that functions as
また、上記課題を解決するために、下記行為の連鎖によって、Web情報を集約する。ここにおいて、そのWeb情報集約方法は、
(a)Web情報と前記Web情報に付随するメタ情報とを収集するステップと、
(b)収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップとを具備し、
前記(b)ステップが、
前記メタ情報に基づいて特定した前記Web情報の属性と、語彙集合リスト保管部(4)から読み出した語彙集合リストとを照合するステップと、
前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と属性特性ルール保管部(5)から読み出した属性特性ルールとを照合するステップと、
前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断するステップ
を含むWeb情報集約方法であることが好ましい。
Moreover, in order to solve the said subject, Web information is gathered by the following chain of actions. Here, the Web information aggregation method is
(A) collecting web information and meta information accompanying the web information;
(B) determining whether the Web information is information related to a target based on the collected meta-information,
The step (b)
Collating the attribute of the Web information specified based on the meta information with the vocabulary set list read from the vocabulary set list storage unit (4);
Collating the attribute with the attribute characteristic rule read from the attribute characteristic rule storage unit (5) when the vocabulary set matching the attribute is included in the vocabulary set list;
Preferably, when the attribute matches the attribute characteristic rule, the Web information aggregation method includes a step of determining that the Web information corresponding to the meta information is information related to the target.
そのWeb情報集約方法において、さらに、
(c)Web情報を公開しているWebサイトからRSS(Rich Site Summary)データを収集するステップと、
(d)前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップとを具備し、前記(c)ステップは、
前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
前記(d)ステップは、
前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部(2)供給するステップと、
その分解によって得られた前記Web情報を前記情報判定部(3)に供給するステップ
を含むWeb情報集約方法であっても良い。
In the Web information aggregation method,
(C) collecting RSS (Rich Site Summary) data from a website that publishes web information;
(D) extracting meta information of individual Web information from the RSS data, and the step (c) includes:
Accessing the website and supplying RSS data collected from the website;
The step (d) includes:
Supplying the information collection unit (2) with the meta information obtained by decomposing the RSS data into individual Web information and meta information;
It may be a Web information aggregation method including a step of supplying the Web information obtained by the decomposition to the information determination unit (3).
そのWeb情報集約方法において、前記語彙集合リストは、複数の語彙集合を含み、前記複数の語彙集合のそれぞれが、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であることが好ましい。
また、そのWeb情報集約方法において、前記属性特性ルールが、異なる属性間の制約条件を示すことが好ましい。
In the Web information aggregation method, the vocabulary set list includes a plurality of vocabulary sets, and each of the plurality of vocabulary sets is a character string indicating the attribute included in meta information, has the same meaning, and has a notation method. It is preferable that it is a set in which character strings having different values are aggregated as one category.
In the Web information aggregation method, it is preferable that the attribute characteristic rule indicates a constraint condition between different attributes.
そのWeb情報集約方法において、さらに、
(e)Web情報の検索要求に対し、前記Web情報を取得して検索要求の送信元に供給するステップを具備していても良い。この場合において、
前記(b)ステップは、
前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成するステップを含み、
前記(e)ステップは、
前記Web情報の検索要求に対し、前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給することが好ましい。
In the Web information aggregation method,
(E) In response to a search request for Web information, a step of acquiring the Web information and supplying it to a transmission source of the search request may be provided. In this case,
The step (b)
When it is determined that the Web information is information related to the object, a step of creating link information to the Web information and meta information as meta-meta information,
The step (e) includes:
In response to a search request for the Web information, it is preferable that the Web information is acquired and supplied to a transmission source of the search request based on link information of meta-meta information that matches the search request.
上述の属性特性ルールは、属性間の制約条件を示し、関数規則、対称規則、推移規則などを定義できるものであることが好ましい。ここで、関数規則は、属性間の関係を一意に決定し、従属属性の存在条件を決定するものであることが好ましい。対称規則は、属性間において前記関数規則が相互に成立する条件を示すものであることが好ましい。推移規則は、三者以上の属性間において、属性A→属性Bかつ属性B→属性Cならば属性A→属性Cが成立する、といった推移条件を示すものであることが好ましい。また、前記メタ情報は、前記Web情報の内容の区分、概要、生成時刻などが含まれるものであることが好ましい。 The above-mentioned attribute characteristic rule preferably indicates a constraint condition between attributes and can define a function rule, a symmetry rule, a transition rule, and the like. Here, it is preferable that the function rule uniquely determines the relationship between attributes and determines the existence condition of the dependent attribute. It is preferable that the symmetry rule indicates a condition in which the function rule is mutually established between attributes. It is preferable that the transition rule indicates a transition condition such that the attribute A → the attribute C is established if the attribute A → the attribute B and the attribute B → the attribute C among the three or more attributes. Moreover, it is preferable that the meta information includes a classification, an outline, a generation time, and the like of the content of the Web information.
Web情報集約装置は、収集したメタ情報の属性および属性値を、語彙集合リストに照合し、合致するか否かを判定する。続いて、前記Web情報集約装置は、属性特性ルールに照合し、合致するか否かを判定する。Web情報集約装置は、前記の全ての判定で合致したメタ情報を当該製品に関連する情報とみなし、メタ情報と、Web情報を保管する。また、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルールをメタメタ情報として保管する。保管されたWeb情報から、任意の意味検索を行うために、このメタメタ情報を検索手段に用いる。 The Web information aggregating apparatus collates the attributes and attribute values of the collected meta information with the vocabulary set list and determines whether or not they match. Subsequently, the Web information aggregating apparatus collates with the attribute characteristic rule and determines whether or not they match. The Web information aggregating apparatus regards meta information matched in all the determinations as information related to the product, and stores the meta information and Web information. Also, the aggregate information matched in the vocabulary set list and the rule matched in the attribute characteristic rule are stored as meta-meta information. In order to perform an arbitrary semantic search from the stored Web information, this meta-meta information is used as a search means.
これらのメタ情報に含まれる属性や属性値(語句)は、表記法が統一されていない場合がある。そのため、語句の意味統合を行ったオントロジー辞書を用いて、語句分類を行ってもよい。 In some cases, the notation of attributes and attribute values (phrases) included in the meta information is not uniform. Therefore, the phrase classification may be performed using an ontology dictionary in which the meanings of the phrases are integrated.
本発明によると、外部環境分析としてある業界構造を分析するときに、HTMLファイルやPDFファイルなど半構造化・非構造化の状態にあるWeb情報を再構造化することにより、必要となるWeb情報を集約し、分類、検索を容易にすることが可能となる。 According to the present invention, when analyzing an industry structure as an external environment analysis, necessary Web information is obtained by restructuring Web information in a semi-structured / unstructured state such as an HTML file or a PDF file. It is possible to aggregate and facilitate classification and search.
[第1実施形態]
以下に、図面を参照して本発明を実施するための形態について説明する。図1は、本発明における、第1実施形態のWeb情報集約装置1の構成を例示するブロック図である。本実施形態のWeb情報集約装置1は、インターネット上に公開されるWeb情報から、ある製品のライフサイクルに関連する情報を取得するために、Web情報の属性(テーマや作成時刻など)を示すメタ情報を利用し、Web情報収集の判断に用いている。図1を参照すると、Web情報集約装置1は、情報収集部2と、情報判定部3と、語彙集合リスト保管部4と、属性特性ルール保管部5と、情報保管部6と、情報検索部7とを含んで構成されている。また、情報保管部6は、Web情報を保持するWeb情報保管部11と、メタ情報を保持するメタ情報保管部12と、メタメタ情報を保持するメタメタ情報保管部13とを含んで構成されている。
[First Embodiment]
Hereinafter, embodiments for carrying out the present invention will be described with reference to the drawings. FIG. 1 is a block diagram illustrating a configuration of a Web
語彙集合リスト保管部4は、複数の語彙集合を有するリスト(語彙集合リスト)を示すデータを保持している。語彙集合リストには、同一の概念に考えられる属性や属性値が、語彙集合として構成されている。属性特性ルール保管部5は、属性特性ルールを示すデータを保持している。属性特性ルールには、「開発〜販売」といった製品ライフサイクルや、「ある製品が他製品や別サービス事業の生産財として使用される」といった間接的に関連する事業との関係性などが属性間の属性特性ルールとして示されている。
The vocabulary set
情報収集部2は、インターネット上に公開されるHTMLファイルやPDFファイルなどのWeb情報と、そのWeb情報に付与されるメタ情報を収集する。情報判定部3は、収集されたメタ情報の属性および属性値を、語彙集合リスト保管部4の語彙集合リストに照合し、合致するか否かを判定する。情報判定部3は、収集されたメタ情報の属性および属性値を属性特性ルール保管部5の属性特性ルールに照合し、合致するか否かを判定する。情報判定部3は、それらの判定で合致した場合、メタ情報を当該製品に関連する情報とみなし、メタ情報と、Web情報を情報保管部6に格納する。また、情報判定部3は、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルール、および保管されたWeb情報とメタ情報へのリンク情報をメタメタ情報として情報保管部6に格納する。
The
情報検索部7は、Web情報の検索要求に対し、検索要求を集約情報と、属性特性ルールに置換する。情報検索部7は、集約情報と属性と属性特性ルールに合致するメタメタ情報の全てを情報保管部6から取得し、それぞれのメタメタ情報のリンク情報から、Web情報を取得し、返却する。
In response to the Web information search request, the
Web情報集約装置1は、それぞれのWeb情報に対して、語彙集合に合致したもの、及び、該当した属性特性ルールを、Web情報を再構造化する情報(メタ情報のメタ)として保持する。Web情報集約装置1は、この再構造化した情報を、収集したWeb情報の分類や検索キーに用いている。
The Web
図2は、上述の語彙集合リスト保管部4に保持される語彙集合リストの構成を例示するテーブル(以下、語彙集合リストテーブル21と呼ぶ)である。図2を参照すると、語彙集合リスト保管部4は、関連性があると考えられる複数の語句を語彙集合としている。語彙集合は、メタ情報に含まれる属性や属性値の意味は同一で、かつ表記法が異なるものを、一つのカテゴリとして集約された集合である。語彙集合リスト保管部4には、語彙集合と、その語彙集合を示す集約語とが関連付けて保持されている。
FIG. 2 is a table illustrating the configuration of the vocabulary set list held in the vocabulary set list storage unit 4 (hereinafter referred to as a vocabulary set list table 21). Referring to FIG. 2, the vocabulary set
図3は、属性特性ルール保管部5に保持される属性特性ルールの構成を例示するテーブル(以下、属性特性ルールテーブル22と呼ぶ)である。図3を参照すると、属性特性ルール保管部5は、複数の制約条件を属性特性ルールとして保持している。本実施形態においては、制約条件として、関数規則、対称規則、推移規則などを定義できる。例えは、関数規則は、属性間の関係を一意に決定し、従属属性の存在条件を決定する。また、対称規則は、属性間において前記関数規則が相互に成立する条件を示す。また、推移規則は、三者以上の属性間において、属性A→属性Bかつ属性B→属性Cならば属性A→属性Cが成立する、といった推移条件を示す。
FIG. 3 is a table illustrating the configuration of attribute characteristic rules held in the attribute characteristic rule storage unit 5 (hereinafter referred to as attribute characteristic rule table 22). Referring to FIG. 3, the attribute characteristic
例えば、Webニュース記事において、ニュースカテゴリの技術開発は、ニュースカテゴリの製品販売に時間的に先立って行われるといった制約を属性特性ルールと定義する。この場合、当該製品に関係する技術開発であっても、製品に関係しないと判定し、情報を取捨選択するためのルールとして使用する。また、部品の供給、受給関係にあるA社、B社のWeb情報において、A社から見た「供給」に関する記事は、B社から見た「受給」と対称であるという制約を属性特性ルールと定義する。この場合に、両者が意味的に同じと判定するためのルールとして使用する。 For example, in a web news article, the technical development of a news category is defined as an attribute characteristic rule that is performed prior to the sales of news category products. In this case, even technology development related to the product is determined as not related to the product, and is used as a rule for selecting information. In addition, in the Web information of Company A and Company B, which are related to parts supply and receipt, the article on “Supply” seen from Company A has a constraint that it is symmetric with “Receiving” seen from Company B. It is defined as In this case, it is used as a rule for determining that both are semantically the same.
図4は、本実施形態におけるメタ情報保管部12に保持されるメタ情報の構成を例示するリストである。また、図5は、本実施形態におけるメタメタ情報保管部13に保持されるメタメタ情報の構成を例示するリストである。
FIG. 4 is a list illustrating the configuration of the meta information held in the meta
以下に、本実施形態の動作について説明を行う。以下では、本願発明の理解を容易にするために、パソコン製品に関連した業界構造分析を行う場合を例に、本実施形態の動作の説明を行う。また、本実施形態の動作においては、上述のような語彙集合リストと属性特性ルールとを定義する。図6は、この場合の語彙集合リストを例示するテーブルである。図7は、この場合の属性特性ルールを例示するテーブルである。 The operation of this embodiment will be described below. In the following, in order to facilitate understanding of the present invention, the operation of this embodiment will be described by taking as an example the case of conducting an industry structural analysis related to a personal computer product. In the operation of the present embodiment, the vocabulary set list and the attribute characteristic rule as described above are defined. FIG. 6 is a table illustrating a vocabulary set list in this case. FIG. 7 is a table illustrating the attribute characteristic rule in this case.
図8は、本実施形態の動作を例示するフローチャートである。ステップS101において、Web情報集約装置1の情報収集部2は、特定の製品に関連すると思われるインターネット上に公開されるWeb情報を収集し、Web情報保管部11に格納する。また、情報収集部2は、そのWeb情報に付随するメタ情報を収集し、情報判定部3に供給する。
FIG. 8 is a flowchart illustrating the operation of this embodiment. In step S <b> 101, the
ステップS102において、情報判定部3は、このとき情報収集部2から供給されたメタ情報を抽出し、その属性および属性値と、語彙集合リスト保管部4の語彙集合リストとを照合して、合致するか否かを判定する。その判定の結果、適合するものがない場合には処理は終了する。その判定の結果、適合する属性および属性値が存在する場合には、処理はステップS103に進む。
In step S102, the
ステップS103において、情報判定部3は、供給されたメタ情報と、属性特性ルール保管部5の属性特性ルールとを照合し、合致するか否かを判定する。その判定の結果、適合するものがない場合には処理は終了する。その判定の結果、適合するものが存在する場合、つまり、属性および属性値が語彙集合リストと属性特性ルールとの両方に合致した場合、処理はステップS104に進む。
In step S103, the
ステップS104において、情報判定部3は、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルール、および保管されたWeb情報とメタ情報へのリンク情報をメタメタ情報として作成する。ステップS105において、情報判定部3は、収集したメタ情報を当該製品に関連する情報とみなし、収集したメタ情報とWeb情報とを情報保管部6に格納する。また、生成したメタメタ情報を情報保管部6のメタメタ情報保管部13に格納する。
In step S104, the
その後、情報検索部7は、Web情報の検索要求に対し、検索要求を集約情報と属性特性ルールに置換する。情報検索部7は、その集約情報と属性と属性特性ルールに合致するメタメタ情報の全てを情報保管部6から取得する。そして、それぞれのメタメタ情報のリンク情報から、Web情報を取得して検索要求の送信元に供給する。このように、本実施形態では、Web情報のメタ情報が、メタメタ情報で再構造化されている。そのため、その再構造化データを用いて、Web情報の抽出が容易にできる。
Thereafter, the
本実施形態のWeb情報集約装置1は、語彙集合リストにより、製品ライフサイクルにおいて、部品供給企業や製品技術など、製品に直接関係するキーワードを、その表記の揺らぎを包括して、抽出できる。また、属性特性ルールにより、製品に間接的に関係するサービスなどを抽出できる。これによって、本実施形態のWeb情報集約装置1では、製品に関連する情報を網羅的に収集することが可能となる。
The Web
換言すると、図9のマイケル・ポーターが提唱し、広く認知されているに5つの競争要因分析や、図10のSWOT分析における機会と脅威、図11の3C分析における競争と市場・顧客など、外部要因の分析に必要な情報を網羅的に抽出できる。 In other words, advocated by Michael Porter in Fig. 9 and widely recognized, there are five competitive factors analysis, opportunities and threats in SWOT analysis in Fig. 10, competition and market / customers in 3C analysis in Fig. 11, etc. Information necessary for analysis of factors can be exhaustively extracted.
また、本実施形態のWeb情報集約装置1は、収集したWeb情報ごとに、集約情報と、適合した属性特性ルールをメタメタ情報として保管している。本実施形態のWeb情報集約装置1は、このメタメタ情報を意味検索ルールとして利用することができる。そのため、本実施形態のWeb情報集約装置1は、収集、保管した情報から、部品供給に関連する企業や技術開発などに関する情報だけを抽出するなどの意味検索を適切に実行することができる。
Further, the Web
例えば、流通チャネルに関する情報検索や、技術トレンドの検索、代替品・サービスの増加傾向の検索などを行えるため、外部環境分析として、図9のマイケル・ポーターが提唱し、広く認知されているに5つの競争要因分析や、図10のSWOT分析における機会と脅威、図11の3C(Customer(顧客)、Competitor(競合)、 Company(自社))分析における競争と市場・顧客などの要因分析がし易くなるためである。 For example, it is possible to search for information on distribution channels, search for technological trends, and search for increasing trends in alternatives / services. As an external environment analysis, Michael Porter in FIG. 10 competitive factor analysis, opportunity and threat in SWOT analysis in Fig. 10, 3C (Customer, Competitor, Company) analysis in Fig. 11 makes it easy to analyze factors such as competition and market / customer Because it becomes.
[第2実施形態]
以下に、本発明の第2実施形態について説明を行う。図12は、第2実施形態のWeb情報集約装置1の構成を例示するブロック図である。第2実施形態のWeb情報集約装置1は、第1実施形態のWeb情報集約装置1の構成に、さらに、RSS情報収集部14とRSS情報解析部15とを含んでいる。RSS情報収集部14は、RSSデータが公開されているWebサイトのURLのリストを保管している。RSSデータは、あるWebサイトで公開される複数のWeb情報の要約として、Webサイト毎に公開されている。RSS情報収集部14は、保管しているURLに示されるWebサイトにアクセスし、そのWebサイトから収集したRSSデータを格納する。RSS情報解析部15は、RSS情報収集部14が保管しているRSSデータから、個々のWeb情報のメタ情報に分解する。
[Second Embodiment]
The second embodiment of the present invention will be described below. FIG. 12 is a block diagram illustrating a configuration of the Web
以下に、第2実施形態の動作について説明を行う。図13は、第2実施形態の動作を例示するフローチャートである。図13を参照すると、ステップS201において、RSS情報収集部14は、保管しているURLに示されるWebサイトにアクセスする。RSS情報収集部14は、特定の製品に関連すると思われるWeb情報を公開しているWebサイトから収集したRSSデータをRSS情報解析部15に供給する。ステップS202において、RSS情報解析部15は、RSS情報収集部14が保管しているRSSデータを受け取り、そのRSSデータを個々のWeb情報とメタ情報とに分解する。
The operation of the second embodiment will be described below. FIG. 13 is a flowchart illustrating the operation of the second embodiment. Referring to FIG. 13, in step S201, the RSS
ステップS203において、情報収集部2は、RSS情報解析部15が、分解処理することによって得られたメタ情報に示される本文へのリンク情報に基づいて、Web情報を収集する。情報収集部2は、収集したWeb情報を情報保管部6に格納する。
In step S203, the
ステップS204において、情報判定部3は、RSSデータをWeb情報のメタ情報として利用し、その属性および属性値と、語彙集合リスト保管部4の語彙集合とを照合し、属性および属性値が語彙集合に合致するか否かの判定を行う。その判定の結果、合致しなかった場合には、処理は終了する。その判定の結果、適合する属性および属性値が存在する場合には、処理はステップS205に進む。
In step S204, the
ステップS205において、情報判定部3は、RSS情報解析部15が解析したメタ情報と、属性特性ルール保管部5の属性特性ルールとを照合する。情報判定部3は、その照合によって、そのメタ情報が属性特性ルールに合致するか否かを判定する。その判定の結果、合致しなかった場合には、処理は終了する。その判定の結果、属性特性ルールに適合するものが存在する場合、つまり、属性および属性値が語彙集合リストと属性特性ルールとの両方に合致した場合、処理はステップS206に進む。
In step S <b> 205, the
ステップS206において、この語彙集合リストで合致した集約情報と、属性特性ルールで合致したルールと、保管されたWeb情報とメタ情報へのリンク情報とを生成する。ステップS207において、メタ情報を当該製品に関連する情報とみなし、メタ情報とWeb情報とを情報保管部6に格納する。また、ステップS206で生成したメタメタ情報を情報保管部6に格納する。
In step S206, the aggregate information matched in the vocabulary set list, the rule matched in the attribute characteristic rule, and the stored Web information and link information to the meta information are generated. In step S207, the meta information is regarded as information related to the product, and the meta information and the Web information are stored in the
第2実施形態では、RSS情報解析部15が、Webサイトの要約情報から、個々のWeb情報のメタ情報を抽出している。そのため、個々のWeb情報毎にメタ情報が公開されていない場合においても、Web情報の構造化をすることが可能となる。なお、上述の複数の実施形態は、その構成・動作に矛盾が生じない範囲において、組み合わせて実施することが可能である。また、本願発明は、上述の実施形態に限定されることなく、インターネット上に公開されるニュース記事や製品情報から、特定の製品に関連する情報を収集する情報収集装置や、情報収集装置をコンピュータに実現するためのプログラムといった用途に適用できる。また、検索装置や、検索装置をコンピュータ上に実現するためのプログラムといった用途にも適用できる。
In the second embodiment, the RSS
1…Web情報集約装置
2…情報収集部
3…情報判定部
4…語彙集合リスト保管部
5…属性特性ルール保管部
6…情報保管部
7…情報検索部
11…Web情報保管部
12…メタ情報保管部
13…メタメタ情報保管部
14…RSS情報収集部
15…RSS情報解析部
21…語彙集合リストテーブル
22…属性特性ルールテーブル
DESCRIPTION OF
Claims (15)
属性特性ルールを保持する属性特性ルール保管部と、
Web情報と前記Web情報に付随するメタ情報とを収集する情報収集部と、
収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断する情報判定部と
を具備し、
前記情報判定部は、
前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合し、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合し、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断する
Web情報集約装置。 A vocabulary set list storage unit for holding a vocabulary set list;
An attribute characteristic rule storage unit for holding attribute characteristic rules;
An information collection unit that collects web information and meta information attached to the web information;
An information determination unit that determines whether the Web information is information related to a target based on the collected meta-information;
The information determination unit
The attribute of the Web information specified based on the meta-information is compared with the vocabulary set list, and when the vocabulary set matching the attribute is included in the vocabulary set list, the attribute and the attribute characteristic rule are A Web information aggregating apparatus that collates and determines that the Web information corresponding to the meta information is information related to the target when the attribute matches the attribute characteristic rule.
Web情報を公開しているWebサイトからRSSデータを収集するRSS(Rich Site Summary)情報取得部と、
前記RSSデータから、個々のWeb情報のメタ情報を抽出するRSS情報解析部と
を備え、
前記RSS情報取得部は、
前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを前記RSS情報解析部に供給し、
前記RSS情報解析部は、
前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部供給し、その分解によって得られた前記Web情報を情報判定部に供給する
Web情報集約装置。 The Web information aggregation device according to claim 1, further comprising:
RSS (Rich Site Summary) information acquisition unit that collects RSS data from a website that publishes web information;
An RSS information analysis unit that extracts meta information of individual Web information from the RSS data;
The RSS information acquisition unit
Access the website, supply RSS data collected from the website to the RSS information analysis unit,
The RSS information analysis unit
Web information aggregating apparatus supplying the information collecting unit to the meta information obtained by decomposing the RSS data into individual Web information and meta information, and supplying the Web information obtained by the decomposition to the information determining unit .
前記語彙集合リストは、複数の語彙集合を含み、
前記複数の語彙集合のそれぞれは、
メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合である
Web情報集約装置。 The Web information aggregation device according to claim 1 or 2,
The vocabulary set list includes a plurality of vocabulary sets;
Each of the plurality of vocabulary sets is
A Web information aggregating apparatus, which is a set of character strings indicating the attributes included in meta-information and having character strings having the same meaning and different notation as one category.
前記属性特性ルールは、異なる属性間の制約条件を示す
Web情報集約装置。 The Web information aggregation device according to claim 3,
The attribute information rule indicates a constraint condition between different attributes.
前記情報判定部は、
前記Web情報が、前記対象に関連する情報であると判断したときに、
前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成し、
前記情報検索部は、
前記Web情報の検索要求に対し、
前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給する
Web情報集約装置。 5. The Web information aggregation device according to claim 4, further comprising an information search unit,
The information determination unit
When it is determined that the Web information is information related to the object,
Create link information to the Web information and meta information as meta meta information,
The information search unit
In response to the Web information search request,
A Web information aggregating apparatus that acquires the Web information based on link information of meta-meta information that matches the search request and supplies the Web information to a transmission source of the search request.
(a)Web情報と前記Web情報に付随するメタ情報とを収集するステップと、
(b)収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップと
を具備し、
前記(b)ステップが、
前記メタ情報に基づいて特定した前記Web情報の属性と前記語彙集合リストとを照合し、前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と前記属性特性ルールとを照合し、前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断するステップ
を含む方法によってコンピュータをWeb情報集約装置として機能させる
Web情報集約プログラム。 A Web information aggregation program showing a procedure for causing a computer having a vocabulary set list storage unit for storing a vocabulary set list and an attribute characteristic rule storage unit for storing attribute characteristic rules to function as a Web information aggregation device,
(A) collecting web information and meta information accompanying the web information;
(B) determining whether the Web information is information related to a target based on the collected meta-information;
The step (b)
The attribute of the Web information specified based on the meta-information is compared with the vocabulary set list, and when the vocabulary set matching the attribute is included in the vocabulary set list, the attribute and the attribute characteristic rule are If the attribute matches the attribute characteristic rule, the computer functions as a Web information aggregating apparatus by a method including the step of determining that the Web information corresponding to the meta information is information related to the target Web information aggregation program.
(c)Web情報を公開しているWebサイトからRSS(Rich Site Summary)データを収集するステップと、
(d)前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップと
を具備し、
前記(c)ステップは、
前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
前記(d)ステップは、
前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部供給するステップと、
その分解によって得られた前記Web情報を前記情報判定部に供給するステップ
を含む
方法によってコンピュータをWeb情報集約装置として機能させる
Web情報集約プログラム。 The Web information aggregation program according to claim 6, further comprising:
(C) collecting RSS (Rich Site Summary) data from a website that publishes web information;
(D) extracting meta information of individual Web information from the RSS data, and
The step (c) includes:
Accessing the website and supplying RSS data collected from the website;
The step (d) includes:
Supplying the information collection unit with the meta information obtained by decomposing the RSS data into individual Web information and meta information;
A Web information aggregating program for causing a computer to function as a Web information aggregating apparatus by a method including a step of supplying the Web information obtained by the decomposition to the information determination unit.
前記語彙集合リストは、複数の語彙集合を含み、
前記複数の語彙集合のそれぞれは、
メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合であるときに、
コンピュータをWeb情報集約装置として機能させる
Web情報集約プログラム。 The Web information aggregation program according to claim 6 or 7,
The vocabulary set list includes a plurality of vocabulary sets;
Each of the plurality of vocabulary sets is
In the character string indicating the attribute included in the meta information, when the character string having the same meaning and different notation is aggregated as one category,
A Web information aggregation program that causes a computer to function as a Web information aggregation device.
前記属性特性ルールは、異なる属性間の制約条件を示すときに
コンピュータをWeb情報集約装置として機能させる
Web情報集約プログラム。 The Web information aggregation program according to claim 8,
The attribute characteristic rule is a Web information aggregation program that causes a computer to function as a Web information aggregation device when a constraint condition between different attributes is indicated.
(e)Web情報の検索要求に対し、前記Web情報を取得して検索要求の送信元に供給するステップ
を具備し、
前記(b)ステップは、
前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成するステップを含み、
前記(e)ステップは、
前記Web情報の検索要求に対し、
前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給する
方法によってコンピュータをWeb情報集約装置として機能させる
Web情報集約プログラム。 The Web information aggregation program according to claim 9, further comprising:
(E) in response to a search request for Web information, comprising acquiring the Web information and supplying the Web information to a transmission source of the search request;
The step (b)
When it is determined that the Web information is information related to the object, a step of creating link information to the Web information and meta information as meta-meta information,
The step (e) includes:
In response to the Web information search request,
A Web information aggregating program for causing a computer to function as a Web information aggregating apparatus by a method of acquiring the Web information and supplying the Web information to a transmission source of the search request based on link information of meta-meta information matching the search request.
(b)収集された前記メタ情報に基づいて前記Web情報が対象に関連する情報であるか否かを判断するステップと
を具備し、
前記(b)ステップが、
前記メタ情報に基づいて特定した前記Web情報の属性と、語彙集合リスト保管部から読み出した語彙集合リストとを照合するステップと、
前記語彙集合リストに前記属性に合致する語彙集合が含まれるときに、前記属性と属性特性ルール保管部から読み出した属性特性ルールとを照合するステップと、
前記属性が前記属性特性ルールに合致する場合、前記メタ情報に対応する前記Web情報が、前記対象に関連する情報であると判断するステップ
を含むWeb情報集約方法。 (A) collecting web information and meta information accompanying the web information;
(B) determining whether the Web information is information related to a target based on the collected meta-information;
The step (b)
Collating the attribute of the Web information specified based on the meta information with the vocabulary set list read from the vocabulary set list storage unit;
When the vocabulary set matching the attribute is included in the vocabulary set list, the attribute and the attribute characteristic rule read from the attribute characteristic rule storage unit, and
A Web information aggregation method including a step of determining that the Web information corresponding to the meta information is information related to the target when the attribute matches the attribute characteristic rule.
(c)Web情報を公開しているWebサイトからRSS(Rich Site Summary)データを収集するステップと、
(d)前記RSSデータから、個々のWeb情報のメタ情報を抽出するステップと
を具備し、
前記(c)ステップは、
前記Webサイトにアクセスして、前記Webサイトから収集したRSSデータを供給するステップを含み、
前記(d)ステップは、
前記RSSデータを個々のWeb情報とメタ情報とに分解して得られた前記メタ情報を前記情報収集部供給するステップと、
その分解によって得られた前記Web情報を前記情報判定部に供給するステップ
を含む
Web情報集約方法。 The Web information aggregation method according to claim 11, further comprising:
(C) collecting RSS (Rich Site Summary) data from a website that publishes web information;
(D) extracting meta information of individual Web information from the RSS data, and
The step (c) includes:
Accessing the website and supplying RSS data collected from the website;
The step (d) includes:
Supplying the information collection unit with the meta information obtained by decomposing the RSS data into individual Web information and meta information;
A Web information aggregation method comprising the step of supplying the Web information obtained by the decomposition to the information determination unit.
前記語彙集合リストは、複数の語彙集合を含み、
前記複数の語彙集合のそれぞれが、メタ情報に含まれる前記属性を示す文字列で、意味が同一、かつ、表記法が異なる文字列を一つのカテゴリとして集約した集合である
Web情報集約方法。 The Web information aggregation method according to claim 11 or 12,
The vocabulary set list includes a plurality of vocabulary sets;
Each of the plurality of vocabulary sets is a set of character strings indicating the attributes included in the meta information, and a set of character strings having the same meaning and different notation as one category. Web information aggregation method.
前記属性特性ルールが、異なる属性間の制約条件を示す
Web情報集約方法。 The web information aggregation method according to claim 13,
A Web information aggregation method in which the attribute characteristic rule indicates a constraint condition between different attributes.
(e)Web情報の検索要求に対し、前記Web情報を取得して検索要求の送信元に供給するステップ
を具備し、
前記(b)ステップは、
前記Web情報が、前記対象に関連する情報であると判断したときに、前記Web情報とメタ情報へのリンク情報をメタメタ情報として作成するステップを含み、
前記(e)ステップは、
前記Web情報の検索要求に対し、
前記検索要求に合致するメタメタ情報のリンク情報に基づいて、前記Web情報を取得して検索要求の送信元に供給する
Web情報集約方法。 The Web information aggregation method according to claim 9, further comprising:
(E) in response to a search request for Web information, comprising acquiring the Web information and supplying the Web information to a transmission source of the search request;
The step (b)
When it is determined that the Web information is information related to the object, a step of creating link information to the Web information and meta information as meta-meta information,
The step (e) includes:
In response to the Web information search request,
A Web information aggregation method that acquires the Web information based on link information of meta-meta information that matches the search request and supplies the Web information to a transmission source of the search request.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007067837A JP5125161B2 (en) | 2007-03-16 | 2007-03-16 | Web information collecting apparatus, web information collecting method, and web information collecting program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007067837A JP5125161B2 (en) | 2007-03-16 | 2007-03-16 | Web information collecting apparatus, web information collecting method, and web information collecting program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008226204A true JP2008226204A (en) | 2008-09-25 |
JP5125161B2 JP5125161B2 (en) | 2013-01-23 |
Family
ID=39844679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007067837A Expired - Fee Related JP5125161B2 (en) | 2007-03-16 | 2007-03-16 | Web information collecting apparatus, web information collecting method, and web information collecting program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5125161B2 (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010086457A (en) * | 2008-10-02 | 2010-04-15 | Brother Ind Ltd | Communication apparatus |
JP2010118972A (en) * | 2008-11-14 | 2010-05-27 | Brother Ind Ltd | Communication equipment and control program |
JP2013513140A (en) * | 2009-12-07 | 2013-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Contextual support for publish-subscribe systems |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006236381A (en) * | 2006-05-01 | 2006-09-07 | Sony Corp | Information processor, information processing method and recording medium |
JP2006268201A (en) * | 2005-03-23 | 2006-10-05 | Fujitsu Ltd | Program for managing article or topic |
-
2007
- 2007-03-16 JP JP2007067837A patent/JP5125161B2/en not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006268201A (en) * | 2005-03-23 | 2006-10-05 | Fujitsu Ltd | Program for managing article or topic |
JP2006236381A (en) * | 2006-05-01 | 2006-09-07 | Sony Corp | Information processor, information processing method and recording medium |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2010086457A (en) * | 2008-10-02 | 2010-04-15 | Brother Ind Ltd | Communication apparatus |
JP4725627B2 (en) * | 2008-10-02 | 2011-07-13 | ブラザー工業株式会社 | Communication device |
US9317618B2 (en) | 2008-10-02 | 2016-04-19 | Brother Kogyo Kabushiki Kaisha | Communication device and method of displaying content titles |
JP2010118972A (en) * | 2008-11-14 | 2010-05-27 | Brother Ind Ltd | Communication equipment and control program |
JP4702434B2 (en) * | 2008-11-14 | 2011-06-15 | ブラザー工業株式会社 | Communication apparatus and control program |
US9092126B2 (en) | 2008-11-14 | 2015-07-28 | Brother Kogyo Kabushiki Kaisha | Communication apparatus with display section and computer-readable media |
JP2013513140A (en) * | 2009-12-07 | 2013-04-18 | インターナショナル・ビジネス・マシーンズ・コーポレーション | Contextual support for publish-subscribe systems |
US9020959B2 (en) | 2009-12-07 | 2015-04-28 | International Business Machines Corporation | Contextual support for publish-subscribe systems |
Also Published As
Publication number | Publication date |
---|---|
JP5125161B2 (en) | 2013-01-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8983963B2 (en) | Techniques for comparing and clustering documents | |
Hariri et al. | Supporting domain analysis through mining and recommending features from online product listings | |
Segev et al. | Context-based matching and ranking of web services for composition | |
Pound et al. | Ad-hoc object retrieval in the web of data | |
Ding et al. | Entity discovery and assignment for opinion mining applications | |
Ding | Topic‐based PageRank on author cocitation networks | |
US20140180934A1 (en) | Systems and Methods for Using Non-Textual Information In Analyzing Patent Matters | |
WO2009096523A1 (en) | Information analysis device, search system, information analysis method, and information analysis program | |
Jeong et al. | On the functional quality of service (FQoS) to discover and compose interoperable web services | |
KR20100075454A (en) | Identification of semantic relationships within reported speech | |
US20150081654A1 (en) | Techniques for Entity-Level Technology Recommendation | |
Navarro Bullock et al. | Accessing information with tags: search and ranking | |
Wong et al. | A multi-phase correlation search framework for mining non-taxonomic relations from unstructured text | |
Djuana Tjhwa et al. | Constructing tag ontology from folksonomy based on WordNet | |
JP5125161B2 (en) | Web information collecting apparatus, web information collecting method, and web information collecting program | |
Shahid et al. | Extension of Direct Citation Model Using In-Text Citations. | |
AbuJarour et al. | Collecting, annotating, and classifying public web services | |
Butt et al. | RecOn: Ontology recommendation for structureless queries | |
Modoni et al. | The knowledge reuse in an industrial scenario: A case study | |
US20220156228A1 (en) | Data Tagging And Synchronisation System | |
US20080033953A1 (en) | Method to search transactional web pages | |
Bank | AIM-A Social Media Monitoring System for Quality Engineering | |
Chrapary et al. | Design, concepts, and state of the art of the swMATH service | |
Bank et al. | Social networks as data source for recommendation systems | |
US20140236940A1 (en) | System and method for organizing search results |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091027 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20111121 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20111130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120130 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120725 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120912 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121002 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121015 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151109 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |