JP2007193697A - Information collection apparatus, information collection method and program - Google Patents

Information collection apparatus, information collection method and program Download PDF

Info

Publication number
JP2007193697A
JP2007193697A JP2006013035A JP2006013035A JP2007193697A JP 2007193697 A JP2007193697 A JP 2007193697A JP 2006013035 A JP2006013035 A JP 2006013035A JP 2006013035 A JP2006013035 A JP 2006013035A JP 2007193697 A JP2007193697 A JP 2007193697A
Authority
JP
Japan
Prior art keywords
metadata
information
field
unit
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006013035A
Other languages
Japanese (ja)
Inventor
Kohaku Morita
幸伯 森田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2006013035A priority Critical patent/JP2007193697A/en
Publication of JP2007193697A publication Critical patent/JP2007193697A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

<P>PROBLEM TO BE SOLVED: To facilitate a reliable search through posted information by avoiding the generation of unintended search results due to homonyms and the like. <P>SOLUTION: A metadata assignment support device 230 is connected to a communication network 200, and comprises a word extraction part 304 for extracting words by natural language analysis from a document included in posted information, a vocabulary system holding part 306 for holding an ontology-based vocabulary system 354, a candidate output part 308 for outputting a keyword and candidates for attribute values of the keyword out of the words extracted by the word extraction part according to relations defined in the vocabulary system, a metadata generation part 310 for generating metadata 360 pairing the keyword, attributes, and words selected by a user from the candidates, and a metadata holding part 312 for holding the generated metadata. <P>COPYRIGHT: (C)2007,JPO&INPIT

Description

本発明は,掲示情報にメタデータを付与する情報収集装置,情報収集方法およびプログラムに関し,更に詳述すると,異義語あるいは同義語があったとしても,関連する特定の内容を検出でき,かつ,同じ分野の検索ユーザと情報を共有することが可能な情報収集装置,情報収集方法およびプログラムに関する。   The present invention relates to an information collection device, an information collection method, and a program for adding metadata to posted information. More specifically, even if there is a synonym or synonym, it is possible to detect related specific contents, and The present invention relates to an information collection apparatus, an information collection method, and a program capable of sharing information with search users in the same field.

コンピュータの通信網(通信ネットワーク)に代表されるインターネットでは,WWW(World Wide Web)システムを通じて,各コンピュータが,公開することを前提として生成された掲示情報(WebPage)を,その掲示情報に対応したブラウザを用いて閲覧することが可能である。   In the Internet typified by a computer communication network (communication network), the posting information (WebPage) generated on the assumption that each computer publishes through the WWW (World Wide Web) system corresponds to the posting information. It is possible to browse using a browser.

上記WWW上で所望する情報の検索を行う場合,全ての掲示情報の中から,ユーザに入力された特定のキーワードが含まれる掲示情報を抽出する全文検索技術が用いられる。ここでは掲示情報に含まれるキーワードの索引が予め作成されており,この索引を参照することによって大量の掲示情報を高速に検索することが可能となる。   When searching for desired information on the WWW, a full-text search technique is used that extracts posted information including a specific keyword input by the user from all posted information. Here, an index of keywords included in the posted information is created in advance, and a large amount of posted information can be searched at high speed by referring to the index.

しかし,様々な人が多様な視点で生成する掲示情報は,使用される用語に統一性がなく,同じ事が異なる用語(同義語)で表されたり,異なる事が同じ用語(異義語)で表されたり,「コンピューター」と「コンピュータ」といった長音の有無,片仮名平仮名英字を変えて(異表記)表したりして生成されることが多い。このような表記の違いによって,所望する掲示情報を適切に検索できない場合や,意図に反した掲示情報が抽出される場合が生じている。   However, in the posting information generated by various people from various viewpoints, the terms used are not uniform, and the same thing is expressed in different terms (synonyms) or different things are expressed in the same terms (synonyms). It is often generated by expressing or changing the presence or absence of long sounds such as “computer” and “computer”, or changing katakana hiragana / alphabet letters (notation). Due to such a difference in notation, there are cases where desired posting information cannot be properly searched or posting information that is not intended is extracted.

このような誤検索を避けるため,文献検索等の閉じたシステムにおいては,統制的なキーワードを付与して検索を実行することも検討されている。また,検索対象となる文書から自動的に全てのキーワード候補を抽出し,そのキーワードに従って,掲示情報から対応する文書を検索する技術も知られている。しかし,このような技術においても,異義語のような意図しない意味でキーワードが検索されたり,不要なキーワードで検索されたりして過大な検索結果が生じている。   In order to avoid such an erroneous search, in a closed system such as a literature search, it is also considered to execute a search by assigning a control keyword. A technique is also known in which all keyword candidates are automatically extracted from documents to be searched, and corresponding documents are searched from posted information according to the keywords. However, even in such a technique, an excessive search result is generated because a keyword is searched with an unintended meaning such as a synonym, or an unnecessary keyword is searched.

上記過大な検索結果の発生を回避する方法として,異義語に対して,どの意味での検索を望んでいるか逐次ユーザに確認し,また,キーワードの要否も確認してから文書の検索を行う技術が知られている(例えば,特許文献1)。また,ユーザが特定のシステムを用いて公開する掲示情報に対して,その掲示情報を特定する情報とキーワードとを関連付け,キーワードの検索結果を迅速に表示する技術も知られている(例えば,特許文献2)。
特開平8−314974号公報 特開2005−202895号公報
As a method to avoid the occurrence of the above excessive search results, the user is sequentially asked which meaning the user wants to search for the synonyms, and the document is searched after confirming whether keywords are necessary. A technique is known (for example, Patent Document 1). There is also known a technique for quickly displaying a keyword search result by associating information specifying a bulletin information with a keyword to bulletin information published by a user using a specific system (for example, patents). Reference 2).
JP-A-8-314974 JP 2005-202895 A

しかし,ユーザにキーワードの意味を問う技術では,キーワードの異義語に対する排他力は高いものの,確立された分別がなされていないので,そのキーワードの属性等を踏まえた自由度の高い検索を支援することができない。   However, although the technology that asks the user the meaning of a keyword has a high level of exclusivity against the keyword's synonyms, it has not been established, so it supports a search with a high degree of freedom based on the keyword's attributes. I can't.

また,掲示情報の特定情報とキーワードを関連付ける技術では,上述した異義語に対して意図しないリンクが生成され,所謂「誤爆」が生じる可能性がある。また,単一のキーワードによる指定であるため,検索結果が少なすぎる,もしくは多すぎる場合に,それを調整する機能も特に準備されていない。   Further, in the technology for associating the specific information of the posted information with the keyword, an unintended link is generated for the above-mentioned synonym and there is a possibility that a so-called “false explosion” may occur. In addition, since it is specified by a single keyword, there is no special function for adjusting the search results when there are too few or too many search results.

また,上記の技術は,同義語の場合に対しても,十分に対応し得るものではない。例えば,ユーザが検索時に「イベント」と入力した場合,「主催団体」,「入場料」,「参加資格」等というように色々な情報が結果として出力されが,実際の検索においては,このような検索結果はほとんど不要となる場合が多い。従って,同義語から検索する場合でも,検索結果として,ユーザのニーズに対応した情報のみが得られることが望まれている。   In addition, the above technique cannot sufficiently cope with the case of synonyms. For example, when the user inputs “event” at the time of search, various information such as “host organization”, “entrance fee”, “participation qualification”, and the like are output as a result. Search results are often unnecessary. Therefore, even when searching from synonyms, it is desired that only information corresponding to user needs is obtained as a search result.

本発明は,従来の検索システムが有する上記問題点に鑑みてなされたものであり,本発明の目的は,異義語等による意図しない検索結果の生成を回避し,掲示情報を容易かつ確実に検索可能な,新規かつ改良された情報収集装置,情報収集方法およびプログラムを提供することである。   The present invention has been made in view of the above-described problems of conventional search systems, and an object of the present invention is to avoid the generation of unintended search results by means of synonyms, etc., and to search posted information easily and reliably. To provide a new and improved information collecting apparatus, information collecting method and program.

上記課題を解決するために,本発明のある観点によれば,通信網に接続され,掲示情報に含まれる文書から自然言語解析により単語を抽出する単語抽出部と;オントロジ(ontology)に基づく語彙体系を保持する語彙体系保持部と;上記語彙体系に定義された関連付けに従い,キーワードと,該キーワードの属性値となるべき,上記単語抽出部で抽出された単語の候補とを出力する候補出力部と;上記キーワード,属性,上記候補からユーザが選択した単語を対にしたメタデータを生成するメタデータ生成部と;上記生成されたメタデータを保持するメタデータ保持部と;を備えることを特徴とする,情報収集装置が提供される。   In order to solve the above-described problems, according to an aspect of the present invention, a word extraction unit connected to a communication network and extracts a word from a document included in bulletin information by natural language analysis; a vocabulary based on ontology A lexical system holding unit that holds the system; a candidate output unit that outputs a keyword and a word candidate extracted by the word extraction unit that should be an attribute value of the keyword in accordance with the association defined in the vocabulary system A metadata generation unit that generates metadata in which a word selected by the user from the keyword, attribute, and candidate is paired; and a metadata holding unit that holds the generated metadata. An information collecting device is provided.

文書,単語,画像(静止画,動画)を含む掲示情報の検索精度を高めるため,本発明においては,公開されている掲示情報に,その掲示情報の記述内容を抽象的に表したメタデータを付与する。メタデータは,その掲示情報を表すキーワードだけでなく,キーワードに対する属性や属性値,その他の関連情報が付加されている。かかるメタデータによって掲示情報をより一層特徴付けることができ,検索対象の絞り込みが容易になる。   In order to improve the search accuracy of bulletin information including documents, words, and images (still images, moving images), in the present invention, metadata that abstractly describes the description content of the bulletin information is included in the public bulletin information. Give. Metadata includes not only a keyword representing the posting information but also an attribute, an attribute value, and other related information for the keyword. The posted information can be further characterized by such metadata, and the search target can be easily narrowed down.

また,メタデータの属性値を,キーワードと共に掲示情報から抽出することにより,ユーザが改めて属性値を手入力するという手間を省くことができ,自動的に抽出された単語の候補からユーザに属性値を選択させるという処理のみでメタデータを生成することが可能となる。   Also, by extracting the metadata attribute values from the posting information together with the keywords, it is possible to save the user from having to manually input the attribute values again. The metadata can be generated only by the process of selecting.

ユーザに所望の分野を選択させる分野選択部をさらに含み,上記語彙体系保持部は,分野毎に設けられた複数の語彙体系を含み,上記候補出力部は,上記分野選択部によりユーザが選択した分野の語彙体系に従い,属性値の候補を出力するとしてもよい。   A field selection unit that allows a user to select a desired field is further included. The lexical system holding unit includes a plurality of vocabulary systems provided for each field, and the candidate output unit is selected by the user by the field selection unit. Attribute value candidates may be output according to the vocabulary system of the field.

上記語彙体系は,分野やカテゴリ毎にその関連付けが相違する場合がある。このような場合,その分野毎の語彙体系を適用した方がより精度の高いメタデータを生成しうる。かかる構成では,メタデータを付与するユーザに所望の分野を選択させ,その分野の語彙体系を利用することによって,その分野に特化した語彙を抽出でき,検索に適したメタデータを生成することが可能となる。   The above vocabulary system may have different associations for each field or category. In such a case, more accurate metadata can be generated by applying a lexical system for each field. In such a configuration, the user who gives the metadata can select a desired field and use the vocabulary system of the field to extract vocabulary specialized for the field and generate metadata suitable for search. Is possible.

ユーザの当該情報収集装置への操作履歴からユーザの所望する分野を推定する所望分野推定部をさらに含み,上記語彙体系保持部は,分野毎に設けられた複数の語彙体系を含み,上記候補出力部は,上記推定された分野の語彙体系に従い,属性値の候補を出力するとしてもよい。   A desired field estimation unit for estimating a field desired by the user from an operation history of the user to the information collecting apparatus, and the vocabulary system holding unit includes a plurality of vocabulary systems provided for each field, and the candidate output The section may output candidate attribute values according to the estimated lexical system of the field.

かかる構成では,ユーザの当該情報収集装置への操作履歴を保持し,アクセス数の多い掲示情報の分野や指定される回数の多い分野から対象となる掲示情報の分野を推定し,その推定された分野の語彙体系を利用することによって,その分野に特化した語彙を抽出でき,検索に適したメタデータを生成することが可能となる。   In such a configuration, the user's operation history of the information collecting device is maintained, and the target posted information field is estimated from the field of the posted information having a large number of accesses or the field having the specified number of times, and the estimated By using the vocabulary system of a field, it is possible to extract vocabulary specialized for that field and generate metadata suitable for search.

上記単語抽出部により抽出された単語に基づいて,上記掲示情報が属する分野を推定する掲示分野推定部をさらに含み,上記語彙体系保持部は,分野毎に設けられた複数の語彙体系を含み,上記候補出力部は,上記推定された分野の語彙体系に従い,属性値の候補を出力するとしてもよい。   A posting field estimation unit for estimating a field to which the posting information belongs based on the word extracted by the word extraction unit; and the vocabulary system holding unit includes a plurality of vocabulary systems provided for each field, The candidate output unit may output attribute value candidates according to the estimated lexical system of the field.

かかる構成では,掲示情報から抽出された1または2以上の単語から当該掲示情報の分野を自動的に推定し,その推定された分野の語彙体系を利用することによって,その分野に特化した語彙を抽出でき,検索に適したメタデータを生成することが可能となる。   In such a configuration, a vocabulary specialized for a particular field is estimated by automatically estimating the field of the posted information from one or more words extracted from the bulletin information and using the vocabulary system of the estimated field. Can be extracted, and metadata suitable for search can be generated.

ユーザの所望するメタデータの条件を保持する条件保持部と;上記条件を満たすメタデータが,他のユーザによってメタデータ保持部に追加された場合,上記ユーザにその旨通知する追加通知部と;をさらに備えるとしてもよい。   A condition holding unit for holding metadata conditions desired by the user; and an additional notification unit for notifying the user when metadata satisfying the above conditions is added to the metadata holding unit by another user; May be further provided.

ユーザは,所望する分野,メタデータ,メタデータの条件式等を指定することによって,その指定した分野やメタデータが他のユーザによって追加(登録)された場合,その追加された旨,及び/又はその追加された情報自体を得ることができる。かかる構成により,各ユーザは,他のユーザからの情報提供を受けるため,また,他のユーザに情報を提供するため,率先して当該情報収集装置を利用することとなり,ひいては掲示情報のメタデータ付与化が促進される。   When the user adds (registers) the specified field or metadata by specifying the desired field, metadata, metadata conditional expression, etc., the fact that it has been added, and / or Alternatively, the added information itself can be obtained. With this configuration, each user takes the initiative to use the information collection device in order to receive information from other users and to provide information to other users. Granting is promoted.

上記情報収集装置は,複数の構成要素の集合体で表されるが,各構成要素や機能モジュールが単体の装置に属する場合に限られず,各構成要素が別体の装置として,または別体の装置に組み込まれて形成されるとしてもよい。   The above information collection device is represented by an aggregate of a plurality of components, but is not limited to the case where each component or functional module belongs to a single device, and each component is a separate device or a separate device. It may be formed by being incorporated in the apparatus.

上記課題を解決するために,本発明の別の観点によれば,掲示情報に含まれる文書から自然言語解析により単語を抽出する単語抽出ステップと;オントロジに基づく語彙体系に定義された関連付けに従い,キーワードと,該キーワードの属性値となるべき,上記単語抽出ステップにより抽出された単語の候補とを出力する候補出力ステップと;上記キーワード,属性,上記候補からユーザが選択した単語を対にしたメタデータを生成するメタデータ生成ステップと;上記生成されたメタデータを保持するメタデータ保持ステップと;を含むことを特徴とする,情報収集方法が提供される。   In order to solve the above-described problem, according to another aspect of the present invention, a word extraction step of extracting a word by a natural language analysis from a document included in posted information; according to an association defined in a vocabulary system based on an ontology, A candidate output step for outputting a keyword and a word candidate extracted by the word extraction step to be an attribute value of the keyword; a meta-data pairing the keyword, the attribute, and a word selected by the user from the candidate There is provided an information collecting method comprising: a metadata generating step for generating data; and a metadata holding step for holding the generated metadata.

また,コンピュータに,上記情報収集方法を遂行させるプログラムや,そのプログラムを記憶した記憶媒体も提供される。   Also provided are a program for causing a computer to perform the information collecting method and a storage medium storing the program.

上述した情報収集装置における従属項に対応する構成要素やその説明は,当該情報収集方法,プログラム,記憶媒体にも適用可能である。   The constituent elements corresponding to the dependent claims in the information collecting apparatus and the explanation thereof can be applied to the information collecting method, program, and storage medium.

以上説明したように本発明によれば,掲示情報に付与されたメタデータを検索対象にすることによって,異義語等による意図しない検索結果の生成を回避しつつ,掲示情報を容易かつ確実に検索することが可能となる。   As described above, according to the present invention, it is possible to search bulletin information easily and reliably while avoiding generation of an unintended search result by a synonym or the like by making metadata attached to the bulletin information a search target. It becomes possible to do.

また,人が読むことを前提としている掲示情報は,機械処理には向かないが,かかる掲示情報に,機械処理に対応したメタデータが付与されるので,メタデータを活用したアプリケーションのとの連携が容易になる。例えば,開催日等の情報を,メタデータを利用して取り出すことができるので,特定期間に開催されるイベントに関する情報のみをリストアップする等の処理が可能となる。   In addition, bulletin information that is assumed to be read by humans is not suitable for machine processing, but since metadata corresponding to machine processing is added to such bulletin information, it is linked with applications that use metadata. Becomes easier. For example, since information such as the date of an event can be extracted using metadata, it is possible to perform processing such as listing only information related to events held during a specific period.

以下に添付図面を参照しながら,本発明の好適な実施の形態について詳細に説明する。なお,本明細書及び図面において,実質的に同一の機能構成を有する構成要素については,同一の符号を付することにより重複説明を省略する。   Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In the present specification and drawings, components having substantially the same functional configuration are denoted by the same reference numerals, and redundant description is omitted.

現在,インターネット等の通信網に接続されたコンピュータを用いて,所望する掲示情報を検索することが可能である。しかし,Web(ウェブ)は開放されたシステムであるが故,単純なキーワードのみによる検索では対応する文書数が多すぎて適切な掲示情報を検出できない問題が想定される。   Currently, it is possible to search for desired posting information using a computer connected to a communication network such as the Internet. However, since the Web is an open system, there is a problem that it is impossible to detect appropriate posted information because there are too many corresponding documents in a search using only simple keywords.

掲示情報の検索精度を高めるため,掲示情報の文書全体に単一もしくは複数の統制的キーワードを付すことも考えられるが,本実施形態では,その掲示情報の記述内容を特徴付ける標準仕様として,メタデータを付与する。メタデータは,その掲示情報を特定するキーワードだけでなく,キーワードに対する属性や属性値,その他の関連情報が付加されている。かかるメタデータによって掲示情報をより一層特徴付けることができ,検索対象の絞り込みが容易になる。   In order to improve the search accuracy of the bulletin information, it may be possible to attach a single or plural control keywords to the entire bulletin information document. In this embodiment, metadata is used as a standard specification that characterizes the description content of the bulletin information. Is granted. Metadata includes not only a keyword specifying the posting information but also an attribute, an attribute value, and other related information for the keyword. The posted information can be further characterized by such metadata, and the search target can be easily narrowed down.

上記メタデータは,掲示情報を表すキーワードを主語とした場合の述語および目的語として生成され,ここでは,主語にあたる部分をキーワードのタイプ,述語にあたる部分を該タイプの任意の属性,目的語にあたる部分を該属性における任意の属性値としている。ここでは,このような[タイプ]−[属性]−[属性値]の関係をオントロジと言い,かかる定義に基づいて,具体的な[タイプ]に対する各[属性]や[属性値]を定めたものを語彙体系と言う。   The above metadata is generated as a predicate and object when the keyword representing the posted information is the subject. Here, the part corresponding to the subject is the type of the keyword, and the part corresponding to the predicate is the attribute corresponding to any attribute or object of the type. Is an arbitrary attribute value in the attribute. Here, this [type]-[attribute]-[attribute value] relationship is called ontology, and based on this definition, each [attribute] and [attribute value] for a specific [type] is defined. Things are called vocabulary systems.

図1は,上述した語彙体系の一例を示した説明図である。かかる語彙体系は,階層によって表現され,例えば「イベント」100という[タイプ]に対して,その「イベント」100の[属性]である「開催日」110,「開催場所」112,「イベント名」114,「主催者」116等が定義付けられ,さらに各[属性]には,その[属性]における具体的な[属性値]である「日付,期間」120,「地名,場所表現」122,「タイトル表現」124,「人名,組織名」126等の各カテゴリが挙げられる。   FIG. 1 is an explanatory diagram showing an example of the vocabulary system described above. Such a vocabulary system is expressed by a hierarchy. For example, for “type” of “event” 100, “attribute” of “event” 100, “date of holding” 110, “place of holding” 112, “event name” 114, “organizer” 116 and the like are defined, and each [attribute] has a specific [attribute value] “date, period” 120, “place name, place expression” 122, Each category includes “title expression” 124, “person name, organization name” 126, and the like.

図2は,掲示情報中の文書の一例を示したテキスト図である。このような文書からメタデータを生成すると,語彙体系の「イベント」100−「開催日」110−「日付,期間」120の関連付けに従って,例えば,「ユビキタス展示会」−「開催日」−「2006年1月1日〜1月10日」をメタデータとして設定することができる。   FIG. 2 is a text diagram showing an example of the document in the posted information. When metadata is generated from such a document, for example, “Ubiquitous Exhibition” — “Date” — “2006” according to the association of “Event” 100— “Date” 110— “Date, Period” 120 of the vocabulary system. "January 1 to January 10" can be set as metadata.

図3は,図1に示した語彙体系に基づいて設定したメタデータの例を示した説明図である。ユーザは,掲示情報にこのようなメタデータを添付して,かかる掲示情報を表し,他のユーザによる検索を支援する。かかるメタデータは,図1の語彙体系と対応して生成され,上述したメタデータ「ユビキタス展示会」−「開催日」−「2006年1月1日〜1月10日」も含まれている。また,図3では,4つのメタデータを例に挙げているが,かかる数に限られず,あらゆる用語で構成された様々なメタデータを生成することができる。   FIG. 3 is an explanatory diagram showing an example of metadata set based on the vocabulary system shown in FIG. The user attaches such metadata to the bulletin information, represents the bulletin information, and supports searches by other users. Such metadata is generated corresponding to the vocabulary system of FIG. 1 and includes the above-mentioned metadata “Ubiquitous Exhibition”-“Date”-“January 1 to January 10, 2006”. . In FIG. 3, four metadata are given as an example. However, the number of metadata is not limited to this, and various metadata composed of all terms can be generated.

このようなメタデータは,通常,ユーザがその都度,手入力で設定していた。しかし,このような設定方法の下では,ユーザの負荷が過大になり,せっかくの上記システムが余り活用されないといった状況に陥ってしまう。従って,本実施形態では,メタデータとして定義される[属性値]を,キーワードと共に掲示情報から抽出することにより,ユーザが改めて[属性値]を手入力するという手間を省き,自動的に抽出された単語の候補からユーザに[属性値]を選択させるという処理のみでメタデータを生成している。   Such metadata is usually set manually by the user each time. However, under such a setting method, the load on the user becomes excessive and the above-mentioned system is not used much. Therefore, in this embodiment, the [attribute value] defined as metadata is extracted from the posting information together with the keyword, so that the user does not have to manually input the [attribute value] again and is automatically extracted. The metadata is generated only by the process of allowing the user to select [attribute value] from the candidate words.

(第1の実施形態:メタデータ付与支援装置)
図4は,当該情報収集装置が利用される情報収集システムの概略を説明したブロック図である。かかる情報収集システムは,通信網200,情報資源サーバ210と,端末装置220と,情報収集装置としてのメタデータ付与支援装置230とを含んで構成される。当該情報収集システムにおいては,ユーザの検索処理を容易にする環境を提供することができ,さらにユーザ同士が情報を共有することが可能となる。以下では,この情報収集システム内の情報収集装置としてメタデータ付与装置230を挙げて説明しているが,メタデータの付与は勿論,さらに,情報収集等広い観点で当該メタデータ付与装置230を利用することが可能である。
(First embodiment: metadata assignment support apparatus)
FIG. 4 is a block diagram illustrating an outline of an information collection system in which the information collection apparatus is used. Such an information collection system includes a communication network 200, an information resource server 210, a terminal device 220, and a metadata addition support device 230 as an information collection device. In the information collection system, it is possible to provide an environment that facilitates user search processing, and also allows users to share information. In the following, the metadata providing device 230 is described as an information collecting device in the information collecting system. However, the metadata providing device 230 is used from a wide viewpoint such as information collection as well as metadata addition. Is possible.

上記通信網200は,例えば,インターネット,イントラネット,LAN(Local Area Network)等の双方向通信網であり,情報資源サーバ210,端末装置220,メタデータ付与支援装置230等に接続されている。   The communication network 200 is a bidirectional communication network such as the Internet, an intranet, or a LAN (Local Area Network), and is connected to the information resource server 210, the terminal device 220, the metadata assignment support device 230, and the like.

上記情報資源サーバ210は,1または2以上の掲示情報(WebPage)を有し,ユーザの閲覧要求に応じて,通信網200を介しその掲示情報を提供する。   The information resource server 210 has one or more posted information (WebPage), and provides the posted information via the communication network 200 in response to a user's browsing request.

上記端末装置220は,通常,個人ユーザにより管理され,通常のキーワードや,特定のメタデータによって所望する掲示情報を検索し,また,メタデータ付与支援装置230にアクセスして,情報資源サーバ210から提供される掲示情報にメタデータを付与する。   The terminal device 220 is usually managed by an individual user, searches for desired posting information by using a normal keyword or specific metadata, and accesses the metadata assignment support device 230 from the information resource server 210. Give metadata to the posted information provided.

上記メタデータ付与支援装置230は,情報資源サーバ210,端末装置220,もしくはメタデータ付与支援装置230を操作するオペレータからのメタデータ付与請求に応じて,情報資源サーバ210から取得した掲示情報にメタデータを付与する。また,情報資源サーバ210,端末装置220からの掲示情報検索指令に応じて,保持しているメタデータを検索し,そのメタデータに関連付けられた掲示情報を情報資源サーバ210,端末装置220に伝達する。   The metadata assignment support apparatus 230 adds meta information to the posted information acquired from the information resource server 210 in response to a request for metadata assignment from the information resource server 210, the terminal device 220, or an operator who operates the metadata assignment support apparatus 230. Give data. Further, in response to a posting information search command from the information resource server 210 and the terminal device 220, the held metadata is searched, and the posting information associated with the metadata is transmitted to the information resource server 210 and the terminal device 220. To do.

このように,上記メタデータ付与支援装置230を利用するユーザとしては,情報資源サーバ210,端末装置220,およびメタデータ付与支援装置230の使用者全てが対象となる。例えば,情報資源サーバ210の管理者であれば,当該掲示情報を多くの人に利用してもらうためメタデータを付与し,端末装置220の利用者であれば,同じ趣味を有する他の利用者に興味を深めるような掲示情報を教えるためにメタデータを付与し,メタデータ付与支援装置230のオペレータは,自己の検索エンジンをより多くの人に利用してもらうためにメタデータを付与する。   As described above, all users of the information resource server 210, the terminal device 220, and the metadata assignment support apparatus 230 are targeted as users who use the metadata assignment support apparatus 230. For example, if it is an administrator of the information resource server 210, metadata is given to make the posting information available to many people, and if it is a user of the terminal device 220, other users who have the same hobby. The metadata is added to teach the posting information that deepens the interest of the user, and the operator of the metadata addition support device 230 provides the metadata so that more people can use the search engine.

また,電子機器メーカの技術者や相談窓口のオペレータが取り扱った,製品に関する問題点や解決策をメタデータに関連付け,その掲示情報を公開することによって,他のメーカの技術者や同様の問題を抱える使用者が当該問題点や解決策を参照し易くすることもできる。このようにして,技術者としては問題および解決策の共有を図ることができ,また,製品の使用者がその製品の使い方が分からなかったときも,オペレータを介さずに使用方法を検索することが可能となる。   In addition, by associating product problems and solutions handled by electronic equipment manufacturer engineers and consulting service operators with metadata and publishing the posted information, other manufacturers' engineers and similar problems can be identified. It is possible to make it easier for a user to refer to the problem or solution. In this way, engineers can share problems and solutions, and even when users of a product do not know how to use the product, they can search for usage without going through the operator. Is possible.

上記情報資源サーバ210と,端末装置220と,メタデータ付与支援装置230は,サーバ,パーソナルコンピュータ,PDA(Personal Digital Assistant),携帯電話,ゲーム機器等の電子機器によって構成されるとしてもよい。   The information resource server 210, the terminal device 220, and the metadata assignment support device 230 may be configured by electronic devices such as a server, a personal computer, a PDA (Personal Digital Assistant), a mobile phone, and a game device.

次に,上記メタデータ付与支援装置230について詳細に説明する。   Next, the metadata assignment support apparatus 230 will be described in detail.

図5は,第1の実施形態におけるメタデータ付与支援装置230の概略的な機能を示した機能ブロック図である。かかるメタデータ付与支援装置230は,掲示情報取得部300と,辞書保持部302と,単語抽出部304と,語彙体系保持部306と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とを含んで構成される。   FIG. 5 is a functional block diagram showing a schematic function of the metadata assignment support apparatus 230 in the first embodiment. The metadata assignment support apparatus 230 includes a bulletin information acquisition unit 300, a dictionary holding unit 302, a word extraction unit 304, a lexical system holding unit 306, a candidate output unit 308, a metadata generation unit 310, and metadata. And a holding unit 312.

上記掲示情報取得部300は,通信網200を介してユーザが所望する掲示情報350を取得する。かかる掲示情報350は,HTML(Hyper Text Markup Language)等のマークアップ言語で形成され,メタデータを付与する対象となる。   The bulletin information acquisition unit 300 acquires bulletin information 350 desired by the user via the communication network 200. The posting information 350 is formed in a markup language such as HTML (Hyper Text Markup Language) and is a target to which metadata is added.

上記辞書保持部302は,形態素や接辞,接続情報,文法情報,同義語等の単語認識に関する辞書352が保持されている。かかる辞書352によると,後述する単語抽出部304で抽出された単語の品詞やその単語の意味も検出することができる。例えば,「東京」を地名と判断したり,「3000円払う」の「3000円」を述語「払う」との関係から金額と判断したりすることが可能となる。   The dictionary holding unit 302 holds a dictionary 352 relating to word recognition such as morphemes, affixes, connection information, grammar information, and synonyms. According to the dictionary 352, the part of speech of the word extracted by the word extraction unit 304 described later and the meaning of the word can also be detected. For example, “Tokyo” can be determined as a place name, or “3000 yen” of “pay 3000 yen” can be determined as an amount of money from the relationship with the predicate “pay”.

上記単語抽出部304は,辞書保持部302に保持されている辞書352を参照して,掲示情報350の文書を特定するのに不要なタグを削除し,掲示情報350に含まれる文書を自然言語解析(形態素解析やかかり受け等の構文解析)により名詞と動詞の関連付けがされた形態素に分解し,例えば,「てにをは」等の,それら単独では意味をなさない文字も除去し,掲示情報350を表す[タイプ]としてのキーワードと,該キーワードの[属性値](例えば,人名,地名等の固有名詞)を表しうる単語とを抽出する。   The word extraction unit 304 refers to the dictionary 352 held in the dictionary holding unit 302, deletes a tag unnecessary for specifying the document of the posting information 350, and converts the document included in the posting information 350 into a natural language. Analysis (syntactic analysis such as morpheme analysis and hook-and-loop analysis) breaks down into morphemes in which nouns and verbs are associated, and for example, removes characters that do not make sense by themselves, such as “Tenanoha” A keyword as a [type] representing the information 350 and a word that can represent an [attribute value] of the keyword (for example, a proper noun such as a person name or a place name) are extracted.

上記語彙体系保持部306は,オントロジに基づいて,キーワードの[タイプ],その[タイプ]がどのような[属性]をとり,該[属性]における[属性値]としてどのような語彙を取りうるかの具体的な値,およびその制約に関して定義する語彙体系354を保持する。   Based on the ontology, the lexical system holding unit 306 determines the [type] of the keyword, what [attribute] the [type] takes, and what vocabulary can be taken as the [attribute value] in the [attribute] And a vocabulary system 354 that defines the specific value of, and its constraints.

語彙体系354は,例えば,W3CのRDF(Resource Description Framework)やOWL(Web Ontology Language)等の記述言語で表されるとしてもよい。さらに語彙体系354は,他のオントロジ記述言語によって表されるとしてもよいし,単に[タイプ]−[属性]−[属性値]をデータベース化した表であってもよい。語彙体系354の概略的な定義は,図1によって既に説明されているので,ここでは詳細な説明を省略する。   The vocabulary system 354 may be expressed in, for example, a description language such as W3C RDF (Resource Description Framework) or OWL (Web Ontology Language). Further, the vocabulary system 354 may be expressed by another ontology description language, or may be a table in which [type]-[attribute]-[attribute value] are simply made into a database. Since the general definition of the vocabulary system 354 has already been described with reference to FIG. 1, detailed description thereof is omitted here.

また,上記制約とは,[属性値]の取りうる範囲もしくは制限を示し,例えば,「従業員の年齢」という[属性]に対して,15歳以上という制限を表す。こうして,単語抽出部304が抽出した単語に「3歳」という表現があったとしても,この制約によって,[属性値]の対象から「3歳」を除外することが可能となる。このような制約は,その範囲を限定すればするほど[属性値]を絞ることができるが,意図する[属性値]を検出できなくなる可能性も生じてくる。   Further, the restriction indicates a range or restriction that can be taken by the [attribute value], for example, a restriction of 15 years or older with respect to the [attribute] called “employee age”. In this way, even if the word extracted by the word extraction unit 304 has the expression “3 years old”, it is possible to exclude “3 years old” from the target of [attribute value] due to this restriction. In such a restriction, the [attribute value] can be narrowed as the range is limited, but there is a possibility that the intended [attribute value] cannot be detected.

その他の例としては,「パソコンの価格」という[属性]に対して,「パソコン3000円引き」という文書から抽出した「3000円」は価格としての妥当性を満たしていないので上記制約により除外される。「パソコンの価格」の[属性値]としては単語に「円」,「¥」,「$」が含まれる単語が優先的に抽出され,適切な単語が発見されなかった場合,数値のみの単語も[属性値]の対象となる。   As another example, “3,000 yen” extracted from the document “personal computer discount of 3000 yen” is excluded because of the above restrictions because of the attribute “personal computer price”, which is extracted from the document “personal computer discount of 3000 yen”. The [Attribute value] of "PC price" is a word that contains only "yen", "\", and "$" in the word, and if a suitable word is not found, only a numerical value Are also subject to [Attribute Value].

上記候補出力部308は,キーワードの候補と,該キーワードの属性値となるべき,単語抽出部304で抽出された単語の候補と,をユーザの有する情報資源サーバ210や端末装置220のモニタ,もしくは当該メタデータ付与支援装置230のモニタ356に出力(表示)する。   The candidate output unit 308 monitors the information resource server 210 or the terminal device 220 that the user has as a keyword candidate and the word candidate extracted by the word extraction unit 304, which should be the attribute value of the keyword, or The data is output (displayed) on the monitor 356 of the metadata assignment support apparatus 230.

ここでは,掲示情報を表す[タイプ]としてのキーワードも候補を挙げて出力しているが,[タイプ]を掲示情報自体とすることもできる。このように[タイプ]を掲示情報自体とした場合,キーワードの候補を抽出する必要がなくなり,その出力を省略することができる。   Here, the keyword as [type] representing the bulletin information is also output with candidates, but [type] may be the bulletin information itself. Thus, when [Type] is the bulletin information itself, it is not necessary to extract keyword candidates, and the output can be omitted.

また,キーワードの各[属性]に関連付けるべき[属性値]としては,単語抽出部304で実際に抽出された文字列を単に取り上げるとしてもよいし,[属性値]として取りうるカテゴリ別に表されるとしてもよい。例えば,図1に示した[属性]「開催地」に対しては,具体的な「地名」や,その開催地を間接的に表現する「場所表現」が[属性値]のカテゴリに相当する。従って,[属性値]は,「東京都千代田区…番地」という「地名」もしくは「東京駅八重洲口徒歩3分」等の「場所表現」を選択することができる。   In addition, as the [attribute value] to be associated with each [attribute] of the keyword, a character string actually extracted by the word extraction unit 304 may be simply taken up, or is represented by a category that can be taken as [attribute value]. It is good. For example, for [attribute] “location” shown in FIG. 1, a specific “location name” or “location expression” that indirectly represents the location corresponds to the category of [attribute value]. . Therefore, as the [attribute value], it is possible to select “place name” such as “Chiyoda-ku ... address” in Tokyo, or “3-minute walk from Tokyo Station Yaesu Exit”.

また,上記[属性値]として,予め選択範囲が定義されている場合,例えば,[属性]「対戦球団」としてチーム数が制限されている場合,候補出力部308は,[属性値]としてそのチーム全てを出力するとしてもよい。   In addition, when the selection range is defined in advance as the [attribute value], for example, when the number of teams is limited as [attribute] “matching team”, the candidate output unit 308 displays the attribute value as [attribute value]. The entire team may be output.

また,その[属性]の階層概念(上位概念や下位概念)が辞書352に含まれている場合,辞書352に含まれる階層概念のリストを[属性値]として出力することもできる。例えば,特定メーカの「テレビ」という[属性値]が挙がった場合,さらにそのメーカの「テレビ」の製品名や製品番号が辞書352から読み出され,それをメタデータの[属性値]の候補とすることが可能である。   In addition, if the dictionary 352 includes a hierarchical concept (higher concept or lower concept) of the [attribute], a list of hierarchical concepts included in the dictionary 352 can be output as [attribute value]. For example, when an [attribute value] “TV” of a specific manufacturer is listed, the product name and product number of the “TV” of that manufacturer are further read out from the dictionary 352 and are used as metadata [attribute value] candidates. Is possible.

また,上記候補となる[タイプ]や[属性値]に同義語がある場合,その単語と,その単語の代表元となる単語とを合わせて出力するとしてもよい。この代表元に関しては後から詳述する。   Further, when there is a synonym in the above-mentioned candidate [type] or [attribute value], the word and the word representing the word may be output together. This representative will be described in detail later.

候補出力部308は,[属性値]の候補を見つけることができなかった場合,逆に,抽出された各単語を,[属性]に関連付けることもできる。例えば,[属性]「パソコンの値段」の属性値候補がない場合,抽出された単語から「119,800」という数字を取り出し,これを「119,800円」と読み替えて,[属性]「パソコンの値段」の属性値とする。   If the candidate output unit 308 cannot find a candidate for [attribute value], conversely, each extracted word can be associated with [attribute]. For example, if there is no attribute value candidate of [attribute] “PC price”, the number “119,800” is extracted from the extracted word, and is replaced with “119,800 yen”, and [attribute] “PC” Attribute value.

上記メタデータ生成部310は,候補出力部308が出力した候補からユーザが選択した単語を[属性値]として設定し,[タイプ]としての上記キーワードおよび[属性]と対にして,メタデータ360を生成する。かかるメタデータ360は,1つの掲示情報に複数付与されるとしてもよい。   The metadata generation unit 310 sets the word selected by the user from the candidates output by the candidate output unit 308 as [attribute value], and combines the keyword 360 and [attribute] as [type] with the metadata 360. Is generated. A plurality of such metadata 360 may be given to one bulletin information.

ここで,[属性値]が他に同義語を有し,その他の同義語が代表的な用語(代表元),例えばJIS規格による用語であった場合,選択された[属性値]を代表元となる用語に置き換えた後,メタデータ360が生成されるとしてもよい。上記同義語は,例えば,同じ単語を漢字,片仮名,仮名,ローマ字表記で表されたものであったり,長音の有無の違いであったりする。即ち,「コンピューター」を代表元の「コンピュータ」に置き換えたり,「ウォッチ」を代表元の「時計」に置き換えたりする。   Here, when [attribute value] has another synonym and the other synonym is a representative term (representative), for example, a term according to JIS standard, the selected [attribute value] is represented by the representative The metadata 360 may be generated after the term is replaced. The above synonyms are, for example, the same word expressed in kanji, katakana, kana, romaji, or the presence or absence of a long sound. That is, “computer” is replaced with “computer” representing the representative, or “watch” is replaced with “clock” representing the representative.

また,後述するようにメタデータ360の付与される分野が特定されている場合において,抽出された[属性値]と代表元とが関連付けやすくなる場合がある。[属性値]として「CD」という単語が抽出された場合,例えば,「Compact Disc」や「Cash Dispenser」の略語として把握できるが,分野が音楽に限定されている場合,「CD」を「Compact Disc」と同義語であると判断することができ,分野が金融に限定されている場合,「CD」を「Cash Dispenser」と同義語であると判断することができる。   In addition, as described later, when the field to which the metadata 360 is assigned is specified, the extracted [attribute value] may be easily associated with the representative. When the word “CD” is extracted as the [attribute value], for example, it can be grasped as an abbreviation of “Compact Disc” or “Cash Dispenser”, but when the field is limited to music, “CD” is changed to “Compact”. It can be determined that it is synonymous with “Disc”, and if the field is limited to finance, “CD” can be determined as synonymous with “Cash Dispenser”.

上記メタデータ保持部312は,メタデータ生成部310によって生成されたメタデータ360を保持する。このように保持された1または2以上のメタデータは,検索エンジンに参照され,該当するメタデータが付された掲示情報が検索結果として表示される。また,上記メタデータは,他のアプリケーションの要求に応じて出力される。例えば,カレンダーを作成するアプリケーションからは,日付に関するメタデータのみが呼び出され,カレンダー上にメタデータに関するイベントがその対応する日に表示される。出力形式としては,上述したRDFやOWLが挙げられる。   The metadata holding unit 312 holds the metadata 360 generated by the metadata generation unit 310. One or more metadata held in this way is referred to by the search engine, and the posted information with the corresponding metadata is displayed as the search result. The metadata is output in response to a request from another application. For example, an application for creating a calendar calls only metadata related to dates, and events related to metadata are displayed on the calendar on the corresponding days. Examples of the output format include RDF and OWL described above.

また,辞書保持部302,語彙体系保持部306,メタデータ保持部312は,RAM,EPROM,不揮発性RAM,フラッシュメモリ,カードメモリ,USBメモリ,HDD(Hard Disk Drive),その他の記憶媒体で構成され,辞書保持部302と語彙体系保持部306とメタデータ保持部312とが一体のHDDで構成されるとしてもよい。 The dictionary holding unit 302, vocabulary holding unit 306, and metadata holding unit 312 are RAM, E 2 PROM, nonvolatile RAM, flash memory, card memory, USB memory, HDD (Hard Disk Drive), and other storage media. The dictionary holding unit 302, the lexical system holding unit 306, and the metadata holding unit 312 may be configured as an integrated HDD.

また,掲示情報取得部300,単語抽出部304,候補出力部308,メタデータ生成部310等は,コンピュータ内におけるモジュールとして形成されるとしても良く,その場合,メタデータ付与支援装置230を構成する中央処理装置(CPU),プログラムが記憶されるメモリ,および各入出力回路によって各機能が遂行されるとしてもよい。   In addition, the bulletin information acquisition unit 300, the word extraction unit 304, the candidate output unit 308, the metadata generation unit 310, and the like may be formed as modules in the computer. In this case, the metadata addition support device 230 is configured. Each function may be performed by a central processing unit (CPU), a memory in which a program is stored, and each input / output circuit.

以上,説明したように,上述したメタデータ付与支援装置230によって,公開されている掲示情報350に,その掲示情報350の記述内容を特徴付けるメタデータ360を付与することができる。メタデータ360は,その掲示情報を表す[タイプ]としてのキーワードに[属性]や[属性値]が付されているので,掲示情報350をより一層特徴付けることができ,検索対象の絞り込みが容易になる。また,上記[属性値]は,掲示情報350自体から抽出しているので,ユーザに[属性値]を選択させるという簡単な処理のみでメタデータ360を生成することが可能となる。以下に,かかるメタデータ付与支援装置230を利用してメタデータを付与する方法を述べる。   As described above, the metadata 360 that characterizes the description content of the bulletin information 350 can be imparted to the public bulletin information 350 by the metadata grant support apparatus 230 described above. In the metadata 360, since [attribute] and [attribute value] are added to the keyword as [type] representing the posting information, the posting information 350 can be further characterized, and the search target can be easily narrowed down. Become. Further, since the [attribute value] is extracted from the bulletin information 350 itself, the metadata 360 can be generated only by a simple process of allowing the user to select the [attribute value]. A method for assigning metadata using the metadata assignment support apparatus 230 will be described below.

(メタデータ付与支援方法)
図6は,第1の実施形態におけるメタデータ付与支援方法の処理の流れを示したフローチャートであり,以下,図5の構成と併せて処理の流れについて説明する。
(Metadata grant support method)
FIG. 6 is a flowchart showing the processing flow of the metadata assignment support method according to the first embodiment. Hereinafter, the processing flow will be described together with the configuration of FIG.

先ず,メタデータ付与支援装置230の掲示情報取得部300は,通信網200を介して,HTTPプロトコルにより掲示情報350を取得する(S400)。そして,単語抽出部304は,辞書352を用いて,文書を特定するのに不要なタグ等を削除し,掲示情報350に含まれる文書を形態素解析や構文解析により形態素に分解し,掲示情報350を表すキーワードと,該キーワードの[属性値](例えば,人名,地名等の固有名詞)と成りうる単語とを抽出する(S402)。   First, the bulletin information acquisition unit 300 of the metadata assignment support apparatus 230 acquires the bulletin information 350 by the HTTP protocol via the communication network 200 (S400). Then, the word extraction unit 304 uses the dictionary 352 to delete tags and the like that are unnecessary for specifying the document, decomposes the document included in the posting information 350 into morphemes by morphological analysis and syntax analysis, and displays the posting information 350 And a word that can be an [attribute value] of the keyword (for example, a proper noun such as a person name or a place name) is extracted (S402).

続いて,候補出力部308は,語彙体系354の関連付けに従い,単語抽出ステップ(S402)で抽出されたキーワードの候補と,該キーワードの属性値となるべき,単語抽出部304で抽出された単語の候補とをリスト化し,その候補リストをメニュー形式で表すWeb文書を作成する(S404)。そして,そのWeb文書をユーザの有する端末のモニタ,もしくは当該メタデータ付与支援装置230のモニタ356に出力(表示)する(S406)。このときの表示形式はメニュー形式に限定されず,様々な選択形式を適用することができる。   Subsequently, the candidate output unit 308 follows the association of the vocabulary system 354 with the keyword candidates extracted in the word extraction step (S402) and the word extracted by the word extraction unit 304, which should be attribute values of the keywords. Candidates are listed, and a Web document representing the candidate list in a menu format is created (S404). Then, the Web document is output (displayed) to the monitor of the terminal of the user or the monitor 356 of the metadata assignment support apparatus 230 (S406). The display format at this time is not limited to the menu format, and various selection formats can be applied.

次に,メタデータ生成部310は,ユーザが選択した単語を[属性値]として設定し,上記キーワードおよび[属性]と対,即ち,[タイプ]−[属性]−[属性値]の組にして,メタデータ360を生成する(S408)。最後に,メタデータ保持部312は,メタデータ生成部310によって生成されたメタデータ360を他の端末装置220から参照できる形で保存する(S410)。   Next, the metadata generation unit 310 sets the word selected by the user as [attribute value], and makes a pair with the keyword and [attribute], that is, a pair of [type]-[attribute]-[attribute value]. Then, metadata 360 is generated (S408). Finally, the metadata holding unit 312 stores the metadata 360 generated by the metadata generation unit 310 in a form that can be referred to by other terminal devices 220 (S410).

また,コンピュータに,上述のメタデータ付与支援方法を遂行させるプログラムや,そのプログラムを記憶した記憶媒体も提供される。   Also provided are a program for causing a computer to perform the above-described metadata assignment support method, and a storage medium storing the program.

第1の実施形態におけるメタデータ付与支援装置およびメタデータ付与支援方法によると,メタデータ付与対象となる掲示情報の文書を解析し,単純な「キーワード」だけでなく,その[属性]および[属性値]をも提示し,適切な[属性値]をユーザに選択させることによって,キーワードもしくは掲示情報自体の意味が限定され,例え掲示情報が異義語を含む場合であっても,その掲示情報を検出することなく,より正確な検索が可能となる。   According to the metadata grant support apparatus and metadata grant support method in the first embodiment, a document of bulletin information to be given metadata is analyzed, and not only a simple “keyword” but also its [attribute] and [attribute] Value] and allowing the user to select an appropriate [attribute value] to limit the meaning of the keyword or the posted information itself, even if the posted information includes a synonym. A more accurate search is possible without detection.

また,掲示情報を検出する側においても,キーワードに付随して[属性]および[属性値]を指定することにより,キーワードが異義語を含んでいたとしても意図している掲示情報を検出することが容易となる。   Also, the posting information detection side can detect the intended posting information even if the keyword includes a synonym by specifying [attribute] and [attribute value] along with the keyword. Becomes easy.

例えば,ユーザが,東京展示場で開催されている「イベント」が何であるかを検索したい場合,単に「イベント」とキーワードを入力するだけでなく,「イベント」([タイプ])の[属性]として「開催地」を選択し,さらに[属性値]として「東京展示場」を入力する。すると,「イベント」−「開催地」−「東京展示場」のメタデータで検索が行われ,検索結果として「イベント」としての「ユビキタス展示会」を容易に得ることができる(図3参照)。   For example, if the user wants to search for what “events” are held at the Tokyo exhibition hall, he / she does not just enter “events” and keywords, but also “attributes” of “events” ([type]). Select “Venue” as “Enter”, and enter “Tokyo Exhibition Hall” as “Attribute Value”. Then, a search is performed with the metadata of “event” − “venue” − “Tokyo exhibition hall”, and “ubiquitous exhibition” as “event” can be easily obtained as a search result (see FIG. 3). .

また,ユーザが「今開催中のイベント」と文書で検索した場合,検索エンジンは,かかる文書を解析して「今」という単語から現在の日付「1月1日」を導出し,「開催日」([属性])の[属性値]に「1月1日」を含む「イベント」([タイプ])を検索する。その結果,「開催日」が「2006年1月1日〜1月10日」である「イベント」の「ユビキタス展示会」が得られることとなる(図3参照)。   In addition, when the user searches for a document “currently held event”, the search engine analyzes the document, derives the current date “January 1” from the word “now”, "(Attribute)" is searched for "event" ([type]) including "January 1" in [attribute value]. As a result, an “Ubiquitous Exhibition” of “Event” whose “Date” is “January 1 to January 10, 2006” is obtained (see FIG. 3).

(第2の実施形態:メタデータ付与支援装置)
第1の実施形態においては,辞書352や語彙体系354は,単一のものとして表されている。しかし,当該掲示情報が利用される分野によっては,同義語の範囲が異なったり,語彙の上位下位概念が異なったりする場合がある。例えば,「モデル」という単語は,製造メーカにおいて,模型,ひな形等の意味で利用されるが,ファッション業界では,ファッションモデルといった意味で利用されている。
(Second Embodiment: Metadata Assignment Support Device)
In the first embodiment, the dictionary 352 and the vocabulary system 354 are represented as a single entity. However, depending on the field in which the posted information is used, the range of synonyms may be different, or the vocabulary concepts may be different. For example, the word “model” is used in the meaning of a model, model, etc. in the manufacturer, but is used in the fashion industry as a fashion model.

以下に示す第2の実施形態においては,掲示情報にメタデータを付与する際,付与目的に応じて分野を区別し,その分野毎の辞書352や語彙体系354を選択し,このような付与目的の観点から当該分野においては重要と考えられる単語を抽出することによって,より容易にかつより掲示情報に相応しいメタデータを生成することが可能となる。   In the second embodiment described below, when metadata is added to the posting information, the fields are distinguished according to the purpose of assignment, a dictionary 352 and a vocabulary system 354 for each field are selected, and such a purpose of assignment is selected. From this point of view, it is possible to generate metadata more easily and more suitable for the posted information by extracting words considered to be important in this field.

第2の実施形態における分野は,例えば,「スポーツ」,「料理」,「学業」といったカテゴリ,その中の「野球」,「サッカー」といった競技,また,「ビジネス」,「趣味」といった目的等,様々に区別され得る。   The fields in the second embodiment include, for example, categories such as “sports”, “cooking”, and “school”, competitions such as “baseball” and “soccer”, and purposes such as “business” and “hobby”. , Can be distinguished in various ways.

図7は,第2の実施形態におけるメタデータ付与支援装置500の概略的な機能を示した機能ブロック図である。かかるメタデータ付与支援装置500は,掲示情報取得部300と,分野選択部510と,辞書保持部302と,単語抽出部304と,語彙体系保持部306と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とを含んで構成される。   FIG. 7 is a functional block diagram showing a schematic function of the metadata assignment support apparatus 500 according to the second embodiment. The metadata assignment support apparatus 500 includes a bulletin information acquisition unit 300, a field selection unit 510, a dictionary holding unit 302, a word extraction unit 304, a vocabulary holding unit 306, a candidate output unit 308, and metadata generation. A unit 310 and a metadata holding unit 312 are included.

第1の実施形態における構成要素として既に述べた掲示情報取得部300と,単語抽出部304と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とは,実質的に機能が同一なので重複説明を省略し,ここでは,構成が相違する分野選択部510と,辞書保持部302と,語彙体系保持部306とを主に説明する。   The bulletin information acquisition unit 300, the word extraction unit 304, the candidate output unit 308, the metadata generation unit 310, and the metadata holding unit 312 that have already been described as components in the first embodiment substantially function. Therefore, the field selection unit 510, the dictionary holding unit 302, and the lexical system holding unit 306 having different configurations will be mainly described.

上記分野選択部510は,掲示情報取得部300が取得した掲示情報に応じて,選択可能な分野を導出し,ユーザに所望の分野を選択させる。また,掲示情報を解析すること無しに,ユーザに特定の分野を入力させることもできる。   The field selection unit 510 derives selectable fields in accordance with the bulletin information acquired by the bulletin information acquisition unit 300 and causes the user to select a desired field. It is also possible to allow the user to input a specific field without analyzing the bulletin information.

上記辞書保持部302は,形態素や接辞,接続情報,文法情報,同義語等の単語認識に関する分野毎の辞書352が複数保持され,単語抽出部304は,分野選択部510によって選択させた分野の辞書352を参照し,掲示情報350を表すキーワードと該キーワードの[属性値](例えば,人名,地名等の固有名詞)を表しうる単語とを抽出する。   The dictionary holding unit 302 holds a plurality of field-specific dictionaries 352 related to word recognition such as morphemes, affixes, connection information, grammatical information, and synonyms, and the word extraction unit 304 stores the fields selected by the field selection unit 510. With reference to the dictionary 352, a keyword representing the posting information 350 and a word that can represent an [attribute value] of the keyword (for example, a proper noun such as a person name or a place name) are extracted.

上記語彙体系保持部306は,分野毎の語彙体系354を複数保持し,候補出力部308は,分野選択部510によって選択させた分野の語彙体系354に従って,キーワードと,キーワードの[属性値]となるべき,単語抽出部304で抽出された単語の候補とを出力(表示)する。   The lexical system holding unit 306 holds a plurality of vocabulary systems 354 for each field, and the candidate output unit 308 follows keywords according to the vocabulary system 354 of the field selected by the field selection unit 510, and the [attribute value] of the keyword. The candidate words extracted by the word extraction unit 304 are output (displayed).

上記語彙体系354は,分野やカテゴリ毎にその語彙の体系が相違する場合がある。このような場合,その分野毎の語彙体系を適用した方がより精度の高いメタデータ360を生成しうる。かかる構成では,メタデータ360を付与するユーザに所望の分野を選択させ,その分野の語彙体系354を利用することによって,その分野に特化した語彙を抽出でき,検索に適したメタデータ360を生成することが可能となる。   The vocabulary system 354 may differ in vocabulary system for each field or category. In such a case, the metadata 360 with higher accuracy can be generated by applying the vocabulary system for each field. In such a configuration, the user who gives the metadata 360 selects a desired field, and by using the vocabulary system 354 of the field, the vocabulary specialized for the field can be extracted, and the metadata 360 suitable for the search can be obtained. Can be generated.

続いて,ユーザの所望する分野を,ユーザに選択させる代わりに,ユーザの操作履歴によって推定する構成を説明する。   Next, a configuration will be described in which the user's desired field is estimated based on the user's operation history instead of the user selecting.

図8は,第2の実施形態の他の例におけるメタデータ付与支援装置500の概略的な機能を示した機能ブロック図である。かかるメタデータ付与支援装置500は,掲示情報取得部300と,所望分野推定部520と,辞書保持部302と,単語抽出部304と,語彙体系保持部306と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とを含んで構成される。   FIG. 8 is a functional block diagram showing a schematic function of the metadata assignment support apparatus 500 in another example of the second embodiment. The metadata assignment support apparatus 500 includes a bulletin information acquisition unit 300, a desired field estimation unit 520, a dictionary holding unit 302, a word extraction unit 304, a lexical system holding unit 306, a candidate output unit 308, metadata A generation unit 310 and a metadata holding unit 312 are included.

第1の実施形態における構成要素として既に述べた掲示情報取得部300と,単語抽出部304と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とは,実質的に機能が同一なので重複説明を省略し,ここでは,構成が相違する所望分野推定部520と,辞書保持部302と,語彙体系保持部306とを主に説明する。   The bulletin information acquisition unit 300, the word extraction unit 304, the candidate output unit 308, the metadata generation unit 310, and the metadata holding unit 312 that have already been described as components in the first embodiment substantially function. The description is omitted here, and here, the desired field estimation unit 520, the dictionary holding unit 302, and the lexical system holding unit 306 having different configurations will be mainly described.

上記所望分野推定部520は,ユーザの当該メタデータ付与支援装置500への操作履歴,例えば,過去において参照した掲示情報の履歴,アクセス数の多い掲示情報の分野や指定される回数の多い分野からユーザの所望する分野を推定する。   The desired field estimation unit 520 determines the user's operation history with respect to the metadata assignment support apparatus 500, for example, the history of bulletin information referred to in the past, the field of bulletin information with a large number of accesses, and the field with a large number of designated times. Estimate the field desired by the user.

上記辞書保持部302は,分野毎の辞書352が複数保持され,単語抽出部304は,所望分野推定部520によって推定させた分野の辞書352を参照し,掲示情報350を表すキーワードと該キーワードの[属性値](例えば,人名,地名等の固有名詞)を表しうる単語とを抽出する。   The dictionary holding unit 302 holds a plurality of dictionaries 352 for each field, and the word extraction unit 304 refers to the field dictionary 352 estimated by the desired field estimation unit 520 and uses the keyword representing the posting information 350 and the keyword Words that can represent [attribute value] (for example, proper nouns such as personal names and place names) are extracted.

上記語彙体系保持部306は,分野毎の語彙体系354を複数保持し,候補出力部308は,所望分野推定部520によって推定させた分野の語彙体系354に従って,キーワードと,キーワードの[属性値]となるべき,単語抽出部304で抽出された単語の候補とを出力(表示)する。   The lexical system holding unit 306 holds a plurality of vocabulary systems 354 for each field, and the candidate output unit 308 follows keywords and keyword [attribute values] according to the vocabulary system 354 of the field estimated by the desired field estimation unit 520. The candidate words extracted by the word extraction unit 304 are output (displayed).

かかる構成では,ユーザの当該メタデータ付与支援装置500への操作履歴を保持し,アクセス数の多い掲示情報350の分野や指定される回数の多い分野を推定し,その推定された分野の語彙体系354を利用することによって,その分野に特化した語彙を抽出でき,検索に適したメタデータ360を生成することが可能となる。   In such a configuration, the user's operation history of the metadata assignment support apparatus 500 is held, the field of the bulletin information 350 having a large number of accesses and the field having a large number of designated times are estimated, and the lexical system of the estimated field By using 354, a vocabulary specialized in the field can be extracted, and metadata 360 suitable for search can be generated.

続いて,上記分野を,ユーザの操作履歴によって推定する代わりに,単語抽出部304により抽出された単語に基づいて,メタデータ付与支援装置500側で推定する構成を説明する。   Next, a description will be given of a configuration in which the above-mentioned field is estimated on the side of the metadata providing support apparatus 500 based on the word extracted by the word extraction unit 304 instead of being estimated based on the user operation history.

図9は,第2の実施形態の他の例におけるメタデータ付与支援装置500の概略的な機能を示した機能ブロック図である。かかるメタデータ付与支援装置500は,掲示情報取得部300と,辞書保持部302と,単語抽出部304と,掲示分野推定部530と,語彙体系保持部306と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とを含んで構成される。   FIG. 9 is a functional block diagram showing a schematic function of the metadata assignment support apparatus 500 in another example of the second embodiment. The metadata assignment support apparatus 500 includes a bulletin information acquisition unit 300, a dictionary holding unit 302, a word extraction unit 304, a posting field estimation unit 530, a lexical system holding unit 306, a candidate output unit 308, a metadata A generation unit 310 and a metadata holding unit 312 are included.

第1の実施形態における構成要素として既に述べた掲示情報取得部300と,辞書保持部302と,単語抽出部304と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とは,実質的に機能が同一なので重複説明を省略し,ここでは,構成が相違する掲示分野推定部530と,語彙体系保持部306とを主に説明する。   The bulletin information acquisition unit 300, the dictionary holding unit 302, the word extraction unit 304, the candidate output unit 308, the metadata generation unit 310, the metadata holding unit 312 described above as the constituent elements in the first embodiment Since the functions are substantially the same, repeated description is omitted, and here, the posting field estimation unit 530 and the lexical system holding unit 306 having different configurations will be mainly described.

上記掲示分野推定部530は,単語抽出部304が抽出した単語に基づいて,掲示情報が属する分野を推定する。   The posting field estimation unit 530 estimates a field to which the posting information belongs based on the word extracted by the word extraction unit 304.

上記語彙体系保持部306は,分野毎の語彙体系354を複数保持し,候補出力部308は,掲示分野推定部530によって推定させた分野の語彙体系354に従って,キーワードと,キーワードの[属性値]となるべき,単語抽出部304で抽出された単語の候補とを出力(表示)する。   The lexical system holding unit 306 holds a plurality of vocabulary systems 354 for each field, and the candidate output unit 308 follows the vocabulary system 354 of the field estimated by the posting field estimation unit 530 and the keyword and [attribute value] of the keyword. The candidate words extracted by the word extraction unit 304 are output (displayed).

かかる構成では,掲示情報から抽出された1または2以上の単語から当該掲示情報の分野を自動的に推定し,その推定された分野の語彙体系354を利用することによって,その分野に特化した語彙を抽出でき,検索に適したメタデータ360を生成することが可能となる。   In such a configuration, the field of the posted information is automatically estimated from one or more words extracted from the posted information, and the vocabulary system 354 of the estimated field is used to specialize in the field. Vocabulary can be extracted, and metadata 360 suitable for search can be generated.

上記第2の実施形態によると,掲示情報を検索する上での分野を選択することにより,異義語による誤検出,所謂「誤爆」を削減することができ,不要な候補を検出することが少なくなるため,所望の掲示情報がより一層検出され易くなる。また,分野毎に同義語の定義や代表する単語が異なるため,掲示情報の原文では同一語句であってもメタデータの段階で異なる語句として表現され,さらに誤爆を回避することができる効果がある。   According to the second embodiment, by selecting a field for searching bulletin information, it is possible to reduce false detection by a synonym, so-called “misexplosion”, and to detect unnecessary candidates. Therefore, it becomes easier to detect desired bulletin information. Also, because synonym definitions and representative words are different for each field, even the same phrase in the original posted information is expressed as a different phrase at the metadata stage, and it is possible to avoid false explosions. .

(第3の実施形態:メタデータ付与支援装置)
第3の実施形態におけるメタデータ付与支援装置は,ユーザによるメタデータ360の付与にインセンティブを与えて,メタデータ360の付与の促進を図り,ひいてはメタデータ360が付与された掲示情報の数を増大させる。また,このような付与されたメタデータを用いることにより,プログラム等が自動的に情報の内容を解釈して何かしらの処理を行うことが可能な掲示情報が増大することも期待できる。
(Third Embodiment: Metadata Assignment Support Device)
The metadata grant support apparatus according to the third embodiment gives an incentive to the grant of metadata 360 by the user, promotes the grant of metadata 360, and consequently increases the number of posting information to which the metadata 360 is given. Let In addition, by using such assigned metadata, it can be expected that the number of posted information that can automatically interpret the contents of the information and perform some kind of processing can be expected.

図10は,第3の実施形態におけるメタデータ付与支援装置600の概略的な機能を示した機能ブロック図である。かかるメタデータ付与支援装置600は,掲示情報取得部300と,辞書保持部302と,単語抽出部304と,語彙体系保持部306と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312と,条件保持部610と,追加通知部612とを含んで構成される。   FIG. 10 is a functional block diagram showing a schematic function of the metadata assignment support apparatus 600 according to the third embodiment. The metadata assignment support apparatus 600 includes a bulletin information acquisition unit 300, a dictionary holding unit 302, a word extraction unit 304, a lexical system holding unit 306, a candidate output unit 308, a metadata generation unit 310, and metadata. A holding unit 312, a condition holding unit 610, and an addition notification unit 612 are included.

第1の実施形態における構成要素として既に述べた掲示情報取得部300と,辞書保持部302と,単語抽出部304と,語彙体系保持部306と,候補出力部308と,メタデータ生成部310と,メタデータ保持部312とは,実質的に機能が同一なので重複説明を省略し,ここでは,構成が相違する条件保持部610と,追加通知部612とを主に説明する。   The bulletin information acquisition unit 300, the dictionary holding unit 302, the word extraction unit 304, the lexical system holding unit 306, the candidate output unit 308, the metadata generation unit 310, which have already been described as constituent elements in the first embodiment. The metadata holding unit 312 has substantially the same function, and thus a duplicate description thereof will be omitted. Here, the condition holding unit 610 and the addition notification unit 612 having different configurations will be mainly described.

上記条件保持部610は,ユーザの所望する分野もしくはメタデータの条件を保持する。ユーザがメタデータ付与支援装置600に対して,特定のメタデータ,例えば「イベント」−「開催地」−「東京展示場」を,ユーザを特定するID等やユーザへの通知先と合わせて登録する。かかる登録は,メタデータを列挙して行われてもよいし,[タイプ]−[属性]のみ,[タイプ]のみ,分野のみによって行うとしても良く,[タイプ],[属性],[属性値]の上位概念,例えば,「スキー」および「スノーボード」を合わせて「ウィンタースポーツ」として行ってもよい。さらに,分野,[タイプ],[属性],[属性値]何れかの論理和や論理積をとって条件とすることも可能である。   The condition holding unit 610 holds fields or metadata conditions desired by the user. The user registers specific metadata, for example, “event”-“venue”-“Tokyo exhibition hall” with the ID for identifying the user and the notification destination to the user, with respect to the metadata providing support device 600. To do. Such registration may be performed by enumerating metadata, or may be performed only by [Type]-[Attribute], [Type], or only by field, [Type], [Attribute], [Attribute Value]. ], For example, “skiing” and “snowboarding” may be combined and performed as “winter sports”. Furthermore, it is possible to use the logical sum or logical product of any of the field, [type], [attribute], and [attribute value] as a condition.

また,ユーザが任意の掲示情報に対してメタデータを付与したとき,メタデータ付与支援装置600が自動的に付与されたメタデータを,メタデータの条件として条件保持部610に登録するとしてもよい。通常,ユーザは興味ある掲示情報に対してメタデータを付与する。上記の構成において,ユーザは,メタデータを付与すると同時に,興味あるメタデータを条件保持部610に登録することができる。   Further, when the user assigns metadata to arbitrary posted information, the metadata assignment support apparatus 600 may register the automatically assigned metadata in the condition holding unit 610 as a metadata condition. . Usually, the user gives metadata to the posted information of interest. In the above configuration, the user can register the metadata of interest in the condition holding unit 610 at the same time as adding the metadata.

上記追加通知部612は,条件保持部610に保持された条件を満たすメタデータが,他のユーザによってメタデータ保持部に追加された場合,上記登録されているユーザにその旨を通知する。例えば,上記の「イベント」−「開催地」−「東京展示場」のメタデータが,特定のユーザの条件として条件保持部610に登録されている場合に,他のユーザが同じメタデータを掲示情報に付与すると,その旨を,メタデータを登録しているユーザに通知し,ユーザの所望する掲示情報の登録があったことを伝達して,そのユーザに掲示情報の閲覧を勧める。かかる通知は,キーワードとその掲示情報を示すURL(Uniform Resource Locator)とを含むとしてもよい。   When the metadata that satisfies the condition held in the condition holding unit 610 is added to the metadata holding unit by another user, the addition notification unit 612 notifies the registered user to that effect. For example, when the above metadata of “event”-“venue”-“Tokyo exhibition hall” is registered in the condition holding unit 610 as a condition for a specific user, other users post the same metadata. When it is added to the information, the fact is notified to the user who has registered the metadata, the fact that the posting information desired by the user has been registered, and the user is encouraged to view the posting information. Such notification may include a keyword and a URL (Uniform Resource Locator) indicating the posted information.

以下に,かかるメタデータ付与支援装置600を利用してメタデータを付与する方法を述べる。   A method for assigning metadata using the metadata assignment support apparatus 600 will be described below.

(メタデータ付与支援方法)
図11は,第3の実施形態におけるメタデータ付与支援方法の処理の流れを示したフローチャートであり,以下,図10の構成と併せて処理の流れについて説明する。
(Metadata grant support method)
FIG. 11 is a flowchart showing the processing flow of the metadata assignment support method according to the third embodiment. The processing flow will be described below together with the configuration of FIG.

当該メタデータ付与支援方法の前提として,条件保持部610により,ユーザの所望する分野もしくはメタデータの条件が登録されているものとする。   As a premise of the metadata providing support method, it is assumed that the condition holding unit 610 registers a field desired by the user or metadata conditions.

先ず,メタデータ付与支援装置600の掲示情報取得部300は,通信網200を介して,HTTPプロトコルにより掲示情報350を取得する(S700)。そして,単語抽出部304は,文書を特定するのに不要なタグ等を削除し,掲示情報350に含まれる文書を形態素解析や構文解析により形態素に分解し,掲示情報350を特定するキーワードと,辞書352に定義された,該キーワードの[属性値](例えば,人名,地名等の固有名詞)を表しうる単語とを抽出する(S702)。   First, the posting information acquisition unit 300 of the metadata assignment support apparatus 600 acquires the posting information 350 by the HTTP protocol via the communication network 200 (S700). Then, the word extraction unit 304 deletes a tag or the like unnecessary for specifying the document, decomposes the document included in the posting information 350 into a morpheme by morphological analysis or syntax analysis, and specifies a keyword for specifying the posting information 350; Words defined in the dictionary 352 that can represent [attribute values] of the keyword (for example, proper nouns such as personal names and place names) are extracted (S702).

続いて,候補出力部308は,語彙体系354の関連付けに従い,単語抽出ステップ(S702)で抽出されたキーワードの候補と,該キーワードの属性値となるべき,単語抽出部304で抽出された単語の候補とをリスト化し,その候補リストをメニュー形式で表すWeb文書を作成する(S704)。そして,そのWeb文書をユーザの有する端末のモニタ,もしくは当該メタデータ付与支援装置230のモニタ356に出力(表示)する(S706)。このときの表示形式はメニュー形式に限定されず,様々な選択形式を適用することができる。   Subsequently, the candidate output unit 308 follows the association of the vocabulary system 354 with the keyword candidates extracted in the word extraction step (S702) and the word extracted by the word extraction unit 304, which should be attribute values of the keywords. Candidates are listed, and a Web document representing the candidate list in a menu format is created (S704). Then, the Web document is output (displayed) to the monitor of the terminal owned by the user or the monitor 356 of the metadata assignment support apparatus 230 (S706). The display format at this time is not limited to the menu format, and various selection formats can be applied.

次に,メタデータ生成部310は,ユーザが選択した単語を[属性値]として設定し,上記キーワードおよび[属性]と対,即ち,[タイプ]−[属性]−[属性値]の組にして,メタデータ360を生成する(S708)。そして,メタデータ保持部312は,メタデータ生成部310によって生成されたメタデータ360を他の端末装置220から参照できる形で保存する(S710)。   Next, the metadata generation unit 310 sets the word selected by the user as [attribute value], and makes a pair with the keyword and [attribute], that is, a pair of [type]-[attribute]-[attribute value]. The metadata 360 is generated (S708). Then, the metadata holding unit 312 stores the metadata 360 generated by the metadata generation unit 310 in a form that can be referred to from other terminal devices 220 (S710).

続いて,追加通知部612は,メタデータ生成部310によって生成されたメタデータを,条件保持部610に他のユーザが登録したメタデータの条件と比較する(S712)。この比較は,メタデータの条件に応じて行われ,単にメタデータが列挙されている場合は,そのメタデータとの完全一致を判断し,上位概念や論理計算を伴う場合はその演算も含んで判断される。上記比較した結果,同じメタデータが存在すれば,そのメタデータを登録しているユーザにその旨通知する(S714)。   Subsequently, the addition notification unit 612 compares the metadata generated by the metadata generation unit 310 with the metadata conditions registered by other users in the condition holding unit 610 (S712). This comparison is made according to the metadata conditions. If the metadata is simply listed, it is judged whether it is completely matched with the metadata. To be judged. As a result of the comparison, if the same metadata exists, the user who has registered the metadata is notified (S714).

また,コンピュータに,上述のメタデータ付与支援方法を遂行させるプログラムや,そのプログラムを記憶した記憶媒体も提供される。   Also provided are a program for causing a computer to perform the above-described metadata assignment support method, and a storage medium storing the program.

以上,説明したように,ユーザは,所望する分野やメタデータを指定(登録)することによって,その指定した分野やメタデータが他のユーザによって掲示情報に付与された場合,そのような掲示情報が追加された旨,及び/又はその追加された掲示情報自体を得ることができる。各ユーザは,自分の関心が高い分野について,他のユーザからの独自かつ新規に公表された情報の情報提供を受けるため,また,他のユーザに情報を提供するため,率先して当該メタデータ付与支援装置を利用することとなり,ひいては掲示情報のメタデータ付与化が促進される。このように多くの掲示情報にメタデータが付与されることで,システム全体の効用が増し,ユーザにとってより使いやすいシステムの構築がなされる。   As described above, when a user designates (registers) a desired field or metadata so that the designated field or metadata is added to the posted information by another user, such posted information Can be obtained and / or the added bulletin information itself. Each user takes the initiative to receive information about the fields that they are interested in in order to receive information provided by other users on their own and newly published information, and to provide information to other users. As a result, the use of the grant support device is promoted, so that the posting information can be given metadata. By adding metadata to such a large amount of bulletin information, the utility of the entire system is increased, and a system that is easier to use for the user is constructed.

以上,添付図面を参照しながら本発明の好適な実施形態について説明したが,本発明は係る例に限定されないことは言うまでもない。当業者であれば,特許請求の範囲に記載された範疇内において,各種の変更例または修正例に想到し得ることは明らかであり,それらについても当然に本発明の技術的範囲に属するものと了解される。   As mentioned above, although preferred embodiment of this invention was described referring an accompanying drawing, it cannot be overemphasized that this invention is not limited to the example which concerns. It will be apparent to those skilled in the art that various changes and modifications can be made within the scope of the claims, and these are naturally within the technical scope of the present invention. Understood.

例えば,上記実施形態においては,掲示情報の作成者とメタデータの付与者とを別人として表しているが,かかる場合に限られず,例えば,資源情報サーバとメタデータ付与支援装置とを一体に形成し,掲示情報を作成した時に併せてメタデータを付与することもできる。   For example, in the above-described embodiment, the creator of the posting information and the creator of the metadata are represented as different persons. However, the present invention is not limited to such a case. For example, the resource information server and the metadata providing support device are integrally formed. In addition, metadata can be added together with the posting information.

また,上記実施形態においては,メタデータを保持するメタデータ保持部をメタデータ付与支援装置内に設けているが,別体に設けるとしても良く,また,複数のメタデータDBを設けて,定期的にメタデータの同期をとるように構成することも可能である。   In the above embodiment, the metadata holding unit for holding the metadata is provided in the metadata assignment support apparatus. However, the metadata holding unit may be provided separately, and a plurality of metadata DBs may be provided for regular use. It is also possible to configure to synchronize metadata.

また,上記実施形態においては,単語抽出部において不要なタグを削除しているが,逆にこのタグを利用して,特定のタグ内にある単語を特定の条件で抽出するようにすることもできる。例えば,HTMLやXMLのヘッダタグを優先的にキーワードとして取り扱うことも可能である。   In the above embodiment, unnecessary tags are deleted in the word extraction unit. Conversely, it is also possible to extract words in a specific tag using a specific condition using this tag. it can. For example, it is possible to preferentially handle HTML or XML header tags as keywords.

また,上記実施形態においては,理解を容易にするため,インターネット上の掲示情報に限定して説明しているが,かかる場合に限られず,対応する文書が存在するWebサービスや,その他の電子的なドキュメントに適用することもできる。また,無体物でない例えば物品であっても,その物品を説明する文書および位置情報を利用するサービスで,必要な条件を満足する物品を検索するシステムにも適用可能である。   In the above embodiment, the description is limited to the posted information on the Internet in order to facilitate understanding. However, the present invention is not limited to this, and the Web service in which the corresponding document exists or other electronic information is described. It can also be applied to other documents. Further, even for an article that is not an intangible, for example, it can be applied to a system that searches for an article that satisfies a necessary condition with a service that uses a document and position information describing the article.

また,対象となる掲示情報は,日本語に限られず,本発明は,アルファベットやハングル等様々な言語に対応することができる。   Further, the target bulletin information is not limited to Japanese, and the present invention can deal with various languages such as alphabet and Korean.

さらに,上記実施形態においては,分野毎の複数の語彙体系を同階層に配しているが,分野を階層的に表すこともできる。例えば,「スポーツ」という分野の語彙体系の下の階層に「野球」の語彙体系を配置することが考えられる。このとき,状況に応じて,適用範囲を制限することも可能である。   Furthermore, in the above embodiment, a plurality of vocabulary systems for each field are arranged in the same hierarchy, but fields can also be represented hierarchically. For example, a vocabulary system of “baseball” may be arranged in a hierarchy below the vocabulary system of the field “sports”. At this time, it is possible to limit the application range according to the situation.

また,上記の実施形態においては,検索エンジンを例に挙げて各構成を説明したが,オントロジや語彙体系の考え方は他のアプリケーションにも適応可能であり,例えば,電子カレンダー,スケジューラ等のリンク付けにも使用することができる。例えば,イベント等の掲示情報に対するメタデータの[属性]として開催日等がある場合,カレンダーやスケジューラ等において,該当日に関連するイベントの情報を表示することにより,外部の情報と効率よく連携して,該情報を取り込むことができる。また,該メタデータを解釈し得る入出力機構をアプリケーション側に持たせることで,そのテーマや分野の属性を用い,興味ある分野のイベント情報だけを表示するアプリケーションを構成する等,様々な処理が容易に実行できる。   In the above embodiment, each configuration has been described by taking a search engine as an example. However, the concept of ontology and vocabulary can be applied to other applications, for example, a link such as an electronic calendar and a scheduler. Can also be used. For example, if there is a date etc. as metadata [attribute] for posted information such as events, the event information related to the relevant date is displayed in the calendar or scheduler, etc., so that it can be efficiently linked with external information. Thus, the information can be captured. In addition, by providing the application with an input / output mechanism that can interpret the metadata, various processes such as configuring an application that displays only the event information of the field of interest using the attributes of the theme and field. Easy to implement.

なお,本明細書のメタデータ付与支援方法における各工程は,必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく,並列的あるいは個別に実行される処理(例えば,並列処理あるいはオブジェクトによる処理)も含むとしてもよい。   Note that the steps in the metadata assignment support method of the present specification do not necessarily have to be processed in chronological order in the order described in the flowchart, but are performed in parallel or individually (for example, parallel processing or Object processing) may also be included.

語彙体系の一例を示した説明図である。It is explanatory drawing which showed an example of the vocabulary system. 掲示情報中の文書の一例を示したテキスト図である。It is the text figure which showed an example of the document in bulletin information. 図1に示した語彙体系に基づいて設定したメタデータの例を示した説明図である。It is explanatory drawing which showed the example of the metadata set based on the vocabulary system shown in FIG. 情報収集システムの概略を説明したブロック図である。It is a block diagram explaining the outline of an information collection system. 第1の実施形態におけるメタデータ付与支援装置の概略的な機能を示した機能ブロック図である。It is a functional block diagram showing the schematic function of the metadata grant support device in a 1st embodiment. 第1の実施形態におけるメタデータ付与支援方法の処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the process of the metadata provision assistance method in 1st Embodiment. 第2の実施形態におけるメタデータ付与支援装置の概略的な機能を示した機能ブロック図である。It is the functional block diagram which showed the schematic function of the metadata provision assistance apparatus in 2nd Embodiment. 第2の実施形態の他の例におけるメタデータ付与支援装置の概略的な機能を示した機能ブロック図である。It is the functional block diagram which showed the schematic function of the metadata provision assistance apparatus in the other example of 2nd Embodiment. 第2の実施形態の他の例におけるメタデータ付与支援装置の概略的な機能を示した機能ブロック図である。It is the functional block diagram which showed the schematic function of the metadata provision assistance apparatus in the other example of 2nd Embodiment. 第3の実施形態におけるメタデータ付与支援装置の概略的な機能を示した機能ブロック図である。It is the functional block diagram which showed the schematic function of the metadata provision assistance apparatus in 3rd Embodiment. 第3の実施形態におけるメタデータ付与支援方法の処理の流れを示したフローチャートである。It is the flowchart which showed the flow of the process of the metadata provision assistance method in 3rd Embodiment.

符号の説明Explanation of symbols

230,500,600 メタデータ付与支援装置
304 単語抽出部
306 語彙体系保持部
308 候補出力部
310 メタデータ生成部
312 メタデータ保持部
354 語彙体系
510 分野選択部
520 所望分野推定部
530 掲示分野推定部
610 条件保持部
612 追加通知部
230, 500, 600 Metadata assignment support device 304 Word extraction unit 306 Lexical system holding unit 308 Candidate output unit 310 Metadata generation unit 312 Metadata holding unit 354 Lexical system 510 Field selection unit 520 Desired field estimation unit 530 Posted field estimation unit 610 Condition holding unit 612 Addition notification unit

Claims (7)

通信網に接続され,
掲示情報に含まれる文書から自然言語解析により単語を抽出する単語抽出部と;
オントロジに基づく語彙体系を保持する語彙体系保持部と;
前記語彙体系に定義された関連付けに従い,キーワードと,該キーワードの属性値となるべき,前記単語抽出部で抽出された単語の候補とを出力する候補出力部と;
前記キーワード,属性,前記候補からユーザが選択した単語を対にしたメタデータを生成するメタデータ生成部と;
前記生成されたメタデータを保持するメタデータ保持部と;
を備えることを特徴とする,情報収集装置。
Connected to the communication network,
A word extraction unit for extracting words from a document included in the posted information by natural language analysis;
A vocabulary holding unit that holds an ontology-based vocabulary;
A candidate output unit that outputs a keyword and a word candidate extracted by the word extraction unit, which should be an attribute value of the keyword, according to the association defined in the vocabulary system;
A metadata generation unit that generates metadata paired with a word selected by the user from the keywords, attributes, and candidates;
A metadata holding unit for holding the generated metadata;
An information collecting apparatus comprising:
ユーザに所望の分野を選択させる分野選択部をさらに含み,
前記語彙体系保持部は,分野毎に設けられた複数の語彙体系を含み,
前記候補出力部は,前記分野選択部によりユーザが選択した分野の語彙体系に従い,属性値の候補を出力することを特徴とする,請求項1に記載の情報収集装置。
A field selection unit that allows the user to select a desired field;
The vocabulary system holding unit includes a plurality of vocabulary systems provided for each field,
The information collection device according to claim 1, wherein the candidate output unit outputs attribute value candidates according to a vocabulary system of a field selected by a user by the field selection unit.
ユーザの当該情報収集装置への操作履歴からユーザの所望する分野を推定する所望分野推定部をさらに含み,
前記語彙体系保持部は,分野毎に設けられた複数の語彙体系を含み,
前記候補出力部は,前記推定された分野の語彙体系に従い,属性値の候補を出力することを特徴とする,請求項1に記載の情報収集装置。
A desired field estimation unit for estimating a field desired by the user from an operation history of the user on the information collection device;
The vocabulary system holding unit includes a plurality of vocabulary systems provided for each field,
The information collection apparatus according to claim 1, wherein the candidate output unit outputs attribute value candidates according to a lexical system of the estimated field.
前記単語抽出部により抽出された単語に基づいて,前記掲示情報が属する分野を推定する掲示分野推定部をさらに含み,
前記語彙体系保持部は,分野毎に設けられた複数の語彙体系を含み,
前記候補出力部は,前記推定された分野の語彙体系に従い,属性値の候補を出力することを特徴とする,請求項1に記載の情報収集装置。
A posting field estimation unit for estimating a field to which the posting information belongs based on the word extracted by the word extraction unit;
The vocabulary system holding unit includes a plurality of vocabulary systems provided for each field,
The information collection apparatus according to claim 1, wherein the candidate output unit outputs attribute value candidates according to a lexical system of the estimated field.
ユーザの所望するメタデータの条件を保持する条件保持部と;
前記条件を満たすメタデータが,他のユーザによってメタデータ保持部に追加された場合,前記ユーザにその旨通知する追加通知部と;
をさらに備えることを特徴とする,請求項1〜4のいずれかに記載の情報収集装置。
A condition holding unit for holding metadata conditions desired by the user;
An additional notification unit for notifying the user when metadata satisfying the condition is added to the metadata holding unit by another user;
The information collection device according to claim 1, further comprising:
掲示情報に含まれる文書から自然言語解析により単語を抽出する単語抽出ステップと;
オントロジに基づく語彙体系に定義された関連付けに従い,キーワードと,該キーワードの属性値となるべき,前記単語抽出ステップにより抽出された単語の候補とを出力する候補出力ステップと;
前記キーワード,属性,前記候補からユーザが選択した単語を対にしたメタデータを生成するメタデータ生成ステップと;
前記生成されたメタデータを保持するメタデータ保持ステップと;
を含むことを特徴とする,情報収集方法。
A word extraction step of extracting words from the document included in the posted information by natural language analysis;
A candidate output step for outputting a keyword and a word candidate extracted by the word extraction step, which should be an attribute value of the keyword, in accordance with the association defined in the ontology-based vocabulary system;
A metadata generation step of generating metadata in which a word selected by the user from the keyword, attribute, and candidate is paired;
A metadata holding step for holding the generated metadata;
An information collection method characterized by including:
コンピュータに,
掲示情報に含まれる文書から自然言語解析により単語を抽出する単語抽出ステップと;
オントロジに基づく語彙体系に定義された関連付けに従い,キーワードと,該キーワードの属性値となるべき,前記単語抽出ステップにより抽出された単語の候補とを出力する候補出力ステップと;
前記キーワード,属性,前記候補からユーザが選択した単語を対にしたメタデータを生成するメタデータ生成ステップと;
前記生成されたメタデータを保持するメタデータ保持ステップと;
を実行させることを特徴とする,プログラム。
Computer
A word extraction step of extracting words from the document included in the posted information by natural language analysis;
A candidate output step for outputting a keyword and a word candidate extracted by the word extraction step, which should be an attribute value of the keyword, in accordance with the association defined in the ontology-based vocabulary system;
A metadata generation step of generating metadata in which a word selected by the user from the keyword, attribute, and candidate is paired;
A metadata holding step for holding the generated metadata;
A program characterized by running
JP2006013035A 2006-01-20 2006-01-20 Information collection apparatus, information collection method and program Pending JP2007193697A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006013035A JP2007193697A (en) 2006-01-20 2006-01-20 Information collection apparatus, information collection method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006013035A JP2007193697A (en) 2006-01-20 2006-01-20 Information collection apparatus, information collection method and program

Publications (1)

Publication Number Publication Date
JP2007193697A true JP2007193697A (en) 2007-08-02

Family

ID=38449335

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006013035A Pending JP2007193697A (en) 2006-01-20 2006-01-20 Information collection apparatus, information collection method and program

Country Status (1)

Country Link
JP (1) JP2007193697A (en)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249907A (en) * 2006-03-20 2007-09-27 Nippon Hoso Kyokai <Nhk> Knowledge metadata generation device and knowledge metadata generation program
JP2010026996A (en) * 2008-07-24 2010-02-04 Nippon Telegr & Teleph Corp <Ntt> Tag attachment support method and its device, program, and recording medium
JP2010079812A (en) * 2008-09-29 2010-04-08 Oki Electric Ind Co Ltd Apparatus and method for identifying location representation, and program
JP5315485B1 (en) * 2012-06-27 2013-10-16 楽天株式会社 Information processing apparatus, information processing method, and information processing program
JP5341276B1 (en) * 2012-06-27 2013-11-13 楽天株式会社 Information processing apparatus, information processing method, and information processing program
US10311867B2 (en) 2015-03-20 2019-06-04 Kabushiki Kaisha Toshiba Tagging support apparatus and method
US11907239B2 (en) 2019-12-27 2024-02-20 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing computer program

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007249907A (en) * 2006-03-20 2007-09-27 Nippon Hoso Kyokai <Nhk> Knowledge metadata generation device and knowledge metadata generation program
JP4709671B2 (en) * 2006-03-20 2011-06-22 日本放送協会 Knowledge metadata generation apparatus and knowledge metadata generation program
JP2010026996A (en) * 2008-07-24 2010-02-04 Nippon Telegr & Teleph Corp <Ntt> Tag attachment support method and its device, program, and recording medium
JP2010079812A (en) * 2008-09-29 2010-04-08 Oki Electric Ind Co Ltd Apparatus and method for identifying location representation, and program
JP5315485B1 (en) * 2012-06-27 2013-10-16 楽天株式会社 Information processing apparatus, information processing method, and information processing program
JP5341276B1 (en) * 2012-06-27 2013-11-13 楽天株式会社 Information processing apparatus, information processing method, and information processing program
WO2014002549A1 (en) * 2012-06-27 2014-01-03 楽天株式会社 Information processing device, information processing method, and information processing program
US10311867B2 (en) 2015-03-20 2019-06-04 Kabushiki Kaisha Toshiba Tagging support apparatus and method
US11907239B2 (en) 2019-12-27 2024-02-20 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing computer program

Similar Documents

Publication Publication Date Title
US11023513B2 (en) Method and apparatus for searching using an active ontology
KR101506380B1 (en) Infinite browse
US10235681B2 (en) Text extraction module for contextual analysis engine
JP4365074B2 (en) Document expansion system with user-definable personality
US9990422B2 (en) Contextual analysis engine
US10430806B2 (en) Input/output interface for contextual analysis engine
US9846720B2 (en) System and method for refining search results
US8001135B2 (en) Search support apparatus, computer program product, and search support system
Hyvönen Semantic portals for cultural heritage
US10762140B2 (en) Identifying content in a content management system relevant to content of a published electronic document
JPH1166081A (en) Profile acquisition system, information provision system, profile acquiring method and medium
JP2007193697A (en) Information collection apparatus, information collection method and program
JP2007072646A (en) Retrieval device, retrieval method, and program therefor
Rodrigues et al. Advanced applications of natural language processing for performing information extraction
JP2011154739A (en) Method and system for providing document search service
Fauzi et al. Image understanding and the web: a state-of-the-art review
US8195458B2 (en) Open class noun classification
Tabarcea et al. Framework for location-aware search engine
KR20050045650A (en) Information suppling system and method with info-box
JP5187187B2 (en) Experience information search system
KR101124213B1 (en) system of customized news-later service using ontology
KR101628511B1 (en) Search Engine Optimization and Server thereof
JP7323484B2 (en) Information processing device, information processing method, and program
KR102625347B1 (en) A method for extracting food menu nouns using parts of speech such as verbs and adjectives, a method for updating a food dictionary using the same, and a system for the same
Veeraiah et al. A novel approach for extraction and representation of main data from web pages to android application

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20090804