JP2011008599A - Item information processing apparatus for collective intelligence database system - Google Patents

Item information processing apparatus for collective intelligence database system Download PDF

Info

Publication number
JP2011008599A
JP2011008599A JP2009152545A JP2009152545A JP2011008599A JP 2011008599 A JP2011008599 A JP 2011008599A JP 2009152545 A JP2009152545 A JP 2009152545A JP 2009152545 A JP2009152545 A JP 2009152545A JP 2011008599 A JP2011008599 A JP 2011008599A
Authority
JP
Japan
Prior art keywords
item
items
information
integration
collective intelligence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009152545A
Other languages
Japanese (ja)
Inventor
Takahiro Masuda
高弘 増田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2009152545A priority Critical patent/JP2011008599A/en
Publication of JP2011008599A publication Critical patent/JP2011008599A/en
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

PROBLEM TO BE SOLVED: To appropriately determine and report the necessity of editing an item to a user in processing of information related to items provided from a plurality of users through a network and registered in a collective intelligence database system such as Wikipedia.SOLUTION: With respect to a plurality of items within the collective intelligence database system, a term in a sentence and link destination information are extracted from information related to each item as attributes of the item. The extracted attributes of each item are used to calculate a similarity between two items. According to the calculated similarity, it is reported to promote integration of information related to the two items. In item division processing, with respect to one item, a sentence that is information related to the item is divided on a paragraph to paragraph basis, a similarity for each paragraph is calculated using the attributes, and cluster analysis of the paragraphs is performed using the similarity. When the cluster number is larger than one, it is reported to promote cluster-based division of the item.

Description

本発明は、複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置に関する。   The present invention relates to an item information processing apparatus that processes items provided from a plurality of users through a network and registered in a collective intelligence database system.

今日、多数のユーザが保持する情報を、インターネット等の電子ネットワークを通じて寄せ集めたデータベースに関して、データベースの不足情報の補完や誤りの修正を経てより確実な情報の集合体とすることを目的とした集合知データベースシステムがある。例えば、“Wikipedia”(ウィキペディア)が挙げられる。   Today, a collection that gathers information held by a large number of users through an electronic network such as the Internet, and aims to make the collection of information more reliable by complementing the missing information in the database and correcting errors. There is an intelligent database system. An example is “Wikipedia”.

集合知データベースシステムにおいて説明される実際の対象を「オブジェクト」と呼ぶ。集合知データベースシステムでは、情報提供者であるユーザが保持する「オブジェクト」に関する情報に関して、ネットワークを通じた特定のサイト上で、あるいはこのサイトからリンク先が辿れるサイト上で、ユーザ自身がリンクアドレス情報を含ませた文章を記述することができる。記述された文章やリンクアドレス情報は、様々なユーザによって適宜編集される。この「オブジェクト」について記述された文章やリンクアドレス情報は、1つの項目として設けられる。1つの項目に対して1つの「オブジェクト」を対応させることにより、集合知データベースシステムはユーザにとって利用しやすいシステムとなる。   The actual object described in the collective intelligence database system is called an “object”. In the collective intelligence database system, the user himself / herself provides link address information on a specific site through the network or on a site where the link destination can be traced from this site, with respect to the information related to the “object” held by the information provider user. You can describe the included text. The written text and link address information are appropriately edited by various users. The text and link address information described for this “object” are provided as one item. By making one “object” correspond to one item, the collective intelligence database system becomes a system that is easy for the user to use.

しかし、集合知データベースシステムは、多くのユーザの知識を寄せ集めた集合体であるので、以下のようにユーザにとって利用し難い点がある。   However, since the collective intelligence database system is an aggregate that gathers the knowledge of many users, it is difficult for users to use as follows.

(1)複数の異なる「オブジェクト」に対して同じ項目が設けられる。
例えば、「オブジェクト」がある人物であり、同姓同名の人物がいる場合、同じ項目に、異なる人間に関する情報が重なって記述される場合がある。
あるいは、情報提供をするユーザの理解の不完全さにより、互いに「オブジェクト」が異なるにもかかわらず、1つの項目が作成される場合がある。
(1) The same item is provided for a plurality of different “objects”.
For example, when there is a person who has an “object” and there is a person with the same name and the same name, information on different persons may be overlapped in the same item.
Alternatively, one item may be created even though “objects” are different from each other due to incomplete understanding of a user who provides information.

(2)1つの「オブジェクト」に複数の項目が設けられる。
例えば「オブジェクト」がある人物であり、その人物が日本人である場合、同じ人物であっても、項目名称の表記はアルファベット表記、カナ表記、漢字表記等あり、各表記に応じて異なる項目が設けられる。また、項目名称について、外来語等をカナ表記にした場合、長音記号の有無によって異なる項目となる場合もある。
あるいは、情報提供をするユーザの理解の不完全さにより、実は同じ「オブジェクト」であるにもかかわらず、2つの項目が設けられる、あるいは、単に別名であるにもかかわらず、別々の項目が設けられる、あるいは、微細な助詞の差異や有無により、既に登録されている項目を十分に調べることなく、同一の「オブジェクト」について新たな項目を設ける場合がある。この場合、項目「A」の他に項目「B」が作成される。つまり、同じ「オブジェクト」の情報が2つの項目に分散してしまう。
あるいは、人物の名称は、その人物の母国語で記述すべきである、あるいは、人物の名称は、使用される場所の表記を用いるべきである等、ユーザ毎に流儀を持って項目の名称を定める場合、同一人物であるにもかかわらず、一方のユーザは人物の名称を「A」と定め、他方のユーザは人物の名称を「A’」と定め、項目を新設する場合もある。
(2) A plurality of items are provided in one “object”.
For example, if a person has an “object” and the person is a Japanese person, even if the person is the same, the item name is written in alphabet, kana, kanji, etc. Provided. In addition, when a foreign word or the like is written in kana for the item name, the item name may be different depending on the presence or absence of a long sound symbol.
Or, due to incomplete understanding of the user who provides information, two items are provided even though they are actually the same “object”, or separate items are provided even though they are merely aliases. Depending on the difference or presence or absence of fine particles, new items may be provided for the same “object” without sufficiently examining already registered items. In this case, item “B” is created in addition to item “A”. That is, the information of the same “object” is dispersed into two items.
Alternatively, the name of the person should be described in the native language of the person, or the name of the person should use the notation of the place where it is used, etc. In the case of setting, even though they are the same person, one user may set the name of the person as “A”, and the other user may set the name of the person as “A ′” and newly create an item.

このように、「オブジェクト」が同一にも係わらず、複数の項目を設ける場合や、「オブジェクト」が異なるにもかかわらず、1つの項目に関する情報として、異なる「オブジェクト」の情報が記述されるケースがある。   As described above, even when the “object” is the same, a plurality of items are provided, or different “object” information is described as information about one item even though the “object” is different. There is.

一方、マルチメディアに関し、特に、マルチメディアメタデータを生成するために、コミュニティによって生成された、ウィキペデイア等のデータ情報源を用いる技術が知られている。具体的には、まず、ウィキペデイア等のコミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する。次に、ウェブページから複数の用語を抽出する。コンテンツに関連するコンテンツメタデータに、抽出した複数の用語を追加する。この後、コンテンツメタデータから特定のカテゴリデータを抽出し、特定のカテゴリデータをカテゴリテータセットに取り込み、前記カテゴリデータセットと関係データに基づくカテゴリデータセットの次元数を減少させる。最後に、前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義する。このように、コミュニティによって生成された、ウィキペデイア等のデータ情報源を用いて、マルチメディアメタデータを生成することができる。   On the other hand, regarding multimedia, in particular, a technique using a data information source such as Wikipedia generated by a community to generate multimedia metadata is known. Specifically, first, a web page related to specific content is received from a website generated by a community such as Wikipedia. Next, a plurality of terms are extracted from the web page. Add multiple extracted terms to content metadata related to content. Thereafter, specific category data is extracted from the content metadata, the specific category data is taken into the category data set, and the number of dimensions of the category data set based on the category data set and the relation data is reduced. Finally, the relationship data defines a relationship between the category data set and content related to the category data set. In this way, multimedia metadata can be generated using a data information source such as Wikipedia generated by the community.

特開2008−4080号公報JP 2008-4080 A

しかし、上記公知の方法におけるコンテンツメタデータは、ウィキペデイア等のデータ情報源(集合知データベースシステム)に基づいて生成されるため、ウィキペデイア等のデータ情報源が正しく編集されない限り、質のよいメタデータを生成することはできない。   However, since the content metadata in the above-described known method is generated based on a data information source (collective intelligence database system) such as Wikipedia, high-quality metadata can be used unless the data information source such as Wikipedia is edited correctly. It cannot be generated.

そこで、本発明は、複数のユーザからネットワークを通じて提供され、ウィキペデイア等の集合知データベースシステム内に登録されている項目を編集するとき、項目の編集の要否を正確に判定することのできる項目情報処理装置を提供することを目的とする。   Therefore, the present invention provides item information that can accurately determine whether or not an item needs to be edited when editing an item that is provided from a plurality of users through a network and is registered in a collective intelligence database system such as Wikipedia. An object is to provide a processing apparatus.

上記目的は、複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する以下に示す項目情報処理装置で実現され得る。
その際、
(A)前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含む。
第1の態様である、項目の統合処理を行う項目情報処理装置は、
(B)前記集合知データベースシステム内の選択された2つの項目について、該2つの項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
(C)前記属性抽出部にて抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
(D)前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
(E)前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有する。
The above object can be realized by an item information processing apparatus shown below that processes items provided from a plurality of users through a network and registered in the collective intelligence database system.
that time,
(A) The information related to each of the plurality of items registered in the collective intelligence database system includes a sentence explaining the contents of each item in a plurality of terms, and the accompanying information. Link information of at least one of internal link destination information in the knowledge database system and external link destination information outside the collective intelligence database system.
An item information processing apparatus that performs item integration processing, which is the first aspect,
(B) for two selected items in the collective intelligence database system, an attribute extracting unit that extracts the term and the link destination information as item attributes from information related to the two items;
(C) using the attribute extracted by the attribute extraction unit, an attribute calculation unit that calculates the similarity between the two items;
(D) an edit processing unit that determines whether or not the two items need to be integrated based on the similarity;
(E) a first communication unit for notifying a user or a system administrator of content that prompts the integration of the two items according to a determination result of the editing processing unit.

また、第2の態様である項目情報処理装置は、
(F)前記集合知データベースシステムに登録されている全項目を処理対象項目として項目毎に、項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
(G)前記全項目からつくられる2つの項目の全組み合わせそれぞれについて、組み合わせに用いる項目の前記属性を用いて、項目間の類似度を取得する属性演算部と、
(H)取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、前記2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する編集処理部と、
(I)前記編集処理部の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有する。
Moreover, the item information processing apparatus which is a 2nd aspect is
(F) An attribute extraction unit that extracts all the items registered in the collective intelligence database system as items to be processed for each item, and extracts the term and the link destination information from the items related information as item attributes When,
(G) For each of all combinations of two items created from all the items, using the attribute of the item used for the combination, an attribute calculation unit that acquires the similarity between the items;
(H) When two or more combinations of items whose acquired similarity is higher than a predetermined threshold value and the combination of each other shares a common item, the item used for the two or more combinations is 1 An edit processing unit that determines that integration into one item is required,
(I) a first communication unit for notifying a user or a system administrator of contents for prompting integration of items according to a determination result of the editing processing unit.

一方、第3の態様である項目の分割処理を行う項目情報処理装置は、
(J)前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
(K)前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
(L)前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
(M)前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
(N)前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有する。
On the other hand, the item information processing apparatus that performs the item division processing according to the third aspect is
(J) a paragraph dividing unit that divides a sentence related to a selected item in the collective intelligence database system into a plurality of paragraphs;
(K) for each of the plurality of divided paragraphs, an attribute extraction unit that extracts the term and the link destination information as paragraph attributes;
(L) An attribute calculation unit that calculates the degree of similarity between paragraphs for all combinations of two paragraphs created from a plurality of paragraphs divided by the paragraph division unit, using the attributes of the paragraphs used for the combination When,
(M) an edit processing unit that determines whether or not the selected item needs to be divided based on the calculation result of the similarity;
(N) a first communication unit for notifying a user or a system administrator of content that prompts the user to divide the selected item according to the determination result of the editing processing unit.

上述の項目情報処理装置および項目情報処理方法は、項目の編集(統合、分割)処理の要否を正確に判定しユーザに通知することができる。したがって、ユーザにとって扱い易い集合知データベースシステムが実現でき、より多くのユーザにより利用され得る。   The item information processing apparatus and the item information processing method described above can accurately determine whether or not an item editing (integration or division) process is necessary and notify the user. Therefore, a collective intelligence database system that is easy to handle for users can be realized, and can be used by more users.

項目情報処理装置を用いた項目情報処理システムの一実施形態の概略の構成を示す図である。It is a figure which shows the structure of the outline of one Embodiment of the item information processing system using an item information processing apparatus. 図1に示す項目情報処理システムにおいて行う統合処理の概要を説明する図である。It is a figure explaining the outline | summary of the integration process performed in the item information processing system shown in FIG. 図1に示す項目情報処理システムにおいて行う分割処理の概要を説明する図である。It is a figure explaining the outline | summary of the division | segmentation process performed in the item information processing system shown in FIG. (a)および(b)は、図1に示す項目情報処理装置が行うリンクアドレス情報の抽出結果および単語の抽出結果の例を示す図である。(A) And (b) is a figure which shows the example of the extraction result of the link address information and the extraction result of a word which the item information processing apparatus shown in FIG. 1 performs. 図2に示す統合処理の流れを説明するフローチャートである。It is a flowchart explaining the flow of the integration process shown in FIG. (a)および(b)は、図5に示す統合処理において統合対象となる項目の例と、作成された統合項目案の例を示す図である。(A) And (b) is a figure which shows the example of the item used as integration object in the integration process shown in FIG. 5, and the example of the created integrated item plan. 図6(b)とは異なる統合項目案の他の例を示す図である。It is a figure which shows the other example of the integrated item plan different from FIG.6 (b). 図3に示す分割処理の流れを説明するフローチャートである。It is a flowchart explaining the flow of the division | segmentation process shown in FIG. (a)および(b)は、図8に示す分割処理において分割対象となる項目の例と、作成された分割項目案の例を示す図である。(A) And (b) is a figure which shows the example of the item used as the division | segmentation object in the division | segmentation process shown in FIG. 8, and the example of the division item proposal produced.

以下、本発明の項目情報処理装置について実施形態に基づいて詳細に説明する。図1は、項目情報処理装置を用いた項目情報処理システムの一実施形態の概略構成図である。   Hereinafter, the item information processing apparatus of the present invention will be described in detail based on embodiments. FIG. 1 is a schematic configuration diagram of an embodiment of an item information processing system using an item information processing apparatus.

図1に示す項目情報処理システム10は、“Wikipedia”(ウィキペディア)等の集合知データベースシステムに登録されている項目とその項目に関する情報とを編集処理するか否かを判定するシステムである。集合知データベースシステムは、集合知データベースサーバ14とユーザ端末16とを備える。一方、項目情報処理システム12は、集合知データベースシステムに加えて、項目情報処理装置12およびシステム管理者端末18を含む。
ここで、編集は、項目の統合および分割を含む。項目の統合および分割に応じて、項目に関する情報の統合および分割も行われる。集合知データベースシステムに登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、この文章に付随して記されているリンク先情報と、を含む。リンク先情報は、集合知データベースシステム内の内部リンク先情報および集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方を含む。
項目の統合、分割の要否の判定は、類似度を計算することによって行われる。この類似度は、項目に関する情報に含まれる属性を用いて算出される。属性とは、項目を特徴付けるものであり、項目に関する情報に含まれる用語、内部リンクアドレス情報、外部リンクアドレス情報を含む。
An item information processing system 10 shown in FIG. 1 is a system that determines whether or not to edit an item registered in a collective intelligence database system such as “Wikipedia” and information related to the item. The collective intelligence database system includes a collective intelligence database server 14 and a user terminal 16. On the other hand, the item information processing system 12 includes an item information processing device 12 and a system administrator terminal 18 in addition to the collective intelligence database system.
Here, editing includes integration and division of items. In accordance with integration and division of items, integration and division of information regarding items is also performed. The information regarding each of the plurality of items registered in the collective intelligence database system includes a sentence describing the contents of each item in a plurality of terms and link destination information described accompanying the sentence. The link destination information includes at least one of internal link destination information in the collective intelligence database system and external link destination information outside the collective intelligence database system.
The determination of whether or not to integrate and divide items is performed by calculating the similarity. This similarity is calculated using the attribute included in the information regarding the item. An attribute characterizes an item, and includes terms included in information about the item, internal link address information, and external link address information.

(項目情報処理システムの統合処理の概要)
図2は、項目情報処理システム10において行う編集処理のうち、統合処理を説明する図である。統合処理は、主に項目情報処理装置にて行われる統合の要否の判定と統合項目案の作成を含む。図2に示す統合処理は、お互いの項目同士が実は同じ「オブジェクト」であるにもかかわらず、集合知データベースシステムにおいて項目Aと項目Bとが登録されて設けられている場合の統合処理の概要を説明している。
まず、項目情報処理システム10の項目情報処理装置12は、項目Aに関する情報を集合知データベースシステムから選択して、外部リンクアドレス情報、内部リンクアドレス情報、用語を抽出する。一方、項目Bについても、項目Bに関する情報を集合知データベースシステムから取り出して、外部リンクアドレス情報、内部リンクアドレス情報、用語を抽出する。項目情報処理装置12は、抽出した外部リンクアドレス情報、内部リンクアドレス情報、用語を用いて、類似度の計算を行う。類似度の結果が予め定めた閾値を越える場合、項目情報処理装置12が、統合項目案を作成するとともに、ユーザあるいはシステム管理者に項目Aと項目Bの統合の催促を通知する。項目情報処理装置12は、ユーザあるいはシステム管理者から統合承認の返答を受け、さらに、統合項目案の承認を受けると、作成した統合項目案は確定し、この統合項目案が、集合知データベースサーバ14における新たな項目として登録される。
(Outline of integrated processing of item information processing system)
FIG. 2 is a diagram for explaining integration processing among editing processing performed in the item information processing system 10. The integration process mainly includes determination of necessity of integration performed in the item information processing apparatus and creation of an integrated item plan. The integration process shown in FIG. 2 is an outline of the integration process when items A and B are registered and provided in the collective intelligence database system even though the items are actually the same “object”. Is explained.
First, the item information processing apparatus 12 of the item information processing system 10 selects information on the item A from the collective intelligence database system, and extracts external link address information, internal link address information, and terms. On the other hand, for item B, information related to item B is extracted from the collective intelligence database system, and external link address information, internal link address information, and terms are extracted. The item information processing apparatus 12 calculates similarity using the extracted external link address information, internal link address information, and terms. When the result of the similarity exceeds a predetermined threshold, the item information processing apparatus 12 creates an integrated item plan and notifies the user or system administrator of the prompt for the integration of item A and item B. When the item information processing apparatus 12 receives a reply of the integrated approval from the user or the system administrator, and further receives the approval of the integrated item proposal, the created integrated item proposal is fixed, and this integrated item proposal is the collective intelligence database server. 14 is registered as a new item.

(項目情報処理システムの分割処理の概要)
図3は、分割処理を説明する図である。分割処理は、主に項目情報処理装置12にて行われる分割の要否の判定と分割項目案の作成を含む。図3に示す分割処理は、互いに異なる複数の「オブジェクト」であるにもかかわらず、1つの項目Aに複数の「オブジェクト」に関する情報が含まれている場合の分割処理の概要を説明している。
まず、項目情報処理システム10の項目情報処理装置12は、項目Aに関する情報を集合知データベースシステムから選択して、この情報を段落単位に分割する。項目Aの段落は、段落1〜3を含む場合を想定する。この場合、項目情報処理装置12は、段落1〜3においてそれぞれ、外部リンクアドレス情報、内部リンクアドレス情報、用語を抽出する。抽出した外部リンクアドレス情報、内部リンクアドレス情報、用語を用いて、項目情報処理装置12は、段落1と段落2、段落2と段落3、及び段落3と段落1との間の類似度の計算を行い、さらにこの類似度の算出結果に基づいて、段落のクラスタ分析を行う。クラスタ分析では、項目情報処理装置12は、類似度の計算結果に基づいて段落の分割すべき数に当たるクラスタ数を求め、このクラスタ数が1より大きい場合、項目の分割を要すると判定する。このとき、項目情報処理装置12が、分割項目案を作成するとともに、ユーザあるいはシステム管理者に分割の催促を通知する。ユーザあるいはシステム管理者から分割承認の返答を受け、更に、分割項目案も承認されると、分割項目案は確定し、集合知データベースサーバ14に新たな項目として登録される。
(Outline of division processing of item information processing system)
FIG. 3 is a diagram for explaining the dividing process. The division processing mainly includes determination of necessity of division performed in the item information processing apparatus 12 and creation of a division item proposal. The division process shown in FIG. 3 is an outline of the division process when information about a plurality of “objects” is included in one item A even though the plurality of “objects” are different from each other. .
First, the item information processing apparatus 12 of the item information processing system 10 selects information on the item A from the collective intelligence database system, and divides this information into paragraph units. The paragraph of item A is assumed to include paragraphs 1-3. In this case, the item information processing apparatus 12 extracts external link address information, internal link address information, and terms in paragraphs 1 to 3, respectively. Using the extracted external link address information, internal link address information, and terms, the item information processing apparatus 12 calculates the similarity between paragraphs 1 and 2, paragraphs 2 and 3, and paragraphs 3 and 1. Further, the cluster analysis of the paragraph is performed based on the calculation result of the similarity. In the cluster analysis, the item information processing apparatus 12 obtains the number of clusters corresponding to the number of paragraphs to be divided based on the similarity calculation result, and determines that the item needs to be divided when the number of clusters is larger than one. At this time, the item information processing apparatus 12 creates a division item plan and notifies the user or system administrator of the division prompt. When a divisional approval is received from the user or the system administrator and the proposed divided item is further approved, the divided item plan is finalized and registered as a new item in the collective intelligence database server 14.

(項目情報処理システムの構成)
項目情報処理システム10は、図1に示されるように、項目情報処理装置12と、集合知データベースサーバ14と、複数のユーザ端末16と、システム管理者端末18と、を有する。
項目情報処理装置12は、集合知データベースサーバ14に登録されている項目の編集の要否を判定し、統合項目案、分割項目案の作成を行う。項目情報処理装置12は、ネットトワーク20を介して、集合知データベースサーバ14およびユーザ端末16に接続され、さらに、システム管理者端末18に接続されている。
(Configuration of item information processing system)
As illustrated in FIG. 1, the item information processing system 10 includes an item information processing device 12, a collective intelligence database server 14, a plurality of user terminals 16, and a system administrator terminal 18.
The item information processing apparatus 12 determines whether it is necessary to edit items registered in the collective intelligence database server 14 and creates an integrated item plan and a divided item plan. The item information processing device 12 is connected to the collective intelligence database server 14 and the user terminal 16 via the network 20, and further connected to the system administrator terminal 18.

項目情報処理装置12は、CPU(演算処理ユニット)22、メモリ24、通信部26を備えるコンピュータである。メモリ24に記憶されたプログラムが起動することにより、以下の各部分がモジュールとして形成される。すなわち、プログラムが起動した項目情報処理装置12は、属性抽出部28、属性演算部30、編集処理部32および段落分割部34をソフトウェアモジュールとして有する。   The item information processing apparatus 12 is a computer including a CPU (arithmetic processing unit) 22, a memory 24, and a communication unit 26. When the program stored in the memory 24 is started, the following parts are formed as modules. That is, the item information processing apparatus 12 in which the program is activated has the attribute extraction unit 28, the attribute calculation unit 30, the edit processing unit 32, and the paragraph division unit 34 as software modules.

属性抽出部28は、集合知データベースサーバ14内に登録されている複数の項目について、各項目に関する情報の中から、文書中の複数の用語と、外部リンクアドレス情報および内部アドレスリンク情報とを、属性として抽出する。抽出された属性は、メモリ24に記録される。   For the plurality of items registered in the collective intelligence database server 14, the attribute extraction unit 28 selects a plurality of terms in the document, external link address information, and internal address link information from information related to each item. Extract as an attribute. The extracted attributes are recorded in the memory 24.

図4(a)は、項目に関する情報から、リンク先アドレス情報を抽出した一例を示している。図4(a)に示す項目に関する情報(上側枠内)は、“CP violation”を項目とする”Wikipedia”に示されるデータの一例である。このデータは、外部リンクアドレス情報および内部リンクアドレス情報が所定の書式で記述されているので、外部リンクアドレス情報および内部リンクアドレス情報を容易に抽出することができる。図4(a)の下側枠内には、抽出した結果が示されている。これらのリンクアドレス情報は、項目の属性を表すものとして後述する類似度の算出に用いられる。   FIG. 4A shows an example in which link destination address information is extracted from information on items. The information related to the item shown in FIG. 4A (in the upper frame) is an example of data shown in “Wikipedia” having “CP violation” as an item. Since the external link address information and the internal link address information are described in a predetermined format, the external link address information and the internal link address information can be easily extracted from this data. The extracted result is shown in the lower frame of FIG. These link address information is used to calculate the degree of similarity, which will be described later, as representing the attribute of the item.

各項目に関する情報内の文章から抽出される複数の用語については、まず、文章を単語単位で分解する。図4(b)は、項目に関する情報内の文章を単語に分解した一例を示している。この処理は、形態素解析プログラム(例えば“茶筅”)を用いて行われる。これら分解して取り出された各単語については、重要な用語として予め設定されている用語群を検索し、検索の結果、合致する単語がある場合、この単語が項目の属性として用いる用語とされる。この用語群には、例えば、固有名詞や各ジャンルに分けられた専門用語や普通名詞等が含まれている。したがって、この場合、属性として用いる用語は、固有名詞、専門用語、普通名詞を含む。   For a plurality of terms extracted from the text in the information related to each item, the text is first decomposed in units of words. FIG. 4B shows an example in which a sentence in the information related to the item is broken down into words. This processing is performed using a morphological analysis program (for example, “tea bowl”). For each of these words extracted by decomposition, a term group set in advance as an important term is searched. If there is a matching word as a result of the search, this word is used as an attribute of the item. . This term group includes, for example, proper nouns, technical terms divided into genres, common nouns, and the like. Therefore, in this case, terms used as attributes include proper nouns, technical terms, and common nouns.

属性演算部30は、属性抽出部28にて抽出された各項目の属性を用いて、2つの項目同士の類似度を算出する。
類似度の算出は、公知の方法が用いられる。例えば、「ベクトル空間法を利用した類似度計算」,渋谷翔吾,廣安知之,三木光範著、
(http://nlp.nagaokaut.ac.jp/%E9%A1%9E%E4%BC%BC%E5%BA%A6:2009年5月28日検索)に示される方法を用いる。属性抽出部28が抽出した属性をべクトルで表して類似度の計算を行うことができる。
類似度は、二つの項目A,B(あるいは各項目に関する情報内の段落)を入力とすることにより求められる0以上1以下の一つの実数で表される。二つの項目(あるいは段落)A,Bから一つの実数を求める関数をSimilar(A,B)と表すとき、このSimilar( , )は次の(条件1)〜(条件3)を備える。
(条件1):任意の項目(あるいは段落)A,Bに対して、Similar(A,B)の値は最大1、最小0の範囲の実数値を取る。
(条件2):任意の項目(あるいは段落)A,Bに対して、項目(あるいは段落)A,Bの入力の順番を入れ替えても値は等しい。Similar(A,B)=Similar(B,A)
(条件3):任意の項目(あるいは段落)A,Bに対して、二つの入力として同一の項目(あるいは段落)Aを与えた場合、その値は必ず1になる(だが逆に値が1であってもその二つの入力が同一であるとは限らない)。
The attribute calculation unit 30 calculates the similarity between two items using the attributes of each item extracted by the attribute extraction unit 28.
A known method is used to calculate the similarity. For example, “Similarity calculation using the vector space method”, Shogo Shibuya, Tomoyuki Ayasu, Mitsunori Miki,
(Http://nlp.nagaokaut.ac.jp/%E9%A1%9E%E4%BC%BC%E5%BA%A6: Searched on May 28, 2009) is used. The attribute extracted by the attribute extraction unit 28 can be represented by a vector to calculate the similarity.
The degree of similarity is represented by one real number of 0 or more and 1 or less which is obtained by inputting two items A and B (or a paragraph in the information about each item). When a function for obtaining one real number from two items (or paragraphs) A and B is represented as Similar (A, B), the Similar (,) has the following (Condition 1) to (Condition 3).
(Condition 1): For arbitrary items (or paragraphs) A and B, the value of Similar (A, B) takes a real value in the range of 1 at maximum and 0 at minimum.
(Condition 2): For any item (or paragraph) A, B, the value is the same even if the order of input of item (or paragraph) A, B is changed. Similar (A, B) = Similar (B, A)
(Condition 3): When the same item (or paragraph) A is given as two inputs to any item (or paragraph) A, B, the value is always 1 (but conversely the value is 1) But the two inputs are not necessarily the same).

(類似度の算出法1)
このような類似度の定義に対して、例えば、外部リンクアドレス情報あるいは内部リンクアドレス情報を属性としたときの類似度の計算は、以下のように行われる。
類似度の計算をしたい二つの項目(あるいは段落)のうち項目Di(i番目の項目)から外部リンクアドレス情報、内部リンクアドレス情報の二種のみを抽出して、外部リンクアドレス情報、内部リンクアドレス情報を要素とする集合{νi}を作成する。同様にしてもう一方の項目(あるいは段落)Dj(j番目の項目)から集合{νj}を作成する。ここで、集合{νi}、集合{νj}は、項目(あるいは段落)Di,Djの外部リンクアドレス情報、内部リンクアドレス情報の二種のみを抽出してリストとして列挙した集合である。さらに、集合{νi}と集合{νj}とをマージして重複要素を除いたものを集合{νu}とする。
ここで各項目(あるいは各段落)Diを特徴付ける「特徴ベクトル」として以下の集合{φi }を導入する。つまり、集合{νu}の要素と一致するものが項目Diの中にいくつ含まれているかをカウントしそのカウント結果を集合{φi}とする。ここでφik (集合{φi }のk番目の要素)= 「項目Diに含まれている、集合{νu}のk番目の要素と一致する個数」である。この方法で項目Diと項目Dj各々の特徴ベクトル{φi}と{φj}を求める。これにより、下記式(1)で定まる量「Sim1」を、項目Diと項目Djの類似度とする。
(Similarity calculation method 1)
For such definition of similarity, for example, calculation of similarity when external link address information or internal link address information is used as an attribute is performed as follows.
Of the two items (or paragraphs) for which similarity is to be calculated, only two types of external link address information and internal link address information are extracted from item Di (i-th item), and external link address information and internal link are extracted. A set {ν i } having address information as an element is created. Similarly, a set {ν j } is created from the other item (or paragraph) D j (jth item). Here, the set {ν i } and the set {ν j } are sets in which only two types of external link address information and internal link address information of the items (or paragraphs) D i and D j are extracted and listed as a list. is there. Further, a set {ν u } is obtained by merging the set {ν i } and the set {ν j } to remove duplicate elements.
Here, the following set {φ i } is introduced as a “feature vector” characterizing each item (or each paragraph) D i . That is, the number of items D i that match the elements of the set {ν u } is counted, and the count result is set as a set {φ i }. Here, φ ik (the k-th element of the set {φ i }) = “the number that matches the k-th element of the set {ν u } included in the item D i ”. By this method, the feature vectors {φ i } and {φ j } of the items D i and D j are obtained. Thereby, the amount “Sim1” determined by the following equation (1) is set as the similarity between the item D i and the item D j .

すなわち、式(1)は、「二つの項目で記述されているリンクが一致している個数が多いほど類似度が高い」ことを示す。勿論、「Sim1」は、上記Similar関数の満たすべき条件1〜条件3を満足している。
類似度の計算は、上述したように「項目Diに含まれている、集合{νu}のk番目の要素と一致する個数」を用いて行うが、このとき用いる「個数」は、外部リンクアドレス情報、内部リンクアドレス情報が完全に一致している場合の整数の値である。しかし、これ以外に、下記のように、外部リンクアドレス情報、内部リンクアドレス情報の一部が一致するとき、0〜1の値を付与してもよい。例えば、外部リンクアドレス情報同士の類似度の場合、アドレスが完全に一致していれば値1が、外部リンクアドレス情報内のファイル名部分のみが異なり、他の部分が一致していれば値0.7が、外部リンクアドレス情報内のサーバ部分だけが一致しているならば値0.3が付与されてもよい。
内部リングアドレス情報同士の類似度の場合、例えば、同じ項目をリンクしていれば値1が、内部リングアドレス情報に対してリンク先のジャンルが定義されていてこのジャンルが一致していれば値0.8が付与されてもよい。上記式(1)中の分母の|φi|,|φj|は、{φi},{φj}の全要素数である。
That is, Expression (1) indicates that “the more the number of matching links described in two items is larger, the higher the similarity is”. Of course, “Sim1” satisfies the conditions 1 to 3 to be satisfied by the above-mentioned Similar function.
As described above, the similarity is calculated using “the number of elements included in the item D i that matches the k-th element of the set {ν u }”. It is an integer value when the link address information and the internal link address information completely match. However, in addition to this, as described below, when a part of the external link address information and the internal link address information match, a value of 0 to 1 may be given. For example, in the case of similarity between external link address information, the value 1 is different if the addresses are completely matched, and the value 0 is different if only the file name portion in the external link address information is different, and the other portions are matched. .7 may be given a value of 0.3 if only the server part in the external link address information matches.
In the case of the similarity between the internal ring address information, for example, the value 1 if the same item is linked, and the value if the genre of the link destination is defined for the internal ring address information and this genre matches. 0.8 may be given. In the above formula (1), | φ i |, | φ j | of the denominator is the total number of elements of {φ i }, {φ j }.

(類似度の算出法2)
類似度の算出例2は、用語、外部リンクアドレス情報、および内部リンクアドレス情報を用いて類似度を算出する例である。
類似度を算出したい二つの項目のうち項目Diから、予め定められた用語群のリストTに掲載されている用語と合致する単語、外部リンクアドレス情報、内部リンクアドレス情報を抽出して集合{δi}が作成される。同様にしてもう一つの項目Djから集合{δj}が作成される。ここで、集合{δi}、集合{δj}は、用語、外部リンクアドレス情報、および内部リンクアドレス情報を抽出してリストとして列挙したものである。
項目Diと項目Djとの間の類似度は、項目Diから算出された特徴ベクトルψiと、項目Djから算出された特徴ベクトルψjとを用いて下記式(2)を用いて算出される。ここで、特徴ベクトルψiのk番目の要素ψikの値は、上述した集合{δi}のm番目の要素と、集合T’(T’は、例1と同様にして作成された集合{νu}と、予め有効な用語として定められた用語群{T}との和集合である)を構成するk番目の要素との間の類似度を算出し、この算出結果を、mを0から集合{δi}の要素数まで変化させながら合計することによって求められた値である。特徴ベクトルψjも同様に求められる。
このような特徴ベクトルψi,ψjを効率よく求めるために、和集合T’を構成する要素相互間の類似度を予め計算しておくとよい。すなわち、i番目の要素T’iとj番目の要素T’jとの類似度の値を予め算出しておくとよい。
(Similarity calculation method 2)
Similarity calculation example 2 is an example of calculating similarity using terms, external link address information, and internal link address information.
A set of words, external link address information, and internal link address information that match terms listed in a predetermined term group list T are extracted from the item D i out of the two items whose similarity is to be calculated { δ i } is created. Similarly, a set {δ j } is created from another item D j . Here, the set {δ i } and the set {δ j } are a list obtained by extracting terms, external link address information, and internal link address information.
Similarity between the item D i and item D j uses the feature vectors [psi i calculated from the item D i, the following equation using the feature vectors [psi j calculated from item D j (2) Is calculated. Here, the value of the k-th element ψ ik of the feature vector ψ i is the same as the m-th element of the set {δ i } and the set T ′ (T ′ is a set created in the same manner as in Example 1. The degree of similarity between {ν u } and the k-th element constituting the term group {T} defined as a valid term in advance is calculated, and the calculation result is expressed as m It is a value obtained by summing while changing from 0 to the number of elements of the set {δ i }. The feature vector ψ j is obtained in the same manner.
In order to efficiently obtain such feature vectors ψ i , ψ j , it is preferable to calculate in advance the similarity between elements constituting the union T ′. That is, the similarity value between the i-th element T ′ i and the j-th element T ′ j may be calculated in advance.

ここで、上記式(2)の各要素間の類似度の値Sim( , )の値は例えば以下のように定める。
・外部リンクアドレス情報同士の類似度の場合、例えば、外部リンクアドレス情報が完全に一致していれば値1を、ファイル名部分のみが異なり、それ以外の部分が一致していれば値0.7を、サーバ部分だけが一致しているならば値0.3を付与する。
・内部リングアドレス情報同士の類似度の場合、例えば、同じ項目をリンクしていれば値1を、内部リングアドレス情報においてリンク先のジャンルが定義されていてこのジャンルが一致していれば値0.8を付与する。
・さらに、用語同士の類似度の場合、用語同士が完全に一致していれば値1を、用語にジャンルが予め定義されていてこのジャンルが一致していれば値0.8を付与する。
・それ以外の場合、値0を付与する。
以上のように、属性演算部30は類似度を算出する。算出された類似度は、メモリ24に記録される。
Here, the value of the similarity Sim (,) between the elements of the above formula (2) is determined as follows, for example.
In the case of the similarity between the external link address information, for example, if the external link address information completely matches, the value 1 is different, only the file name portion is different, and if the other portions match, the value 0. 7 is assigned a value of 0.3 if only the server part matches.
In the case of similarity between internal ring address information, for example, if the same item is linked, the value is 1, and if the genre of the link destination is defined in the internal ring address information and this genre matches, the value is 0 .8 is given.
Furthermore, in the case of similarity between terms, a value of 1 is assigned if the terms are completely matched, and a value of 0.8 is assigned if the genre is predefined for the terms and the genre is matched.
・ In other cases, 0 is assigned.
As described above, the attribute calculation unit 30 calculates the similarity. The calculated similarity is recorded in the memory 24.

編集処理部32は、属性演算部30により算出された類似度に基づいて、項目の統合および項目の分割の要否を判定する。さらに、編集処理部32は、統合処理において項目の統合を要すると判定した場合、2つの項目同士を1つの項目に統合した統合項目案を作成する。すなわち、算出した類似度が予め定めた閾値を越えるとき、統合項目案を作成する。統合項目案の作成では、2つの項目の内、一方の項目を主となる項目とし、他方の項目を従となる項目とし、従となる項目に関する情報を主となる項目に関する情報にマージする。勿論、主となる項目に関する情報中に融合するように従となる項目に関する情報を含ませてもよい。作成された統合項目案は、ユーザあるいはシステム管理者に通知される。この通知に対して、ユーザおよびシステム管理者から統合の返答および統合項目案の返答を待っているとき、統合項目案は仮統合中として、ユーザに公開される。   The edit processing unit 32 determines the necessity of item integration and item division based on the similarity calculated by the attribute calculation unit 30. Further, when it is determined that the items need to be integrated in the integration processing, the editing processing unit 32 creates an integrated item plan in which two items are integrated into one item. That is, when the calculated similarity exceeds a predetermined threshold, an integrated item plan is created. In the creation of the integrated item plan, one of the two items is a main item, the other item is a subordinate item, and information about the subordinate item is merged with information about the main item. Of course, information related to the subordinate items may be included in the information related to the main item. The created integrated item proposal is notified to the user or the system administrator. In response to this notification, when the user and the system administrator are waiting for an integration response and an integration item plan response, the integration item plan is disclosed to the user as being temporarily integrated.

編集処理部32は、また、2つの項目同士の統合が確定したとき、統合した新たな項目に対して統合処理対象情報を付与する。統合処理対象情報は、今後行う統合処理の対象項目となること示す情報である。すなわち、統合処理対象情報は、項目の属性の抽出、類似度の計算を今後行うとき、項目を選択する基準として用いられる。編集処理部32は、さらに、2つの項目同士の統合が確定したとき、統合した新たな項目に、今後行う分割処理の対象項目であることを示す分割処理対象情報も付与する。統合した項目は、今後分割することもあるからである。
なお、項目に付与された統合処理対象情報は、集合知データベースサーバ14内に登録されている全項目との間で類似度の算出が行われた結果、算出した類似度がいずれも閾値を越えないとき(統合を要しないと判定したとき)、この項目から、統合処理対象情報が除去される。したがって、この項目は、今後統合処理の対象とならない。
When the integration between the two items is confirmed, the editing processing unit 32 gives the integration processing target information to the new integrated item. The integration processing target information is information indicating that it is a target item for integration processing to be performed in the future. That is, the integration processing target information is used as a criterion for selecting an item when the attribute of the item is extracted and the similarity is calculated in the future. When the integration between the two items is confirmed, the editing processing unit 32 also assigns division processing target information indicating that the item is a target item of the division processing to be performed in the future to the new integrated item. This is because the integrated items may be divided in the future.
It should be noted that the integrated processing target information given to the items is calculated by calculating similarity between all items registered in the collective intelligence database server 14, and as a result, the calculated similarity exceeds any threshold. When there is not (when it is determined that integration is not required), the integration processing target information is removed from this item. Therefore, this item will no longer be subject to integration processing.

一方、分割処理の場合、編集処理部32は、類似度の計算後、この類似度の結果に基づいて項目の分割の要否を判定する。具体的には、算出した類似度に基づいてクラスタ分析を行う。編集処理部32は、クラスタ分析において、段落がいくつのクラスタに分かれるかを調べ、このクラスタ数に応じて、項目の分割の要否を判定する。クラスタ分析は、公知の方法が用いられる。例えば、「文書クラスタリングの基礎」,大西 祥代,廣安 知之,三木 光範著,
(http://mikilab.doshisha.ac.jp/dia/research/report/2007/0913/004/report20070913004.html:2009年5月28日検索)で提唱する方法が用いられる。あるいは、公知の自己組織化マップを用いたクラスタ分析が用いられる。自己組織化マップを用いたクラスタ分析は、例えば、「自己組織化マップ(Self-Organizing Maps)の基礎」、伊藤冬子,廣安 知之,三木 光範著,
(http://mikilab.doshisha.ac.jp/dia/research/report/2005/0822/007/report20050822007.html:2009年5月28日検索)にその方法が説明されている。
On the other hand, in the case of division processing, the edit processing unit 32 determines whether or not to divide items based on the result of similarity after calculating the similarity. Specifically, cluster analysis is performed based on the calculated similarity. In the cluster analysis, the editing processing unit 32 checks how many clusters a paragraph is divided into and determines whether or not to divide items according to the number of clusters. A known method is used for cluster analysis. For example, “Basics of Document Clustering”, Yoshiyo Onishi, Tomoyuki Kasuyasu, Mitsunori Miki,
The method proposed in (http://mikilab.doshisha.ac.jp/dia/research/report/2007/0913/004/report20070913004.html: searched on May 28, 2009) is used. Alternatively, cluster analysis using a known self-organizing map is used. Cluster analysis using self-organizing maps is, for example, “Basics of Self-Organizing Maps”, Toko Ito, Tomoyuki Suyasu, Mitsunori Miki,
(Http://mikilab.doshisha.ac.jp/dia/research/report/2005/0822/007/report20050822007.html: May 28, 2009 search) describes the method.

編集処理部32は、分割処理において項目の分割を要すると判定した場合、項目を分割した分割項目案を作成する。すなわち、クラスタ分析の結果、クラスタ数が1を超える場合、分割項目案を作成する。分割項目案の作成では、新たな項目を新設して分割する。このような分割項目案は、ユーザあるいはシステム管理者に通知される。分割項目案をユーザあるいはシステム管理者に通知し、ユーザおよびシステム管理者から分割の返答および分割項目案の返答を待っているとき、分割項目案は仮分割中として、ユーザに公開される。
編集処理部32は、また、項目の分割が確定したとき、分割した新たな項目に、今後行う統合処理の対象項目であることを示す統合処理対象情報を付与する。分割した項目は、将来統合することもあるからである。このとき、分割処理対象情報は付与されない。分割された項目を更に細かく分割することはない。
When it is determined that the item needs to be divided in the dividing process, the editing processing unit 32 creates a divided item plan in which the item is divided. That is, as a result of cluster analysis, if the number of clusters exceeds 1, a divided item plan is created. In creating a split item proposal, a new item is newly established and split. Such a division item proposal is notified to the user or the system administrator. When the divided item proposal is notified to the user or the system administrator, and the user and the system administrator are waiting for a division response and a divided item proposal response, the divided item proposal is disclosed to the user as being temporarily divided.
Further, when the division of the item is confirmed, the editing processing unit 32 assigns integrated processing target information indicating that the item is a target item of integration processing to be performed in the future to the new divided item. This is because the divided items may be integrated in the future. At this time, the division process target information is not given. The divided items are not further divided.

段落分割部34は、項目の分割処理の場合、項目に関する情報内の文章の各段落をそれぞればらばらに分割する。項目の統合処理の場合、段落分割部34は機能しない。
段落分割部34は、分割処理対象情報が以前付与され、現在この分割処理対象情報が付与されている項目を選択して、段落の分割処理を行う。分割処理対象情報は、分割処理を行うための項目を選択する基準として用いられる。
In the case of item division processing, the paragraph division unit 34 divides each paragraph of the text in the information related to the item separately. In the case of item integration processing, the paragraph division unit 34 does not function.
The paragraph division unit 34 performs division processing of a paragraph by selecting an item to which division processing target information has been previously assigned and which currently has the division processing target information. The division processing target information is used as a reference for selecting an item for performing the division processing.

通信部26は、統合処理の場合、算出された類似度が予め設定された閾値より高い場合、2つの項目の統合を促すように、ユーザ端末16またはシステム管理者端末18に通知する。通信部26は、分割処理の場合、クラスタ数が1より大きい場合、項目の分割を促すように、ユーザ端末16またはシステム管理者端末18に通知する。
通信部26は、項目の統合を促す場合、同時に編集処理部32で作成された統合項目案をユーザ端末16、システム管理者18に送る。この場合、ユーザあるいはシステム管理者は、統合の催促の通知を受けると、統合の承認の可否と、統合項目案の承認の可否とを、項目情報処理装置12に返信することができる。編集処理部32は、通信部26が受信した返答に応じて、統合項目案は確定する。あるいは、通信部26が統合は承認するが統合項目案は認められないとの返答を受け、ユーザあるいはシステム管理者から提案された代替案を受信した場合、編集処理部32は受信した代替案が統合項目として確定する。あるいは、通信部26が項目の統合を承認しないとの返答を受けた場合、統合項目案は削除され、元の項目とこの項目に関する情報を維持する。
In the case of integration processing, the communication unit 26 notifies the user terminal 16 or the system administrator terminal 18 to promote integration of two items when the calculated similarity is higher than a preset threshold. In the case of the division process, the communication unit 26 notifies the user terminal 16 or the system administrator terminal 18 so as to prompt the division of items when the number of clusters is larger than one.
When the communication unit 26 prompts the integration of items, the communication unit 26 simultaneously sends the integrated item plan created by the editing processing unit 32 to the user terminal 16 and the system administrator 18. In this case, when the user or the system administrator receives the notification of the prompt for integration, the user or the system administrator can return to the item information processing apparatus 12 whether the integration is approved and whether the integrated item proposal is approved. The edit processing unit 32 finalizes the integrated item plan according to the response received by the communication unit 26. Alternatively, when the communication unit 26 receives a reply that the integration is approved but the integration item proposal is not accepted, and receives the alternative proposed by the user or the system administrator, the editing processing unit 32 receives the received alternative Confirm as an integrated item. Alternatively, when the communication unit 26 receives a reply that the item integration is not approved, the integrated item proposal is deleted, and the original item and information about the item are maintained.

また、通信部26は、項目の分割を促す場合、同時に編集処理部32で作成された分割項目案をユーザ端末16、システム管理者18に送る。この場合、ユーザあるいはシステム管理者は、分割の催促の通知を受けると、分割の承認の可否と、分割項目案の承認の可否とを、項目情報処理装置12に返答することができる。編集処理部32は、通信部26が受信した返答に応じて、分割項目案は確定する。あるいは、分割は承認するが、分割項目案は認められないとの返答を通信部26が受け、ユーザあるいはシステム管理者から提案された代替案を受信した場合、編集処理部32は受信した代替案が分割項目として確定する。あるいは、通信部26が項目の分割を承認しないとの返答を受けた場合、分割項目案は削除され、元の項目とこの項目に関する情報を維持する。   In addition, when the communication unit 26 prompts the division of the item, the communication unit 26 simultaneously transmits the divided item plan created by the editing processing unit 32 to the user terminal 16 and the system administrator 18. In this case, when the user or the system administrator receives notification of the prompt for division, the user or the system administrator can reply to the item information processing apparatus 12 whether the division is approved or not and whether the divided item proposal is approved. The edit processing unit 32 finalizes the division item plan according to the response received by the communication unit 26. Alternatively, when the communication unit 26 receives a reply that the division is approved but the division item proposal is not accepted, and receives the alternative proposed by the user or the system administrator, the editing processing unit 32 receives the received alternative. Is confirmed as a split item. Alternatively, when the communication unit 26 receives a reply that it does not approve the division of the item, the divided item plan is deleted, and the original item and information regarding this item are maintained.

集合知データベースサーバ14は、CPU(演算処理ユニット)42、メモリ44、通信部46、データベース48を備えるコンピュータであり、メモリ44に記憶されたプログラムが起動することにより、集合知データベースシステムとして機能する。
集合知データベースサーバ14は、ユーザ端末16からアクセスされて項目の検索指示を受けることにより、データベース48に登録されている項目を検索する。また、ユーザ端末16あるいはシステム管理者端末18のアクセスを受けて、データベース48に登録されている項目および項目に関する情報は編集(統合、分割)される。
The collective intelligence database server 14 is a computer including a CPU (arithmetic processing unit) 42, a memory 44, a communication unit 46, and a database 48, and functions as a collective intelligence database system when a program stored in the memory 44 is activated. .
The collective intelligence database server 14 searches the items registered in the database 48 by being accessed from the user terminal 16 and receiving an item search instruction. Further, upon receiving access from the user terminal 16 or the system administrator terminal 18, items registered in the database 48 and information related to the items are edited (integrated or divided).

ユーザ端末16は、項目に関する情報を、集合知データベースサーバ14に送信し、さらに、項目の統合あるいは項目の分割の催促の通知を受け、この通知に対する返答を項目情報処理装置12に行う通信部を有する。
システム管理者端末18も、項目の統合あるいは分割の催促の通知を受け、この通知に対する返答を項目情報処理装置12に行う通信部を有する。
The user terminal 16 transmits information related to the item to the collective intelligence database server 14, further receives a notification of prompting for item integration or item division, and a communication unit that sends a response to the notification to the item information processing device 12. Have.
The system manager terminal 18 also has a communication unit that receives a notification of item integration or division prompting and sends a response to the notification to the item information processing apparatus 12.

(項目の統合処理方法)
図5は、項目情報処理システム10が行う項目の統合処理のフローを示す図である。以下で述べる統合処理は、断続的にあるいは定期的に行われる。
まず、項目情報処理装置12の属性抽出部28は、集合知データベースサーバ14のデータベース48から統合処理対象情報が付与されている項目を1つ選択する(ステップS10)。この項目を項目aとする。統合処理対象情報は、新しい項目が新設された場合、あるいは、後述する項目の統合や分割によって新たな項目が設定されたとき、この項目に付与される情報である。
次に、属性抽出部28は、項目a以外の他の項目(項目bとする)を選択する(ステップS20)。項目bは、統合処理対象情報の付与の有無に係わらずデータベース48に登録されている項目の中から選択される。
(Item integration processing method)
FIG. 5 is a diagram illustrating a flow of item integration processing performed by the item information processing system 10. The integration process described below is performed intermittently or periodically.
First, the attribute extraction unit 28 of the item information processing device 12 selects one item to which the integration process target information is assigned from the database 48 of the collective intelligence database server 14 (step S10). This item is item a. The integration processing target information is information given to this item when a new item is newly established or when a new item is set by integration or division of items described later.
Next, the attribute extraction unit 28 selects an item other than the item a (referred to as item b) (step S20). The item b is selected from the items registered in the database 48 regardless of whether or not the integration processing target information is given.

次に、属性抽出部28は、項目aと項目bの属性を抽出する(ステップS30)。属性は、上述したように、用語と、外部リンクアドレス情報と、内部リンクアドレス情報とを含む。用語の抽出は、まず公知の形態素プログラムを用いて項目に関する情報(文章)を単語に分解し、分解した複数の単語について、項目情報処理装置12において予め設定されている用語群の中の用語に合致する単語を検索し、合致する単語を項目の属性となる用語として抽出する。一方、外部リンクアドレス情報および内部リンクアドレス情報は、項目に関する情報内に所定の書式で記述されているので、所定の書式を検索することにより、すべての外部リンクアドレス情報および内部リンクアドレス情報を抽出することができる。予め設定されている用語群の各用語は、項目の説明文章を特徴付ける言葉として定められたもので、各用語には、各用語が属するジャンルが定められている。このジャンルは、上述したように類似度の計算の際に用いられる。   Next, the attribute extraction unit 28 extracts the attributes of item a and item b (step S30). As described above, the attribute includes a term, external link address information, and internal link address information. In terms of term extraction, first, a known morpheme program is used to decompose information (sentences) related to items into words, and the plurality of decomposed words are converted into terms in terms set in advance in the item information processing apparatus 12. The matching word is searched, and the matching word is extracted as a term that is an attribute of the item. On the other hand, the external link address information and the internal link address information are described in a predetermined format in the information relating to the item, so that all external link address information and internal link address information are extracted by searching the predetermined format. can do. Each term in the preset term group is defined as a word that characterizes the explanatory text of the item, and each genre is defined as a genre to which each term belongs. This genre is used when calculating the similarity as described above.

次に、属性演算部30は、抽出された属性を用いて項目aと項目bとの間の類似度を算出する(ステップS40)。類似度の算出は、上述した式(1)あるいは式(2)で定義されるSim1あるいはSim2の関数を用いて行われる。算出された類似度の結果は、メモリ24に記憶される。   Next, the attribute calculation unit 30 calculates the similarity between the item a and the item b using the extracted attribute (step S40). The similarity is calculated using the Sim1 or Sim2 function defined by the above formula (1) or (2). The calculated similarity result is stored in the memory 24.

次に、編集処理部32は、算出された類似度が予め設定されている閾値より大きいか否かを判定する(ステップS50)。類似度が閾値より大きい場合、編集処理部32は、統合を要すると判定し、項目aと項目bを統合した項目cを統合項目案として作成する(ステップS60)。
項目を統合するとき、主となる項目に関する情報の後段に、他方の従となる項目に関する情報をマージすることにより、自動的に統合項目案を作成する。主となる項目および従となる項目の設定は、各項目の外部リンクアドレス情報の個数、内部リンクアドレス情報の個数、および属性として扱われる用語の個数のそれぞれを重み付け加算した値を求め、この値の大きい方の項目を主となる項目とする。
項目cでは、従となる項目の情報をマージした部分には、例えばマーカが付加されてユーザ等に表示される。また、主となる項目に関する情報中の文章が複数の段落で構成されている場合、段落毎に従となる項目に関する情報を配置してもよい。またその配置場所を段落毎に変えてもよい。
なお、ステップS50における判定において、類似度が閾値以下である場合、後述するステップS80に進む。
Next, the edit processing unit 32 determines whether or not the calculated similarity is greater than a preset threshold value (step S50). If the degree of similarity is greater than the threshold value, the editing processing unit 32 determines that integration is required, and creates an item c obtained by integrating item a and item b as an integrated item plan (step S60).
When integrating the items, the integrated item plan is automatically created by merging the information related to the other subordinate item after the information related to the main item. The setting of the main item and subordinate items is obtained by weighting and adding the number of external link address information, the number of internal link address information, and the number of terms treated as attributes for each item. The item with the larger is the main item.
In the item c, for example, a marker is added to the portion where the information of the subordinate items is merged and displayed to the user or the like. Moreover, when the text in the information related to the main item is composed of a plurality of paragraphs, information related to the items that follow each paragraph may be arranged. Moreover, you may change the arrangement place for every paragraph.
If it is determined in step S50 that the similarity is equal to or less than the threshold value, the process proceeds to step S80 described later.

次に、通信部26は、ユーザ端末16に項目aと項目bの統合を促す通知を送る(ステップS70)。この通知は、システム管理者端末18に送られてもよい。この通知とともに、項目cが統合項目案として送付される。ユーザは、後述するように、統合の催促の通知を受けて、統合の承認の可否を判断する。承認の可否は、通知に対する返答として、ユーザ端末16から送信される。
次に、項目bについて、データベース48に登録されている項目a以外の項目を、全て選択したか否かが判定される(ステップS80)。判定の結果が否定である場合、項目bとして選択された項目が変更され、新たな項目が項目bとされ(ステップS90)、ステップS30に戻る。判定の結果が肯定である場合、項目bの選択は終了する。これにより、項目aの統合処理は終わる。このとき、統合処理対象情報が付与されている項目aから、統合処理対象情報が消去される。今後、統合処理を行うとき、ステップS10において、この項目aは選択されない。
Next, the communication unit 26 sends a notification for urging the user terminal 16 to integrate the item a and the item b (step S70). This notification may be sent to the system administrator terminal 18. Along with this notification, item c is sent as an integrated item proposal. As will be described later, the user receives notification of prompting for integration and determines whether or not to approve integration. Approval approval is transmitted from the user terminal 16 as a response to the notification.
Next, for item b, it is determined whether all items other than item a registered in database 48 have been selected (step S80). If the result of the determination is negative, the item selected as the item b is changed, the new item is changed to the item b (step S90), and the process returns to step S30. If the result of the determination is affirmative, the selection of item b ends. Thereby, the integration process of item a ends. At this time, the integrated processing target information is deleted from the item a to which the integrated processing target information is assigned. When the integration process is performed in the future, this item a is not selected in step S10.

次に、データベース24に登録されている、統合処理対象情報の付与されている項目全てについて選択したか否かが判定される(ステップS100)。判定結果が肯定の場合、統合処理は終了する。判定結果が否定の場合、項目aとして選択されている項目が変更されて新たな項目が項目aとして選択され(ステップS110)、ステップS20に戻る。   Next, it is determined whether all items registered in the database 24 and to which the integration process target information is assigned have been selected (step S100). If the determination result is affirmative, the integration process ends. If the determination result is negative, the item selected as the item a is changed, a new item is selected as the item a (step S110), and the process returns to step S20.

上記ステップS10〜S100を繰り返し、ステップS50の判定が肯定の場合、通信部26は、ユーザ端末16へ項目の統合を促す通知(ステップS70)をするが、通知の後、この通知に対する返答をユーザ端末16から受ける。編集処理部32は、この返答において、ユーザが統合を承認したか否かを判定する(ステップS120)。ユーザが項目の統合と統合項目案(項目c)を承認した場合、統合は確定し(ステップS130)、統合項目案がデータベース48に登録される。なお、ユーザは統合を承認したが、統合項目案は承認しない場合、編集処理部32は、ユーザから返信された代替案を統合した項目として確定し、データベース48に登録する。統合の対象とされた項目aおよび項目bは、登録から削除される。しかし、この項目aおよび項目bはデータベース48から消去されない。今後、必要に応じて過去に登録された項目a、項目bとして復元可能とするためである。この後、編集処理部32は、統合されて作られた項目に統合処理対象情報および分割処理対象情報を付与する(ステップS140)。統合処理対象情報および分割処理対象情報を項目に付与するのは、項目情報処理装置12が、統合処理および分割処理を今後行うとき、処理対象項目として容易に選択できるようにするためである。
一方、ユーザが統合を承認しない場合、復元処理が施される(ステップS150)。復元処理では、統合項目案が消去され、統合の対象とされた項目aおよび項目bの登録がそのまま維持される。
以上の一連の統合処理は、定期的にあるいは断続的に行われる。
If the above steps S10 to S100 are repeated and the determination in step S50 is affirmative, the communication unit 26 notifies the user terminal 16 of item integration (step S70). Receive from terminal 16. In this response, the edit processing unit 32 determines whether the user has approved the integration (step S120). If the user approves the integration of items and the integrated item proposal (item c), the integration is confirmed (step S130), and the integrated item proposal is registered in the database 48. If the user approves the integration but does not approve the integrated item proposal, the editing processing unit 32 determines the alternative returned from the user as an integrated item and registers it in the database 48. Items a and b that are targeted for integration are deleted from registration. However, the item a and the item b are not deleted from the database 48. This is because the items a and b registered in the past can be restored as needed in the future. Thereafter, the edit processing unit 32 gives the integration process target information and the division process target information to the integrated items (step S140). The reason why the integration processing target information and the division processing target information are given to the items is to allow the item information processing apparatus 12 to easily select the processing target items when performing the integration processing and the division processing in the future.
On the other hand, when the user does not approve the integration, a restoration process is performed (step S150). In the restoration process, the integrated item proposal is deleted, and the registration of the items a and b that are the targets of integration is maintained as they are.
The series of integration processes described above are performed periodically or intermittently.

図6(a)は、データベース48に登録されている例として、項目「ラパ・ヌイ」と項目「イースター島」と、これらの項目に関する情報が示されている。「ラパ・ヌイ」と「イースター島」は、実際は同じ「オブジェクト」であるため、項目が2つ設定されるのは本来適切でない。実際、項目「ラパ・ヌイ」と項目「イースター島」の類似度は、予め設定された閾値より大きくなり、項目の統合を要すると判定され、統合の催促が項目情報処理装置12からユーザ端末16あるいはシステム管理者端末18に通知される。   FIG. 6A shows an item “Rapa Nui”, an item “Easter Island”, and information on these items as examples registered in the database 48. Since “Rapa Nui” and “Easter Island” are actually the same “object”, it is inherently inappropriate to set two items. Actually, the similarity between the item “Rapa Nui” and the item “Easter Island” is larger than a preset threshold value, and it is determined that the items need to be integrated. Alternatively, the system administrator terminal 18 is notified.

図6(b)は、項目「ラパ・ヌイ」と項目「イースター島」を統合した統合項目案の一例を示している。この例では、項目「ラパ・ヌイ」を主となる項目とし、項目「イースター島」を従となる項目とし、項目「ラパ・ヌイ」に関する情報に後続して、項目「イースター島」に関する情報を結合している。このような統合項目案がユーザ端末16あるいはシステム管理者18に送られる。また、情報の最初の部分には、「本記述は項目「ラパ・ヌイ」と項目「イースター島」を仮に統合したもの・・・・「承認」クリックしてください。」と記されている。このような統合項目案は、仮統合中としてユーザに公開される。
図7は、項目「ラパ・ヌイ」と項目「イースター島」の統合を、結合ではなく、融合した例である。このような融合された文章はユーザやシステム管理者によって仮編集されて、統合項目案として作成されてもよい。
FIG. 6B shows an example of an integrated item plan in which the item “Rapa Nui” and the item “Easter Island” are integrated. In this example, the item “Rapa Nui” is the main item, the item “Easter Island” is the subordinate item, and the information about the item “Easter Island” is followed by the information about the item “Rapa Nui”. Are connected. Such an integrated item plan is sent to the user terminal 16 or the system administrator 18. Also, in the first part of the information, “This description is a provisional integration of the item“ Rapa Nui ”and the item“ Easter Island ”.... Click“ Approve ”. "Is written. Such an integrated item proposal is disclosed to the user as being temporarily integrated.
FIG. 7 shows an example in which the integration of the item “Rapa Nui” and the item “Easter Island” is fused, not combined. Such a merged sentence may be temporarily edited by a user or system administrator and created as an integrated item proposal.

以上の統合処理の方法は、所定のプログラムを項目情報処理装置(コンピュータ)12のメモリ24から呼び出して実行することにより、実現される。
すなわち、所定のプログラムは、項目演算処理装置12のCPU(演算処理ユニット)22が、集合知データベースサーバ14から選択された2つの項目について、各項目に関する情報の中から、用語とリンク先情報とを、属性として抽出し、メモリ24に記憶する手順と、CPU22が、抽出された項目の属性を用いて、2つの項目同士の類似度を算出する手順と、CPU22が、算出した類似度に基づいて項目の統合の要否を判定する手順と、CPU22が、項目の統合の要否の判定結果に応じて2つの項目に関する情報の統合を促すように、ユーザ又はシステム管理者に通知する信号を生成する手順と、を記録したプログラムである。
The above integration processing method is realized by calling a predetermined program from the memory 24 of the item information processing apparatus (computer) 12 and executing it.
In other words, the predetermined program is obtained by the CPU (arithmetic processing unit) 22 of the item arithmetic processing unit 12 regarding the two items selected from the collective intelligence database server 14 from the information on each item, the term, the link destination information, Are extracted as attributes and stored in the memory 24, the CPU 22 calculates the similarity between the two items using the extracted item attributes, and the CPU 22 calculates the similarity. And a signal for notifying the user or the system administrator that the CPU 22 prompts the integration of information regarding the two items according to the determination result of the necessity of item integration. The program which recorded the procedure to produce | generate.

以上のように、項目の統合処理では、用語の他に、リンクアドレス情報を用いるので、リンクアドレス情報を用いず用語のみを用いた類似度の計算を行った場合に比べて項目の統合の要否を正確に判定することができる。
また、項目情報処理装置12は、算出した類似度に応じて、2つの項目同士を1つの項目に統合した統合項目案を作成するので、ユーザの統合項目案の作成の負担を軽減し、集合知データベースシステムへの参加を促進する。
項目情報処理装置12は、2つの項目同士の統合が確定したとき、統合した新たな項目に、統合処理対象情報を付与するので、今後の統合処理において選択すべき項目を容易に識別することができる。
さらに、項目情報処理装置12は、項目の統合を要しないと判定したとき、選択された項目から統合処理対象情報を消去するので、今後の統合処理において行う類似度の計算の負担を軽減することができる。
項目情報処理装置12は、2つの項目同士の統合が確定したとき、統合した新たな項目に分割処理対象情報を付与するので、今後の分割処理において選択すべき項目を容易に識別することができる。
As described above, in the item integration process, link address information is used in addition to the term. Therefore, it is necessary to integrate items compared to the case of calculating the similarity using only the term without using the link address information. Whether or not can be determined accurately.
In addition, the item information processing apparatus 12 creates an integrated item plan in which two items are integrated into one item according to the calculated similarity, thereby reducing the burden on the user to create the integrated item plan, Promote participation in knowledge database systems.
When the item information processing device 12 determines that the integration between the two items is confirmed, the item information processing device 12 gives the integration processing target information to the new integrated item, so that the item to be selected in the future integration processing can be easily identified. it can.
Further, when the item information processing apparatus 12 determines that the integration of the items is not required, the integration processing target information is deleted from the selected item, so that the burden of calculating similarity in the future integration processing is reduced. Can do.
When the item information processing device 12 determines the integration of two items, the item information processing device 12 assigns the division processing target information to the new integrated item, so that the item to be selected in the future division processing can be easily identified. .

(変形例)
図1に示す項目情報処理システム10の変形例として、以下のものが挙げられる。
項目情報処理システム10において、統合処理を行うとき、項目情報処理装置12の属性抽出部32は、集合知データベースサーバ14に登録されている全項目を処理対象項目として項目毎に属性を抽出する。属性演算部30は、全項目から得られる2つの項目の全組み合わせについて、それぞれ類似度を取得する。編集処理部32は、取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する。通信部26は、編集処理部32の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する。すなわち、類似度が予め定められている閾値を越え、お互いの組み合わせが互いに共通する項目を共有するとき、これらの項目を1つの項目として統合する。
このように、3以上の項目を統合するような場合、効率よく項目の統合を実行することができる。
(Modification)
The following is mentioned as a modification of the item information processing system 10 shown in FIG.
In the item information processing system 10, when performing the integration process, the attribute extraction unit 32 of the item information processing apparatus 12 extracts attributes for each item using all items registered in the collective intelligence database server 14 as processing target items. The attribute calculation unit 30 acquires similarities for all combinations of two items obtained from all items. The editing processing unit 32 is an item used for two or more combinations when the acquired similarity is two or more combinations of items higher than a predetermined threshold and the combination of each other shares an item common to each other It is determined that it is necessary to integrate the items into one item. The communication unit 26 notifies the user or system administrator of the content that prompts the integration of items according to the determination result of the editing processing unit 32. That is, when the degree of similarity exceeds a predetermined threshold and the items that are common to each other are shared, these items are integrated as one item.
As described above, when three or more items are integrated, the items can be efficiently integrated.

(項目の分割処理方法)
図8は、項目情報処理システム10が行う項目の分割処理のフローを示す図である。以下で述べる分割処理は、上述した統合処理と同様に、断続的に、あるいは定期的に行われる。
(Item split processing method)
FIG. 8 is a diagram illustrating a flow of item division processing performed by the item information processing system 10. The division processing described below is performed intermittently or periodically like the integration processing described above.

まず、項目情報処理装置12の属性抽出部28は、集合知データベースサーバ14のデータベース48から分割処理対象情報が付与されている項目を1つ選択する(ステップS210)。この項目を項目Aとする。分割処理対象情報は、新しい項目が新設された場合や、上述した項目の統合によって新たな項目が設定された場合、分割処理の対象となる項目であることを表す情報である。
次に、段落分割部34は、選択された項目Aに関する情報内の文章を段落毎に分割する(ステップS220)。段落は、項目Aに関する情報内で記述されている文章を改行によって区分けした単位であるので、この改行により、段落毎の分割を容易に行うことができる。
First, the attribute extraction unit 28 of the item information processing apparatus 12 selects one item to which the division process target information is assigned from the database 48 of the collective intelligence database server 14 (step S210). This item is item A. The division process target information is information indicating that the item is a target of the division process when a new item is newly established or when a new item is set by integrating the items described above.
Next, the paragraph dividing unit 34 divides the sentence in the information related to the selected item A into each paragraph (step S220). Since the paragraph is a unit obtained by dividing the sentence described in the information related to the item A by a line feed, the paragraph can be easily divided for each paragraph.

次に、属性抽出部28は、分割した段落毎に、各段落の属性を抽出し、属性演算部30は、各段落間の類似度を算出する(ステップS230)。属性の抽出は、統合処理における項目の属性の抽出と同様の方法で行う。用語の抽出については、まず公知の形態素プログラムを用いて項目に関する情報(文章)を単語に分解し、分解した単語に関して、項目情報処理装置12において予め設定された用語群内の用語に合致する単語を検索し、合致する単語を項目の属性として抽出する。一方、外部リンクアドレス情報および内部リンクアドレス情報については、項目に関する情報内に所定の書式で記述されているので、書式を検索することにより、すべての外部リンクアドレス情報および内部リンクアドレス情報を属性として抽出することができる。
各段落間の類似度の算出は、項目の属性を用いた類似度の計算と同様に、各段落の属性を用いて上述した式(1)、式(2)を用いて類似度を計算する。類似度の計算結果は、メモリ24に記憶される。
Next, the attribute extraction unit 28 extracts the attribute of each paragraph for each divided paragraph, and the attribute calculation unit 30 calculates the similarity between the paragraphs (step S230). The attribute extraction is performed in the same manner as the item attribute extraction in the integration process. Regarding the extraction of terms, information (sentences) related to items is first decomposed into words using a known morpheme program, and the words that match the terms in the term group set in advance in the item information processing apparatus 12 for the decomposed words And matching words are extracted as item attributes. On the other hand, the external link address information and the internal link address information are described in a predetermined format in the item-related information. By searching the format, all external link address information and internal link address information are attributed. Can be extracted.
In calculating the similarity between paragraphs, the similarity is calculated using the above-described equations (1) and (2) using the attributes of each paragraph, similarly to the calculation of the similarity using the item attributes. . The similarity calculation result is stored in the memory 24.

次に、編集処理部32は段落に関するクラスタ分析を行う(ステップS240)。クラスタ分析では、算出した各段落間の類似度の結果を用いて、段落をクラスタに分ける。クラスタ分析の方法は、上述した方法で行われる。クラスタ分析により、1つあるいは複数のクラスタに分けられる。
次に、編集処理部32は、クラスタ数が1より大きいか、すなわち、クラスタ数が2以上か又は1かを判定する(ステップS250)。クラスタ数が2以上とは、クラスタが2つ以上存在することを意味する。したがって、クラスタ単位で段落を分割する。クラスタ数が2であれば項目は2つに分割され、クラスタ数が3以上であれば項目は3以上に分割される。
Next, the edit processing unit 32 performs a cluster analysis on the paragraph (step S240). In the cluster analysis, paragraphs are divided into clusters using the calculated result of similarity between the paragraphs. The cluster analysis method is performed by the method described above. By cluster analysis, it is divided into one or a plurality of clusters.
Next, the edit processing unit 32 determines whether the number of clusters is greater than 1, that is, whether the number of clusters is 2 or more or 1 (step S250). The number of clusters of 2 or more means that there are 2 or more clusters. Therefore, the paragraph is divided in cluster units. If the number of clusters is 2, the item is divided into two, and if the number of clusters is 3 or more, the item is divided into 3 or more.

ステップS250の判定が肯定の場合、すなわち、クラスタ数が2以上である場合、編集処理部32は、クラスタ数に応じて項目を新設し、クラスタに属する段落の情報を引用することで、新設した項目(項目C)に関する情報を作成する(ステップS260)。こうして分割項目案が作成される。一方、ステップS250の判定が否定の場合、すなわち、項目の分割は不要と判定された場合、後述するステップS280に進む。
次に、通信部26は、ユーザ端末16に対して、項目Aの分割の催促の通知を行う(ステップS270)。このとき、ステップS260で作成した分割項目案を同時に送信し、分割と分割項目案の承認を求める。
If the determination in step S250 is affirmative, that is, if the number of clusters is two or more, the editing processing unit 32 newly establishes an item according to the number of clusters and quotes information on paragraphs belonging to the cluster. Information about the item (item C) is created (step S260). In this way, a division item plan is created. On the other hand, if the determination in step S250 is negative, that is, if it is determined that item division is not necessary, the process proceeds to step S280 described later.
Next, the communication unit 26 notifies the user terminal 16 of the prompt for dividing item A (step S270). At this time, the division item plan created in step S260 is transmitted at the same time to request division and approval of the division item plan.

次に、編集処理部32は、項目Aについて、データベース48に登録されている分割処理対象情報の付与されているすべての項目が選択されたか否かを判定する(ステップS280)。すべての項目が選択されていない場合、項目Aとして選択されている項目が他の項目に変更されて項目Aとして選択される(ステップS290)、ステップS220に戻る。   Next, the edit processing unit 32 determines whether or not all items to which the division process target information registered in the database 48 has been selected for the item A (step S280). If all items have not been selected, the item selected as item A is changed to another item and selected as item A (step S290), and the process returns to step S220.

上記ステップS210〜S290を繰り返し、ステップS250の判定が肯定の場合、通信部26は、ユーザ端末16へ項目の分割を促す通知(ステップS270)をするが、通知の後、この通知に対する返答をユーザ端末16から受ける。この返答により、編集処理部32は、ユーザが分割を承認したか否かを判定する(ステップS300)。
ユーザが分割および分割項目案を承認した場合、分割は確定し(ステップS310)、クラスタに応じて新設した分割項目案がデータベース48内に登録される。なお、ユーザは分割を承認したが、分割項目案は承認しない場合、編集処理部32は、ユーザから返信された代替案を分割した項目として確定し、データベース48に登録する。一方、分割の対象となる項目A内の分割項目案に引用された文章およびリンクアドレス情報は、項目Aから除去される。項目内の情報の一部が除去された項目Aは登録が維持される。この後、編集処理部32は、新設した分割項目案に統合処理対象情報を付与する(ステップS320)。分割の対象となった項目Aには、統合処理情報が付与され、分割処理情報は付与されない。項目Aはすでに分割を受けた残りの項目であるので、分割処理対象情報は付与されない。統合処理対象情報を付与するのは、項目Aを、統合処理を今後行うときの処理対象の項目とするためである。
一方、ステップS300において、ユーザが分割を承認しない場合、復元処理が施される(ステップS330)。復元処理では、項目Cが消去され、項目Aの登録が維持される。このとき項目Aの統合処理対象情報は除去される。
When the above steps S210 to S290 are repeated and the determination in step S250 is affirmative, the communication unit 26 notifies the user terminal 16 to divide items (step S270). Receive from terminal 16. Based on this response, the editing processing unit 32 determines whether or not the user has approved the division (step S300).
When the user approves the division and the division item proposal, the division is confirmed (step S310), and the division item proposal newly established according to the cluster is registered in the database 48. If the user approves the division but does not approve the divided item proposal, the editing processing unit 32 determines the alternative returned from the user as the divided item and registers it in the database 48. On the other hand, the text and link address information quoted in the split item proposal in the item A to be split are removed from the item A. Registration is maintained for item A from which some of the information in the item has been removed. Thereafter, the edit processing unit 32 gives the integration process target information to the newly created division item plan (step S320). The integrated processing information is assigned to the item A to be divided, and no division processing information is given. Since item A is the remaining item that has already been divided, no division processing target information is given. The reason why the integration process target information is given is to make the item A an item to be processed when the integration process is performed in the future.
On the other hand, if the user does not approve the division in step S300, a restoration process is performed (step S330). In the restoration process, the item C is deleted and the registration of the item A is maintained. At this time, the integration processing target information of item A is removed.

図9(a)は、データベース48に登録されている例として、項目「ウイルス」と、これらの項目に関する情報が示されている。項目「ウイルス」は、他の生物の細胞を利用して、自己を複製させることのできる微小な構造体で、生物にインフルエンザ等の病気を引き起こすものを表す「オブジェクト」と、コンピュータウイルスを表す「オブジェクト」とが含まれている。すなわち、1つの項目に2つの異なる「オブジェクト」が含まれている。このため、上述の分割処理を行うことにより、クラスタ数が2となり、項目の分割の催促が項目情報処理装置12から通知される。   FIG. 9A shows an item “virus” and information on these items as an example registered in the database 48. The item "virus" is a minute structure that can replicate itself using cells of other organisms, an "object" that represents an organism causing a disease such as influenza, and a computer virus that represents " Object ". That is, two different “objects” are included in one item. For this reason, by performing the above-described division processing, the number of clusters becomes 2, and the item information processing apparatus 12 notifies the item division prompting.

図9(b)は、分割項目案として新たな項目Cが「ウイルス(2)」として新設された例を示す。項目「ウイルス(1)」では、項目「ウイルス」に関する情報からコンピュータウイルスに関する段落が除去されている。
このような分割項目案がユーザ端末16に送られる。また、情報の最初の部分には、「本記述は項目「ウイルス」を項目「ウイルス(1)」と「ウイルス(2)」とに仮に分離したもの・・・・「承認」クリックしてください。」と記されている。このような分割項目案は、仮分割中としてユーザに公開される。この分割項目案をユーザは確認しながら、分割項目案が適切か否かの返答をすることができる。
FIG. 9B shows an example in which a new item C is newly established as “virus (2)” as a proposed division item. In the item “virus (1)”, the paragraph regarding the computer virus is removed from the information regarding the item “virus”.
Such a division item plan is sent to the user terminal 16. In addition, in the first part of the information, “This description is the item“ virus ”separated into items“ virus (1) ”and“ virus (2) ”. . "Is written. Such a division item proposal is disclosed to the user as being temporarily divided. While confirming the divided item proposal, the user can reply whether or not the divided item proposal is appropriate.

以上の分割処理の方法は、所定のプログラムを項目情報処理装置(コンピュータ)12のメモリ24から呼び出して実行することにより、実現される。
すなわち、所定のプログラムは、項目情報処理装置(コンピュータ)12のCPU(演算処理ユニット)22が、集合知データベースサーバ14内の選択された項目に関する文章を段落毎に分割し、メモリ24に記憶させる手順と、CPU22が、分割した複数の段落のそれぞれについて、用語とリンク先情報を属性として抽出し、メモリ24に記憶させる手順と、CPU22が、分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の属性を用いて、段落間の類似度を算出する手順と、CPU22が、算出した類似度に基づいて項目の分割の要否を判定する手順と、CPU22が、項目の分割の要否の判定結果に応じて選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する信号を生成する手順と、を記録したプログラムである。
The above division processing method is realized by calling and executing a predetermined program from the memory 24 of the item information processing apparatus (computer) 12.
In other words, a predetermined program is stored in the memory 24 by the CPU (arithmetic processing unit) 22 of the item information processing apparatus (computer) 12 dividing a sentence related to the selected item in the collective intelligence database server 14 into paragraphs. The procedure, the CPU 22 extracts the term and link destination information as attributes for each of the plurality of divided paragraphs and stores them in the memory 24, and the CPU 22 stores the two paragraphs created from the plurality of divided paragraphs. For each of all combinations, a procedure for calculating the similarity between paragraphs using the attributes of the paragraphs used for the combination, a procedure for the CPU 22 determining whether or not to divide items based on the calculated similarity, and CPU 22 However, the content that prompts the user to divide the item selected according to the determination result of whether or not the item needs to be divided A program recording and a step of generating a signal to notify the user.

以上のように、項目の分割処理では、リンクアドレス情報と用語を用いるので、リンクアドレス情報を用いず用語を用いた類似度の計算を行った場合に比べて項目の分割の要否を正確に判定することができる。
また、項目情報処理装置12は、算出した類似度に基づいて分割した複数の段落のクラスタ分析を行い、このクラスタ分析の結果に基づいて項目の分割の要否を判定するので、項目の分割数を知ることができ、客観的かつより正確に分割の要否を判定することができる。
項目情報処理装置12は、分割処理対象情報が現在付与されている項目を分割処理の対象とする項目として選択するので、複数の項目の中から項目を容易に選択することができる。
項目情報処理装置12は、クラスタ分析の結果に応じて分割対象となる項目の分割項目案を作成するので、ユーザの統合項目案の作成の負担を軽減し、集合知データベースシステムへの参加を促進する。
項目情報処理装置12は、項目の分割が確定したとき、分割した新たな項目に、統合処理対象情報を付与するので、今後の統合処理において選択すべき項目を容易に識別することができる。
As described above, in the item division process, link address information and terms are used, so the necessity of item division is more accurate than when the similarity is calculated using terms without using link address information. Can be determined.
In addition, the item information processing apparatus 12 performs cluster analysis of a plurality of paragraphs divided based on the calculated similarity, and determines whether or not the items need to be divided based on the result of the cluster analysis. Therefore, it is possible to objectively and accurately determine whether or not to divide.
Since the item information processing apparatus 12 selects the item to which the division processing target information is currently assigned as the item to be divided, the item can be easily selected from a plurality of items.
The item information processing device 12 creates a division item plan for the item to be divided according to the result of the cluster analysis, thus reducing the burden of creating the integrated item plan for the user and promoting participation in the collective intelligence database system To do.
When the item information processing device 12 determines the division of the item, the item information processing device 12 assigns the integration processing target information to the new divided item, so that the item to be selected in the future integration processing can be easily identified.

以上の実施形態に関し、以下の付記を開示する。   Regarding the above embodiment, the following supplementary notes are disclosed.

(付記1)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された2つの項目について、該2つの項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記属性抽出部にて抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
(Appendix 1)
An item information processing apparatus that processes items provided from a plurality of users through a network and registered in a collective intelligence database system,
The information related to each of a plurality of items registered in the collective intelligence database system is described in a sentence describing the contents of each item in a plurality of terms and accompanying the sentences, the collective intelligence database system Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
An attribute extraction unit that extracts the term and the link destination information as attributes of the item from the information about the two items for the two selected items in the collective intelligence database system;
Using the attribute extracted by the attribute extraction unit, an attribute calculation unit that calculates the similarity between the two items;
An edit processing unit that determines whether or not the two items need to be integrated based on the similarity;
An item information processing apparatus, comprising: a first communication unit that notifies a user or a system administrator of content that prompts integration of the two items according to a determination result of the editing processing unit.

(付記2)
前記編集処理部は、算出した前記類似度に応じて、前記2つの項目同士を1つの項目に統合した統合項目案を作成する、付記1に記載の項目情報処理装置。
(Appendix 2)
The item information processing apparatus according to attachment 1, wherein the editing processing unit creates an integrated item plan in which the two items are integrated into one item according to the calculated similarity.

(付記3)
前記属性抽出部で選択される前記2つの項目の一方の項目は、項目の統合処理の対象項目であることを示す統合処理対象情報が付与されている項目であり、
前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの統合承認の返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、前記統合処理対象情報を付与する、付記1または2に記載の項目情報処理装置。
(Appendix 3)
One item of the two items selected by the attribute extraction unit is an item to which integration processing target information indicating that it is a target item of item integration processing is given,
When the integration between the two items is confirmed according to the response content of the integration approval from the user or system administrator in response to the notification, the editing processing unit adds the integration processing target information to the new integrated item. Item information processing apparatus according to appendix 1 or 2, which is given.

(付記4)
前記属性演算部は、前記統合処理対象情報が付与された項目について、前記集合知データベースシステム内に登録されている全項目との間で類似度を算出した結果、前記編集処理部が、項目の統合を要しないと判定したとき、前記選択された項目から前記統合処理対象情報を消去する、付記3に記載の項目情報処理装置。
(Appendix 4)
The attribute calculation unit calculates the similarity between all items registered in the collective intelligence database system for the item to which the integration processing target information is assigned. Item information processing apparatus of Claim 3 which deletes the said integration process target information from the said selected item, when it determines with integration not being required.

(付記5)
前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、項目の分割処理の対象項目であることを示す分割処理対象情報を付与する、付記1〜4のいずれか1項に記載の項目情報処理装置。
(Appendix 5)
When the integration of the two items is determined according to the response content from the user or system administrator to the notification, the editing processing unit is an item to be subjected to the item dividing process into a new integrated item. Item information processing apparatus given in any 1 paragraph of appendices 1-4 which gives division processing object information which shows this.

(付記6)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目について処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステムに登録されている全項目を処理対象項目とし、項目毎に、項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記全項目からつくられる2つの項目の全組み合わせのそれぞれについて、組み合わせに用いる項目の前記属性を用いて、項目間の類似度を取得する属性演算部と、
取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、前記2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する編集処理部と、
前記編集処理部の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
(Appendix 6)
An item information processing apparatus for processing items provided through a network from a plurality of users and registered in a collective intelligence database system,
The information related to each of a plurality of items registered in the collective intelligence database system is described in a sentence describing the contents of each item in a plurality of terms and accompanying the sentences, the collective intelligence database system Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
All items registered in the collective intelligence database system are items to be processed, and for each item, an attribute extraction unit that extracts the term and the link destination information from the information about the item as item attributes;
For each of all combinations of two items created from all the items, using the attribute of the item used for the combination, an attribute calculation unit that acquires the similarity between the items,
When two or more combinations of items whose acquired similarities are higher than a predetermined threshold and the combinations of the items share a common item, the items used for the two or more combinations are combined into one item. An edit processing unit that determines that integration is required;
An item information processing apparatus comprising: a first communication unit for notifying a user or a system administrator of contents for prompting integration of items according to a determination result of the editing processing unit.

(付記7)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
(Appendix 7)
An item information processing apparatus that processes items provided from a plurality of users through a network and registered in a collective intelligence database system,
The information related to each of the plurality of items registered in the collective intelligence database system includes a sentence describing the contents of each item in a plurality of terms, and is written along with the sentences. Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
A paragraph dividing unit that divides a sentence related to the selected item in the collective intelligence database system into a plurality of paragraphs;
For each of the plurality of divided paragraphs, an attribute extraction unit that extracts the term and the link destination information as paragraph attributes;
For each of all combinations of two paragraphs created from a plurality of paragraphs divided by the paragraph division unit, an attribute calculation unit that calculates the similarity between paragraphs using the attributes of the paragraphs used for the combination;
An editing processing unit that determines whether or not the selected item needs to be divided based on the calculation result of the similarity;
An item information processing apparatus comprising: a first communication unit that notifies a user or a system administrator of content that prompts the user to divide the selected item according to a determination result of the editing processing unit.

(付記8)
前記編集処理部は、算出した前記類似度に基づいて前記分割した複数の段落のクラスタ分析を行い、該クラスタ分析の結果に基づいて前記選択された項目の分割の要否を判定する、付記7に記載の項目情報処理装置。
(Appendix 8)
The edit processing unit performs a cluster analysis of the plurality of divided paragraphs based on the calculated similarity, and determines whether or not the selected item needs to be divided based on a result of the cluster analysis. Item information processing apparatus described in 1.

(付記9)
前記段落分割部で選択される項目は、項目の分割処理の対象項目であることを示す分割処理対象情報が付与されている項目である、付記7または8に記載の項目情報処理装置。
(Appendix 9)
The item information processing apparatus according to appendix 7 or 8, wherein the item selected by the paragraph division unit is an item to which division processing target information indicating that it is a target item of item division processing is assigned.

(付記10)
前記編集処理部は、前記クラスタ分析の結果に応じて分割対象となる項目の分割項目案を作成する、付記7〜9のいずれか1項に記載の項目情報処理装置。
(Appendix 10)
The item information processing apparatus according to any one of appendices 7 to 9, wherein the editing processing unit creates a division item plan for an item to be divided according to the result of the cluster analysis.

(付記11)
前記編集処理部は、前記通知に対する、前記ユーザまたはシステム管理者からの分割承認の返答内容に応じて前記項目の分割が確定したとき、分割した新たな項目に、項目の統合処理の対象項目であることを示す統合処理対象情報を付与する、付記7〜10のいずれか1項に記載の項目情報処理装置。
(Appendix 11)
When the division of the item is confirmed according to the response of the division approval from the user or the system administrator in response to the notification, the editing processing unit adds a new item to the target item of the item integration process. Item information processing apparatus given in any 1 paragraph of appendices 7-10 which give integration processing object information which shows that there is.

(付記12)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する、集合知データベースサーバ、項目情報処理装置およびユーザ端末を備える項目情報処理システムであって、
前記集合知データベースサーバは、
ユーザ端末および項目情報処理装置と通信を行う第2の通信部と、前記項目を登録するデータベースと、を有し、
前記データベース内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースサーバ内の内部リンク先情報および前記集合知データベースサーバ外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記項目情報処理装置は、
前記データベース内の選択された2つの項目について、各項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記属性抽出部にて抽出された各項目の前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有し、
前記ユーザ端末は、項目に関する情報を、前記集合知データベースサーバに送信し、さらに、前記通知の受信を行い、前記通知に対する返答を前記項目情報処理装置に行う第3の通信部を有する、ことを特徴とする項目情報処理システム。
(Appendix 12)
An item information processing system comprising a collective intelligence database server, an item information processing apparatus, and a user terminal, which processes items provided through a network from a plurality of users and registered in the collective intelligence database system,
The collective intelligence database server
A second communication unit that communicates with the user terminal and the item information processing apparatus, and a database that registers the item,
The information about each of the plurality of items registered in the database includes a sentence describing the contents of each item in a plurality of terms, and an internal part of the collective intelligence database server that is written along with the sentence. Link destination information and link destination information of at least one of external link destination information outside the collective intelligence database server,
The item information processing apparatus includes:
An attribute extraction unit for extracting the term and the link destination information as attributes of the item from information on each item for the two selected items in the database;
Using the attribute of each item extracted by the attribute extraction unit, an attribute calculation unit that calculates the similarity between the two items;
An edit processing unit that determines whether or not the two items need to be integrated based on the similarity;
A first communication unit for notifying a user or a system administrator of the content that prompts the integration of the two items according to the determination result of the editing processing unit,
The user terminal includes a third communication unit that transmits information about an item to the collective intelligence database server, further receives the notification, and sends a response to the notification to the item information processing apparatus. Characteristic item information processing system.

(付記13)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する、集合知データベースサーバ、項目情報処理装置およびユーザ端末を備える項目情報処理システムであって、
前記集合知データベースサーバは、
ユーザ端末および項目情報処理装置と通信を行う第2の通信部と、前記項目を登録するデータベースと、を有し、
前記データベース内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースサーバ内の内部リンク先情報および前記集合知データベースサーバ外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記項目情報処理装置は、
前記データベース内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、有し、
前記ユーザ端末は、項目に関する情報を、前記集合知データベースサーバに送信し、さらに、前記通知の受信を行い、前記通知に対する返答を前記項目情報処理装置に行う第3の通信部を有する、ことを特徴とする項目情報処理システム。
(Appendix 13)
An item information processing system comprising a collective intelligence database server, an item information processing apparatus, and a user terminal, which processes items provided through a network from a plurality of users and registered in the collective intelligence database system,
The collective intelligence database server
A second communication unit that communicates with the user terminal and the item information processing apparatus, and a database that registers the item,
The information about each of the plurality of items registered in the database includes a sentence describing the contents of each item in a plurality of terms, and an internal part of the collective intelligence database server that is written along with the sentence. Link destination information and link destination information of at least one of external link destination information outside the collective intelligence database server,
The item information processing apparatus includes:
A paragraph divider for dividing a sentence related to the selected item in the database into a plurality of paragraphs;
For each of the plurality of divided paragraphs, an attribute extraction unit that extracts the term and the link destination information as paragraph attributes;
For each of all combinations of two paragraphs created from a plurality of paragraphs divided by the paragraph division unit, an attribute calculation unit that calculates the similarity between paragraphs using the attributes of the paragraphs used for the combination;
An editing processing unit that determines whether or not the selected item needs to be divided based on the calculation result of the similarity;
A first communication unit for notifying a user or a system administrator of content for prompting division of the selected item according to a determination result of the editing processing unit;
The user terminal includes a third communication unit that transmits information about an item to the collective intelligence database server, further receives the notification, and sends a response to the notification to the item information processing apparatus. Characteristic item information processing system.

(付記14)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理方法であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された2つの項目について、各項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出するステップと、
抽出された項目の前記属性を用いて、前記2つの項目同士の類似度を算出するステップと、
前記類似度に基づいて前記2つの項目の統合の要否を判定するステップと、
前記統合の要否の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知するステップと、を有することを特徴とする項目情報処理方法。
(Appendix 14)
An item information processing method for processing items provided from a plurality of users through a network and registered in a collective intelligence database system,
The information related to each of the plurality of items registered in the collective intelligence database system includes a sentence describing the contents of each item in a plurality of terms, and is written along with the sentences. Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
For the two selected items in the collective intelligence database system, extracting the term and the link destination information from the information about each item as item attributes;
Calculating the degree of similarity between the two items using the attribute of the extracted item;
Determining whether to integrate the two items based on the similarity;
An item information processing method comprising: notifying a user or a system administrator of contents for prompting the integration of the two items according to the determination result of the necessity of the integration.

(付記15)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理方法であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割するステップと、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出するステップと、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出するステップと、
前記算出した類似度に基づいて、前記項目の分割の要否を判定するステップと、
前記分割の要否の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知するステップと、を有することを特徴とする項目情報処理方法。
(Appendix 15)
An item information processing method for processing items provided from a plurality of users through a network and registered in a collective intelligence database system,
The information related to each of the plurality of items registered in the collective intelligence database system includes a sentence describing the contents of each item in a plurality of terms, and is written along with the sentences. Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
Dividing the sentence about the selected item in the collective intelligence database system into a plurality of paragraphs;
For each of the plurality of divided paragraphs, extracting the term and the link destination information as paragraph attributes;
For each of all combinations of two paragraphs created from a plurality of paragraphs divided by the paragraph division unit, calculating the similarity between paragraphs using the attributes of the paragraphs used for the combination;
Determining whether the item needs to be divided based on the calculated similarity;
An item information processing method comprising: notifying a user or a system administrator of content that prompts the user to divide the selected item according to the determination result of the necessity of division.

(付記16)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目をコンピュータが処理するとき、
前記集合知データベースシステム内に登録されている項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記コンピュータの演算処理ユニットが、前記集合知データベースシステム内の選択された2つの項目について、各項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出し、前記コンピュータのメモリに記憶させる手順と、
前記演算処理ユニットが、抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する手順と、
前記演算処理ユニットが、前記類似度に基づいて前記2つの項目の統合の要否を判定する手順と。
前記演算処理ユニットが、前記統合の要否の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザ又はシステム管理者に通知する信号を生成する手順と、をコンピュータに実行させる、コンピュータが実行可能なプログラム。
(Appendix 16)
When a computer processes items provided through a network from multiple users and registered in the collective intelligence database system,
The information related to each item registered in the collective intelligence database system includes a sentence describing the contents of each item in a plurality of terms, and an internal part of the collective intelligence database system that is written along with the sentence. Link destination information and link destination information of at least one of external link destination information outside the collective intelligence database system,
The computing processing unit of the computer extracts the term and the link destination information from the information about each item for the two selected items in the collective intelligence database system as item attributes, and the computer To store in the memory of
A procedure in which the arithmetic processing unit calculates a similarity between the two items using the extracted attribute;
A procedure in which the arithmetic processing unit determines necessity of integration of the two items based on the similarity.
A computer that causes the arithmetic processing unit to generate a signal for notifying a user or a system administrator of a content that prompts integration of the two items in accordance with a determination result of the necessity of integration; An executable program.

(付記17)
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目をコンピュータが処理するとき、
前記集合知データベースシステム内に登録されている項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記コンピュータの演算処理ユニットが、前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割し、前記コンピュータのメモリに記憶させる手順と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出し、前記コンピュータのメモリに記憶させる手順と、
前記演算処理ユニットが、分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する手順と、
前記演算処理ユニットが、算出した前記類似度に基づいて前記選択された項目の分割の要否を判定する手順と、
前記演算処理ユニットが、前記分割の要否の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する信号を生成する手順と、をコンピュータに実行させる、コンピュータが実行可能なプログラム。
(Appendix 17)
When a computer processes items provided through a network from multiple users and registered in the collective intelligence database system,
The information related to each item registered in the collective intelligence database system includes a sentence describing the contents of each item in a plurality of terms, and an internal part of the collective intelligence database system that is written along with the sentence. Link destination information and link destination information of at least one of external link destination information outside the collective intelligence database system,
A procedure in which the arithmetic processing unit of the computer divides a sentence related to a selected item in the collective intelligence database system into a plurality of paragraphs and stores the same in a memory of the computer;
For each of the plurality of divided paragraphs, the term and the link destination information are extracted as paragraph attributes and stored in the memory of the computer;
The arithmetic processing unit calculates, for each of all combinations of two paragraphs created from a plurality of divided paragraphs, the similarity between paragraphs using the attribute of the paragraph used for the combination;
A procedure in which the arithmetic processing unit determines whether or not to split the selected item based on the calculated similarity;
Causing the computer to execute a procedure for generating a signal for notifying a user or a system administrator of the content that prompts the user to divide the selected item according to the determination result of whether or not the division is necessary, A computer executable program.

以上、本発明の項目情報処理装置について詳細に説明したが、本発明の項目情報処理装置は上記実施形態に限定されず、本発明の主旨を逸脱しない範囲において、種々の改良や変更をしてもよいのはもちろんである。   The item information processing apparatus of the present invention has been described in detail above. However, the item information processing apparatus of the present invention is not limited to the above-described embodiment, and various improvements and modifications can be made without departing from the gist of the present invention. Of course it is also good.

10 項目情報処理システム
12 項目情報処理装置
14 集合知データベースサーバ
16 ユーザ端末
18 システム管理者端末
20 ネットトワーク
22,42 CPU
24,44 メモリ
26,46 通信部
28 属性抽出部
30 属性演算部
32 編集処理部
34 段落分割部
48 データベース
10 Item Information Processing System 12 Item Information Processing Device 14 Collective Intelligence Database Server 16 User Terminal 18 System Manager Terminal 20 Network 22, 42 CPU
24, 44 Memory 26, 46 Communication unit 28 Attribute extraction unit 30 Attribute calculation unit 32 Edit processing unit 34 Paragraph division unit 48 Database

Claims (11)

複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された2つの項目について、該2つの項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記属性抽出部にて抽出された前記属性を用いて、前記2つの項目同士の類似度を算出する属性演算部と、
前記類似度に基づいて前記2つの項目の統合の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記2つの項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
An item information processing apparatus that processes items provided from a plurality of users through a network and registered in a collective intelligence database system,
The information related to each of a plurality of items registered in the collective intelligence database system is described in a sentence describing the contents of each item in a plurality of terms and accompanying the sentences, the collective intelligence database system Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
An attribute extraction unit that extracts the term and the link destination information as attributes of the item from the information about the two items for the two selected items in the collective intelligence database system;
Using the attribute extracted by the attribute extraction unit, an attribute calculation unit that calculates the similarity between the two items;
An edit processing unit that determines whether or not the two items need to be integrated based on the similarity;
An item information processing apparatus, comprising: a first communication unit that notifies a user or a system administrator of content that prompts integration of the two items according to a determination result of the editing processing unit.
前記編集処理部は、算出した前記類似度に応じて、前記2つの項目同士を1つの項目に統合した統合項目案を作成する、請求項1に記載の項目情報処理装置。   The item information processing apparatus according to claim 1, wherein the edit processing unit creates an integrated item plan in which the two items are integrated into one item according to the calculated similarity. 前記属性抽出部で選択される前記2つの項目の一方の項目は、項目の統合処理の対象項目であることを示す統合処理対象情報が付与されている項目であり、
前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの統合承認の返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、前記統合処理対象情報を付与する、請求項1または2に記載の項目情報処理装置。
One item of the two items selected by the attribute extraction unit is an item to which integration processing target information indicating that it is a target item of item integration processing is given,
When the integration between the two items is confirmed according to the response content of the integration approval from the user or system administrator in response to the notification, the editing processing unit adds the integration processing target information to the new integrated item. The item information processing apparatus according to claim 1, which is given.
前記属性演算部は、前記統合処理対象情報が付与された項目について、前記集合知データベースシステム内に登録されている全項目との間で類似度を算出した結果、前記編集処理部が、項目の統合を要しないと判定したとき、前記選択された項目から前記統合処理対象情報を消去する、請求項3に記載の項目情報処理装置。   The attribute calculation unit calculates the similarity between all items registered in the collective intelligence database system for the item to which the integration processing target information is assigned. The item information processing apparatus according to claim 3, wherein when it is determined that no integration is required, the integration processing target information is deleted from the selected item. 前記編集処理部は、前記通知に対する前記ユーザまたはシステム管理者からの返答内容に応じて前記2つの項目同士の統合が確定したとき、統合した新たな項目に、項目の分割処理の対象項目であることを示す分割処理対象情報を付与する、請求項1〜4のいずれか1項に記載の項目情報処理装置。   When the integration of the two items is determined according to the response content from the user or system administrator to the notification, the editing processing unit is an item to be subjected to the item dividing process into a new integrated item. The item information processing apparatus according to any one of claims 1 to 4, wherein division processing target information indicating that is provided. 複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目について処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目のそれぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステムに登録されている全項目を処理対象項目とし、項目毎に、項目に関する情報の中から、前記用語と前記リンク先情報とを、項目の属性として抽出する属性抽出部と、
前記全項目からつくられる2つの項目の全組み合わせのそれぞれについて、組み合わせに用いる項目の前記属性を用いて、項目間の類似度を取得する属性演算部と、
取得した類似度が予め定められた閾値より高い項目の2つ以上の組み合わせであって、お互いの組み合わせが互いに共通する項目を共有するとき、前記2つ以上の組み合わせに用いる項目を1つの項目に統合することを要すると判定する編集処理部と、
前記編集処理部の判定結果に応じて、項目の統合を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
An item information processing apparatus for processing items provided through a network from a plurality of users and registered in a collective intelligence database system,
The information related to each of a plurality of items registered in the collective intelligence database system is described in a sentence describing the contents of each item in a plurality of terms and accompanying the sentences, the collective intelligence database system Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
All items registered in the collective intelligence database system are items to be processed, and for each item, an attribute extraction unit that extracts the term and the link destination information from the information about the item as item attributes;
For each of all combinations of two items created from all the items, using the attribute of the item used for the combination, an attribute calculation unit that acquires the similarity between the items,
When two or more combinations of items whose acquired similarities are higher than a predetermined threshold and the combinations of the items share a common item, the items used for the two or more combinations are combined into one item. An edit processing unit that determines that integration is required;
An item information processing apparatus comprising: a first communication unit for notifying a user or a system administrator of contents for prompting integration of items according to a determination result of the editing processing unit.
複数のユーザからネットワークを通じて提供され、集合知データベースシステム内に登録されている項目を処理する項目情報処理装置であって、
前記集合知データベースシステム内に登録されている複数の項目それぞれに関する情報は、項目それぞれの内容を複数の用語で説明した文章と、前記文章に付随して記されている、前記集合知データベースシステム内の内部リンク先情報および前記集合知データベースシステム外の外部リンク先情報の少なくともいずれか一方のリンク先情報と、を含み、
前記集合知データベースシステム内の選択された項目に関する文章を複数の段落に分割する段落分割部と、
前記分割した複数の段落のそれぞれについて、前記用語と、前記リンク先情報とを、段落の属性として抽出する属性抽出部と、
前記段落分割部にて分割された複数の段落からつくられる2つの段落の全組み合わせのそれぞれについて、組み合わせに用いる段落の前記属性を用いて、段落間の類似度を算出する属性演算部と、
前記類似度の算出結果に基づいて、前記選択された項目の分割の要否を判定する編集処理部と、
前記編集処理部の判定結果に応じて前記選択された項目の分割を促す内容を、ユーザまたはシステム管理者に通知する第1の通信部と、を有することを特徴とする項目情報処理装置。
An item information processing apparatus that processes items provided from a plurality of users through a network and registered in a collective intelligence database system,
The information related to each of the plurality of items registered in the collective intelligence database system includes a sentence describing the contents of each item in a plurality of terms, and is written along with the sentences. Link information of at least one of internal link destination information and external link destination information outside the collective intelligence database system,
A paragraph dividing unit that divides a sentence related to the selected item in the collective intelligence database system into a plurality of paragraphs;
For each of the plurality of divided paragraphs, an attribute extraction unit that extracts the term and the link destination information as paragraph attributes;
For each of all combinations of two paragraphs created from a plurality of paragraphs divided by the paragraph division unit, an attribute calculation unit that calculates the similarity between paragraphs using the attributes of the paragraphs used for the combination;
An editing processing unit that determines whether or not the selected item needs to be divided based on the calculation result of the similarity;
An item information processing apparatus comprising: a first communication unit that notifies a user or a system administrator of content that prompts the user to divide the selected item according to a determination result of the editing processing unit.

前記編集処理部は、算出した前記類似度に基づいて前記分割した複数の段落のクラスタ分析を行い、該クラスタ分析の結果に基づいて前記選択された項目の分割の要否を判定する、請求項7に記載の項目情報処理装置。
)
The editing processing unit performs cluster analysis of the plurality of divided paragraphs based on the calculated similarity, and determines whether or not the selected item needs to be divided based on a result of the cluster analysis. Item information processing apparatus according to 7.
前記段落分割部で選択される項目は、項目の分割処理の対象項目であることを示す分割処理対象情報が付与されている項目である、請求項7または8に記載の項目情報処理装置。   The item information processing apparatus according to claim 7 or 8, wherein the item selected by the paragraph division unit is an item to which division processing target information indicating that the item is a target item of the item division processing is added. 前記編集処理部は、前記クラスタ分析の結果に応じて分割対象となる項目の分割項目案を作成する、請求項7〜9のいずれか1項に記載の項目情報処理装置。   The item information processing apparatus according to claim 7, wherein the editing processing unit creates a division item plan for an item to be divided according to a result of the cluster analysis. 前記編集処理部は、前記通知に対する、前記ユーザまたはシステム管理者からの分割承認の返答内容に応じて前記項目の分割が確定したとき、分割した新たな項目に、項目の統合処理の対象項目であることを示す統合処理対象情報を付与する、請求項7〜10のいずれか1項に記載の項目情報処理装置。   When the division of the item is confirmed according to the response of the division approval from the user or the system administrator in response to the notification, the editing processing unit adds a new item to the target item of the item integration process. The item information processing apparatus according to any one of claims 7 to 10, to which integrated processing target information indicating that there is present is assigned.
JP2009152545A 2009-06-26 2009-06-26 Item information processing apparatus for collective intelligence database system Pending JP2011008599A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009152545A JP2011008599A (en) 2009-06-26 2009-06-26 Item information processing apparatus for collective intelligence database system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009152545A JP2011008599A (en) 2009-06-26 2009-06-26 Item information processing apparatus for collective intelligence database system

Publications (1)

Publication Number Publication Date
JP2011008599A true JP2011008599A (en) 2011-01-13

Family

ID=43565160

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009152545A Pending JP2011008599A (en) 2009-06-26 2009-06-26 Item information processing apparatus for collective intelligence database system

Country Status (1)

Country Link
JP (1) JP2011008599A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133661A (en) * 2018-02-01 2019-08-08 株式会社リコー Guided web application creation

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320409A (en) * 1997-05-19 1998-12-04 Seiko Epson Corp Method and device for extracting document information and storage medium storing document extracting process program
JPH1145288A (en) * 1997-07-29 1999-02-16 Just Syst Corp Document processor, storage medium storing document processing program and document processing method
JP2002063185A (en) * 2000-08-22 2002-02-28 Hitachi Software Eng Co Ltd System for extracting similar knowledge
JP2002073607A (en) * 2000-08-25 2002-03-12 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for automatically estimating similarity between web pages and medium with its program recorded thereon
JP2007133659A (en) * 2005-11-10 2007-05-31 Nippon Telegr & Teleph Corp <Ntt> Document publisher classification method, apparatus and program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320409A (en) * 1997-05-19 1998-12-04 Seiko Epson Corp Method and device for extracting document information and storage medium storing document extracting process program
JPH1145288A (en) * 1997-07-29 1999-02-16 Just Syst Corp Document processor, storage medium storing document processing program and document processing method
JP2002063185A (en) * 2000-08-22 2002-02-28 Hitachi Software Eng Co Ltd System for extracting similar knowledge
JP2002073607A (en) * 2000-08-25 2002-03-12 Nippon Telegr & Teleph Corp <Ntt> Method and apparatus for automatically estimating similarity between web pages and medium with its program recorded thereon
JP2007133659A (en) * 2005-11-10 2007-05-31 Nippon Telegr & Teleph Corp <Ntt> Document publisher classification method, apparatus and program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSND200601552011; 藤原 敦: 'Wikipediaとは何か' 漢字文▲献▼情報▲処▼理研究 第7号, 20061001, p.171-175, 株式会社好文出版 *
JPN6013026573; 藤原 敦: 'Wikipediaとは何か' 漢字文▲献▼情報▲処▼理研究 第7号, 20061001, p.171-175, 株式会社好文出版 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019133661A (en) * 2018-02-01 2019-08-08 株式会社リコー Guided web application creation

Similar Documents

Publication Publication Date Title
EP2973041B1 (en) Apparatus, systems, and methods for batch and realtime data processing
US20160357860A1 (en) Natural language search results for intent queries
US11455313B2 (en) Systems and methods for intelligent prospect identification using online resources and neural network processing to classify organizations based on published materials
US9514425B2 (en) Method and system for providing user-customized contents
US20120284259A1 (en) Automated Generation of Ontologies
JP6506439B1 (en) INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND INFORMATION PROCESSING PROGRAM
US20240029086A1 (en) Discovery of new business openings using web content analysis
CN111414491A (en) Power grid industry knowledge graph construction method, device and equipment
RU2653246C1 (en) Improving request for database searching
CN103942198B (en) For excavating the method and apparatus being intended to
CN111897836A (en) Search system, method and storage medium
CN114511085A (en) Entity attribute value identification method, apparatus, device, medium, and program product
US11514062B2 (en) Feature value generation device, feature value generation method, and feature value generation program
JP2019128925A (en) Event presentation system and event presentation device
US20170357660A1 (en) A Method for Automatically Presenting to a User Online Content Based on the User&#39;s Preferences as Derived from the User&#39;s Online Activity and Related System and Computer Readable Medium
US11314793B2 (en) Query processing
JP2013045182A (en) Information retrieval apparatus, method, and program
JP2011008599A (en) Item information processing apparatus for collective intelligence database system
CN116010704A (en) Enterprise peer recommendation method, electronic equipment and storage medium
CN110716994B (en) Retrieval method and device supporting heterogeneous geographic data resource retrieval
US11106737B2 (en) Method and apparatus for providing search recommendation information
KR20210150103A (en) Collaborative partner recommendation system and method based on user information
JP7171100B1 (en) A patent document creation support device, a patent document creation support method, and a patent document creation support program.
US20220343279A1 (en) Authoring management method based on relation of electronic documents and authoring management system
CN109783127B (en) Demand configuration problem solving method and device for service information system

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120309

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130527

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130801

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20140311