JP6403850B1 - Information processing apparatus, information processing method, and program - Google Patents

Information processing apparatus, information processing method, and program Download PDF

Info

Publication number
JP6403850B1
JP6403850B1 JP2017165581A JP2017165581A JP6403850B1 JP 6403850 B1 JP6403850 B1 JP 6403850B1 JP 2017165581 A JP2017165581 A JP 2017165581A JP 2017165581 A JP2017165581 A JP 2017165581A JP 6403850 B1 JP6403850 B1 JP 6403850B1
Authority
JP
Japan
Prior art keywords
keyword
document data
determined
group
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017165581A
Other languages
Japanese (ja)
Other versions
JP2019045956A (en
Inventor
健一郎 楠戸
健一郎 楠戸
Original Assignee
Nsフィナンシャルマネジメントコンサルティング株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nsフィナンシャルマネジメントコンサルティング株式会社 filed Critical Nsフィナンシャルマネジメントコンサルティング株式会社
Priority to JP2017165581A priority Critical patent/JP6403850B1/en
Application granted granted Critical
Publication of JP6403850B1 publication Critical patent/JP6403850B1/en
Publication of JP2019045956A publication Critical patent/JP2019045956A/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。
【解決手段】オブジェクトに関する複数の文書データを含む文書データ群から、オブジェクトの特徴を示すキーワードを抽出し、オブジェクトに含まれる要素毎にキーワードをグルーピングすることで、各要素の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した要素毎のキーワードと、キーワード同士の関係性と、に基づいて、オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する。
【選択図】図2
An object of the present invention is to generate information indicating what elements exist in an object.
A keyword indicating a feature of an object is extracted from a document data group including a plurality of document data related to the object, and the keyword indicating the feature of each element is determined by grouping the keyword for each element included in the object. Then, the relationship between the keywords indicating the characteristics of the object is determined, and feature information indicating the relationship between the characteristics of each element in the object is generated based on the determined keyword for each element and the relationship between the keywords. To do.
[Selection] Figure 2

Description

本発明は、情報処理装置、情報処理方法及びプログラムに関する。   The present invention relates to an information processing apparatus, an information processing method, and a program.

近年、大量の文書データが、企業等の記憶領域やインターネット上の記憶領域等に蓄積され、様々な用途に利用されている。そして、その大量の文書データをビジネス・研究等に利用しようとする動きも活発化してきている。
文書データを解析する技術には、特許文献1がある。特許文献1には、自然言語で記述された文書を解析し、予め与えられた分野の情報を抽出し、文書に含まれる単語間の関係を含む情報を一定の形式で出力する情報抽出システムであり、キーワード間の関係を認定しながら構文解析を行うことによって正しい情報を数多く、より正確に抽出する技術が開示されている。
In recent years, a large amount of document data has been accumulated in a storage area of a company or the like, a storage area on the Internet, and the like and used for various purposes. The movement to use the large amount of document data for business and research is also becoming active.
As a technique for analyzing document data, there is Patent Document 1. Patent Document 1 discloses an information extraction system that analyzes a document described in a natural language, extracts information in a predetermined field, and outputs information including a relationship between words included in the document in a certain format. There is disclosed a technique for extracting more accurate information more accurately by performing syntax analysis while recognizing the relationship between keywords.

特開平07−85071号公報Japanese Patent Laid-Open No. 07-85071

団体(例えば、企業、学校、研究機関等)や個人等のオブジェクトに関する文書データを解析して、そのオブジェクトにどのような要素が含まれているかを把握することが望まれている。例えば、企業内にどういった特徴の事業が存在するのかを把握したいという要望や、研究機関内に、どのような研究部署が存在するのかを把握することが望まれている。そこで、オブジェクト内にどのような要素があるのかを示す情報を生成したいという要望があった。しかし、特許文献1では、オブジェクト内にどのような要素があるのかを示す情報を生成できなかった。
そこで、本発明は、オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。
It is desired to analyze document data relating to an object such as an organization (for example, a company, a school, a research institution, etc.) or an individual to understand what elements are included in the object. For example, it is desired to understand what kind of business is present in a company and what kind of research department exists in a research institution. Therefore, there has been a demand for generating information indicating what elements are present in the object. However, in Patent Literature 1, it is impossible to generate information indicating what elements exist in an object.
Accordingly, an object of the present invention is to generate information indicating what elements are present in an object.

そこで、本発明の情報処理装置は、オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定手段と、前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類手段と、前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、前記抽出手段により抽出されたキーワードの特徴量を決定する第2の特徴量決定手段と、前記第2の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、を有する。   Therefore, the information processing apparatus according to the present invention provides a keyword indicating a feature of the object from the object document data group based on the appearance frequency of words in the object document data group, which is a document data group including a plurality of document data related to the object. Extraction means for extracting, the appearance frequency of the keyword extracted by the extraction means in the document data included in the object document data group, the rarity of the keyword extracted by the extraction means in the object document data group, Based on the first feature amount determining means for determining the feature amount of the document data included in the object document data group, and based on the feature amount determined by the first feature amount determining means, the object document Document data included in the data group is converted into the object Classification means for classifying into one or more sections corresponding to the included elements, and the extraction in the sections included in the one or more sections into which the document data included in the object document data group is classified by the classification means A keyword determining means for determining a keyword indicating a feature of an element corresponding to a section included in the one or more sections from the keywords extracted by the extracting means based on the appearance frequency of the keyword extracted by the means; A second feature amount determining unit that determines a feature amount of the keyword extracted by the extracting unit; and keywords extracted by the extracting unit based on the feature amount determined by the second feature amount determining unit Relevance determining means for determining the relevance of the keyword, the keyword determined by the keyword determining means, It has a relevance which is determined by the determining means, and a generation means for generating feature information indicating a relationship between features of each element in the object based on.

本発明によれば、オブジェクト内にどのような要素があるのかを示す情報を生成することができる。   According to the present invention, information indicating what elements are present in an object can be generated.

図1は、情報処理装置のハードウェア構成の一例を示す図である。FIG. 1 is a diagram illustrating an example of a hardware configuration of the information processing apparatus. 図2は、情報処理装置の処理の一例を示すフローチャートである。FIG. 2 is a flowchart illustrating an example of processing of the information processing apparatus. 図3は、抽出されたキーワードの一例を示す図である。FIG. 3 is a diagram illustrating an example of the extracted keywords. 図4は、文書データの特徴量の一例を説明する図である。FIG. 4 is a diagram for explaining an example of the feature amount of the document data. 図5は、文書データの特徴量の一例を説明する図である。FIG. 5 is a diagram for explaining an example of the feature amount of document data. 図6は、クラスタ毎のキーワードの一例を示す図である。FIG. 6 is a diagram illustrating an example of a keyword for each cluster. 図7は、キーワードの特徴量の一例を説明する図である。FIG. 7 is a diagram for explaining an example of a keyword feature amount. 図8は、特徴情報の一例を説明する図である。FIG. 8 is a diagram illustrating an example of feature information. 図9は、特徴情報の一例を説明する図である。FIG. 9 is a diagram illustrating an example of feature information. 図10は、特徴情報の一例を説明する図である。FIG. 10 is a diagram illustrating an example of feature information. 図11は、要素毎に構造化されたキーワードを示す画像の一例を示す図である。FIG. 11 is a diagram illustrating an example of an image indicating a keyword structured for each element.

以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(処理の概要)
例えば、企業等の団体がビジネスを推進していく際、ある団体に関する団体情報やその団体の製品・サービス情報、事業構造や団体間のビジネス構造等の特徴を捉え、各特徴がその団体におけるどの事業に関する特徴であり、各特徴同士がどのような関連性を有するかを把握することで、その団体の詳細をより容易に把握でき、団体の事業動向の詳細把握、業種・業態の明示化、ビジネスマッチング等が可能となる。
そこで、本実施形態では、情報処理装置100が、オブジェクトである団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関連性を示す特徴情報を生成する処理について説明する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<Embodiment 1>
(Outline of processing)
For example, when an organization such as a company promotes business, it captures characteristics such as group information about a group, product / service information of the group, business structure and business structure between groups, and It is a feature of the business, and by grasping how each feature is related to each other, it is possible to more easily grasp the details of the organization, to grasp the details of the organization's business trends, to clarify the type of business and business type, Business matching is possible.
Therefore, in this embodiment, the information processing apparatus 100 extracts a keyword indicating the characteristics of a group from a document data group including a plurality of document data related to the group that is an object, and the keyword for each business that is an element included in the group. To determine the keywords that indicate the characteristics of each business, determine the relevance between the keywords that indicate the characteristics of the object, and based on the determined keywords for each business and the relationship between the keywords, A process for generating feature information indicating the relevance of features for each business in the group will be described.

(情報処理装置のハードウェア構成)
図1は、情報処理装置100のハードウェア構成である。情報処理装置100は、パーソナルコンピュータ、サーバ装置、タブレット装置等の情報処理装置である。
情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104を含む。各要素は、システムバス105を介して、相互に通信可能に接続されている。
CPU101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリア、データの一時的な記憶場所として機能するRandom Access Memory(RAM)等の記憶装置である。補助記憶装置103は、各種プログラム、各種設定情報、各種文書データ等を記憶する記憶装置である。補助記憶装置103は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の記憶媒体を用いて実装される。ネットワークI/F104は、インターネットやLAN等のネットワークを介した外部の装置との通信に利用されるインターフェースである。
CPU101が、補助記憶装置103に記憶されているプログラムに基づき処理を実行することで、情報処理装置100の機能、及び、図2で後述するフローチャートの処理、(画像出力処理)、(検索処理)で説明する処理等が実現される。
(Hardware configuration of information processing device)
FIG. 1 shows a hardware configuration of the information processing apparatus 100. The information processing device 100 is an information processing device such as a personal computer, a server device, or a tablet device.
The information processing apparatus 100 includes a CPU 101, a main storage device 102, an auxiliary storage device 103, and a network I / F 104. Each element is connected to be communicable with each other via a system bus 105.
The CPU 101 is a central processing unit that controls the information processing apparatus 100. The main storage device 102 is a storage device such as a random access memory (RAM) that functions as a work area for the CPU 101 and a temporary storage location for data. The auxiliary storage device 103 is a storage device that stores various programs, various setting information, various document data, and the like. The auxiliary storage device 103 is mounted using a storage medium such as a read only memory (ROM), a hard disk drive (HDD), or a solid state drive (SSD). The network I / F 104 is an interface used for communication with an external device via a network such as the Internet or a LAN.
The CPU 101 executes processing based on a program stored in the auxiliary storage device 103, so that the functions of the information processing device 100, the processing of the flowchart described later in FIG. 2, (image output processing), and (search processing) are performed. The process etc. which are demonstrated by are implement | achieved.

(特徴情報の生成処理)
図2は、情報処理装置100の処理の一例を示すフローチャートである。
S201において、CPU101は、予め定められた複数の団体それぞれについて、団体に関する複数の文書データを含む文書データ群を取得する。以下では、予め定められた複数の団体を、団体群とする。また、以下では、団体に関する文書データ群を、団体文書データ群とする。団体文書データ群は、オブジェクトに関する文書データ群であるオブジェクト文書データ群の一例である。CPU101は、例えば、予め補助記憶装置103に記憶された団体群に含まれる団体それぞれに関する団体文書データ群を取得する。また、CPU101は、ネットワークI/F104を介して、インターネットを介して、外部の記憶装置から、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。また、CPU101は、検索エンジンを介して、インターネット上の団体それぞれに関する文書データを検索することで、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。
また、CPU101は、1つの団体に関する団体文書データ群を取得することとしてもよい。
S202において、CPU101は、S201で取得した複数の団体文書データ群から、単語を抽出する。CPU101は、例えば、団体文書データ群に含まれる各文書データに対して、形態素解析を行うことで、単語を抽出する。
(Feature information generation process)
FIG. 2 is a flowchart illustrating an example of processing of the information processing apparatus 100.
In step S <b> 201, the CPU 101 acquires a document data group including a plurality of document data related to a group for each of a plurality of predetermined groups. Hereinafter, a plurality of predetermined groups are referred to as a group of groups. In the following, a document data group related to a group is referred to as a group document data group. The group document data group is an example of an object document data group that is a document data group related to an object. For example, the CPU 101 acquires a group document data group relating to each group included in the group group stored in advance in the auxiliary storage device 103. Further, the CPU 101 may acquire a group document data group relating to each group included in the group group from an external storage device via the network I / F 104 and the Internet. In addition, the CPU 101 may acquire a group document data group regarding each group included in the group by searching for document data regarding each group on the Internet via a search engine.
Further, the CPU 101 may acquire a group document data group related to one group.
In S202, the CPU 101 extracts words from the plurality of group document data groups acquired in S201. For example, the CPU 101 extracts words by performing morphological analysis on each document data included in the group document data group.

S203において、CPU101は、団体群に含まれる団体それぞれについて、団体文書データ群における各単語のその団体における重要度を示すスコア値を決定する。CPU101は、例えば、以下のようにして、団体群に含まれる団体(1)に関する団体文書データ群に含まれる単語(1)のスコア値を決定する。
まず、CPU101は、団体(1)に関する団体文書データ群における単語(1)の出現頻度と、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性と、を決定する。文書データ群における単語の出現頻度とは、その単語がその文書データ群中に出現する度合いを示す指標である。複数の文書データ群における単語の希少性とは、その複数の文書データ群におけるその単語の希少さの度合いを示す指標である。
In step S <b> 203, the CPU 101 determines, for each group included in the group, a score value indicating the importance of each word in the group document data group in the group. For example, the CPU 101 determines the score value of the word (1) included in the group document data group related to the group (1) included in the group group as follows.
First, the CPU 101 determines the appearance frequency of the word (1) in the group document data group related to the group (1) and the rarity of the word (1) in the plurality of group document data groups related to each group included in the group group. To do. The word appearance frequency in the document data group is an index indicating the degree of appearance of the word in the document data group. The word rarity in a plurality of document data groups is an index indicating the degree of rarity of the words in the plurality of document data groups.

CPU101は、例えば、団体(1)に関する団体文書データ群からS202で単語が全部でA個抽出され、単語(1)がB個抽出された場合、団体(1)に関する団体文書データ群における単語(1)の出現頻度を、B/Aとして決定する。このように、団体(1)に関する団体文書データ群に含まれる単語の総数と、その団体文書データ群に含まれる単語(1)の数と、の比率は、その団体文書データ群における単語(1)の出現頻度の一例である。
また、CPU101は、例えば、団体群それぞれに関する複数の団体文書データ群に単語(1)を含む文書データを含む団体文書データ群がC個存在し、団体群それぞれに関する複数の団体文書データ群に団体文書データ群がD個存在する場合、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、Log(D/C)として決定する。また、CPU101は、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、D/Cとして決定してもよい。このように、団体群それぞれに関する複数の団体文書データ群のうち、単語(1)を含む団体文書データ群の数と、その複数の団体文書データ群に含まれる団体文書データ群の数と、の比率や、この比率の任意の正数を底とする対数等は、その複数の団体文書データ群における単語(1)の希少性の一例である。
For example, when the CPU 101 extracts a total of A words from the group document data group related to the group (1) in S202 and B words (1) are extracted, the word (in the group document data group related to the group (1) ( The appearance frequency of 1) is determined as B / A. As described above, the ratio between the total number of words included in the group document data group related to the group (1) and the number of words (1) included in the group document data group is the word (1) in the group document data group. ) Is an example of the appearance frequency.
Further, for example, the CPU 101 has C group document data groups including document data including the word (1) in a plurality of group document data groups related to the group groups, and the group document data groups related to the group groups are grouped in the group document data groups. When there are D document data groups, the rarity of the word (1) in the plurality of group document data groups for each group included in the group is determined as Log (D / C). Further, the CPU 101 may determine the rarity of the word (1) in the plurality of group document data groups regarding each group included in the group as D / C. Thus, among the plurality of group document data groups related to each group group, the number of group document data groups including the word (1) and the number of group document data groups included in the plurality of group document data groups, A ratio, a logarithm based on an arbitrary positive number of this ratio, and the like are examples of the rarity of the word (1) in the plurality of group document data groups.

CPU101は、決定した出現頻度と希少性とに基づいて、団体(1)における単語(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF(Term Frequency−Inverse Document Frequency)法を用いて、単語(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、団体(1)に関する団体文書データ群で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、団体(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、団体群における各団体にとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の団体との関係を考慮した上で、団体において各単語がどの程度重要なのかをより精度よく示すスコア値を決定できる。これにより、CPU101は、S204で、他の団体との関係(例えば、他の団体との特徴の違い等)を考慮した上で、団体の特徴を示すキーワードを抽出できる。
CPU101は、以上の処理を団体(1)に関する団体文書データ群に含まれる単語全てにおいて行い、団体(1)に関する団体文書データ群における各単語のスコア値を決定する。
また、CPU101は、同様の処理を、団体群に含まれる団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれに関する複数の団体文書データ群それぞれにおける各単語のスコア値を決定する。
CPU 101 determines a score value of word (1) in group (1) based on the determined appearance frequency and rarity. For example, the CPU 101 determines the score value of the word (1) using a TF-IDF (Term Frequency-Inverse Document Frequency) method based on the determined appearance frequency and rarity. The higher the appearance frequency determined, the higher the score value, assuming that the CPU 101 is an important word that is frequently used in the group document data group related to the group (1).
Further, the higher the determined rarity, the higher the score value, assuming that the CPU 101 is an important word characteristic for the organization (1). Further, the lower the determined rarity, the lower the score value, assuming that the CPU 101 is an unimportant word that is not characteristic for each group in the group. In this way, the CPU 101 can determine a score value that indicates more precisely how important each word is in the group by using the determined rarity in consideration of the relationship with other groups. Thereby, CPU101 can extract the keyword which shows the characteristic of an organization in S204, considering the relation with other organizations (for example, the difference in the feature with other organizations, etc.).
The CPU 101 performs the above processing on all the words included in the group document data group related to the group (1), and determines the score value of each word in the group document data group related to the group (1).
In addition, the CPU 101 performs the same processing for other organizations other than the organization (1) included in the organization group, and calculates the score value of each word in each of the plurality of organization document data groups regarding each organization included in the organization group. decide.

本実施形態では、CPU101は、S203で団体群に含まれる団体について、団体群に含まれる複数の団体それぞれに関する複数の団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定することとした。しかし、CPU101は、例えば、S201で1つの団体に関する団体文書データ群を取得した場合、その1つの団体に関する1つの団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
その場合、CPU101は、以下のようにしてその団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
即ち、CPU101は、その団体文書データ群における各単語の出現頻度を決定し、決定した出現頻度に基づいて、各単語のスコア値を決定してもよい。CPU101は、例えば、各単語の出現頻度の値を、各単語のスコア値として決定してもよい。
In the present embodiment, the CPU 101 uses the plurality of group document data groups related to each of the plurality of groups included in the group for each group included in the group in S203, and uses each word included in the group document data group related to the group. The score value was determined. However, for example, when the CPU 101 acquires a group document data group related to one group in S201, the CPU 101 uses one group document data group related to the one group, and uses the group document data group related to the group. A score value may be determined.
In that case, the CPU 101 may determine the score value of each word included in the group document data group regarding the group as follows.
That is, the CPU 101 may determine the appearance frequency of each word in the group document data group and determine the score value of each word based on the determined appearance frequency. For example, the CPU 101 may determine the value of the appearance frequency of each word as the score value of each word.

S204において、CPU101は、団体群に含まれる団体それぞれについて、団体の特徴を示すキーワードを抽出する。CPU101は、例えば、以下のようにして、団体(1)の特徴を示すキーワードを抽出する。即ち、CPU101は、団体(1)に関する団体文書データ群からS201で抽出した単語のうち、S202で決定したスコア値が、予め定められた閾値以上である単語を、団体(1)の特徴を示すキーワードとして抽出する。
また、CPU101は、同様の処理を、団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれについて、キーワードを抽出する。S204の処理は、キーワードを抽出する抽出処理の一例である。
図3は、S204で抽出された団体(1)のキーワードの一例を示す図である。図3の例は、団体(1)のキーワードとして、「部品」、「クリーン」、「ベッド」、「エンジン」、「ブレーキ」、「家具」、「エネルギー」、「エアコン」、「寝装品」、「トランスミッション」という10個の単語が決定された様子を示している。
S205において、CPU101は、団体群から、1つの団体を選択する。以下では、S205で選択された団体を選択団体とする。
In S <b> 204, the CPU 101 extracts a keyword indicating the characteristics of the organization for each organization included in the organization group. CPU101 extracts the keyword which shows the characteristic of organization (1) as follows, for example. That is, the CPU 101 indicates a feature of the organization (1) by selecting a word whose score value determined in S202 is equal to or greater than a predetermined threshold among the words extracted in S201 from the organization document data group related to the organization (1). Extract as keywords.
In addition, the CPU 101 performs the same processing for other organizations other than the organization (1), and extracts keywords for each organization included in the organization group. The process of S204 is an example of an extraction process for extracting a keyword.
FIG. 3 is a diagram illustrating an example of the keyword of the organization (1) extracted in S204. In the example of FIG. 3, the keywords of the organization (1) are “parts”, “clean”, “bed”, “engine”, “brake”, “furniture”, “energy”, “air conditioner”, “bedding”, It shows how ten words “transmission” have been determined.
In S205, the CPU 101 selects one organization from the organization group. In the following, the organization selected in S205 is set as the selected organization.

S206において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、S204で抽出された選択団体のキーワードの文書データそれぞれにおける重要性を示すスコア値を決定する。CPU101は、例えば、以下のようにして、選択団体に関する団体文書データ群に含まれる文書データ(1)におけるS204で抽出された選択団体のキーワード(1)のスコア値を決定する。S206の処理は、第1のスコア決定処理の一例である。
まず、CPU101は、文書データ(1)におけるキーワード(1)の出現頻度と、選択団体に関する団体文書データ群におけるキーワード(1)の希少性と、を決定する。文書データにおけるキーワードの出現頻度とは、そのキーワードがその文書データ中に出現する度合いを示す指標である。団体文書データ群におけるキーワードの希少性とは、その団体文書データ群に含まれる複数の文書データにおけるそのキーワードの希少さの度合いを示す指標である。
In S206, the CPU 101 determines, for each document data included in the group document data group related to the selected group, a score value indicating the importance of the selected group keyword document data extracted in S204. For example, the CPU 101 determines the score value of the keyword (1) of the selected group extracted in S204 in the document data (1) included in the group document data group regarding the selected group as follows. The process of S206 is an example of a first score determination process.
First, the CPU 101 determines the appearance frequency of the keyword (1) in the document data (1) and the rarity of the keyword (1) in the group document data group related to the selected group. The appearance frequency of a keyword in document data is an index indicating the degree of appearance of the keyword in the document data. The rarity of the keyword in the group document data group is an index indicating the degree of rarity of the keyword in a plurality of document data included in the group document data group.

CPU101は、例えば、文書データ(1)に単語が全部でE個含まれ、S204でキーワード(1)がF個抽出された場合、文書データ(1)におけるキーワード(1)の出現頻度を、F/Eとして決定する。このように、文書データ(1)に含まれる単語の総数と、文書データ(1)に含まれるキーワード(1)の数と、の比率は、文書データ(1)におけるキーワード(1)の出現頻度の一例である。また、CPU101は、例えば、文書データ(1)にS204で選択団体のキーワードとして抽出されたキーワードがE’個含まれ、S204でキーワード(1)がF個抽出された場合、文書データ(1)におけるキーワード(1)の出現頻度を、F/E’として決定することとしてもよい。
また、CPU101は、例えば、選択団体に関する団体文書データ群に含まれる全ての文書データにキーワード(1)を含む文書データがG個存在し、選択団体に関する団体文書データ群に文書データが全部でH個存在する場合、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、Log(H/G)として決定する。また、CPU101は、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、H/Gとして決定してもよい。このように、選択団体に関する団体文書データ群に含まれる全ての文書データのうちキーワード(1)を含む文書データの数と、その団体文書データ群に含まれる文書データの数と、の比率や、この比率の任意の正数を底とする対数等は、その団体文書データ群におけるキーワード(1)の希少性の一例である。
For example, when the document data (1) includes E words in total and F keywords (1) are extracted in S204, the CPU 101 determines the appearance frequency of the keyword (1) in the document data (1) as F / E is determined. As described above, the ratio between the total number of words included in the document data (1) and the number of keywords (1) included in the document data (1) is the appearance frequency of the keyword (1) in the document data (1). It is an example. Further, for example, when the document data (1) includes E ′ keywords extracted as keywords of the selected organization in S204, and F keywords (1) are extracted in S204, the document data (1) The appearance frequency of the keyword (1) may be determined as F / E ′.
Further, for example, the CPU 101 has G document data including the keyword (1) in all the document data included in the group document data group related to the selected group, and all the document data is included in the group document data group related to the selected group. When there are such items, the rarity of the keyword (1) in the group document data group regarding the selected group is determined as Log (H / G). Further, the CPU 101 may determine the rarity of the keyword (1) in the group document data group regarding the selected group as H / G. Thus, the ratio between the number of document data including the keyword (1) and the number of document data included in the group document data group among all the document data included in the group document data group related to the selected group, A logarithm with an arbitrary positive number in this ratio as a base is an example of the rarity of the keyword (1) in the group document data group.

CPU101は、決定した出現頻度と希少性とに基づいて、文書データ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF法を用いて、文書データ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、文書データ(1)で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれる文書データ(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各文書データにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の文書データとの関係(例えば、他の文書データとの特徴の違い等)を考慮した上で、文書データにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
The CPU 101 determines the score value of the keyword (1) in the document data (1) based on the determined appearance frequency and rarity. For example, based on the determined appearance frequency and rarity, the CPU 101 determines the score value of the keyword (1) in the document data (1) using the TF-IDF method. As the determined appearance frequency is higher, the CPU 101 increases the score value as an important word that is used more frequently in the document data (1).
Further, the higher the rarity determined, the higher the score value, assuming that the CPU 101 is an important word characteristic for the document data (1) included in the group document data group related to the selected group. Further, the lower the determined rarity, the lower the score value, assuming that the CPU 101 is an unimportant word that is not characteristic for each document data included in the group document data group related to the selected group. In this way, the CPU 101 uses the determined rarity to determine which keyword is included in the document data in consideration of the relationship with other document data (for example, differences in features from other document data). A score value can be determined that more accurately indicates whether the degree is important.

CPU101は、以上の処理を文書データ(1)に含まれるS204で抽出された選択団体のキーワード全てにおいて行い、文書データ(1)における各キーワードのスコア値を決定する。キーワード(1)が文書データ(1)に含まれない場合、CPU101は、出現頻度を0として、同様の処理で文書データ(1)におけるキーワード(1)のスコア値を決定してもよいし、文書データ(1)におけるキーワード(1)のスコア値を予め定められた値(例えば0等)に決定してもよい。
また、CPU101は、同様の処理を、選択団体に関する団体文書データ群に含まれる文書データ(1)以外の他の文書データについても行い、選択団体に関する団体文書データ群に含まれる文書データそれぞれにおける各キーワードのスコア値を決定する。
The CPU 101 performs the above processing on all the keywords of the selected group extracted in S204 included in the document data (1), and determines the score value of each keyword in the document data (1). When the keyword (1) is not included in the document data (1), the CPU 101 may determine the score value of the keyword (1) in the document data (1) by the same process with the appearance frequency being 0, The score value of the keyword (1) in the document data (1) may be determined to a predetermined value (for example, 0).
Further, the CPU 101 performs the same processing for other document data other than the document data (1) included in the group document data group related to the selected group, and each document data included in the group document data group related to the selected group. Determine the keyword score value.

S207において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてS206で決定した各キーワードのスコア値に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれの特徴量を決定する。CPU101は、例えば、選択団体に関する団体文書データ群に含まれる文書データの特徴量を以下のようにして決定する。即ち、CPU101は、その文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、文書データの特徴量として決定する。S207の処理は、第1の特徴量決定処理の一例である。
図4は、文書データの特徴量の一例を説明する図である。図4のテーブル400は、選択団体に関する団体文書データ群に含まれる各文書データにおける各キーワードのスコア値を示すテーブルである。図4の例では、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル400における文書データに対応する列が、その文書データにおける各キーワードのスコア値を示している。即ち、CPU101は、ある文書データに対応する列に含まれる各スコア値を要素としたベクトルを、その文書データの特徴量として決定する。
In S207, the CPU 101 determines the feature amount of each document data included in the group document data group related to the selected group based on the score value of each keyword determined in S206 for each document data included in the group document data group related to the selected group. decide. For example, the CPU 101 determines the feature amount of the document data included in the group document data group regarding the selected group as follows. That is, the CPU 101 determines a vector having each component of each keyword score value in the document data as a feature amount of the document data. The process of S207 is an example of a first feature amount determination process.
FIG. 4 is a diagram for explaining an example of the feature amount of the document data. A table 400 in FIG. 4 is a table showing the score value of each keyword in each document data included in the group document data group regarding the selected group. In the example of FIG. 4, the document data included in the group document data group regarding the selected group is n pieces of document data of document data (1) to document data (n). The keywords extracted as keywords of the selected organization in S204 are m keywords from keyword (1) to keyword (m). A column corresponding to the document data in the table 400 indicates the score value of each keyword in the document data. That is, the CPU 101 determines a vector having each score value included in a column corresponding to certain document data as a feature amount of the document data.

また、CPU101は、文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、次元圧縮したベクトルを、その文書データの特徴量として決定してもよい。
例えば、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、テーブル400における文書データに対応する列に含まれる各スコア値を要素としたベクトルを生成する。そして、CPU101は、生成した各ベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて、次元圧縮し、次元圧縮した各ベクトルを、各文書データの特徴量として決定する。
図5は、文書データの特徴量の一例を説明する図である。図5のテーブル500は、選択団体に関する団体文書データ群に含まれる各文書データにおける特徴量の各要素(基底)の値を示すテーブルである。図5の例では、図4と同様に、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。テーブル500における文書データに対応する列が、その文書データの特徴量のベクトルの各要素の値を示している。即ち、テーブル500におけるある文書データに対応する列は、その文書データの特徴量のベクトルを示す。テーブル500における文書データに対応する列が示すベクトルは、図4のテーブル400におけるその文書データに対応する列が示すベクトルが次元圧縮されたベクトルとなる。このように、CPU101は、次元圧縮したベクトルを、文書データの特徴量として決定することで、S208での文書データのクラスタリングの処理の負担を軽減できる。
Further, the CPU 101 may determine, as a feature amount of the document data, a vector obtained by dimension-compressing a vector having each keyword score value of each keyword in the document data as a component.
For example, the CPU 101 generates a vector having each score value included in a column corresponding to the document data in the table 400 as an element for each document data included in the group document data group regarding the selected group. Then, the CPU 101 dimensionally compresses each generated vector using a method such as principal component analysis, singular value decomposition, and auto encoder, and determines each dimensionally compressed vector as a feature amount of each document data.
FIG. 5 is a diagram for explaining an example of the feature amount of document data. A table 500 in FIG. 5 is a table showing the value of each element (base) of the feature amount in each document data included in the group document data group regarding the selected group. In the example of FIG. 5, as in FIG. 4, the document data included in the group document data group regarding the selected group is n pieces of document data (1) to document data (n). A column corresponding to the document data in the table 500 indicates the value of each element of the vector of feature amounts of the document data. That is, a column corresponding to certain document data in the table 500 indicates a vector of feature amounts of the document data. The vector indicated by the column corresponding to the document data in the table 500 is a vector in which the vector indicated by the column corresponding to the document data in the table 400 of FIG. 4 is dimensionally compressed. As described above, the CPU 101 can reduce the burden of the document data clustering process in S208 by determining the dimension-compressed vector as the feature amount of the document data.

S208において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてS207で決定した特徴量に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。CPU101は、例えば、k−means法、最短距離法、ウォード法等のクラスタリング手法を用いて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。CPU101は、団体文書データ群に含まれる複数の文書データを、文書データの特徴量に基づいてクラスタリングすることで、特徴が類似する文書データを1つのクラスタにまとめることができる。団体文書データ群に含まれる類似する複数の文書データは、団体に含まれる何らかの要素の特徴を示す文書データと仮定できる。そのため、CPU101は、選択団体に関する団体文書データ群に含まれる複数の文書データをクラスタリングすることで、複数の文書データそれぞれを、選択団体に含まれる要素にそれぞれ対応する1つ以上の区分(クラスタ)に分類することができる。
S209において、CPU101は、予め定められた基準に基づいて、S208でクラスタリングされた各クラスタから、選択団体における事業を示すクラスタを決定する。例えば、団体に含まれる事業に関する文書データは、事業活動が実施されている場合、一定以上の数があると仮定できる。そのため、事業に関する文書データの数は、予め定められた数以上存在することが仮定できる。そこで、CPU101は、例えば、クラスタに含まれる文書データの数が予め定められた閾値(例えば、10等)以上である場合、そのクラスタを、事業を示すクラスタとして決定する。以下では、事業を示すクラスタとして決定されたクラスタを、事業クラスタとする。
In S208, the CPU 101 clusters each document data included in the group document data group related to the selected group based on the feature amount determined in S207 for each document data included in the group document data group related to the selected group. For example, the CPU 101 clusters each piece of document data included in the group document data group related to the selected group using a clustering technique such as the k-means method, the shortest distance method, or the Ward method. The CPU 101 can cluster document data having similar features into one cluster by clustering a plurality of document data included in the group document data group based on the feature amount of the document data. A plurality of similar document data included in the group document data group can be assumed to be document data indicating characteristics of some element included in the group. Therefore, the CPU 101 clusters a plurality of document data included in the group document data group related to the selected group, so that each of the plurality of document data corresponds to one or more classifications (clusters) corresponding to elements included in the selected group. Can be classified.
In S209, the CPU 101 determines a cluster indicating a business in the selected group from each cluster clustered in S208 based on a predetermined criterion. For example, it can be assumed that the document data related to the business included in the group has a certain number or more when the business activity is performed. Therefore, it can be assumed that there are more than a predetermined number of document data relating to the business. Therefore, for example, when the number of document data included in the cluster is equal to or greater than a predetermined threshold (for example, 10), the CPU 101 determines the cluster as a cluster indicating a business. Hereinafter, a cluster determined as a cluster indicating a business is referred to as a business cluster.

S210において、CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、S204で抽出された選択団体のキーワードの事業クラスタそれぞれにおける重要性を示すスコア値を決定する。CPU101は、例えば、以下のようにして、S209で事業クラスタとして決定されたクラスタであるクラスタ(1)におけるS204で抽出された選択団体のキーワード(1)のスコア値を決定する。S210の処理は、第2のスコア決定処理の一例である。
まず、CPU101は、クラスタ(1)におけるキーワード(1)の出現頻度と、事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性と、を決定する。クラスタにおけるキーワードの出現頻度とは、そのキーワードがそのクラスタに含まれる文書データ中に出現する度合いを示す指標である。事業クラスタとして決定された全てのクラスタにおけるキーワードの希少性とは、その全てのクラスタにおけるそのキーワードの希少さの度合いを示す指標である。
In S210, the CPU 101 determines, for each cluster determined as a business cluster in S209, a score value indicating the importance of the selected organization keyword extracted in S204 in each business cluster. For example, the CPU 101 determines the score value of the keyword (1) of the selected organization extracted in S204 in the cluster (1) that is the cluster determined as the business cluster in S209 as follows. The process of S210 is an example of a second score determination process.
First, the CPU 101 determines the appearance frequency of the keyword (1) in the cluster (1) and the rarity of the keyword (1) in all the clusters determined as the business cluster. The appearance frequency of a keyword in a cluster is an index indicating the degree of appearance of the keyword in document data included in the cluster. The rarity of keywords in all clusters determined as business clusters is an index indicating the degree of rarity of the keywords in all clusters.

CPU101は、例えば、クラスタ(1)に含まれる全ての文書データに単語が全部でI個含まれ、S204でクラスタ(1)に含まれる全ての文書データからキーワード(1)がJ個抽出された場合、クラスタ(1)におけるキーワード(1)の出現頻度を、J/Iとして決定する。このように、クラスタ(1)に含まれる全ての文書データに含まれる単語の総数と、クラスタ(1)に含まれる全ての文書データに含まれるキーワード(1)の数と、の比率は、クラスタ(1)におけるキーワード(1)の出現頻度の一例である。また、CPU101は、例えば、クラスタ(1)に含まれる全ての文書データにおいてS204で選択団体のキーワードとして抽出されたキーワードが全部でI’個含まれ、S204でクラスタ(1)に含まれる全ての文書データからキーワード(1)がJ個抽出された場合、クラスタ(1)におけるキーワード(1)の出現頻度を、J/I’として決定することとしてもよい。
また、CPU101は、例えば、S209で事業クラスタとして決定された全てのクラスタに含まれるクラスタにキーワード(1)を含む文書データを含むクラスタがK個存在し、S209で事業クラスタとして決定されたクラスタの数が全部でL個存在する場合、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、Log(L/K)として決定する。また、CPU101は、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、L/Kとして決定してもよい。このように、S209で事業クラスタとして決定された全てのクラスタに含まれるキーワード(1)を含む文書データを含むクラスタの数と、その全てのクラスタに含まれるクラスタの数と、の比率や、この比率の任意の正数を底とする対数等は、その全てのクラスタにおけるキーワード(1)の希少性の一例である。
The CPU 101, for example, includes all I words in all document data included in cluster (1), and J keywords (1) are extracted from all document data included in cluster (1) in S204. In this case, the appearance frequency of the keyword (1) in the cluster (1) is determined as J / I. Thus, the ratio between the total number of words included in all document data included in cluster (1) and the number of keywords (1) included in all document data included in cluster (1) is the cluster. It is an example of the appearance frequency of the keyword (1) in (1). Further, the CPU 101 includes, for example, all I ′ keywords extracted as keywords of the selected organization in S204 in all document data included in the cluster (1), and all of the keywords included in the cluster (1) in S204. When J keywords (1) are extracted from the document data, the appearance frequency of the keyword (1) in the cluster (1) may be determined as J / I ′.
For example, the CPU 101 includes K clusters including document data including the keyword (1) in the clusters included in all clusters determined in S209, and the clusters determined as the business clusters in S209. When there are L in total, the rarity of the keyword (1) in all clusters determined as business clusters in S209 is determined as Log (L / K). Further, the CPU 101 may determine the rarity of the keyword (1) in all clusters determined as the business cluster in S209 as L / K. As described above, the ratio between the number of clusters including the document data including the keyword (1) included in all the clusters determined as the business cluster in S209 and the number of clusters included in all the clusters, A logarithm based on an arbitrary positive number of the ratio is an example of the rarity of the keyword (1) in all the clusters.

CPU101は、決定した出現頻度と希少性とに基づいて、クラスタ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF法を用いて、クラスタ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、クラスタ(1)で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれるクラスタ(1)における特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各クラスタにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他のクラスタとの関係(例えば、他のクラスタとの特徴の違い等)を考慮した上で、クラスタにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
The CPU 101 determines the score value of the keyword (1) in the cluster (1) based on the determined appearance frequency and rarity. For example, the CPU 101 determines the score value of the keyword (1) in the cluster (1) using the TF-IDF method based on the determined appearance frequency and rarity. As the determined appearance frequency is higher, the CPU 101 increases the score value as an important word that is used more frequently in the cluster (1).
Further, the higher the rarity determined, the higher the score value, assuming that the CPU 101 is a characteristic important word in the cluster (1) included in the group document data group related to the selected group. Further, the lower the determined rarity, the lower the score value, assuming that the CPU 101 is an unimportant word that is not characteristic for each cluster included in the group document data group related to the selected group. In this way, the CPU 101 uses the determined rarity to determine how important each keyword is in the cluster in consideration of the relationship with other clusters (for example, differences in features from other clusters). It is possible to determine a score value that indicates whether or not.

CPU101は、以上の処理をクラスタ(1)に含まれるS204で抽出された選択団体のキーワード全てにおいて行い、クラスタ(1)における各キーワードのスコア値を決定する。キーワード(1)がクラスタ(1)に含まれる文書データのどれにも含まれない場合、CPU101は、出現頻度を0として、同様の処理でクラスタ(1)におけるキーワード(1)のスコア値を決定してもよいし、クラスタ(1)におけるキーワード(1)のスコア値を予め定められた値(例えば0等)に決定してもよい。
また、CPU101は、同様の処理を、S209で事業クラスタとして決定されたクラスタ(1)以外の他のクラスタについても行い、事業クラスタとして決定されたクラスタそれぞれにおける各キーワードのスコア値を決定する。
The CPU 101 performs the above processing on all the keywords of the selected group extracted in S204 included in the cluster (1), and determines the score value of each keyword in the cluster (1). If the keyword (1) is not included in any of the document data included in the cluster (1), the CPU 101 sets the appearance frequency to 0 and determines the score value of the keyword (1) in the cluster (1) by the same processing. Alternatively, the score value of the keyword (1) in the cluster (1) may be determined to a predetermined value (for example, 0).
Further, the CPU 101 performs the same processing for other clusters other than the cluster (1) determined as the business cluster in S209, and determines the score value of each keyword in each of the clusters determined as the business cluster.

また、クラスタが1つしかない場合(例えば、S209で事業クラスタとして決定されたクラスタが1つである場合、S208でクラスタリングされたクラスタの数が1つである場合等)、CPU101は、S210で以下のようにしてクラスタにおけるキーワードのスコア値を決定してもよい。
即ち、CPU101は、そのクラスタにおける各キーワードの出現頻度を決定し、決定した出現頻度に基づいて、各キーワードのスコア値を決定してもよい。CPU101は、例えば、各キーワードの出現頻度の値を、各キーワードのスコア値として決定してもよい。
If there is only one cluster (for example, if there is one cluster determined as a business cluster in S209, or if the number of clusters clustered in S208 is one), the CPU 101 determines in S210. You may determine the score value of the keyword in a cluster as follows.
That is, the CPU 101 may determine the appearance frequency of each keyword in the cluster and determine the score value of each keyword based on the determined appearance frequency. For example, the CPU 101 may determine the appearance frequency value of each keyword as the score value of each keyword.

S211において、CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、クラスタの特徴を示すキーワードを決定する。CPU101は、例えば、以下のようにして、クラスタ(1)の特徴を示すキーワードを決定する。即ち、CPU101は、S204で選択団体について抽出されたキーワードのうち、S210でクラスタ(1)について決定したスコア値が、予め定められた閾値以上であるキーワードを、クラスタ(1)の特徴を示すキーワードとして決定する。
また、CPU101は、同様の処理を、クラスタ(1)以外のS209で事業クラスタとして決定された他のクラスタについても行い、クラスタそれぞれについて、キーワードを決定する。S211の処理は、キーワード決定処理の一例である。
図6は、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す図である。図6の例では、選択団体が団体(1)である場合に、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す。図6中の3つの枠は、それぞれ、S209で事業クラスタとして決定されたクラスタを示す。各枠内の単語は、各枠に対応するクラスタの特徴を示すキーワードである。図6の例では、「ベッド」、「寝装品」、「家具」という3つのキーワードを持つクラスタと、「エアコン」、「クリーン」、「エネルギー」という3つのキーワードを持つクラスタと、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」という4つのキーワードを持つクラスタと、が団体(1)に含まれていることが示されている。このように、CPU101は、S211の処理により、S204で抽出されたキーワードを、事業毎にグルーピングできる。
In S <b> 211, the CPU 101 determines a keyword indicating a cluster characteristic for each cluster determined as a business cluster in S <b> 209. For example, the CPU 101 determines a keyword indicating the characteristics of the cluster (1) as follows. That is, among the keywords extracted for the selected group in S204, the CPU 101 selects a keyword having a score value determined for the cluster (1) in S210 that is equal to or greater than a predetermined threshold, and a keyword indicating the characteristics of the cluster (1) Determine as.
The CPU 101 performs the same processing for other clusters determined as business clusters in S209 other than the cluster (1), and determines a keyword for each cluster. The process of S211 is an example of a keyword determination process.
FIG. 6 is a diagram illustrating an example of keywords determined in S211 for each cluster determined as a business cluster in S209. The example of FIG. 6 shows an example of the keyword determined in S211 for each cluster determined as a business cluster in S209 when the selected group is the group (1). Each of the three frames in FIG. 6 indicates a cluster determined as a business cluster in S209. The word in each frame is a keyword indicating the characteristics of the cluster corresponding to each frame. In the example of FIG. 6, a cluster having three keywords “bed”, “bedding”, and “furniture”, a cluster having three keywords “air conditioner”, “clean”, and “energy”, “parts”, It is shown that a cluster having four keywords “brake”, “transmission”, and “engine” is included in the group (1). In this way, the CPU 101 can group the keywords extracted in S204 for each business by the processing in S211.

S212において、CPU101は、S204で抽出された選択団体におけるキーワードそれぞれの特徴量を決定する。CPU101は、例えば、S210でクラスタ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定する。即ち、CPU101は、キーワードについて、クラスタ毎にS210で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定する。この特徴量は、対応するキーワードがクラスタ毎にどの程度重要であるかを示す特徴量とみなすことができる。S212の処理は、第2の特徴量決定処理の一例である。
図7は、キーワードの特徴量の一例を説明する図である。図7のテーブル700は、S209で事業クラスタとして決定された各クラスタにおける各キーワードのスコア値を示すテーブルである。図7の例では、事業クラスタとして決定されたクラスタは、クラスタ(1)〜クラスタ(k)のk個のクラスタである。また、図7の例では、S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル700におけるあるクラスタに対応する列が、そのクラスタにおける各キーワードのスコア値を示している。テーブル700におけるキーワードに対応する行が、各クラスタにおけるそのキーワードのスコア値を示している。CPU101は、各キーワードの特徴量として、テーブル700における各キーワードに対応する行が示す各スコア値を要素としたベクトルを、そのキーワードの特徴量として決定する。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルを、そのキーワードの特徴量として決定してもよい。
また、CPU101は、例えば、S206で文書データ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定することとしてもよい。即ち、CPU101は、キーワードについて、文書データ毎にS206で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定してもよい。この特徴量は、対応するキーワードが文書データ毎にどの程度重要であるかを示す特徴量とみなすことができる。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルをキーワードそれぞれの特徴量として決定してもよい。
In S212, the CPU 101 determines the feature amount of each keyword in the selected group extracted in S204. For example, the CPU 101 determines the keyword feature amount based on the score value of each keyword determined for each cluster in S210 as follows. That is, for the keyword, the CPU 101 determines, as the feature amount of the keyword, a vector having each keyword score value determined in S210 for each cluster. This feature amount can be regarded as a feature amount indicating how important the corresponding keyword is for each cluster. The process of S212 is an example of a second feature amount determination process.
FIG. 7 is a diagram for explaining an example of a keyword feature amount. A table 700 in FIG. 7 is a table showing the score value of each keyword in each cluster determined as a business cluster in S209. In the example of FIG. 7, the clusters determined as the business clusters are k clusters from cluster (1) to cluster (k). In the example of FIG. 7, the keywords extracted as the keywords of the selected organization in S204 are m keywords from keyword (1) to keyword (m). A column corresponding to a certain cluster in the table 700 indicates a score value of each keyword in the cluster. The row corresponding to the keyword in the table 700 indicates the score value of the keyword in each cluster. The CPU 101 determines, as the feature amount of each keyword, a vector having each score value indicated by the row corresponding to each keyword in the table 700 as an element, as the feature amount of the keyword. Further, the CPU 101 may determine, as the feature amount of the keyword, a vector obtained by dimensionally compressing this vector using a method such as principal component analysis, singular value decomposition, or auto encoder.
For example, the CPU 101 may determine the keyword feature amount based on the score value of each keyword determined for each document data in S206 as follows. That is, for the keyword, the CPU 101 may determine, as the feature amount of the keyword, a vector having each keyword score value determined in S206 for each document data as each component. This feature amount can be regarded as a feature amount indicating how important the corresponding keyword is for each document data. Further, the CPU 101 may determine, as the feature amount of each keyword, a vector obtained by dimensionally compressing this vector using a method such as principal component analysis, singular value decomposition, or auto encoder.

S213において、CPU101は、S212で決定した特徴量に基づいて、S213でクラスタ毎に決定されたキーワード同士の関連の度合いを示す関連度を、選択団体におけるキーワード同士の関連性として決定する。キーワード同士の関連性は、団体が異なれば、異なる場合がある。例えば、自動車を製造販売しているA社とB社とがあるとする。A社は、高級感のある自動車を重点的に製造・販売しており、B社は、安価な軽自動車を重点的に製造・販売しているとする。この場合、A社におけるキーワード「自動車」とキーワード「高級感」との関連性は、B社におけるキーワード「自動車」とキーワード「高級感」との関連性よりも、大きいものとなる。CPU101は、このような各団体におけるキーワード同士の関連性の違いを加味して、S213で、選択団体におけるキーワード同士の関連性を決定する。S213の処理は、関連性決定処理の一例である。
関連性のあるキーワード同士は、あるクラスタ(又は、文書データ)において一方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値が高い程、他方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値も高くなると仮定できる。即ち、関連性のあるキーワード同士のS212で決定した特徴量同士は、一方の特徴量におけるある次元の要素の値が大きい程、他方の特徴量におけるその次元における要素の値が大きくなると仮定できる。そのため、キーワード同士の特徴量同士の内積は、キーワード同士の関連性が大きい程、値が大きくなると仮定できる。そこで、CPU101は、例えば、S212で決定されたキーワード(1)の特徴量であるベクトルと、S212で決定されたキーワード(2)の特徴量であるベクトルと、の内積を、キーワード(1)とキーワード(2)との関連度として決定する。
In S213, the CPU 101 determines, as the relevance between the keywords in the selected organization, the relevance indicating the degree of relevance between the keywords determined for each cluster in S213 based on the feature amount determined in S212. The relevance between keywords may be different for different organizations. For example, assume that there are Company A and Company B that manufacture and sell automobiles. Company A preferentially manufactures and sells high-end cars, and Company B preferentially manufactures and sells inexpensive mini cars. In this case, the relevance between the keyword “automobile” and the keyword “luxury” in the company A is greater than the relevance between the keyword “automobile” and the keyword “luxury” in the company B. The CPU 101 determines the relevance between the keywords in the selected organization in S213 in consideration of the difference in relevance between the keywords in each organization. The process of S213 is an example of an association determination process.
For related keywords, the higher the score value in one cluster (or document data) of one keyword in a cluster (or document data), the higher the score in that cluster (or document data) of the other keyword It can be assumed that the value will also be high. That is, it can be assumed that the feature amounts determined in S212 between the related keywords are such that the greater the value of an element of a certain dimension in one feature quantity, the greater the value of the element in that dimension of the other feature quantity. Therefore, it can be assumed that the inner product between the feature quantities of the keywords increases as the relevance between the keywords increases. Therefore, for example, the CPU 101 calculates the inner product of the vector that is the feature amount of the keyword (1) determined in S212 and the vector that is the feature amount of the keyword (2) determined in S212 as the keyword (1). The degree of association with the keyword (2) is determined.

S214において、CPU101は、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。CPU101は、例えば、S203で決定されたスコア値に基づいて、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。CPU101は、例えば、S211でクラスタ毎に決定されたキーワードそれぞれについてS203で決定されたスコア値を、重要度として決定する。S214の処理は、重要度決定処理の一例である。
CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、クラスタ毎に決定されたキーワードの重要度に基づいて、クラスタを代表するキーワードである核キーワードを決定する。CPU101は、例えば、あるクラスタについて決定されたキーワードのうち、重要度が最も高いキーワードを、そのクラスタの核キーワードとして決定する。
また、CPU101は、例えば、S210でクラスタ毎に決定されたスコア値に基づいて、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定してもよい。CPU101は、例えば、S211でクラスタ毎に決定されたキーワードそれぞれについて、S211で決定されたスコア値を、重要度として決定してもよい。
本実施形態では、CPU101は、S209で事業に対応するクラスタとして決定したクラスタを用いて、S210〜S214の処理を行った。これにより、CPU101は、事業以外のクラスタについて、特徴を示すキーワードを決定する処理の負担を軽減できる。しかし、CPU101は、S208でクラスタリングされた全てのクラスタを用いて、S210〜S214の処理を行うこととしてもよい。その場合、CPU101は、S209の処理を行わないこととしてもよい。
In S214, the CPU 101 determines the importance level indicating the importance of the selected group for each keyword determined for each cluster in S211. For example, based on the score value determined in S203, the CPU 101 determines the importance indicating the importance in the selected group for each keyword determined for each cluster in S211. For example, the CPU 101 determines, as the importance level, the score value determined in S203 for each keyword determined for each cluster in S211. The process of S214 is an example of an importance determination process.
For each cluster determined as a business cluster in S209, the CPU 101 determines a nuclear keyword that is a keyword representing the cluster based on the importance of the keyword determined for each cluster. For example, the CPU 101 determines a keyword having the highest importance among keywords determined for a certain cluster as a core keyword of the cluster.
Further, for example, based on the score value determined for each cluster in S210, the CPU 101 may determine the importance indicating the importance in the selected group for each keyword determined for each cluster in S211. For example, the CPU 101 may determine the score value determined in S211 as the importance level for each keyword determined for each cluster in S211.
In the present embodiment, the CPU 101 performs the processes of S210 to S214 using the cluster determined as the cluster corresponding to the business in S209. As a result, the CPU 101 can reduce the processing load for determining a keyword indicating a feature for a cluster other than the business. However, the CPU 101 may perform the processes of S210 to S214 using all the clusters clustered in S208. In that case, the CPU 101 may not perform the process of S209.

S215において、CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行したか否かを判定する。CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行したと判定した場合、S216の処理に進む。また、CPU101は、団体群に含まれる団体の中に、S205〜S214の処理を実行していない団体があると判定した場合、S205の処理に進む。
本実施形態では、CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行することとする。しかし、CPU101は、団体群に含まれる団体のうち予め定められた団体のみについて、S205〜S214の処理を実行することとしてもよい。その場合、CPU101は、S215で、その予め定められた団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
また、CPU101は、外部の情報処理装置等から、S205〜S214の処理の対象となる団体の指定を受付けることとしてもよい。その場合、CPU101は、団体群に含まれる団体のうち指定された団体のみについて、S205〜S214の処理を実行することとなる。その場合、CPU101は、S215で、指定された団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
S216において、CPU101は、団体群に含まれる全ての団体についてS204で抽出されたキーワードそれぞれについて、意味を決定する。CPU101は、例えば、単語の共起性に着目して、その単語の意味を決定する手法であるword2vec、トピックモデル等の手法を用いて、キーワードが持つ潜在的意味を決定する。共起性とは、ある単語と他の単語とが、文書や文等において、同時に出現する傾向を示す性質である。キーワードが持つ潜在的意味は、キーワードが潜在的に有する意味であり、キーワードの意味の一例である。本実施形態では、CPU101は、キーワードそれぞれの潜在的意味を示す情報として、単語の潜在的意味を表現する意味空間におけるキーワードそれぞれに対応するベクトルを取得する。
また、CPU101は、複数の単語の意味を記憶する辞書を用いて、キーワードそれぞれの意味を決定してもよい。S216の処理は、意味決定処理の一例である。
In S215, the CPU 101 determines whether or not the processes in S205 to S214 have been executed for all groups included in the group of groups. If the CPU 101 determines that the processes in S205 to S214 have been executed for all the groups included in the group, the process proceeds to S216. If the CPU 101 determines that there is an organization that does not execute the processing of S205 to S214 among the organizations included in the organization group, the CPU 101 proceeds to the processing of S205.
In the present embodiment, the CPU 101 executes the processes of S205 to S214 for all groups included in the group of groups. However, the CPU 101 may execute the processes of S205 to S214 only for a predetermined group among the groups included in the group of groups. In that case, the CPU 101 determines in S215 whether or not the processes in S205 to S214 have been executed for all of the predetermined groups. If it is determined that the processes have been executed, the CPU 101 proceeds to the process in S216 and does not execute them. If it is determined that there is a group, the process proceeds to S205.
Further, the CPU 101 may accept designation of an organization to be processed in S205 to S214 from an external information processing apparatus or the like. In that case, CPU101 will perform the process of S205-S214 about only the designated group among the groups included in the group of groups. In that case, the CPU 101 determines in S215 whether or not the processes of S205 to S214 have been executed for all the specified organizations. If it is determined that the processes have been executed, the CPU 101 proceeds to the process of S216, If it is determined that there is, the process proceeds to S205.
In S216, the CPU 101 determines the meaning of each keyword extracted in S204 for all groups included in the group. For example, the CPU 101 pays attention to the co-occurrence of a word and determines the potential meaning of the keyword using a method such as word2vec or a topic model that is a method for determining the meaning of the word. Co-occurrence is a property that indicates that certain words and other words tend to appear at the same time in a document or sentence. The potential meaning that the keyword has is the meaning that the keyword potentially has, and is an example of the meaning of the keyword. In the present embodiment, the CPU 101 acquires a vector corresponding to each keyword in a semantic space expressing the potential meaning of the word as information indicating the potential meaning of each keyword.
In addition, the CPU 101 may determine the meaning of each keyword using a dictionary that stores the meanings of a plurality of words. The process of S216 is an example of a semantic determination process.

S217において、CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてS214で決定されたクラスタ毎のキーワードの重要度と、S216で決定された各キーワードの意味と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成し、生成した特徴情報を補助記憶装置103等に記憶する。
CPU101は、例えば、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてS214で決定されたクラスタ毎のキーワードの重要度と、S216で決定された各キーワードの意味と、を示す情報を、特徴情報として生成する。CPU101は、例えば、図8〜10に示すようなテーブルの情報を、特徴情報として生成する。
In S217, the CPU 101 includes the keywords for each cluster determined in S211 for each group included in the group, the relevance between the keywords determined in S213 for each group included in the group, and the group included in the group. A feature indicating the relationship between characteristics of each business in each organization included in the organization group based on the importance of the keyword for each cluster determined in S214 for each organization and the meaning of each keyword determined in S216 Information is generated, and the generated feature information is stored in the auxiliary storage device 103 or the like.
The CPU 101 determines, for example, the keywords for each cluster determined in S211 for each group included in the group, the degree of association between the keywords determined in S213 for each group included in the group, and the groups included in the group. Information indicating the importance of the keyword for each cluster determined in S214 and the meaning of each keyword determined in S216 is generated as feature information. For example, the CPU 101 generates table information as illustrated in FIGS. 8 to 10 as feature information.

図8〜10は、特徴情報の一例を説明する図である。
図8のテーブル800は、団体群に含まれる団体Aについて、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を管理するキーワード管理テーブルである。テーブル800は、「キーワード」、「団体キーワードスコア」、「事業カテゴリ」、「事業キーワードスコア」の項目を含む。「キーワード」の項目は、団体Aについて、S204で抽出された各キーワードを示す。
「団体キーワードスコア」の項目は、対応するキーワードについて、S203で決定されたスコア値を示す。「事業カテゴリ」は、S209で事業カテゴリとして決定されたカテゴリを識別する情報を示す。「事業キーワードスコア」の項目は、対応する事業における対応するキーワードについて、S210で決定されたスコア値を示す。
8 to 10 are diagrams illustrating an example of feature information.
A table 800 in FIG. 8 is a keyword management table for managing information on the keywords for each cluster and the importance of the keywords for each cluster for the organization A included in the organization group. The table 800 includes items of “keyword”, “group keyword score”, “business category”, and “business keyword score”. The item “keyword” indicates each keyword extracted in S204 for the organization A.
The item “group keyword score” indicates the score value determined in S203 for the corresponding keyword. “Business category” indicates information for identifying the category determined as the business category in S209. The item “business keyword score” indicates the score value determined in S210 for the corresponding keyword in the corresponding business.

同一の「事業カテゴリ」に対応する「キーワード」それぞれは、対応する「事業カテゴリ」が示す事業の特徴を示すキーワードとなる。図8の例では、キーワード「word1」と「word2」とは、「category1」が示す同一の事業の特徴を示すこととなる。
また、テーブル800におけるキーワード「word15」のように、同じキーワードが、複数の事業それぞれの特徴を示すキーワードとして決定される場合もある。
CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードに基づいて、団体群に含まれる団体それぞれについて、キーワードと事業との対応関係を決定し、テーブル800における「キーワード」と「事業カテゴリ」との項目の値を決定する。CPU101は、団体群に含まれる団体それぞれについて、テーブル800と同様のキーワード管理テーブルを生成し、補助記憶装置103に記憶する。
Each “keyword” corresponding to the same “business category” is a keyword indicating the characteristics of the business indicated by the corresponding “business category”. In the example of FIG. 8, the keywords “word1” and “word2” indicate the characteristics of the same business indicated by “category1”.
Further, like the keyword “word15” in the table 800, the same keyword may be determined as a keyword indicating the characteristics of each of a plurality of businesses.
The CPU 101 determines the correspondence between the keyword and the business for each group included in the group based on the keywords for each cluster determined in S211 for each group included in the group, and the “keyword” in the table 800 is determined. And the value of the item “business category”. The CPU 101 generates a keyword management table similar to the table 800 for each group included in the group and stores it in the auxiliary storage device 103.

「団体キーワードスコア」、「事業キーワードスコア」の何れかは、S214で決定された事業におけるキーワード毎の重要度を示す。S203で決定されたスコア値が各キーワードの重要度として、S214で決定された場合、「団体キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。S210で決定されたスコア値が各キーワードの重要度として、S214で決定された場合、「事業キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。
CPU101は、S203で決定されたスコア値に基づいて、「団体キーワードスコア」の項目の値を決定し、S210で決定されたスコア値に基づいて、「事業キーワードスコア」の項目の値を決定する。
また、CPU101は、「団体キーワードスコア」、「事業キーワードスコア」のうち、事業における各キーワードの重要度を示す項目以外の項目をテーブル800に含ませないようにすることとしてもよい。
Either “group keyword score” or “business keyword score” indicates the importance of each keyword in the business determined in S214. When the score value determined in S203 is determined as the importance level of each keyword in S214, the item “group keyword score” indicates the importance level of the corresponding keyword in the corresponding business. When the score value determined in S210 is determined as the importance level of each keyword in S214, the item “business keyword score” indicates the importance level of the corresponding keyword in the corresponding business.
The CPU 101 determines the value of the item “group keyword score” based on the score value determined in S203, and determines the value of the item “business keyword score” based on the score value determined in S210. .
Further, the CPU 101 may not include items other than the items indicating the importance of each keyword in the business in the “group keyword score” and “business keyword score” in the table 800.

図9のテーブル900は、団体群に含まれる団体Aについて、S213で決定されたキーワード同士の関連性を示す情報を管理する関連性管理テーブルである。
テーブル900には、団体Aについて、S212でキーワード毎に決定された特徴量の情報が格納されている。S213で説明したように、これらの特徴量の内積は、対応するキーワード同士の関連の度合いを示す。そのため、CPU101は、テーブル900における各キーワードに対応する列が示すベクトル同士の内積を求めることで、キーワード同士の関連の度合いを示す関連度を決定できる。そこで、本実施形態では、CPU101は、S212で決定した特徴量の情報を格納するテーブル900を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶することとする。CPU101は、団体群に含まれる団体それぞれについて、テーブル900と同様に関連性管理テーブルを生成し、補助記憶装置103に記憶する。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度の情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度が予め定められた閾値以上である場合、そのキーワード同士に関連があるとして、計算した関連度が予め定められた閾値未満である場合、そのキーワード同士に関連がないとして、キーワード同士の関連の有無を示す情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
A table 900 in FIG. 9 is a relationship management table for managing information indicating the relationship between keywords determined in S213 for the organization A included in the organization group.
In the table 900, information on the feature amount determined for each keyword in S212 for the organization A is stored. As described in S213, the inner product of these feature amounts indicates the degree of association between corresponding keywords. Therefore, the CPU 101 can determine the degree of association indicating the degree of association between keywords by obtaining the inner product of vectors indicated by columns corresponding to each keyword in the table 900. Therefore, in the present embodiment, the CPU 101 generates a table 900 that stores information on the feature amount determined in S <b> 212 as information indicating the relevance between keywords and stores it in the auxiliary storage device 103. The CPU 101 generates an association management table for each organization included in the organization group in the same manner as the table 900 and stores it in the auxiliary storage device 103.
Further, the CPU 101 calculates the inner product of the feature amounts determined in S212 between the keywords, generates the calculated degree of association information as information indicating the relationship between the keywords, and stores the information in the auxiliary storage device 103. Also good.
In addition, the CPU 101 calculates the inner product of the feature amounts determined in S212 between the keywords, and when the calculated relevance is equal to or greater than a predetermined threshold, the relevance calculated is determined to be related to the keywords. Is less than a predetermined threshold value, it is assumed that the keywords are not related to each other, and information indicating the presence / absence of the relationship between the keywords is generated as information indicating the relationship between the keywords and stored in the auxiliary storage device 103. May be.

図10のテーブル1000は、団体群に含まれる全ての団体についてS204で抽出されたキーワードそれぞれの潜在的意味の情報を管理する意味管理テーブルである。
テーブル1000における各キーワードに対応する列は、対応するキーワードの潜在的意味を示すベクトルの各基底の値を示す。CPU101は、S216で各キーワードについて抽出した潜在的意味を示すベクトルに基づいて、テーブル1000の各要素の値を決定する。
キーワード同士の潜在的意味が類似する程、キーワードの潜在的意味を示すベクトル同士も類似する。そのため、キーワードの潜在的意味を示すベクトル同士の内積は、キーワード同士の潜在的意味の類似の度合いを示す指標となる。そこで、CPU101は、テーブル1000における各キーワードに対応する列が示すベクトル同士の内積を、キーワード同士の類似の度合いを示す類似度として決定できる。
A table 1000 in FIG. 10 is a semantic management table that manages information on the potential meaning of each keyword extracted in S204 for all groups included in the group.
The column corresponding to each keyword in the table 1000 indicates the value of each base of a vector indicating the potential meaning of the corresponding keyword. The CPU 101 determines the value of each element of the table 1000 based on the vector indicating the potential meaning extracted for each keyword in S216.
As the potential meanings of the keywords are similar, the vectors indicating the potential meanings of the keywords are also similar. For this reason, the inner product of the vectors indicating the potential meaning of the keyword is an index indicating the degree of similarity of the potential meaning between the keywords. Therefore, the CPU 101 can determine the inner product of the vectors indicated by the columns corresponding to the keywords in the table 1000 as the similarity indicating the degree of similarity between the keywords.

また、CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成してもよい。
その場合、CPU101は、団体群に含まれる団体それぞれについて、図8で説明したテーブル800の項目のうち、「キーワード」、「事業カテゴリ」、の項目を含むテーブルをキーワード管理テーブルとして生成する。また、CPU101は、団体群に含まれる団体それぞれについて、図9で説明した関連性管理テーブルを生成する。
そして、CPU101は、生成したキーワード管理テーブルと、関連性管理テーブルと、を特徴情報として、補助記憶装置103に記憶する。
Further, the CPU 101 determines the group of groups based on the keyword for each cluster determined in S211 for each group included in the group of groups and the degree of association between the keywords determined in S213 for each group included in the group of groups. Feature information indicating a relationship between features for each business in each of the organizations included may be generated.
In that case, the CPU 101 generates, as a keyword management table, a table including the items “keyword” and “business category” among the items of the table 800 described with reference to FIG. 8 for each group included in the group of groups. Further, the CPU 101 generates the relationship management table described with reference to FIG. 9 for each group included in the group.
Then, the CPU 101 stores the generated keyword management table and relevance management table in the auxiliary storage device 103 as feature information.

(画像出力処理)
CPU101は、図2の処理により生成した特徴情報に基づいて、団体の事業毎にキーワードを構造化した画像を生成し、出力することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像の要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像を生成し、生成した画像を要求元に送信することで出力する。要求元の情報処理装置は、受信した画像を表示部に表示することで、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像をユーザに提示する。
(Image output processing)
The CPU 101 can generate and output an image in which keywords are structured for each business of an organization based on the feature information generated by the processing of FIG.
Assume that the CPU 101 receives a request for an image in which a keyword is structured for each business for each organization included in the organization group from an external information processing apparatus via the network I / F 104, for example.
In that case, the CPU 101 acquires the feature information generated by the processing of FIG. 2 from the auxiliary storage device 103, and based on the acquired feature information, the keywords are structured for each business for each group included in the group. An image is generated and output by transmitting the generated image to the request source. The requesting information processing apparatus displays the received image on the display unit, thereby presenting the user with an image in which keywords are structured for each business for each group included in the group.

図11は、特徴情報に基づいて生成された、ある団体について事業毎にキーワードを構造化した画像の一例を示す図である。図11を用いて、図3、6で説明した団体(1)について、事業毎にキーワードを構造化した画像を生成する処理について説明する。
CPU101は、特徴情報から、団体(1)について、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を格納するキーワード管理テーブルを取得する。そして、CPU101は、例えば、取得したテーブルの「事業カテゴリ」の項目から、団体(1)に含まれる事業を決定する。CPU101は、決定した各事業に対応する「キーワード」の項目から、団体(1)に含まれる各事業について、事業の特徴を示すキーワードを決定する。
団体(1)は、図6で説明したように、キーワード「ベッド」、「寝装品」、「家具」に対応する事業と、キーワード「クリーン」、「エアコン」、「エネルギー」に対応する事業と、キーワード「部品」、「ブレーキ」、「トランスミッション」、「エンジン」に対応する事業と、が含まれている。そのため、CPU101は、3つの事業を決定し、決定した3つの事業それぞれに対応するキーワードとして、「ベッド」、「寝装品」、「家具」と、「クリーン」、「エアコン」、「エネルギー」と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」とを決定する。また、CPU101は、各事業に対応するクラスタを代表する核キーワードとして、「家具」、「エネルギー」、「部品」を決定する。
FIG. 11 is a diagram illustrating an example of an image generated based on the feature information, in which keywords are structured for each business for a certain organization. With reference to FIG. 11, processing for generating an image in which keywords are structured for each business for the group (1) described in FIGS. 3 and 6 will be described.
CPU101 acquires the keyword management table which stores the information of the keyword for every cluster, and the importance of the keyword for every cluster about organization (1) from characteristic information. And CPU101 determines the business contained in organization (1) from the item of "business category" of the acquired table, for example. The CPU 101 determines a keyword indicating the characteristics of the business for each business included in the group (1) from the item of “keyword” corresponding to each determined business.
As shown in FIG. 6, the organization (1) has a business corresponding to the keywords “bed”, “bedding”, “furniture”, a business corresponding to the keywords “clean”, “air conditioner”, “energy”, Businesses corresponding to the keywords “parts”, “brake”, “transmission”, and “engine” are included. Therefore, the CPU 101 determines three businesses, and keywords corresponding to each of the determined three businesses are “bed”, “bedding”, “furniture”, “clean”, “air conditioner”, “energy”, “Parts”, “Brake”, “Transmission” and “Engine” are determined. In addition, the CPU 101 determines “furniture”, “energy”, and “parts” as core keywords representing clusters corresponding to each business.

CPU101は、取得したテーブルの「団体キーワードスコア」又は「事業キーワードスコア」の項目から、各キーワードの重要度を決定する。
また、CPU101は、特徴情報から、団体(1)についてキーワード同士の関連性を示す関連性管理テーブルを取得する。そして、CPU101は、取得したテーブルから各キーワードの特徴量を決定し、決定した特徴量同士の内積を求め、各キーワード同士の関連度を決定する。CPU101は、決定した関連度が、予め定められた閾値以上である場合、その関連度に対応する2つのキーワード同士に関連があると決定する。また、CPU101は、決定した関連度が、予め定められた閾値未満である場合、その関連度に対応する2つのキーワード同士に関連がないと決定する。
また、CPU101は、特徴情報から、図10で説明したテーブル1000を取得する。そして、CPU101は、テーブル1000から、団体(1)の各事業のキーワードの潜在的意味を示すベクトルを取得する。
The CPU 101 determines the importance of each keyword from the item “group keyword score” or “business keyword score” in the acquired table.
In addition, the CPU 101 obtains an association management table indicating the association between keywords for the group (1) from the feature information. And CPU101 determines the feature-value of each keyword from the acquired table, calculates | requires the inner product of the determined feature-value, and determines the relevance degree of each keyword. When the determined degree of association is equal to or greater than a predetermined threshold, the CPU 101 determines that two keywords corresponding to the degree of association are related. Further, when the determined degree of association is less than a predetermined threshold, the CPU 101 determines that the two keywords corresponding to the degree of association are not related.
Further, the CPU 101 acquires the table 1000 described with reference to FIG. 10 from the feature information. And CPU101 acquires the vector which shows the potential meaning of the keyword of each business of organization (1) from the table 1000. FIG.

CPU101は、団体(1)について決定した事業毎のキーワード、各キーワード同士の関連の有無、各キーワードの重要度、各キーワードの潜在的意味、に基づいて、事業毎にキーワードを構造化した画像を生成する。
CPU101は、各キーワードを示す楕円形ブロック(以下では、キーワードブロックとする)を、対応する事業を視認できるように画像中に配置する。CPU101は、例えば、同じ事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以下となるように配置し、異なる事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以上となるように配置することで、各キーワードブロックを、対応する事業を視認できるように配置する。また、CPU101は、例えば、画像中に事業それぞれに対応する枠を記載し、各枠内に、その枠が示す事業に対応するキーワードブロックを配置するようにしてもよい。図11の例では、「ベッド」、「寝装品」、「家具」の組と、「クリーン」、「エアコン」、「エネルギー」の組と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」の組と、がそれぞれ密集している様子が示されている。
Based on the keywords for each business determined for the group (1), whether or not each keyword is related, the importance of each keyword, and the potential meaning of each keyword, the CPU 101 creates an image in which the keyword is structured for each business. Generate.
The CPU 101 arranges an elliptical block indicating each keyword (hereinafter referred to as a keyword block) in the image so that the corresponding business can be visually recognized. For example, the CPU 101 arranges keyword blocks corresponding to the same business so that the distance between them is equal to or less than a predetermined value, and sets the keyword blocks corresponding to different businesses to a distance equal to or greater than a predetermined value. By arranging so that each of the keyword blocks can be visually recognized. In addition, for example, the CPU 101 may describe a frame corresponding to each business in the image and arrange a keyword block corresponding to the business indicated by the frame in each frame. In the example of FIG. 11, a set of “bed”, “bedding”, “furniture”, a set of “clean”, “air conditioner”, “energy”, “parts”, “brake”, “transmission”, “engine” The group of "" is shown densely.

また、CPU101は、各キーワードブロックのサイズを、各キーワードの重要度に基づいて決定する。CPU101は、例えば、各キーワードブロックのサイズを、対応するキーワードの重要度が大きい程大きくなるように決定する。これにより、CPU101は、どのキーワードが重要であるかをより容易に視認できるようにすることができる。図11の例では、「部品」の重要度が最も大きいため、「部品」のキーワードブロックが最もサイズが大きくなっている。
また、CPU101は、各キーワード同士の関連の有無に基づいて、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載する。図11の例では、関連のあるキーワードブロック同士をつなぐ線が記載されている様子が示されている。これにより、CPU101は、関連のあるキーワードに対応するキーワードブロック同士を構造化し、各事業の特徴の視認による把握をより容易にすることができる。
図11の例では、CPU101は、同じクラスタに属する関連のあるキーワードに対応するキーワードブロック同士をつなぐ線として実線を記載する。また、CPU101は、異なるクラスタに属する核キーワードに対応するキーワードブロック同士をつなぐ線として破線、二重線等の実線と異なる線を記載する。このように、CPU101は、同じクラスタに属するキーワードに対応するキーワードブロック同士をつなぐ線と異なる線を用いて、各クラスタに属する核キーワードに対応するキーワードブロック同士を接続し構造化することで、全体として団体の特徴を表す構造を表示することができる。図11には、クラスタ内のキーワードブロック同士が実線で繋がれており、クラスタそれぞれの核キーワードである「エネルギー」、「家具」、「部品」同士が破線でつながれている様子が示されている。また、CPU101は、同じ事業に対応するキーワードブロックについてのみ、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載することとしてもよい。その場合、図11の画像における「エネルギー」、「家具」、「部品」それぞれをつなぐ線が記載されないこととなる。
また、CPU101は、各キーワードの潜在的意味に応じて、各キーワードブロックの背景の表示態様(色・模様等)を決定する。キーワードの潜在的意味は、キーワードがどの団体の特徴を示すか、どの事業の特徴を示すか、とは関わりなく決定されている。そのため、団体の別、事業の別、と関わりなく、類似する潜在的意味を持つキーワードのキーワードブロックの背景は、類似する表示態様となる。そのため、CPU101は、異なる団体、異なる事業間における類似する特徴の視認による把握をより容易にできる。
Further, the CPU 101 determines the size of each keyword block based on the importance of each keyword. For example, the CPU 101 determines the size of each keyword block so as to increase as the importance of the corresponding keyword increases. As a result, the CPU 101 can more easily visually recognize which keyword is important. In the example of FIG. 11, since the importance of “component” is the highest, the keyword block of “component” has the largest size.
Moreover, CPU101 describes the line which connects the keyword blocks corresponding to the keyword which has a relationship based on the presence or absence of the relationship between each keyword. In the example of FIG. 11, a state in which lines connecting related keyword blocks are described. Thereby, CPU101 can structure the keyword blocks corresponding to the keyword which is related, and can grasp | ascertain by the visual recognition of the characteristic of each business more easily.
In the example of FIG. 11, the CPU 101 describes a solid line as a line connecting keyword blocks corresponding to related keywords belonging to the same cluster. In addition, the CPU 101 describes a line different from a solid line such as a broken line or a double line as a line connecting keyword blocks corresponding to core keywords belonging to different clusters. In this way, the CPU 101 connects and structures the keyword blocks corresponding to the nuclear keywords belonging to each cluster by using different lines from the lines connecting the keyword blocks corresponding to the keywords belonging to the same cluster. A structure representing the characteristics of the organization can be displayed. FIG. 11 shows a state in which the keyword blocks in the cluster are connected by a solid line, and “energy”, “furniture”, and “parts” that are the core keywords of each cluster are connected by a broken line. . Moreover, CPU101 is good also as describing the line which connects the keyword blocks corresponding to a related keyword only about the keyword block corresponding to the same business. In that case, the lines connecting the “energy”, “furniture”, and “component” in the image of FIG. 11 are not described.
Further, the CPU 101 determines the display mode (color, pattern, etc.) of the background of each keyword block according to the potential meaning of each keyword. The potential meaning of a keyword is determined regardless of which organization the keyword shows and which business features it shows. For this reason, the background of the keyword block of the keyword having a similar potential meaning becomes a similar display mode regardless of whether it is a group or a business. Therefore, the CPU 101 can more easily grasp the similar characteristics between different organizations and different businesses by visual recognition.

また、CPU101は、団体(1)について決定した事業毎のキーワード、各キーワード同士の関連の有無、に基づいて、事業毎にキーワードを構造化した画像を生成することしてもよい。
また、CPU101は、外部の情報処理装置から、団体群に含まれる(1つ又は複数の)団体について、事業毎にキーワードを構造化した画像の要求を受信した場合、その(1つ又は複数の)団体についてのみ、事業毎にキーワードを構造化した画像を生成し、出力してもよい。
Further, the CPU 101 may generate an image in which the keyword is structured for each business based on the keyword for each business determined for the group (1) and the presence / absence of association between the keywords.
Further, when the CPU 101 receives a request for an image in which a keyword is structured for each business for an organization (one or more) included in the organization group from an external information processing apparatus, ) For groups only, an image in which keywords are structured for each business may be generated and output.

ユーザは、団体について事業毎にキーワードが構造化された画像を視認することで、以下のようなことを把握できる。
例えば、情報処理装置100が、ユーザが所属する企業と、その企業の競合他社と、を団体群として、特徴情報を生成したとする。そして、情報処理装置100が、ユーザが所属する企業と、その競合他社と、について、事業毎にキーワードが構造化された画像を生成した画像を生成する。ユーザは、その画像を視認することで、以下のようなことを把握できる。即ち、ユーザは、自社の事業毎にキーワードが構造化された画像を視認することで、自社の特徴を把握できる。また、ユーザは、自社の事業毎にキーワードが構造化された画像と、競合他社の事業毎にキーワードが構造化された画像と、を見比べることで、同一市場・業界の平均的な特徴、自社の強み・弱み、競合の強み・弱み等を把握できる。
また、ユーザは、複数事業を展開している企業についても、その企業のキーワードの構造と、類似したキーワードの構造を有する他の企業を把握することで、その企業が展開している事業をより正確に把握できる。
The user can grasp the following by visually recognizing the image in which the keyword is structured for each business for the group.
For example, it is assumed that the information processing apparatus 100 generates feature information using a company to which the user belongs and competitors of the company as a group. Then, the information processing apparatus 100 generates an image in which an image in which keywords are structured for each business is generated for the company to which the user belongs and its competitors. The user can grasp the following by visually recognizing the image. That is, the user can grasp the characteristics of the company by visually recognizing the image in which the keyword is structured for each business. In addition, users can compare the images with keywords for each of their businesses with the images with keywords for each of their competitors' business. Can understand the strengths and weaknesses of each other and the strengths and weaknesses of competitors.
In addition, for a company that operates multiple businesses, the user can understand the structure of the keywords of the company and other companies that have similar keyword structures, so that the business that the company operates Accurately grasp.

ユーザは、このようなことを把握することで、より適切な売却先、業務提携先、資本提携先、仕入れ販売先等を見つけることができる。
本実施形態の処理は、事業会社において、企業価値向上を目指す企業の業務(自社・競合・他社把握や、提携先検討等)において活用ができる。また、仲介実施会社において、証券会社におけるM&A先の紹介、銀行におけるビジネスマッチング先紹介、等の業務においても、活用ができる。また、調査研究機関、機関投資家等において、調査研究機関や機関投資家における業界や個社動向調査においても活用ができる。
By grasping such a situation, the user can find a more appropriate sales destination, business alliance partner, capital alliance partner, purchase sales destination, and the like.
The processing of this embodiment can be used in business operations (such as grasping own company / competition / other companies and partner consideration) at business companies. It can also be used in brokerage companies such as introducing M & A destinations at securities companies and introducing business matching destinations at banks. It can also be used in research and research institutions, institutional investors, etc. in surveys of industry and individual company trends in research institutions and institutional investors.

(検索処理)
CPU101は、図2の処理により生成した特徴情報に基づいて、指定された単語と関連のある団体を検索することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、ある単語(例えば「ヘルメット」等)と関連のある団体を検索するよう要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、指定された単語と関連のある団体を団体群から検索し、検索した団体を示す情報を要求元に送信する。
CPU101は、例えば、団体群に含まれる団体それぞれについて生成されたキーワード管理テーブルの「キーワード」の項目から、指定された単語を検索する。そして、CPU101は、検索した「キーワード」に対応する重要度が予め定められた閾値以上である場合、検索した「キーワード」を含む団体を示す情報を、検索結果として要求元に送信する。
(Search process)
The CPU 101 can search for an organization related to the designated word based on the feature information generated by the processing of FIG.
Assume that the CPU 101 receives a request to search for an organization related to a certain word (for example, “helmet”) from an external information processing apparatus via the network I / F 104, for example.
In that case, the CPU 101 acquires the feature information generated by the processing of FIG. 2 from the auxiliary storage device 103, searches the group of organizations related to the specified word based on the acquired feature information, and searches Information indicating the selected organization is transmitted to the request source.
For example, the CPU 101 searches for a designated word from the “keyword” item in the keyword management table generated for each group included in the group. When the importance corresponding to the searched “keyword” is equal to or greater than a predetermined threshold, the CPU 101 transmits information indicating the organization including the searched “keyword” to the request source as a search result.

また、CPU101は、以下のような処理を行うこととしてもよい。
CPU101は、特徴情報に含まれる団体群それぞれについて生成された関連性管理テーブルと、テーブル1000とに、基づいて、指定された単語と関連するキーワードと、指定された単語と類似するキーワードと、を検索する。そして、CPU101は、検索したキーワードのリストを、要求元に送信する。要求元の情報処理装置は、受信したキーワードのリストを表示部に表示し、ユーザに提示する。ユーザは、表示されたキーワードのリストから、団体の検索に用いられる(1つ又は複数の)単語を追加で、選択する。要求元の情報処理装置は、ユーザによって選択された単語を情報処理装置100に送信し、初めに送信した単語と、改めて送信した単語と、に関連する団体を検索するよう要求する。
例えば、要求元の情報処理装置は、初めに「ヘルメット」という単語で、団体の検索を行うよう情報処理装置100に要求したとする。その場合、情報処理装置100は、「ヘルメット」に関連するキーワード、類似するキーワードのリストを要求元に送信する。そして、ユーザは、夏場での利用を想定したヘルメットを開発している企業を探したい場合、受信したキーワードのリストから「通気性」という単語を選択する。そして、要求元の情報処理装置は、「通気性」という単語を情報処理装置100に送信し、「ヘルメット」と「通気性」とに関連する団体を検索するよう要求する。以下では、最初に指定された単語(「ヘルメット」)をオリジナル検索ワード、追加で指定された単語(「通気性」)を追加関連ワードとする。
Further, the CPU 101 may perform the following processing.
The CPU 101 obtains a keyword related to the designated word and a keyword similar to the designated word based on the association management table generated for each group of groups included in the feature information and the table 1000. Search for. Then, the CPU 101 transmits the searched keyword list to the request source. The requesting information processing apparatus displays the received keyword list on the display unit and presents it to the user. The user additionally selects the word (s) used for the organization search from the displayed keyword list. The requesting information processing apparatus transmits the word selected by the user to the information processing apparatus 100 and requests to search for an organization related to the first transmitted word and the newly transmitted word.
For example, it is assumed that the requesting information processing apparatus first requests the information processing apparatus 100 to search for a group using the word “helmet”. In this case, the information processing apparatus 100 transmits a keyword related to “helmet” and a list of similar keywords to the request source. The user selects the word “breathability” from the received keyword list when he / she wants to find a company developing a helmet intended for use in summer. Then, the requesting information processing apparatus transmits the word “breathability” to the information processing apparatus 100 and requests to search for an organization related to “helmet” and “breathability”. In the following, the first designated word (“helmet”) is the original search word, and the additionally designated word (“breathability”) is the additional related word.

CPU101は、オリジナル検索ワードと、追加関連ワードと、に関連する団体を、団体群から検索する。CPU101は、団体群に含まれる団体それぞれについて生成された図8で説明したテーブルと同様のテーブルから、オリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)とをキーワードとする団体を検索する。また、CPU101は、更に、オリジナル検索ワードと追加関連ワードに類似する単語とをキーワードとする団体を検索してもよい。CPU101は、テーブル1000に基づいて、追加関連ワードに類似する単語を決定できる。
CPU101は、検索した団体について、検索条件にどの程度合致しているかを示す合致スコアを決定する。CPU101は、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度に基づいて、合致スコアを決定する。CPU101は、例えば、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度が大きい程、値が大きくなるように合致スコアを決定する。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)とに関連性がある団体の合致スコアを、関連性がない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワードとが、同じ事業クラスタのキーワードとなっている団体の合致スコアを、そうでない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。
The CPU 101 searches for a group related to the original search word and the additional related word from the group of groups. The CPU 101 selects an organization using the original search word and an additional related word (or a word similar to the additional related word) as keywords from a table similar to the table described in FIG. 8 generated for each organization included in the organization group. Search for. Further, the CPU 101 may further search for an organization using the original search word and a word similar to the additional related word as keywords. Based on the table 1000, the CPU 101 can determine a word similar to the additional related word.
The CPU 101 determines a match score indicating how much the search group matches the search condition. For each retrieved group, the CPU 101 determines a match score based on the importance of the original search word and the additional related word (or a word similar to the additional related word) in the group. For example, the CPU 101 determines the match score so that the value increases as the importance of the original search word and the additional related word (or a word similar to the additional related word) in the group increases. In addition, for example, the CPU 101 makes the match score of the group related to the original search word and the additional related word (or a word similar to the additional related word) in the group larger than the match score of the non-related group. As such, the match score may be determined. In addition, for example, the CPU 101 sets the match score so that the match score of the group in which the original search word and the additional related word in the group are keywords of the same business cluster is larger than the match score of the group that is not. You may decide.

CPU101は、検索した団体の情報と、各団体の合致スコアの情報と、を要求元の情報処理装置に送信する。要求元の情報処理装置は、検索された団体の情報を、合致スコアが大きい順に並べて、表示部に表示する。ユーザは、検索された団体の情報を視認して、関連のありそうな団体を把握できる。また、要求元の情報処理装置は、合致スコアが最大のものから予め定められた数(例えば3個)の団体について、各団体の事業毎のキーワードを表示部に表示することとしてもよい。そして、ユーザは、表示されたキーワードの中から更に追加する追加関連ワードとなるキーワードを選択する。そして、要求元の情報処理装置は、選択されたキーワードの情報を情報処理装置100に送信する。情報処理装置100は、追加関連ワードに、受信したキーワードを追加する。
そして、CPU101は、オリジナル検索ワードと、受信したキーワードが追加された追加関連ワード(又は追加関連ワードに類似する単語)と、に基づいて、同様の処理を繰り返す。これにより、情報処理装置100は、ユーザが望む条件により合致する団体を検索することができる。
The CPU 101 transmits the retrieved group information and the match score information of each group to the requesting information processing apparatus. The requesting information processing apparatus arranges the retrieved group information in the descending order of match score and displays the information on the display unit. The user can visually recognize the information of the retrieved organizations and grasp the organizations that are likely to be related. Further, the requesting information processing apparatus may display a keyword for each business of each group on the display unit for a predetermined number (for example, three) of groups having the highest match score. Then, the user selects a keyword to be an additional related word to be further added from the displayed keywords. Then, the requesting information processing apparatus transmits information on the selected keyword to the information processing apparatus 100. The information processing apparatus 100 adds the received keyword to the additional related word.
Then, the CPU 101 repeats the same processing based on the original search word and the additional related word to which the received keyword is added (or a word similar to the additional related word). Thereby, the information processing apparatus 100 can search for an organization that matches the condition desired by the user.

また、CPU101は、図2の処理により生成した特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された団体に類似する団体を検索することができる。
CPU101は、例えば、外部の情報処理装置等から、ある団体の指定を受付け、その団体に類似する団体の検索の要求を受付ける。以下では、指定された団体を、オリジナル団体とする。CPU101は例えば、オリジナル団体に含まれるキーワード(以下では、キーワード(A)とする)それぞれについて、オリジナル団体における重要度と、他の団体(以下では、検索先団体とする)における重要度と、の積の和を、オリジナル団体と検索先団体との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先団体に含まれる団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の団体を、オリジナル団体に類似する団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
Further, the CPU 101 can search for a group similar to the designated group from the group by performing the following process based on the feature information generated by the process of FIG.
For example, the CPU 101 receives designation of a certain group from an external information processing apparatus or the like, and receives a search request for a group similar to the group. In the following, the designated group is the original group. For example, for each of the keywords included in the original organization (hereinafter referred to as keyword (A)), the CPU 101 determines the importance in the original organization and the importance in other organizations (hereinafter referred to as search destination organizations). The sum of products is obtained as a similarity score indicating the degree of similarity between the original organization and the search destination organization. Then, the CPU 101 generates a list in which organizations included in the search destination organization are arranged in descending order of the obtained similarity score, and transmits the generated list to the search request source. Further, the CPU 101 may determine a group having a similarity score equal to or higher than a predetermined threshold as a group similar to the original group, and transmit information indicating the determined group to the search request source.

また、CPU101は、キーワード(A)と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A)それぞれについて、オリジナル団体におけるキーワード(A)の重要度と、検索先団体におけるキーワード(A)に類似するキーワードの重要度と、の積に、キーワード(A)とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B)とする)について、検索先団体においても単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(B)の重要度と、検索先団体におけるキーワード(B)の重要度と、の積に係数(以下では、第1の係数とする)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第1の係数は、例えば、2等である。このようにすることで、CPU101は、キーワード(B)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A)のうち、オリジナル団体において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C)とする)について、検索先団体においても単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(C)の重要度と、検索先団体におけるキーワード(C)の重要度と、の積に係数(以下では、第2の係数)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第2の係数は、例えば、3等の第1の係数よりも大きな値としてもよい。このようにすることで、CPU101は、キーワード(C)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
Further, the CPU 101 may obtain a similarity score in consideration of a keyword similar to the keyword (A). For example, for each keyword (A), the CPU 101 calculates the keyword (A) and the product of the importance of the keyword (A) in the original organization and the importance of the keyword similar to the keyword (A) in the search destination organization. A value obtained by multiplying the similarity with the keyword may be added to the similarity score to obtain the similarity score.
Further, the CPU 101 may obtain a similarity score in consideration of the business structure (which business cluster each keyword belongs to). For example, among the keywords (A), the CPU 101 belongs to a single business cluster (hereinafter referred to as keyword (B)) and belongs to the single business cluster. If so, you may do the following. That is, the CPU 101 multiplies the product of the importance of the keyword (B) in the original organization and the importance of the keyword (B) in the search destination organization by a coefficient (hereinafter referred to as the first coefficient). The similarity score may be obtained by adding to the similarity score. The first coefficient is, for example, 2 or the like. In this way, when the keyword (B) is in the same business cluster even at the search destination, the CPU 101 can determine that the business structure is similar and increase the similarity score.
Further, the CPU 101 may obtain a similarity score in consideration of the relevance between keywords. Among the keywords (A), a keyword belonging to a single business cluster in the original organization and having a relevance exceeding a threshold (hereinafter referred to as a keyword (C)) also in the search destination organization When belonging to a single business cluster and the relevance exceeds the threshold, the following may be performed. That is, the CPU 101 calculates a similarity by multiplying the product of the importance of the keyword (C) in the original organization and the importance of the keyword (C) in the search destination organization by a coefficient (hereinafter, the second coefficient). The similarity score may be obtained by adding to the degree score. The second coefficient may be a value larger than the first coefficient such as 3, for example. In this way, the CPU 101 determines that the business structure is similar when the keyword (C) is in the same business cluster at the search destination and the relevance exceeds the threshold, and the similarity score is determined. , Can be higher.

また、CPU101は、特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された事業と類似する事業を持つ企業を検索することもできる。
CPU101は、例えば、外部の情報処理装置等から、ある団体におけるある事業の指定を受付け、その事業に類似する事業を有する団体の検索の要求を受付ける。以下では、指定された事業を、オリジナル事業とする。CPU101は例えば、オリジナル事業に含まれるキーワード(以下では、キーワード(A’)とする)それぞれについて、オリジナル事業における重要度と、他の団体に含まれる事業(以下では、検索先事業とする)における重要度と、の積の和を、オリジナル事業と検索先事業との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先事業を含む団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の事業を含む団体を、オリジナル事業に類似する事業を含む団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
Further, the CPU 101 can also search for a company having a business similar to the designated business from the group by performing the following processing based on the feature information.
The CPU 101 receives, for example, designation of a certain business in a certain organization from an external information processing apparatus or the like, and accepts a search request for a group having a business similar to that business. In the following, the designated business is the original business. For example, for each of the keywords included in the original business (hereinafter referred to as keyword (A ′)), the CPU 101 determines the importance in the original business and the business included in other organizations (hereinafter referred to as search destination business). The sum of the products of the importance levels is obtained as a similarity score indicating the degree of similarity between the original business and the search destination business. Then, the CPU 101 generates a list in which organizations including the search destination business are arranged in descending order of the obtained similarity score, and transmits the generated list to the search request source. In addition, the CPU 101 determines an organization including a business whose similarity score is equal to or higher than a predetermined threshold as an organization including a business similar to the original business, and transmits information indicating the determined organization to a search request source. May be.

また、CPU101は、キーワード(A’)と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A’)それぞれについて、オリジナル事業におけるキーワード(A’)の重要度と、検索先事業におけるキーワード(A’)に類似するキーワードの重要度と、の積に、キーワード(A’)とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A’)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B’)とする)について、検索先事業に対応する単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(B’)の重要度と、検索先事業におけるキーワード(B’)の重要度と、の積に第1の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(B’)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A’)のうち、オリジナル事業において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C’)とする)について、検索先事業に対応する単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(C’)の重要度と、検索先事業におけるキーワード(C’)の重要度と、の積に第2の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(C’)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
The CPU 101 may obtain a similarity score in consideration of a keyword similar to the keyword (A ′). For example, for each keyword (A ′), the CPU 101 calculates the keyword (A ′) by the product of the importance of the keyword (A ′) in the original business and the importance of a keyword similar to the keyword (A ′) in the search destination business. A value obtained by multiplying the similarity between A ′) and the keyword may be added to the similarity score to obtain the similarity score.
Further, the CPU 101 may obtain a similarity score in consideration of the business structure (which business cluster each keyword belongs to). For example, the CPU 101 assigns a keyword (A ′) that belongs to a single business cluster (hereinafter referred to as a keyword (B ′)) to a single business cluster corresponding to the search destination business. If you belong, you may do the following. That is, the CPU 101 adds a value obtained by multiplying the product of the importance of the keyword (B ′) in the original business and the importance of the keyword (B ′) in the search destination business by the first coefficient to the similarity score. Then, a similarity score may be obtained. In this way, when the keyword (B ′) is in the same business cluster even at the search destination, the CPU 101 can make the similarity score higher by assuming that the business structures are similar.
Further, the CPU 101 may obtain a similarity score in consideration of the relevance between keywords. Among the keywords (A ′), the search destination business for a keyword (hereinafter referred to as a keyword (C ′)) that belongs to a single business cluster in the original business and whose relevance exceeds a threshold value. If it belongs to a single business cluster corresponding to, and the relevance exceeds the threshold, the following may be performed. That is, the CPU 101 adds, to the similarity score, a value obtained by multiplying the product of the importance of the keyword (C ′) in the original business and the importance of the keyword (C ′) in the search destination business by the second coefficient. Then, a similarity score may be obtained. By doing this, the CPU 101 determines that the business structure is similar when the keyword (C ′) is in the same business cluster even at the search destination and the relevance exceeds the threshold, and the similarity score Can be made higher.

(まとめ)
以上、本実施形態では、情報処理装置100は、団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、団体の特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関係を示す特徴情報を生成した。これにより、情報処理装置100は、団体内にどのような事業があるのかを示す情報を生成することができる。
(Summary)
As described above, in the present embodiment, the information processing apparatus 100 extracts a keyword indicating the characteristics of a group from a document data group including a plurality of document data related to the group, and groups the keywords for each business that is an element included in the group. Thus, the keywords indicating the characteristics of each business are determined, the relevance between the keywords indicating the characteristics of the organization is determined, and the business in the organization is determined based on the determined keywords for each business and the relationship between the keywords. Feature information indicating the relationship between each feature was generated. Thereby, the information processing apparatus 100 can generate information indicating what kind of business is in the organization.

<その他の実施形態>
実施形態1では、情報処理装置100は、単体の情報処理装置であるとした。しかし、情報処理装置100は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置100に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、情報処理装置100の機能及び図2のフローチャートの処理、(画像出力処理)、(検索処理)で説明した処理等が実現される。
実施形態1では、情報処理装置100は、団体について、団体に含まれる要素である事業毎の特徴同士の関係を示す特徴情報を生成することとした。しかし、情報処理装置100は、団体以外のオブジェクトについて、オブジェクトに含まれる要素毎に特徴同士の関係を示す特徴情報を生成してもよい。例えば、情報処理装置100は、個人が文書投稿サイト等に投稿した複数の文書データを含む文書データ群から、個人の特徴を示すキーワードを抽出し、文書データ群に含まれる各文書データをクラスタリングし、個人に含まれる要素(性格・趣味等)を示す各クラスタを求め、各クラスタの特徴を示すキーワードを決定し、キーワード同士の関連性を決定し、決定した各クラスタの特徴を示すキーワードと、キーワード同士の関連性と、を示す情報を、特徴情報として生成してもよい。
<Other embodiments>
In the first embodiment, the information processing apparatus 100 is a single information processing apparatus. However, the information processing apparatus 100 may be configured as a system including a plurality of information processing apparatuses connected to be communicable with each other via a network (LAN or the Internet). In that case, the CPU of each of the plurality of information processing devices included in the information processing device 100 executes the processing in cooperation with each other based on the program stored in the auxiliary storage device of each information processing device, so that the information processing device 100 And the processing described in the flowchart of FIG. 2, (image output processing), (search processing), and the like are realized.
In the first embodiment, the information processing apparatus 100 generates feature information indicating the relationship between features for each business that is an element included in the organization. However, the information processing apparatus 100 may generate feature information indicating the relationship between features for each element included in an object other than a group. For example, the information processing apparatus 100 extracts a keyword indicating an individual characteristic from a document data group including a plurality of document data posted by an individual to a document posting site or the like, and clusters each document data included in the document data group. , Obtaining each cluster indicating the elements (personality, hobbies, etc.) included in the individual, determining keywords indicating the characteristics of each cluster, determining the relevance between the keywords, and keywords indicating the characteristics of each determined cluster; Information indicating the relevance between keywords may be generated as feature information.

以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置100の機能構成の一部又は全てをハードウェアとして情報処理装置100に実装してもよい。
As mentioned above, although preferable embodiment of this invention was explained in full detail, this invention is not limited to the specific embodiment which concerns.
For example, part or all of the functional configuration of the information processing apparatus 100 described above may be implemented in the information processing apparatus 100 as hardware.

100 情報処理装置
101 CPU
100 Information processing apparatus 101 CPU

Claims (14)

オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定手段と、
前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、
前記抽出手段により抽出されたキーワードの特徴量を決定する第2の特徴量決定手段と、
前記第2の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、
前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、
を有する情報処理装置。
Extraction means for extracting a keyword indicating the feature of the object from the object document data group based on the appearance frequency of words in the object document data group, which is a document data group including a plurality of document data related to the object;
Based on the appearance frequency of the keyword extracted by the extracting unit in the document data included in the object document data group and the rarity of the keyword extracted by the extracting unit in the object document data group, the object document First feature amount determining means for determining a feature amount of document data included in the data group;
Classifying means for classifying document data included in the object document data group into one or more sections respectively corresponding to elements included in the object based on the feature amount determined by the first feature amount determining means. When,
Document data included in the object document data group by the classification unit is extracted by the extraction unit based on the appearance frequency of the keyword extracted by the extraction unit in the classification included in the one or more classifications. A keyword determining means for determining a keyword indicating a feature of an element corresponding to the category included in the one or more categories from the keywords,
Second feature value determining means for determining the feature value of the keyword extracted by the extracting means;
Relevance determination means for determining relevance between keywords extracted by the extraction means based on the feature quantity determined by the second feature quantity determination means;
Generating means for generating feature information indicating a relationship between features of each element in the object based on the keyword determined by the keyword determining means and the relevance determined by the relevance determining means;
An information processing apparatus.
前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記単語の前記オブジェクトにおける重要性を示すスコア値を決定する第1のスコア決定手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードの前記1つ以上の区分に含まれる区分における重要性を示すスコア値を決定する第2のスコア決定手段と、
を更に有し、
前記抽出手段は、前記第1のスコア決定手段により決定されたスコア値に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記キーワード決定手段は、前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項1記載の情報処理装置。
First score determination means for determining a score value indicating the importance of the word in the object based on the appearance frequency of the word in the object document data group;
Document data included in the object document data group by the classification unit is extracted by the extraction unit based on the appearance frequency of the keyword extracted by the extraction unit in the classification included in the one or more classifications. Second score determining means for determining a score value indicating importance in a section included in the one or more sections of the keyword,
Further comprising
The extraction unit extracts a keyword indicating the feature of the object from the object document data group based on the score value determined by the first score determination unit,
The keyword determining unit is configured to obtain a feature of an element corresponding to a category included in the one or more categories from the keyword extracted by the extracting unit based on the score value determined by the second score determining unit. The information processing apparatus according to claim 1, wherein a keyword to be displayed is determined.
前記第1のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。
Further comprising importance determining means for determining importance indicating the importance of the keyword extracted by the extracting means in the object based on the score value determined by the first score determining means;
The generating means calculates the feature information based on the keyword determined by the keyword determining means, the relevance determined by the relevance determining means, and the importance determined by the importance determining means. The information processing apparatus according to claim 2 to be generated.
前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。
Based on the score value determined by the second score determining means, further comprising an importance determining means for determining an importance indicating the importance of the keyword extracted by the extracting means in the object,
The generating means calculates the feature information based on the keyword determined by the keyword determining means, the relevance determined by the relevance determining means, and the importance determined by the importance determining means. The information processing apparatus according to claim 2 to be generated.
前記第2の特徴量決定手段は、前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの特徴量を決定する請求項2乃至4何れか1項記載の情報処理装置。   The said 2nd feature-value determination means determines the feature-value of the keyword extracted by the said extraction means based on the score value determined by the said 2nd score determination means. The information processing apparatus described. 前記抽出手段は、前記オブジェクト文書データ群における単語の出現頻度と、前記オブジェクトを含む複数のオブジェクトそれぞれに関する複数の文書データ群における単語の希少性と、に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する請求項1乃至5何れか1項記載の情報処理装置。   The extraction means, based on the appearance frequency of words in the object document data group and the rarity of words in a plurality of document data groups related to each of a plurality of objects including the object, from the object document data group, The information processing apparatus according to claim 1, wherein a keyword indicating a feature of the object is extracted. 前記第1の特徴量決定手段は、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの重要性を示すスコア値を決定し、決定したスコア値に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴を示すベクトルを決定し、決定したベクトルを次元圧縮し、次元圧縮したベクトルを、前記オブジェクト文書データ群に含まれる文書データの特徴量として決定する請求項1乃至6何れか1項記載の情報処理装置。   The first feature amount determining means includes the appearance frequency of the keyword extracted by the extracting means in the document data included in the object document data group, and the rareness of the keyword extracted by the extracting means in the object document data group. And determining a score value indicating the importance of the keyword extracted by the extraction means in the document data included in the object document data group, and determining the object document data group based on the determined score value. 7. A vector indicating the feature of the document data included in the document is determined, the determined vector is dimensionally compressed, and the dimension-compressed vector is determined as a feature amount of the document data included in the object document data group. The information processing apparatus according to claim 1. 前記キーワード決定手段は、前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度と、前記1つ以上の区分における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項1乃至7何れか1項記載の情報処理装置。   The keyword determination means includes the appearance frequency of the keyword extracted by the extraction means in the category included in the one or more categories, the rarity of the keyword extracted by the extraction means in the one or more categories, 8. The information processing apparatus according to claim 1, wherein a keyword indicating a feature of an element corresponding to a category included in the one or more categories is determined from the keywords extracted by the extraction unit based on . 前記抽出手段により抽出されたキーワードの意味を決定する意味決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記意味決定手段により決定された意味と、に基づいて、前記特徴情報を生成する請求項1乃至8何れか1項記載の情報処理装置。
Further comprising meaning determining means for determining the meaning of the keyword extracted by the extracting means;
The generation unit generates the feature information based on the keyword determined by the keyword determination unit, the relevance determined by the relevance determination unit, and the meaning determined by the meaning determination unit. The information processing apparatus according to claim 1.
前記意味決定手段は、前記抽出手段により抽出されたキーワードの潜在的意味を抽出し、抽出した潜在的意味を、前記抽出手段により抽出されたキーワードの意味として決定する請求項9記載の情報処理装置。   The information processing apparatus according to claim 9, wherein the meaning determination unit extracts a potential meaning of the keyword extracted by the extraction unit, and determines the extracted potential meaning as a meaning of the keyword extracted by the extraction unit. . 前記生成手段により生成された前記特徴情報に基づいて、前記オブジェクトにおける要素毎の特徴同士の関係を示す画像を出力する出力手段を更に有する請求項1乃至10何れか1項記載の情報処理装置。   11. The information processing apparatus according to claim 1, further comprising an output unit that outputs an image indicating a relationship between features of each element in the object based on the feature information generated by the generation unit. 前記抽出手段は、企業である前記オブジェクトに関する複数の文書データを含む前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記分類手段は、前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素である事業にそれぞれ対応する1つ以上の区分に分類する請求項1乃至11何れか1項記載の情報処理装置。
The extraction means extracts a keyword indicating the feature of the object from the object document data group based on the appearance frequency of words in the object document data group including a plurality of document data related to the object that is a company,
The classifying unit converts document data included in the object document data group based on the feature amount determined by the first feature amount determining unit to one corresponding to a business that is an element included in the object. The information processing apparatus according to claim 1, which is classified into the above categories.
情報処理装置が実行する情報処理方法であって、
オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出ステップと、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出ステップで抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出ステップで抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定ステップと、
前記第1の特徴量決定ステップで決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類ステップと、
前記分類ステップで前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出ステップで抽出されたキーワードの出現頻度に基づいて、前記抽出ステップで抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定ステップと、
前記抽出ステップで抽出されたキーワードの特徴量を決定する第2の特徴量決定ステップと、
前記第2の特徴量決定ステップで決定された特徴量に基づいて、前記抽出ステップで抽出されたキーワード同士の関連性を決定する関連性決定ステップと、
前記キーワード決定ステップで決定されたキーワードと、前記関連性決定ステップで決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成ステップと、
を含む情報処理方法。
An information processing method executed by an information processing apparatus,
An extraction step of extracting a keyword indicating the feature of the object from the object document data group based on the appearance frequency of words in the object document data group, which is a document data group including a plurality of document data related to the object;
Based on the appearance frequency of the keyword extracted in the extraction step in the document data included in the object document data group and the rarity of the keyword extracted in the extraction step in the object document data group, the object document A first feature amount determining step for determining a feature amount of document data included in the data group;
A classification step of classifying document data included in the object document data group into one or more sections corresponding to elements included in the object, based on the feature amounts determined in the first feature amount determination step. When,
The document data included in the object document data group in the classification step is extracted in the extraction step based on the appearance frequency of the keyword extracted in the extraction step in the classification included in the one or more classifications. A keyword determination step for determining a keyword indicating a feature of an element corresponding to the category included in the one or more categories from the keywords,
A second feature amount determination step for determining a feature amount of the keyword extracted in the extraction step;
A relevance determination step for determining relevance between keywords extracted in the extraction step based on the feature amount determined in the second feature amount determination step;
A generation step of generating feature information indicating a relationship between features of each element in the object based on the keyword determined in the keyword determination step and the relationship determined in the relevance determination step;
An information processing method including:
コンピュータを、請求項1乃至12何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。   A program for causing a computer to function as each unit of the information processing apparatus according to any one of claims 1 to 12.
JP2017165581A 2017-08-30 2017-08-30 Information processing apparatus, information processing method, and program Active JP6403850B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017165581A JP6403850B1 (en) 2017-08-30 2017-08-30 Information processing apparatus, information processing method, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017165581A JP6403850B1 (en) 2017-08-30 2017-08-30 Information processing apparatus, information processing method, and program

Publications (2)

Publication Number Publication Date
JP6403850B1 true JP6403850B1 (en) 2018-10-10
JP2019045956A JP2019045956A (en) 2019-03-22

Family

ID=63788162

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017165581A Active JP6403850B1 (en) 2017-08-30 2017-08-30 Information processing apparatus, information processing method, and program

Country Status (1)

Country Link
JP (1) JP6403850B1 (en)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099445A (en) * 2001-09-21 2003-04-04 Telecommunication Advancement Organization Of Japan Sorting key word generation method and program, and recording medium with the program recorded thereon
JP2003281159A (en) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd Document processor, document processing method and document processing program
JP2003345811A (en) * 2002-05-27 2003-12-05 Hitachi Ltd System and method for displaying document information, and document retrieving method
WO2007043593A1 (en) * 2005-10-11 2007-04-19 Intellectual Property Bank Corp. Company technical document group analysis supporting device
JP2007193380A (en) * 2006-01-16 2007-08-02 So-Net Entertainment Corp Information processor, information processing method and computer program
JP2010231434A (en) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd Display device, display method, and program
JP2011141801A (en) * 2010-01-08 2011-07-21 Internatl Business Mach Corp <Ibm> Processing method for time-series analysis of keyword, processing system and computer program thereof
US20110202886A1 (en) * 2010-02-13 2011-08-18 Vinay Deolalikar System and method for displaying documents

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003099445A (en) * 2001-09-21 2003-04-04 Telecommunication Advancement Organization Of Japan Sorting key word generation method and program, and recording medium with the program recorded thereon
JP2003281159A (en) * 2002-03-19 2003-10-03 Fuji Xerox Co Ltd Document processor, document processing method and document processing program
JP2003345811A (en) * 2002-05-27 2003-12-05 Hitachi Ltd System and method for displaying document information, and document retrieving method
WO2007043593A1 (en) * 2005-10-11 2007-04-19 Intellectual Property Bank Corp. Company technical document group analysis supporting device
JP2007193380A (en) * 2006-01-16 2007-08-02 So-Net Entertainment Corp Information processor, information processing method and computer program
JP2010231434A (en) * 2009-03-26 2010-10-14 Hitachi East Japan Solutions Ltd Display device, display method, and program
JP2011141801A (en) * 2010-01-08 2011-07-21 Internatl Business Mach Corp <Ibm> Processing method for time-series analysis of keyword, processing system and computer program thereof
US20110202886A1 (en) * 2010-02-13 2011-08-18 Vinay Deolalikar System and method for displaying documents

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
渡部勇: "ビジュアルテキストマイニング", 人工知能学会誌, vol. 第16巻 第2号, JPN6007014044, 1 March 2001 (2001-03-01), JP, pages 226 - 232 *

Also Published As

Publication number Publication date
JP2019045956A (en) 2019-03-22

Similar Documents

Publication Publication Date Title
Kaushik et al. A comprehensive study of text mining approach
US8325189B2 (en) Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products
JP6381775B2 (en) Information processing system and information processing method
US11023503B2 (en) Suggesting text in an electronic document
US9552415B2 (en) Category classification processing device and method
US11182540B2 (en) Passively suggesting text in an electronic document
JP2018509664A (en) Model generation method, word weighting method, apparatus, device, and computer storage medium
JP2007172051A (en) Reputation information-processing device, reputation information-processing method, reputation information-processing program, and recording medium
KR20200117542A (en) Apparatus and method for generating information link
CN114780712B (en) News thematic generation method and device based on quality evaluation
JP3693514B2 (en) Document retrieval / classification method and apparatus
US8886651B1 (en) Thematic clustering
JP6403850B1 (en) Information processing apparatus, information processing method, and program
CN109086458A (en) A kind of search engine system applied to reconnaissance projecting trade
KR101078978B1 (en) System for grouping documents
JP2016197332A (en) Information processing system, information processing method, and computer program
JP2019096019A (en) Information analysis system
JP5368900B2 (en) Information presenting apparatus, information presenting method, and program
JP6496078B2 (en) Analysis support device, analysis support method, and analysis support program
Alotaibi et al. A Comparison of Topic Modeling Algorithms on Visual Social Media Networks
KR100952077B1 (en) Apparatus and method for choosing entry using keywords
Asor et al. RESEARCH++: An academic social networking research community portal for profiling and expertise classification
Pisal et al. AskUs: An opinion search engine
US20240354373A1 (en) Information processing apparatus, information processing system, information processing method, and non-transitory recording medium
JP7297855B2 (en) Keyword extraction device, keyword extraction method, and program

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180720

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180821

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180911

R150 Certificate of patent or registration of utility model

Ref document number: 6403850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250