JP6403850B1 - Information processing apparatus, information processing method, and program - Google Patents
Information processing apparatus, information processing method, and program Download PDFInfo
- Publication number
- JP6403850B1 JP6403850B1 JP2017165581A JP2017165581A JP6403850B1 JP 6403850 B1 JP6403850 B1 JP 6403850B1 JP 2017165581 A JP2017165581 A JP 2017165581A JP 2017165581 A JP2017165581 A JP 2017165581A JP 6403850 B1 JP6403850 B1 JP 6403850B1
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document data
- determined
- group
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 72
- 238000003672 processing method Methods 0.000 title claims description 4
- 239000013598 vector Substances 0.000 claims description 33
- 238000000605 extraction Methods 0.000 claims description 29
- 239000000284 extract Substances 0.000 claims description 15
- 230000008520 organization Effects 0.000 description 95
- 238000000034 method Methods 0.000 description 56
- 238000010586 diagram Methods 0.000 description 17
- 230000005540 biological transmission Effects 0.000 description 5
- 238000000354 decomposition reaction Methods 0.000 description 3
- 238000000513 principal component analysis Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【課題】オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。
【解決手段】オブジェクトに関する複数の文書データを含む文書データ群から、オブジェクトの特徴を示すキーワードを抽出し、オブジェクトに含まれる要素毎にキーワードをグルーピングすることで、各要素の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した要素毎のキーワードと、キーワード同士の関係性と、に基づいて、オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する。
【選択図】図2An object of the present invention is to generate information indicating what elements exist in an object.
A keyword indicating a feature of an object is extracted from a document data group including a plurality of document data related to the object, and the keyword indicating the feature of each element is determined by grouping the keyword for each element included in the object. Then, the relationship between the keywords indicating the characteristics of the object is determined, and feature information indicating the relationship between the characteristics of each element in the object is generated based on the determined keyword for each element and the relationship between the keywords. To do.
[Selection] Figure 2
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。 The present invention relates to an information processing apparatus, an information processing method, and a program.
近年、大量の文書データが、企業等の記憶領域やインターネット上の記憶領域等に蓄積され、様々な用途に利用されている。そして、その大量の文書データをビジネス・研究等に利用しようとする動きも活発化してきている。
文書データを解析する技術には、特許文献1がある。特許文献1には、自然言語で記述された文書を解析し、予め与えられた分野の情報を抽出し、文書に含まれる単語間の関係を含む情報を一定の形式で出力する情報抽出システムであり、キーワード間の関係を認定しながら構文解析を行うことによって正しい情報を数多く、より正確に抽出する技術が開示されている。
In recent years, a large amount of document data has been accumulated in a storage area of a company or the like, a storage area on the Internet, and the like and used for various purposes. The movement to use the large amount of document data for business and research is also becoming active.
As a technique for analyzing document data, there is Patent Document 1. Patent Document 1 discloses an information extraction system that analyzes a document described in a natural language, extracts information in a predetermined field, and outputs information including a relationship between words included in the document in a certain format. There is disclosed a technique for extracting more accurate information more accurately by performing syntax analysis while recognizing the relationship between keywords.
団体(例えば、企業、学校、研究機関等)や個人等のオブジェクトに関する文書データを解析して、そのオブジェクトにどのような要素が含まれているかを把握することが望まれている。例えば、企業内にどういった特徴の事業が存在するのかを把握したいという要望や、研究機関内に、どのような研究部署が存在するのかを把握することが望まれている。そこで、オブジェクト内にどのような要素があるのかを示す情報を生成したいという要望があった。しかし、特許文献1では、オブジェクト内にどのような要素があるのかを示す情報を生成できなかった。
そこで、本発明は、オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。
It is desired to analyze document data relating to an object such as an organization (for example, a company, a school, a research institution, etc.) or an individual to understand what elements are included in the object. For example, it is desired to understand what kind of business is present in a company and what kind of research department exists in a research institution. Therefore, there has been a demand for generating information indicating what elements are present in the object. However, in Patent Literature 1, it is impossible to generate information indicating what elements exist in an object.
Accordingly, an object of the present invention is to generate information indicating what elements are present in an object.
そこで、本発明の情報処理装置は、オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定手段と、前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類手段と、前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、前記抽出手段により抽出されたキーワードの特徴量を決定する第2の特徴量決定手段と、前記第2の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、を有する。 Therefore, the information processing apparatus according to the present invention provides a keyword indicating a feature of the object from the object document data group based on the appearance frequency of words in the object document data group, which is a document data group including a plurality of document data related to the object. Extraction means for extracting, the appearance frequency of the keyword extracted by the extraction means in the document data included in the object document data group, the rarity of the keyword extracted by the extraction means in the object document data group, Based on the first feature amount determining means for determining the feature amount of the document data included in the object document data group, and based on the feature amount determined by the first feature amount determining means, the object document Document data included in the data group is converted into the object Classification means for classifying into one or more sections corresponding to the included elements, and the extraction in the sections included in the one or more sections into which the document data included in the object document data group is classified by the classification means A keyword determining means for determining a keyword indicating a feature of an element corresponding to a section included in the one or more sections from the keywords extracted by the extracting means based on the appearance frequency of the keyword extracted by the means; A second feature amount determining unit that determines a feature amount of the keyword extracted by the extracting unit; and keywords extracted by the extracting unit based on the feature amount determined by the second feature amount determining unit Relevance determining means for determining the relevance of the keyword, the keyword determined by the keyword determining means, It has a relevance which is determined by the determining means, and a generation means for generating feature information indicating a relationship between features of each element in the object based on.
本発明によれば、オブジェクト内にどのような要素があるのかを示す情報を生成することができる。 According to the present invention, information indicating what elements are present in an object can be generated.
以下、本発明の実施形態について図面に基づいて説明する。
<実施形態1>
(処理の概要)
例えば、企業等の団体がビジネスを推進していく際、ある団体に関する団体情報やその団体の製品・サービス情報、事業構造や団体間のビジネス構造等の特徴を捉え、各特徴がその団体におけるどの事業に関する特徴であり、各特徴同士がどのような関連性を有するかを把握することで、その団体の詳細をより容易に把握でき、団体の事業動向の詳細把握、業種・業態の明示化、ビジネスマッチング等が可能となる。
そこで、本実施形態では、情報処理装置100が、オブジェクトである団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関連性を示す特徴情報を生成する処理について説明する。
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
<Embodiment 1>
(Outline of processing)
For example, when an organization such as a company promotes business, it captures characteristics such as group information about a group, product / service information of the group, business structure and business structure between groups, and It is a feature of the business, and by grasping how each feature is related to each other, it is possible to more easily grasp the details of the organization, to grasp the details of the organization's business trends, to clarify the type of business and business type, Business matching is possible.
Therefore, in this embodiment, the
(情報処理装置のハードウェア構成)
図1は、情報処理装置100のハードウェア構成である。情報処理装置100は、パーソナルコンピュータ、サーバ装置、タブレット装置等の情報処理装置である。
情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104を含む。各要素は、システムバス105を介して、相互に通信可能に接続されている。
CPU101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリア、データの一時的な記憶場所として機能するRandom Access Memory(RAM)等の記憶装置である。補助記憶装置103は、各種プログラム、各種設定情報、各種文書データ等を記憶する記憶装置である。補助記憶装置103は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の記憶媒体を用いて実装される。ネットワークI/F104は、インターネットやLAN等のネットワークを介した外部の装置との通信に利用されるインターフェースである。
CPU101が、補助記憶装置103に記憶されているプログラムに基づき処理を実行することで、情報処理装置100の機能、及び、図2で後述するフローチャートの処理、(画像出力処理)、(検索処理)で説明する処理等が実現される。
(Hardware configuration of information processing device)
FIG. 1 shows a hardware configuration of the
The
The
The
(特徴情報の生成処理)
図2は、情報処理装置100の処理の一例を示すフローチャートである。
S201において、CPU101は、予め定められた複数の団体それぞれについて、団体に関する複数の文書データを含む文書データ群を取得する。以下では、予め定められた複数の団体を、団体群とする。また、以下では、団体に関する文書データ群を、団体文書データ群とする。団体文書データ群は、オブジェクトに関する文書データ群であるオブジェクト文書データ群の一例である。CPU101は、例えば、予め補助記憶装置103に記憶された団体群に含まれる団体それぞれに関する団体文書データ群を取得する。また、CPU101は、ネットワークI/F104を介して、インターネットを介して、外部の記憶装置から、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。また、CPU101は、検索エンジンを介して、インターネット上の団体それぞれに関する文書データを検索することで、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。
また、CPU101は、1つの団体に関する団体文書データ群を取得することとしてもよい。
S202において、CPU101は、S201で取得した複数の団体文書データ群から、単語を抽出する。CPU101は、例えば、団体文書データ群に含まれる各文書データに対して、形態素解析を行うことで、単語を抽出する。
(Feature information generation process)
FIG. 2 is a flowchart illustrating an example of processing of the
In step S <b> 201, the
Further, the
In S202, the
S203において、CPU101は、団体群に含まれる団体それぞれについて、団体文書データ群における各単語のその団体における重要度を示すスコア値を決定する。CPU101は、例えば、以下のようにして、団体群に含まれる団体(1)に関する団体文書データ群に含まれる単語(1)のスコア値を決定する。
まず、CPU101は、団体(1)に関する団体文書データ群における単語(1)の出現頻度と、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性と、を決定する。文書データ群における単語の出現頻度とは、その単語がその文書データ群中に出現する度合いを示す指標である。複数の文書データ群における単語の希少性とは、その複数の文書データ群におけるその単語の希少さの度合いを示す指標である。
In step S <b> 203, the
First, the
CPU101は、例えば、団体(1)に関する団体文書データ群からS202で単語が全部でA個抽出され、単語(1)がB個抽出された場合、団体(1)に関する団体文書データ群における単語(1)の出現頻度を、B/Aとして決定する。このように、団体(1)に関する団体文書データ群に含まれる単語の総数と、その団体文書データ群に含まれる単語(1)の数と、の比率は、その団体文書データ群における単語(1)の出現頻度の一例である。
また、CPU101は、例えば、団体群それぞれに関する複数の団体文書データ群に単語(1)を含む文書データを含む団体文書データ群がC個存在し、団体群それぞれに関する複数の団体文書データ群に団体文書データ群がD個存在する場合、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、Log(D/C)として決定する。また、CPU101は、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、D/Cとして決定してもよい。このように、団体群それぞれに関する複数の団体文書データ群のうち、単語(1)を含む団体文書データ群の数と、その複数の団体文書データ群に含まれる団体文書データ群の数と、の比率や、この比率の任意の正数を底とする対数等は、その複数の団体文書データ群における単語(1)の希少性の一例である。
For example, when the
Further, for example, the
CPU101は、決定した出現頻度と希少性とに基づいて、団体(1)における単語(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF(Term Frequency−Inverse Document Frequency)法を用いて、単語(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、団体(1)に関する団体文書データ群で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、団体(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、団体群における各団体にとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の団体との関係を考慮した上で、団体において各単語がどの程度重要なのかをより精度よく示すスコア値を決定できる。これにより、CPU101は、S204で、他の団体との関係(例えば、他の団体との特徴の違い等)を考慮した上で、団体の特徴を示すキーワードを抽出できる。
CPU101は、以上の処理を団体(1)に関する団体文書データ群に含まれる単語全てにおいて行い、団体(1)に関する団体文書データ群における各単語のスコア値を決定する。
また、CPU101は、同様の処理を、団体群に含まれる団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれに関する複数の団体文書データ群それぞれにおける各単語のスコア値を決定する。
Further, the higher the determined rarity, the higher the score value, assuming that the
The
In addition, the
本実施形態では、CPU101は、S203で団体群に含まれる団体について、団体群に含まれる複数の団体それぞれに関する複数の団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定することとした。しかし、CPU101は、例えば、S201で1つの団体に関する団体文書データ群を取得した場合、その1つの団体に関する1つの団体文書データ群を用いて、その団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
その場合、CPU101は、以下のようにしてその団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
即ち、CPU101は、その団体文書データ群における各単語の出現頻度を決定し、決定した出現頻度に基づいて、各単語のスコア値を決定してもよい。CPU101は、例えば、各単語の出現頻度の値を、各単語のスコア値として決定してもよい。
In the present embodiment, the
In that case, the
That is, the
S204において、CPU101は、団体群に含まれる団体それぞれについて、団体の特徴を示すキーワードを抽出する。CPU101は、例えば、以下のようにして、団体(1)の特徴を示すキーワードを抽出する。即ち、CPU101は、団体(1)に関する団体文書データ群からS201で抽出した単語のうち、S202で決定したスコア値が、予め定められた閾値以上である単語を、団体(1)の特徴を示すキーワードとして抽出する。
また、CPU101は、同様の処理を、団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれについて、キーワードを抽出する。S204の処理は、キーワードを抽出する抽出処理の一例である。
図3は、S204で抽出された団体(1)のキーワードの一例を示す図である。図3の例は、団体(1)のキーワードとして、「部品」、「クリーン」、「ベッド」、「エンジン」、「ブレーキ」、「家具」、「エネルギー」、「エアコン」、「寝装品」、「トランスミッション」という10個の単語が決定された様子を示している。
S205において、CPU101は、団体群から、1つの団体を選択する。以下では、S205で選択された団体を選択団体とする。
In S <b> 204, the
In addition, the
FIG. 3 is a diagram illustrating an example of the keyword of the organization (1) extracted in S204. In the example of FIG. 3, the keywords of the organization (1) are “parts”, “clean”, “bed”, “engine”, “brake”, “furniture”, “energy”, “air conditioner”, “bedding”, It shows how ten words “transmission” have been determined.
In S205, the
S206において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、S204で抽出された選択団体のキーワードの文書データそれぞれにおける重要性を示すスコア値を決定する。CPU101は、例えば、以下のようにして、選択団体に関する団体文書データ群に含まれる文書データ(1)におけるS204で抽出された選択団体のキーワード(1)のスコア値を決定する。S206の処理は、第1のスコア決定処理の一例である。
まず、CPU101は、文書データ(1)におけるキーワード(1)の出現頻度と、選択団体に関する団体文書データ群におけるキーワード(1)の希少性と、を決定する。文書データにおけるキーワードの出現頻度とは、そのキーワードがその文書データ中に出現する度合いを示す指標である。団体文書データ群におけるキーワードの希少性とは、その団体文書データ群に含まれる複数の文書データにおけるそのキーワードの希少さの度合いを示す指標である。
In S206, the
First, the
CPU101は、例えば、文書データ(1)に単語が全部でE個含まれ、S204でキーワード(1)がF個抽出された場合、文書データ(1)におけるキーワード(1)の出現頻度を、F/Eとして決定する。このように、文書データ(1)に含まれる単語の総数と、文書データ(1)に含まれるキーワード(1)の数と、の比率は、文書データ(1)におけるキーワード(1)の出現頻度の一例である。また、CPU101は、例えば、文書データ(1)にS204で選択団体のキーワードとして抽出されたキーワードがE’個含まれ、S204でキーワード(1)がF個抽出された場合、文書データ(1)におけるキーワード(1)の出現頻度を、F/E’として決定することとしてもよい。
また、CPU101は、例えば、選択団体に関する団体文書データ群に含まれる全ての文書データにキーワード(1)を含む文書データがG個存在し、選択団体に関する団体文書データ群に文書データが全部でH個存在する場合、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、Log(H/G)として決定する。また、CPU101は、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、H/Gとして決定してもよい。このように、選択団体に関する団体文書データ群に含まれる全ての文書データのうちキーワード(1)を含む文書データの数と、その団体文書データ群に含まれる文書データの数と、の比率や、この比率の任意の正数を底とする対数等は、その団体文書データ群におけるキーワード(1)の希少性の一例である。
For example, when the document data (1) includes E words in total and F keywords (1) are extracted in S204, the
Further, for example, the
CPU101は、決定した出現頻度と希少性とに基づいて、文書データ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF法を用いて、文書データ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、文書データ(1)で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれる文書データ(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各文書データにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の文書データとの関係(例えば、他の文書データとの特徴の違い等)を考慮した上で、文書データにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
The
Further, the higher the rarity determined, the higher the score value, assuming that the
CPU101は、以上の処理を文書データ(1)に含まれるS204で抽出された選択団体のキーワード全てにおいて行い、文書データ(1)における各キーワードのスコア値を決定する。キーワード(1)が文書データ(1)に含まれない場合、CPU101は、出現頻度を0として、同様の処理で文書データ(1)におけるキーワード(1)のスコア値を決定してもよいし、文書データ(1)におけるキーワード(1)のスコア値を予め定められた値(例えば0等)に決定してもよい。
また、CPU101は、同様の処理を、選択団体に関する団体文書データ群に含まれる文書データ(1)以外の他の文書データについても行い、選択団体に関する団体文書データ群に含まれる文書データそれぞれにおける各キーワードのスコア値を決定する。
The
Further, the
S207において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてS206で決定した各キーワードのスコア値に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれの特徴量を決定する。CPU101は、例えば、選択団体に関する団体文書データ群に含まれる文書データの特徴量を以下のようにして決定する。即ち、CPU101は、その文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、文書データの特徴量として決定する。S207の処理は、第1の特徴量決定処理の一例である。
図4は、文書データの特徴量の一例を説明する図である。図4のテーブル400は、選択団体に関する団体文書データ群に含まれる各文書データにおける各キーワードのスコア値を示すテーブルである。図4の例では、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル400における文書データに対応する列が、その文書データにおける各キーワードのスコア値を示している。即ち、CPU101は、ある文書データに対応する列に含まれる各スコア値を要素としたベクトルを、その文書データの特徴量として決定する。
In S207, the
FIG. 4 is a diagram for explaining an example of the feature amount of the document data. A table 400 in FIG. 4 is a table showing the score value of each keyword in each document data included in the group document data group regarding the selected group. In the example of FIG. 4, the document data included in the group document data group regarding the selected group is n pieces of document data of document data (1) to document data (n). The keywords extracted as keywords of the selected organization in S204 are m keywords from keyword (1) to keyword (m). A column corresponding to the document data in the table 400 indicates the score value of each keyword in the document data. That is, the
また、CPU101は、文書データにおける各キーワードのスコア値それぞれを各成分とするベクトルを、次元圧縮したベクトルを、その文書データの特徴量として決定してもよい。
例えば、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、テーブル400における文書データに対応する列に含まれる各スコア値を要素としたベクトルを生成する。そして、CPU101は、生成した各ベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて、次元圧縮し、次元圧縮した各ベクトルを、各文書データの特徴量として決定する。
図5は、文書データの特徴量の一例を説明する図である。図5のテーブル500は、選択団体に関する団体文書データ群に含まれる各文書データにおける特徴量の各要素(基底)の値を示すテーブルである。図5の例では、図4と同様に、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。テーブル500における文書データに対応する列が、その文書データの特徴量のベクトルの各要素の値を示している。即ち、テーブル500におけるある文書データに対応する列は、その文書データの特徴量のベクトルを示す。テーブル500における文書データに対応する列が示すベクトルは、図4のテーブル400におけるその文書データに対応する列が示すベクトルが次元圧縮されたベクトルとなる。このように、CPU101は、次元圧縮したベクトルを、文書データの特徴量として決定することで、S208での文書データのクラスタリングの処理の負担を軽減できる。
Further, the
For example, the
FIG. 5 is a diagram for explaining an example of the feature amount of document data. A table 500 in FIG. 5 is a table showing the value of each element (base) of the feature amount in each document data included in the group document data group regarding the selected group. In the example of FIG. 5, as in FIG. 4, the document data included in the group document data group regarding the selected group is n pieces of document data (1) to document data (n). A column corresponding to the document data in the table 500 indicates the value of each element of the vector of feature amounts of the document data. That is, a column corresponding to certain document data in the table 500 indicates a vector of feature amounts of the document data. The vector indicated by the column corresponding to the document data in the table 500 is a vector in which the vector indicated by the column corresponding to the document data in the table 400 of FIG. 4 is dimensionally compressed. As described above, the
S208において、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについてS207で決定した特徴量に基づいて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。CPU101は、例えば、k−means法、最短距離法、ウォード法等のクラスタリング手法を用いて、選択団体に関する団体文書データ群に含まれる文書データそれぞれをクラスタリングする。CPU101は、団体文書データ群に含まれる複数の文書データを、文書データの特徴量に基づいてクラスタリングすることで、特徴が類似する文書データを1つのクラスタにまとめることができる。団体文書データ群に含まれる類似する複数の文書データは、団体に含まれる何らかの要素の特徴を示す文書データと仮定できる。そのため、CPU101は、選択団体に関する団体文書データ群に含まれる複数の文書データをクラスタリングすることで、複数の文書データそれぞれを、選択団体に含まれる要素にそれぞれ対応する1つ以上の区分(クラスタ)に分類することができる。
S209において、CPU101は、予め定められた基準に基づいて、S208でクラスタリングされた各クラスタから、選択団体における事業を示すクラスタを決定する。例えば、団体に含まれる事業に関する文書データは、事業活動が実施されている場合、一定以上の数があると仮定できる。そのため、事業に関する文書データの数は、予め定められた数以上存在することが仮定できる。そこで、CPU101は、例えば、クラスタに含まれる文書データの数が予め定められた閾値(例えば、10等)以上である場合、そのクラスタを、事業を示すクラスタとして決定する。以下では、事業を示すクラスタとして決定されたクラスタを、事業クラスタとする。
In S208, the
In S209, the
S210において、CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、S204で抽出された選択団体のキーワードの事業クラスタそれぞれにおける重要性を示すスコア値を決定する。CPU101は、例えば、以下のようにして、S209で事業クラスタとして決定されたクラスタであるクラスタ(1)におけるS204で抽出された選択団体のキーワード(1)のスコア値を決定する。S210の処理は、第2のスコア決定処理の一例である。
まず、CPU101は、クラスタ(1)におけるキーワード(1)の出現頻度と、事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性と、を決定する。クラスタにおけるキーワードの出現頻度とは、そのキーワードがそのクラスタに含まれる文書データ中に出現する度合いを示す指標である。事業クラスタとして決定された全てのクラスタにおけるキーワードの希少性とは、その全てのクラスタにおけるそのキーワードの希少さの度合いを示す指標である。
In S210, the
First, the
CPU101は、例えば、クラスタ(1)に含まれる全ての文書データに単語が全部でI個含まれ、S204でクラスタ(1)に含まれる全ての文書データからキーワード(1)がJ個抽出された場合、クラスタ(1)におけるキーワード(1)の出現頻度を、J/Iとして決定する。このように、クラスタ(1)に含まれる全ての文書データに含まれる単語の総数と、クラスタ(1)に含まれる全ての文書データに含まれるキーワード(1)の数と、の比率は、クラスタ(1)におけるキーワード(1)の出現頻度の一例である。また、CPU101は、例えば、クラスタ(1)に含まれる全ての文書データにおいてS204で選択団体のキーワードとして抽出されたキーワードが全部でI’個含まれ、S204でクラスタ(1)に含まれる全ての文書データからキーワード(1)がJ個抽出された場合、クラスタ(1)におけるキーワード(1)の出現頻度を、J/I’として決定することとしてもよい。
また、CPU101は、例えば、S209で事業クラスタとして決定された全てのクラスタに含まれるクラスタにキーワード(1)を含む文書データを含むクラスタがK個存在し、S209で事業クラスタとして決定されたクラスタの数が全部でL個存在する場合、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、Log(L/K)として決定する。また、CPU101は、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、L/Kとして決定してもよい。このように、S209で事業クラスタとして決定された全てのクラスタに含まれるキーワード(1)を含む文書データを含むクラスタの数と、その全てのクラスタに含まれるクラスタの数と、の比率や、この比率の任意の正数を底とする対数等は、その全てのクラスタにおけるキーワード(1)の希少性の一例である。
The
For example, the
CPU101は、決定した出現頻度と希少性とに基づいて、クラスタ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、例えば、決定した出現頻度と希少性とに基づいて、TF−IDF法を用いて、クラスタ(1)におけるキーワード(1)のスコア値を決定する。CPU101は、決定した出現頻度が高い程、クラスタ(1)で用いられる回数の多い重要な単語であるとして、スコア値を高くする。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれるクラスタ(1)における特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各クラスタにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他のクラスタとの関係(例えば、他のクラスタとの特徴の違い等)を考慮した上で、クラスタにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
The
Further, the higher the rarity determined, the higher the score value, assuming that the
CPU101は、以上の処理をクラスタ(1)に含まれるS204で抽出された選択団体のキーワード全てにおいて行い、クラスタ(1)における各キーワードのスコア値を決定する。キーワード(1)がクラスタ(1)に含まれる文書データのどれにも含まれない場合、CPU101は、出現頻度を0として、同様の処理でクラスタ(1)におけるキーワード(1)のスコア値を決定してもよいし、クラスタ(1)におけるキーワード(1)のスコア値を予め定められた値(例えば0等)に決定してもよい。
また、CPU101は、同様の処理を、S209で事業クラスタとして決定されたクラスタ(1)以外の他のクラスタについても行い、事業クラスタとして決定されたクラスタそれぞれにおける各キーワードのスコア値を決定する。
The
Further, the
また、クラスタが1つしかない場合(例えば、S209で事業クラスタとして決定されたクラスタが1つである場合、S208でクラスタリングされたクラスタの数が1つである場合等)、CPU101は、S210で以下のようにしてクラスタにおけるキーワードのスコア値を決定してもよい。
即ち、CPU101は、そのクラスタにおける各キーワードの出現頻度を決定し、決定した出現頻度に基づいて、各キーワードのスコア値を決定してもよい。CPU101は、例えば、各キーワードの出現頻度の値を、各キーワードのスコア値として決定してもよい。
If there is only one cluster (for example, if there is one cluster determined as a business cluster in S209, or if the number of clusters clustered in S208 is one), the
That is, the
S211において、CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、クラスタの特徴を示すキーワードを決定する。CPU101は、例えば、以下のようにして、クラスタ(1)の特徴を示すキーワードを決定する。即ち、CPU101は、S204で選択団体について抽出されたキーワードのうち、S210でクラスタ(1)について決定したスコア値が、予め定められた閾値以上であるキーワードを、クラスタ(1)の特徴を示すキーワードとして決定する。
また、CPU101は、同様の処理を、クラスタ(1)以外のS209で事業クラスタとして決定された他のクラスタについても行い、クラスタそれぞれについて、キーワードを決定する。S211の処理は、キーワード決定処理の一例である。
図6は、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す図である。図6の例では、選択団体が団体(1)である場合に、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す。図6中の3つの枠は、それぞれ、S209で事業クラスタとして決定されたクラスタを示す。各枠内の単語は、各枠に対応するクラスタの特徴を示すキーワードである。図6の例では、「ベッド」、「寝装品」、「家具」という3つのキーワードを持つクラスタと、「エアコン」、「クリーン」、「エネルギー」という3つのキーワードを持つクラスタと、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」という4つのキーワードを持つクラスタと、が団体(1)に含まれていることが示されている。このように、CPU101は、S211の処理により、S204で抽出されたキーワードを、事業毎にグルーピングできる。
In S <b> 211, the
The
FIG. 6 is a diagram illustrating an example of keywords determined in S211 for each cluster determined as a business cluster in S209. The example of FIG. 6 shows an example of the keyword determined in S211 for each cluster determined as a business cluster in S209 when the selected group is the group (1). Each of the three frames in FIG. 6 indicates a cluster determined as a business cluster in S209. The word in each frame is a keyword indicating the characteristics of the cluster corresponding to each frame. In the example of FIG. 6, a cluster having three keywords “bed”, “bedding”, and “furniture”, a cluster having three keywords “air conditioner”, “clean”, and “energy”, “parts”, It is shown that a cluster having four keywords “brake”, “transmission”, and “engine” is included in the group (1). In this way, the
S212において、CPU101は、S204で抽出された選択団体におけるキーワードそれぞれの特徴量を決定する。CPU101は、例えば、S210でクラスタ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定する。即ち、CPU101は、キーワードについて、クラスタ毎にS210で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定する。この特徴量は、対応するキーワードがクラスタ毎にどの程度重要であるかを示す特徴量とみなすことができる。S212の処理は、第2の特徴量決定処理の一例である。
図7は、キーワードの特徴量の一例を説明する図である。図7のテーブル700は、S209で事業クラスタとして決定された各クラスタにおける各キーワードのスコア値を示すテーブルである。図7の例では、事業クラスタとして決定されたクラスタは、クラスタ(1)〜クラスタ(k)のk個のクラスタである。また、図7の例では、S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル700におけるあるクラスタに対応する列が、そのクラスタにおける各キーワードのスコア値を示している。テーブル700におけるキーワードに対応する行が、各クラスタにおけるそのキーワードのスコア値を示している。CPU101は、各キーワードの特徴量として、テーブル700における各キーワードに対応する行が示す各スコア値を要素としたベクトルを、そのキーワードの特徴量として決定する。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルを、そのキーワードの特徴量として決定してもよい。
また、CPU101は、例えば、S206で文書データ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定することとしてもよい。即ち、CPU101は、キーワードについて、文書データ毎にS206で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定してもよい。この特徴量は、対応するキーワードが文書データ毎にどの程度重要であるかを示す特徴量とみなすことができる。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルをキーワードそれぞれの特徴量として決定してもよい。
In S212, the
FIG. 7 is a diagram for explaining an example of a keyword feature amount. A table 700 in FIG. 7 is a table showing the score value of each keyword in each cluster determined as a business cluster in S209. In the example of FIG. 7, the clusters determined as the business clusters are k clusters from cluster (1) to cluster (k). In the example of FIG. 7, the keywords extracted as the keywords of the selected organization in S204 are m keywords from keyword (1) to keyword (m). A column corresponding to a certain cluster in the table 700 indicates a score value of each keyword in the cluster. The row corresponding to the keyword in the table 700 indicates the score value of the keyword in each cluster. The
For example, the
S213において、CPU101は、S212で決定した特徴量に基づいて、S213でクラスタ毎に決定されたキーワード同士の関連の度合いを示す関連度を、選択団体におけるキーワード同士の関連性として決定する。キーワード同士の関連性は、団体が異なれば、異なる場合がある。例えば、自動車を製造販売しているA社とB社とがあるとする。A社は、高級感のある自動車を重点的に製造・販売しており、B社は、安価な軽自動車を重点的に製造・販売しているとする。この場合、A社におけるキーワード「自動車」とキーワード「高級感」との関連性は、B社におけるキーワード「自動車」とキーワード「高級感」との関連性よりも、大きいものとなる。CPU101は、このような各団体におけるキーワード同士の関連性の違いを加味して、S213で、選択団体におけるキーワード同士の関連性を決定する。S213の処理は、関連性決定処理の一例である。
関連性のあるキーワード同士は、あるクラスタ(又は、文書データ)において一方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値が高い程、他方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値も高くなると仮定できる。即ち、関連性のあるキーワード同士のS212で決定した特徴量同士は、一方の特徴量におけるある次元の要素の値が大きい程、他方の特徴量におけるその次元における要素の値が大きくなると仮定できる。そのため、キーワード同士の特徴量同士の内積は、キーワード同士の関連性が大きい程、値が大きくなると仮定できる。そこで、CPU101は、例えば、S212で決定されたキーワード(1)の特徴量であるベクトルと、S212で決定されたキーワード(2)の特徴量であるベクトルと、の内積を、キーワード(1)とキーワード(2)との関連度として決定する。
In S213, the
For related keywords, the higher the score value in one cluster (or document data) of one keyword in a cluster (or document data), the higher the score in that cluster (or document data) of the other keyword It can be assumed that the value will also be high. That is, it can be assumed that the feature amounts determined in S212 between the related keywords are such that the greater the value of an element of a certain dimension in one feature quantity, the greater the value of the element in that dimension of the other feature quantity. Therefore, it can be assumed that the inner product between the feature quantities of the keywords increases as the relevance between the keywords increases. Therefore, for example, the
S214において、CPU101は、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。CPU101は、例えば、S203で決定されたスコア値に基づいて、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定する。CPU101は、例えば、S211でクラスタ毎に決定されたキーワードそれぞれについてS203で決定されたスコア値を、重要度として決定する。S214の処理は、重要度決定処理の一例である。
CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、クラスタ毎に決定されたキーワードの重要度に基づいて、クラスタを代表するキーワードである核キーワードを決定する。CPU101は、例えば、あるクラスタについて決定されたキーワードのうち、重要度が最も高いキーワードを、そのクラスタの核キーワードとして決定する。
また、CPU101は、例えば、S210でクラスタ毎に決定されたスコア値に基づいて、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定してもよい。CPU101は、例えば、S211でクラスタ毎に決定されたキーワードそれぞれについて、S211で決定されたスコア値を、重要度として決定してもよい。
本実施形態では、CPU101は、S209で事業に対応するクラスタとして決定したクラスタを用いて、S210〜S214の処理を行った。これにより、CPU101は、事業以外のクラスタについて、特徴を示すキーワードを決定する処理の負担を軽減できる。しかし、CPU101は、S208でクラスタリングされた全てのクラスタを用いて、S210〜S214の処理を行うこととしてもよい。その場合、CPU101は、S209の処理を行わないこととしてもよい。
In S214, the
For each cluster determined as a business cluster in S209, the
Further, for example, based on the score value determined for each cluster in S210, the
In the present embodiment, the
S215において、CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行したか否かを判定する。CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行したと判定した場合、S216の処理に進む。また、CPU101は、団体群に含まれる団体の中に、S205〜S214の処理を実行していない団体があると判定した場合、S205の処理に進む。
本実施形態では、CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行することとする。しかし、CPU101は、団体群に含まれる団体のうち予め定められた団体のみについて、S205〜S214の処理を実行することとしてもよい。その場合、CPU101は、S215で、その予め定められた団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
また、CPU101は、外部の情報処理装置等から、S205〜S214の処理の対象となる団体の指定を受付けることとしてもよい。その場合、CPU101は、団体群に含まれる団体のうち指定された団体のみについて、S205〜S214の処理を実行することとなる。その場合、CPU101は、S215で、指定された団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
S216において、CPU101は、団体群に含まれる全ての団体についてS204で抽出されたキーワードそれぞれについて、意味を決定する。CPU101は、例えば、単語の共起性に着目して、その単語の意味を決定する手法であるword2vec、トピックモデル等の手法を用いて、キーワードが持つ潜在的意味を決定する。共起性とは、ある単語と他の単語とが、文書や文等において、同時に出現する傾向を示す性質である。キーワードが持つ潜在的意味は、キーワードが潜在的に有する意味であり、キーワードの意味の一例である。本実施形態では、CPU101は、キーワードそれぞれの潜在的意味を示す情報として、単語の潜在的意味を表現する意味空間におけるキーワードそれぞれに対応するベクトルを取得する。
また、CPU101は、複数の単語の意味を記憶する辞書を用いて、キーワードそれぞれの意味を決定してもよい。S216の処理は、意味決定処理の一例である。
In S215, the
In the present embodiment, the
Further, the
In S216, the
In addition, the
S217において、CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてS214で決定されたクラスタ毎のキーワードの重要度と、S216で決定された各キーワードの意味と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成し、生成した特徴情報を補助記憶装置103等に記憶する。
CPU101は、例えば、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてS214で決定されたクラスタ毎のキーワードの重要度と、S216で決定された各キーワードの意味と、を示す情報を、特徴情報として生成する。CPU101は、例えば、図8〜10に示すようなテーブルの情報を、特徴情報として生成する。
In S217, the
The
図8〜10は、特徴情報の一例を説明する図である。
図8のテーブル800は、団体群に含まれる団体Aについて、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を管理するキーワード管理テーブルである。テーブル800は、「キーワード」、「団体キーワードスコア」、「事業カテゴリ」、「事業キーワードスコア」の項目を含む。「キーワード」の項目は、団体Aについて、S204で抽出された各キーワードを示す。
「団体キーワードスコア」の項目は、対応するキーワードについて、S203で決定されたスコア値を示す。「事業カテゴリ」は、S209で事業カテゴリとして決定されたカテゴリを識別する情報を示す。「事業キーワードスコア」の項目は、対応する事業における対応するキーワードについて、S210で決定されたスコア値を示す。
8 to 10 are diagrams illustrating an example of feature information.
A table 800 in FIG. 8 is a keyword management table for managing information on the keywords for each cluster and the importance of the keywords for each cluster for the organization A included in the organization group. The table 800 includes items of “keyword”, “group keyword score”, “business category”, and “business keyword score”. The item “keyword” indicates each keyword extracted in S204 for the organization A.
The item “group keyword score” indicates the score value determined in S203 for the corresponding keyword. “Business category” indicates information for identifying the category determined as the business category in S209. The item “business keyword score” indicates the score value determined in S210 for the corresponding keyword in the corresponding business.
同一の「事業カテゴリ」に対応する「キーワード」それぞれは、対応する「事業カテゴリ」が示す事業の特徴を示すキーワードとなる。図8の例では、キーワード「word1」と「word2」とは、「category1」が示す同一の事業の特徴を示すこととなる。
また、テーブル800におけるキーワード「word15」のように、同じキーワードが、複数の事業それぞれの特徴を示すキーワードとして決定される場合もある。
CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードに基づいて、団体群に含まれる団体それぞれについて、キーワードと事業との対応関係を決定し、テーブル800における「キーワード」と「事業カテゴリ」との項目の値を決定する。CPU101は、団体群に含まれる団体それぞれについて、テーブル800と同様のキーワード管理テーブルを生成し、補助記憶装置103に記憶する。
Each “keyword” corresponding to the same “business category” is a keyword indicating the characteristics of the business indicated by the corresponding “business category”. In the example of FIG. 8, the keywords “word1” and “word2” indicate the characteristics of the same business indicated by “category1”.
Further, like the keyword “word15” in the table 800, the same keyword may be determined as a keyword indicating the characteristics of each of a plurality of businesses.
The
「団体キーワードスコア」、「事業キーワードスコア」の何れかは、S214で決定された事業におけるキーワード毎の重要度を示す。S203で決定されたスコア値が各キーワードの重要度として、S214で決定された場合、「団体キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。S210で決定されたスコア値が各キーワードの重要度として、S214で決定された場合、「事業キーワードスコア」の項目が、対応する事業における対応するキーワードの重要度を示す。
CPU101は、S203で決定されたスコア値に基づいて、「団体キーワードスコア」の項目の値を決定し、S210で決定されたスコア値に基づいて、「事業キーワードスコア」の項目の値を決定する。
また、CPU101は、「団体キーワードスコア」、「事業キーワードスコア」のうち、事業における各キーワードの重要度を示す項目以外の項目をテーブル800に含ませないようにすることとしてもよい。
Either “group keyword score” or “business keyword score” indicates the importance of each keyword in the business determined in S214. When the score value determined in S203 is determined as the importance level of each keyword in S214, the item “group keyword score” indicates the importance level of the corresponding keyword in the corresponding business. When the score value determined in S210 is determined as the importance level of each keyword in S214, the item “business keyword score” indicates the importance level of the corresponding keyword in the corresponding business.
The
Further, the
図9のテーブル900は、団体群に含まれる団体Aについて、S213で決定されたキーワード同士の関連性を示す情報を管理する関連性管理テーブルである。
テーブル900には、団体Aについて、S212でキーワード毎に決定された特徴量の情報が格納されている。S213で説明したように、これらの特徴量の内積は、対応するキーワード同士の関連の度合いを示す。そのため、CPU101は、テーブル900における各キーワードに対応する列が示すベクトル同士の内積を求めることで、キーワード同士の関連の度合いを示す関連度を決定できる。そこで、本実施形態では、CPU101は、S212で決定した特徴量の情報を格納するテーブル900を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶することとする。CPU101は、団体群に含まれる団体それぞれについて、テーブル900と同様に関連性管理テーブルを生成し、補助記憶装置103に記憶する。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度の情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度が予め定められた閾値以上である場合、そのキーワード同士に関連があるとして、計算した関連度が予め定められた閾値未満である場合、そのキーワード同士に関連がないとして、キーワード同士の関連の有無を示す情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
A table 900 in FIG. 9 is a relationship management table for managing information indicating the relationship between keywords determined in S213 for the organization A included in the organization group.
In the table 900, information on the feature amount determined for each keyword in S212 for the organization A is stored. As described in S213, the inner product of these feature amounts indicates the degree of association between corresponding keywords. Therefore, the
Further, the
In addition, the
図10のテーブル1000は、団体群に含まれる全ての団体についてS204で抽出されたキーワードそれぞれの潜在的意味の情報を管理する意味管理テーブルである。
テーブル1000における各キーワードに対応する列は、対応するキーワードの潜在的意味を示すベクトルの各基底の値を示す。CPU101は、S216で各キーワードについて抽出した潜在的意味を示すベクトルに基づいて、テーブル1000の各要素の値を決定する。
キーワード同士の潜在的意味が類似する程、キーワードの潜在的意味を示すベクトル同士も類似する。そのため、キーワードの潜在的意味を示すベクトル同士の内積は、キーワード同士の潜在的意味の類似の度合いを示す指標となる。そこで、CPU101は、テーブル1000における各キーワードに対応する列が示すベクトル同士の内積を、キーワード同士の類似の度合いを示す類似度として決定できる。
A table 1000 in FIG. 10 is a semantic management table that manages information on the potential meaning of each keyword extracted in S204 for all groups included in the group.
The column corresponding to each keyword in the table 1000 indicates the value of each base of a vector indicating the potential meaning of the corresponding keyword. The
As the potential meanings of the keywords are similar, the vectors indicating the potential meanings of the keywords are also similar. For this reason, the inner product of the vectors indicating the potential meaning of the keyword is an index indicating the degree of similarity of the potential meaning between the keywords. Therefore, the
また、CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、に基づいて、団体群に含まれる団体それぞれにおける事業毎の特徴同士の関係を示す特徴情報を生成してもよい。
その場合、CPU101は、団体群に含まれる団体それぞれについて、図8で説明したテーブル800の項目のうち、「キーワード」、「事業カテゴリ」、の項目を含むテーブルをキーワード管理テーブルとして生成する。また、CPU101は、団体群に含まれる団体それぞれについて、図9で説明した関連性管理テーブルを生成する。
そして、CPU101は、生成したキーワード管理テーブルと、関連性管理テーブルと、を特徴情報として、補助記憶装置103に記憶する。
Further, the
In that case, the
Then, the
(画像出力処理)
CPU101は、図2の処理により生成した特徴情報に基づいて、団体の事業毎にキーワードを構造化した画像を生成し、出力することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像の要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像を生成し、生成した画像を要求元に送信することで出力する。要求元の情報処理装置は、受信した画像を表示部に表示することで、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像をユーザに提示する。
(Image output processing)
The
Assume that the
In that case, the
図11は、特徴情報に基づいて生成された、ある団体について事業毎にキーワードを構造化した画像の一例を示す図である。図11を用いて、図3、6で説明した団体(1)について、事業毎にキーワードを構造化した画像を生成する処理について説明する。
CPU101は、特徴情報から、団体(1)について、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を格納するキーワード管理テーブルを取得する。そして、CPU101は、例えば、取得したテーブルの「事業カテゴリ」の項目から、団体(1)に含まれる事業を決定する。CPU101は、決定した各事業に対応する「キーワード」の項目から、団体(1)に含まれる各事業について、事業の特徴を示すキーワードを決定する。
団体(1)は、図6で説明したように、キーワード「ベッド」、「寝装品」、「家具」に対応する事業と、キーワード「クリーン」、「エアコン」、「エネルギー」に対応する事業と、キーワード「部品」、「ブレーキ」、「トランスミッション」、「エンジン」に対応する事業と、が含まれている。そのため、CPU101は、3つの事業を決定し、決定した3つの事業それぞれに対応するキーワードとして、「ベッド」、「寝装品」、「家具」と、「クリーン」、「エアコン」、「エネルギー」と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」とを決定する。また、CPU101は、各事業に対応するクラスタを代表する核キーワードとして、「家具」、「エネルギー」、「部品」を決定する。
FIG. 11 is a diagram illustrating an example of an image generated based on the feature information, in which keywords are structured for each business for a certain organization. With reference to FIG. 11, processing for generating an image in which keywords are structured for each business for the group (1) described in FIGS. 3 and 6 will be described.
CPU101 acquires the keyword management table which stores the information of the keyword for every cluster, and the importance of the keyword for every cluster about organization (1) from characteristic information. And CPU101 determines the business contained in organization (1) from the item of "business category" of the acquired table, for example. The
As shown in FIG. 6, the organization (1) has a business corresponding to the keywords “bed”, “bedding”, “furniture”, a business corresponding to the keywords “clean”, “air conditioner”, “energy”, Businesses corresponding to the keywords “parts”, “brake”, “transmission”, and “engine” are included. Therefore, the
CPU101は、取得したテーブルの「団体キーワードスコア」又は「事業キーワードスコア」の項目から、各キーワードの重要度を決定する。
また、CPU101は、特徴情報から、団体(1)についてキーワード同士の関連性を示す関連性管理テーブルを取得する。そして、CPU101は、取得したテーブルから各キーワードの特徴量を決定し、決定した特徴量同士の内積を求め、各キーワード同士の関連度を決定する。CPU101は、決定した関連度が、予め定められた閾値以上である場合、その関連度に対応する2つのキーワード同士に関連があると決定する。また、CPU101は、決定した関連度が、予め定められた閾値未満である場合、その関連度に対応する2つのキーワード同士に関連がないと決定する。
また、CPU101は、特徴情報から、図10で説明したテーブル1000を取得する。そして、CPU101は、テーブル1000から、団体(1)の各事業のキーワードの潜在的意味を示すベクトルを取得する。
The
In addition, the
Further, the
CPU101は、団体(1)について決定した事業毎のキーワード、各キーワード同士の関連の有無、各キーワードの重要度、各キーワードの潜在的意味、に基づいて、事業毎にキーワードを構造化した画像を生成する。
CPU101は、各キーワードを示す楕円形ブロック(以下では、キーワードブロックとする)を、対応する事業を視認できるように画像中に配置する。CPU101は、例えば、同じ事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以下となるように配置し、異なる事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以上となるように配置することで、各キーワードブロックを、対応する事業を視認できるように配置する。また、CPU101は、例えば、画像中に事業それぞれに対応する枠を記載し、各枠内に、その枠が示す事業に対応するキーワードブロックを配置するようにしてもよい。図11の例では、「ベッド」、「寝装品」、「家具」の組と、「クリーン」、「エアコン」、「エネルギー」の組と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」の組と、がそれぞれ密集している様子が示されている。
Based on the keywords for each business determined for the group (1), whether or not each keyword is related, the importance of each keyword, and the potential meaning of each keyword, the
The
また、CPU101は、各キーワードブロックのサイズを、各キーワードの重要度に基づいて決定する。CPU101は、例えば、各キーワードブロックのサイズを、対応するキーワードの重要度が大きい程大きくなるように決定する。これにより、CPU101は、どのキーワードが重要であるかをより容易に視認できるようにすることができる。図11の例では、「部品」の重要度が最も大きいため、「部品」のキーワードブロックが最もサイズが大きくなっている。
また、CPU101は、各キーワード同士の関連の有無に基づいて、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載する。図11の例では、関連のあるキーワードブロック同士をつなぐ線が記載されている様子が示されている。これにより、CPU101は、関連のあるキーワードに対応するキーワードブロック同士を構造化し、各事業の特徴の視認による把握をより容易にすることができる。
図11の例では、CPU101は、同じクラスタに属する関連のあるキーワードに対応するキーワードブロック同士をつなぐ線として実線を記載する。また、CPU101は、異なるクラスタに属する核キーワードに対応するキーワードブロック同士をつなぐ線として破線、二重線等の実線と異なる線を記載する。このように、CPU101は、同じクラスタに属するキーワードに対応するキーワードブロック同士をつなぐ線と異なる線を用いて、各クラスタに属する核キーワードに対応するキーワードブロック同士を接続し構造化することで、全体として団体の特徴を表す構造を表示することができる。図11には、クラスタ内のキーワードブロック同士が実線で繋がれており、クラスタそれぞれの核キーワードである「エネルギー」、「家具」、「部品」同士が破線でつながれている様子が示されている。また、CPU101は、同じ事業に対応するキーワードブロックについてのみ、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載することとしてもよい。その場合、図11の画像における「エネルギー」、「家具」、「部品」それぞれをつなぐ線が記載されないこととなる。
また、CPU101は、各キーワードの潜在的意味に応じて、各キーワードブロックの背景の表示態様(色・模様等)を決定する。キーワードの潜在的意味は、キーワードがどの団体の特徴を示すか、どの事業の特徴を示すか、とは関わりなく決定されている。そのため、団体の別、事業の別、と関わりなく、類似する潜在的意味を持つキーワードのキーワードブロックの背景は、類似する表示態様となる。そのため、CPU101は、異なる団体、異なる事業間における類似する特徴の視認による把握をより容易にできる。
Further, the
Moreover, CPU101 describes the line which connects the keyword blocks corresponding to the keyword which has a relationship based on the presence or absence of the relationship between each keyword. In the example of FIG. 11, a state in which lines connecting related keyword blocks are described. Thereby, CPU101 can structure the keyword blocks corresponding to the keyword which is related, and can grasp | ascertain by the visual recognition of the characteristic of each business more easily.
In the example of FIG. 11, the
Further, the
また、CPU101は、団体(1)について決定した事業毎のキーワード、各キーワード同士の関連の有無、に基づいて、事業毎にキーワードを構造化した画像を生成することしてもよい。
また、CPU101は、外部の情報処理装置から、団体群に含まれる(1つ又は複数の)団体について、事業毎にキーワードを構造化した画像の要求を受信した場合、その(1つ又は複数の)団体についてのみ、事業毎にキーワードを構造化した画像を生成し、出力してもよい。
Further, the
Further, when the
ユーザは、団体について事業毎にキーワードが構造化された画像を視認することで、以下のようなことを把握できる。
例えば、情報処理装置100が、ユーザが所属する企業と、その企業の競合他社と、を団体群として、特徴情報を生成したとする。そして、情報処理装置100が、ユーザが所属する企業と、その競合他社と、について、事業毎にキーワードが構造化された画像を生成した画像を生成する。ユーザは、その画像を視認することで、以下のようなことを把握できる。即ち、ユーザは、自社の事業毎にキーワードが構造化された画像を視認することで、自社の特徴を把握できる。また、ユーザは、自社の事業毎にキーワードが構造化された画像と、競合他社の事業毎にキーワードが構造化された画像と、を見比べることで、同一市場・業界の平均的な特徴、自社の強み・弱み、競合の強み・弱み等を把握できる。
また、ユーザは、複数事業を展開している企業についても、その企業のキーワードの構造と、類似したキーワードの構造を有する他の企業を把握することで、その企業が展開している事業をより正確に把握できる。
The user can grasp the following by visually recognizing the image in which the keyword is structured for each business for the group.
For example, it is assumed that the
In addition, for a company that operates multiple businesses, the user can understand the structure of the keywords of the company and other companies that have similar keyword structures, so that the business that the company operates Accurately grasp.
ユーザは、このようなことを把握することで、より適切な売却先、業務提携先、資本提携先、仕入れ販売先等を見つけることができる。
本実施形態の処理は、事業会社において、企業価値向上を目指す企業の業務(自社・競合・他社把握や、提携先検討等)において活用ができる。また、仲介実施会社において、証券会社におけるM&A先の紹介、銀行におけるビジネスマッチング先紹介、等の業務においても、活用ができる。また、調査研究機関、機関投資家等において、調査研究機関や機関投資家における業界や個社動向調査においても活用ができる。
By grasping such a situation, the user can find a more appropriate sales destination, business alliance partner, capital alliance partner, purchase sales destination, and the like.
The processing of this embodiment can be used in business operations (such as grasping own company / competition / other companies and partner consideration) at business companies. It can also be used in brokerage companies such as introducing M & A destinations at securities companies and introducing business matching destinations at banks. It can also be used in research and research institutions, institutional investors, etc. in surveys of industry and individual company trends in research institutions and institutional investors.
(検索処理)
CPU101は、図2の処理により生成した特徴情報に基づいて、指定された単語と関連のある団体を検索することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、ある単語(例えば「ヘルメット」等)と関連のある団体を検索するよう要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、指定された単語と関連のある団体を団体群から検索し、検索した団体を示す情報を要求元に送信する。
CPU101は、例えば、団体群に含まれる団体それぞれについて生成されたキーワード管理テーブルの「キーワード」の項目から、指定された単語を検索する。そして、CPU101は、検索した「キーワード」に対応する重要度が予め定められた閾値以上である場合、検索した「キーワード」を含む団体を示す情報を、検索結果として要求元に送信する。
(Search process)
The
Assume that the
In that case, the
For example, the
また、CPU101は、以下のような処理を行うこととしてもよい。
CPU101は、特徴情報に含まれる団体群それぞれについて生成された関連性管理テーブルと、テーブル1000とに、基づいて、指定された単語と関連するキーワードと、指定された単語と類似するキーワードと、を検索する。そして、CPU101は、検索したキーワードのリストを、要求元に送信する。要求元の情報処理装置は、受信したキーワードのリストを表示部に表示し、ユーザに提示する。ユーザは、表示されたキーワードのリストから、団体の検索に用いられる(1つ又は複数の)単語を追加で、選択する。要求元の情報処理装置は、ユーザによって選択された単語を情報処理装置100に送信し、初めに送信した単語と、改めて送信した単語と、に関連する団体を検索するよう要求する。
例えば、要求元の情報処理装置は、初めに「ヘルメット」という単語で、団体の検索を行うよう情報処理装置100に要求したとする。その場合、情報処理装置100は、「ヘルメット」に関連するキーワード、類似するキーワードのリストを要求元に送信する。そして、ユーザは、夏場での利用を想定したヘルメットを開発している企業を探したい場合、受信したキーワードのリストから「通気性」という単語を選択する。そして、要求元の情報処理装置は、「通気性」という単語を情報処理装置100に送信し、「ヘルメット」と「通気性」とに関連する団体を検索するよう要求する。以下では、最初に指定された単語(「ヘルメット」)をオリジナル検索ワード、追加で指定された単語(「通気性」)を追加関連ワードとする。
Further, the
The
For example, it is assumed that the requesting information processing apparatus first requests the
CPU101は、オリジナル検索ワードと、追加関連ワードと、に関連する団体を、団体群から検索する。CPU101は、団体群に含まれる団体それぞれについて生成された図8で説明したテーブルと同様のテーブルから、オリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)とをキーワードとする団体を検索する。また、CPU101は、更に、オリジナル検索ワードと追加関連ワードに類似する単語とをキーワードとする団体を検索してもよい。CPU101は、テーブル1000に基づいて、追加関連ワードに類似する単語を決定できる。
CPU101は、検索した団体について、検索条件にどの程度合致しているかを示す合致スコアを決定する。CPU101は、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度に基づいて、合致スコアを決定する。CPU101は、例えば、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度が大きい程、値が大きくなるように合致スコアを決定する。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)とに関連性がある団体の合致スコアを、関連性がない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワードとが、同じ事業クラスタのキーワードとなっている団体の合致スコアを、そうでない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。
The
The
CPU101は、検索した団体の情報と、各団体の合致スコアの情報と、を要求元の情報処理装置に送信する。要求元の情報処理装置は、検索された団体の情報を、合致スコアが大きい順に並べて、表示部に表示する。ユーザは、検索された団体の情報を視認して、関連のありそうな団体を把握できる。また、要求元の情報処理装置は、合致スコアが最大のものから予め定められた数(例えば3個)の団体について、各団体の事業毎のキーワードを表示部に表示することとしてもよい。そして、ユーザは、表示されたキーワードの中から更に追加する追加関連ワードとなるキーワードを選択する。そして、要求元の情報処理装置は、選択されたキーワードの情報を情報処理装置100に送信する。情報処理装置100は、追加関連ワードに、受信したキーワードを追加する。
そして、CPU101は、オリジナル検索ワードと、受信したキーワードが追加された追加関連ワード(又は追加関連ワードに類似する単語)と、に基づいて、同様の処理を繰り返す。これにより、情報処理装置100は、ユーザが望む条件により合致する団体を検索することができる。
The
Then, the
また、CPU101は、図2の処理により生成した特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された団体に類似する団体を検索することができる。
CPU101は、例えば、外部の情報処理装置等から、ある団体の指定を受付け、その団体に類似する団体の検索の要求を受付ける。以下では、指定された団体を、オリジナル団体とする。CPU101は例えば、オリジナル団体に含まれるキーワード(以下では、キーワード(A)とする)それぞれについて、オリジナル団体における重要度と、他の団体(以下では、検索先団体とする)における重要度と、の積の和を、オリジナル団体と検索先団体との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先団体に含まれる団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の団体を、オリジナル団体に類似する団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
Further, the
For example, the
また、CPU101は、キーワード(A)と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A)それぞれについて、オリジナル団体におけるキーワード(A)の重要度と、検索先団体におけるキーワード(A)に類似するキーワードの重要度と、の積に、キーワード(A)とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B)とする)について、検索先団体においても単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(B)の重要度と、検索先団体におけるキーワード(B)の重要度と、の積に係数(以下では、第1の係数とする)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第1の係数は、例えば、2等である。このようにすることで、CPU101は、キーワード(B)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A)のうち、オリジナル団体において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C)とする)について、検索先団体においても単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(C)の重要度と、検索先団体におけるキーワード(C)の重要度と、の積に係数(以下では、第2の係数)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第2の係数は、例えば、3等の第1の係数よりも大きな値としてもよい。このようにすることで、CPU101は、キーワード(C)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
Further, the
Further, the
Further, the
また、CPU101は、特徴情報に基づいて、以下のような処理を行うことで、団体群から、指定された事業と類似する事業を持つ企業を検索することもできる。
CPU101は、例えば、外部の情報処理装置等から、ある団体におけるある事業の指定を受付け、その事業に類似する事業を有する団体の検索の要求を受付ける。以下では、指定された事業を、オリジナル事業とする。CPU101は例えば、オリジナル事業に含まれるキーワード(以下では、キーワード(A’)とする)それぞれについて、オリジナル事業における重要度と、他の団体に含まれる事業(以下では、検索先事業とする)における重要度と、の積の和を、オリジナル事業と検索先事業との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先事業を含む団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の事業を含む団体を、オリジナル事業に類似する事業を含む団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
Further, the
The
また、CPU101は、キーワード(A’)と類似するキーワードについて勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A’)それぞれについて、オリジナル事業におけるキーワード(A’)の重要度と、検索先事業におけるキーワード(A’)に類似するキーワードの重要度と、の積に、キーワード(A’)とそのキーワードとの類似度を乗じた値を、類似度スコアに加算して類似度スコアを求めてもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A’)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B’)とする)について、検索先事業に対応する単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(B’)の重要度と、検索先事業におけるキーワード(B’)の重要度と、の積に第1の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(B’)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A’)のうち、オリジナル事業において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C’)とする)について、検索先事業に対応する単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(C’)の重要度と、検索先事業におけるキーワード(C’)の重要度と、の積に第2の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(C’)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
The
Further, the
Further, the
(まとめ)
以上、本実施形態では、情報処理装置100は、団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、団体の特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関係を示す特徴情報を生成した。これにより、情報処理装置100は、団体内にどのような事業があるのかを示す情報を生成することができる。
(Summary)
As described above, in the present embodiment, the
<その他の実施形態>
実施形態1では、情報処理装置100は、単体の情報処理装置であるとした。しかし、情報処理装置100は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置100に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、情報処理装置100の機能及び図2のフローチャートの処理、(画像出力処理)、(検索処理)で説明した処理等が実現される。
実施形態1では、情報処理装置100は、団体について、団体に含まれる要素である事業毎の特徴同士の関係を示す特徴情報を生成することとした。しかし、情報処理装置100は、団体以外のオブジェクトについて、オブジェクトに含まれる要素毎に特徴同士の関係を示す特徴情報を生成してもよい。例えば、情報処理装置100は、個人が文書投稿サイト等に投稿した複数の文書データを含む文書データ群から、個人の特徴を示すキーワードを抽出し、文書データ群に含まれる各文書データをクラスタリングし、個人に含まれる要素(性格・趣味等)を示す各クラスタを求め、各クラスタの特徴を示すキーワードを決定し、キーワード同士の関連性を決定し、決定した各クラスタの特徴を示すキーワードと、キーワード同士の関連性と、を示す情報を、特徴情報として生成してもよい。
<Other embodiments>
In the first embodiment, the
In the first embodiment, the
以上、本発明の好ましい実施形態について詳述したが、本発明は係る特定の実施形態に限定されるものではない。
例えば、上述した情報処理装置100の機能構成の一部又は全てをハードウェアとして情報処理装置100に実装してもよい。
As mentioned above, although preferable embodiment of this invention was explained in full detail, this invention is not limited to the specific embodiment which concerns.
For example, part or all of the functional configuration of the
100 情報処理装置
101 CPU
100
Claims (14)
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定手段と、
前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、
前記抽出手段により抽出されたキーワードの特徴量を決定する第2の特徴量決定手段と、
前記第2の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、
前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、
を有する情報処理装置。 Extraction means for extracting a keyword indicating the feature of the object from the object document data group based on the appearance frequency of words in the object document data group, which is a document data group including a plurality of document data related to the object;
Based on the appearance frequency of the keyword extracted by the extracting unit in the document data included in the object document data group and the rarity of the keyword extracted by the extracting unit in the object document data group, the object document First feature amount determining means for determining a feature amount of document data included in the data group;
Classifying means for classifying document data included in the object document data group into one or more sections respectively corresponding to elements included in the object based on the feature amount determined by the first feature amount determining means. When,
Document data included in the object document data group by the classification unit is extracted by the extraction unit based on the appearance frequency of the keyword extracted by the extraction unit in the classification included in the one or more classifications. A keyword determining means for determining a keyword indicating a feature of an element corresponding to the category included in the one or more categories from the keywords,
Second feature value determining means for determining the feature value of the keyword extracted by the extracting means;
Relevance determination means for determining relevance between keywords extracted by the extraction means based on the feature quantity determined by the second feature quantity determination means;
Generating means for generating feature information indicating a relationship between features of each element in the object based on the keyword determined by the keyword determining means and the relevance determined by the relevance determining means;
An information processing apparatus.
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードの前記1つ以上の区分に含まれる区分における重要性を示すスコア値を決定する第2のスコア決定手段と、
を更に有し、
前記抽出手段は、前記第1のスコア決定手段により決定されたスコア値に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記キーワード決定手段は、前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項1記載の情報処理装置。 First score determination means for determining a score value indicating the importance of the word in the object based on the appearance frequency of the word in the object document data group;
Document data included in the object document data group by the classification unit is extracted by the extraction unit based on the appearance frequency of the keyword extracted by the extraction unit in the classification included in the one or more classifications. Second score determining means for determining a score value indicating importance in a section included in the one or more sections of the keyword,
Further comprising
The extraction unit extracts a keyword indicating the feature of the object from the object document data group based on the score value determined by the first score determination unit,
The keyword determining unit is configured to obtain a feature of an element corresponding to a category included in the one or more categories from the keyword extracted by the extracting unit based on the score value determined by the second score determining unit. The information processing apparatus according to claim 1, wherein a keyword to be displayed is determined.
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。 Further comprising importance determining means for determining importance indicating the importance of the keyword extracted by the extracting means in the object based on the score value determined by the first score determining means;
The generating means calculates the feature information based on the keyword determined by the keyword determining means, the relevance determined by the relevance determining means, and the importance determined by the importance determining means. The information processing apparatus according to claim 2 to be generated.
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。 Based on the score value determined by the second score determining means, further comprising an importance determining means for determining an importance indicating the importance of the keyword extracted by the extracting means in the object,
The generating means calculates the feature information based on the keyword determined by the keyword determining means, the relevance determined by the relevance determining means, and the importance determined by the importance determining means. The information processing apparatus according to claim 2 to be generated.
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記意味決定手段により決定された意味と、に基づいて、前記特徴情報を生成する請求項1乃至8何れか1項記載の情報処理装置。 Further comprising meaning determining means for determining the meaning of the keyword extracted by the extracting means;
The generation unit generates the feature information based on the keyword determined by the keyword determination unit, the relevance determined by the relevance determination unit, and the meaning determined by the meaning determination unit. The information processing apparatus according to claim 1.
前記分類手段は、前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素である事業にそれぞれ対応する1つ以上の区分に分類する請求項1乃至11何れか1項記載の情報処理装置。 The extraction means extracts a keyword indicating the feature of the object from the object document data group based on the appearance frequency of words in the object document data group including a plurality of document data related to the object that is a company,
The classifying unit converts document data included in the object document data group based on the feature amount determined by the first feature amount determining unit to one corresponding to a business that is an element included in the object. The information processing apparatus according to claim 1, which is classified into the above categories.
オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出ステップと、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出ステップで抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出ステップで抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定ステップと、
前記第1の特徴量決定ステップで決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類ステップと、
前記分類ステップで前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出ステップで抽出されたキーワードの出現頻度に基づいて、前記抽出ステップで抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定ステップと、
前記抽出ステップで抽出されたキーワードの特徴量を決定する第2の特徴量決定ステップと、
前記第2の特徴量決定ステップで決定された特徴量に基づいて、前記抽出ステップで抽出されたキーワード同士の関連性を決定する関連性決定ステップと、
前記キーワード決定ステップで決定されたキーワードと、前記関連性決定ステップで決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成ステップと、
を含む情報処理方法。 An information processing method executed by an information processing apparatus,
An extraction step of extracting a keyword indicating the feature of the object from the object document data group based on the appearance frequency of words in the object document data group, which is a document data group including a plurality of document data related to the object;
Based on the appearance frequency of the keyword extracted in the extraction step in the document data included in the object document data group and the rarity of the keyword extracted in the extraction step in the object document data group, the object document A first feature amount determining step for determining a feature amount of document data included in the data group;
A classification step of classifying document data included in the object document data group into one or more sections corresponding to elements included in the object, based on the feature amounts determined in the first feature amount determination step. When,
The document data included in the object document data group in the classification step is extracted in the extraction step based on the appearance frequency of the keyword extracted in the extraction step in the classification included in the one or more classifications. A keyword determination step for determining a keyword indicating a feature of an element corresponding to the category included in the one or more categories from the keywords,
A second feature amount determination step for determining a feature amount of the keyword extracted in the extraction step;
A relevance determination step for determining relevance between keywords extracted in the extraction step based on the feature amount determined in the second feature amount determination step;
A generation step of generating feature information indicating a relationship between features of each element in the object based on the keyword determined in the keyword determination step and the relationship determined in the relevance determination step;
An information processing method including:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017165581A JP6403850B1 (en) | 2017-08-30 | 2017-08-30 | Information processing apparatus, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017165581A JP6403850B1 (en) | 2017-08-30 | 2017-08-30 | Information processing apparatus, information processing method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6403850B1 true JP6403850B1 (en) | 2018-10-10 |
JP2019045956A JP2019045956A (en) | 2019-03-22 |
Family
ID=63788162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017165581A Active JP6403850B1 (en) | 2017-08-30 | 2017-08-30 | Information processing apparatus, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6403850B1 (en) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099445A (en) * | 2001-09-21 | 2003-04-04 | Telecommunication Advancement Organization Of Japan | Sorting key word generation method and program, and recording medium with the program recorded thereon |
JP2003281159A (en) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | Document processor, document processing method and document processing program |
JP2003345811A (en) * | 2002-05-27 | 2003-12-05 | Hitachi Ltd | System and method for displaying document information, and document retrieving method |
WO2007043593A1 (en) * | 2005-10-11 | 2007-04-19 | Intellectual Property Bank Corp. | Company technical document group analysis supporting device |
JP2007193380A (en) * | 2006-01-16 | 2007-08-02 | So-Net Entertainment Corp | Information processor, information processing method and computer program |
JP2010231434A (en) * | 2009-03-26 | 2010-10-14 | Hitachi East Japan Solutions Ltd | Display device, display method, and program |
JP2011141801A (en) * | 2010-01-08 | 2011-07-21 | Internatl Business Mach Corp <Ibm> | Processing method for time-series analysis of keyword, processing system and computer program thereof |
US20110202886A1 (en) * | 2010-02-13 | 2011-08-18 | Vinay Deolalikar | System and method for displaying documents |
-
2017
- 2017-08-30 JP JP2017165581A patent/JP6403850B1/en active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099445A (en) * | 2001-09-21 | 2003-04-04 | Telecommunication Advancement Organization Of Japan | Sorting key word generation method and program, and recording medium with the program recorded thereon |
JP2003281159A (en) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | Document processor, document processing method and document processing program |
JP2003345811A (en) * | 2002-05-27 | 2003-12-05 | Hitachi Ltd | System and method for displaying document information, and document retrieving method |
WO2007043593A1 (en) * | 2005-10-11 | 2007-04-19 | Intellectual Property Bank Corp. | Company technical document group analysis supporting device |
JP2007193380A (en) * | 2006-01-16 | 2007-08-02 | So-Net Entertainment Corp | Information processor, information processing method and computer program |
JP2010231434A (en) * | 2009-03-26 | 2010-10-14 | Hitachi East Japan Solutions Ltd | Display device, display method, and program |
JP2011141801A (en) * | 2010-01-08 | 2011-07-21 | Internatl Business Mach Corp <Ibm> | Processing method for time-series analysis of keyword, processing system and computer program thereof |
US20110202886A1 (en) * | 2010-02-13 | 2011-08-18 | Vinay Deolalikar | System and method for displaying documents |
Non-Patent Citations (1)
Title |
---|
渡部勇: "ビジュアルテキストマイニング", 人工知能学会誌, vol. 第16巻 第2号, JPN6007014044, 1 March 2001 (2001-03-01), JP, pages 226 - 232 * |
Also Published As
Publication number | Publication date |
---|---|
JP2019045956A (en) | 2019-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Kaushik et al. | A comprehensive study of text mining approach | |
US8325189B2 (en) | Information processing apparatus capable of easily generating graph for comparing of a plurality of commercial products | |
JP6381775B2 (en) | Information processing system and information processing method | |
US11023503B2 (en) | Suggesting text in an electronic document | |
US9552415B2 (en) | Category classification processing device and method | |
US11182540B2 (en) | Passively suggesting text in an electronic document | |
JP2018509664A (en) | Model generation method, word weighting method, apparatus, device, and computer storage medium | |
JP2007172051A (en) | Reputation information-processing device, reputation information-processing method, reputation information-processing program, and recording medium | |
KR20200117542A (en) | Apparatus and method for generating information link | |
CN114780712B (en) | News thematic generation method and device based on quality evaluation | |
JP3693514B2 (en) | Document retrieval / classification method and apparatus | |
US8886651B1 (en) | Thematic clustering | |
JP6403850B1 (en) | Information processing apparatus, information processing method, and program | |
CN109086458A (en) | A kind of search engine system applied to reconnaissance projecting trade | |
KR101078978B1 (en) | System for grouping documents | |
JP2016197332A (en) | Information processing system, information processing method, and computer program | |
JP2019096019A (en) | Information analysis system | |
JP5368900B2 (en) | Information presenting apparatus, information presenting method, and program | |
JP6496078B2 (en) | Analysis support device, analysis support method, and analysis support program | |
Alotaibi et al. | A Comparison of Topic Modeling Algorithms on Visual Social Media Networks | |
KR100952077B1 (en) | Apparatus and method for choosing entry using keywords | |
Asor et al. | RESEARCH++: An academic social networking research community portal for profiling and expertise classification | |
Pisal et al. | AskUs: An opinion search engine | |
US20240354373A1 (en) | Information processing apparatus, information processing system, information processing method, and non-transitory recording medium | |
JP7297855B2 (en) | Keyword extraction device, keyword extraction method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6403850 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |