JP2019045956A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2019045956A JP2019045956A JP2017165581A JP2017165581A JP2019045956A JP 2019045956 A JP2019045956 A JP 2019045956A JP 2017165581 A JP2017165581 A JP 2017165581A JP 2017165581 A JP2017165581 A JP 2017165581A JP 2019045956 A JP2019045956 A JP 2019045956A
- Authority
- JP
- Japan
- Prior art keywords
- keyword
- document data
- group
- determined
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
文書データを解析する技術には、特許文献1がある。特許文献1には、自然言語で記述された文書を解析し、予め与えられた分野の情報を抽出し、文書に含まれる単語間の関係を含む情報を一定の形式で出力する情報抽出システムであり、キーワード間の関係を認定しながら構文解析を行うことによって正しい情報を数多く、より正確に抽出する技術が開示されている。
そこで、本発明は、オブジェクト内にどのような要素があるのかを示す情報を生成することを目的とする。
<実施形態1>
(処理の概要)
例えば、企業等の団体がビジネスを推進していく際、ある団体に関する団体情報やその団体の製品・サービス情報、事業構造や団体間のビジネス構造等の特徴を捉え、各特徴がその団体におけるどの事業に関する特徴であり、各特徴同士がどのような関連性を有するかを把握することで、その団体の詳細をより容易に把握でき、団体の事業動向の詳細把握、業種・業態の明示化、ビジネスマッチング等が可能となる。
そこで、本実施形態では、情報処理装置100が、オブジェクトである団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、オブジェクトの特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関連性を示す特徴情報を生成する処理について説明する。
図1は、情報処理装置100のハードウェア構成である。情報処理装置100は、パーソナルコンピュータ、サーバ装置、タブレット装置等の情報処理装置である。
情報処理装置100は、CPU101、主記憶装置102、補助記憶装置103、ネットワークI/F104を含む。各要素は、システムバス105を介して、相互に通信可能に接続されている。
CPU101は、情報処理装置100を制御する中央演算装置である。主記憶装置102は、CPU101のワークエリア、データの一時的な記憶場所として機能するRandom Access Memory(RAM)等の記憶装置である。補助記憶装置103は、各種プログラム、各種設定情報、各種文書データ等を記憶する記憶装置である。補助記憶装置103は、例えば、Read Only Memory(ROM)、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)等の記憶媒体を用いて実装される。ネットワークI/F104は、インターネットやLAN等のネットワークを介した外部の装置との通信に利用されるインターフェースである。
CPU101が、補助記憶装置103に記憶されているプログラムに基づき処理を実行することで、情報処理装置100の機能、及び、図2で後述するフローチャートの処理、(画像出力処理)、(検索処理)で説明する処理等が実現される。
図2は、情報処理装置100の処理の一例を示すフローチャートである。
S201において、CPU101は、予め定められた複数の団体それぞれについて、団体に関する複数の文書データを含む文書データ群を取得する。以下では、予め定められた複数の団体を、団体群とする。また、以下では、団体に関する文書データ群を、団体文書データ群とする。団体文書データ群は、オブジェクトに関する文書データ群であるオブジェクト文書データ群の一例である。CPU101は、例えば、予め補助記憶装置103に記憶された団体群に含まれる団体それぞれに関する団体文書データ群を取得する。また、CPU101は、ネットワークI/F104を介して、インターネットを介して、外部の記憶装置から、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。また、CPU101は、検索エンジンを介して、インターネット上の団体それぞれに関する文書データを検索することで、団体群に含まれる団体それぞれに関する団体文書データ群を取得することとしてもよい。
また、CPU101は、1つの団体に関する団体文書データ群を取得することとしてもよい。
S202において、CPU101は、S201で取得した複数の団体文書データ群から、単語を抽出する。CPU101は、例えば、団体文書データ群に含まれる各文書データに対して、形態素解析を行うことで、単語を抽出する。
まず、CPU101は、団体(1)に関する団体文書データ群における単語(1)の出現頻度と、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性と、を決定する。文書データ群における単語の出現頻度とは、その単語がその文書データ群中に出現する度合いを示す指標である。複数の文書データ群における単語の希少性とは、その複数の文書データ群におけるその単語の希少さの度合いを示す指標である。
また、CPU101は、例えば、団体群それぞれに関する複数の団体文書データ群に単語(1)を含む文書データを含む団体文書データ群がC個存在し、団体群それぞれに関する複数の団体文書データ群に団体文書データ群がD個存在する場合、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、Log(D/C)として決定する。また、CPU101は、団体群に含まれる団体それぞれに関する複数の団体文書データ群における単語(1)の希少性を、D/Cとして決定してもよい。このように、団体群それぞれに関する複数の団体文書データ群のうち、単語(1)を含む団体文書データ群の数と、その複数の団体文書データ群に含まれる団体文書データ群の数と、の比率や、この比率の任意の正数を底とする対数等は、その複数の団体文書データ群における単語(1)の希少性の一例である。
また、CPU101は、決定した希少性が高い程、団体(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、団体群における各団体にとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の団体との関係を考慮した上で、団体において各単語がどの程度重要なのかをより精度よく示すスコア値を決定できる。これにより、CPU101は、S204で、他の団体との関係(例えば、他の団体との特徴の違い等)を考慮した上で、団体の特徴を示すキーワードを抽出できる。
CPU101は、以上の処理を団体(1)に関する団体文書データ群に含まれる単語全てにおいて行い、団体(1)に関する団体文書データ群における各単語のスコア値を決定する。
また、CPU101は、同様の処理を、団体群に含まれる団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれに関する複数の団体文書データ群それぞれにおける各単語のスコア値を決定する。
その場合、CPU101は、以下のようにしてその団体に関する団体文書データ群に含まれる各単語のスコア値を決定してもよい。
即ち、CPU101は、その団体文書データ群における各単語の出現頻度を決定し、決定した出現頻度に基づいて、各単語のスコア値を決定してもよい。CPU101は、例えば、各単語の出現頻度の値を、各単語のスコア値として決定してもよい。
また、CPU101は、同様の処理を、団体(1)以外の他の団体についても行い、団体群に含まれる団体それぞれについて、キーワードを抽出する。S204の処理は、キーワードを抽出する抽出処理の一例である。
図3は、S204で抽出された団体(1)のキーワードの一例を示す図である。図3の例は、団体(1)のキーワードとして、「部品」、「クリーン」、「ベッド」、「エンジン」、「ブレーキ」、「家具」、「エネルギー」、「エアコン」、「寝装品」、「トランスミッション」という10個の単語が決定された様子を示している。
S205において、CPU101は、団体群から、1つの団体を選択する。以下では、S205で選択された団体を選択団体とする。
まず、CPU101は、文書データ(1)におけるキーワード(1)の出現頻度と、選択団体に関する団体文書データ群におけるキーワード(1)の希少性と、を決定する。文書データにおけるキーワードの出現頻度とは、そのキーワードがその文書データ中に出現する度合いを示す指標である。団体文書データ群におけるキーワードの希少性とは、その団体文書データ群に含まれる複数の文書データにおけるそのキーワードの希少さの度合いを示す指標である。
また、CPU101は、例えば、選択団体に関する団体文書データ群に含まれる全ての文書データにキーワード(1)を含む文書データがG個存在し、選択団体に関する団体文書データ群に文書データが全部でH個存在する場合、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、Log(H/G)として決定する。また、CPU101は、選択団体に関する団体文書データ群におけるキーワード(1)の希少性を、H/Gとして決定してもよい。このように、選択団体に関する団体文書データ群に含まれる全ての文書データのうちキーワード(1)を含む文書データの数と、その団体文書データ群に含まれる文書データの数と、の比率や、この比率の任意の正数を底とする対数等は、その団体文書データ群におけるキーワード(1)の希少性の一例である。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれる文書データ(1)にとって特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各文書データにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他の文書データとの関係(例えば、他の文書データとの特徴の違い等)を考慮した上で、文書データにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
また、CPU101は、同様の処理を、選択団体に関する団体文書データ群に含まれる文書データ(1)以外の他の文書データについても行い、選択団体に関する団体文書データ群に含まれる文書データそれぞれにおける各キーワードのスコア値を決定する。
図4は、文書データの特徴量の一例を説明する図である。図4のテーブル400は、選択団体に関する団体文書データ群に含まれる各文書データにおける各キーワードのスコア値を示すテーブルである。図4の例では、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル400における文書データに対応する列が、その文書データにおける各キーワードのスコア値を示している。即ち、CPU101は、ある文書データに対応する列に含まれる各スコア値を要素としたベクトルを、その文書データの特徴量として決定する。
例えば、CPU101は、選択団体に関する団体文書データ群に含まれる文書データそれぞれについて、テーブル400における文書データに対応する列に含まれる各スコア値を要素としたベクトルを生成する。そして、CPU101は、生成した各ベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて、次元圧縮し、次元圧縮した各ベクトルを、各文書データの特徴量として決定する。
図5は、文書データの特徴量の一例を説明する図である。図5のテーブル500は、選択団体に関する団体文書データ群に含まれる各文書データにおける特徴量の各要素(基底)の値を示すテーブルである。図5の例では、図4と同様に、選択団体に関する団体文書データ群に含まれる文書データは、文書データ(1)〜文書データ(n)のn個の文書データである。テーブル500における文書データに対応する列が、その文書データの特徴量のベクトルの各要素の値を示している。即ち、テーブル500におけるある文書データに対応する列は、その文書データの特徴量のベクトルを示す。テーブル500における文書データに対応する列が示すベクトルは、図4のテーブル400におけるその文書データに対応する列が示すベクトルが次元圧縮されたベクトルとなる。このように、CPU101は、次元圧縮したベクトルを、文書データの特徴量として決定することで、S208での文書データのクラスタリングの処理の負担を軽減できる。
S209において、CPU101は、予め定められた基準に基づいて、S208でクラスタリングされた各クラスタから、選択団体における事業を示すクラスタを決定する。例えば、団体に含まれる事業に関する文書データは、事業活動が実施されている場合、一定以上の数があると仮定できる。そのため、事業に関する文書データの数は、予め定められた数以上存在することが仮定できる。そこで、CPU101は、例えば、クラスタに含まれる文書データの数が予め定められた閾値(例えば、10等)以上である場合、そのクラスタを、事業を示すクラスタとして決定する。以下では、事業を示すクラスタとして決定されたクラスタを、事業クラスタとする。
まず、CPU101は、クラスタ(1)におけるキーワード(1)の出現頻度と、事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性と、を決定する。クラスタにおけるキーワードの出現頻度とは、そのキーワードがそのクラスタに含まれる文書データ中に出現する度合いを示す指標である。事業クラスタとして決定された全てのクラスタにおけるキーワードの希少性とは、その全てのクラスタにおけるそのキーワードの希少さの度合いを示す指標である。
また、CPU101は、例えば、S209で事業クラスタとして決定された全てのクラスタに含まれるクラスタにキーワード(1)を含む文書データを含むクラスタがK個存在し、S209で事業クラスタとして決定されたクラスタの数が全部でL個存在する場合、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、Log(L/K)として決定する。また、CPU101は、S209で事業クラスタとして決定された全てのクラスタにおけるキーワード(1)の希少性を、L/Kとして決定してもよい。このように、S209で事業クラスタとして決定された全てのクラスタに含まれるキーワード(1)を含む文書データを含むクラスタの数と、その全てのクラスタに含まれるクラスタの数と、の比率や、この比率の任意の正数を底とする対数等は、その全てのクラスタにおけるキーワード(1)の希少性の一例である。
また、CPU101は、決定した希少性が高い程、選択団体に関する団体文書データ群に含まれるクラスタ(1)における特徴的な重要な単語であるとして、スコア値を高くする。また、CPU101は、決定した希少性が低い程、選択団体に関する団体文書データ群に含まれる各クラスタにとって特徴的でない重要でない単語であるとして、スコア値を低くする。このように、CPU101は、決定した希少性を用いることで、他のクラスタとの関係(例えば、他のクラスタとの特徴の違い等)を考慮した上で、クラスタにおいて各キーワードがどの程度重要なのかをより精度よく示すスコア値を決定できる。
また、CPU101は、同様の処理を、S209で事業クラスタとして決定されたクラスタ(1)以外の他のクラスタについても行い、事業クラスタとして決定されたクラスタそれぞれにおける各キーワードのスコア値を決定する。
即ち、CPU101は、そのクラスタにおける各キーワードの出現頻度を決定し、決定した出現頻度に基づいて、各キーワードのスコア値を決定してもよい。CPU101は、例えば、各キーワードの出現頻度の値を、各キーワードのスコア値として決定してもよい。
また、CPU101は、同様の処理を、クラスタ(1)以外のS209で事業クラスタとして決定された他のクラスタについても行い、クラスタそれぞれについて、キーワードを決定する。S211の処理は、キーワード決定処理の一例である。
図6は、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す図である。図6の例では、選択団体が団体(1)である場合に、S209で事業クラスタとして決定されたクラスタ毎にS211で決定されたキーワードの一例を示す。図6中の3つの枠は、それぞれ、S209で事業クラスタとして決定されたクラスタを示す。各枠内の単語は、各枠に対応するクラスタの特徴を示すキーワードである。図6の例では、「ベッド」、「寝装品」、「家具」という3つのキーワードを持つクラスタと、「エアコン」、「クリーン」、「エネルギー」という3つのキーワードを持つクラスタと、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」という4つのキーワードを持つクラスタと、が団体(1)に含まれていることが示されている。このように、CPU101は、S211の処理により、S204で抽出されたキーワードを、事業毎にグルーピングできる。
図7は、キーワードの特徴量の一例を説明する図である。図7のテーブル700は、S209で事業クラスタとして決定された各クラスタにおける各キーワードのスコア値を示すテーブルである。図7の例では、事業クラスタとして決定されたクラスタは、クラスタ(1)〜クラスタ(k)のk個のクラスタである。また、図7の例では、S204で選択団体のキーワードとして抽出されたキーワードは、キーワード(1)〜キーワード(m)のm個のキーワードである。テーブル700におけるあるクラスタに対応する列が、そのクラスタにおける各キーワードのスコア値を示している。テーブル700におけるキーワードに対応する行が、各クラスタにおけるそのキーワードのスコア値を示している。CPU101は、各キーワードの特徴量として、テーブル700における各キーワードに対応する行が示す各スコア値を要素としたベクトルを、そのキーワードの特徴量として決定する。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルを、そのキーワードの特徴量として決定してもよい。
また、CPU101は、例えば、S206で文書データ毎に決定されたキーワードそれぞれのスコア値に基づいて、キーワードの特徴量を以下のようにして決定することとしてもよい。即ち、CPU101は、キーワードについて、文書データ毎にS206で決定されたそのキーワードのスコア値それぞれを各成分とするベクトルを、そのキーワードの特徴量として決定してもよい。この特徴量は、対応するキーワードが文書データ毎にどの程度重要であるかを示す特徴量とみなすことができる。また、CPU101は、このベクトルを、主成分分析、特異値分解、オートエンコーダ等の手法を用いて次元圧縮したベクトルをキーワードそれぞれの特徴量として決定してもよい。
関連性のあるキーワード同士は、あるクラスタ(又は、文書データ)において一方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値が高い程、他方のキーワードのそのクラスタ(又は、文書データ)におけるスコア値も高くなると仮定できる。即ち、関連性のあるキーワード同士のS212で決定した特徴量同士は、一方の特徴量におけるある次元の要素の値が大きい程、他方の特徴量におけるその次元における要素の値が大きくなると仮定できる。そのため、キーワード同士の特徴量同士の内積は、キーワード同士の関連性が大きい程、値が大きくなると仮定できる。そこで、CPU101は、例えば、S212で決定されたキーワード(1)の特徴量であるベクトルと、S212で決定されたキーワード(2)の特徴量であるベクトルと、の内積を、キーワード(1)とキーワード(2)との関連度として決定する。
CPU101は、S209で事業クラスタとして決定されたクラスタそれぞれについて、クラスタ毎に決定されたキーワードの重要度に基づいて、クラスタを代表するキーワードである核キーワードを決定する。CPU101は、例えば、あるクラスタについて決定されたキーワードのうち、重要度が最も高いキーワードを、そのクラスタの核キーワードとして決定する。
また、CPU101は、例えば、S210でクラスタ毎に決定されたスコア値に基づいて、S211でクラスタ毎に決定されたキーワードそれぞれについて、選択団体における重要性を示す重要度を決定してもよい。CPU101は、例えば、S211でクラスタ毎に決定されたキーワードそれぞれについて、S211で決定されたスコア値を、重要度として決定してもよい。
本実施形態では、CPU101は、S209で事業に対応するクラスタとして決定したクラスタを用いて、S210〜S214の処理を行った。これにより、CPU101は、事業以外のクラスタについて、特徴を示すキーワードを決定する処理の負担を軽減できる。しかし、CPU101は、S208でクラスタリングされた全てのクラスタを用いて、S210〜S214の処理を行うこととしてもよい。その場合、CPU101は、S209の処理を行わないこととしてもよい。
本実施形態では、CPU101は、団体群に含まれる全ての団体について、S205〜S214の処理を実行することとする。しかし、CPU101は、団体群に含まれる団体のうち予め定められた団体のみについて、S205〜S214の処理を実行することとしてもよい。その場合、CPU101は、S215で、その予め定められた団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
また、CPU101は、外部の情報処理装置等から、S205〜S214の処理の対象となる団体の指定を受付けることとしてもよい。その場合、CPU101は、団体群に含まれる団体のうち指定された団体のみについて、S205〜S214の処理を実行することとなる。その場合、CPU101は、S215で、指定された団体全てについて、S205〜S214の処理を実行したか否かを判定し、実行したと判定した場合、S216の処理に進み、実行していない団体があると判定した場合、S205の処理に進む。
S216において、CPU101は、団体群に含まれる全ての団体についてS204で抽出されたキーワードそれぞれについて、意味を決定する。CPU101は、例えば、単語の共起性に着目して、その単語の意味を決定する手法であるword2vec、トピックモデル等の手法を用いて、キーワードが持つ潜在的意味を決定する。共起性とは、ある単語と他の単語とが、文書や文等において、同時に出現する傾向を示す性質である。キーワードが持つ潜在的意味は、キーワードが潜在的に有する意味であり、キーワードの意味の一例である。本実施形態では、CPU101は、キーワードそれぞれの潜在的意味を示す情報として、単語の潜在的意味を表現する意味空間におけるキーワードそれぞれに対応するベクトルを取得する。
また、CPU101は、複数の単語の意味を記憶する辞書を用いて、キーワードそれぞれの意味を決定してもよい。S216の処理は、意味決定処理の一例である。
CPU101は、例えば、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードと、団体群に含まれる団体それぞれについてS213で決定されたキーワード同士の関連度と、団体群に含まれる団体それぞれについてS214で決定されたクラスタ毎のキーワードの重要度と、S216で決定された各キーワードの意味と、を示す情報を、特徴情報として生成する。CPU101は、例えば、図8〜10に示すようなテーブルの情報を、特徴情報として生成する。
図8のテーブル800は、団体群に含まれる団体Aについて、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を管理するキーワード管理テーブルである。テーブル800は、「キーワード」、「団体キーワードスコア」、「事業カテゴリ」、「事業キーワードスコア」の項目を含む。「キーワード」の項目は、団体Aについて、S204で抽出された各キーワードを示す。
「団体キーワードスコア」の項目は、対応するキーワードについて、S203で決定されたスコア値を示す。「事業カテゴリ」は、S209で事業カテゴリとして決定されたカテゴリを識別する情報を示す。「事業キーワードスコア」の項目は、対応する事業における対応するキーワードについて、S210で決定されたスコア値を示す。
また、テーブル800におけるキーワード「word15」のように、同じキーワードが、複数の事業それぞれの特徴を示すキーワードとして決定される場合もある。
CPU101は、団体群に含まれる団体それぞれについてS211で決定されたクラスタ毎のキーワードに基づいて、団体群に含まれる団体それぞれについて、キーワードと事業との対応関係を決定し、テーブル800における「キーワード」と「事業カテゴリ」との項目の値を決定する。CPU101は、団体群に含まれる団体それぞれについて、テーブル800と同様のキーワード管理テーブルを生成し、補助記憶装置103に記憶する。
CPU101は、S203で決定されたスコア値に基づいて、「団体キーワードスコア」の項目の値を決定し、S210で決定されたスコア値に基づいて、「事業キーワードスコア」の項目の値を決定する。
また、CPU101は、「団体キーワードスコア」、「事業キーワードスコア」のうち、事業における各キーワードの重要度を示す項目以外の項目をテーブル800に含ませないようにすることとしてもよい。
テーブル900には、団体Aについて、S212でキーワード毎に決定された特徴量の情報が格納されている。S213で説明したように、これらの特徴量の内積は、対応するキーワード同士の関連の度合いを示す。そのため、CPU101は、テーブル900における各キーワードに対応する列が示すベクトル同士の内積を求めることで、キーワード同士の関連の度合いを示す関連度を決定できる。そこで、本実施形態では、CPU101は、S212で決定した特徴量の情報を格納するテーブル900を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶することとする。CPU101は、団体群に含まれる団体それぞれについて、テーブル900と同様に関連性管理テーブルを生成し、補助記憶装置103に記憶する。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度の情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
また、CPU101は、各キーワード同士のS212で決定した特徴量同士の内積を計算し、計算した関連度が予め定められた閾値以上である場合、そのキーワード同士に関連があるとして、計算した関連度が予め定められた閾値未満である場合、そのキーワード同士に関連がないとして、キーワード同士の関連の有無を示す情報を、キーワード同士の関連性を示す情報として生成し、補助記憶装置103に記憶してもよい。
テーブル1000における各キーワードに対応する列は、対応するキーワードの潜在的意味を示すベクトルの各基底の値を示す。CPU101は、S216で各キーワードについて抽出した潜在的意味を示すベクトルに基づいて、テーブル1000の各要素の値を決定する。
キーワード同士の潜在的意味が類似する程、キーワードの潜在的意味を示すベクトル同士も類似する。そのため、キーワードの潜在的意味を示すベクトル同士の内積は、キーワード同士の潜在的意味の類似の度合いを示す指標となる。そこで、CPU101は、テーブル1000における各キーワードに対応する列が示すベクトル同士の内積を、キーワード同士の類似の度合いを示す類似度として決定できる。
その場合、CPU101は、団体群に含まれる団体それぞれについて、図8で説明したテーブル800の項目のうち、「キーワード」、「事業カテゴリ」、の項目を含むテーブルをキーワード管理テーブルとして生成する。また、CPU101は、団体群に含まれる団体それぞれについて、図9で説明した関連性管理テーブルを生成する。
そして、CPU101は、生成したキーワード管理テーブルと、関連性管理テーブルと、を特徴情報として、補助記憶装置103に記憶する。
CPU101は、図2の処理により生成した特徴情報に基づいて、団体の事業毎にキーワードを構造化した画像を生成し、出力することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像の要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像を生成し、生成した画像を要求元に送信することで出力する。要求元の情報処理装置は、受信した画像を表示部に表示することで、団体群に含まれる団体それぞれについて、事業毎にキーワードを構造化した画像をユーザに提示する。
CPU101は、特徴情報から、団体(1)について、クラスタ毎のキーワードと、クラスタ毎のキーワードの重要度と、の情報を格納するキーワード管理テーブルを取得する。そして、CPU101は、例えば、取得したテーブルの「事業カテゴリ」の項目から、団体(1)に含まれる事業を決定する。CPU101は、決定した各事業に対応する「キーワード」の項目から、団体(1)に含まれる各事業について、事業の特徴を示すキーワードを決定する。
団体(1)は、図6で説明したように、キーワード「ベッド」、「寝装品」、「家具」に対応する事業と、キーワード「クリーン」、「エアコン」、「エネルギー」に対応する事業と、キーワード「部品」、「ブレーキ」、「トランスミッション」、「エンジン」に対応する事業と、が含まれている。そのため、CPU101は、3つの事業を決定し、決定した3つの事業それぞれに対応するキーワードとして、「ベッド」、「寝装品」、「家具」と、「クリーン」、「エアコン」、「エネルギー」と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」とを決定する。また、CPU101は、各事業に対応するクラスタを代表する核キーワードとして、「家具」、「エネルギー」、「部品」を決定する。
また、CPU101は、特徴情報から、団体(1)についてキーワード同士の関連性を示す関連性管理テーブルを取得する。そして、CPU101は、取得したテーブルから各キーワードの特徴量を決定し、決定した特徴量同士の内積を求め、各キーワード同士の関連度を決定する。CPU101は、決定した関連度が、予め定められた閾値以上である場合、その関連度に対応する2つのキーワード同士に関連があると決定する。また、CPU101は、決定した関連度が、予め定められた閾値未満である場合、その関連度に対応する2つのキーワード同士に関連がないと決定する。
また、CPU101は、特徴情報から、図10で説明したテーブル1000を取得する。そして、CPU101は、テーブル1000から、団体(1)の各事業のキーワードの潜在的意味を示すベクトルを取得する。
CPU101は、各キーワードを示す楕円形ブロック(以下では、キーワードブロックとする)を、対応する事業を視認できるように画像中に配置する。CPU101は、例えば、同じ事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以下となるように配置し、異なる事業に対応するキーワードブロック同士をお互いの距離が予め定められた値以上となるように配置することで、各キーワードブロックを、対応する事業を視認できるように配置する。また、CPU101は、例えば、画像中に事業それぞれに対応する枠を記載し、各枠内に、その枠が示す事業に対応するキーワードブロックを配置するようにしてもよい。図11の例では、「ベッド」、「寝装品」、「家具」の組と、「クリーン」、「エアコン」、「エネルギー」の組と、「部品」、「ブレーキ」、「トランスミッション」、「エンジン」の組と、がそれぞれ密集している様子が示されている。
また、CPU101は、各キーワード同士の関連の有無に基づいて、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載する。図11の例では、関連のあるキーワードブロック同士をつなぐ線が記載されている様子が示されている。これにより、CPU101は、関連のあるキーワードに対応するキーワードブロック同士を構造化し、各事業の特徴の視認による把握をより容易にすることができる。
図11の例では、CPU101は、同じクラスタに属する関連のあるキーワードに対応するキーワードブロック同士をつなぐ線として実線を記載する。また、CPU101は、異なるクラスタに属する核キーワードに対応するキーワードブロック同士をつなぐ線として破線、二重線等の実線と異なる線を記載する。このように、CPU101は、同じクラスタに属するキーワードに対応するキーワードブロック同士をつなぐ線と異なる線を用いて、各クラスタに属する核キーワードに対応するキーワードブロック同士を接続し構造化することで、全体として団体の特徴を表す構造を表示することができる。図11には、クラスタ内のキーワードブロック同士が実線で繋がれており、クラスタそれぞれの核キーワードである「エネルギー」、「家具」、「部品」同士が破線でつながれている様子が示されている。また、CPU101は、同じ事業に対応するキーワードブロックについてのみ、関連のあるキーワードに対応するキーワードブロック同士をつなぐ線を記載することとしてもよい。その場合、図11の画像における「エネルギー」、「家具」、「部品」それぞれをつなぐ線が記載されないこととなる。
また、CPU101は、各キーワードの潜在的意味に応じて、各キーワードブロックの背景の表示態様(色・模様等)を決定する。キーワードの潜在的意味は、キーワードがどの団体の特徴を示すか、どの事業の特徴を示すか、とは関わりなく決定されている。そのため、団体の別、事業の別、と関わりなく、類似する潜在的意味を持つキーワードのキーワードブロックの背景は、類似する表示態様となる。そのため、CPU101は、異なる団体、異なる事業間における類似する特徴の視認による把握をより容易にできる。
また、CPU101は、外部の情報処理装置から、団体群に含まれる(1つ又は複数の)団体について、事業毎にキーワードを構造化した画像の要求を受信した場合、その(1つ又は複数の)団体についてのみ、事業毎にキーワードを構造化した画像を生成し、出力してもよい。
例えば、情報処理装置100が、ユーザが所属する企業と、その企業の競合他社と、を団体群として、特徴情報を生成したとする。そして、情報処理装置100が、ユーザが所属する企業と、その競合他社と、について、事業毎にキーワードが構造化された画像を生成した画像を生成する。ユーザは、その画像を視認することで、以下のようなことを把握できる。即ち、ユーザは、自社の事業毎にキーワードが構造化された画像を視認することで、自社の特徴を把握できる。また、ユーザは、自社の事業毎にキーワードが構造化された画像と、競合他社の事業毎にキーワードが構造化された画像と、を見比べることで、同一市場・業界の平均的な特徴、自社の強み・弱み、競合の強み・弱み等を把握できる。
また、ユーザは、複数事業を展開している企業についても、その企業のキーワードの構造と、類似したキーワードの構造を有する他の企業を把握することで、その企業が展開している事業をより正確に把握できる。
本実施形態の処理は、事業会社において、企業価値向上を目指す企業の業務(自社・競合・他社把握や、提携先検討等)において活用ができる。また、仲介実施会社において、証券会社におけるM&A先の紹介、銀行におけるビジネスマッチング先紹介、等の業務においても、活用ができる。また、調査研究機関、機関投資家等において、調査研究機関や機関投資家における業界や個社動向調査においても活用ができる。
CPU101は、図2の処理により生成した特徴情報に基づいて、指定された単語と関連のある団体を検索することができる。
CPU101は、例えば、ネットワークI/F104を介して、外部の情報処理装置から、ある単語(例えば「ヘルメット」等)と関連のある団体を検索するよう要求を受信したとする。
その場合、CPU101は、補助記憶装置103から、図2の処理により生成した特徴情報を取得し、取得した特徴情報に基づいて、指定された単語と関連のある団体を団体群から検索し、検索した団体を示す情報を要求元に送信する。
CPU101は、例えば、団体群に含まれる団体それぞれについて生成されたキーワード管理テーブルの「キーワード」の項目から、指定された単語を検索する。そして、CPU101は、検索した「キーワード」に対応する重要度が予め定められた閾値以上である場合、検索した「キーワード」を含む団体を示す情報を、検索結果として要求元に送信する。
CPU101は、特徴情報に含まれる団体群それぞれについて生成された関連性管理テーブルと、テーブル1000とに、基づいて、指定された単語と関連するキーワードと、指定された単語と類似するキーワードと、を検索する。そして、CPU101は、検索したキーワードのリストを、要求元に送信する。要求元の情報処理装置は、受信したキーワードのリストを表示部に表示し、ユーザに提示する。ユーザは、表示されたキーワードのリストから、団体の検索に用いられる(1つ又は複数の)単語を追加で、選択する。要求元の情報処理装置は、ユーザによって選択された単語を情報処理装置100に送信し、初めに送信した単語と、改めて送信した単語と、に関連する団体を検索するよう要求する。
例えば、要求元の情報処理装置は、初めに「ヘルメット」という単語で、団体の検索を行うよう情報処理装置100に要求したとする。その場合、情報処理装置100は、「ヘルメット」に関連するキーワード、類似するキーワードのリストを要求元に送信する。そして、ユーザは、夏場での利用を想定したヘルメットを開発している企業を探したい場合、受信したキーワードのリストから「通気性」という単語を選択する。そして、要求元の情報処理装置は、「通気性」という単語を情報処理装置100に送信し、「ヘルメット」と「通気性」とに関連する団体を検索するよう要求する。以下では、最初に指定された単語(「ヘルメット」)をオリジナル検索ワード、追加で指定された単語(「通気性」)を追加関連ワードとする。
CPU101は、検索した団体について、検索条件にどの程度合致しているかを示す合致スコアを決定する。CPU101は、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度に基づいて、合致スコアを決定する。CPU101は、例えば、検索した団体それぞれについて、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)との重要度が大きい程、値が大きくなるように合致スコアを決定する。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワード(又は追加関連ワードに類似する単語)とに関連性がある団体の合致スコアを、関連性がない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。また、CPU101は、例えば、団体におけるオリジナル検索ワードと追加関連ワードとが、同じ事業クラスタのキーワードとなっている団体の合致スコアを、そうでない団体の合致スコアよりも大きくなるように、合致スコアを決定してもよい。
そして、CPU101は、オリジナル検索ワードと、受信したキーワードが追加された追加関連ワード(又は追加関連ワードに類似する単語)と、に基づいて、同様の処理を繰り返す。これにより、情報処理装置100は、ユーザが望む条件により合致する団体を検索することができる。
CPU101は、例えば、外部の情報処理装置等から、ある団体の指定を受付け、その団体に類似する団体の検索の要求を受付ける。以下では、指定された団体を、オリジナル団体とする。CPU101は例えば、オリジナル団体に含まれるキーワード(以下では、キーワード(A)とする)それぞれについて、オリジナル団体における重要度と、他の団体(以下では、検索先団体とする)における重要度と、の積の和を、オリジナル団体と検索先団体との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先団体に含まれる団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の団体を、オリジナル団体に類似する団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B)とする)について、検索先団体においても単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(B)の重要度と、検索先団体におけるキーワード(B)の重要度と、の積に係数(以下では、第1の係数とする)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第1の係数は、例えば、2等である。このようにすることで、CPU101は、キーワード(B)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A)のうち、オリジナル団体において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C)とする)について、検索先団体においても単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル団体におけるキーワード(C)の重要度と、検索先団体におけるキーワード(C)の重要度と、の積に係数(以下では、第2の係数)を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。第2の係数は、例えば、3等の第1の係数よりも大きな値としてもよい。このようにすることで、CPU101は、キーワード(C)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
CPU101は、例えば、外部の情報処理装置等から、ある団体におけるある事業の指定を受付け、その事業に類似する事業を有する団体の検索の要求を受付ける。以下では、指定された事業を、オリジナル事業とする。CPU101は例えば、オリジナル事業に含まれるキーワード(以下では、キーワード(A’)とする)それぞれについて、オリジナル事業における重要度と、他の団体に含まれる事業(以下では、検索先事業とする)における重要度と、の積の和を、オリジナル事業と検索先事業との類似の度合いを示す類似度スコアとして求める。そして、CPU101は、求めた類似度スコアが高い順に検索先事業を含む団体を並べたリストを生成し、生成したリストを、検索の要求元に送信する。また、CPU101は、類似度スコアが予め定められた閾値以上の事業を含む団体を、オリジナル事業に類似する事業を含む団体として決定し、決定した団体を示す情報を、検索の要求元に送信してもよい。
また、CPU101は、事業構造(各キーワードがどの事業クラスタに所属しているか)を勘案して、類似度スコアを求めてもよい。例えば、CPU101は、キーワード(A’)のうち、単一の事業クラスタに所属しているキーワード(以下では、キーワード(B’)とする)について、検索先事業に対応する単一の事業クラスタに所属している場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(B’)の重要度と、検索先事業におけるキーワード(B’)の重要度と、の積に第1の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(B’)が検索先でも同じ事業クラスタにある場合は、事業構造が類似しているとして、類似度スコアをより高くなるようにすることができる。
また、CPU101は、キーワード間の関連性を勘案して類似度スコアを、求めてもよい。キーワード(A’)のうち、オリジナル事業において単一の事業クラスタに所属しており、かつ、関連度が閾値をこえているキーワード(以下では、キーワード(C’)とする)について、検索先事業に対応する単一の事業クラスタに所属しており関連度がその閾値を超えている場合、以下のようにしてもよい。即ち、CPU101は、オリジナル事業におけるキーワード(C’)の重要度と、検索先事業におけるキーワード(C’)の重要度と、の積に第2の係数を乗じた値を、類似度スコアに加算して、類似度スコアを求めてもよい。このようにすることで、CPU101は、キーワード(C’)が検索先でも同じ事業クラスタにあり、かつ、関連度が閾値を超えている場合は、事業構造が類似しているとして、類似度スコアを、より高くなるようにすることができる。
以上、本実施形態では、情報処理装置100は、団体に関する複数の文書データを含む文書データ群から、団体の特徴を示すキーワードを抽出し、団体に含まれる要素である事業毎にキーワードをグルーピングすることで、各事業の特徴を示すキーワードを決定し、団体の特徴を示すキーワード同士の関連性を決定し、決定した事業毎のキーワードと、キーワード同士の関係性と、に基づいて、団体における事業毎の特徴同士の関係を示す特徴情報を生成した。これにより、情報処理装置100は、団体内にどのような事業があるのかを示す情報を生成することができる。
実施形態1では、情報処理装置100は、単体の情報処理装置であるとした。しかし、情報処理装置100は、ネットワーク(LANやインターネット)を介して相互に通信可能に接続された複数の情報処理装置を含むシステムとして構成されることとしてもよい。その場合、情報処理装置100に含まれる複数の情報処理装置それぞれのCPUが、それぞれの情報処理装置の補助記憶装置に記憶されたプログラムに基づき処理を連携して実行することで、情報処理装置100の機能及び図2のフローチャートの処理、(画像出力処理)、(検索処理)で説明した処理等が実現される。
実施形態1では、情報処理装置100は、団体について、団体に含まれる要素である事業毎の特徴同士の関係を示す特徴情報を生成することとした。しかし、情報処理装置100は、団体以外のオブジェクトについて、オブジェクトに含まれる要素毎に特徴同士の関係を示す特徴情報を生成してもよい。例えば、情報処理装置100は、個人が文書投稿サイト等に投稿した複数の文書データを含む文書データ群から、個人の特徴を示すキーワードを抽出し、文書データ群に含まれる各文書データをクラスタリングし、個人に含まれる要素(性格・趣味等)を示す各クラスタを求め、各クラスタの特徴を示すキーワードを決定し、キーワード同士の関連性を決定し、決定した各クラスタの特徴を示すキーワードと、キーワード同士の関連性と、を示す情報を、特徴情報として生成してもよい。
例えば、上述した情報処理装置100の機能構成の一部又は全てをハードウェアとして情報処理装置100に実装してもよい。
101 CPU
Claims (14)
- オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出手段と、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定手段と、
前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定手段と、
前記抽出手段により抽出されたキーワードの特徴量を決定する第2の特徴量決定手段と、
前記第2の特徴量決定手段により決定された特徴量に基づいて、前記抽出手段により抽出されたキーワード同士の関連性を決定する関連性決定手段と、
前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成手段と、
を有する情報処理装置。 - 前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記単語の前記オブジェクトにおける重要性を示すスコア値を決定する第1のスコア決定手段と、
前記分類手段により前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度に基づいて、前記抽出手段により抽出されたキーワードの前記1つ以上の区分に含まれる区分における重要性を示すスコア値を決定する第2のスコア決定手段と、
を更に有し、
前記抽出手段は、前記第1のスコア決定手段により決定されたスコア値に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記キーワード決定手段は、前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項1記載の情報処理装置。 - 前記第1のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。 - 前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの前記オブジェクトにおける重要性を示す重要度を決定する重要度決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記重要度決定手段により決定された重要度と、に基づいて、前記特徴情報を生成する請求項2記載の情報処理装置。 - 前記第2の特徴量決定手段は、前記第2のスコア決定手段により決定されたスコア値に基づいて、前記抽出手段により抽出されたキーワードの特徴量を決定する請求項2乃至4何れか1項記載の情報処理装置。
- 前記抽出手段は、前記オブジェクト文書データ群における単語の出現頻度と、前記オブジェクトを含む複数のオブジェクトそれぞれに関する複数の文書データ群における単語の希少性と、に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する請求項1乃至5何れか1項記載の情報処理装置。
- 前記第1の特徴量決定手段は、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データにおける前記抽出手段により抽出されたキーワードの重要性を示すスコア値を決定し、決定したスコア値に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴を示すベクトルを決定し、決定したベクトルを次元圧縮し、次元圧縮したベクトルを、前記オブジェクト文書データ群に含まれる文書データの特徴量として決定する請求項1乃至6何れか1項記載の情報処理装置。
- 前記キーワード決定手段は、前記1つ以上の区分に含まれる区分における前記抽出手段により抽出されたキーワードの出現頻度と、前記1つ以上の区分における前記抽出手段により抽出されたキーワードの希少性と、に基づいて、前記抽出手段により抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定する請求項1乃至7何れか1項記載の情報処理装置。
- 前記抽出手段により抽出されたキーワードの意味を決定する意味決定手段を更に有し、
前記生成手段は、前記キーワード決定手段により決定されたキーワードと、前記関連性決定手段により決定された関連性と、前記意味決定手段により決定された意味と、に基づいて、前記特徴情報を生成する請求項1乃至8何れか1項記載の情報処理装置。 - 前記意味決定手段は、前記抽出手段により抽出されたキーワードの潜在的意味を抽出し、抽出した潜在的意味を、前記抽出手段により抽出されたキーワードの意味として決定する請求項9記載の情報処理装置。
- 前記生成手段により生成された前記特徴情報に基づいて、前記オブジェクトにおける要素毎の特徴同士の関係を示す画像を出力する出力手段を更に有する請求項1乃至10何れか1項記載の情報処理装置。
- 前記抽出手段は、企業である前記オブジェクトに関する複数の文書データを含む前記オブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出し、
前記分類手段は、前記第1の特徴量決定手段により決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素である事業にそれぞれ対応する1つ以上の区分に分類する請求項1乃至11何れか1項記載の情報処理装置。 - 情報処理装置が実行する情報処理方法であって、
オブジェクトに関する複数の文書データを含む文書データ群であるオブジェクト文書データ群における単語の出現頻度に基づいて、前記オブジェクト文書データ群から、前記オブジェクトの特徴を示すキーワードを抽出する抽出ステップと、
前記オブジェクト文書データ群に含まれる文書データにおける前記抽出ステップで抽出されたキーワードの出現頻度と、前記オブジェクト文書データ群における前記抽出ステップで抽出されたキーワードの希少性と、に基づいて、前記オブジェクト文書データ群に含まれる文書データの特徴量を決定する第1の特徴量決定ステップと、
前記第1の特徴量決定ステップで決定された特徴量に基づいて、前記オブジェクト文書データ群に含まれる文書データを、前記オブジェクトに含まれる要素にそれぞれ対応する1つ以上の区分に分類する分類ステップと、
前記分類ステップで前記オブジェクト文書データ群に含まれる文書データが分類された前記1つ以上の区分に含まれる区分における前記抽出ステップで抽出されたキーワードの出現頻度に基づいて、前記抽出ステップで抽出されたキーワードから、前記1つ以上の区分に含まれる区分に対応する要素の特徴を示すキーワードを決定するキーワード決定ステップと、
前記抽出ステップで抽出されたキーワードの特徴量を決定する第2の特徴量決定ステップと、
前記第2の特徴量決定ステップで決定された特徴量に基づいて、前記抽出ステップで抽出されたキーワード同士の関連性を決定する関連性決定ステップと、
前記キーワード決定ステップで決定されたキーワードと、前記関連性決定ステップで決定された関連性と、に基づいて前記オブジェクトにおける要素毎の特徴同士の関係を示す特徴情報を生成する生成ステップと、
を含む情報処理方法。 - コンピュータを、請求項1乃至12何れか1項記載の情報処理装置の各手段として、機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017165581A JP6403850B1 (ja) | 2017-08-30 | 2017-08-30 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017165581A JP6403850B1 (ja) | 2017-08-30 | 2017-08-30 | 情報処理装置、情報処理方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6403850B1 JP6403850B1 (ja) | 2018-10-10 |
JP2019045956A true JP2019045956A (ja) | 2019-03-22 |
Family
ID=63788162
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017165581A Active JP6403850B1 (ja) | 2017-08-30 | 2017-08-30 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6403850B1 (ja) |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099445A (ja) * | 2001-09-21 | 2003-04-04 | Telecommunication Advancement Organization Of Japan | 分類キーワード生成方法および分類キーワード生成プログラムと該プログラムを記録した記録媒体 |
JP2003281159A (ja) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | 文書処理装置及び文書処理方法、文書処理プログラム |
JP2003345811A (ja) * | 2002-05-27 | 2003-12-05 | Hitachi Ltd | 文書情報表示システム、文書情報表示方法及び文書検索方法 |
WO2007043593A1 (ja) * | 2005-10-11 | 2007-04-19 | Intellectual Property Bank Corp. | 企業技術文書群分析支援装置 |
JP2007193380A (ja) * | 2006-01-16 | 2007-08-02 | So-Net Entertainment Corp | 情報処理装置,情報処理方法,およびコンピュータプログラム |
JP2010231434A (ja) * | 2009-03-26 | 2010-10-14 | Hitachi East Japan Solutions Ltd | 表示装置、表示方法およびプログラム |
JP2011141801A (ja) * | 2010-01-08 | 2011-07-21 | Internatl Business Mach Corp <Ibm> | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
US20110202886A1 (en) * | 2010-02-13 | 2011-08-18 | Vinay Deolalikar | System and method for displaying documents |
-
2017
- 2017-08-30 JP JP2017165581A patent/JP6403850B1/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099445A (ja) * | 2001-09-21 | 2003-04-04 | Telecommunication Advancement Organization Of Japan | 分類キーワード生成方法および分類キーワード生成プログラムと該プログラムを記録した記録媒体 |
JP2003281159A (ja) * | 2002-03-19 | 2003-10-03 | Fuji Xerox Co Ltd | 文書処理装置及び文書処理方法、文書処理プログラム |
JP2003345811A (ja) * | 2002-05-27 | 2003-12-05 | Hitachi Ltd | 文書情報表示システム、文書情報表示方法及び文書検索方法 |
WO2007043593A1 (ja) * | 2005-10-11 | 2007-04-19 | Intellectual Property Bank Corp. | 企業技術文書群分析支援装置 |
JP2007193380A (ja) * | 2006-01-16 | 2007-08-02 | So-Net Entertainment Corp | 情報処理装置,情報処理方法,およびコンピュータプログラム |
JP2010231434A (ja) * | 2009-03-26 | 2010-10-14 | Hitachi East Japan Solutions Ltd | 表示装置、表示方法およびプログラム |
JP2011141801A (ja) * | 2010-01-08 | 2011-07-21 | Internatl Business Mach Corp <Ibm> | キーワードの時系列解析のための処理方法、並びにその処理システム及びコンピュータ・プログラム |
US20110202886A1 (en) * | 2010-02-13 | 2011-08-18 | Vinay Deolalikar | System and method for displaying documents |
Non-Patent Citations (1)
Title |
---|
渡部勇: "ビジュアルテキストマイニング", 人工知能学会誌, vol. 第16巻 第2号, JPN6007014044, 1 March 2001 (2001-03-01), JP, pages 226 - 232, ISSN: 0003849929 * |
Also Published As
Publication number | Publication date |
---|---|
JP6403850B1 (ja) | 2018-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Shu et al. | Beyond news contents: The role of social context for fake news detection | |
US9589208B2 (en) | Retrieval of similar images to a query image | |
JP5662961B2 (ja) | レビュー処理方法およびシステム | |
US8200695B2 (en) | Database for uploading, storing, and retrieving similar documents | |
JP6381775B2 (ja) | 情報処理システム及び情報処理方法 | |
WO2017013667A1 (en) | Method for product search using the user-weighted, attribute-based, sort-ordering and system thereof | |
US11023503B2 (en) | Suggesting text in an electronic document | |
KR20130056207A (ko) | 관계 정보 확장 장치, 관계 정보 확장 방법, 및 프로그램 | |
Trappey et al. | An R&D knowledge management method for patent document summarization | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
JP2012530963A (ja) | 線形および非線形のランキングモデルを用いるランク付けされた検索結果の生成 | |
US9552415B2 (en) | Category classification processing device and method | |
JP2016018286A (ja) | 行動タイプ判定装置、行動タイプ判定方法及び行動タイプ判定プログラム | |
US20170242851A1 (en) | Non-transitory computer readable medium, information search apparatus, and information search method | |
Soliman et al. | Utilizing support vector machines in mining online customer reviews | |
CN111737607B (zh) | 数据处理方法、装置、电子设备以及存储介质 | |
JP2019200449A (ja) | 案件振分支援システム、案件振分支援装置、及び案件振分支援方法 | |
JP6554306B2 (ja) | 情報処理システム、情報処理方法、およびコンピュータプログラム | |
KR101823463B1 (ko) | 연구자 검색 서비스 제공 장치 및 그 방법 | |
US8886651B1 (en) | Thematic clustering | |
Zhang et al. | Product-oriented review summarization and scoring | |
JP6403850B1 (ja) | 情報処理装置、情報処理方法及びプログラム | |
KR101078978B1 (ko) | 문서 분류 시스템 | |
Pisal et al. | AskUs: An opinion search engine | |
JP6496078B2 (ja) | 分析支援装置、分析支援方法、および分析支援プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180720 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180821 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180911 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6403850 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |