JP2016218512A

JP2016218512A - 情報処理装置及び情報処理プログラム

Info

Publication number: JP2016218512A
Application number: JP2015099128A
Authority: JP
Inventors: 竜示狩野; Ryuji Kano
Original assignee: Fuji Xerox Co Ltd
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-05-14
Filing date: 2015-05-14
Publication date: 2016-12-22
Anticipated expiration: 2035-05-14
Also published as: US20160335249A1; JP6524790B2

Abstract

【課題】各々課題が記された複数の文章の中に、どのような課題がどの程度含まれているかを集計する際、１段階のクラスタリングにより形成されたクラスタに含まれる形態素を用いて課題を抽出する場合と比較して、より具体的な課題を抽出することができる情報処理装置及び情報処理プログラムを提供する。【解決手段】複数の文章に含まれる複数の形態素の関連性を示す共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する形成手段４２と、形成手段４２により形成された複数のクラスタの各々から、相互の関連性を示す予め定めた条件を満たす複数の形態素を含むサブグラフを抽出する抽出手段４４と、を備える。【選択図】図３

Description

本発明は、情報処理装置及び情報処理プログラムに関する。

特許文献１には、少なくとも２個以上の文書集合から特徴的な情報を抽出するテキストマイニング方法において、前記２個以上の文書集合から同時に出現する語の組を抽出し、前記部分文書集合毎に前記抽出された語の組の中から特徴的な語の組を抽出することを特徴とするテキストマイニング方法が開示されている。

特許文献２には、複数の文書からなる文書群からキーワードを抽出する装置であって、前記文書群のデータから索引語を抽出する索引語抽出手段と、前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段と、前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出手段と、前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリング手段と、前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出手段と、前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置が開示されている。

特許文献３には、入力したテキストを分類するテキスト分類装置であって、前記テキストを、複数の大カテゴリのうちのいずれかに分類する第１分類手段と、前記テキストを、前記第１分類手段の分類結果に応じた複数の小カテゴリのうちのいずれかに更に分類する第２分類手段と、を有し、前記第１分類手段は、前記テキストを、前記テキストに含まれるキーワードの出現頻度に基づき算出される大カテゴリとの関連度が最大となる大カテゴリに分類する、関連度解析法によって分類を行い、前記第２分類手段は、前記テキストから特定の係り受け関係にある形態素の係り受け組を抽出し、前記テキストを、前記第１分類手段で分類された大カテゴリに対応する複数の小カテゴリのうち、前記抽出した係り受け組に対応する小カテゴリに分類する、係り受け解析法によって分類を行うことを特徴とするテキスト分類装置が開示されている。

特開２００２−１８３１７５号公報ＷＯ０６／４８９９８号公報特開２００８−２２５５８２号公報

本発明は、各々課題が記された複数の文章の中に、どのような課題がどの程度含まれているかを集計する際、１段階のクラスタリングにより形成されたクラスタに含まれる形態素を用いて課題を抽出する場合と比較して、より具体的な課題を抽出することができる情報処理装置及び情報処理プログラムを提供することを目的とする。

請求項１に係る情報処理装置は、複数の文章に含まれる複数の形態素の関連性を示す共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する形成手段と、前記形成手段により形成された前記複数のクラスタの各々から、相互の関連性を示す予め定めた条件を満たす複数の形態素を含むサブグラフを抽出する抽出手段と、を備える。

請求項２に係る情報処理装置は、請求項１記載の発明において、前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が異なる形態素については、元の共起の強さよりも共起の強さを強めた前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する。

請求項３に係る情報処理装置は、請求項１又は２記載の発明において、前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が同じ形態素のエッジを除去した前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する。

請求項４に係る情報処理装置は、請求項１〜３の何れか１項記載の発明において、前記予め定めた条件を満たす複数の形態素は、前記共起ネットワークにおいて全ての形態素が相互に結合している複数の形態素である。

請求項５に係る情報処理装置は、請求項１〜４の何れか１項記載の発明において、前記予め定めた条件を満たす複数の形態素は、前記複数の形態素間のエッジの重みの平均値あるいは最低値が予め定めた第１閾値以上である複数の形態素である。

請求項６に係る情報処理装置は、請求項１〜５の何れか１項記載の発明において、前記予め定めた条件を満たす複数の形態素は、前記複数の形態素のノードの次数の平均値あるいは最低値が予め定めた第２閾値以上である複数の形態素をサブグラフとして抽出する。

請求項７に係る情報処理装置は、請求項１〜６の何れか１項記載の発明において、前記抽出手段により抽出される前記サブグラフに含まれる形態素の数を指定する指定手段を更に備え、前記抽出手段は、前記指定手段により指定された数の形態素を含むサブグラフを抽出する。

請求項８に係る情報処理装置は、請求項１〜７の何れか１項記載の発明において、前記クラスタを上位層とし、前記クラスタから抽出された前記サブグラフを前記クラスタの下位層とした階層構造の情報を記憶する記憶手段を更に備える。

請求項９に係る情報処理装置は、請求項８記載の発明において、前記記憶手段は、前記クラスタに含まれる形態素のうち形態素の重要度を表す指標値が最大となる形態素をクラスタ名として前記階層構造の情報を記憶する。

請求項１０に係る情報処理装置は、請求項１〜９の何れか１項記載の発明において、前記抽出手段により抽出された前記サブグラフに含まれる形態素と、前記複数の文章に含まれる形態素とを対応付ける対応付け手段を更に備える。

請求項１１に係る情報処理装置は、請求項１０記載の発明において、前記抽出手段により抽出された前記サブグラフに含まれる形態素の属性値に応じて、前記サブグラフに属する前記文章の数を集計する集計手段を更に備える。

請求項１２に係る情報処理プログラムは、コンピュータを、請求項１〜１１の何れか１項に記載の情報処理装置を構成する各手段として機能させる。

請求項１、１２の発明によれば、各々課題が記された複数の文章の中に、どのような課題がどの程度含まれているかを集計する際、１段階のクラスタリングにより形成されたクラスタに含まれる形態素を用いて課題を抽出する場合と比較して、より具体的な課題を抽出することができる。

請求項２の発明によれば、品詞を考慮せずに作成した共起ネットワークを作成する場合と比較して、共起ネットワークを精度良く作成することができる。

請求項３の発明によれば、品詞を考慮せずに作成した共起ネットワークを作成する場合と比較して、共起の強さを誤認してしまうことを防止することができる。

請求項４の発明によれば、相互に結合していない複数の形態素をサブグラフに含める場合と比較して、より有意義な課題を抽出することができる。

請求項５の発明によれば、エッジの重みを考慮せずにサブグラフを抽出する場合と比較して、より有意義な課題を抽出することができる。

請求項６の発明によれば、ノードの次数を考慮せずにサブグラフを抽出する場合と比較して、より有意義な課題を抽出することができる。

請求項７の発明によれば、サブグラフに含まれる形態素の数を固定とする場合と比較して、曖昧な課題が抽出されることを防止することができる。

請求項８の発明によれば、抽出したサブグラフを並列な情報として記憶する場合と比較して、課題を認識しやすくすることができる。

請求項９の発明によれば、クラスタ名を付さない場合と比較して、クラスタ名から下位層に含まれる課題を推測することができる。

請求項１０の発明によれば、サブグラフに含まれる形態素と文章に含まれる形態素とを対応付けない場合と比較して、課題に対応する文章の数を集計することができる。

請求項１１の発明によれば、属性値以外の情報を用いてサブグラフに属する文章の数を集計する場合と比較して、精度良くサブグラフに属する文章の数を集計することができる。

実施形態に係る情報処理装置の電気的な構成を示すブロック図である。実施形態に係る情報処理装置の機能的な構成を示すブロック図である。実施形態に係る複数の文章の一例を示す模式図である。実施形態に係る共起ネットワークの一例を示す模式図である。実施形態に係る共起ネットワークから形成されたクラスタの一例を示す模式図である。実施形態に係るクラスタから抽出されるサブグラフの一例を示す模式図である。実施形態に係る階層構造の情報の一例を示す模式図である。実施形態に係る集計処理のプログラムの処理の流れを示すフローチャートである。実施形態に係るサブグラフ抽出処理のプログラムのルーチン処理の流れを示すフローチャートである。

以下、添付図面を参照して、本実施形態に係る情報処理装置について説明する。

図１に示すように、本実施形態に係る情報処理装置１０は、装置全体を制御するコントローラ１２を備えている。また、コントローラ１２は、後述する集計処理及びサブグラフ抽出を含む各種処理を実行するＣＰＵ（Central Processing Unit）１４、及び、ＣＰＵ１４の処理に使用されるプログラム及び各種情報を記憶するＲＯＭ（Read Only Memory）１６を備えている。また、コントローラ１２は、ＣＰＵ１４の作業領域として一時的に各種データを記憶するＲＡＭ（Random Access Memory）１８、及び、ＣＰＵ１４の処理に使用される各種情報を記憶する不揮発性メモリ２０を備えている。更に、コントローラ１２は、情報処理装置１０に接続された外部装置に対するデータの入出力を行うＩ／Ｏインタフェース２２を備えている。Ｉ／Ｏインタフェース２２には、ユーザにより操作される操作部２４、各種情報を表示する表示部２６、及び、外部装置との通信を行う通信部２８が接続されている。

また、不揮発性メモリ２０には複数のユーザにより作成された複数の文章を含む文章群を示す文章情報が記憶されている。この文章情報は、例えば、複数のユーザが各々保有するクライアント端末から受信して不揮発性メモリ２０に記憶した文章情報である。また、これらの複数の文章の各々には課題が含まれている。本実施形態では、以下のようにして、各々の文章に含まれる課題を分析し、文章群にどのような課題がどの程度含まれるかを集計する。

まず、本実施形態に係る情報処理装置１０は、文章群に含まれる複数の形態素の関連性を示す共起ネットワークを作成し、作成した共起ネットワークから各々関連する複数の形態素を含む複数のクラスタを形成する。このクラスタは、複数の文章の各々に含まれていることが予想される大まかな課題を表している。

また、本実施形態に係る情報処理装置１０は、形成した複数のクラスタの各々から、相互の関連性を示す予め定めた条件（後述する第３の条件）を満たす複数の形態素を含むサブグラフを抽出する。このサブグラフは、複数の文章の各々に含まれていることが予想される具体的な課題を表している。

さらに、本実施形態に係る情報処理装置１０は、抽出したサブグラフに含まれる形態素と、文章群に含まれる形態素とを対応付け、サブグラフに含まれる形態素の属性値を用いて、サブグラフに対応する文章の数を集計する。

このように、本実施形態に係る情報処理装置１０は、文章群に含まれる複数の形態素を、大まかな課題を表すクラスタ、及び具体的な課題を表すサブグラフの２段階でクラスタリングする。これにより、文章群から、複数の文章の各々に含まれていることが予想される、より具体的な課題が抽出される。また、本実施形態に係る情報処理装置１０は、具体的な課題を表すサブグラフに対応する文章の数を集計する。これにより、本実施形態に係る情報処理装置１０では、文章群において、より具体的な課題についてどの程度含まれるかが集計される。

そのために、本実施形態に係る情報処理装置１０は、図２に示すように、形態素分解部３２、共起関係計算部３４、クラスタ形成部４２、サブグラフ抽出部４４、及び、対応付け部４６を備えている。また、共起関係計算部３４は、頻度計算部３６、不要エッジ除去部３８、及び、エッジ重み付け部４０を備えている。なお、これらの各部は、ＣＰＵ１４の制御により実現される。

形態素分解部３２は、上述した文章情報を取得し、取得した文章情報によって示される文章群に含まれる複数の文章の各々を形態素に分解する。文章群５０には、一例として図３に示すように、「ＦＡＸで送信したのですが、…」の文章５０Ａ、「ＦＡＸで文書を受信したところ、…」の文章５０Ｂ、「ＦＡＸをペーパーレスで使用し、…」の文章５０Ｃ等が含まれる。形態素分解部３２は、一例として「ＦＡＸで送信したのですが、…」の文章５０Ａを取得した場合、この文章を、名詞「ＦＡＸ」、助詞「で」、動詞「送信した」、助詞「の」、助動詞「です」、接続詞「が」等の複数の形態素に分解する。

本実施形態では、公知のＭｅＣａｂの手法を用いて形態素分解を行うが、形態素分解の方法はこれに限らず、ＪＵＭＡＮ、Ｋｕｒｏｍｏｊｉ、Ｃｈａｓｅｎ等、任意の公知の手法を用いて良い。

また、形態素分解部３２は、分解した形態素のうち、特定の品詞のみの形態素を抽出する。なお、本実施形態では、特定の品詞を名詞、形容詞、及び動詞とする。一例として図３に示すように、形態素分解部３２は、「ＦＡＸで送信したのですが、…」の文章５０Ａから、名詞「ＦＡＸ」、動詞「送信」（活用語幹）を抽出する。なお、本実施形態では、分解した形態素のうち、名詞、形容詞、及び動詞を抽出するが、抽出する品詞はこれに限らず、名詞、形容詞、及び動詞のうちの１つまたは２つの品詞を抽出しても良く、他の品詞を抽出するようにしても良い。

頻度計算部３６は、出現頻度の計算対象とする２つの形態素が、文章群における予め定めた領域内に同時に出現する回数を出現頻度として計算する。しかし、出現頻度の計算方法はこれに限らず、計算対象とする２つの形態素が、複数の文章における予め定めた領域内に同時に出現する回数を、全ての２つの形態素の組み合わせが複数の文章内に含まれる回数で割った値を出現頻度として計算しても良い。なお、この出現頻度は、２つの形態素の共起の強さを表している。また、本実施形態では、予め定めた領域を、下記（ａ）及び（ｂ）の何れか一方とする。

（ａ）文章群における少なくとも一部の領域（ただし、１つの文章を１単位とする。）
（ｂ）文章群における予め定めた距離（例えば、間に挟まれる単語数が１０個以下となる距離）内

また、共起関係計算部３４は、一例として図４に示すように、各々の形態素の共起関係に基づいて、抽出した形態素をノード５２とし、共起関係にある形態素をエッジ５４で結合させた共起ネットワーク５６を作成する。なお、２つの形態素について計算した出現頻度が、関連性がある値として予め定めた閾値以上である場合、これらの形態素を共起関係にあるとする。

図４に示す例では、「ＦＡＸ」のノード５２と「送信」のノード５２、「ＦＡＸ」のノード５２と「受信」のノード５２等がエッジ５４で結合されている。なお、共起ネットワーク５６を作成する方法としては、公知の方法が適用可能であり、例えば公知のＫＨＣｏｄｅｒ、又は、下記の参考文献１乃至３に記載の方法が用いられる。

（参考文献１）特開２００９−９３６５５号公報
（参考文献２）特開２００２−１８３１７５号公報
（参考文献３）ＷＯ０６／０４８９９８号公報

不要エッジ除去部３８は、共起関係計算部３４により作成された共起ネットワークにおいて、相互に結合している２つの形態素が予め定めた第１の条件を満たす場合、これらの形態素のエッジを除去する。本実施形態では、第１の条件を、下記（ｃ）及び（ｄ）の少なくとも１つとする。

（ｃ）集合間類似度を表すＪａｃｃａｒｄ係数、複数の単語が同一文章内で出現する頻度の強さを表すＳｉｍｐｓｏｎ係数、集合間類似度を表すＣｏｓｉｎ距離、又は、２つの確率変数の相互依存の尺度を表す相互情報量が、関連性がない範囲として予め定めた範囲内である場合
（ｄ）相互に結合する複数の形態素の品詞が同じである場合

なお、エッジを除去する方法としては、公知の方法が適用され、例えば下記の参考文献４に記載の方法が用いられる。

（参考文献４）特開２００９−１４０２６３号公報

本実施形態では、上記（ｄ）において、複数の形態素の品詞が同じである場合としているが、これに限らず、複数の形態素の品詞が共に特定の品詞（例えば、動詞）である場合、としても良い。

また、本実施形態では、相互に結合している２つの形態素が上述した第１の条件を満たす場合、これらの形態素のエッジを除去するが、これに限らず、これらの形態素の共起の強さを弱くしても良い。この場合には、頻度計算部３６で計算された出現頻度を例えば２分の１にすることで、複数の形態素のエッジの強さを弱くすると良い。

エッジ重み付け部４０は、共起関係計算部３４により作成された共起ネットワークにおいて、相互に結合している複数の形態素が予め定めた第２の条件を満たす場合、これらの形態素のエッジの強さ、すなわち共起の強さを強くする。本実施形態では、頻度計算部３６で計算された出現頻度を例えば２倍にすることで、複数の形態素のエッジの強さを強くする。また、本実施形態では、第２の条件を、下記（ｅ）及び（ｆ）の少なくとも１つとする。

（ｅ）集合間類似度を表すＪａｃｃａｒｄ係数、複数の単語が同一文章内で出現する頻度の強さを表すＳｉｍｐｓｏｎ係数、集合間類似度を表すＣｏｓｉｎ距離、又は、２つの確率変数の相互依存の尺度を表す相互情報量が、関連性がない範囲として予め定めた範囲内である場合
（ｆ）相互に結合する複数の形態素の品詞が異なる場合

本実施形態では、上記（ｆ）において、複数の形態素の品詞が異なる場合としているが、これに限らず、複数の形態素の品詞が特定の品詞の組み合わせ（例えば、名詞と動詞）である場合にこれらの形態素のエッジの強さを強くしても良い。

クラスタ形成部４２は、一例として図５に示すように、計算した出現頻度に基づいて、共起ネットワーク５６に含まれる各形態素を、各々関連する複数の形態素を含む複数のクラスタ５８Ａ乃至５０Ｄ（以下、まとめてクラスタ５８ともいう。）に分類する。このようにして、クラスタ形成部４２は、複数のクラスタ５８を形成する。図５に示す例では、「ＦＡＸ」のノード５２、「文書」のノード５２、「受信」のノード５２、「送信」のノード５２、「ペーパーレス」のノード５２の５つのノード５２を含むクラスタ５８Ａ等が形成される。

本実施形態では、形態素の各々を他のクラスタと重複させずに複数のクラスタ５８を形成する公知の手法である、Ｍｏｄｕｌａｒｉｔｙの手法を用いてクラスタリングを行う。これにより、クラスタリングに要する時間が短縮される。なお、クラスタリングの方法としては、公知の方法が適用可能であり、例えば、Ｈａｍｉｌｔｏｎｉａｎ、Ｇｉｒｖａｎ−Ｎｅｗｍａｎ、Ｃｌｉｑｕｅｐｅｒｃｏｌａｔｉｏｎ、Ｒａｎｄｏｍｗａｌｋ等の手法を用いても良い。

サブグラフ抽出部４４は、形成された複数のクラスタの各々から、相互の関連性を示す予め定めた第３の条件を満たす複数の形態素を含むサブグラフを抽出する。本実施形態では、第３の条件を、下記（ｇ）乃至（ｉ）の少なくとも１つとする。これにより、形態素の各々は、他のクラスタと重複しつつ複数のサブグラフに分類される。また、これにより、より具体的な課題が抽出される。

（ｇ）共起ネットワークにおいて全ての形態素が相互に結合している複数の形態素
（ｈ）相互に結合している複数の形態素間のエッジの重みの平均値、あるいは最低値が、関連性がある値として予め定めた第１閾値以上である複数の形態素
（ｉ）相互に結合している複数の形態素のノードの次数の平均値、あるいは最低値が、関連性がある値として予め定めた第２閾値以上である複数の形態素

図６に示す例では、クラスタ５８Ａから、「ＦＡＸ」のノード５２と「ペーパーレス」のノード５２とを含むサブグラフ６０Ａ、及び「ＦＡＸ」のノード５２と「文書」のノード５２と「受信」のノード５２とを含むサブグラフ６０Ｂが抽出される。また、クラスタ５８から、「ＦＡＸ」のノード５２と「送信」のノード５２とを含むサブグラフ６０Ｃ、及び「ＦＡＸ」のノード５２と「受信」のノード５２とを含むサブグラフ６０Ｄが抽出される。

また、サブグラフ抽出部４４は、クラスタを上位層とし、このクラスタに含まれるサブグラフを下位層とした階層構造の情報を作成し、不揮発性メモリ２０に記憶する。この際、サブグラフ抽出部４４は、クラスタに含まれる形態素であって、予め定めた第４の条件を満たす形態素をクラスタ名とする。なお、本実施形態では、第４の条件を、下記（ｊ）とする。

（ｊ）形態素の重要度を表す指標値が最大となる形態素

一例として図７に示すように、階層構造の情報においては、クラスタ名が「ＦＡＸ」のクラスタ５８Ａの下位層として、複数のサブクラス６０Ａ乃至６０Ｄが対応付けられる。これにより、このクラスタ５８Ａが「ＦＡＸ」に関する課題を含んでいることが認識可能となると共に、大まかな課題を表すクラスタ、及び、より具体的な課題を表すサブグラフの各々について、対応する文章の数が集計される。

本実施形態では、上記（ｊ）において、形態素の重要度を表す物理量が最大となる１つの形態素をクラスタ名とする場合について説明したが、これに限らず、形態素の重要度を表す物理量が最大となる複数の形態素を組み合わせたものをクラスタ名としても良い。

また、本実施形態では、形態素の重要度を示す指標値として、例えば、下記（１）式で表されるｔｆ−ｉｄｆ値を用いる。下記（１）式におけるｆ_ｊは形態素ｗ_ｊの複数の文章における出現回数、ｍは文章の総数、ｍ_ｊは形態素ｗ_ｊを含む文章の数である。なお、ｔｆ−ｉｄｆ値は、形態素の出現頻度であるｔｆと、逆文書頻度であるｉｄｆとの積であり、ｔｆ−ｉｄｆ値が高い程、形態素の重要度が高くなり、ｔｆ−ｉｄｆ値が低い程、形態素の重要度が低くなる指標値である。

対応付け部４６は、予め定めた第５の条件を満たしている、抽出されたサブグラフに含まれる形態素と、複数の文章に含まれる形態素とを対応付ける。なお、この対応付けは、サブグラフに含まれる形態素と文章に含まれる形態素との対応度が予め定めた条件（例えば、下記の第５の条件）を満たした場合に行う。対応度の算出方法としては、公知の方法が適用され、例えば下記の参考文献５に記載の方法が用いられる。

（参考文献５）特開２００８−２２５５８２号公報

また、対応付け部４６は、複数の文章のうち、サブグラフに対応する文章の数を集計する。本実施形態では、まず、対応付け部４６は、文章とサブグラフとの対応度を計算し、計算した対応度に基づいて文章とサブグラフとを対応付ける。この際、対応付け部４６は、文章とサブグラフの対応度の初期値を０とし、文章に含まれる形態素に、サブグラフに含まれる形態素が２つ以上含まれている場合、それらの形態素の属性値を対応度に加算していくことにより、文章とサブグラフとの対応度を計算する。そして、対応付け部４６は、文章とサブグラフとの対応度が第５の条件を満たす場合に、その文章とそのサブグラフとが対応しているとする。

本実施形態では、上記第５の条件を、下記（ｌ）とする。なお、本実施形態では、サブグラフに含まれる形態素の属性値を、この形態素に対応付けられた文章の数とするが、これに限らず、上述したｔｆ−ｉｄｆ値としても良い。

（ｌ）文章とサブグラフとの対応度が、関連性がある値として予め定めた第３の閾値以上である場合

なお、文章の数を集計する方法としては、公知の方法が適用され、例えば下記の参考文献６に記載の方法が用いられる。

（参考文献６）特開２００８−２２５５８２号公報

次に、本実施形態に係る情報処理装置１０のＣＰＵ１４が実行する集計処理を行う際の処理の流れを、図８に示すフローチャートを参照して説明する。

なお、本実施形態では、集計処理のプログラムは予め不揮発性メモリ２０に記憶されているが、これに限らない。例えば、集計処理のプログラムは、外部装置から通信部２８を介して受信して実行されても良い。また、ＣＤ−ＲＯＭ等の記録媒体に記録された集計処理のプログラムがＣＤ−ＲＯＭドライブ等でＩ／Ｏインタフェース２２を介して読み込まれることにより、集計処理が実行されるようにしてもよい。

本実施形態では、集計処理のプログラムは、操作部２４により実行の指示が入力された場合に実行されるが、実行されるタイミングはこれに限らず、一定期間が経過する毎に実行されても良い。

ステップＳ１０１では、形態素分解部３２が、複数の文章を示す文章情報を取得する。本実施形態では、不揮発性メモリ２０に記憶されている文章情報を取得するが、文章情報の取得方法はこれに限らず、文章情報を外部サーバから取得しても良い。

ステップＳ１０３では、形態素分解部３２が、取得した文章情報によって示される複数の文章を複数の形態素に分解する。

ステップＳ１０５では、形態素分解部３２が、分解した形態素から抽出した形態素をノードとし、共起関係のある形態素をエッジで結合させた共起ネットワークを作成する。

ステップＳ１０７では、頻度計算部３６が、形態素の組み合わせの各々について、計算対象とする２つの形態素が上記予め定めた領域内に同時に出現する出現頻度を計算する。

ステップＳ１０９では、不要エッジ除去部３８が、共起ネットワークにおいて相互に結合している複数の形態素が上記第１の条件を満たす複数の形態素のエッジを除去する。

ステップＳ１１１では、エッジ重み付け部４０が、共起ネットワークにおいて、相互に結合している複数の形態素が上記第２の条件を満たす複数の形態素のエッジの強さを強くする。

ステップＳ１１３では、クラスタ形成部４２が、共起ネットワークに含まれる各形態素を、各々関連する複数の形態素を含む複数のクラスタに分類し、複数のクラスタを形成する。

ステップＳ１１５では、サブグラフ抽出部４４が、形成された複数のクラスタの各々から、上記第３の条件を満たす複数の形態素を含むサブグラフを抽出するサブグラフ抽出処理を行う。

ここで、サブグラフ抽出部４４がサブグラフ抽出処理を行う際のルーチン処理の流れを、図９に示すフローチャートを参照して説明する。

ステップＳ２０１では、ステップＳ１１３で形成した複数のクラスタのうち、１つのクラスタを選択する。

ステップＳ２０３では、サブグラフに含める形態素の数を指定する形態素数情報を取得する。本実施形態では、形態素数情報が不揮発性メモリ２０に予め記憶されており、サブグラフ抽出部４４は、不揮発性メモリ２０から形態素数情報を取得する。しかしながら、形態素数情報の取得方法はこれに限らず、形態素数情報が操作部２４により入力されても良い。なお、サブグラフに含める形態素の数は、課題が曖昧にならない値として予め定めた閾値以下とすることが望ましく、本実施形態では、５つ以下である。

ステップＳ２０５では、選択したクラスタから、指定された数の形態素の組み合わせを取得する。

ステップＳ２０７では、取得した形態素の組み合わせが、全てのノードが相互に結合した形態素であるか否かを判定する。ステップＳ２０７で全てのノードが相互に結合した形態素であると判定した場合はステップＳ２１３に移行し、全てのノードが相互に結合した形態素ではないと判定した場合はステップＳ２０９に移行する。

ステップＳ２０９では、取得した形態素の組み合わせにおいて、各エッジの重みの平均値が上記第１閾値以上であるか否かを判定する。ステップＳ２０９で各エッジの重みの平均値が上記第１閾値以上であると判定した場合はステップＳ２１３に移行し、各エッジの重みの平均値が上記第１閾値より小さいと判定した場合はステップＳ２１１に移行する。

ステップＳ２１１では、取得した形態素の組み合わせにおいて、各ノードの次数の平均値が上記第２閾値以上であるか否かを判定する。ステップＳ２１１で各ノードの次数の平均値が上記第２閾値以上であると判定した場合はステップＳ２１３に移行し、各ノードの次数の平均値が上記第２閾値より小さいと判定した場合はステップＳ２１５に移行する。

ステップＳ２１３では、取得した形態素の組み合わせをサブグラフとして抽出する。

ステップＳ２１５では、未処理の形態素の組み合わせ、すなわち、上記ステップＳ２０７乃至Ｓ２１３の処理を行っていない形態素の組み合わせがあるか否かを判定する。ステップＳ２１５で未処理の形態素の組み合わせがないと判定した場合はステップＳ２１７に移行する。また、ステップＳ２１５で未処理の形態素の組み合わせがあると判定した場合は、ステップＳ２０５に戻って、未処理の形態素の組み合わせについてステップＳ２０５乃至Ｓ２１３の処理を行う。

ステップＳ２１７では、未処理のクラスタ、すなわち、ステップＳ２０１乃至Ｓ２１５の処理を行っていないクラスタがあるか否かを判定する。ステップＳ２１７で未処理のクラスタがあると判定した場合はステップＳ２０１に戻って、未処理のクラスタについて、ステップＳ２０１乃至Ｓ２１５の処理を行う。また、ステップＳ２１７で未処理のクラスタがないと判定した場合は、本サブグラフ抽出処理のルーチンプログラムを終了する。

図８のステップＳ１１７では、サブグラフ抽出部４４が、抽出したサブグラフを不揮発性メモリ２０に記憶する。

ステップＳ１１９では、対応付け部４６が、抽出されたサブグラフに含まれる形態素と、複数の文章に含まれる形態素とを対応付ける。

ステップＳ１２１では、対応付け部４６が、サブグラフに対応付けられた文章の数を集計する。

ステップＳ１２３では、対応付け部４６が、集計結果を表示部２６に表示すると共に、不揮発性メモリ２０に記憶し、本集計処理プログラムの実行を終了する。

このように、本実施形態に係る情報処理装置１０は、文章群に含まれる複数の形態素を、大まかな課題を表すクラスタ、及び具体的な課題を表すサブグラフの２段階でクラスタリングするため、文章群から、より具体的な課題が抽出される。また、本実施形態に係る情報処理装置１０は、具体的な課題を表すサブグラフに対応する文章の数を集計するため、文章群において、より具体的な課題についてどの程度含まれるかが集計される。

１０装置
１２コントローラ
１４ＣＰＵ
１６ＲＯＭ
１８ＲＡＭ
２０不揮発性メモリ
２２Ｉ／Ｏインタフェース
２４操作部
２６表示部
２８通信部
３２形態素分解部
３４共起関係計算部
４２クラスタ形成部
４４サブグラフ抽出部
４６対応付け部

Claims

複数の文章に含まれる複数の形態素の関連性を示す共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する形成手段と、
前記形成手段により形成された前記複数のクラスタの各々から、相互の関連性を示す予め定めた条件を満たす複数の形態素を含むサブグラフを抽出する抽出手段と、
を備えた情報処理装置。
前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が異なる形態素については、元の共起の強さよりも共起の強さを強めた前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する
請求項１記載の情報処理装置。
前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が同じ形態素のエッジを除去した前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する
請求項１又は２記載の情報処理装置。
前記予め定めた条件を満たす複数の形態素は、前記共起ネットワークにおいて全ての形態素が相互に結合している複数の形態素である
請求項１〜３の何れか１項記載の情報処理装置。
前記予め定めた条件を満たす複数の形態素は、前記複数の形態素間のエッジの重みの平均値あるいは最低値が予め定めた第１閾値以上である複数の形態素である
請求項１〜４の何れか１項記載の情報処理装置。
前記予め定めた条件を満たす複数の形態素は、前記複数の形態素のノードの次数の平均値あるいは最低値が予め定めた第２閾値以上である複数の形態素をサブグラフとして抽出する
請求項１〜５の何れか１項記載の情報処理装置。
前記抽出手段により抽出される前記サブグラフに含まれる形態素の数を指定する指定手段を更に備え、
前記抽出手段は、前記指定手段により指定された数の形態素を含むサブグラフを抽出する
請求項１〜６の何れか１項記載の情報処理装置。
前記クラスタを上位層とし、前記クラスタから抽出された前記サブグラフを前記クラスタの下位層とした階層構造の情報を記憶する記憶手段を更に備えた
請求項１〜７の何れか１項記載の情報処理装置。
前記記憶手段は、前記クラスタに含まれる形態素のうち形態素の重要度を表す指標値が最大となる形態素をクラスタ名として前記階層構造の情報を記憶する
請求項８記載の情報処理装置。
前記抽出手段により抽出された前記サブグラフに含まれる形態素と、前記複数の文章に含まれる形態素とを対応付ける対応付け手段を更に備えた
請求項１〜９の何れか１項記載の情報処理装置。
前記抽出手段により抽出された前記サブグラフに含まれる形態素の属性値に応じて、前記サブグラフに属する前記文章の数を集計する集計手段を更に備えた
請求項１０記載の情報処理装置。
コンピュータを、請求項１〜１１の何れか１項記載の情報処理装置を構成する各手段として機能させるための情報処理プログラム。