JP2016218512A - 情報処理装置及び情報処理プログラム - Google Patents

情報処理装置及び情報処理プログラム Download PDF

Info

Publication number
JP2016218512A
JP2016218512A JP2015099128A JP2015099128A JP2016218512A JP 2016218512 A JP2016218512 A JP 2016218512A JP 2015099128 A JP2015099128 A JP 2015099128A JP 2015099128 A JP2015099128 A JP 2015099128A JP 2016218512 A JP2016218512 A JP 2016218512A
Authority
JP
Japan
Prior art keywords
morphemes
information processing
subgraph
processing apparatus
morpheme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015099128A
Other languages
English (en)
Other versions
JP6524790B2 (ja
Inventor
竜示 狩野
Ryuji Kano
竜示 狩野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2015099128A priority Critical patent/JP6524790B2/ja
Priority to US14/919,927 priority patent/US20160335249A1/en
Publication of JP2016218512A publication Critical patent/JP2016218512A/ja
Application granted granted Critical
Publication of JP6524790B2 publication Critical patent/JP6524790B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】各々課題が記された複数の文章の中に、どのような課題がどの程度含まれているかを集計する際、1段階のクラスタリングにより形成されたクラスタに含まれる形態素を用いて課題を抽出する場合と比較して、より具体的な課題を抽出することができる情報処理装置及び情報処理プログラムを提供する。【解決手段】複数の文章に含まれる複数の形態素の関連性を示す共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する形成手段42と、形成手段42により形成された複数のクラスタの各々から、相互の関連性を示す予め定めた条件を満たす複数の形態素を含むサブグラフを抽出する抽出手段44と、を備える。【選択図】図3

Description

本発明は、情報処理装置及び情報処理プログラムに関する。
特許文献1には、少なくとも2個以上の文書集合から特徴的な情報を抽出するテキストマイニング方法において、前記2個以上の文書集合から同時に出現する語の組を抽出し、前記部分文書集合毎に前記抽出された語の組の中から特徴的な語の組を抽出することを特徴とするテキストマイニング方法が開示されている。
特許文献2には、複数の文書からなる文書群からキーワードを抽出する装置であって、 前記文書群のデータから索引語を抽出する索引語抽出手段と、前記索引語の各々につき前記文書群における出現頻度の高さを評価に含む重みを算出し、当該重みの大きい索引語である高頻度語を抽出する高頻度語抽出手段と、前記高頻度語の各々と前記索引語の各々との文書単位での共起有無に基づいて、前記高頻度語の各々と前記索引語の各々との前記文書群における共起度を算出する高頻度語−索引語共起度算出手段と、前記算出された共起度に基づいて前記高頻度語を分類しクラスタを生成するクラスタリング手段と、前記索引語のうち、より多くの前記クラスタに属する高頻度語と共起し、且つより多くの文書において前記高頻度語と共起するものを、より高く評価したスコアを個々の索引語につき算出するスコア算出手段と、前記算出されたスコアに基づいてキーワードを抽出するキーワード抽出手段と、を備えたキーワード抽出装置が開示されている。
特許文献3には、入力したテキストを分類するテキスト分類装置であって、前記テキストを、複数の大カテゴリのうちのいずれかに分類する第1分類手段と、前記テキストを、前記第1分類手段の分類結果に応じた複数の小カテゴリのうちのいずれかに更に分類する第2分類手段と、を有し、前記第1分類手段は、前記テキストを、前記テキストに含まれるキーワードの出現頻度に基づき算出される大カテゴリとの関連度が最大となる大カテゴリに分類する、関連度解析法によって分類を行い、前記第2分類手段は、前記テキストから特定の係り受け関係にある形態素の係り受け組を抽出し、前記テキストを、前記第1分類手段で分類された大カテゴリに対応する複数の小カテゴリのうち、前記抽出した係り受け組に対応する小カテゴリに分類する、係り受け解析法によって分類を行うことを特徴とするテキスト分類装置が開示されている。
特開2002−183175号公報 WO06/48998号公報 特開2008−225582号公報
本発明は、各々課題が記された複数の文章の中に、どのような課題がどの程度含まれているかを集計する際、1段階のクラスタリングにより形成されたクラスタに含まれる形態素を用いて課題を抽出する場合と比較して、より具体的な課題を抽出することができる情報処理装置及び情報処理プログラムを提供することを目的とする。
請求項1に係る情報処理装置は、複数の文章に含まれる複数の形態素の関連性を示す共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する形成手段と、前記形成手段により形成された前記複数のクラスタの各々から、相互の関連性を示す予め定めた条件を満たす複数の形態素を含むサブグラフを抽出する抽出手段と、を備える。
請求項2に係る情報処理装置は、請求項1記載の発明において、前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が異なる形態素については、元の共起の強さよりも共起の強さを強めた前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する。
請求項3に係る情報処理装置は、請求項1又は2記載の発明において、前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が同じ形態素のエッジを除去した前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する。
請求項4に係る情報処理装置は、請求項1〜3の何れか1項記載の発明において、前記予め定めた条件を満たす複数の形態素は、前記共起ネットワークにおいて全ての形態素が相互に結合している複数の形態素である。
請求項5に係る情報処理装置は、請求項1〜4の何れか1項記載の発明において、前記予め定めた条件を満たす複数の形態素は、前記複数の形態素間のエッジの重みの平均値あるいは最低値が予め定めた第1閾値以上である複数の形態素である。
請求項6に係る情報処理装置は、請求項1〜5の何れか1項記載の発明において、前記予め定めた条件を満たす複数の形態素は、前記複数の形態素のノードの次数の平均値あるいは最低値が予め定めた第2閾値以上である複数の形態素をサブグラフとして抽出する。
請求項7に係る情報処理装置は、請求項1〜6の何れか1項記載の発明において、前記抽出手段により抽出される前記サブグラフに含まれる形態素の数を指定する指定手段を更に備え、前記抽出手段は、前記指定手段により指定された数の形態素を含むサブグラフを抽出する。
請求項8に係る情報処理装置は、請求項1〜7の何れか1項記載の発明において、前記クラスタを上位層とし、前記クラスタから抽出された前記サブグラフを前記クラスタの下位層とした階層構造の情報を記憶する記憶手段を更に備える。
請求項9に係る情報処理装置は、請求項8記載の発明において、前記記憶手段は、前記クラスタに含まれる形態素のうち形態素の重要度を表す指標値が最大となる形態素をクラスタ名として前記階層構造の情報を記憶する。
請求項10に係る情報処理装置は、請求項1〜9の何れか1項記載の発明において、前記抽出手段により抽出された前記サブグラフに含まれる形態素と、前記複数の文章に含まれる形態素とを対応付ける対応付け手段を更に備える。
請求項11に係る情報処理装置は、請求項10記載の発明において、前記抽出手段により抽出された前記サブグラフに含まれる形態素の属性値に応じて、前記サブグラフに属する前記文章の数を集計する集計手段を更に備える。
請求項12に係る情報処理プログラムは、コンピュータを、請求項1〜11の何れか1項に記載の情報処理装置を構成する各手段として機能させる。
請求項1、12の発明によれば、各々課題が記された複数の文章の中に、どのような課題がどの程度含まれているかを集計する際、1段階のクラスタリングにより形成されたクラスタに含まれる形態素を用いて課題を抽出する場合と比較して、より具体的な課題を抽出することができる。
請求項2の発明によれば、品詞を考慮せずに作成した共起ネットワークを作成する場合と比較して、共起ネットワークを精度良く作成することができる。
請求項3の発明によれば、品詞を考慮せずに作成した共起ネットワークを作成する場合と比較して、共起の強さを誤認してしまうことを防止することができる。
請求項4の発明によれば、相互に結合していない複数の形態素をサブグラフに含める場合と比較して、より有意義な課題を抽出することができる。
請求項5の発明によれば、エッジの重みを考慮せずにサブグラフを抽出する場合と比較して、より有意義な課題を抽出することができる。
請求項6の発明によれば、ノードの次数を考慮せずにサブグラフを抽出する場合と比較して、より有意義な課題を抽出することができる。
請求項7の発明によれば、サブグラフに含まれる形態素の数を固定とする場合と比較して、曖昧な課題が抽出されることを防止することができる。
請求項8の発明によれば、抽出したサブグラフを並列な情報として記憶する場合と比較して、課題を認識しやすくすることができる。
請求項9の発明によれば、クラスタ名を付さない場合と比較して、クラスタ名から下位層に含まれる課題を推測することができる。
請求項10の発明によれば、サブグラフに含まれる形態素と文章に含まれる形態素とを対応付けない場合と比較して、課題に対応する文章の数を集計することができる。
請求項11の発明によれば、属性値以外の情報を用いてサブグラフに属する文章の数を集計する場合と比較して、精度良くサブグラフに属する文章の数を集計することができる。
実施形態に係る情報処理装置の電気的な構成を示すブロック図である。 実施形態に係る情報処理装置の機能的な構成を示すブロック図である。 実施形態に係る複数の文章の一例を示す模式図である。 実施形態に係る共起ネットワークの一例を示す模式図である。 実施形態に係る共起ネットワークから形成されたクラスタの一例を示す模式図である。 実施形態に係るクラスタから抽出されるサブグラフの一例を示す模式図である。 実施形態に係る階層構造の情報の一例を示す模式図である。 実施形態に係る集計処理のプログラムの処理の流れを示すフローチャートである。 実施形態に係るサブグラフ抽出処理のプログラムのルーチン処理の流れを示すフローチャートである。
以下、添付図面を参照して、本実施形態に係る情報処理装置について説明する。
図1に示すように、本実施形態に係る情報処理装置10は、装置全体を制御するコントローラ12を備えている。また、コントローラ12は、後述する集計処理及びサブグラフ抽出を含む各種処理を実行するCPU(Central Processing Unit)14、及び、CPU14の処理に使用されるプログラム及び各種情報を記憶するROM(Read Only Memory)16を備えている。また、コントローラ12は、CPU14の作業領域として一時的に各種データを記憶するRAM(Random Access Memory)18、及び、CPU14の処理に使用される各種情報を記憶する不揮発性メモリ20を備えている。更に、コントローラ12は、情報処理装置10に接続された外部装置に対するデータの入出力を行うI/Oインタフェース22を備えている。I/Oインタフェース22には、ユーザにより操作される操作部24、各種情報を表示する表示部26、及び、外部装置との通信を行う通信部28が接続されている。
また、不揮発性メモリ20には複数のユーザにより作成された複数の文章を含む文章群を示す文章情報が記憶されている。この文章情報は、例えば、複数のユーザが各々保有するクライアント端末から受信して不揮発性メモリ20に記憶した文章情報である。また、これらの複数の文章の各々には課題が含まれている。本実施形態では、以下のようにして、各々の文章に含まれる課題を分析し、文章群にどのような課題がどの程度含まれるかを集計する。
まず、本実施形態に係る情報処理装置10は、文章群に含まれる複数の形態素の関連性を示す共起ネットワークを作成し、作成した共起ネットワークから各々関連する複数の形態素を含む複数のクラスタを形成する。このクラスタは、複数の文章の各々に含まれていることが予想される大まかな課題を表している。
また、本実施形態に係る情報処理装置10は、形成した複数のクラスタの各々から、相互の関連性を示す予め定めた条件(後述する第3の条件)を満たす複数の形態素を含むサブグラフを抽出する。このサブグラフは、複数の文章の各々に含まれていることが予想される具体的な課題を表している。
さらに、本実施形態に係る情報処理装置10は、抽出したサブグラフに含まれる形態素と、文章群に含まれる形態素とを対応付け、サブグラフに含まれる形態素の属性値を用いて、サブグラフに対応する文章の数を集計する。
このように、本実施形態に係る情報処理装置10は、文章群に含まれる複数の形態素を、大まかな課題を表すクラスタ、及び具体的な課題を表すサブグラフの2段階でクラスタリングする。これにより、文章群から、複数の文章の各々に含まれていることが予想される、より具体的な課題が抽出される。また、本実施形態に係る情報処理装置10は、具体的な課題を表すサブグラフに対応する文章の数を集計する。これにより、本実施形態に係る情報処理装置10では、文章群において、より具体的な課題についてどの程度含まれるかが集計される。
そのために、本実施形態に係る情報処理装置10は、図2に示すように、形態素分解部32、共起関係計算部34、クラスタ形成部42、サブグラフ抽出部44、及び、対応付け部46を備えている。また、共起関係計算部34は、頻度計算部36、不要エッジ除去部38、及び、エッジ重み付け部40を備えている。なお、これらの各部は、CPU14の制御により実現される。
形態素分解部32は、上述した文章情報を取得し、取得した文章情報によって示される文章群に含まれる複数の文章の各々を形態素に分解する。文章群50には、一例として図3に示すように、「FAXで送信したのですが、…」の文章50A、「FAXで文書を受信したところ、…」の文章50B、「FAXをペーパーレスで使用し、…」の文章50C等が含まれる。形態素分解部32は、一例として「FAXで送信したのですが、…」の文章50Aを取得した場合、この文章を、名詞「FAX」、助詞「で」、動詞「送信した」、助詞「の」、助動詞「です」、接続詞「が」等の複数の形態素に分解する。
本実施形態では、公知のMeCabの手法を用いて形態素分解を行うが、形態素分解の方法はこれに限らず、JUMAN、Kuromoji、Chasen等、任意の公知の手法を用いて良い。
また、形態素分解部32は、分解した形態素のうち、特定の品詞のみの形態素を抽出する。なお、本実施形態では、特定の品詞を名詞、形容詞、及び動詞とする。一例として図3に示すように、形態素分解部32は、「FAXで送信したのですが、…」の文章50Aから、名詞「FAX」、動詞「送信」(活用語幹)を抽出する。なお、本実施形態では、分解した形態素のうち、名詞、形容詞、及び動詞を抽出するが、抽出する品詞はこれに限らず、名詞、形容詞、及び動詞のうちの1つまたは2つの品詞を抽出しても良く、他の品詞を抽出するようにしても良い。
頻度計算部36は、出現頻度の計算対象とする2つの形態素が、文章群における予め定めた領域内に同時に出現する回数を出現頻度として計算する。しかし、出現頻度の計算方法はこれに限らず、計算対象とする2つの形態素が、複数の文章における予め定めた領域内に同時に出現する回数を、全ての2つの形態素の組み合わせが複数の文章内に含まれる回数で割った値を出現頻度として計算しても良い。なお、この出現頻度は、2つの形態素の共起の強さを表している。また、本実施形態では、予め定めた領域を、下記(a)及び(b)の何れか一方とする。
(a)文章群における少なくとも一部の領域(ただし、1つの文章を1単位とする。)
(b)文章群における予め定めた距離(例えば、間に挟まれる単語数が10個以下となる距離)内
また、共起関係計算部34は、一例として図4に示すように、各々の形態素の共起関係に基づいて、抽出した形態素をノード52とし、共起関係にある形態素をエッジ54で結合させた共起ネットワーク56を作成する。なお、2つの形態素について計算した出現頻度が、関連性がある値として予め定めた閾値以上である場合、これらの形態素を共起関係にあるとする。
図4に示す例では、「FAX」のノード52と「送信」のノード52、「FAX」のノード52と「受信」のノード52等がエッジ54で結合されている。なお、共起ネットワーク56を作成する方法としては、公知の方法が適用可能であり、例えば公知のKH Coder、又は、下記の参考文献1乃至3に記載の方法が用いられる。
(参考文献1)特開2009−93655号公報
(参考文献2)特開2002−183175号公報
(参考文献3)WO06/048998号公報
不要エッジ除去部38は、共起関係計算部34により作成された共起ネットワークにおいて、相互に結合している2つの形態素が予め定めた第1の条件を満たす場合、これらの形態素のエッジを除去する。本実施形態では、第1の条件を、下記(c)及び(d)の少なくとも1つとする。
(c)集合間類似度を表すJaccard係数、複数の単語が同一文章内で出現する頻度の強さを表すSimpson係数、集合間類似度を表すCosin距離、又は、2つの確率変数の相互依存の尺度を表す相互情報量が、関連性がない範囲として予め定めた範囲内である場合
(d)相互に結合する複数の形態素の品詞が同じである場合
なお、エッジを除去する方法としては、公知の方法が適用され、例えば下記の参考文献4に記載の方法が用いられる。
(参考文献4)特開2009−140263号公報
本実施形態では、上記(d)において、複数の形態素の品詞が同じである場合としているが、これに限らず、複数の形態素の品詞が共に特定の品詞(例えば、動詞)である場合、としても良い。
また、本実施形態では、相互に結合している2つの形態素が上述した第1の条件を満たす場合、これらの形態素のエッジを除去するが、これに限らず、これらの形態素の共起の強さを弱くしても良い。この場合には、頻度計算部36で計算された出現頻度を例えば2分の1にすることで、複数の形態素のエッジの強さを弱くすると良い。
エッジ重み付け部40は、共起関係計算部34により作成された共起ネットワークにおいて、相互に結合している複数の形態素が予め定めた第2の条件を満たす場合、これらの形態素のエッジの強さ、すなわち共起の強さを強くする。本実施形態では、頻度計算部36で計算された出現頻度を例えば2倍にすることで、複数の形態素のエッジの強さを強くする。また、本実施形態では、第2の条件を、下記(e)及び(f)の少なくとも1つとする。
(e)集合間類似度を表すJaccard係数、複数の単語が同一文章内で出現する頻度の強さを表すSimpson係数、集合間類似度を表すCosin距離、又は、2つの確率変数の相互依存の尺度を表す相互情報量が、関連性がない範囲として予め定めた範囲内である場合
(f)相互に結合する複数の形態素の品詞が異なる場合
本実施形態では、上記(f)において、複数の形態素の品詞が異なる場合としているが、これに限らず、複数の形態素の品詞が特定の品詞の組み合わせ(例えば、名詞と動詞)である場合にこれらの形態素のエッジの強さを強くしても良い。
クラスタ形成部42は、一例として図5に示すように、計算した出現頻度に基づいて、共起ネットワーク56に含まれる各形態素を、各々関連する複数の形態素を含む複数のクラスタ58A乃至50D(以下、まとめてクラスタ58ともいう。)に分類する。このようにして、クラスタ形成部42は、複数のクラスタ58を形成する。図5に示す例では、「FAX」のノード52、「文書」のノード52、「受信」のノード52、「送信」のノード52、「ペーパーレス」のノード52の5つのノード52を含むクラスタ58A等が形成される。
本実施形態では、形態素の各々を他のクラスタと重複させずに複数のクラスタ58を形成する公知の手法である、Modularityの手法を用いてクラスタリングを行う。これにより、クラスタリングに要する時間が短縮される。なお、クラスタリングの方法としては、公知の方法が適用可能であり、例えば、Hamiltonian、Girvan−Newman、Clique percolation、Random walk等の手法を用いても良い。
サブグラフ抽出部44は、形成された複数のクラスタの各々から、相互の関連性を示す予め定めた第3の条件を満たす複数の形態素を含むサブグラフを抽出する。本実施形態では、第3の条件を、下記(g)乃至(i)の少なくとも1つとする。これにより、形態素の各々は、他のクラスタと重複しつつ複数のサブグラフに分類される。また、これにより、より具体的な課題が抽出される。
(g)共起ネットワークにおいて全ての形態素が相互に結合している複数の形態素
(h)相互に結合している複数の形態素間のエッジの重みの平均値、あるいは最低値が、関連性がある値として予め定めた第1閾値以上である複数の形態素
(i)相互に結合している複数の形態素のノードの次数の平均値、あるいは最低値が、関連性がある値として予め定めた第2閾値以上である複数の形態素
図6に示す例では、クラスタ58Aから、「FAX」のノード52と「ペーパーレス」のノード52とを含むサブグラフ60A、及び「FAX」のノード52と「文書」のノード52と「受信」のノード52とを含むサブグラフ60Bが抽出される。また、クラスタ58から、「FAX」のノード52と「送信」のノード52とを含むサブグラフ60C、及び「FAX」のノード52と「受信」のノード52とを含むサブグラフ60Dが抽出される。
また、サブグラフ抽出部44は、クラスタを上位層とし、このクラスタに含まれるサブグラフを下位層とした階層構造の情報を作成し、不揮発性メモリ20に記憶する。この際、サブグラフ抽出部44は、クラスタに含まれる形態素であって、予め定めた第4の条件を満たす形態素をクラスタ名とする。なお、本実施形態では、第4の条件を、下記(j)とする。
(j)形態素の重要度を表す指標値が最大となる形態素
一例として図7に示すように、階層構造の情報においては、クラスタ名が「FAX」のクラスタ58Aの下位層として、複数のサブクラス60A乃至60Dが対応付けられる。これにより、このクラスタ58Aが「FAX」に関する課題を含んでいることが認識可能となると共に、大まかな課題を表すクラスタ、及び、より具体的な課題を表すサブグラフの各々について、対応する文章の数が集計される。
本実施形態では、上記(j)において、形態素の重要度を表す物理量が最大となる1つの形態素をクラスタ名とする場合について説明したが、これに限らず、形態素の重要度を表す物理量が最大となる複数の形態素を組み合わせたものをクラスタ名としても良い。
また、本実施形態では、形態素の重要度を示す指標値として、例えば、下記(1)式で表されるtf−idf値を用いる。下記(1)式におけるfは形態素wの複数の文章における出現回数、mは文章の総数、mは形態素wを含む文章の数である。なお、tf−idf値は、形態素の出現頻度であるtfと、逆文書頻度であるidfとの積であり、tf−idf値が高い程、形態素の重要度が高くなり、tf−idf値が低い程、形態素の重要度が低くなる指標値である。
Figure 2016218512
対応付け部46は、予め定めた第5の条件を満たしている、抽出されたサブグラフに含まれる形態素と、複数の文章に含まれる形態素とを対応付ける。なお、この対応付けは、サブグラフに含まれる形態素と文章に含まれる形態素との対応度が予め定めた条件(例えば、下記の第5の条件)を満たした場合に行う。対応度の算出方法としては、公知の方法が適用され、例えば下記の参考文献5に記載の方法が用いられる。
(参考文献5)特開2008−225582号公報
また、対応付け部46は、複数の文章のうち、サブグラフに対応する文章の数を集計する。本実施形態では、まず、対応付け部46は、文章とサブグラフとの対応度を計算し、計算した対応度に基づいて文章とサブグラフとを対応付ける。この際、対応付け部46は、文章とサブグラフの対応度の初期値を0とし、文章に含まれる形態素に、サブグラフに含まれる形態素が2つ以上含まれている場合、それらの形態素の属性値を対応度に加算していくことにより、文章とサブグラフとの対応度を計算する。そして、対応付け部46は、文章とサブグラフとの対応度が第5の条件を満たす場合に、その文章とそのサブグラフとが対応しているとする。
本実施形態では、上記第5の条件を、下記(l)とする。なお、本実施形態では、サブグラフに含まれる形態素の属性値を、この形態素に対応付けられた文章の数とするが、これに限らず、上述したtf−idf値としても良い。
(l)文章とサブグラフとの対応度が、関連性がある値として予め定めた第3の閾値以上である場合
なお、文章の数を集計する方法としては、公知の方法が適用され、例えば下記の参考文献6に記載の方法が用いられる。
(参考文献6)特開2008−225582号公報
次に、本実施形態に係る情報処理装置10のCPU14が実行する集計処理を行う際の処理の流れを、図8に示すフローチャートを参照して説明する。
なお、本実施形態では、集計処理のプログラムは予め不揮発性メモリ20に記憶されているが、これに限らない。例えば、集計処理のプログラムは、外部装置から通信部28を介して受信して実行されても良い。また、CD−ROM等の記録媒体に記録された集計処理のプログラムがCD−ROMドライブ等でI/Oインタフェース22を介して読み込まれることにより、集計処理が実行されるようにしてもよい。
本実施形態では、集計処理のプログラムは、操作部24により実行の指示が入力された場合に実行されるが、実行されるタイミングはこれに限らず、一定期間が経過する毎に実行されても良い。
ステップS101では、形態素分解部32が、複数の文章を示す文章情報を取得する。本実施形態では、不揮発性メモリ20に記憶されている文章情報を取得するが、文章情報の取得方法はこれに限らず、文章情報を外部サーバから取得しても良い。
ステップS103では、形態素分解部32が、取得した文章情報によって示される複数の文章を複数の形態素に分解する。
ステップS105では、形態素分解部32が、分解した形態素から抽出した形態素をノードとし、共起関係のある形態素をエッジで結合させた共起ネットワークを作成する。
ステップS107では、頻度計算部36が、形態素の組み合わせの各々について、計算対象とする2つの形態素が上記予め定めた領域内に同時に出現する出現頻度を計算する。
ステップS109では、不要エッジ除去部38が、共起ネットワークにおいて相互に結合している複数の形態素が上記第1の条件を満たす複数の形態素のエッジを除去する。
ステップS111では、エッジ重み付け部40が、共起ネットワークにおいて、相互に結合している複数の形態素が上記第2の条件を満たす複数の形態素のエッジの強さを強くする。
ステップS113では、クラスタ形成部42が、共起ネットワークに含まれる各形態素を、各々関連する複数の形態素を含む複数のクラスタに分類し、複数のクラスタを形成する。
ステップS115では、サブグラフ抽出部44が、形成された複数のクラスタの各々から、上記第3の条件を満たす複数の形態素を含むサブグラフを抽出するサブグラフ抽出処理を行う。
ここで、サブグラフ抽出部44がサブグラフ抽出処理を行う際のルーチン処理の流れを、図9に示すフローチャートを参照して説明する。
ステップS201では、ステップS113で形成した複数のクラスタのうち、1つのクラスタを選択する。
ステップS203では、サブグラフに含める形態素の数を指定する形態素数情報を取得する。本実施形態では、形態素数情報が不揮発性メモリ20に予め記憶されており、サブグラフ抽出部44は、不揮発性メモリ20から形態素数情報を取得する。しかしながら、形態素数情報の取得方法はこれに限らず、形態素数情報が操作部24により入力されても良い。なお、サブグラフに含める形態素の数は、課題が曖昧にならない値として予め定めた閾値以下とすることが望ましく、本実施形態では、5つ以下である。
ステップS205では、選択したクラスタから、指定された数の形態素の組み合わせを取得する。
ステップS207では、取得した形態素の組み合わせが、全てのノードが相互に結合した形態素であるか否かを判定する。ステップS207で全てのノードが相互に結合した形態素であると判定した場合はステップS213に移行し、全てのノードが相互に結合した形態素ではないと判定した場合はステップS209に移行する。
ステップS209では、取得した形態素の組み合わせにおいて、各エッジの重みの平均値が上記第1閾値以上であるか否かを判定する。ステップS209で各エッジの重みの平均値が上記第1閾値以上であると判定した場合はステップS213に移行し、各エッジの重みの平均値が上記第1閾値より小さいと判定した場合はステップS211に移行する。
ステップS211では、取得した形態素の組み合わせにおいて、各ノードの次数の平均値が上記第2閾値以上であるか否かを判定する。ステップS211で各ノードの次数の平均値が上記第2閾値以上であると判定した場合はステップS213に移行し、各ノードの次数の平均値が上記第2閾値より小さいと判定した場合はステップS215に移行する。
ステップS213では、取得した形態素の組み合わせをサブグラフとして抽出する。
ステップS215では、未処理の形態素の組み合わせ、すなわち、上記ステップS207乃至S213の処理を行っていない形態素の組み合わせがあるか否かを判定する。ステップS215で未処理の形態素の組み合わせがないと判定した場合はステップS217に移行する。また、ステップS215で未処理の形態素の組み合わせがあると判定した場合は、ステップS205に戻って、未処理の形態素の組み合わせについてステップS205乃至S213の処理を行う。
ステップS217では、未処理のクラスタ、すなわち、ステップS201乃至S215の処理を行っていないクラスタがあるか否かを判定する。ステップS217で未処理のクラスタがあると判定した場合はステップS201に戻って、未処理のクラスタについて、ステップS201乃至S215の処理を行う。また、ステップS217で未処理のクラスタがないと判定した場合は、本サブグラフ抽出処理のルーチンプログラムを終了する。
図8のステップS117では、サブグラフ抽出部44が、抽出したサブグラフを不揮発性メモリ20に記憶する。
ステップS119では、対応付け部46が、抽出されたサブグラフに含まれる形態素と、複数の文章に含まれる形態素とを対応付ける。
ステップS121では、対応付け部46が、サブグラフに対応付けられた文章の数を集計する。
ステップS123では、対応付け部46が、集計結果を表示部26に表示すると共に、不揮発性メモリ20に記憶し、本集計処理プログラムの実行を終了する。
このように、本実施形態に係る情報処理装置10は、文章群に含まれる複数の形態素を、大まかな課題を表すクラスタ、及び具体的な課題を表すサブグラフの2段階でクラスタリングするため、文章群から、より具体的な課題が抽出される。また、本実施形態に係る情報処理装置10は、具体的な課題を表すサブグラフに対応する文章の数を集計するため、文章群において、より具体的な課題についてどの程度含まれるかが集計される。
10 装置
12 コントローラ
14 CPU
16 ROM
18 RAM
20 不揮発性メモリ
22 I/Oインタフェース
24 操作部
26 表示部
28 通信部
32 形態素分解部
34 共起関係計算部
42 クラスタ形成部
44 サブグラフ抽出部
46 対応付け部

Claims (12)

  1. 複数の文章に含まれる複数の形態素の関連性を示す共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する形成手段と、
    前記形成手段により形成された前記複数のクラスタの各々から、相互の関連性を示す予め定めた条件を満たす複数の形態素を含むサブグラフを抽出する抽出手段と、
    を備えた情報処理装置。
  2. 前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が異なる形態素については、元の共起の強さよりも共起の強さを強めた前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する
    請求項1記載の情報処理装置。
  3. 前記形成手段は、前記共起ネットワークにおいて相互に結合している形態素であって、品詞が同じ形態素のエッジを除去した前記共起ネットワークから、各々関連する複数の形態素を含む複数のクラスタを形成する
    請求項1又は2記載の情報処理装置。
  4. 前記予め定めた条件を満たす複数の形態素は、前記共起ネットワークにおいて全ての形態素が相互に結合している複数の形態素である
    請求項1〜3の何れか1項記載の情報処理装置。
  5. 前記予め定めた条件を満たす複数の形態素は、前記複数の形態素間のエッジの重みの平均値あるいは最低値が予め定めた第1閾値以上である複数の形態素である
    請求項1〜4の何れか1項記載の情報処理装置。
  6. 前記予め定めた条件を満たす複数の形態素は、前記複数の形態素のノードの次数の平均値あるいは最低値が予め定めた第2閾値以上である複数の形態素をサブグラフとして抽出する
    請求項1〜5の何れか1項記載の情報処理装置。
  7. 前記抽出手段により抽出される前記サブグラフに含まれる形態素の数を指定する指定手段を更に備え、
    前記抽出手段は、前記指定手段により指定された数の形態素を含むサブグラフを抽出する
    請求項1〜6の何れか1項記載の情報処理装置。
  8. 前記クラスタを上位層とし、前記クラスタから抽出された前記サブグラフを前記クラスタの下位層とした階層構造の情報を記憶する記憶手段を更に備えた
    請求項1〜7の何れか1項記載の情報処理装置。
  9. 前記記憶手段は、前記クラスタに含まれる形態素のうち形態素の重要度を表す指標値が最大となる形態素をクラスタ名として前記階層構造の情報を記憶する
    請求項8記載の情報処理装置。
  10. 前記抽出手段により抽出された前記サブグラフに含まれる形態素と、前記複数の文章に含まれる形態素とを対応付ける対応付け手段を更に備えた
    請求項1〜9の何れか1項記載の情報処理装置。
  11. 前記抽出手段により抽出された前記サブグラフに含まれる形態素の属性値に応じて、前記サブグラフに属する前記文章の数を集計する集計手段を更に備えた
    請求項10記載の情報処理装置。
  12. コンピュータを、請求項1〜11の何れか1項記載の情報処理装置を構成する各手段として機能させるための情報処理プログラム。
JP2015099128A 2015-05-14 2015-05-14 情報処理装置及び情報処理プログラム Expired - Fee Related JP6524790B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015099128A JP6524790B2 (ja) 2015-05-14 2015-05-14 情報処理装置及び情報処理プログラム
US14/919,927 US20160335249A1 (en) 2015-05-14 2015-10-22 Information processing apparatus, information processing method, and non-transitory computer readable medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2015099128A JP6524790B2 (ja) 2015-05-14 2015-05-14 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
JP2016218512A true JP2016218512A (ja) 2016-12-22
JP6524790B2 JP6524790B2 (ja) 2019-06-05

Family

ID=57277203

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015099128A Expired - Fee Related JP6524790B2 (ja) 2015-05-14 2015-05-14 情報処理装置及び情報処理プログラム

Country Status (2)

Country Link
US (1) US20160335249A1 (ja)
JP (1) JP6524790B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019021232A (ja) * 2017-07-21 2019-02-07 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2019117484A (ja) * 2017-12-27 2019-07-18 株式会社日立社会情報サービス テキストマイニング装置およびテキストマイニング方法
KR20190110428A (ko) * 2018-03-20 2019-09-30 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6852941B1 (ja) * 2019-05-17 2021-03-31 株式会社アイエクセス クラスタ解析方法、クラスタ解析システム、及びクラスタ解析プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032394A (ja) * 2000-07-18 2002-01-31 Ricoh Co Ltd 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置
JP2009140263A (ja) * 2007-12-06 2009-06-25 Nec Corp 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010044637A (ja) * 2008-08-14 2010-02-25 Just Syst Corp データ処理装置、方法、及びプログラム
US8560477B1 (en) * 2010-10-08 2013-10-15 Google Inc. Graph-based semi-supervised learning of structured tagging models
US9336186B1 (en) * 2013-10-10 2016-05-10 Google Inc. Methods and apparatus related to sentence compression

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002032394A (ja) * 2000-07-18 2002-01-31 Ricoh Co Ltd 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
WO2006048998A1 (ja) * 2004-11-05 2006-05-11 Intellectual Property Bank Corp. キーワード抽出装置
JP2009140263A (ja) * 2007-12-06 2009-06-25 Nec Corp 用語共起度抽出装置、用語共起度抽出方法及び用語共起度抽出プログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019021232A (ja) * 2017-07-21 2019-02-07 富士通株式会社 情報処理装置、情報処理方法および情報処理プログラム
JP2019117484A (ja) * 2017-12-27 2019-07-18 株式会社日立社会情報サービス テキストマイニング装置およびテキストマイニング方法
JP7064871B2 (ja) 2017-12-27 2022-05-11 株式会社日立社会情報サービス テキストマイニング装置およびテキストマイニング方法
KR20190110428A (ko) * 2018-03-20 2019-09-30 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치
KR102162779B1 (ko) 2018-03-20 2020-10-07 가부시키가이샤 스크린 홀딩스 텍스트 마이닝 방법, 텍스트 마이닝 프로그램, 및 텍스트 마이닝 장치

Also Published As

Publication number Publication date
US20160335249A1 (en) 2016-11-17
JP6524790B2 (ja) 2019-06-05

Similar Documents

Publication Publication Date Title
WO2017097231A1 (zh) 话题处理方法及装置
US10095685B2 (en) Phrase pair collecting apparatus and computer program therefor
US9965459B2 (en) Providing contextual information associated with a source document using information from external reference documents
US20170075983A1 (en) Subject-matter analysis of tabular data
US20160189057A1 (en) Computer implemented system and method for categorizing data
Quispe et al. Using virtual edges to improve the discriminability of co-occurrence text networks
Lou et al. Multilabel subject-based classification of poetry
CN111090731A (zh) 基于主题聚类的电力舆情摘要提取优化方法及系统
CN108520007B (zh) 万维网网页信息提取方法、存储介质及计算机设备
JP6524790B2 (ja) 情報処理装置及び情報処理プログラム
JP2007219929A (ja) 感性評価システム及び方法
CN115409039A (zh) 一种对标车型数据的分析方法、装置、电子设备及介质
KR101375221B1 (ko) 의료 프로세스 모델링 및 검증 방법
JP6250833B2 (ja) 文書検索システム、ディベートシステム、文書検索プログラム
JP6409071B2 (ja) 文の並び替え方法および計算機
Suhas Bharadwaj et al. A novel multimodal hybrid classifier based cyberbullying detection for social media platform
JP4979637B2 (ja) 複合語の区切り位置を推定する複合語区切り推定装置、方法、およびプログラム
JP7221526B2 (ja) 分析方法、分析装置及び分析プログラム
Hardaya et al. Application of text mining for classification of community complaints and proposals
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN106462614B (zh) 信息分析系统、信息分析方法以及信息分析程序
CN103870459A (zh) 有意义串的识别方法和装置
KR101088483B1 (ko) 이종 분류체계들을 매핑시키는 방법 및 장치
CN113326348A (zh) 一种博客质量评估方法及工具
JP2009104296A (ja) 関連キーワード抽出方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180228

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190129

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190325

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190409

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190422

R150 Certificate of patent or registration of utility model

Ref document number: 6524790

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees