JP2011170614A - グラフ生成装置及びグラフ生成プログラム - Google Patents

グラフ生成装置及びグラフ生成プログラム Download PDF

Info

Publication number
JP2011170614A
JP2011170614A JP2010033720A JP2010033720A JP2011170614A JP 2011170614 A JP2011170614 A JP 2011170614A JP 2010033720 A JP2010033720 A JP 2010033720A JP 2010033720 A JP2010033720 A JP 2010033720A JP 2011170614 A JP2011170614 A JP 2011170614A
Authority
JP
Japan
Prior art keywords
word
graph
words
specified
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010033720A
Other languages
English (en)
Other versions
JP5521619B2 (ja
Inventor
Masato Obe
正人 小部
Shoichi Tateno
昌一 舘野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2010033720A priority Critical patent/JP5521619B2/ja
Publication of JP2011170614A publication Critical patent/JP2011170614A/ja
Application granted granted Critical
Publication of JP5521619B2 publication Critical patent/JP5521619B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Image Generation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する、グラフ生成装置及びグラフ生成プログラムを提供する。
【解決手段】全データ記憶部44に、アンケートが記憶されており、検索語が設定されると、抽出部45が、全データ記憶部44に記憶されているアンケートのコメントの文から、検索語が含まれる文を検索し、検索語が含まれる文により構成される部分集合を抽出する。検索語を除外するように指示されると、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。さらに絞り込み検索を行う場合は、同様に、先に設定された検索語及び今回設定された検索語の両語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。
【選択図】図10

Description

本発明は、グラフ生成装置及びグラフ生成プログラムに関する。
特許文献1には、設定されたキーワードに応じて検索対象文書群から前記キーワードを持つ文書を検索結果文書として検出すること、ある単語が前記検索結果文書群中のいくつの文書に表れるかを意味する単語の文書頻度を検出すること、前記単語が検索対象文書群全体においていくつの文書に出現するかを意味する単語の全体文書頻度を検出すること、前記単語の文書頻度と単語の全体文書頻度との比を意味する頻度比を導出すること、前記文書頻度を所定の関係で頻度クラスに区分分けして各単語の文書頻度に応じて各単語を頻度クラスに対応させること、各頻度クラスから適当数の単語を単語の頻度比の大きさ順位特徴語として抽出すること、抽出された特徴語をグラフ形式またはリスト形式で表示することとよちなることを特徴とする文献検索支援方法が記載されている。
特許文献2には、複数の文単位を含んでなる解析対象の文単位集合において出現する語をグラフ表示するグラフ表示装置において、文単位に対応づけて当該文単位に出現する語を記憶する記憶手段と、文単位集合中の文単位に出現する語について当該文単位集合における頻度を記憶手段を参照して計算する頻度計算手段と、上記頻度計算手段が計算した頻度を参照して、上記文単位集合において頻度が上位のL(2以上の整数)個以下の語を特定する語特定手段と、上記語特定手段で特定された語の各々について、上記文単位集合あら、当該語を含む文単位からなる部分集合を導出する部分集合導出手段と、上記部分集合に対応する語および導出もとの文単位集合に対応する語から導出先の部分集合に対応する語へのリンクを表示する表示手段とを有し、上記部分集合導出手段は、ルートの文単位集合から開始して繰り返し部分集合を導出することを特徴とするグラフ表示装置が記載されている。
特開平10−074210号公報 特開2009−128949号公報
本発明は、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する、グラフ生成装置及びグラフ生成プログラムを提供することを目的とする。
上記目的を達成するために、請求項1に記載のグラフ生成装置は、複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出する抽出手段と、前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則により生成する生成手段と、前記生成手段により生成された前記グラフを出力する出力手段と、を備える。
請求項2に記載のグラフ生成装置は、請求項1に記載のグラフ生成装置において、前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記抽出手段は前記部分集合からさらに前記異なる他の指定語が含まれる文により構成される部分集合を抽出し、前記生成手段は、前記異なる他の指定語が含まれる文により構成される部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する。
請求項3に記載のグラフ生成装置は、請求項1に記載のグラフ生成装置において、前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記生成手段は、前記部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する。
請求項4に記載のグラフ生成装置は、請求項1から請求項3のいずれか1項に記載のグラフ生成装置において、前記全体集合を構成する文から語の出現頻度を計数し、計数した出現頻度が高い順に前記指定語を指定する指定手段を備える。
請求項5に記載のグラフ生成装置は、請求項1から請求項3のいずれか1項に記載のグラフ生成装置において、前記指定語を利用者に指定させる指定手段を備える。
請求項6に記載のグラフ生成装置は、請求項1から請求項5のいずれか1項に記載のグラフ生成装置において、前記生成手段が前記予め定められた規則により生成する前記グラフは、有向グラフである。
請求項7に記載のグラフ生成装置は、請求項1から請求項6のいずれか1項に記載のグラフ生成装置において、対象となる語に対応する同義語を利用者に設定させる同義語設定手段と、前記同義語設定手段に設定させた対象となる語及び当該対象となる語に対応する同義語を記憶する記憶手段と、を備え、前記生成手段は、前記記憶手段に記憶された対象となる語及び当該対象となる語に対応する同義語を1つの語として、前記予め定められた規則により前記グラフを生成する。
請求項8に記載のグラフ生成プログラムは、複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出手段により抽出するステップと、前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則によって生成手段により生成するステップと、前記生成手段により生成された前記グラフを出力手段により出力するステップと、を備えた処理をコンピュータに実行させるためのものである。
請求項1及び請求項8に記載の発明によれば、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
請求項2に記載の発明によれば、本構成を有しない場合に比べて、さらに指定語が指定された場合の語同士の関係が煩雑に示されるのを抑制する。
請求項3に記載の発明によれば、本構成を有しない場合に比べて、さらに指定語が指定された場合の語同士の関係が煩雑に示されるのを抑制する。
請求項4に記載の発明によれば、出現頻度が高い順に基づいて指定後を指定しない場合に比べて、出現頻度が高い語に対してどのような事が語られているのかの把握が容易になる。
請求項5に記載の発明によれば、利用者に指定後を指定させない場合に比べて、利用者の指定する語に対してどのような事が語られているのかの把握が容易になる。
請求項6に記載の発明によれば、他の種類のグラフで示す場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
請求項7に記載の発明によれば、対象となる語及び当該対象となる語に対応する同義語を1つの語として扱わない場合に比べて、語同士の関係が煩雑に示されるのを抑制する。
本実施の形態に係る有向グラフを生成するための基本的な構成を備えたグラフ生成装置の概略構成の一例を示すブロック図である。 本実施の形態に係るグラフ生成装置の動作の一例を模式的に説明するための説明図である。 本実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。 本実施の形態に係る語出現データの一例を説明するための説明図である。 本実施の形態に係る係り受け関係を含む語出現データの具体的一例を説明するための説明図である。 本実施の形態に係るノードデータ及びリンクデータの一例を説明するための説明図である。 本実施の形態に係るグラフ生成装置で生成された有向グラフの具体的一例を示したグラフである。 第1の実施の形態に係るグラフ生成装置の概略構成の具体的一例を示すブロック図である。 第1の実施の形態に係る全データ記憶部に記憶されている携帯電話に関するアンケートのデータの具体的一例を説明するための説明図である。 第1の実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。 第1の実施の形態のグラフ生成装置で「携帯」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。 第1の実施の形態のグラフ生成装置で「便利」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。 第1の実施の形態のグラフ生成装置で「便利」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。 第1の実施の形態のグラフ生成装置で「マナー」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。 第1の実施の形態のグラフ生成装置で「マナー」という語を含まないで生成・表示される有向グラフの具体的一例を示す有向グラフである。 第1の実施の形態のグラフ生成装置で「私」という語を含んで生成・表示される有向グラフの具体的一例を示す有向グラフである。 第1の実施の形態のグラフ生成装置で検索された「携帯」、「便利」、「マナー」、及び「私」を含むコメントの提示の具体的一例を説明するための説明図ある。 第1の実施の形態のグラフ生成装置で生成される有向グラフのその他の具体的一例を示す有向グラフである。 第2の実施の形態に係るグラフ生成装置の概略構成の具体的一例を示すブロック図である。 第2の実施の形態に係るグラフ生成装置の制御部で実行される処理の具体的一例を示すフローチャートである。 第2の実施の形態に係るグラフ生成装置の同義語記憶部に記憶される同義語のリストについて説明するための説明図である。 第2の実施の形態に係るグラフ生成装置において図21に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を示す有向グラフである。 第2の実施の形態に係るグラフ生成装置の同義語記憶部に記憶される段階的に適用するための同義語のリストについて説明するための説明図である。 第2の実施の形態に係るグラフ生成装置において図23に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を示す有向グラフである。
以下、図面を参照して本発明の実施の形態を詳細に説明する。なお、本実施の形態のグラフ生成装置は、具体的一例として、有向グラフを生成して表示する表示装置である。
まず、本実施の形態のグラフ生成装置で有向グラフを生成するための原理的な構成について説明する。有向グラフを生成するための基本的な構成を備えたグラフ生成装置を図1に示す。
図1に示した本実施の形態のグラフ生成装置10は、例えば、アンケートの回答を解析目的として、回答内に含まれる自由形式のコメント(1または複数の文からなる文単位)等の傾向を当該コメントに含まれる語同士の関係を示すグラフを生成してユーザに対して提示する。なお、自由形式のコメントに併せて、固定形式の回答(選択肢、または固定語)を用いてもよい。
本実施の形態では、図2に示すように、表示する語と、語の間の関係(リンク)とを特定する。具体的には次の処理により特定を行う。
(1)コメントの集合(全体集合)に含まれる語の頻度を求める。
(2)頻度の高い順にL個の部分集合を作る。以下では、Lを幅と呼ぶことがある。
(3)部分集合の各々について、処理(2)を行う。これをM回繰り返す。以下では、Mを深さと呼ぶこともある。
このようにして部分集合を幅L、深さMで導出し、導出した部分集合の作成に用いた語を表示対象の語として選択し、導入元の集合から導入先の集合への関係を導入元の集合から特定された語から、導入先の集合から特定された語へのリンクとし、特定した語及びリンクからなるグラフを生成して表示する。
図1に示すように、本実施の形態のグラフ生成装置10は、制御部12、全データ記憶部14、形態解析部16、グラフ生成部18、及び表示部20を備えて構成されている。
制御部12は、グラフ生成装置10全体の制御を行うものであり、具体的には、CPU22、ROM24、及びRAM26を含んで構成されている。CPU22で実行される制御の制御プログラム25は、ROM24に格納されている。なお、本実施の形態では、制御プログラム25は、予め格納されている構成としているがこれに限らず、制御プログラム25をCD−ROMやリムーバブルディスク等の記録媒体等に記憶しておき記録媒体から制御部12にインストールするようにしてもよいし、インターネット等の通信回線を介して外部装置から制御部10にインストールするようにしてもよい。RAM26は、CPU22で制御プログラム25を実行する際の作業用の領域を確保するものである。
全データ記憶部14は、アンケートの回答等、コメントを含む全データを記憶する機能を有するものである。
形態解析部16は、アンケートに含まれるコメントを解析し、有向グラフを生成するための元となる語出現データを生成し、記憶する機能を有するものである。形態解析部16は、語出現データ生成部28及び語出現データ記憶部30を含んで構成されており、さらに語出現データ生成部28は、単語分解部32及び係り受け関係抽出部33を有して構成されている。
本実施の形態の語出現データとは、例えば、図4に示すデータ構造の語出現データである。図4に示した例では、語出現データはコメント番号、語ID、コメント(アンケートの回答)に付与された複数の属性の値を含むが、これに限定されない。属性は、性別、年齢(年齢範囲)、居住地範囲等である。1のコメントにN個の異なり語が含まれる場合には、N個の語出現データが準備される。準備対象の語を名詞等の品詞で限定してもよい。
語出現データの具体的な例は、図4に示した例に限定されない。より好ましい具体的一例を図5に示す。図5に示した語出現データは、コメント番号、述部を受け部とする係り受け関係、コメント(文)、属性値(「fact」欄)を含んで構成されている。例えば、最上行のデータは、コメント番号が5137で、述部(受け部)が「よい」で名詞部(係り部)が「メンバー」である。係り部が助詞の「は」、「が」、「を」、「に」、及び「で」等で区分して表示されるので、係り受け関係を参照するだけで全体としての意味内容の把握が容易になる。このように、係り受け関係が示された語出現データを用いることが好ましいため、本実施の形態では、図5に示した係り受け関係が示された語出現データを用いている。
語出現データ生成部28の単語分解部32は、全データ記憶部14に記憶されているコメントを1文毎に、単語に分解して形態素解析を行う機能を有しており、係り受け関係抽出部33は、単語分解部32で分解された単語の係り受け関係を抽出する機能を有している。なお、形態素解析及び係り受け関係の抽出等は周知の手法を用いて行えばよい。
語出現データ記憶部30は、語出現データ生成部28により生成された語出現データを記憶する機能を有するものである。
グラフ生成部18は、語出現データ記憶部30に記憶されている語出現データに基づいて有向グラフを生成する機能を有するものであり、頻度計算部34、語特定部36、及び部分集合導出部38を含んで構成されている。
頻度計算部34は、対象語の各々が出現するコメントが、対象となる集合内にいくつあるかを計算するものであり、典型的には、語ID毎に当該語出現データを含む語出現データの個数を計算するものであるが、これに限定されない。語毎のコメント数のヒストグラムを生成するものであれば、どのような手法を採用してもよい。
語特定部36は、頻度計算部34で計算された語の頻度に基づいて、頻度が1位からL位までのL個の語を特定する。
部分集合導出部38は、図2を参照して説明した手順で指定された集合から部分集合を導出していくものであり、その際、頻度計算部34に対して導入元の集合を指定し、語特定部36から特定された語を取得する。部分集合導出部38は、特定した語から図6(a)に一例を示すノードデータを取得し、また部分集合の導入元および導入先に基づいて図6(b)に一例を示すリンクデータを取得する。ノードデータはノードID、語ID、語(文字列)、ノードに対応する部分集合に含まれるコメントの個数(要素数)等を含むが、これに限定されない。リンクデータは、リンクID、ソースノード(親、導出元)のノードID、ターゲットノード(子、導出先)のノードIDを含むが、これに限定されない。
有向グラフ生成部39は、部分集合導出部38からノードデータおよびリンクデータを取得して有向グラフのネットワーク構造を決定し、表示部20は、有向グラフの表示を行う。ネットワーク構造は予め定められた手法により決定され、特に限定されないが、例えば、「キーグラフ」(http://www2.kke.co.jp/keygraph)やAT&T社の「GraphViz」(http://www.graphviz.org)等のネットワーク構造を表示(可視化)するツールを利用すればよい。表示部20の表示例(有向グラフの例)を図9に示す。図9に示すように、有向グラフは、対象となるコメント集合全体において出現する語をリンクで結びつけるものである。語(ノード)やリンクの大きさ、太さ、色等をコメントの頻度等に応じて可変させてもよい。
本実施の形態のグラフ生成装置10の動作例を説明する。図3は、グラフ生成装置10の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置10の制御部12で実行される。
ステップ100では、全データ記憶部14から1文を取り出し、次のステップ102では、単語分解部32で当該1文を単語に分解し、次のステップ104では、さらに係り受け関係抽出部33で係り受け関係を抽出して語出現データを生成する。そして、生成した語出現データを次のステップ106では、語出現データ記憶部30に記憶させる。
次のステップ108では全データ記憶部14に記憶されている全文に対して上記ステップ100〜106の処理を行ったか否かを判断する。未だ行っていない場合は、否定されてステップ100に戻り、本処理を繰り返し、行った(終了した)場合は、肯定されてステップ110へ進む。
なお本実施の形態では、上記ステップ100〜108の処理を形態解析処理と称する。
ステップ110では、コメントの全体集合を頻度計算の対象に設定する。次のステップ112では、頻度計算部34で各語の頻度を計算する。次のステップ114では、語特定部36で頻度が上位のL個以下の語を選択し、次のステップ116では、部分集合導出部38で選択語について当該語を含む部分集合を抽出し、探索する。例えば、深さ優先(バックトラック法)で部分集合を探索する場合には、図6(a)(L=2の例)に示すように、1〜Nの部分集合を探索し、最上位の1個の語を選択していく。幅優先で部分集合を探索する場合には、図6(b)(L=2の例)に示すように1〜Nの部分集合を探索していく。次のステップ118では、ノード/リンクデータを生成して記憶する。ノード/リンクデータの記憶箇所は、語出現データ記憶部30を用いてもよいし、他の記憶部(例えばグラフ生成部18内に設けられた記憶部)を用いてもよい。
次のステップ120では、選択語に対応する部分集合を頻度計算の対象に設定し、次のステップ122では、終了条件が満たされるかどうかを判断する。終了条件が満たされない場合は、否定されてステップ112に戻り、本処理を繰り返し、満たされた場合は、肯定されてステップ124へ進む。なお、終了条件は、指定された深さまで語が特定され終わった場合や、上限数の語が特定された場合や、下限数以上のメッセージを含む集合が無くなった場合等が挙げられるが、これに限定されず、予め定めておけばよい。
次のステップ124では、有向グラフ生成部39がノードデータ及びリンクデータを用いて予め定められたグラフ生成手法(上述の「キーグラフ」や「GraphViz」等)を用いて有向グラフを生成し、次のステップ126では、生成された有向グラフを表示部20に表示させる。
なお本実施の形態では、上記ステップ110〜124の処理をグラフ生成処理と称する。
本実施の形態のグラフ生成装置10により生成された有向グラフとして、携帯電話に関する自由形式のアンケートの回答であるコメントの集合から生成した有向グラフの具体的一例を図7に示す。図7中では、出現頻度が高く他の語と多くの関係を持つ上位5つの語を二重丸で囲んで示している。有向グラフのリンクをたどることにより、どのようなことが語られているのかが把握される。図7に示した例では、有向グラフ上に分布された語の配置に基づいてどのような事柄が話題になっているかを把握することが容易になる。
[第1の実施の形態]
次に、上述した有向グラフを生成するための原理的構成を備えた本実施の形態のグラフ生成装置(図8、グラフ生成装置40)の構成及びその動作について詳細に説明する。なお、具体的一例として、携帯電話に関するアンケートに含まれるコメントを解析した有向グラフを生成する場合について詳細に説明する。
図8に、本実施の形態のグラフ生成装置40の概略構成を示す。なお、本実施の形態のグラフ生成装置40は、上述のグラフ生成装置10と略同様の構成を含むため、略同様の構成、及びその動作については詳細な説明を省略する。
本実施の形態のグラフ生成装置40は、制御部42、ユーザインターフェイス部43、全データ記憶部44、抽出部45、形態解析部46、グラフ生成部48、及び表示部50を含んで構成されている。
グラフ生成装置40の制御部42はグラフ生成装置10の制御部12に対応し、全データ記憶部44は全データ記憶部14に対応し、形態解析部46は形態解析部16に対応し、グラフ生成部48はグラフ生成部18に対応し、表示部50は表示部20に対応する。
また、制御部42に含まれるCPU52はCPU22に対応し、ROM54はROM24に対応し、RAM56はRAM26に対応する。本実施の形態の制御プログラム55は、制御プログラム25と同様にROM54に記憶される。
また、図8では図示を省略したが、形態解析部46は、上述の形態解析部16と同様に、単語分解部及び係り受け関係抽出部33を含む語出現データ生成部と、語出現データ記憶部と、を含んで構成されている。グラフ生成部48は、上述のグラフ生成部18と同様に、頻度計算部と、語特定部と、部分集合導出部と、有向グラフ生成部39と、を含んで構成されている。
本実施の形態のユーザインターフェイス部43は、ユーザが検索語等の設定を行うための機能を有するものである。具体的一例としては、キーボード、タッチパネル、及びディスプレイ等が挙げられる。
全データ記憶部44には、全データ記憶部14と同様に、アンケートの回答等、コメントを含む全データを記憶する機能を有するものである。全データ記憶部44にデータを記憶させるには、ユーザインターフェイス部43によりユーザがデータを入力するようにしてもよいし、データが記録されている記録媒体から取得するようにしてもよいし、インターネット等の通信回線を介して外部装置から取得するようにしてもよい。全データ記憶部44に記憶されている携帯電話に関するアンケートのデータの具体的一例を図9に示す。図9に示した携帯電話に関するアンケートのデータは、コメントの番号を示すコメントIDと、属性として性別及び年齢、及びコメントを含んで構成されている。
抽出部45は、検索語が設定されると共に、当該検索語を含む文を全データ記憶部44に記憶されているコメントから抽出する機能を有するものである。
次に、本実施の形態のグラフ生成装置40の動作例を説明する。図10は、グラフ生成装置40の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置40の制御部42で実行される。なお、図10は、全データから語を含む文を検索し、検索結果の文により構成される部分集合から有向グラフを生成し、表示するための処理を示しており、予め全データ記憶部44に全データが記憶されており、形態解析部46により語出現データが生成され、形態解析部46の語出現データ記憶部(図示省略)に記憶された状態になっている。
ステップ200では、抽出部45に検索語を設定する。検索語の設定方法は、ユーザによりユーザインターフェイス部43によって指定された語を検索語として設定してもよいがこれに限らず、頻度計算部34により、全データ記憶部44に記憶されている全文から語の頻度を計算し、頻度の高い順に検索語として設定するようにしてもよい。語の頻度に基づいてどのように検索語として設定するかについては予め定めておけばよい。なお、頻度が高いものから順に検索語として設定することにより、表示される有向グラフが煩雑になることが抑制される効果が高い。
次のステップ202では、抽出部45により、設定された検索語を含む文を全データ記憶部44から抽出する。次のステップ204では、抽出した文により構成される集合(部分集合)を対象に設定し、まず、検索語を除外せずにグラフ生成処理を実行する。具体的には、図3に示したステップ110〜124のグラフ生成処理を行い、当該検索語を含む語同士の関係を示す有向グラフを生成する。そして、次のステップ206では、生成された有向グラフを表示部50に表示させる。生成、表示される有向グラフの具体的一例が図7に示した有向グラフである。
次のステップ208では、検索語を除外するか否かを判断する。ユーザはステップ206の処理により表示部50に示された有向グラフ(ここでは図7に示した有向グラフ)を参照し、煩雑で分かりづらい等の理由により表示を変更したい場合等、検索語を除外した語同士の関係を示す有向グラフを生成して表示させるよう、ユーザインターフェイス部43により指示する。当該指示がなされた場合は、ステップ208で肯定され、ステップ210へ進む。
次のステップ210では、抽出した文により構成される集合(部分集合)を対象に設定し、検索語を除外してグラフ生成処理を実行する。具体的には、図3に示したステップ110〜124のグラフ生成処理を行うが、検索を行った検索語を除いたその他の語の頻度を計算する等して、当該検索語を除くその他の語同士の関係を示す有向グラフを生成する。そして、次のステップ212では、生成された有向グラフを表示部50に表示させる。
本実施の形態のグラフ生成装置40において、全データ記憶部44に記憶されているアンケートを「携帯」という語で検索した場合に生成される有向グラフの具体的一例を図11に示す。なお、本実施の形態の有向グラフでは、出現頻度が高く他の語と多くの関係を持つ上位5つの語を二重丸で囲んで示している。図11と図7とを比較するとわかるように、「携帯」という語が除外された図11の方が語同士の関係が煩雑に示されるのが抑制されており、「携帯」についてどのような事が語られているのかが容易に把握される。図11に示した有向グラフから、「メール」、「マナー」、「便利」、「子供」、及び「親」が「携帯」での大きな話題となっていることがわかる。
次のステップ214では、再検索を行うか否か判断する。ユーザはステップ212の処理により表示部50に示された有向グラフ(図11に示した有向グラフ)を参照し、さらに絞り込みを行いたい場合等、さらに検索を行いたい場合は、その旨をユーザインターフェイス部43により指示する。当該指示がなされない場合(または、検索を行わない旨の指示がユーザによりなされた場合)は、ステップ214で否定されて本処理を終了する。一方、再検索するように指示された場合は、ステップ214で肯定されてステップ200に戻り、本処理を繰り返す。
さらに具体的一例として、「便利」という語が検索語に設定されて本処理を繰り返す場合について説明する。ステップ200〜204の処理により「便利」という語を含んで有向グラフを生成し、ステップ206で表示する。「便利」という語を含んで生成・表示される有向グラフの具体的一例を図12に示す。
さらに、次のステップ208で肯定されると、次のステップ210で「便利」という語を除外して有向グラフを生成し、ステップ212で表示する。「便利」という語を含まずに生成・表示される有向グラフの具体的一例を図13に示す。図12と図13とを比較すると、図13の方が「便利」についてどのような事が語られているのかが容易に把握される。図13に示した有向グラフから、「マナー」、「必要」、「私」、「連絡」、及び「メール」が「便利」での大きな話題となっていることがわかる。
さらに、次のステップ214で肯定されて検索を繰り返す場合について説明する。具体的一例として、「マナー」という語が検索語に設定されて本処理を繰り返す場合について説明する。上述したように、ステップ200〜204の処理により「マナー」という語を含んで有向グラフを生成し、ステップ206で表示する。「マナー」という語を含んで生成・表示される有向グラフの具体的一例を図14に示す。
さらに、次のステップ208で肯定されると、次のステップ210で「マナー」という語を除外して有向グラフを生成し、ステップ212で表示する。「マナー」という語を含まずに生成・表示される有向グラフの具体的一例を図15に示す。図14と図15とを比較すると、図15の方が「マナー」についてどのような事が語られているのかが容易に把握される。図15に示した有向グラフから、「悪さ」、「私」、「電話」、「メール」、及び「最近」が「マナー」での大きな話題となっていることがわかる。
さらに、次のステップ214で再び肯定されて検索を繰り返す場合について説明する。具体的一例として、「私」という語が検索語に設定されて本処理を繰り返す場合について説明する。上述したように、ステップ200〜204の処理により「私」という語を含んで有向グラフを生成し、ステップ206で表示する。「私」という語を含んで生成・表示される有向グラフの具体的一例を図16に示す。図16に示した有向グラフから、「私」、「使用」、「コメント」、「以前」、及び「発信源」が「私」での大きな話題となっていることがわかる。表示部50に示された有向グラフにより、ユーザが検索語を除外した表示やさらなる絞り込みが必要ではないと判断した場合は、その旨がユーザインターフェイス部43により指示される。本実施の形態では、図16に示した有向グラフを表示した後、その旨がユーザにより指示される。そこで、次のステップ208では、否定されて本処理を終了する。
なお、本処理を終了する前に、表示されている有向グラフ(図16)に対応する原文のコメントの文章を表示部20に提示させて、ユーザに内容を確認させるようにしてもよい。図17に、本実施の形態のグラフ生成装置で検索された「携帯」、「便利」、「マナー」、及び「私」を含むコメントの提示の具体的一例を示す。
以上説明したように、本実施の形態では、全データ記憶部44に、全データ(携帯電話に関するアンケート、全体集合)が記憶されており、検索語が設定されると、抽出部45が、全データ記憶部44に記憶されているアンケートのコメントの文から、検索語が含まれる文を検索し、検索語が含まれる文により構成される部分集合を抽出する。検索語を除外するように指示されると、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。さらに検索を行う(絞り込み検索を行う)場合は、同様に、先に設定された検索語及び今回設定された検索語の両語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示する。
これにより、指定された語が含まれる文を抽出した集合に対して当該文に含まれる語同士の関係を指定された語を含んでグラフに示す場合に比べて、語同士の関係が煩雑に示されるのが抑制される。検索語は、全ての文に含まれており、頻度が高いことはユーザも認識しているため、有向グラフ上に表示されなくても問題なく、頻度が高い語を使用しないことにより、語同士の関係が煩雑に示されるのが抑制され、検索語に関して語られている事柄が容易に把握されるようになる。
このように本実施の形態では、検索語を除外して、グラフ生成部48で有向グラフを生成して、表示部50に表示するようにしているため、当該有向グラフ注意は、当該検索語が表示されず、語同士の関係が煩雑に示されるのを抑制しているがさらに、その他の語(ユーザにより指定された語等)を有向グラフの表示から除外するようにしてもよい。例えば「携帯」という語で検索した結果の有向グラフ(図11)において、「便利」という語を非表示とする場合、ステップ202で抽出された、「携帯」という語で検索された文により構成される部分集合に対してステップ210で、「携帯」と「便利」という語を除外して有向グラフを生成するようにすればよい。この有向グラフの具体的一例を図18に示す。図18に示した有向グラフにより、「携帯」で検索された文(コメント)において、「便利」という語に関して語られている事柄が容易に把握されるようになる。
なお、本実施の形態では、生成された有向グラフを表示部50に表示させるようにしているがこれに限らず、インターネット等の通信回線を介して他の装置(コンピュータ)等に出力するようにしてもよいし、プリントアウトして出力するようにしてもよい。また、表示部50は、ユーザインターフェイス部43と共用であってもよい。
また、本実施の形態では、有向グラフを生成するグラフ生成装置40について説明したがこれに限らず、棒グラフ等その他の種類のグラフを生成するものであってもよくグラフの種類は限定されない。なお、有向グラフでは、検索により生成されたグラフ同士の見かけの形状が大きく異なるため(例えば、図11と図13とを参照)有向グラフを生成する場合に、より効果が高くなる。
[第2の実施の形態]
次に、第1の実施の形態のグラフ生成装置40の機能に加えて、対象となる語に対応する同義語を定義して有向グラフを生成する機能を備えたグラフ生成装置の構成及びその動作について詳細に説明する。
図19に、本実施の形態のグラフ生成装置の概略構成を示す。なお、本実施の形態のグラフ生成装置60は、設定された同義語を記憶する同義語記憶部62をさらに備えると共に、設定された同義語を1つの語として扱って形態解析部66、設定された同義語を1つの語として扱って有向グラフを生成するグラフ生成部68を備えている。また、対象となる語に対応する同義語を定義して有向グラフを生成する処理を行うための制御プログラム65がROM54に記憶されている。なお、その他の構成については、第1の実施の形態の10と略同様であるため、略同様の構成、及びその動作については詳細な説明を省略する。
次に、本実施の形態のグラフ生成装置60の動作例を説明する。図20は、グラフ生成装置40の動作例を示したフローチャートであり、当該フローチャートに示した処理は、グラフ生成装置60の制御部42で実行される。
ステップ300は、第1の実施の形態のグラフ生成装置40で実行される処理のステップ200に対応し、同様にして検索語を設定する。
次のステップ302では、同義語を設定するか否か判断する。同義語の設定方法は、ユーザによりユーザインターフェイス部43によって設定させるようにするとよい。例えば、ユーザにより同義語を設定する対象となる語に対応する同義語を1個または複数個、定義させることにより設定させるようにしてもよいし、予め定められ、同義語記憶部62に記憶されている同義語のリストから選択させるようにしてもよい。なお、ユーザにより対象となる語を指定させ、当該対象となる語に対応する同義語を指定させた場合は、これを同義語のリストとして同義語記憶部62に記憶する。
同義語記憶部62に記憶される同義語のリストの具体的一例を図21に示す。図21に示した例は、ユーザが「子供」という対象となる語に対応して、「子ども」、「幼児」、「小学生」、「中学生」、「高校生」、「大学生」、「学生」、「子供たち」、「子供達」等の語を同義語として定義した場合の同義語のリストである。これにより、同義語のリストに示された語は一括して「子供*」という代表名(語)として扱われる(「子供*」という語にみなされる)ようになる。
ステップ302で否定された場合(同義語を設定しない場合)は、ステップ306へ進み、一方、ステップ302で肯定された場合は、ステップ304へ進み、ステップ304では、同義語を設定し、記憶した後、ステップ306へ進む。
ステップ304以降の処理である、ステップ306〜ステップ318の各処理は、各々、第1の実施の形態のグラフ生成装置40で実行される処理のステップ202〜214に対応している。従って、同義語を設定しない場合は、第1の実施の形態と同様の処理が行われる。
一方、同義語が設定された場合では、第1の実施の形態と略同様の処理が行われるが、ステップ308及びステップ314では、同義語のリストに基づいて代表名の語を用いて有向グラフを生成する。上述の図21に示した同義語のリストが適用された場合に生成される有向グラフの具体的一例を図22に示す。
以上説明したように、本実施の形態では、同義語が設定されると、グラフ生成部68は、同義語記憶部62に記憶されている同義語のリストに基づいて、同義語のリストに記載されている語を全て、代表名の語とみなして有向グラフを生成し、表示部50に表示する。
このように本実施の形態では、同じ概念の語を同義語として設定し、一括して扱うため、さらに、語同士の関係が煩雑に示されるのが抑制される。なお、煩雑さが抑制されるものの、複数の語を一括して扱うため、粗くなる場合がある。細かな表示を行うか、煩雑さを抑制するかは、生成された有向グラフを見て適宜、利用者が判断して、同義語の設定を行うか否かを指示するようにすればよい。
また、同義語として定義された語に含まれる語(例えば、図21に示した同義語のリストでは「学生」という語等)について、どのような事柄が語られているのかを参照したい場合等に対しては、段階的に同義語の設定がなされるように同義語のリストを生成し、同義語記憶部62に記憶させておけばよい。ユーザが、使用する同義語のリスト(定義)の適用を設定するようにすればよい。段階的に適用するための同義語のリストの例を図23に示す。図23に示した同義語のリストにおいて、代表名「子供(達)*」の同義語のリスト及び代表名「学生*」の同義語のリストを適用して有向グラフを作成した場合の具体的一例を図24に示す。このようにすることにより、有向グラフ中に「子供(達)*」という語と「学生*」という語とが表示されるため、例えば「学生*」と「学校」との関係等が容易に把握されるようになる。
10、40、60 グラフ生成装置
12、42 制御部
14、44 全データ記憶部
16、46、66 形態解析部
18、48、68 グラフ生成部
20、50 表示部
25、45、65 制御プログラム
43 ユーザインターフェイス部
45 抽出部
62 同義語記憶部

Claims (8)

  1. 複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出する抽出手段と、
    前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則により生成する生成手段と、
    前記生成手段により生成された前記グラフを出力する出力手段と、
    を備えたグラフ生成装置。
  2. 前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記抽出手段は前記部分集合からさらに前記異なる他の指定語が含まれる文により構成される部分集合を抽出し、前記生成手段は、前記異なる他の指定語が含まれる文により構成される部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する請求項1に記載のグラフ生成装置。
  3. 前記生成手段により前記グラフの生成を行った後、前記指定語と異なる他の指定語がさらに指定された場合は、前記生成手段は、前記部分集合を構成する文から前記指定語以外でかつ前記異なる他の指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外でかつ前記異なる他の指定語以外の語同士の関係を示すグラフを前記予め定められた規則により生成する請求項1に記載のグラフ生成装置。
  4. 前記全体集合を構成する文から語の出現頻度を計数し、計数した出現頻度が高い順に前記指定語を指定する指定手段を備えた、請求項1から請求項3のいずれか1項に記載のグラフ生成装置。
  5. 前記指定語を利用者に指定させる指定手段を備えた、請求項1から請求項3のいずれか1項に記載のグラフ生成装置。
  6. 前記生成手段が前記予め定められた規則により生成する前記グラフは、有向グラフである請求項1から請求項5のいずれか1項に記載のグラフ生成装置。
  7. 対象となる語に対応する同義語を利用者に設定させる同義語設定手段と、
    前記同義語設定手段に設定させた対象となる語及び当該対象となる語に対応する同義語を記憶する記憶手段と、
    を備え、前記生成手段は、前記記憶手段に記憶された対象となる語及び当該対象となる語に対応する同義語を1つの語として、前記予め定められた規則により前記グラフを生成する、
    請求項1から請求項6のいずれか1項に記載のグラフ生成装置。
  8. 複数の文により構成される全体集合から、指定された指定語が含まれる文により構成される部分集合を抽出手段により抽出するステップと、
    前記部分集合を構成する文から前記指定語以外の語の出現頻度を計数し、計数した出現頻度に応じて、前記指定語以外の語同士の関係を示すグラフを予め定められた規則によって生成手段により生成するステップと、
    前記生成手段により生成された前記グラフを出力手段により出力するステップと、
    を備えた処理をコンピュータに実行させるためのグラフ生成プログラム。
JP2010033720A 2010-02-18 2010-02-18 グラフ生成装置及びグラフ生成プログラム Expired - Fee Related JP5521619B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010033720A JP5521619B2 (ja) 2010-02-18 2010-02-18 グラフ生成装置及びグラフ生成プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010033720A JP5521619B2 (ja) 2010-02-18 2010-02-18 グラフ生成装置及びグラフ生成プログラム

Publications (2)

Publication Number Publication Date
JP2011170614A true JP2011170614A (ja) 2011-09-01
JP5521619B2 JP5521619B2 (ja) 2014-06-18

Family

ID=44684677

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010033720A Expired - Fee Related JP5521619B2 (ja) 2010-02-18 2010-02-18 グラフ生成装置及びグラフ生成プログラム

Country Status (1)

Country Link
JP (1) JP5521619B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012210351A1 (de) 2011-08-04 2013-02-07 Hitachi Automotive Systems, Ltd. Elektronische Steuereinheit

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2004021913A (ja) * 2002-06-20 2004-01-22 Fujitsu Ltd 情報マップ作成方法
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000010986A (ja) * 1998-06-18 2000-01-14 Trendy:Kk ドキュメントデータベースの検索支援方法とそのプログラムを記憶した記憶媒体
JP2004021913A (ja) * 2002-06-20 2004-01-22 Fujitsu Ltd 情報マップ作成方法
JP2009128949A (ja) * 2007-11-19 2009-06-11 Fuji Xerox Co Ltd グラフ表示装置およびプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200800758256; 村田真樹、外5名: 'テキストマイニングシステムSimpleminerの開発' 言語処理学会第14回年次大会発表論文集 , 20080317, p.1093-1096, 言語処理学会 *
JPN6013061174; 村田真樹、外5名: 'テキストマイニングシステムSimpleminerの開発' 言語処理学会第14回年次大会発表論文集 , 20080317, p.1093-1096, 言語処理学会 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102012210351A1 (de) 2011-08-04 2013-02-07 Hitachi Automotive Systems, Ltd. Elektronische Steuereinheit

Also Published As

Publication number Publication date
JP5521619B2 (ja) 2014-06-18

Similar Documents

Publication Publication Date Title
US10769552B2 (en) Justifying passage machine learning for question and answer systems
CN108647205B (zh) 细粒度情感分析模型构建方法、设备及可读存储介质
JP5123591B2 (ja) 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
WO2016178337A1 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
JP2013109408A (ja) 文章を編集するための方法、並びにその装置及びコンピュータ・プログラム
US20120179709A1 (en) Apparatus, method and program product for searching document
JP2020113156A (ja) キャラクタ性に応じた形容発話を含む対話シナリオを生成する装置、プログラム及び方法
JP5309537B2 (ja) グラフ表示装置およびプログラム
JP6305630B2 (ja) 文書検索装置、方法及びプログラム
JP5521619B2 (ja) グラフ生成装置及びグラフ生成プログラム
JP5515836B2 (ja) グラフ生成装置及びグラフ生成プログラム
US20230103313A1 (en) User assistance system
JP5623023B2 (ja) アイデア整理支援装置、アイデア支援方法およびコンピュータプログラム
JP6511192B2 (ja) 議論支援システム、議論支援方法、及び議論支援プログラム
JP6375367B2 (ja) 反論生成方法,反論生成システム
JP2008204133A (ja) 回答検索装置及びコンピュータプログラム
JP6676698B2 (ja) 予約語及び属性言語間の関連度を用いた情報検索方法及び装置
JP2012226697A (ja) Wbs作成システムおよびwbs作成方法
JP2011150390A (ja) 性格推定装置及びプログラム
JP6235632B2 (ja) リアルタイム・ライティング支援装置
JP7451917B2 (ja) 情報提供装置、情報提供方法及びプログラム
JP5574775B2 (ja) アイデア整理支援装置およびアイデア整理支援プログラム
JP2011076375A (ja) 文章変換装置、方法及びプログラム
Bryan et al. Accessibility Issues in HTML5
JP2009265908A (ja) 個人プロファイル抽出方法、人物検索方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130122

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140324

R150 Certificate of patent or registration of utility model

Ref document number: 5521619

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees