JP6287192B2 - 情報処理装置、情報処理方法、プログラム - Google Patents

情報処理装置、情報処理方法、プログラム Download PDF

Info

Publication number
JP6287192B2
JP6287192B2 JP2013269582A JP2013269582A JP6287192B2 JP 6287192 B2 JP6287192 B2 JP 6287192B2 JP 2013269582 A JP2013269582 A JP 2013269582A JP 2013269582 A JP2013269582 A JP 2013269582A JP 6287192 B2 JP6287192 B2 JP 6287192B2
Authority
JP
Japan
Prior art keywords
word
node
network graph
information processing
selection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013269582A
Other languages
English (en)
Other versions
JP2015125594A5 (ja
JP2015125594A (ja
Inventor
利之 片岡
利之 片岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Marketing Japan Inc
Canon IT Solutions Inc
Original Assignee
Canon Marketing Japan Inc
Canon IT Solutions Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Marketing Japan Inc, Canon IT Solutions Inc filed Critical Canon Marketing Japan Inc
Priority to JP2013269582A priority Critical patent/JP6287192B2/ja
Publication of JP2015125594A publication Critical patent/JP2015125594A/ja
Publication of JP2015125594A5 publication Critical patent/JP2015125594A5/ja
Application granted granted Critical
Publication of JP6287192B2 publication Critical patent/JP6287192B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、情報処理装置、情報処理方法、プログラムに関する。
WEB上ではブログ記事やSNS、また、論文や特許文献など膨大なテキストデータが次々と生成されている。この大規模テキストから必要に応じて価値ある情報もしくはユーザが意図する情報を迅速に発見することが求められている。
しかし、興味や価値ある情報が生成されたとしても、頻繁にSNSや論文などを確認しなければ見過ごしてしまう。
また、大規模テキストから情報を検索する場合、意図する情報を適確に発見するための検索ワードは容易に判断がつかないこともある。さらに、安易な検索ワードでは意図する情報の情報以外も多く検索に引っ掛かってしまい、情報の取捨選択が困難となることがある。
これらの問題点に対し、大規模テキストから中心的な意味やトピックを抽出する様々な手法が提案されている。
特許文献1に記載された手法は、テキストを形態素解析し、単語や概念をノード、エッジを単語や概念間の共起関係として有効グラフで表現した意味ネットワークを作成し、共起関係が強い単語や概念を見つけ出すことで検索ワードの幅が広がり、より多くの情報を見つけ出す手法である。
特許文献2に記載された手法は、テキストを形態素解析した単語や単語群をノードとするネットワークグラフを用い、ノード間の共起関係の情報に加えて、類義や同義、階層関係など意味を表すエッジをネットワークグラフで表示することで、共起関係だけのネットワークグラフと比較して、より多くの情報量を提示して可読性を高め、検索・分析を支援する手法である。
特開2001−243223号公報 特開2009−75881号公報
特許文献1や特許文献2に記載された手法は、大規模テキストから意味やトピックを抽出するための手法であり、前述の問題点の解決に寄与するものである。
しかし、各手法とも機械的にネットワークグラフを作成して提示するばかりで、ユーザ自身で情報を選択することができる機能はない。
また、ネットワークグラフのノード間の関係から検索範囲が広がるという旨は述べられているが、検索範囲を絞り込むといった観点では論じられていない。
そこで、本発明では、大規模テキストからユーザが意図する情報もしくは価値ある情報を、ユーザが発見しやすくするための技術を提供することを目的とする。
本発明は、文書を解析することで得られるワードを一覧表示する表示制御手段と、前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、前記ワード選択受付手段により選択を受け付けたワードを含むネットワークグラフを作成する作成手段と、を備え、前記表示制御手段は、前記作成手段により作成されたネットワークグラフを表示することを特徴とする情報処理装置。
また、本発明は、情報処理装置に表示制御手段が、文書を解析することで得られるワードを一覧表示する表示制御工程と、前記情報処理装置のワード選択受付手段が、前記表示制御工程により一覧表示されたワードの選択を受け付けるワード選択受付工程と、前記情報処理装置の作成手段が、前記ワード選択受付工程により選択を受け付けたワードを含むネットワークグラフを作成する作成工程と、を備え、前記表示制御工程は、前記作成工程により作成されたネットワークグラフを表示することを特徴とする情報処理方法。
また、本発明は、情報処理装置において実行可能なプログラムであって、前記情報処理装置を、文書を解析することで得られるワードを一覧表示する表示制御手段と、前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、前記ワード選択受付手段により選択を受け付けたワードを含むネットワークグラフを作成する作成手段として機能させ、前記表示制御手段を、前記作成手段により作成されたネットワークグラフを表示することを特徴とする手段として機能させることを特徴とするプログラム。
本発明によれば、大規模テキストからユーザが意図する情報もしくは価値ある情報を、ユーザが発見しやすくするための技術を提供することが可能となる。
本発明の実施形態におけるテキスト絞り込みシステムの構成を示す図である。 本発明の実施形態における情報処理装置のハードウエア構成を示す図である。 本発明の実施形態におけるテキストデータの一例である。 本発明の実施形態における分析結果データの一例である。 本発明の実施形態における分析処理を示すフローチャートである。 本発明の実施形態における形態素の連結処理を示すフローチャートである。 本発明の実施形態における形態素解析・係り受け解析の一例である。 本発明の実施形態におけるユーザが閲覧・操作を行う全体画面を示す一例である。 本発明の実施形態におけるモーダルウィンドウを示す一例である。 本発明の実施形態における集計結果を示す一例である。 本発明の実施形態におけるランキング表の一例である。 本発明の実施形態における遷移したランキング表を示す一例である。 本発明の実施形態におけるワード選択時の処理を示すフローチャートである。 本発明の実施形態におけるネットワークグラフの一例である。 本発明の実施形態におけるクリック操作の一例である。 本発明の実施形態におけるクリック操作の一例である。 本発明の実施形態におけるピン止め操作の一例である。 本発明の実施形態における検索操作の一例である。 本発明の実施形態における絞り込み結果表示の一例である。 本発明の実施形態におけるワード出現頻度の上昇度を算出するための計算式の一例である。
以下、図面を参照して、本発明の実施形態を詳細に説明する。
図1は、本発明の実施形態におけるテキスト絞り込みシステムが備える機能構成を示す図である。テキスト絞り込みシステム100は、データベース110と分析処理部120と、集計部130とWEBアプリケーションサーバー140と、ユーザにより操作されるクライアント端末150とを備える。
ユーザは、クライアント端末150を介してWEBアプリケーションサーバー140に対して指示を出すことが可能である。そして、WEBアプリケーションサーバー140は、クライアント端末150から受信した指示に基づき、各種データをクライアント端末150に送信する。クライアント端末150は、受信した各種データを表示部に表示する。
なお、本発明のテキスト絞り込みシステムにおけるデータベース110、分析処理部120、集計部130、WEBアプリケーションサーバー140、クライアント端末150がそれぞれ備える機能は、それぞれ別の端末が備えていても、ひとつの端末が全ての機能を備えていてもいずれであっても良い。すなわち、テキスト絞り込みシステムが全体としてひとつの装置(情報処理装置)であっても良いし、複数の端末(情報処理装置)に分かれたシステムであっても良い。
データベース110は、大規模テキスト(文書)を格納するテキストデータ111と、テキストの形態素解析、係り受け解析結果である単語もしくは連結単語の頻度情報と係り受け情報を格納する分析結果データ112とを備える。連結単語とは単語を結合したものであり、以下、単語もしくは連結単語のことを総じてワードと呼ぶ。
図2は、クライアント端末150、WEBアプリケーションサーバー140に適用可能な情報処理装置のハードウエア構成を示す図である。
以下、図2を用いて、図1に示したテキスト絞り込みシステムにおける情報処理装置のハードウエア構成の一例について説明する。
図2において、201はCPUで、システムバス204に接続される各デバイスやコントローラを統括的に制御する。また、ROM203あるいは外部メモリ211には、CPU201の制御プログラムであるBIOS(Basic Input / Output System)やオペレーティングシステムプログラム(以下、OS)や、各サーバ或いは各PCの実行する機能を実現するために必要な各種プログラム等が記憶されている。
202はRAMで、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM203あるいは外部メモリ211からRAM202にロードして、該ロードしたプログラムを実行することで各種動作を実現するものである。
また、205は入力コントローラで、入力装置209等からの入力を制御する。206はビデオコントローラで、液晶ディスプレイ等のディスプレイ装置210への表示を制御する。なお、ディスプレイ装置は、液晶ディスプレイに限られず、CRTディスプレイなどであっても良い。これらは必要に応じてクライアントが使用するものである。
207はメモリコントローラで、ブートプログラム,各種のアプリケーション,フォントデータ,ユーザファイル,編集ファイル,各種データ等を記憶するハードディスク(HD)や、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等の外部メモリ211へのアクセスを制御する。
208は通信I/Fコントローラで、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信等が可能である。
なお、CPU201は、例えばRAM202内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ装置210上での表示を可能としている。また、CPU201は、ディスプレイ装置210上の不図示のマウスカーソル等でのユーザ指示を可能とする。
ハードウエア上で動作する各種プログラムは、外部メモリ211に記録されており、必要に応じてRAM202にロードされることによりCPU201によって実行されるものである。
なお、全ての装置がこれらの構成を備えているわけではなく、必要なものを備えていればよい。
図3は、テキストデータ111の一例を示す図である。テキストデータ111は、データを一意に識別するidと作成された日時と、テキストのタイトルと本文とURLと、テキストデータの収集を行った媒体や収集に用いた検索キーなどをタグとして保持する。タグはテキストデータを収集するときに複数もしくはタグなしでも自由に設定することができる。例えば、ネット上のSNSからカメラに関するテキストデータを収集した場合は「SNS、カメラ」といったようにタグを設定する。タグを設定することで、分析に用いるデータの絞り込みを行う。
テキストデータの収集にあたっては、専用のデータ収集APIが存在するものについては、定期的(バッチ処理、差分処理)にAPIを実行してデータ収集し、検索キーワードや媒体名(SNSの名称など)などをタグとして登録する。
例えば、Tweitter APIを用いて“キヤノン,カメラ”という検索ワードで収集したデータは、[キヤノン,カメラ,twetter]というタグ(リスト)を付けて、タイトルは空欄でDBに格納するということになる。
また、WEB上のデータでデータ収集APIが存在しないものについては、該当ページのRSSやHTML・XML解析などを行い定期的にデータ収集し、媒体名(サイト名やブログ名など)などをタグとしてDBに格納する。
例えば、ニュースのまとめサイトのRSSから収集したデータは、「ニュース記事」というタグを付け、タイトルとURLをあわせてDBに格納する。
図4は、分析結果データ112の一例を示す図である。例として図3のid=1のデータの分析結果例を示す。分析結果データ112はテキストデータ111のどのデータの分析結果なのかを示すidと、分析処理部によって抽出された係り受け関係と係り受け関係頻度と、名詞情報と名詞情報頻度と、形容詞情報と形容詞情報頻度と、動詞情報と動詞情報頻度とを保持する。形容詞情報と動詞情報は、テキストから取得した原文とともに、その形態素の終止形を保持する。形容詞と動詞において終止形を保持するのは、形態素の活用における表現のばらつきを集約し、同形態素の頻度をまとめるためである。分析処理部の詳細については後述する。
次に図5を用いて、分析処理部120における分析処理について説明する。図5に示す処理によれば、分析処理部120はテキストデータ111からテキスト本文を取得し分析を実行し、分析結果を集計して分析結果データ112への登録または更新を行う。なお、テキストデータ取得時には分析が未実行の差分データのみを取得し、分析処理は30分間隔などで定期的に自動実行されるものとする。
ステップS501では、テキストデータ111からテキスト本文を取得し1文ごとに分割する。文と文の切れ目は句点や全角スペース、閉じ括弧などで判断する。
そして、ステップS501で分割した各文に対してステップS503〜ステップS506の処理を繰り返し実行する(ステップS502)。
ステップS503では、形態素解析・係り受け解析を実行し、文を文節、形態素に分割する。そして、形態素の品詞と終止形、および、文節間の係り受け情報を取得する。
ここで、図7を用いて、「高かったけどすごく良いので、この商品を買いました。」という文の解析例を示す。なお、形態素解析・係り受け解析については既存技術を用いて実現することが可能であるため、ここでの詳細な説明は省略する。
図7に示すように、「高かったけどすごく良いので、この商品を買いました。」という文が、「高かったけど」、「すごく」、「良いので」、「この」、「商品を」、「買いました。」という6つの文節に分割されている。
さらに例えば「高かったけど」という文節は、「高かっ」、「た」、「けど」という3つの形態素に分割され、それぞれの品詞は形容詞、助動詞、接続助詞であり、それぞれの終止形は「高い」、「た」、「けど」であることを示している。
また、「高かったけど」の係り受け先の文節は「良いので」であることを示している。
なお、「買いました。」の係り受け先の文節は「なし」となっているが、これは係り受け先の文節が無いことを示している。
他の文節についても同様に解析された結果を示しているが、詳細の説明は省略する。
次に、ステップS503で取得した各文節に対してステップS505〜S506の処理を繰り返し実行する(ステップS504)。
ステップS505では、各文節に対して形態素の連結処理を実行する。
ここで、ステップS505の形態素の連結処理について、図6のフローチャートを用いて説明する。
まず、文節中の形態素を順次走査し、各形態素に対してステップS602〜S604の処理を実行する。
ステップS602では、形態素の品詞を識別し形容詞または動詞であればステップS603の形容詞・動詞の連結処理へ、名詞であればステップS604の名詞の連結処理を行い、上記以外の品詞ならば文節中の次の形態素の処理へ移る。
ステップS603では、処理対象の形態素の後ろに続く形態素の品詞が形容詞または動詞、または格助詞を除く助詞であれば形態素の連結を繰り返し実行し、文節の終端もしくは連結条件を満たさなければ本フローチャートの処理を終える。
ステップS604では、処理対象の形態素の後ろに続く形態素の品詞が名詞であれば形態素の連結を繰り返し実行し、文節の終端もしくは連結条件を満たさなければ本フローチャートの処理を終える。
図5の説明に戻る。
ステップS506ではステップS103、ステップ105で取得した形態素の終止形と連結語、係り受けの頻度を集計し、一覧を作成し、分析結果データ112へ登録・更新を行う。
そして、図5のフローチャートの処理を終了する。
集計部130は、ユーザがWEBアプリケーションサーバー140に対する指示により指定した日時やタグを用いて、データベース110からユーザが要望する分析結果データ112を取得し、集計結果をWEBアプリケーションサーバー140に返す。
次に、WEBアプリケーションサーバー140がテキスト絞り込みシステム100のユーザに提示する画面(クライアント端末150に表示する画面)とユーザによる操作方法について説明する。
図8はユーザが情報を絞り込むための検索ワードを探索し、また、絞り込んだ情報を閲覧する全体画面の一例である。
当該全体画面には、読み込む分析結果を選択するためのタグや日時を設定する分析設定ボタン200と、係り受けと名詞と、形容詞と動詞のランキング表300(ワードが一覧表示された領域)と、リアルタイムに操作できるネットワークグラフ400と、ネットワークグラフから選択した検索ワードで絞り込んだ情報(当該ワードを含む文書の原文)を提示する絞り込み結果表示欄500とが含まれている。
分析設定ボタン200について、図9を用いて説明する。
ユーザにより分析設定ボタン200が押下されると、図8に示す画面上などに図9で示すモーダルウィンドウ900が表示される。
モーダルウィンドウ900においてユーザから日時やタグの選択がなされ、読み込みボタンが押下されることで、集計部130がデータベース110からユーザが要望する分析結果(選択された日時やタグにより特定される結果)とワードの上昇度とを取得する。そして、取得した分析結果を集計した集計結果をWEBアプリケーションサーバー140に返す。
上昇度と集計結果の説明については後述する。
そして、WEBアプリケーションサーバー140は、集計部130から取得した情報から、ランキング表300に提示する内容と、ネットワークグラフ400に描画するグラフ構造データを作成する。
ランキング表300に提示する内容とネットワークグラフ400の作成についての説明は後述する。
なお、読み込みボタンを押下もしくはモーダルウィンドウ900以外の場所をマウスの左クリックなどで選択されるとモーダルウィンドウ900は閉じるものとする。
次に図10を用いて、上昇度と集計結果の一例を説明する。集計結果は、集計部130が分析結果データ112から取得した情報を集計し、係り受け関係、名詞情報、形容詞情報、動詞情報、それぞれのワードとその頻度と上昇度などの情報である。
上昇度はユーザがモーダルウィンドウ900で指定した期間と比較期間とのワードの出現頻度(出現回数)の比を計算することで、比較期間と比べて、指定された期間でのワードがどれだけ多く出現しているかを表す指数である。なお、比較期間は全期間や前月、前週や前日などである。
上昇度の計算式例を図20に示すが、これに限定されるものではなく、他の計算方法によって算出することも可能である。
ランキング表300は、集計部130から取得した集計結果を用いて、係り受けと名詞と形容詞と動詞のそれぞれについて、頻度もしくは上昇度順にワードを提示した一覧表である。
図11を用いてランキング表300について説明する。
図11では形容詞のランキング表の例についての図であるが、係り受けや名詞、動詞のランキング表についても同様の構成である。
まず、ランキング表300の表示内容について説明する。ランキング表300にはワードを表示するワード欄(図11の例では、「良い」「欲しい」「高い」などが表示されている)とワードの出現頻度を表示する頻度欄(図11の例では、「良い」は317、「欲しい」は256、などの値が表示されている)と、ワードの上昇度を表示する上昇度欄(図11の例では、「良い」は水平の矢印(横向き矢印)、「欲しい」は上向きの矢印、「高い」は下向きの矢印で表示されている)を備える。
形容詞と動詞のランキング表300のワード欄には、あらかじめ単語の終止形を表示し、連結語が存在すれば必要に応じて連結語の情報を表示する。形容詞と動詞のランキング表300における連結語の表示についての説明は後述する。
係り受けや名詞のランキング表300のワード欄には当初から連結語の情報を表示する。上昇度欄には上昇度の値により矢印などの画像を表示することで、比較期間との比をより分かりやすく提示する。例えば、上昇度が0〜1の値をとり、1に近いほど指定期間の単語または連結語の頻度が多いとする場合、上昇度が0.4未満は下向き矢印、上昇度が0.4以上0.7未満は横向き矢印、上昇度が0.7以上は上向き矢印を表示する。
次に、ランキング表300の機能について説明する。ランキング表300には頻度が上位のワード情報を数件程度表示する。表示しきれないワード情報はページネーションで順次閲覧できるページネーションボタン320と、全体の中で何件目をランキング表300に表示しているかの情報を表示する件数表示310と、全てのワードを頻度もしくは上昇度の昇順または降順でソートしてランキング表300の表示内容を並び替えるソートボタン330と、ランキング表300内のワードを検索する検索窓340を備える。
また、ランキング表300のワード欄がマウスの左クリックなどで選択されると、当該選択されたワードが、図14に示すネットワークグラフ400のノードとして追加される。
ただし、ランキング表300が形容詞または動詞の場合、ワードが選択されると、選択されたワードと紐づく連結語の情報が図12に示すように表示され、さらにワードが選択されることでネットワークグラフ400のノードとして追加される。
図12は図11のワード欄の「良い」が選択されたときの例である。なお、図12の表内がマウスの右クリックなどで選択されると元の表示に戻るものとする。
ネットワークグラフ400とワード選択によるネットワークグラフ400へのノード追加処理についての詳細は後述する。
次に、ネットワークグラフ400について説明する。ネットワークグラフ400は集計部130から取得した集計結果をもとに、ワードをノード、係り受け関係があるワードのノード間にエッジを付けたグラフである。
ワードや、係り受け関係が持つ情報によってノードの大きさや色と、エッジの色と太さを決定する。
例えば、ワードの出現頻度が高い場合にはノードの円の直径を大きくするといったように、ワードの出現頻度によってノードの円の直径を決定する。また、品詞の種類によってノードの色を決定する。また、当該エッジによりつながれるワード同士係り受け関係の頻度によってエッジの太さを決定する(例えば頻度が高ければ太くする)。なお、係り受け関係の順序を考慮し、エッジに方向を付けた有効グラフで表示してもよい。
次に、図13を用いてランキング表300のワードが選択された場合の処理について説明する。
ステップS1301では、集計結果から選択されたワードの情報を取得する。
ステップS1302では、ステップS1301で取得した情報に基づき、係り受け関係が存在するか否かを判断する。
係り受け関係が存在する場合(ステップS1302:YES)は、処理をステップS1303に移行する。
係り受け関係が存在しない場合(ステップS1302:NO)は、処理をステップS1304に移行する。
ステップS1303では、既定回数の係り受け関係においてステップS1303の処理を実行し、集計結果の情報をもとにネットワークグラフ400へノードとエッジを表示する。
係り受け関係が存在しない場合(S1304)は、選択ワードをノードとして表示する。
既定回数とは、表示するノードやエッジが多くなり過ぎないように、係り受け頻度の多い順などであらかじめ表示するエッジの数を制限するための閾値である。図14はワード選択時の既定回数を3としたとき、図12の形容詞のランキング表から「良いので」を選択した場合のネットワークグラフ400での表示例である。
図14に示すように、「良いので」というノードから3つのエッジが伸び、それぞれ「すごく」、「買いました」、「高かったけど」のノードにつながっている。
次にネットワークグラフ400におけるユーザ操作の受け付けと、それに対応する機能について説明する。
機能は大きく分けて3つあり、ノードとエッジの追加・削除機能と、ノードのピン止め機能と、ノードの検索ワードの追加・削除機能である。以下、各機能について図を用いて説明する
まず、ノードとエッジの追加・削除機能について説明する。
ユーザにより、例えばノードをマウスの左クリックなどで選択されるといった操作を受け付けると、選択されたノードのワードを取得し、図13のフローチャートで示すワード選択時の処理を実行する。
図13に示す処理により、ノードとエッジが既定回数だけ追加表示されるとともに、選択ノードから既定距離以上離れたノードとエッジをネットワークグラフ400から自動削除する。
既定距離とは、ネットワークグラフ400に表示するエッジやノードが多くなり過ぎないように、エッジ1つ分を距離1としたときの閾値である。また、ノードやエッジの位置はネットワークグラフ400の表示枠に合わせて自動補正される。
以後、この操作(ユーザがノードをマウスの左クリックなどで選択する操作など、ノードとエッジを追加するための所定の操作)をクリック操作と呼ぶ。
既定回数と既定距離をそれぞれ3としたときのクリック操作の例について説明する。
図14の「すごく」というノードをクリック操作したときの例が図15である。
「すごく」と係り受け関係にある「評判」と「綺麗」というノードとそれに繋がるエッジが追加表示され、全体の位置が自動補正されている。
さらに、図15のノード「綺麗」をクリック操作したときの例が図16である。
「綺麗」と係り受け関係にある「写真」と「撮れる」というノードとそれに繋がるエッジが追加表示され、既定距離以上離れている「買いました」と「高かったけど」というノードとそれに繋がるエッジが自動削除され、全体の位置が自動補正されている。すなわち、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合には、当該所定の数に収まるように末端のノードを削除したネットワークグラフが作成される。
次に、ノードのピン止め機能について説明する。
ピン止め機能とは、ユーザにより、例えばノードをマウスの右クリックなどで選択されるといった操作を受け付けることでピン止めを行うことができる機能である。
ピン止めを行うと、既定距離以上離れてもピン止めをしたノードと新たに選択するノード間に存在するエッジとノードは自動削除されなくなる。
すなわち、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合であっても、当該末端のノードに対して表示し続ける旨の指示(ピン止め操作)がなされている場合、当該ノードは削除せずにネットワークグラフが作成される。
ピン止めしたノードにはノードの上部にピン止めアイコンが表示され、再度選択することでピン止めをキャンセルすることができる。
以後、この操作(ユーザがノードをマウスの右クリックなどで選択する操作など、ノードをピン止めするための所定の操作)をピン止め操作と呼ぶ。
既定回数と既定距離をそれぞれ3としたときのピン止め操作の例について説明する。
図15の「買いました」というノードをピン止め操作したあとに「綺麗」というノードをクリック操作したときの例が図17であり、「買いました」というノードの上部にはピン止めアイコン410が表示される。また、図16に示すネットワークグラフとは異なり、「綺麗」と「買いました」の間に存在するエッジとノードとは自動削除されず表示されたままとなっている。
次に、ノードの検索ワード追加・削除機能について説明する。
ユーザにより、例えばノードをマウスの左ダブルクリックなどで選択されるといった操作を受け付けると、選択されたノードのワードが検索ワードとして登録される。
そして、登録された検索ワードを用いてテキストデータ111を検索し、検索結果を絞り込み結果表示欄500に表示する。
検索ワードには複数のワードを登録することができ、検索ワードに登録されているノードの下部には検索ワード登録アイコン(図18の420)が表示され、再度選択することで登録を削除することができる。また、既定距離などの制限で選択ノードがネットワークグラフ400から消去されると、自動的に登録検索ワードから該当ワードが削除される。以後、この操作(ユーザがノードをマウスの左ダブルクリックなどで選択するなど、検索ワード登録のための所定の操作)を検索操作と呼ぶ。
検索操作の例について説明する。図17において「綺麗」と「撮れる」と「買いました」というノードを検索操作したときのネットワークグラフの例が図18であり、「綺麗」と「撮れる」と「買いました」というノードの下部に検索ワード登録アイコン420が表示される。そして、登録された検索ワードとモーダルウィンドウ900でユーザが指定した期間とタグを用いてテキストデータ111から「綺麗」と「撮れる」と「買いました」というワードがテキスト本文またはタイトルに存在するテキストデータを取得し、絞り込み結果表示欄500(図19)に一覧表示される。
次に図19を用いて絞り込み結果表示欄500について説明する。
絞り込み結果表示欄500は、テキストデータ111のタイトルを表示するタイトル欄と、テキスト本文を表示するテキスト欄と、タグを表示するタグ欄を備える。タイトル欄では、検索ワードと一致するワードが存在すれば、そのワードを強調表示する。また、URLが存在する場合はタイトルにURLのリンクを付けて表示する。
強調表示の一例としては、例えば一致するワードにハイライトを付けて表示するなどである。テキスト欄では、表示するテキストが長くなり過ぎないように制限をかけるとともに、検索ワードと一致するワードが分かるように強調して表示する。
例えば、検索ワードを含む文をのみをテキスト本文から抜き出し、検索ワードと一致するワードにハイライトを付けて表示するなどである。
また、モーダルウィンドウ900でユーザが指定した期間を表示する指定期間表示510と、全検索結果の中で何件目を絞り込み結果表示欄500に表示しているかの情報を表示する件数表示520と、表示しきれなかった検索結果をページネーションで順次閲覧できるページネーションボタン530と、モーダルウィンドウ900でユーザが指定したタグや、テキストのタイトルで並び替えを行うソートボタン540と、絞り込み結果表示欄500内を検索する検索窓550を備える。
この絞り込み結果表示欄500を用いることで、ユーザは、大規模テキストから意図した情報または興味ある情報を確認することができ、情報を検索するコストを少なくして大規模テキストから情報を取得することができる。
以上説明したように、本発明によれば、テキスト絞り込みシステム100のユーザは、モーダルウィンドウ900を介して設定をすることでシステムの利用が可能になり、ランキング表300とネットワークグラフ400と絞り込み結果表示欄500を相互に確認し操作することで、自身が望む情報を取得するための検索ワードを発見することができ、大規模テキストから該当する情報を効率的に発見することができるようになる。
また、上記の説明では、ネットワークグラフ400におけるノードの色付け例を、品詞の種類としたが、ワードが持つネガティブ要素やポジティブ要素などの評価極性を考慮した色付けを行い提示することで、情報が肯定的な内容なのかもしく否定的な内容なのかを判断に役立てることができる。
他に、テキストデータ111において、テキストデータを作成した人物の年齢や性別などのユーザ属性を保持しておくことで、絞り込み結果表示欄500に当該ユーザ属性を表示し、年齢別または性別などの情報でまとめて提示することができる。
なお、上述した各種データの構成及びその内容はこれに限定されるものではなく、用途や目的に応じて、様々な構成や内容で構成されることは言うまでもない。
また、本発明におけるプログラムは、図5、図6、図13の処理をコンピュータに実行させるプログラムである。なお、本発明におけるプログラムは、図5、図6、図13の各処理ごとのプログラムであってもよい。
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、DVD−ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
100 テキスト絞り込みシステム
110 データベース
111 テキストデータ
112 分析結果データ
120 分析処理部
130 集計部
140 WEBアプリケーションサーバー
150 クライアント端末

Claims (9)

  1. 文書を解析することで得られるワードを一覧表示する表示制御手段と、
    前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、
    前記ワード選択受付手段により選択を受け付けたワードが表示されたノードと、ワードとワードの係り受け関係を示しノード間をつなぐエッジとから構成されたネットワークグラフを作成する作成手段と、
    を備え、
    前記作成手段は、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合には、当該所定の数に収まるように末端のノードを削除したネットワークグラフを作成し、さらに、末端のノードに対して表示し続ける旨の指示がなされている場合は、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合であっても、当該表示し続ける旨の指示がなされているノードは削除しないことを特徴とし、
    前記表示制御手段は、前記作成手段により作成されたネットワークグラフを表示することを特徴とする情報処理装置。
  2. 前記ワード選択受付手段は、さらに、前記作成手段により作成されたネットワークグラフに表示されたワードの選択を受け付け、
    前記作成手段は、さらに、前記ワード選択受付手段によりネットワークグラフに表示されたワードの選択を受け付けた場合、当該ワードと係り受け関係のあるワードのノードと、当該ノードを繋ぐエッジとを追加したネットワークグラフを作成することを特徴とする請求項に記載の情報処理装置。
  3. 前記作成手段は、さらに、前記ワード選択受付手段によりネットワークグラフに表示されたワードの選択を受け付けた場合、当該選択を受け付けたワードを識別可能なネットワークグラフを作成することを特徴とする請求項に記載の情報処理装置。
  4. 前記表示制御手段は、さらに、前記ワード選択受付手段によりネットワークグラフに表示されたワードの選択を受け付けた場合、当該ワードを含む文書の原文を表示することを特徴とする請求項2または3に記載の情報処理装置。
  5. 前記表示制御手段は、ワードの一覧およびネットワークグラフおよび文書の原文を同一画面に表示することを特徴とする請求項に記載の情報処理装置。
  6. 前記ネットワークグラフにおけるノードは、当該ノードに表示されるワードの出現頻度に応じて大きさが異なることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。
  7. 前記ネットワークグラフにおけるエッジは、当該エッジによりつながれるワード同士の係り受けの頻度により、太さが異なることを特徴とする請求項1乃至6のいずれか1項に記載の情報処理装置。
  8. 情報処理装置の表示制御手段が、文書を解析することで得られるワードを一覧表示する表示制御工程と、
    前記情報処理装置のワード選択受付手段が、前記表示制御工程により一覧表示されたワードの選択を受け付けるワード選択受付工程と、
    前記情報処理装置の作成手段が、前記ワード選択受付工程により選択を受け付けたワードが表示されたノードと、ワードとワードの係り受け関係を示しノード間をつなぐエッジとから構成されたネットワークグラフを作成する作成工程と、
    を備え、
    前記作成工程は、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合には、当該所定の数に収まるように末端のノードを削除したネットワークグラフを作成し、さらに、末端のノードに対して表示し続ける旨の指示がなされている場合は、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合であっても、当該表示し続ける旨の指示がなされているノードは削除しないことを特徴とし、
    前記表示制御工程は、前記作成工程により作成されたネットワークグラフを表示することを特徴とする情報処理方法。
  9. 情報処理装置において実行可能なプログラムであって、
    前記情報処理装置を、
    文書を解析することで得られるワードを一覧表示する表示制御手段と、
    前記表示制御手段により一覧表示されたワードの選択を受け付けるワード選択受付手段と、
    前記ワード選択受付手段により選択を受け付けたワードが表示されたノードと、ワードとワードの係り受け関係を示しノード間をつなぐエッジとから構成されたネットワークグラフを作成する作成手段として機能させ、
    前記作成手段を、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合には、当該所定の数に収まるように末端のノードを削除したネットワークグラフを作成し、さらに、末端のノードに対して表示し続ける旨の指示がなされている場合は、末端のノードから他の末端のノードまでを繋ぐエッジ数が所定の数を超える場合であっても、当該表示し続ける旨の指示がなされているノードは削除しない手段として機能させ、
    前記表示制御手段を、前記作成手段により作成されたネットワークグラフを表示する手段として機能させるためのプログラム。
JP2013269582A 2013-12-26 2013-12-26 情報処理装置、情報処理方法、プログラム Active JP6287192B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013269582A JP6287192B2 (ja) 2013-12-26 2013-12-26 情報処理装置、情報処理方法、プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013269582A JP6287192B2 (ja) 2013-12-26 2013-12-26 情報処理装置、情報処理方法、プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2018020803A Division JP6521118B2 (ja) 2018-02-08 2018-02-08 情報処理装置、情報処理方法、プログラム

Publications (3)

Publication Number Publication Date
JP2015125594A JP2015125594A (ja) 2015-07-06
JP2015125594A5 JP2015125594A5 (ja) 2017-10-19
JP6287192B2 true JP6287192B2 (ja) 2018-03-07

Family

ID=53536258

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013269582A Active JP6287192B2 (ja) 2013-12-26 2013-12-26 情報処理装置、情報処理方法、プログラム

Country Status (1)

Country Link
JP (1) JP6287192B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6987003B2 (ja) * 2018-03-20 2021-12-22 株式会社Screenホールディングス テキストマイニング方法、テキストマイニングプログラム、および、テキストマイニング装置
JP7086873B2 (ja) * 2019-01-18 2022-06-20 株式会社東芝 管理装置、方法及びプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3614618B2 (ja) * 1996-07-05 2005-01-26 株式会社日立製作所 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP4557513B2 (ja) * 2003-07-11 2010-10-06 キヤノン株式会社 情報検索装置、情報検索方法およびプログラム
JP2006285499A (ja) * 2005-03-31 2006-10-19 Nec Corp データマイニング装置、データマイニング方法およびそのプログラム
JP2007193380A (ja) * 2006-01-16 2007-08-02 So-Net Entertainment Corp 情報処理装置,情報処理方法,およびコンピュータプログラム
JP5309537B2 (ja) * 2007-11-19 2013-10-09 富士ゼロックス株式会社 グラフ表示装置およびプログラム
WO2013161850A1 (ja) * 2012-04-26 2013-10-31 日本電気株式会社 テキストマイニングシステム、テキストマイニング方法及びプログラム

Also Published As

Publication number Publication date
JP2015125594A (ja) 2015-07-06

Similar Documents

Publication Publication Date Title
US11977570B2 (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
JP5647508B2 (ja) ショートテキスト通信のトピックを識別するためのシステムおよび方法
US9323827B2 (en) Identifying key terms related to similar passages
US20130305149A1 (en) Document reader and system for extraction of structural and semantic information from documents
US9183281B2 (en) Context-based document unit recommendation for sensemaking tasks
Hinrichs et al. Trading consequences: A case study of combining text mining and visualization to facilitate document exploration
CA3077454C (en) Methods, systems, and computer-readable media for semantically enriching content and for semantic navigation
CN104182469B (zh) 对文档进行注释的方法和输入法系统
Hamborg et al. Matrix-based news aggregation: exploring different news perspectives
US20090119283A1 (en) System and Method of Improving and Enhancing Electronic File Searching
US20120179709A1 (en) Apparatus, method and program product for searching document
Maciołek et al. Cluo: Web-scale text mining system for open source intelligence purposes
TWI290687B (en) System and method for search information based on classifications of synonymous words
JP6287192B2 (ja) 情報処理装置、情報処理方法、プログラム
US20150006410A1 (en) Method and system for electronic patent review and analysis
Eisenstein et al. Topicviz: Semantic navigation of document collections
JP6521118B2 (ja) 情報処理装置、情報処理方法、プログラム
JP6384469B2 (ja) 情報処理装置、情報処理システム、制御方法、及びプログラム
Földváry Cowboy Hamlets and zombie Romeos
JP2009129176A (ja) 構造化文書検索装置、方法およびプログラム
AU2014101081A4 (en) System, method and graphical user interface for facilitating a search
Vashisht et al. Enhanced lexicon E-SLIDE framework for efficient sentiment analysis
JP6534454B2 (ja) 情報検索方法及び情報検索装置並びに情報検索システム
JP7284371B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US20230161949A1 (en) Intelligent content identification and transformation

Legal Events

Date Code Title Description
A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20150410

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20161101

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20161101

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20161222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170908

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170919

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180109

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180122

R150 Certificate of patent or registration of utility model

Ref document number: 6287192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250