JP2005250916A

JP2005250916A - 電子文書の話題単語関連図作成方法

Info

Publication number: JP2005250916A
Application number: JP2004061512A
Authority: JP
Inventors: Kojiro Kobayashi; 孝次郎小林
Original assignee: SENKU KK
Current assignee: SENKU KK
Priority date: 2004-03-05
Filing date: 2004-03-05
Publication date: 2005-09-15

Abstract

【課題】電子文書中の話題単語を抽出し、これらの関連性を図式化して電子文書の内容が視覚的に把握することを課題とする。
【解決手段】電子文書中の話題単語を抽出し、各話題単語の出現回数を計測し、一方各話題単語の全組数と該全組数における各話題単語間の距離が関連限界距離以下となる各話題単語の関連組数を計測し、計測された話題単語の全組数と関連組数を基に各話題単語間の関連率を計測し、上記各話題単語の出現回数と各話題単語間の関連率を基にして電子文書の中の話題単語間の関連を図示する電子文書の話題単語関連図作成方法。
【選択図】図８

Description

この発明は、短時間に視覚的に電子文書の概要や話題を把握できるようにした電子文書の話題単語関連図作成方法に関するものである。

テキスト文書の概要や話題を把握するには、一般に目次によって見易さを向上させる方法が採用されているが、目次による方法は、全くテキスト文書の内容を確認せずに、どんなことが書かれているのかを極簡単に把握することができるが、その反面もっとも重要な主題しか分からず、他にどのような文章が記載されているかは把握できないという欠点がある。

一方、文中の重要箇所抽出、不要箇所削除による要約手法により概要や話題など電子文書の特徴を抽出することも行われている。

更に、文単位の抽出では、重要でないとして捨てられる情報の単位が文単位であることから、要約を作成する際に情報が大きく欠落する可能性があり、そのため一文ごとに重要な箇所を抽出し、或いは削り、情報をなるべく減らさずに、テキストを短く表現しなおす要約手法もある。

現在、日本語を対象とする要約装置でも、ＪＵＭＡＮ、茶セン等の形態素解析ツール、ＫＮＰなどの構文解析ツールの普及により重要文抽出のみでなく、構文解析結果を積極的に利用した文内要約も行われるようになっている。

また、計算機の処理速度と記憶容量の増大及び大量の機械可読テキストが利用拡大に伴い、統計的手法によって概要や要約文の抽出精度の改善も図られている。
特開 2001-5821，特開 2002-288190，特開平 10-63658 号，特開平 10-69482号自然言語処理Vol.6 No.6 July 1999発行「テキスト自動要約に関する研究動向」、情報処理43巻12号2002年12月発行「テキスト自動要約における新たな展開と展望」

しかし、人間がテキスト文の要約に際してはまず内容を理解し、理解した内容に基づいて要約文を作成するが、現在の計算機によるテキスト自動要約装置では内容理解の技術が十分なほど発達しておらず、したがってこれらの要約装置によって抽出された要約文は文書全体を把握するのにあまり適していないものが多い。

そこで、この発明は、複雑な言語処理を行うことにより人間が行う要約に近い文章を作成することではなく、これとは全く別のアプローチ方法、即ち電子文書の概要や話題の関連を視覚的に表現することにより、短時間で電子文書の概要や話題を把握することを目的とするものである。

これらの目的のために、電子文書中の話題単語を抽出し、これらの話題単語の関連性を調べて得られた数値より話題単語関連図を作成して表示する方法について鋭意研究の結果、以下のような発明を完成するに至ったものである。

この発明は、電子文書中の話題単語を抽出し、各話題単語の出現回数を計測し、一方各話題単語の全組数と該全組数における各話題単語間の距離が関連限界距離以下となる各話題単語の関連組数を計測し、計測された話題単語の全組数と関連組数を基に各話題単語間の関連率を計測し、上記各話題単語の出現回数と各話題単語間の関連率を基にして電子文書中の話題単語間の関連を図示する電子文書の話題単語関連図作成方法を提案するものである。

上記各話題単語の出現回数と各話題単語間の関連率を基にして電子文書中の話題単語間の関連図を作成する方法としては、例えば出現回数の多い順に話題単語を上位に表示して囲繞し、且つ該囲繞図形を関連率に応じた太さの線分で結合した方法を挙げることができる。

ここで、話題単語は関連率に応じた径の楕円図形で囲む方法、この出現回数に応じた径の長方形図形で囲む方法、或いは話題単語の出現回数に応じた濃淡の色彩で塗りつぶす方法を採用することができる。

この発明によれば電子文書中の話題単語を抽出し、これらの話題単語の関連性を調べて得られた数値により話題単語関連図を作成して表示することにより、電子文書の内容が視覚的に把握することが出来る。

電子文書中の話題単語を抽出し、各話題単語の出現回数を計測し、一方各話題単語の全組数と該全組数における各話題単語間の距離が関連限界距離以下となる各話題単語の関連組数を計測し、計測された話題単語の全組数と関連組数を基に各話題単語間の関連率を計測し、上記のように計測した出現回数の多い順に話題単語を上位に表示し、これらの話題単語を上記のように計測した関連率に応じた径の楕円形で囲繞し、且つこれらの楕円形を関連率に応じた太さの線分で結合した方法。

この発明を図示の実施例に基づいて詳細に説明すると、はじめに対象となる電子文書のテキストに対して形態素解析を行い、代名詞を除く名刺に特化した単語抽出を行う（図１参照）。

上記により全話題単語に関して出現回数をカウントする（図２参照）。

あらかじめユーザーが定義した任意の順位以内に属する単語（以下、これを対象語と呼ぶ）に注目し、それらの単語の関連性を以下の手順を用いて解析する（図３参照）。

話題単語間に含まれる、名詞、代名詞、動詞、形容詞、形容動詞、副詞の個数を単語間の距離と呼び、各対象語の全ての組み合わせにおける距離を計測する（図４参照）。

あらかじめユーザーが定義することができる、ある２つの単語Ａ、Ｂがお互いに関連性があるか否かを判別する距離の基準値を関連限界距離と呼ぶ（図５参照）。

電子文書に含まれる全ての単語Ａ、Ｂの組み合わせの数を単語Ａ、Ｂの全組数と呼び、距離が関連限界距離以下となる組み合わせの数を単語Ａ、Ｂの関連組数と呼ぶ（図６参照）。

単語Ａ、Ｂの関連組数を単語Ａ、Ｂの全組数で割った値を単語Ａ、Ｂの関連率と呼ぶ。

以上によって説明した方法をもとに得られる出現回数、関連率をもとにして電子文書中の話題単語間の関連を図示する（図７参照）。

図８は、以上で示される方法のフローチャートの一例を示すものであり、また図９は関連率の算出のフローチャートの一例を示すものである。

各話題単語の出現回数と各話題単語間の関連率を基にして電子文書中の話題単語間の関連図は、具体的に出現回数の多い順に話題単語を上位に表示して囲繞し、且つ該囲繞図形を関連率に応じた太さの線分で結合した方法等で図示される。

ここで、話題単語は、この関連率に応じた径の楕円図形等の図形で囲繞する方法等を採用して図式化することができるが、この方法を定式化すると、話題単語関連図作成の対象となるソース全体を形態素解析し、代名詞を除く名詞に特化し抽出した単語の集合をＤ_Ｓとし、抽出された単語をＷ1,Ｗ2,・・・,Ｗi,・・・Ｗn-1,Ｗnとすると、Ｄ_Ｓは下式で表される。

Ｄ_Ｓ＝｛Ｗ1,Ｗ2,・・・,Ｗi,・・・Ｗn-1,Ｗn｝

テキストＳにおける集合Ｄ_Ｓ中の各話題単語の出現回数をＡ_Ｓ,Ｗｉとし、出現回数上位m番目までの単語を選出したものを、集合Ｎ_Ｓ,mとすると、Ｎ_Ｓ,mは下式で表される。

Ｎ_Ｓ,m＝｛Ｗ1',Ｗ2',・・・,Ｗj',・・・Ｗm-1',Ｗm'｝

但し、
Ａ_Ｓ,Ｗ1'≧Ａ_Ｓ,Ｗ2'≧・・・≧Ａ_Ｓ,Ｗj'≧・・・≧Ａ_Ｓ,Ｗm-1'≧Ａ_Ｓ,Ｗm'

話題単語関連図生成の対象となるソース全体Ｓより、Ｎ_Ｓ,mの各単語Ｗa',Ｗb'全ての組み合わせの数Ｃ（Ｎ_Ｓ,m,Ｗa',Ｗb'）を計測する。そして、Ｎ_Ｓ,mの各単語それぞれの単語間の距離L（Ｓ,Ｗa',Ｗb'）を計測し、あらかじめ設定された任意の正の整数である関連限界距離boundを超えないすなわち、bound≧L（Ｓ,Ｗa',Ｗb'）となる組み合わせの数Ｃ'（Ｎ_Ｓ,m,Ｗa',Ｗb',bound）を計測する。そしてテキストＳにおける、Ｗa',Ｗb'の関連率Ｒ（Ｓ,Ｗa',Ｗb'）は下式として算出できる。

Ｒ（Ｓ,Ｗa',Ｗb'）＝Ｃ'（Ｎ_Ｓ,m,Ｗa',Ｗb',bound）／Ｃ（Ｎ_Ｓ,m,Ｗa',Ｗb'）

ここで、Ｃ'（Ｎ_Ｓ,m,Ｗa',Ｗb'）は、Ａ_Ｓ,Ｗa'×Ａ_Ｓ,Ｗb'として計算することができる。すなわちテキストＳにおけるＷa',Ｗb'の関連率は下式として算出できる。

Ｒ（Ｓ,Ｗa',Ｗb'）＝Ｃ'（Ｎ_Ｓ,m,Ｗa',Ｗb',bound）／（Ａ_Ｓ,Ｗa'×Ａ_Ｓ,Ｗb'）（0 ≦Ｒ（Ｓ,Ｗa',Ｗb'）≦ 1）

テキストＳにおいて最も多く出現するの名詞の出現回数、すなわちＡ_Ｓ,Ｗ1'で、Ｎ_Ｓ,mにおける他の全ての出現回数を割ったものをテキストＳにおけるＷ_j'の出現率とし、Ｋ_Ｓ,Ｗj'とすると、Ｋ_Ｓ,Ｗj'は下式で表すことができる。

Ｋ_Ｓ,Ｗj＝Ａ_Ｓ,Ｗj'／Ａ_Ｓ,Ｗ1' （0 ≦Ｋ_Ｓ,Ｗj'≦ 1）

楕円の最大長径をα（話題単語関連図描画領域の横幅の３分の１）とし、関連を示す線分の太さをβ （ユーザーが任意に設定）とし、集合Ｎ_Ｓ,mの単語Ｗj'を長径α×Ｋ_Ｓ,Ｗj'、短径α×Ｋ_Ｓ,Ｗj'／４の楕円で表現し、中心地に単語のスペルを記載し、単語Ｗj'とＷj+1'との関係を線分の太さをβ×Ｒ（Ｓ,Ｗa',Ｗb'）で描画することで話題単語関連図を生成することができる（図１０参照）。

この他の話題単語関連図作成方法としては、例えば出現回数の多い順に０から１に正規化し、数値に応じた濃淡で楕円を描き、各楕円間を関連率に応じた太さの線分で結ぶ方法（図１１参照）。

出現回数の多い話題単語を上位に表示し、各単語の出現回数を最も出現回数の多い単語の数で割り０から１に出現回数を正規化し、その数値に応じた横幅を持つ長方形で各単語を囲み、各長方形を関連率に応じた太さの線で結ぶ方法（図１２参照）等を挙げることができ、この場合単語を長方形で囲む方法は楕円形で囲む方法に比べると各単語の出現回数の比率を視覚的に捉えやすい等の利点がある。

次に、この発明に係る方法により作成された話題単語関連図の好ましい実施形態について詳しく説明する。

実施態様１
メッセンジャーサービスとは、インターネットを利用して遠隔地にいる２人のユーザーが１対１の会話をテキストを基本として行うことが出来るサービスであるが、やりとりする会話の一覧性においては効率が悪く、メッセンジャーサービス利用ユーザーは、話題や話の方向性をしばしば勘違いしてしまうことがあり、ゆえに無駄な会話を重ねてしまうことや相手に誤解を与えてしまうことがある。

そこで、インターネットにおけるメッセンジャーサービスにおいて使用される話題単語関連図の実施形態は、従来のメッセンジャーサービスで提供されているサービスに加え、話題単語関連図が右横に配置される仕組みとなっている（図１３参照）。

メッセンジャーサービスにおいては、ユーザーがある時点までに行った全会話分のテキストを話題単語関連図生成のためのソースとせず、敢えて近時間で行われた会話のみを対象とすることで、より近時間の会話の話題を理解するという目的に適した、話題単語関連図を生成することができる。

一方、メッセンジャーサービスは、発言単位でデータを管理する。したがって、a番目の発言をＶaと表記し、最新の発言をＶrとするならば、過去３０件の発言すなわちＶr-29からＶrまでのテキストデータを話題単語関連図生成のためのソースとすることで、最新の話題を表現することができる。

上記例であげた３０件の発言の量を一般的に示せば、過去q件の発言とは、Ｖr-q+1からＶrと示すことができる。

時間軸調整ツマミをスライドすることで、過去に遡った話題単語関連図を閲覧する機能を提供することもできる。具体的に言えば、スライドの目盛を１ずらすことで、発言を１件分過去にずらしたテキストを話題単語関連図生成のためのソースとすることができ、時間軸調整ツマミの目盛移動距離を dとするならば、話題単語関連図生成のためのソースとなる３０件分の発言は、Ｖr-29-dから、Ｖr-dとなる。（図１４参照）。

以上を纏めると、発言全件数r、スライド移動距離d、対象とする発言件数q、となる発言のテキストＳ'_r,d,qは、下式で表すことができる。

Ｓ'_r,d,q＝｛Ｖr-q+1-d,Ｖr-q+1-d+1,・・・,Ｖr-d-1,Ｖr-d｝

ここで、メッセンジャーサービスにおいて、時間軸調整ツマミの目盛移動距離d、過去q件の発言という条件下での、よく出現するキーワードの上位 mとそのキーワードの関連性は下式で表現でき、したがってＮ_Ｓ,m とＲ（Ｓ,Ｗa',Ｗb'）を利用することでメッセンジャーサービスにおける話題単語関連図の関連性を示す線分を描画することができる。

Ｓ＝Ｓ'_r,d,q
Ｄ_Ｓ＝｛Ｗ1,Ｗ2,・・・,Ｗi,・・・Ｗn-1,Ｗn｝
Ｎ_Ｓ,m＝｛Ｗ1',Ｗ2',・・・,Ｗi',・・・Ｗm-1',Ｗm'｝
Ｒ（Ｓ,Ｗa',Ｗb'）＝Ｃ'（Ｎ_Ｓ,m,Ｗa',Ｗb',bound）／（Ａ_Ｓ,Ｗa'×Ａ_Ｓ,Ｗb'）（0 ≦Ｒ（Ｓ,Ｗa',Ｗb'）≦ 1）
但し、
Ａ_Ｓ,Ｗ1'≧Ａ_Ｓ,Ｗ2'≧・・・≧Ａ_Ｓ,Ｗj'≧・・・≧Ａ_Ｓ,Ｗm-1'≧Ａ_Ｓ,Ｗm'

実施態様２
チャットサービスとメッセンジャーサービスは多くの共通点を持つサービスであるが、サービスの利用形態がメッセンジャーサービスでは１ユーザー対１ユーザーであるのに対してチャットサービスは多ユーザー対多ユーザーであることに大きな違いである。すなわち、メッセンジャーサービスに比べて、チャットサービスは誰がどんな考えを持っている（発言を行った）のかを把握することがしばしば困難である。

そこで、インターネットにおけるチャットサービスをメッセンジャーと同様な形式でユーザー毎の話題単語関連図を作成するものである（図１５参照）。

実施態様３
既存の掲示板サービスは、掲示板全体を把握するためにはタイトルの一覧を解読しなければならず、膨大な文字列を理解しなくてはならない。また、適切なタイトルが入力されるとは限らず、閲覧者が期待する投稿文があるかないかを判断するのは困難で、しばしば既に存在する話題があるのにも拘わらず同じ内容で投稿してしまうユーザーが多くトラブルの原因になっている。

そこで、インターネットにおける掲示板サービスにおいて投稿記事のスレッドを上記同様な形式で話題単語関連図にした実施態様を示す（図１６参照）。即ち、掲示板サービスは、投稿者によって構築されていくスレッドと呼ばれる話題のかたまりがあり、このスレッドはシステムによって投稿文が管理されている。したがって、この実施態様のようにスレッドに属する全ての投稿文を話題単語関連図生成のためのソースとすることでスレッドの話題の概要を表現することができる。

実施態様４
メールサービスは爆発的に普及されているが、その閲覧する機能は従来と変わらず、現状ではメーリングリストやメールマガジンなど配信する側の機能は拡張され、個々のユーザーに届くメールの数は近年増大しつつある。また、メールサービスの普及に伴い、メールサービスは宣伝業者の友好なツールとして活用され、閲覧者にとっては迷惑なメールが来ることも多々ある。そして以上のことは、閲覧者が全てのメールを把握することを困難にする状況を生じ、閲覧者が自分宛に届いたメールを短時間で把握し取捨選択できる機能の必要性が高まっている。

そこで、インターネットにおけるメールサービスにおいてメールの内容を上記同様な形式で話題単語関連図にした実施態様を示す（図１７参照）。この実施態様のようにメール１通１通に対しての話題単語関連図の作成が有効である。与えられた、閲覧者が把握しようとしているメールを与え、そのメールに含まれているテキストデータを話題単語関連図作成のためのソースとすることで、メールの概要を把握することができる。

論文や書籍など電子文書の概要を把握する際には、複数の電子文書を統合した図面を参照する機会も多い。例えば、フォルダやコーディングされたファイル名などによってファイリングされている電子文書群において、分類されていることは認知できるが、具体的な内容がわからない場合がある。

図１８は、話題単語関連図のテキストデータにおいて使用されている話題単語関連図の実施態様を示すもので、ブラウズソフトの機能として働き、ユーザーは文書ファイルを開く前に、話題単語関連図を参照できるようにしてあり、これによれば複数の電子文書の統合したテキストデータを話題単語関連図作成のためのソースとすることで、複数の電子文書の概要を把握するための話題単語関連図の作成ができる。

この発明では電子文書の内容が視覚的に把握することができるため、インターネットにおけるメッセンジャーサービス、チャットサービス、掲示板サービス、メールサービス、論文や書籍の紹介サービス等に使用することが可能である。

電子文書のテキストデータに対して形態素解析を行い、代名詞を除く名詞に特化した話題単語抽出を行う様子を示す図図１の例をもとに、代名詞を除く名詞に特化して抽出されたの話題単語の出現回数をカウントした様子を示す図話題単語の出現回数の大きい順に整列された、代名詞を除く名詞に特化して抽出されたの話題単語の例で、且つ対象語の例を示した図話題単語間の距離の例を示す図話題単語Ａ、Ｂに関連性があるかないかを判別する例を示す図話題単語Ａ、Ｂの全ての組み合わせから、距離が関連限界距離以下となる組み合わせの数を計測する様子を示す図話題単語関連図の一例を示す図この発明の一実施例を示すフローチャート図この発明において関連率の算出のフローチャートの一例を示す図必要な計算式を含んだ話題単語関連図の一例を示す図話題単語関連図の他の一例を示す図話題単語関連図の更に他の一例を示す図この発明の一実施態様である話題単語関連図表示機能を搭載したメッセンジャーサービスの操作画面の一例を示す図同上のメッセンジャーサービスにおいて時系列的な話題の流れを把握するために時間軸調節ツマミを付加した図この発明の他の実施態様である話題単語関連図表示機能を搭載したチャットサービスの操作画面の一例を示す図この発明の更に他の実施態様である話題単語関連図表示機能を搭載した掲示板サービスの操作画面の一例を示す図この発明の更に他の実施態様である話題単語関連図表示機能を搭載したメールサービスの操作画面の一例を示す図この発明の更に他の実施態様である話題単語関連図表示機能を搭載したブラウズソフトの操作画面の一例を示す図

符号の説明

１代名詞を除く名詞のみに抽出された単語のうち最も出現回数の多い単語
２出現回数
３対象語
４対象条件順位

Claims

電子文書中の話題単語を抽出し、各話題単語の出現回数を計測し、一方各話題単語の全組数と該全組数における各話題単語間の距離が関連限界距離以下となる各話題単語の関連組数を計測し、計測された話題単語の全組数と関連組数を基に各話題単語間の関連率を計測し、上記各話題単語の出現回数と各話題単語間の関連率を基にして電子文書中の話題単語間の関連を図示することを特徴とする電子文書の話題単語関連図作成方法。
上記各話題単語の出現回数と各話題単語間の関連率を基にして電子文書中の話題単語間の関連率が出現回数の多い順に話題単語を上位に表示して囲繞し、且つ該囲繞図形を関連率に応じた太さの線分で結合した方法で図示される請求項１記載の電子文書の話題単語関連図作成方法。
囲繞図形がこれに囲まれる話題単語の関連率に応じた径の楕円図形である請求項２記載の電子文書の話題単語関連図作成方法。
囲繞形状がこれに囲まれる話題単語の出現回数に応じた径の長方形図形である請求項２記載の電子文書の話題単語関連図作成方法。
囲繞図形内をこれに囲まれる話題単語の出現回数に応じた濃淡の色彩で塗りつぶすようにした請求項２記載の電子文書の話題単語関連図作成方法。