JP4462014B2 - 話題語結合方法及び装置及びプログラム - Google Patents

話題語結合方法及び装置及びプログラム Download PDF

Info

Publication number
JP4462014B2
JP4462014B2 JP2004331067A JP2004331067A JP4462014B2 JP 4462014 B2 JP4462014 B2 JP 4462014B2 JP 2004331067 A JP2004331067 A JP 2004331067A JP 2004331067 A JP2004331067 A JP 2004331067A JP 4462014 B2 JP4462014 B2 JP 4462014B2
Authority
JP
Japan
Prior art keywords
topic
word
document
words
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004331067A
Other languages
English (en)
Other versions
JP2006139718A (ja
Inventor
佳代 池田
伸治 安部
雅且 大久保
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2004331067A priority Critical patent/JP4462014B2/ja
Publication of JP2006139718A publication Critical patent/JP2006139718A/ja
Application granted granted Critical
Publication of JP4462014B2 publication Critical patent/JP4462014B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、話話題語結合方法及び装置及びプログラムに係り、特に、日々新しく発信される大量のWebページ等の文書において、それらに関わる複数の話題語があったときに、それらの話題語同士の関連性から話題語を結合して代表語を抽出し、また、その代表語に関わる文書数等から、その代表語の話題の大きさを把握することができる、話題語結合方法及び装置及びプログラムに関する。
近年では、日々刻々と情報が更新され、ユーザに提供されるようになってきた。特に、インターネット上における情報の更新速度と増加量は著しい。このような中で、世の中の関心事に沿った話題に合わせて、ユーザが欲しい情報を入手することは困難である。
しかし、日々更新される情報の中には、世の中の関心事や新たな出来事、事件の経緯、流行等、ユーザが関心を示す多くの話題を含んでいる可能性が高い。そこで、これらの情報を分析することによって、ユーザの関心を示す話題などを抽出することができる。
また、多くの情報の中から所望のコンテンツを得ようとした場合、検索しただけでは、なかなか欲しい情報を得られない場合がある。そこで、入手した情報をあるキーワード(文字列)によって自動分類するような技術も多く提案されている。
世の中の関心事を表示するという観点では、検索ポータルサイト等で、よく使われる検索キーワードを表示するようなサービスも行われている。
話題の抽出においては、第1の従来技術として、複数の文書情報から抽出する技術が提案されている。当該技術は、複数の話者の発信源内容を文書化したデータから会話の主題を表す語を抽出する技術である。これは、会話内容の文書化データから形態素解析によって主題として名詞を切り出し、会話の流れの中でそれらの出現頻度や出現間隔に基づいて、語の重み(話題を表す可能性)を決定する技術である。この技術においては、1発言中での利用頻度が高い語や、しばらく利用されなかった後に利用された語を、重要度が高いとして評価を行う(例えば、特許文献1参照)。
また、第2の従来技術として、次々と送られてくる掛け合いのようなメッセージ情報から、その情報の勢いを算出し、その勢いの強い語句を品詞の連続などで表現された話題語として抽出する技術がある(例えば、非特許文献参照)。
また、第3の従来技術として、情報の分類においては、検索エンジンで収集したWebページの文書内を解析し、その文書から人名・地名などの特徴的な固有表現を抽出し、それを検索結果に対するインデックスとしてユーザに提示するという、Webページを分類する技術である(例えば、非特許文献2参照)。
また、第4の従来技術として文書の意味のある文字列である語句の出現頻度によって語句ベクトルを算出し、文書間の類似性に応じて文書をクラスタリングする技術である。また、その語句ベクトルの類似性に応じてクラスタを命名する技術である(例えば、特許文献2参照)。
特許第2931553号公報 特許第3385297号公報 石井恵他、「名詞と単語の勢いを用いた話題抽出手法の提案」情報処理学会研究報告、vol.2004 No.23, 2004-NL-160,pp79-84 戸田浩之他、「特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案」情報処理学会研究報告、vol.2004, No.45, 2004-FI-75, pp.99-106
本発明の中での話題語とは、多くの文書で取り上げられているような語句であり、時間的変化があるような語句(多くの文書に短期的に集中して出現しているような語句、長期的に多くの文書で取り上げられているような語句など)があげられる。また、その中でも魅力的な話題語としては、インパクトの強い語句であり、内容がすぐにイメージできるようなものであることが望ましい。話題語は、ある話題(トピック・流行・世の中の関心事)を品詞の結合などによって表した語句である。例えば、オリンピックが行われているときに、人々は、オリンピックについてたくさんの会話を行い、また、文書を書いたりする。よって、そのときに集中して出現するような語句としての話題語は、「オリンピック出場決定」「金メダル受賞」「メダル数史上最多」等があげられる。
前述の第1・第2の従来技術では、話題を抽出しているが、その話題語間や文書間の関連性を知ることはできない。
前述の第3・第4の従来技術では、文書をキーワードによって分類するところまでを行うものである。キーワードを話題語として置き換えたとしても、それら関連する話題語が形成する話題の大きさや文書間の関連性を知ることはできない。
同様に、検索ポータルサイトなどで行われている、検索キーワードランキングも、人々が関心を寄せているという意味では、話題語として捉えることはできるが、そのキーワード間の関連性を知ることはできない。
また、第3の従来技術のように、一つの文書が複数の話題に属するような分類を行う場合もある(多重分類や重複クラスタリングともいう)。このような時は特に、複数の話題語同士が互いに関連をもっている場合が多い。しかし、第3の従来技術では、話題語の関連性が示されず、また、その話題語個々に分類されているために、関連性のある話題語全体が形成する話題の大きさを知ることができない。
本発明は、上記の点に鑑みなされたもので、複数の文書とそれらに関わる複数の話題語があったときに、その話題語同士の関連性や、関連した話題語を結合して代表語を抽出し、また、その代表語に関わる文書数等から、その代表の話題の大きさを把握することができる、話題語結合方法及び装置及びプログラムを提供することを目的とする。
図1は、本発明の原理説明図である。
本発明(請求項1)は、話題語同士の関連性から話題語を結合する話題語結合方法において、
本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出ステップ(ステップ1)と、
文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合ステップ(ステップ2)と、を有し、
文書共有度算出ステップ(ステップ1)において、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
割合を、該当する2つの話題語が関連する鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する鮮度の重み付き文書数とした、文書共有度で算出し、
文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する話題語結合ルールを用いる。
本発明(請求項)は、請求項1の話題語結合ステップ(ステップ2)の後に、
代表語抽出記憶手段に格納されている代表語抽出ルールに基づいて、話題語結合ステップで結合した話題語グループの代表語を抽出する代表語抽出ステップを行う。
また、本発明(請求項)は、請求項の話題語結合方法の代表語抽出ステップにおいて、
結合した話題語グループ全体に対する代表語を抽出する際に、
結合した話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
鮮度の重みは、文書が新しいほど大きくし、
鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くする代表語抽出ルールを用いる。
また、本発明(請求項)は、請求項の話題語結合方法の代表語抽出ステップにおいて、
代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする。
図2は、本発明の原理構成図である。
本発明(請求項)は、話題語同士の関連性から話題語を結合する話題語結合装置であって、
話題語結合ルール22を格納する話題語結合記憶手段620と、
本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段620に格納されている話題語結合ルール22により、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出手段502と、
文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合手段503と、を有し、
文書共有度算出手段502は、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
割合を、該当する2つの話題語が関連する鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する鮮度の重み付き文書数とした、文書共有度で算出し、
文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する話題語結合ルール22を用いる。
また、本発明(請求項)は、代表語抽出記憶手段640に格納されている代表語抽出ルール24を参照して、話題語結合手段503で結合した話題語グループの代表語を抽出する代表語抽出手段320を更に有する。
また、本発明(請求項)は、請求項話題語結合装置の代表語抽出ルール24を
結合した話題語グループ全体に対する代表語を抽出する際に、
結合した話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
鮮度の重みは、文書が新しいほど大きくし、
鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くするルールとする。
また、本発明(請求項)は、請求項7の話題語結合装置の代表語抽出手段320において、
代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする。
本発明(請求項)は、関連する話題語を結合する話題語結合プログラムであって、
請求項5乃至8記載のいずれか1項に記載の話題語結合装置を実現するための処理をコンピュータに実行させる話題語結合プログラムである。
本発明(請求項20)は、関連する話題語を結合し、代表語を抽出する話題語結合・代表語抽出プログラムであって、
請求項4乃至9記載の話題語結合・代表語抽出方法を実現するための処理をコンピュータに実行させるプログラムである。
話題語として設定されている語句は、独立していることよりも、互いに関連している可能性が高い。よって、本発明によれば、話題語同士の文書共有度によって話題語を結合することで、今まで見えていなかった話題語同士の関係とそれらが解析対象とする文書全体の中で占める話題の大きさを把握することができる。
また、その代表語を抽出することで、本来その話題語がどのような話題で盛り上がっているかを知ることもできる。解析対象の文書が刻々と変化するようなニュースやWeblog等であれば、その時の話題、つまり、流行や人々の関心事を捉えることができる。
また、文書共有度の算出や代表語の抽出には、文書の時間的な鮮度の重みや話題度を用いることで、より新しく出てきた話題に関する結合がされやすくなり、そして代表語としてより新しく出てきた語句が採用されやすくなるため、時間的な変化の激しい中でもより新しく影響の強い話題に対応できる。
また、文書共有度として、ある話題語の他の話題語に対する文書共有度を利用することで、互いの話題語の依存関係を把握しながら、話題語の結合を判断することができる。
また、文書共有度として、話題語同士の文書共有度をある2つの話題語間の文書共有度を利用することで、互いの話題語が深く関わっている話題に対応することができる。
代表語として、結合された話題語が持つ全ての文書から語句を抽出することで、全体を包含するような話題を抽出することができる。一方、代表語として結合された話題語間で共有する文書のみを代表語抽出の解析に利用することでは、話題語間でより結びつきの強い語句を代表語とすることができる。つまり、その話題の中で影響がある語句を採用することができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の概要を説明するための図であり、図4は、本発明の概要動作のフローチャートであり、図5は、本発明の一実施の形態における話題語の結合とその代表語の抽出装置の構成を示す。
本発明は、複数の文書とそれらに関わる複数の話題語があったときに、その話題語同士の関連性や関連した話題語を結合して代表語を抽出し、また、その代表語に関わる文書数等から、その代表語の話題の大きさを把握することができる、関連する話題語の結合処理とその代表語の抽出処理を行う。
上記の処理において、本文と日付を含んだ複数の文書と、その文書それぞれが関係している話題語が与えられたときに、以下の処理を行う。なお、ここで、本文とは、ある事柄に関して記述されている意味のある文章によって構成される。また、日付とは、その文書の作成日付もしくは、公開日付などを示す日付や時刻を指す。また、話題語とは、単語や句、品詞の連続で表される意味のある文字列である。なお、話題語と文書は多対多の関係である。
ステップ101) 話題語結合処理部500において、話題語データベース(DB)21から文書情報と話題語を読み出して、結合できる話題語があるかどうかを判断し、話題語を結合する。話題語間で共有する文書があるものは、話題語結合記憶部620に格納されている話題語結合ルール22に基づいて、それぞれの話題語に属する文書を基に、話題語間の文書共有度を算出し、結合する話題語があるかを判断し、結合する話題語があれば、それらを1つの話題語グループとし結合する。
例えば、図3のような話題語とそれに関係する文書情報が読み込まれた場合、話題語AとCは、「文書1」を共有しており、話題語AとDは、「文書2」「文書3」「文書4」を共有している。同様に、話題語BとEも「文書7」「文書8」を共有している。
話題語結合ルール22では、話題語間で共有する文書の共有度の算出方法と、その共有度が閾値X(正の数)以上になったときに結合されると判断するため、その閾値Xの値が格納されている。この算出方法や閾値は、随時変更可能である。
話題語間で共有する文書の共有度は、次のようなものがある。例では、図3のような話題語A,C,Dがあった場合を示す。
タイプ1:ある話題語の他の話題語に対する文書共有度:
例){AとCで共有する文書数)/(Aの文書数)}を話題語Aの話題語Cに対する文書共有度とする(1/4=0.75)
タイプ2:ある2つの話題語間の文書共有度:
例){AとCで共有する文書数}/(AとCの持つオリジナルな文書数の合計)}を話題語AとCの文書共有度とする(1/7=0.14:小数点第3以降四捨五入)
上記のタイプ1に従った場合、ある2つの話題語間で算出された文書共有度が互いに閾値X以上になる、もしくは、どちらか片方の話題語のもう一方に対する文書共有度が閾値X以上になる場合に、2つの話題語を結合すると判断する。また、タイプ2に従った場合は、算出された文書共有度が閾値X以上になる場合、2つの話題語を結合すると判断する。
タイプ1、タイプ2共に、文書共有度算出の際に、文書数の代わりに文書それぞれが持つ日付や時刻を鮮度の重みを用いて、文書共有度を計算することもできる。例えば、文書共有度=(共有する文書それぞれの鮮度の重みの和)/(2つの該当する話題語が持つ文書それぞれの鮮度の重みの和)。この鮮度の重みは、日付や時間が新しいものほど、文書共有度が高くなるように作用する。例えば、現在が2004年9月1日であり、ある2つの文書JとKが、それぞれの作成日付として、J:2004年9月1日と、K:2004年8月1日であった場合、文書Jの鮮度の重みは1、現在よりも31日前の文書であることから、重みを1/31というように1を現在の経過日数で除算した値をとってもよい。
このようにして結合された話題語は、1つの話題語グループとし、話題語DB21に格納する。
ステップ102) 代表語抽出処理部520において、結合した話題語の代表語を抽出する。
代表語抽出記憶部640に格納されている代表語抽出ルール24に基づき、結合された
話題語が持つ文書を文書DB20から読み出して解析し、結合された話題語グループ(1つに結合した話題語の集まり)を表す代表語を生成する。
代表語抽出ルール24では、結合した話題語が持つ文書を解析し、その話題語全体の代表語となるような語句を抽出する方法が記述されている。ここで、代表語となるような語句とは、単語や句、品詞の連続で表される意味のある文字列を指す。このルールは、随時変更可能である。このルールには、次のようなものがある。
結合した話題語グループが持つ文書(結合した話題語それぞれに関係している文書)の中で最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とする。
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数、また結合しない他の話題語が持つ文書から同様に抽出した語句とその差分で算出する。
例えば、話題度は次のように計算できる。
ある語句Tの鮮度の重みをTW、結合する話題語が持つ文書の中でTが出現する頻度をTF、結合しない他の話題語が持つ文書の中でTが出現する頻度をATFとしたとき、ある語句Tの話題度=TW×log(TF/ATF)となる。TWは、ステップ101に記述されている鮮度の重みと同様の算出方法とする。
話題語が持つ文書としては、話題語各々が持つ文書全てを対象とする場合や、話題語間で共有している文書のみを対象とすることもできる。
抽出された代表語は、話題度と共に話題語DB21に結合された話題語の補助情報として格納する。例えば、抽出された代表語や話題度、また結合された話題語やそれに含まれる文書は、例えば、図3の最下段の例に示すように出力される。
以下、本発明の実施例を図面と共に説明する。
本発明の実施例では、図6に示すような文書と話題語の関係の簡略イメージがあったときに、複数の文書(ある事柄に関して記述されている、意味のある文章によって構成される本文、その文書の作成日付もしくは公開日付などを示す日付や時刻を含む)と、その文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が与えられた時に(話題語と文書は、多対多の関係)、その話題性の大きさとその話題を示す代表語を抽出することを目的とする。
図6は、2004年8月25日時点において、話題語DB21に示すような話題語を持ち、文書DB20に示すような文書とその公開日付を持つ。また、話題語DB21と文書DB20を結ぶ複数の線は、各々の話題語と文書との関係を示している。例えば、「帰省」という話題語は、「文書1」「文書2」「文書3」「文書4」を持っている。また、「文書3」は、話題語「帰省」と「自由課題」を持っている。
ここでの文書は、話題性という観点から、何らかの特徴を持っていた方が適する。例えば、Weblogやニュース、一般的なWebページの新着ページを基にするとその時々で盛り上がっている話題性が抽出できる。また、ある特定の事柄について説明しているようなページ、例えば、フランスの歴史について複数ページわたって説明している文書であれば、その歴史の主な話題を抽出することもできる。あるいは、インターネット検索サイトなどで行われている、最新の検索語ランキング等を利用して、検索エンジンにてそのランキング上位の検索キーワードで検索し、文書を集めるような方法でもよい。検索キーワードランキングで上位になっているようなキーワードは、必ずしも独立しているわけではなく、その時々で流行しているような話題に関連しあっていることも少なくない。よって、上記のように収集した文書もその話題に即した内容を記述したものが検索されてくる可能性が高い。このため、本発明を利用することで検索キーワードランキングだけでは見えていなかった、キーワード同士の話題のつながりが見えてくる。
処理の詳細については、以下で説明する。
図5に示す装置は、コンピュータ10とこのコンピュータ10にネットワーク40を介して接続される文書DB20と話題語DB21、話題語結合ルール22を格納する話題語結合記憶部620と代表語抽出ルール24を格納する代表語抽出記憶部640から構成されている。
コンピュータ10は、RAM,ROM、磁気ディスク等からなるメモリ、CPU、ディスプレイによる表示部11、及び、マウスやキーボードなどからなる指示入力部12から構成されており、CPUが実行するソフトウェアプログラムによって実現される話題語結合処理部500と代表語抽出処理部520を備えている。
文書DB20には、本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻情報)をからなる複数の文書が格納されている。
なお、上記に示す情報が文書DB20に格納されることに限定されることなく、少なくとも本文と作成時刻を示す情報が格納されていればよい。
話題語DB21には、話題語・文書情報(文書名もしくは文書キー)・結合した話題語同士をグループ化した話題語グループ情報・文書共有度・代表語が格納される。
なお、話題語DB21に予め格納されているのは、話題語と当該話題語が持つ文書の情報のみであり、話題語グループ情報、文書共有度、ある1つの話題語グループに含まれる話題語と、当該話題語が関連する文書から抽出された代表語については、以下に示す一連の処理を行うことで格納される。また、文書DB20と話題語DB21の内容を1つのDBにまとめて管理してもよい。
また、以下に示す一連の処理により話題語DB21に格納される情報のうち、話題語グループ情報、文書共有度、ある1つの話題語グループに含まれる話題語と、当該話題語が関連する文書から抽出された代表語は必ずしも話題語DB21に格納される必要はなく、別の記憶手段であってもよく、上記の方法に限定されるものではない。
話題語結合ルール22は、話題語結合選定記憶部620に格納され、話題語間で共有する文書共有度の算出方法と、その共有度が閾値X(正の数)以上になったときに、話題語が結合されると判断するための閾値Xの値が格納されている。このルールは、追加変更などを自在に行うことができる。
代表語抽出ルール24は、代表語抽出記憶部640に格納され、結合した話題語が持つ文書を解析し、その話題語全体の代表語となるような語句(単語や句、品詞の連続で表される意味のある文字列)を抽出する方法が格納されている。このルール24は、追加変更などを自在に行うことができる。
話題語結合処理部500と代表語抽出処理部520は、このように構成される装置の基で以降に説明する処理を実行することで本発明を実現するように動作する。
以下にその動作を説明する。
[1]話題語結合処理部500
図7は、本発明の一実施例の話題語結合処理部の構成を示し、図8は、本発明の一実施例の話題語結合処理のフローチャートである。
ステップ601) 読み込み部501は、話題語DB21から各話題語及び当該話題語に関連する文書情報を読み込む。
ステップ602) 文書共有度算出部502は、ステップ601で取得した話題語と文書情報の関係情報から、話題語間で共有する文書があるものについて、話題語結合記憶部620に格納されている話題語結合ルール22に基づいて、それぞれの話題語に属する文書にもとに話題語間の文書共有度を算出し、話題語結合判定部503において、話題語を結合するか否かを判定する。
例えば、図6においては、話題語「帰省」と「自由課題」は、「文書3」「文書4」を共有している。また、話題語「金メダル」と「体操団体」は、「文書7」「文書8」を共有し、「アーチェリー」と「金メダル」は「文書11」を共有し、「柔道」と「金メダル」は「文書14」「15」「16」を共有している。また、「アーチェリー」は「柔道」とも「文書11」「文書12」を共有している。
話題語結合ルール22では、話題語間で共有する文書の共有度の算出方法と、その共有度が閾値X(正の数)以上になったときに結合されると判断するための閾値Xの値が格納されている。この算出方法や閾値は随時変更可能である。
ステップ602−1) 文書共有度算出部502は、文書共有度の算出タイプを選択し、その選択したタイプの計算を全ての共有する文書を持つ話題語の組み合わせに対して行う。また、算出された文書共有度は、話題語DB21に格納する。話題語間で共有する文書共有度は、様々な算出方法があるが、本実施例では、次の2つのタイプをあげておく。例として図6を用いて説明する。
タイプ1:ある話題語の他の話題語に対する文書共有度
例){(「帰省」と「自由課題」で共有する文書数)/(「帰省」の文書数)}を話題語「帰省」の話題語「自由課題」に対する文書共有度とする(2/4=0.5)
タイプ2:ある2つの話題語間の文書共有度
例){(「帰省」と「自由課題」で共有する文書数)/(「帰省」と「自由課題」の文書総数)}を話題語「帰省」と「自由課題」の文書共有度とする(2/6=0.33:小数点第3以降四捨五入)
ステップ602−2) 話題語結合判定部503において、ステップ602−1で算出された文書共有度が閾値X以上になる話題語同士を探し、それらを話題語結合対象とする。結合する話題語同士は1つの話題語グループとなる。
上記のタイプ1に従った場合、ある2つの話題語間で算出された文書共有度が互いに閾値X以上にある、もしくは、どちらか片方の話題語のもう一方に対する文書共有度が閾値X以上になる場合に、2つの話題語を結合すると判断する。また、タイプ2に従った場合は、算出された文書共有度が閾値X以上になる場合、2つの話題語を結合すると判断する。例えば、閾値X=0.4の時、上記のタイプ2の例で算出された話題語「帰省」と「自由課題」は、文書共有度(0.33)が閾値Xに達しないため、結合しないと考える。
例えば、タイプ2に従って計算したときに、話題語「金メダル」と「体操団体」・「アーチェリー」・「柔道」の3つの話題語とも閾値Xを超える文書共有度を持つ場合は、「金メダル」、「体操団体」、「アーチェリー」、「柔道」を結合することになる。この4つの話題語は、1つの話題語グループとなる。また、「金メダル」と「体操団体」・「柔道」の2つの話題語の文書共有度のみ閾値Xを超え、尚且つ、「柔道」と「アーチェリー」の文書共有度が閾値Xを超えた場合も、結局は「金メダル」、「体操団体」、「アーチェリー」、「柔道」を結合することになる。
タイプ1、タイプ2ともに、文書共有度算出の際に、文書数の代わりに文書それぞれが持つ日付や時刻の鮮度の重みを用いて、文書共有度を計算することもできる。例えば、文書共有度=(共有する文書それぞれの鮮度の重みの和)/(2つの該当する話題語が持つ文書のそれぞれの鮮度の重みの和)。この鮮度の重みは、文書DB20から読み込まれた文書の日付や時間が新しいものほど、文書共有度が高くなるように作用する。例えば、図6のように、計算時点で、2004年8月25日であり、ある2つの「文書1」と「文書2」が、それぞれの作成日付として2004年8月15日と2004年8月16日であった場合、「文書1」は、現在よりも10日前の文書であることから、鮮度の重みは{1/(25−15)}、「文書2」は、鮮度の重みを{1/(25−16)}というように1を現在の経過に数で除算した値をとってもよい。
ステップ603) ステップ602で結合すると判断された話題語について、出力部504は、1つの話題語グループとして結合する話題語の名前等を書く話題語の付属情報として話題語DB21に格納する。
[2]代表語抽出処理部520:
図9は、本発明の一実施例の代表語抽出処理部の構成を示し、図10は、本発明の一実施例の代表語抽出処理のフローチャートを示す。
ステップ901) 読み込み部521において、代表語抽出記憶部640に格納されている代表語抽出ルール24を読み込む。次に、代表語抽出部522は、代表語抽出ルール24から代表語抽出タイプを選択する。
代表語抽出ルール24では、結合した話題語が持つ文書から、その話題語全体の代表語となるような語句(単語や句、品詞の連続で表される意味のある文字列)を抽出する方法が格納されている。このルールは、随時変更可能である。このルールには、例えば、ステップ902で説明するようなものがある。
ステップ902) 読み込み部521において、話題語DB21の情報を読み出し、代表語候補抽出部522は、1つの話題語グループが持つ文書(結合した話題語それぞれが関係する文書)を文書DB20から取得する。この、話題語グループが文書として、話題語各々が関連する文書全てを対象とする場合と、話題語間で共有している文書のみを対象とすることもできる。
例えば、図6において話題語「金メダル」と「体操団体」と「柔道」を話題語グループとして結合するときの話題語各々が関連する文書とは、「文書7」「文書8」「文書9」「文書11」「文書12」「文書14」「文書15」「文書16」である。また、文書間で共有している文書とは、「文書7」「文書8」「文書11」「文書14」「文書15」「文書16」である。
ステップ903) 代表語候補抽出部522において、結合した話題語が持つ各々の文書の本文を形態素解析し、代表語になりそうな語句(単語や句、品詞の連続で表される意味のある文字列)の候補を抽出する。
この代表語になりそうな語句とは、様々な取り方があるが、本実施例では、次のような語句を対象にすることとする。
代表語は、話題語の集合を表すことから、話題語と同様にユーザの興味をひくようなインパクトが強いものや一見してコンテンツの内容がイメージできるものの方が利用価値が高い。
インパクトが強い言葉としては、固有名詞や新しい言葉があげられる。新しい言葉は、形態素解析の辞書に登録されていないことが多いため、未知語の連続として扱われる。そこで、今回は、カタカナの未知語の連続を固有名詞とし、アルファベットの未知語の連続を名詞と位置付けて採用することとする。
一見してコンテンツの内容がイメージできる言葉は、それ自身で具体性のある固有名詞や連続することで具体性の高まる名詞の連続、また、名詞同士を格助詞の「の」で挟んだ言葉等があげられる。また、その言葉を一見してイメージできるものとして、長すぎる言葉はユーザが読み上げなくてはいけなくなるために適さない。よって、一定の長さ以下であることが望ましいといえる。
以上のことから、話題語の代表語として扱われる中でも固有名詞、名詞の連続、名詞+格助詞「の」+名詞を一定の長さ以下で記述された名詞句を本実施例では採用することとする。以下にその正規表現を示す。「?」は、直前の語の0かまたは1回の出現を意味し、「│」は、その記号の前後の語のorをとることであり、「{A,B}」は、直前の語のA回以上B回以下の繰り返しを意味する。但し、A,Bは正の整数である。また、a:格助詞「の」、n:名詞、N:固有名詞、p:名詞接頭辞、s:名詞接尾辞を表す。
1) (p?(n│N)s?{2,4}
2) (p?(n│N)s?){1,3}a(p?(n│N)s?{1,3}
3) N
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長マッチングを代表語の候補として取得する。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景のイメージしやすい語彙を抽出することも可能である。また、上記の方法以外に、名詞2語の繰り返しや名詞のみを代表語の候補とすることもできる。
ステップ904) ステップ903で代表語の候補となった語句それぞれに対し、話題計算部523は、話題度を計算する。
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数、また結合しない他の話題語が持つ文書から同様に抽出した語句との差分で算出する。
鮮度の重みは、ステップ602−2に記述した重みと同じである。話題度は、語句が出現する文書の数が多いほど大きくなり、また、鮮度の重みが大きいほど(つまり、新しい文書から抽出された語句)大きくなる。例えば、語句が出現する文書の鮮度の重みを全て加算した値でもよい。
例えば、話題度は、次のように計算できる。
ある語句Tの鮮度の重みをTW、結合する話題語が持つ文書の中でTが出現する頻度をTF、結合しない他の話題語が持つ文書の中でTが出現する頻度をATFとしたとき、
ある語句Tの話題度=TW×log(TF/ATF)
ここでの出現頻度は、文書1つに対して1度でも語句Tが出現したら1とカウントする場合と、文書1つに対してY(0または正の整数)回出現したらYとカウントする場合などがある。
話題語が持つ文書としては、話題語各々が持つ文書全てを対象とする場合や、話題語間で共有している文書のみを対象とすることもできる。
ステップ905) 代表語決定部524において、ステップ904で算出された話題度が最も高い代表語の候補を代表語とし、決定された代表語は、出力部525により、話題度とともに話題語DB21に結合された話題語の補助情報として格納される。
上記のステップ901〜905までの処理を結合する話題語がなくなるまで繰り返し実行する。
以上のようにして、結合された話題語と結合した話題語の代表語は、例えば、図11に示すように、話題度が最も高い代表語順に出力される。または、前述の図3の最下段に示すように出力される。
この情報は、リスト形式でなく、マップのような形式で表示されることも可能である。表示方法については、2次元や3次元等様々に適用することができる。
また、上記の実施の形態及び実施例で説明した話題語結合処理部500、代表語抽出処理部520の処理をプログラムとして構築し、話題語の結合・代表語の抽出装置として利用されるコンピュータに実行させる、または、ネットワークを介して流通させることも可能である。
また、構築されたプログラムを話題語の結合・代表語の抽出装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスクやCD−ROM等の可搬記憶媒体に格納しておくことも可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、ニュースやBlog等の日々更新されていく情報とその情報から抽出された最近の話題となっている語を基に、関係性のある話題語を結合する方法とその結合した話題の代表語を抽出する技術に適用可能である。また、これを利用した商品企画や、マーケティングなどに適用可能である。
本発明の原理説明図である。 本発明の原理構成図である。 本発明の概要を説明するための図である。 本発明の概要動作のフローチャートである。 本発明の一実施の形態における関連する話題語の結合とその代表語の抽出装置の構成図である。 本発明の一実施例における文書と話題語の関係の簡略イメージである。 本発明の一実施例の話題語結合処理部の構成図である。 本発明の一実施例における話題結合処理のフローチャートである。 本発明の一実施例の代表語抽出処理の構成図である。 本発明の一実施例における代表語抽出処理のフローチャートである。 本発明の一実施例における出力例である。
符号の説明
10 コンピュータ
11 表示部
12 指示入力部
20 文書データベース(DB)
21 話題語データベース(DB)
22 話題語結合ルール
24 代表語抽出ルール
300 話題語結合手段
320 代表語抽出手段
500 話題語結合処理部
501,521 読み込み部
502 文書共有度算出手段、文書共有度算出部
503 話題語結合手段、話題語結合判定部
504,525 出力部
520 代表語抽出処理部
522 代表後候補抽出部
523 話題度計算部
524 代表語決定部
620 話題語結合記憶手段、話題語結合選定記憶部
640 代表語抽出記憶手段、代表語抽出記憶部

Claims (9)

  1. 話題語同士の関連性から話題語を結合する話題語結合方法において、
    本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出ステップと、
    前記文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合ステップと、を有し、
    前記文書共有度算出ステップにおいて、
    文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
    ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
    前記割合を、該当する2つの話題語が関連する前記鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する前記鮮度の重み付き文書数とした、文書共有度で算出し、
    前記文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する前記話題語結合ルールを用いることを特徴とする話題語結合方法。
  2. 前記話題語結合ステップの後、
    代表語抽出記憶手段に格納されている代表語抽出ルールに基づいて、前記話題語結合ステップで結合した前記話題語グループの代表語を抽出する代表語抽出ステップを行うことを特徴とする請求項1に記載の話題語結合方法。
  3. 前記代表語抽出ステップにおいて、
    結合した前記話題語グループ全体に対する代表語を抽出する際に、
    結合した前記話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
    前記話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
    前記鮮度の重みは、文書が新しいほど大きくし、
    前記鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くする前記代表語抽出ルールを用いる請求項記載の話題語結合方法
  4. 前記代表語抽出ステップにおいて、
    前記代表語を抽出する文書の対象を、
    結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする請求項記載の話題語結合方法
  5. 話題語同士の関連性から話題語を結合する話題語結合装置であって、
    話題語結合ルールを格納する話題語結合記憶手段と、
    本文(ある事柄に関して記述されている、意味のある文章によって構成される)と日付(その文書の作成日付もしくは公開日付などを示す日付や時刻)を含んだ複数の文書と、該文書それぞれが関係している話題語(単語や句、品詞の連続で表される意味のある文字列)が入力されると(但し、話題語と文書は多対多の関係)、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出手段と、
    前記文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合手段と、を有し、
    前記文書共有度算出手段は、
    文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
    ある2つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
    前記割合を、該当する2つの話題語が関連する前記鮮度の重み付き文書総数(1文書は、2重カウントしない)に対する話題語間で共有する前記鮮度の重み付き文書数とした、文書共有度で算出し、
    前記文書共有度が閾値X(正の数)以上になった場合にその話題語同士を結合する前記話題語結合ルールを用いることを特徴とする話題語結合装置。
  6. 代表語抽出記憶手段に格納されている代表語抽出ルールを参照して、前記話題語結合手段で結合した前記話題語グループの代表語を抽出する代表語抽出手段を更に有することを特徴とする請求項5記載の話題語結合装置
  7. 前記代表語抽出ルールは、
    結合した前記話題語グループ全体に対する代表語を抽出する際に、
    結合した前記話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句(単語や句、品詞の連続で表される意味のある文字列)を代表語とし、
    前記話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
    前記鮮度の重みは、文書が新しいほど大きくし、
    前記鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くするルールとする請求項6記載の話題語結合装置
  8. 前記代表語抽出手段は、
    前記代表語を抽出する文書の対象を、
    結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とすることを特徴とする請求項7記載の話題語結合装置
  9. 関連する話題語を結合する話題語結合プログラムであって、
    前記請求項5乃至8記載のいずれか1項に記載の話題語結合装置を実現するための処理をコンピュータに実行させることを特徴とする話題語結合プログラム。
JP2004331067A 2004-11-15 2004-11-15 話題語結合方法及び装置及びプログラム Expired - Fee Related JP4462014B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004331067A JP4462014B2 (ja) 2004-11-15 2004-11-15 話題語結合方法及び装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004331067A JP4462014B2 (ja) 2004-11-15 2004-11-15 話題語結合方法及び装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2006139718A JP2006139718A (ja) 2006-06-01
JP4462014B2 true JP4462014B2 (ja) 2010-05-12

Family

ID=36620491

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004331067A Expired - Fee Related JP4462014B2 (ja) 2004-11-15 2004-11-15 話題語結合方法及び装置及びプログラム

Country Status (1)

Country Link
JP (1) JP4462014B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262401B2 (en) 2010-07-05 2016-02-16 Nhn Corporation Method and system for providing representative phrase
US9479839B2 (en) 2010-07-06 2016-10-25 Nhn Corporation Method and system for providing a representative phrase based on keyword searches

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2096585A4 (en) 2006-12-11 2017-11-15 NEC Corporation Active studying system, active studying method and active studying program
JP5435249B2 (ja) * 2011-03-23 2014-03-05 日本電気株式会社 イベント分析装置、イベント分析方法、およびプログラム
CN111898366B (zh) * 2020-07-29 2022-08-09 平安科技(深圳)有限公司 文献主题词聚合方法、装置、计算机设备及可读存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262401B2 (en) 2010-07-05 2016-02-16 Nhn Corporation Method and system for providing representative phrase
US9479839B2 (en) 2010-07-06 2016-10-25 Nhn Corporation Method and system for providing a representative phrase based on keyword searches

Also Published As

Publication number Publication date
JP2006139718A (ja) 2006-06-01

Similar Documents

Publication Publication Date Title
Biswas et al. A graph based keyword extraction model using collective node weight
CN107193803B (zh) 一种基于语义的特定任务文本关键词提取方法
Song et al. Overview of the NTCIR-9 INTENT Task.
Oliveira et al. Assessing shallow sentence scoring techniques and combinations for single and multi-document summarization
US9152676B2 (en) Identifying query aspects
US9323827B2 (en) Identifying key terms related to similar passages
Thakkar et al. Graph-based algorithms for text summarization
US9122680B2 (en) Information processing apparatus, information processing method, and program
CN110083696B (zh) 基于元结构技术的全局引文推荐方法、推荐系统
CN106095949A (zh) 一种基于混合推荐的数字化图书馆资源个性化推荐方法与系统
Al-Taani et al. An extractive graph-based Arabic text summarization approach
JP4466334B2 (ja) 情報分類方法及び装置及びプログラム及びプログラムを格納した記憶媒体
Egger Topic modelling: modelling hidden semantic structures in textual data
Sağlam et al. Developing Turkish sentiment lexicon for sentiment analysis using online news media
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
JP5964149B2 (ja) 共起語を特定する装置およびプログラム
JP2010092357A (ja) 施設関連情報検索方法および施設関連情報検索システム
JP4462014B2 (ja) 話題語結合方法及び装置及びプログラム
JP5661719B2 (ja) 質問応答装置、方法、及びプログラム
Gupta et al. Text analysis and information retrieval of text data
CN111259136A (zh) 一种基于用户偏好自动生成主题评价摘要的方法
Wang et al. User intention-based document summarization on heterogeneous sentence networks
JP2004246491A (ja) テキストマイニング装置及びテキストマイニングプログラム
JP2006293616A (ja) 文書集約方法及び装置及びプログラム
JP5944809B2 (ja) 文書解析装置、方法、及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20091022

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091104

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091214

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100126

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130226

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees