JP4462014B2

JP4462014B2 - 話題語結合方法及び装置及びプログラム

Info

Publication number: JP4462014B2
Application number: JP2004331067A
Authority: JP
Inventors: 佳代池田; 伸治安部; 雅且大久保
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-15
Filing date: 2004-11-15
Publication date: 2010-05-12
Anticipated expiration: 2024-11-15
Also published as: JP2006139718A

Description

本発明は、話話題語結合方法及び装置及びプログラムに係り、特に、日々新しく発信される大量のＷｅｂページ等の文書において、それらに関わる複数の話題語があったときに、それらの話題語同士の関連性から話題語を結合して代表語を抽出し、また、その代表語に関わる文書数等から、その代表語の話題の大きさを把握することができる、話題語結合方法及び装置及びプログラムに関する。

近年では、日々刻々と情報が更新され、ユーザに提供されるようになってきた。特に、インターネット上における情報の更新速度と増加量は著しい。このような中で、世の中の関心事に沿った話題に合わせて、ユーザが欲しい情報を入手することは困難である。

しかし、日々更新される情報の中には、世の中の関心事や新たな出来事、事件の経緯、流行等、ユーザが関心を示す多くの話題を含んでいる可能性が高い。そこで、これらの情報を分析することによって、ユーザの関心を示す話題などを抽出することができる。

また、多くの情報の中から所望のコンテンツを得ようとした場合、検索しただけでは、なかなか欲しい情報を得られない場合がある。そこで、入手した情報をあるキーワード（文字列）によって自動分類するような技術も多く提案されている。

世の中の関心事を表示するという観点では、検索ポータルサイト等で、よく使われる検索キーワードを表示するようなサービスも行われている。

話題の抽出においては、第1の従来技術として、複数の文書情報から抽出する技術が提案されている。当該技術は、複数の話者の発信源内容を文書化したデータから会話の主題を表す語を抽出する技術である。これは、会話内容の文書化データから形態素解析によって主題として名詞を切り出し、会話の流れの中でそれらの出現頻度や出現間隔に基づいて、語の重み（話題を表す可能性）を決定する技術である。この技術においては、1発言中での利用頻度が高い語や、しばらく利用されなかった後に利用された語を、重要度が高いとして評価を行う（例えば、特許文献1参照）。

また、第２の従来技術として、次々と送られてくる掛け合いのようなメッセージ情報から、その情報の勢いを算出し、その勢いの強い語句を品詞の連続などで表現された話題語として抽出する技術がある（例えば、非特許文献参照）。

また、第３の従来技術として、情報の分類においては、検索エンジンで収集したＷｅｂページの文書内を解析し、その文書から人名・地名などの特徴的な固有表現を抽出し、それを検索結果に対するインデックスとしてユーザに提示するという、Ｗｅｂページを分類する技術である（例えば、非特許文献２参照）。

また、第４の従来技術として文書の意味のある文字列である語句の出現頻度によって語句ベクトルを算出し、文書間の類似性に応じて文書をクラスタリングする技術である。また、その語句ベクトルの類似性に応じてクラスタを命名する技術である（例えば、特許文献２参照）。
特許第２９３１５５３号公報特許第３３８５２９７号公報石井恵他、「名詞と単語の勢いを用いた話題抽出手法の提案」情報処理学会研究報告、vol.2004 No.23, 2004-NL-160,pp79-84 戸田浩之他、「特徴的な固有表現を用いたラベル指向ナビゲーション手法の提案」情報処理学会研究報告、vol.2004, No.45, 2004-FI-75, pp.99-106

本発明の中での話題語とは、多くの文書で取り上げられているような語句であり、時間的変化があるような語句（多くの文書に短期的に集中して出現しているような語句、長期的に多くの文書で取り上げられているような語句など）があげられる。また、その中でも魅力的な話題語としては、インパクトの強い語句であり、内容がすぐにイメージできるようなものであることが望ましい。話題語は、ある話題（トピック・流行・世の中の関心事）を品詞の結合などによって表した語句である。例えば、オリンピックが行われているときに、人々は、オリンピックについてたくさんの会話を行い、また、文書を書いたりする。よって、そのときに集中して出現するような語句としての話題語は、「オリンピック出場決定」「金メダル受賞」「メダル数史上最多」等があげられる。

前述の第1・第２の従来技術では、話題を抽出しているが、その話題語間や文書間の関連性を知ることはできない。

前述の第３・第４の従来技術では、文書をキーワードによって分類するところまでを行うものである。キーワードを話題語として置き換えたとしても、それら関連する話題語が形成する話題の大きさや文書間の関連性を知ることはできない。

同様に、検索ポータルサイトなどで行われている、検索キーワードランキングも、人々が関心を寄せているという意味では、話題語として捉えることはできるが、そのキーワード間の関連性を知ることはできない。

また、第３の従来技術のように、一つの文書が複数の話題に属するような分類を行う場合もある（多重分類や重複クラスタリングともいう）。このような時は特に、複数の話題語同士が互いに関連をもっている場合が多い。しかし、第３の従来技術では、話題語の関連性が示されず、また、その話題語個々に分類されているために、関連性のある話題語全体が形成する話題の大きさを知ることができない。

本発明は、上記の点に鑑みなされたもので、複数の文書とそれらに関わる複数の話題語があったときに、その話題語同士の関連性や、関連した話題語を結合して代表語を抽出し、また、その代表語に関わる文書数等から、その代表語の話題の大きさを把握することができる、話題語結合方法及び装置及びプログラムを提供することを目的とする。

図１は、本発明の原理説明図である。
本発明（請求項１）は、話題語同士の関連性から話題語を結合する話題語結合方法において、
本文（ある事柄に関して記述されている、意味のある文章によって構成される）と日付（その文書の作成日付もしくは公開日付などを示す日付や時刻）を含んだ複数の文書と、該文書それぞれが関係している話題語（単語や句、品詞の連続で表される意味のある文字列）が入力されると（但し、話題語と文書は多対多の関係）、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出ステップ（ステップ１）と、
文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合ステップ（ステップ２）と、を有し、
文書共有度算出ステップ（ステップ１）において、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある２つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
割合を、該当する２つの話題語が関連する鮮度の重み付き文書総数（１文書は、２重カウントしない）に対する話題語間で共有する鮮度の重み付き文書数とした、文書共有度で算出し、
文書共有度が閾値Ｘ（正の数）以上になった場合にその話題語同士を結合する話題語結合ルールを用いる。

本発明（請求項２）は、請求項１の話題語結合ステップ（ステップ２）の後に、
代表語抽出記憶手段に格納されている代表語抽出ルールに基づいて、話題語結合ステップで結合した話題語グループの代表語を抽出する代表語抽出ステップを行う。

また、本発明（請求項３）は、請求項２の話題語結合方法の代表語抽出ステップにおいて、
結合した話題語グループ全体に対する代表語を抽出する際に、
結合した話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句（単語や句、品詞の連続で表される意味のある文字列）を代表語とし、
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
鮮度の重みは、文書が新しいほど大きくし、
鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くする代表語抽出ルールを用いる。

また、本発明（請求項４）は、請求項３の話題語結合方法の代表語抽出ステップにおいて、
代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする。

図２は、本発明の原理構成図である。
本発明（請求項５）は、話題語同士の関連性から話題語を結合する話題語結合装置であって、
話題語結合ルール２２を格納する話題語結合記憶手段６２０と、
本文（ある事柄に関して記述されている、意味のある文章によって構成される）と日付（その文書の作成日付もしくは公開日付などを示す日付や時刻）を含んだ複数の文書と、該文書それぞれが関係している話題語（単語や句、品詞の連続で表される意味のある文字列）が入力されると（但し、話題語と文書は多対多の関係）、話題語結合記憶手段６２０に格納されている話題語結合ルール２２により、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出手段５０２と、
文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合手段５０３と、を有し、
文書共有度算出手段５０２は、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある２つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
割合を、該当する２つの話題語が関連する鮮度の重み付き文書総数（１文書は、２重カウントしない）に対する話題語間で共有する鮮度の重み付き文書数とした、文書共有度で算出し、
文書共有度が閾値Ｘ（正の数）以上になった場合にその話題語同士を結合する話題語結合ルール２２を用いる。

また、本発明（請求項６）は、代表語抽出記憶手段６４０に格納されている代表語抽出ルール２４を参照して、話題語結合手段５０３で結合した話題語グループの代表語を抽出する代表語抽出手段３２０を更に有する。

また、本発明（請求項７）は、請求項６の話題語結合装置の代表語抽出ルール２４を、
結合した話題語グループ全体に対する代表語を抽出する際に、
結合した話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句（単語や句、品詞の連続で表される意味のある文字列）を代表語とし、
話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
鮮度の重みは、文書が新しいほど大きくし、
鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くするルールとする。

また、本発明（請求項８）は、請求項７の話題語結合装置の代表語抽出手段３２０において、
代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする。

本発明（請求項９）は、関連する話題語を結合する話題語結合プログラムであって、
請求項５乃至８記載のいずれか１項に記載の話題語結合装置を実現するための処理をコンピュータに実行させる話題語結合プログラムである。

本発明（請求項２０）は、関連する話題語を結合し、代表語を抽出する話題語結合・代表語抽出プログラムであって、
請求項４乃至９記載の話題語結合・代表語抽出方法を実現するための処理をコンピュータに実行させるプログラムである。

話題語として設定されている語句は、独立していることよりも、互いに関連している可能性が高い。よって、本発明によれば、話題語同士の文書共有度によって話題語を結合することで、今まで見えていなかった話題語同士の関係とそれらが解析対象とする文書全体の中で占める話題の大きさを把握することができる。

また、その代表語を抽出することで、本来その話題語がどのような話題で盛り上がっているかを知ることもできる。解析対象の文書が刻々と変化するようなニュースやWeblog等であれば、その時の話題、つまり、流行や人々の関心事を捉えることができる。

また、文書共有度の算出や代表語の抽出には、文書の時間的な鮮度の重みや話題度を用いることで、より新しく出てきた話題に関する結合がされやすくなり、そして代表語としてより新しく出てきた語句が採用されやすくなるため、時間的な変化の激しい中でもより新しく影響の強い話題に対応できる。

また、文書共有度として、ある話題語の他の話題語に対する文書共有度を利用することで、互いの話題語の依存関係を把握しながら、話題語の結合を判断することができる。

また、文書共有度として、話題語同士の文書共有度をある２つの話題語間の文書共有度を利用することで、互いの話題語が深く関わっている話題に対応することができる。

代表語として、結合された話題語が持つ全ての文書から語句を抽出することで、全体を包含するような話題を抽出することができる。一方、代表語として結合された話題語間で共有する文書のみを代表語抽出の解析に利用することでは、話題語間でより結びつきの強い語句を代表語とすることができる。つまり、その話題の中で影響がある語句を採用することができる。

以下、図面と共に本発明の実施の形態を説明する。

図３は、本発明の概要を説明するための図であり、図４は、本発明の概要動作のフローチャートであり、図５は、本発明の一実施の形態における話題語の結合とその代表語の抽出装置の構成を示す。

本発明は、複数の文書とそれらに関わる複数の話題語があったときに、その話題語同士の関連性や関連した話題語を結合して代表語を抽出し、また、その代表語に関わる文書数等から、その代表語の話題の大きさを把握することができる、関連する話題語の結合処理とその代表語の抽出処理を行う。

上記の処理において、本文と日付を含んだ複数の文書と、その文書それぞれが関係している話題語が与えられたときに、以下の処理を行う。なお、ここで、本文とは、ある事柄に関して記述されている意味のある文章によって構成される。また、日付とは、その文書の作成日付もしくは、公開日付などを示す日付や時刻を指す。また、話題語とは、単語や句、品詞の連続で表される意味のある文字列である。なお、話題語と文書は多対多の関係である。

ステップ１０１）話題語結合処理部５００において、話題語データベース（ＤＢ）２１から文書情報と話題語を読み出して、結合できる話題語があるかどうかを判断し、話題語を結合する。話題語間で共有する文書があるものは、話題語結合記憶部６２０に格納されている話題語結合ルール２２に基づいて、それぞれの話題語に属する文書を基に、話題語間の文書共有度を算出し、結合する話題語があるかを判断し、結合する話題語があれば、それらを１つの話題語グループとし結合する。

例えば、図３のような話題語とそれに関係する文書情報が読み込まれた場合、話題語ＡとＣは、「文書１」を共有しており、話題語ＡとＤは、「文書２」「文書３」「文書４」を共有している。同様に、話題語ＢとＥも「文書７」「文書８」を共有している。

話題語結合ルール２２では、話題語間で共有する文書の共有度の算出方法と、その共有度が閾値Ｘ（正の数）以上になったときに結合されると判断するため、その閾値Ｘの値が格納されている。この算出方法や閾値は、随時変更可能である。

話題語間で共有する文書の共有度は、次のようなものがある。例では、図３のような話題語Ａ，Ｃ，Ｄがあった場合を示す。

タイプ１：ある話題語の他の話題語に対する文書共有度：
例）{ＡとＣで共有する文書数）／（Ａの文書数）}を話題語Ａの話題語Ｃに対する文書共有度とする（１／４＝０．７５）
タイプ２：ある２つの話題語間の文書共有度：
例）｛ＡとＣで共有する文書数｝／（ＡとＣの持つオリジナルな文書数の合計）｝を話題語ＡとＣの文書共有度とする（１／７＝０．１４：小数点第３以降四捨五入）
上記のタイプ１に従った場合、ある２つの話題語間で算出された文書共有度が互いに閾値Ｘ以上になる、もしくは、どちらか片方の話題語のもう一方に対する文書共有度が閾値Ｘ以上になる場合に、２つの話題語を結合すると判断する。また、タイプ２に従った場合は、算出された文書共有度が閾値Ｘ以上になる場合、２つの話題語を結合すると判断する。

タイプ１、タイプ２共に、文書共有度算出の際に、文書数の代わりに文書それぞれが持つ日付や時刻を鮮度の重みを用いて、文書共有度を計算することもできる。例えば、文書共有度=（共有する文書それぞれの鮮度の重みの和）／（２つの該当する話題語が持つ文書それぞれの鮮度の重みの和）。この鮮度の重みは、日付や時間が新しいものほど、文書共有度が高くなるように作用する。例えば、現在が２００４年９月１日であり、ある２つの文書ＪとＫが、それぞれの作成日付として、Ｊ：２００４年９月１日と、Ｋ：２００４年８月１日であった場合、文書Ｊの鮮度の重みは１、現在よりも３１日前の文書であることから、重みを１／３１というように１を現在の経過日数で除算した値をとってもよい。

このようにして結合された話題語は、１つの話題語グループとし、話題語ＤＢ２１に格納する。

ステップ１０２）代表語抽出処理部５２０において、結合した話題語の代表語を抽出する。

代表語抽出記憶部６４０に格納されている代表語抽出ルール２４に基づき、結合された
話題語が持つ文書を文書ＤＢ２０から読み出して解析し、結合された話題語グループ（１つに結合した話題語の集まり）を表す代表語を生成する。

代表語抽出ルール２４では、結合した話題語が持つ文書を解析し、その話題語全体の代表語となるような語句を抽出する方法が記述されている。ここで、代表語となるような語句とは、単語や句、品詞の連続で表される意味のある文字列を指す。このルールは、随時変更可能である。このルールには、次のようなものがある。

結合した話題語グループが持つ文書（結合した話題語それぞれに関係している文書）の中で最も話題度が高い語句（単語や句、品詞の連続で表される意味のある文字列）を代表語とする。

話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数、また結合しない他の話題語が持つ文書から同様に抽出した語句とその差分で算出する。

例えば、話題度は次のように計算できる。

ある語句Ｔの鮮度の重みをＴＷ、結合する話題語が持つ文書の中でＴが出現する頻度をＴＦ、結合しない他の話題語が持つ文書の中でＴが出現する頻度をＡＴＦとしたとき、ある語句Ｔの話題度=ＴＷ×log（ＴＦ／ＡＴＦ）となる。ＴＷは、ステップ１０１に記述されている鮮度の重みと同様の算出方法とする。

話題語が持つ文書としては、話題語各々が持つ文書全てを対象とする場合や、話題語間で共有している文書のみを対象とすることもできる。

抽出された代表語は、話題度と共に話題語ＤＢ２１に結合された話題語の補助情報として格納する。例えば、抽出された代表語や話題度、また結合された話題語やそれに含まれる文書は、例えば、図３の最下段の例に示すように出力される。

以下、本発明の実施例を図面と共に説明する。

本発明の実施例では、図６に示すような文書と話題語の関係の簡略イメージがあったときに、複数の文書（ある事柄に関して記述されている、意味のある文章によって構成される本文、その文書の作成日付もしくは公開日付などを示す日付や時刻を含む）と、その文書それぞれが関係している話題語（単語や句、品詞の連続で表される意味のある文字列）が与えられた時に（話題語と文書は、多対多の関係）、その話題性の大きさとその話題を示す代表語を抽出することを目的とする。

図６は、２００４年８月２５日時点において、話題語ＤＢ２１に示すような話題語を持ち、文書ＤＢ２０に示すような文書とその公開日付を持つ。また、話題語ＤＢ２１と文書ＤＢ２０を結ぶ複数の線は、各々の話題語と文書との関係を示している。例えば、「帰省」という話題語は、「文書１」「文書２」「文書３」「文書４」を持っている。また、「文書３」は、話題語「帰省」と「自由課題」を持っている。

ここでの文書は、話題性という観点から、何らかの特徴を持っていた方が適する。例えば、Weblogやニュース、一般的なＷｅｂページの新着ページを基にするとその時々で盛り上がっている話題性が抽出できる。また、ある特定の事柄について説明しているようなページ、例えば、フランスの歴史について複数ページわたって説明している文書であれば、その歴史の主な話題を抽出することもできる。あるいは、インターネット検索サイトなどで行われている、最新の検索語ランキング等を利用して、検索エンジンにてそのランキング上位の検索キーワードで検索し、文書を集めるような方法でもよい。検索キーワードランキングで上位になっているようなキーワードは、必ずしも独立しているわけではなく、その時々で流行しているような話題に関連しあっていることも少なくない。よって、上記のように収集した文書もその話題に即した内容を記述したものが検索されてくる可能性が高い。このため、本発明を利用することで検索キーワードランキングだけでは見えていなかった、キーワード同士の話題のつながりが見えてくる。

処理の詳細については、以下で説明する。

図５に示す装置は、コンピュータ１０とこのコンピュータ１０にネットワーク４０を介して接続される文書ＤＢ２０と話題語ＤＢ２１、話題語結合ルール２２を格納する話題語結合記憶部６２０と代表語抽出ルール２４を格納する代表語抽出記憶部６４０から構成されている。

コンピュータ１０は、ＲＡＭ，ＲＯＭ、磁気ディスク等からなるメモリ、ＣＰＵ、ディスプレイによる表示部１１、及び、マウスやキーボードなどからなる指示入力部１２から構成されており、ＣＰＵが実行するソフトウェアプログラムによって実現される話題語結合処理部５００と代表語抽出処理部５２０を備えている。

文書ＤＢ２０には、本文（ある事柄に関して記述されている、意味のある文章によって構成される）と日付（その文書の作成日付もしくは公開日付などを示す日付や時刻情報）をからなる複数の文書が格納されている。

なお、上記に示す情報が文書ＤＢ２０に格納されることに限定されることなく、少なくとも本文と作成時刻を示す情報が格納されていればよい。

話題語ＤＢ２１には、話題語・文書情報（文書名もしくは文書キー）・結合した話題語同士をグループ化した話題語グループ情報・文書共有度・代表語が格納される。

なお、話題語ＤＢ２１に予め格納されているのは、話題語と当該話題語が持つ文書の情報のみであり、話題語グループ情報、文書共有度、ある１つの話題語グループに含まれる話題語と、当該話題語が関連する文書から抽出された代表語については、以下に示す一連の処理を行うことで格納される。また、文書ＤＢ２０と話題語ＤＢ２１の内容を１つのＤＢにまとめて管理してもよい。

また、以下に示す一連の処理により話題語ＤＢ２１に格納される情報のうち、話題語グループ情報、文書共有度、ある１つの話題語グループに含まれる話題語と、当該話題語が関連する文書から抽出された代表語は必ずしも話題語ＤＢ２１に格納される必要はなく、別の記憶手段であってもよく、上記の方法に限定されるものではない。

話題語結合ルール２２は、話題語結合選定記憶部６２０に格納され、話題語間で共有する文書共有度の算出方法と、その共有度が閾値Ｘ（正の数）以上になったときに、話題語が結合されると判断するための閾値Ｘの値が格納されている。このルールは、追加変更などを自在に行うことができる。

代表語抽出ルール２４は、代表語抽出記憶部６４０に格納され、結合した話題語が持つ文書を解析し、その話題語全体の代表語となるような語句（単語や句、品詞の連続で表される意味のある文字列）を抽出する方法が格納されている。このルール２４は、追加変更などを自在に行うことができる。

話題語結合処理部５００と代表語抽出処理部５２０は、このように構成される装置の基で以降に説明する処理を実行することで本発明を実現するように動作する。

以下にその動作を説明する。

［１］話題語結合処理部５００
図７は、本発明の一実施例の話題語結合処理部の構成を示し、図８は、本発明の一実施例の話題語結合処理のフローチャートである。

ステップ６０１）読み込み部５０１は、話題語ＤＢ２１から各話題語及び当該話題語に関連する文書情報を読み込む。

ステップ６０２）文書共有度算出部５０２は、ステップ６０１で取得した話題語と文書情報の関係情報から、話題語間で共有する文書があるものについて、話題語結合記憶部６２０に格納されている話題語結合ルール２２に基づいて、それぞれの話題語に属する文書にもとに話題語間の文書共有度を算出し、話題語結合判定部５０３において、話題語を結合するか否かを判定する。

例えば、図６においては、話題語「帰省」と「自由課題」は、「文書３」「文書４」を共有している。また、話題語「金メダル」と「体操団体」は、「文書７」「文書８」を共有し、「アーチェリー」と「金メダル」は「文書１１」を共有し、「柔道」と「金メダル」は「文書１４」「１５」「１６」を共有している。また、「アーチェリー」は「柔道」とも「文書１1」「文書１２」を共有している。

話題語結合ルール２２では、話題語間で共有する文書の共有度の算出方法と、その共有度が閾値Ｘ（正の数）以上になったときに結合されると判断するための閾値Ｘの値が格納されている。この算出方法や閾値は随時変更可能である。

ステップ６０２−１）文書共有度算出部５０２は、文書共有度の算出タイプを選択し、その選択したタイプの計算を全ての共有する文書を持つ話題語の組み合わせに対して行う。また、算出された文書共有度は、話題語ＤＢ２１に格納する。話題語間で共有する文書共有度は、様々な算出方法があるが、本実施例では、次の２つのタイプをあげておく。例として図６を用いて説明する。

タイプ１：ある話題語の他の話題語に対する文書共有度
例）｛（「帰省」と「自由課題」で共有する文書数）／（「帰省」の文書数）｝を話題語「帰省」の話題語「自由課題」に対する文書共有度とする（２／４＝０．５）
タイプ２：ある２つの話題語間の文書共有度
例）｛（「帰省」と「自由課題」で共有する文書数）／（「帰省」と「自由課題」の文書総数）｝を話題語「帰省」と「自由課題」の文書共有度とする（２／６＝０．３３：小数点第３以降四捨五入）
ステップ６０２−２）話題語結合判定部５０３において、ステップ６０２−１で算出された文書共有度が閾値Ｘ以上になる話題語同士を探し、それらを話題語結合対象とする。結合する話題語同士は１つの話題語グループとなる。

上記のタイプ１に従った場合、ある２つの話題語間で算出された文書共有度が互いに閾値Ｘ以上にある、もしくは、どちらか片方の話題語のもう一方に対する文書共有度が閾値Ｘ以上になる場合に、２つの話題語を結合すると判断する。また、タイプ２に従った場合は、算出された文書共有度が閾値Ｘ以上になる場合、２つの話題語を結合すると判断する。例えば、閾値Ｘ＝０．４の時、上記のタイプ２の例で算出された話題語「帰省」と「自由課題」は、文書共有度（０．３３）が閾値Ｘに達しないため、結合しないと考える。

例えば、タイプ２に従って計算したときに、話題語「金メダル」と「体操団体」・「アーチェリー」・「柔道」の３つの話題語とも閾値Ｘを超える文書共有度を持つ場合は、「金メダル」、「体操団体」、「アーチェリー」、「柔道」を結合することになる。この４つの話題語は、１つの話題語グループとなる。また、「金メダル」と「体操団体」・「柔道」の２つの話題語の文書共有度のみ閾値Ｘを超え、尚且つ、「柔道」と「アーチェリー」の文書共有度が閾値Ｘを超えた場合も、結局は「金メダル」、「体操団体」、「アーチェリー」、「柔道」を結合することになる。

タイプ１、タイプ２ともに、文書共有度算出の際に、文書数の代わりに文書それぞれが持つ日付や時刻の鮮度の重みを用いて、文書共有度を計算することもできる。例えば、文書共有度=（共有する文書それぞれの鮮度の重みの和）／（２つの該当する話題語が持つ文書のそれぞれの鮮度の重みの和）。この鮮度の重みは、文書ＤＢ２０から読み込まれた文書の日付や時間が新しいものほど、文書共有度が高くなるように作用する。例えば、図６のように、計算時点で、２００４年８月２５日であり、ある２つの「文書１」と「文書２」が、それぞれの作成日付として２００４年８月１５日と２００４年８月１６日であった場合、「文書１」は、現在よりも１０日前の文書であることから、鮮度の重みは{１／（２５−１５）}、「文書２」は、鮮度の重みを｛１／（２５−１６）｝というように１を現在の経過に数で除算した値をとってもよい。

ステップ６０３）ステップ６０２で結合すると判断された話題語について、出力部５０４は、１つの話題語グループとして結合する話題語の名前等を書く話題語の付属情報として話題語ＤＢ２１に格納する。

［２］代表語抽出処理部５２０：
図９は、本発明の一実施例の代表語抽出処理部の構成を示し、図１０は、本発明の一実施例の代表語抽出処理のフローチャートを示す。

ステップ９０１）読み込み部５２１において、代表語抽出記憶部６４０に格納されている代表語抽出ルール２４を読み込む。次に、代表語抽出部５２２は、代表語抽出ルール２４から代表語抽出タイプを選択する。

代表語抽出ルール２４では、結合した話題語が持つ文書から、その話題語全体の代表語となるような語句（単語や句、品詞の連続で表される意味のある文字列）を抽出する方法が格納されている。このルールは、随時変更可能である。このルールには、例えば、ステップ９０２で説明するようなものがある。

ステップ９０２）読み込み部５２１において、話題語ＤＢ２１の情報を読み出し、代表語候補抽出部５２２は、１つの話題語グループが持つ文書（結合した話題語それぞれが関係する文書）を文書ＤＢ２０から取得する。この、話題語グループが文書として、話題語各々が関連する文書全てを対象とする場合と、話題語間で共有している文書のみを対象とすることもできる。

例えば、図６において話題語「金メダル」と「体操団体」と「柔道」を話題語グループとして結合するときの話題語各々が関連する文書とは、「文書７」「文書８」「文書９」「文書１１」「文書１２」「文書１４」「文書１５」「文書１６」である。また、文書間で共有している文書とは、「文書７」「文書８」「文書１１」「文書１４」「文書１５」「文書１６」である。

ステップ９０３）代表語候補抽出部５２２において、結合した話題語が持つ各々の文書の本文を形態素解析し、代表語になりそうな語句（単語や句、品詞の連続で表される意味のある文字列）の候補を抽出する。

この代表語になりそうな語句とは、様々な取り方があるが、本実施例では、次のような語句を対象にすることとする。

代表語は、話題語の集合を表すことから、話題語と同様にユーザの興味をひくようなインパクトが強いものや一見してコンテンツの内容がイメージできるものの方が利用価値が高い。

インパクトが強い言葉としては、固有名詞や新しい言葉があげられる。新しい言葉は、形態素解析の辞書に登録されていないことが多いため、未知語の連続として扱われる。そこで、今回は、カタカナの未知語の連続を固有名詞とし、アルファベットの未知語の連続を名詞と位置付けて採用することとする。

一見してコンテンツの内容がイメージできる言葉は、それ自身で具体性のある固有名詞や連続することで具体性の高まる名詞の連続、また、名詞同士を格助詞の「の」で挟んだ言葉等があげられる。また、その言葉を一見してイメージできるものとして、長すぎる言葉はユーザが読み上げなくてはいけなくなるために適さない。よって、一定の長さ以下であることが望ましいといえる。

以上のことから、話題語の代表語として扱われる中でも固有名詞、名詞の連続、名詞+格助詞「の」+名詞を一定の長さ以下で記述された名詞句を本実施例では採用することとする。以下にその正規表現を示す。「？」は、直前の語の０かまたは１回の出現を意味し、「│」は、その記号の前後の語のｏｒをとることであり、「｛Ａ，Ｂ｝」は、直前の語のＡ回以上Ｂ回以下の繰り返しを意味する。但し、Ａ，Ｂは正の整数である。また、ａ：格助詞「の」、ｎ：名詞、Ｎ：固有名詞、ｐ：名詞接頭辞、ｓ：名詞接尾辞を表す。

１）（ｐ？（ｎ│Ｎ）ｓ？｛２，４｝
２）（ｐ？（ｎ│Ｎ）ｓ？）｛１，３｝ａ（ｐ？（ｎ│Ｎ）ｓ？｛１，３｝
３）Ｎ
形態素解析した結果を繋ぎ合わせ、上記のいずれかに該当する単語列の最長マッチングを代表語の候補として取得する。これ以外にも形容詞と名詞の組み合わせや形容動詞と名詞の組み合わせ等を採用した名詞句を利用し、情景のイメージしやすい語彙を抽出することも可能である。また、上記の方法以外に、名詞２語の繰り返しや名詞のみを代表語の候補とすることもできる。

ステップ９０４）ステップ９０３で代表語の候補となった語句それぞれに対し、話題度計算部５２３は、話題度を計算する。

話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数、また結合しない他の話題語が持つ文書から同様に抽出した語句との差分で算出する。

鮮度の重みは、ステップ６０２−２に記述した重みと同じである。話題度は、語句が出現する文書の数が多いほど大きくなり、また、鮮度の重みが大きいほど（つまり、新しい文書から抽出された語句）大きくなる。例えば、語句が出現する文書の鮮度の重みを全て加算した値でもよい。

例えば、話題度は、次のように計算できる。

ある語句Ｔの鮮度の重みをＴＷ、結合する話題語が持つ文書の中でＴが出現する頻度をＴＦ、結合しない他の話題語が持つ文書の中でＴが出現する頻度をＡＴＦとしたとき、
ある語句Ｔの話題度＝ＴＷ×log（ＴＦ／ＡＴＦ）
ここでの出現頻度は、文書１つに対して１度でも語句Ｔが出現したら１とカウントする場合と、文書１つに対してＹ（０または正の整数）回出現したらＹとカウントする場合などがある。

ステップ９０５）代表語決定部５２４において、ステップ９０４で算出された話題度が最も高い代表語の候補を代表語とし、決定された代表語は、出力部５２５により、話題度とともに話題語ＤＢ２１に結合された話題語の補助情報として格納される。

上記のステップ９０１〜９０５までの処理を結合する話題語がなくなるまで繰り返し実行する。

以上のようにして、結合された話題語と結合した話題語の代表語は、例えば、図１１に示すように、話題度が最も高い代表語順に出力される。または、前述の図３の最下段に示すように出力される。

この情報は、リスト形式でなく、マップのような形式で表示されることも可能である。表示方法については、２次元や３次元等様々に適用することができる。

また、上記の実施の形態及び実施例で説明した話題語結合処理部５００、代表語抽出処理部５２０の処理をプログラムとして構築し、話題語の結合・代表語の抽出装置として利用されるコンピュータに実行させる、または、ネットワークを介して流通させることも可能である。

また、構築されたプログラムを話題語の結合・代表語の抽出装置として利用されるコンピュータに接続されるハードディスクや、フレキシブルディスクやＣＤ−ＲＯＭ等の可搬記憶媒体に格納しておくことも可能である。

なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。

本発明は、ニュースやＢｌｏｇ等の日々更新されていく情報とその情報から抽出された最近の話題となっている語を基に、関係性のある話題語を結合する方法とその結合した話題の代表語を抽出する技術に適用可能である。また、これを利用した商品企画や、マーケティングなどに適用可能である。

本発明の原理説明図である。本発明の原理構成図である。本発明の概要を説明するための図である。本発明の概要動作のフローチャートである。本発明の一実施の形態における関連する話題語の結合とその代表語の抽出装置の構成図である。本発明の一実施例における文書と話題語の関係の簡略イメージである。本発明の一実施例の話題語結合処理部の構成図である。本発明の一実施例における話題結合処理のフローチャートである。本発明の一実施例の代表語抽出処理の構成図である。本発明の一実施例における代表語抽出処理のフローチャートである。本発明の一実施例における出力例である。

符号の説明

１０コンピュータ
１１表示部
１２指示入力部
２０文書データベース（ＤＢ）
２１話題語データベース（ＤＢ）
２２話題語結合ルール
２４代表語抽出ルール
３００話題語結合手段
３２０代表語抽出手段
５００話題語結合処理部
５０１，５２１読み込み部
５０２文書共有度算出手段、文書共有度算出部
５０３話題語結合手段、話題語結合判定部
５０４，５２５出力部
５２０代表語抽出処理部
５２２代表後候補抽出部
５２３話題度計算部
５２４代表語決定部
６２０話題語結合記憶手段、話題語結合選定記憶部
６４０代表語抽出記憶手段、代表語抽出記憶部

Claims

話題語同士の関連性から話題語を結合する話題語結合方法において、
本文（ある事柄に関して記述されている、意味のある文章によって構成される）と日付（その文書の作成日付もしくは公開日付などを示す日付や時刻）を含んだ複数の文書と、該文書それぞれが関係している話題語（単語や句、品詞の連続で表される意味のある文字列）が入力されると（但し、話題語と文書は多対多の関係）、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出ステップと、
前記文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合ステップと、を有し、
前記文書共有度算出ステップにおいて、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある２つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
前記割合を、該当する２つの話題語が関連する前記鮮度の重み付き文書総数（１文書は、２重カウントしない）に対する話題語間で共有する前記鮮度の重み付き文書数とした、文書共有度で算出し、
前記文書共有度が閾値Ｘ（正の数）以上になった場合にその話題語同士を結合する前記話題語結合ルールを用いることを特徴とする話題語結合方法。
前記話題語結合ステップの後、
代表語抽出記憶手段に格納されている代表語抽出ルールに基づいて、前記話題語結合ステップで結合した前記話題語グループの代表語を抽出する代表語抽出ステップを行うことを特徴とする請求項１に記載の話題語結合方法。
前記代表語抽出ステップにおいて、
結合した前記話題語グループ全体に対する代表語を抽出する際に、
結合した前記話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句（単語や句、品詞の連続で表される意味のある文字列）を代表語とし、
前記話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
前記鮮度の重みは、文書が新しいほど大きくし、
前記鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くする前記代表語抽出ルールを用いる請求項２記載の話題語結合方法。
前記代表語抽出ステップにおいて、
前記代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とする請求項３記載の話題語結合方法。
話題語同士の関連性から話題語を結合する話題語結合装置であって、
話題語結合ルールを格納する話題語結合記憶手段と、
本文（ある事柄に関して記述されている、意味のある文章によって構成される）と日付（その文書の作成日付もしくは公開日付などを示す日付や時刻）を含んだ複数の文書と、該文書それぞれが関係している話題語（単語や句、品詞の連続で表される意味のある文字列）が入力されると（但し、話題語と文書は多対多の関係）、話題語結合記憶手段に格納されている話題語結合ルールにより、ある話題語が関係する文書と該話題語が関連する他の文書との文書共有度を算出する文書共有度算出手段と、
前記文書共有度に基づいて、結合できる話題語を選定し、選定された話題語を結合する話題語結合手段と、を有し、
前記文書共有度算出手段は、
文書それぞれが持つ日付や時刻により、新しいほどに大きな値となる鮮度の重みを利用し、
ある２つの話題語間の文書共有度を各話題語が共有する文書の割合で判断し、
前記割合を、該当する２つの話題語が関連する前記鮮度の重み付き文書総数（１文書は、２重カウントしない）に対する話題語間で共有する前記鮮度の重み付き文書数とした、文書共有度で算出し、
前記文書共有度が閾値Ｘ（正の数）以上になった場合にその話題語同士を結合する前記話題語結合ルールを用いることを特徴とする話題語結合装置。
代表語抽出記憶手段に格納されている代表語抽出ルールを参照して、前記話題語結合手段で結合した前記話題語グループの代表語を抽出する代表語抽出手段を更に有することを特徴とする請求項５記載の話題語結合装置。
前記代表語抽出ルールは、
結合した前記話題語グループ全体に対する代表語を抽出する際に、
結合した前記話題語グループ全体が持つ文書を取得して、該文書から、最も話題度が高い語句（単語や句、品詞の連続で表される意味のある文字列）を代表語とし、
前記話題度は、文書それぞれが持つ日付や時刻から算出した鮮度の重みとその語句の出現文書数から算出し、
前記鮮度の重みは、文書が新しいほど大きくし、
前記鮮度の重みが大きく、語句の出現文書数が多いほど話題度を高くするルールとする請求項６記載の話題語結合装置。
前記代表語抽出手段は、
前記代表語を抽出する文書の対象を、
結合した話題語同士が共有する文書のみ、結合しない他の話題語に関連する文書の中でも、他の話題語同士で共有する文書のみ、の少なくともいずれか一方の文書とすることを特徴とする請求項７記載の話題語結合装置。
関連する話題語を結合する話題語結合プログラムであって、
前記請求項５乃至８記載のいずれか１項に記載の話題語結合装置を実現するための処理をコンピュータに実行させることを特徴とする話題語結合プログラム。