JP2015125650A

JP2015125650A - トピック抽出装置、及びプログラム

Info

Publication number: JP2015125650A
Application number: JP2013270448A
Authority: JP
Inventors: 菊佳望月; Kikuka Mochizuki; 山田　一郎; Ichiro Yamada; 一郎山田; 加藤　直人; Naoto Kato; 直人加藤; 太郎宮▲崎▼; Taro Miyazaki
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2013-12-26
Filing date: 2013-12-26
Publication date: 2015-07-06
Anticipated expiration: 2033-12-26
Also published as: JP6188222B2

Abstract

【課題】ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出する。【解決手段】主題抽出部１２は、コンテンツに関するテキストデータに含まれる単語の中からコンテンツの主題となる単語を抽出する。関連項目抽出部１３は、２つの異なる単語とこれら２つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、２つの異なる単語の一方が主題となる単語と一致する関係項目データを特定する。関係名処理部１４は、コンテンツに関するテキストデータに、関連項目抽出部１３により特定された関係項目データが示す関係名が含まれる場合、あるいは、特定された関係項目データが示す２つの異なる単語が含まれる場合に、主題となる単語と特定された関係項目データが示す関係名とを出力する。【選択図】図１

Description

本発明は、トピック抽出装置、及びプログラムに関する。

従来、コンテンツ間のリンクは類似の関係によって結ぶことが主であった。例えば、ユーザーが選んでいるコンテンツＰの関連コンテンツを提示する際は、コンテンツの内容等に関する情報を示す番組情報やメタデータなどを用いて、コンテンツＰと関連コンテンツの候補となるコンテンツとの間の類似度計算を行う。そして、計算された類似度からコンテンツＰと内容が類似していると判断されたコンテンツＱを提示する（例えば、特許文献１、非特許文献１参照）。このように、番組情報やメタデータなどの類似によりコンテンツ間をリンクしていた。また、ユーザーの閲覧履歴からコンテンツ間にリンクをつける技術もある（例えば、特許文献２、３参照）。

特開２００９−４３１５６号公報特開２０１３−１１７８３０号公報特開２００８−２３４０４３号公報

山内康晋、鈴木優、安次富大介、「放送コンテンツ間の関連性に基づいた検索システム」、［online］、東芝レビュー、株式会社東芝、２０１０年、Vol.65、No.4、［平成25年10月29日検索］、インターネット〈URL：http://www.toshiba.co.jp/tech/review/2010/04/65_04pdf/a08.pdf>

番組情報やメタデータの類似度計算によってコンテンツ間をリンクし、類似度が高いコンテンツを推薦する方法では、内容が似ているコンテンツばかりが提示されてしまっていた。しかし、コンテンツＰで紹介されている問題点の対処法がコンテンツＱで紹介されていたり（Ｐの対処法がＱ）、コンテンツＰで取り上げられている話題の原因がコンテンツＲで紹介されていたり（Ｐの原因がＲ）、コンテンツ間の関係は類似だけではない。単語の分布で類似度が近いものを選択するというような従来の技術では、「対処法」や「原因」のような関係でリンクを生成することはできない。
また、ユーザーの閲覧履歴からコンテンツ間にリンクを生成する場合、大量のユーザー履歴が必要なうえ、内容的には何の関連性もないものにもリンクがつけられることがあり、リンクされたコンテンツ同士がなぜ関連しているかの関係を特定することはできない。

本発明は、このような事情を考慮してなされたもので、ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出するトピック抽出装置、及びプログラムを提供する。

本発明の一態様は、コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出部と、２つの異なる単語と前記２つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記２つの異なる単語の一方が前記主題抽出部により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出部と、前記コンテンツに関するテキストデータに、前記関連項目抽出部により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出部により特定された前記関係項目データが示す前記２つの異なる単語が含まれる場合に、前記主題抽出部により抽出された主題となる前記単語と前記関連項目抽出部により特定された前記関係項目データが示す前記関係名とを出力する関係名処理部と、を備えることを特徴とするトピック抽出装置である。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータから主題となる単語を抽出すると、概念辞書データを参照し、抽出した単語が含まれる関係項目データを特定する。トピック抽出装置は、コンテンツに関するテキストデータに、特定された関係項目データに記述されている関係名が含まれる場合、あるいは、特定された関係項目データに関係名により関連付けて記述されている２つの単語が含まれる場合に、主題となる単語と特定された関係項目データに記述されている関係名とをトピックとして出力する。
これにより、トピック抽出装置は、ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出することができる。

本発明の一態様は、上述するトピック抽出装置であって、前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の中から名詞を主題となる単語として抽出する、ことを特徴とする。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータから名詞を主題となる単語として抽出する。
これにより、トピック抽出装置は、トピックの主題としてわかりやすい単語を抽出することができる。

本発明の一態様は、上述するトピック抽出装置であって、前記コンテンツに関するテキストデータは、番組サブタイトルと番組概要文とを含み、前記主題抽出部は、番組サブタイトルと番組概要文とに共通して含まれる単語の中から名詞を主題となる単語として抽出する、ことを特徴とする。
この発明によれば、トピック抽出装置は、番組サブタイトルと番組概要文とに共通して含まれる名詞を主題となる単語として抽出する。
これにより、トピック抽出装置は、番組サブタイトルにも番組概要文にも出現する名詞を抽出するため、トピックの主題として適切な単語を抽出することができる。

本発明の一態様は、上述するトピック抽出装置であって、前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の重要度を算出し、算出した前記重要度に基づいて主題となる単語を抽出する、ことを特徴とする。
この発明によれば、トピック抽出装置は、コンテンツに関するテキストデータに含まれる単語の中から、各単語の重要度に基づいて主題を抽出する。
これにより、トピック抽出装置は、コンテンツに関するテキストデータにおいて重要な単語を主題として抽出することができる。

本発明の一態様は、上述するトピック抽出装置であって、前記概念辞書データを参照し、複数のコンテンツそれぞれに関するテキストデータから前記主題抽出部により抽出された主題となる単語間の関係名を前記関係項目データから読み出し、主題となる前記単語と、主題となる前記単語間について読み出した前記関係名と、主題となる前記単語が抽出された前記コンテンツの情報と、主題となる前記単語が抽出された前記コンテンツに関するテキストデータから前記関係名処理部が読み出した前記関係名とを表示させる画像データを生成するマップ生成部をさらに備える、ことを特徴とする。
この発明によれば、トピック抽出装置は、複数のコンテンツに関するテキストデータそれぞれからコンテンツの主題となる単語と関係名を得る。トピック抽出装置は、各コンテンツについて得られた主題と、概念辞書データから読み出したそれら主題間の関係を表す関係名と、各主題が得られたコンテンツの情報と、各コンテンツについて得られた関係名とを表示させる画像データを生成する。
これにより、トピック抽出装置は、各コンテンツの主題間の関係と、各主題が得られたコンテンツの情報と、そのコンテンツが主題とどのような関係であるかを画像により表示させることができる。

本発明の一態様は、コンピュータを、コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出手段と、２つの異なる単語と前記２つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記２つの異なる単語の一方が前記主題抽出手段により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出手段と、前記コンテンツに関するテキストデータに、前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出手段により特定された前記関係項目データが示す前記２つの異なる単語が含まれる場合に、前記主題抽出手段により抽出された主題となる前記単語と前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名とを出力する関係名処理手段と、を具備するトピック抽出装置として機能させるためのプログラムである。

本発明によれば、ユーザーの履歴を必要とせずに、類似以外のコンテンツ間の関係を把握するために有用な情報を含んだトピックを抽出することができる。

本発明の第１の実施形態によるトピック抽出装置の構成を示すブロック図である。同実施形態による概念辞書データの例を示す図である。同実施形態によるトピック抽出処理を示すフローチャートである。同実施形態による主題抽出処理を示すフローチャートである。第２の実施形態によるトピック抽出装置の構成を示すブロック図である。同実施形態による主題抽出処理を示すフローチャートである。第３の実施形態によるトピック抽出装置の構成を示すブロック図である。同実施形態による主題抽出処理を示すフローチャートである。第４の実施形態によるトピック抽出装置の構成を示すブロック図である。同実施形態によるトピック抽出装置が出力するコンテンツマップの例を示す図である。

以下、図面を参照しながら本発明の実施形態を詳細に説明する。

［第１の実施形態］
図１は、本発明の第１の実施形態によるトピック抽出装置１の構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。トピック抽出装置１は、コンピュータ装置により実現され、同図に示すように、概念辞書記憶部１１、主題抽出部１２、関連項目抽出部１３、及び関係名処理部１４を備えて構成される。

概念辞書記憶部１１は、概念辞書データを記憶する。概念辞書データは複数の関係項目データを含み、各関係項目データは、２つの異なる単語と、これら２つの異なる単語の間の関係を表す関係名とを示す。以下、概念辞書データを「概念辞書」と記載し、関係項目データを「関係項目」と記載する。なお、トピック抽出装置１は、概念辞書記憶部を設けないで、ネットワークにより接続されるデータベースサーバを概念辞書記憶部１１として用いてもよい。例えば、トピック抽出装置１は、概念辞書記憶部１１として、インターネットによりアクセスされるウェブサイトを利用し得る。利用可能なウェブサイトの一例には、「通信研究機構（ＮＩＣＴ）、”ＡＬＡＧＩＮ言語資源・音声資源サイト”、高度言語情報融合フォーラム、［online］、インターネット〈URL：https://alaginrc.nict.go.jp/opensource.html>」がある。

主題抽出部１２は、コンテンツに関するテキストデータの入力を受ける。例えば、コンテンツは、放送番組であり、コンテンツに関するテキストデータは、番組サブタイトルと番組概要文を含む番組関連テキストデータである。主題抽出部１２は、番組関連テキストデータに含まれる単語の中からコンテンツの主題となる単語を品詞に基づいて抽出する。関連項目抽出部１３は、概念辞書記憶部１１に記憶されている概念辞書から、主題抽出部１２により抽出された主題となる単語が含まれる関係項目を特定する。

関係名処理部１４は、番組関連テキストデータに、関連項目抽出部１３により特定された関係項目に記述されている関係名が含まれるか否か、あるいは、この特定された関係項目に記述されている２つの単語が含まれるか否かを判断する。関係名処理部１４は、番組関連テキストデータに、関係項目に記述されている関係名、あるいは、２つの単語が含まれていると判断した場合、主題となる単語と関係項目に記述されている関係名とにより表されるトピックを出力する。主題となる単語を主題Ａ、特定された関係項目に記述されている関係名を関係名Ｂとした場合、トピックは、「（主題Ａ）の（関係名Ｂ）」と表される。

図２は、概念辞書記憶部１１に記憶される概念辞書の例を示す図である。同図に示す概念辞書は、各行が２つの異なる単語間の関係を示しており、この１行分により示される１関係が関係項目に相当する。概念辞書は、例えば、「単語Ｔ１［関係名］単語Ｔ２」の形式により記述された複数の関係項目からなるタブ区切りテキストファイルである。「単語Ｔ１［関係名］単語Ｔ２」は、単語Ｔ１と単語Ｔ２が関係名で表される関係を持つことを表す。以下では、単語Ｔ１に相当する単語を「左欄に存在する単語」、単語Ｔ２に相当する単語を「右欄に存在する単語」と記載する。関係名が表す２単語間の関係には、上位下位概念だけでなく、原因結果、治療法、予防法、材料、有益なども含まれる。

図３は、トピック抽出装置１のトピック抽出処理を示すフローチャートである。まず、トピック抽出装置１の主題抽出部１２に、番組サブタイトルと番組概要文を含む番組関連テキストデータが入力される。主題抽出部１２は、後述する図４に示す主題抽出処理により、番組関連テキストデータから主題となる単語を抽出する（ステップＳ１１０）。抽出された主題となる単語を「主題Ａ」と記載する。

関連項目抽出部１３は、概念辞書記憶部１１に記憶されている概念辞書を参照し、ステップＳ１１０において主題抽出部１２が抽出したいずれかの主題Ａが、左欄に存在する単語、あるいは、右欄に存在する単語と一致する関係項目を特定する。関連項目抽出部１３は、特定した関係項目からなる関係リストを生成する（ステップＳ１２０）。

関係名処理部１４は、トピック「（主題Ａ）の（関係名Ｂ）」における関係名Ｂを抽出する。具体的には、関係名処理部１４は、ステップＳ１２０において生成された関係リストに含まれる関係項目それぞれについて、以下の処理を行う。すなわち、関係名処理部１４は、関係項目から関係名を取得し、取得した関係名が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。関係名処理部１４は、番組サブタイトルあるいは番組概要文に含まれると判断した関係名を、その関係名が得られた関係項目に単語Ｔ１または単語Ｔ２として含まれる主題Ａの関係名Ｂとする（ステップＳ１３０）。

さらに、関係名処理部１４は、ステップＳ１２０において生成された関係リストに含まれる関係項目それぞれについて、以下の処理を行う。すなわち、関係名処理部１４は、関係項目から右欄に存在する単語Ｔ１と、左欄に存在する単語Ｔ２とを取得し、取得した単語Ｔ１及び単語Ｔ２が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。単語Ｔ１または単語Ｔ２のいずれかは主題Ａである。関係名処理部１４は、単語Ｔ１及び単語Ｔ２の両方が番組サブタイトルあるいは番組概要文に含まれると判断した場合、単語Ｔ１及び単語Ｔ２が得られた関係項目に記述されている関係名を関係名Ｂとする（ステップＳ１４０）。

関係名処理部１４は、ステップＳ１２０において得られた主題Ａと、その主題ＡについてステップＳ１３０、あるいはステップＳ１４０において得られた関係名Ｂとからなるトピック「（主題Ａ）の（関係名Ｂ）」を出力する（ステップＳ１５０）。関係名処理部１４は、トピックが複数得られた場合、全てのトピックを出力する。なお、関係名処理部１４は、関係名Ｂが得られなかった主題Ａについては出力しなくてもよい。例えば、関係名処理部１４は、トピック抽出装置１とネットワークを介して接続されるコンピュータ装置（タブレット端末、スマートフォン、パーソナルコンピュータなど）やテレビジョン受像機にトピックを出力する。コンピュータ装置やテレビジョン受像機は、トピック抽出装置１から受信したトピックをディスプレイに表示する。あるいは、関係名処理部１４は、トピック抽出装置１の内部または外部に備える記憶装置にトピックを出力して記憶させてもよく、トピック抽出装置１に備えられたディスプレイにトピックを表示させてもよい。

複数のコンテンツの番組関連テキストデータが入力された場合、トピック抽出装置１は、図３の処理を、各コンテンツの番組関連テキストデータ毎に行う。例えば、トピック抽出装置１は、電子番組表（ＥＰＧ：ＥｌｅｃｔｒｏｎｉｃＰｒｏｇｒａｍＧｕｉｄｅ）入力を受けると、電子番組表に含まれる各番組の番組サブタイトルと番組概要文を番組関連テキストデータとして用い、各番組のトピックを抽出する。これにより、トピック抽出装置１は、例えば、主題が同じく「肺がん」である各番組のトピックとして、「肺がんの治療法」、「肺がんの予防法」、「肺がんの原因」などを抽出する。関係名処理部１４は、同じ主題の番組の情報と、それらの番組について得られたトピックとをグルーピングして出力してもよい。番組の情報には、例えば、番組のタイトルや番組概要文など電子番組表に含まれる情報を用いることができる。トピック抽出装置１は、これらの番組について抽出したトピックにより、同じ主題「肺がん」に関する番組間がどのような関係でリンクされているかを、関係名「治療法」、「予防法」、「原因」を用いて提示することができる。

なお、関係名処理部１４は、ステップＳ１３０の処理と、ステップＳ１４０の処理のいずれかのみを行うようにしてもよい。

図４は、主題抽出部１２の主題抽出処理を示すフローチャートである。同図は、図３のステップＳ１１０における詳細な処理を示す。
主題抽出部１２は、番組関連テキストデータが示す番組サブタイトルを形態素解析する（ステップＳ２１０）。主題抽出部１２は、ステップＳ２１０における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部１２は、品詞が名詞の単語を抽出する（ステップＳ２２０）。

続いて、主題抽出部１２は、番組関連テキストデータが示す番組概要文を形態素解析する（ステップＳ２３０）。主題抽出部１２は、ステップＳ２３０における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部１２は、品詞が名詞の単語を抽出する（ステップＳ２４０）。

主題抽出部１２は、主題となる単語として、ステップＳ２２０において抽出した単語と、ステップＳ２４０において抽出した単語とに共通する単語を全て抽出する（ステップＳ２５０）。主題抽出部１２は、抽出した単語である主題Ａを関連項目抽出部１３に出力する。

なお、ステップＳ２１０、及びステップＳ２３０において、主題抽出部１２は、形態素解析において品詞が特定できなかった単語である未知語を名詞とする。品詞が特定できない未知語は、固有名詞など主題を表す単語であることが多い。そこで、主題抽出部１２は、未知語を名詞として扱うことで、形態素解析に用いる辞書データに未登録の固有名詞などについても主題として抽出できるようにする。
また、主題抽出部１２は、ステップＳ２１０及びステップＳ２２０の処理と、ステップＳ２３０及びステップＳ２４０の処理のいずれを先に実行してもよく、並行して実行してもよい。

［第２の実施形態］
第１の実施形態では、主題抽出処理を、単語の品詞を利用して行っていた。本実施形態では主題抽出処理を、語の重要度を利用して行う。以下では、第１の実施形態との差分を中心に記載する。

図５は、本実施形態によるトピック抽出装置１ａの構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図１に示す第１の実施形態によるトピック抽出装置１と同一の部分には同一の符号を付し、その説明を省略する。同図に示すトピック抽出装置１ａが、図１に示す第１の実施形態のトピック抽出装置１と異なる点は、主題抽出部１２に代えて主題抽出部１２ａを備える点である。主題抽出部１２ａは、番組関連テキストデータに含まれる単語の中からコンテンツの主題となる単語を語の重要度に基づいて抽出する。

トピック抽出装置１ａにおけるトピック抽出処理のフローチャートは、図３に示す第１の実施形態と同様である。ただし、トピック抽出装置１ａの主題抽出部１２ａは、ステップＳ１１０における主題抽出処理として、以下の図６に示す処理を実行する。

図６は、主題抽出部１２ａの主題抽出処理を示すフローチャートである。
主題抽出部１２ａは、番組関連テキストデータが示す番組サブタイトルを形態素解析する（ステップＳ３１０）。主題抽出部１２ａは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部１２ａは、ステップＳ３１０における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部１２ａは、品詞が名詞の単語を抽出する（ステップＳ３２０）。

続いて、主題抽出部１２ａは、番組関連テキストデータが示す番組概要文を形態素解析する（ステップＳ３３０）。主題抽出部１２ａは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部１２ａは、ステップＳ３３０における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部１２ａは、品詞が名詞の単語を抽出する（ステップＳ３４０）。

主題抽出部１２ａは、ステップＳ３２０において抽出した単語と、ステップＳ３４０において抽出した単語とのそれぞれについて、語の重要度を定量的に表すスコアを計算する（ステップＳ３５０）。このスコアには、例えば、ｔｆｉｄｆ値が用いられる。ｔｆｉｄｆ値の算出については、例えば、「”ウィキペディア tf-idf”、ウィキメディア財団、［online］、インターネット〈http://ja.wikipedia.org/wiki/Tf-idf>」に説明されている。具体的には、ＤＮ個の文書からなる文書群がある場合、ある文書ｄに単語ｉが出現する頻度をＴＦ（ｉ）、文書群の中でその単語ｉが含まれている文書数をＤＦ（ｉ）とする。文書ｄにおける単語ｉのｔｆｉｄｆ値は、ＴＦ（ｉ）×ｌｏｇ（ＤＮ／ＤＦ（ｉ））により算出される。主題抽出部１２ａは、番組関連テキストデータの集合を文書群、ステップＳ１１０において入力された番組関連テキストデータを文書ｄとし、ステップＳ３２０あるいはステップＳ３４０において抽出した各単語を単語ｉとしてｔｆｉｄｆ値を計算する。

主題抽出部１２ａは、ステップＳ３５０において計算したスコアが基準より良い単語を主題Ａとして選択する（ステップＳ３６０）。例えば、主題抽出部１２ａは、所定のしきい値よりも良いスコアの単語を選択してもよく、スコア順に並べたときに所定順位以上の単語を選択してもよく、抽出された単語の中から所定割合の単語をスコアが上位のものから選択してもよい。
ステップＳ３６０において主題抽出部１２ａが単語を選択した後、トピック抽出装置１ａは、図３のステップＳ１２０からの処理を行う。

つまり、関連項目抽出部１３は、概念辞書を参照して、主題抽出部１２ａが抽出したいずれかの主題Ａが、左欄に存在する単語、あるいは、右欄に存在する単語と一致する関係項目を特定し、特定した関係項目からなる関係リストを生成する（ステップＳ１２０）。関係名処理部１４は、関係リストに含まれる各関係項目それぞれについて、関係項目内の関係名が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。関係名処理部１４は、含まれると判断した関係名を、その関係名が得られた関係項目に単語Ｔ１または単語Ｔ２として含まれる主題Ａの関係名Ｂとする（ステップＳ１３０）。

さらに、関係名処理部１４は、関係リストに含まれる各関係項目それぞれについて、関係項目内の単語Ｔ１及び単語Ｔ２が番組関連テキストデータの番組サブタイトルあるいは番組概要文に含まれるか否かを判断する。単語Ｔ１または単語Ｔ２のいずれかは主題Ａである。関係名処理部１４は、単語Ｔ１及び単語Ｔ２の両方が含まれると判断した場合、それら単語Ｔ１及び単語Ｔ２が得られた関係項目に記述されている関係名を関係名Ｂとする（ステップＳ１４０）。関係名処理部１４は、ステップＳ１２０において得られた主題Ａと、その主題ＡについてステップＳ１３０、あるいはステップＳ１４０において得られた関係名Ｂとからなるトピック「（主題Ａ）の（関係名Ｂ）」を出力する（ステップＳ１５０）。

なお、いずれの主題Ａについても関係名Ｂが得られなかった場合、トピック抽出装置１ａは、既に主題Ａとして選択された単語の次にスコアが良い単語を新たに主題Ａとして選択し、ステップＳ１２０からの処理を実行してもよい。例えば、図６のステップＳ３６０において、主題抽出部１２ａは、最もスコアが高い単語を主題Ａとして抽出する。トピック抽出装置１ａは、最もスコアが高い単語について図３のステップＳ１２０〜ステップＳ１４０の処理を実行する。ステップＳ１３０及びステップＳ１４０において関係名処理部１４が関係名Ｂを取得できなかった場合、主題抽出部１２ａは、２番目にスコアが高い単語を主題Ａとして抽出する。トピック抽出装置１ａは、２番目にスコアが高い単語について図３のステップＳ１２０〜ステップＳ１４０の処理を実行する。ステップＳ１３０またはステップＳ１４０において関係名Ｂを取得できた場合、関係名処理部１４は、２番目にスコアが高い単語である主題Ａと、その主題Ａについて得られた関係名Ｂとからなるトピック「（主題Ａ）の（関係名Ｂ）」を出力する。一方、ステップＳ１３０及びステップＳ１４０において関係名処理部１４が関係名Ｂを取得できなかった場合、トピック抽出装置１ａは、３番目にスコアが高い単語を主題Ａとして図３のステップＳ１２０〜ステップＳ１４０の処理を実行する。

［第３の実施形態］
本実施形態では、コンテンツに関するテキストデータとして、ウェブサイトデータや電子図書データなどのコンテンツデータに含まれるテキストデータを用いる。以下では、第１の実施形態との差分を中心に記載する。

図７は、本発明の第３の実施形態によるトピック抽出装置１ｂの構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図１に示す第１の実施形態によるトピック抽出装置１と同一の部分には同一の符号を付し、その説明を省略する。同図に示すトピック抽出装置１ｂが、図１に示す第１の実施形態のトピック抽出装置１と異なる点は、主題抽出部１２に代えて主題抽出部１２ｂを備える点、関係名処理部１４に代えて関係名処理部１４ｂを備える点である。

主題抽出部１２ｂは、コンテンツに関するテキストデータとして、ウェブサイトデータに含まれるテキストデータ、あるいは、電子図書データに含まれるテキストデータの入力を受ける。あるいは、主題抽出部１２ｂは、ウェブサイトデータ、あるいは、電子図書データの入力を受け、入力されたウェブサイトデータ、あるいは、電子図書データからテキストデータを抽出してもよい。主題抽出部１２ｂは、ウェブサイトデータまたは電子図書データのテキストデータに含まれる単語の中からコンテンツの主題となる単語を抽出する。

関係名処理部１４ｂは、ウェブサイトデータまたは電子図書データのテキストデータに、関連項目抽出部１３により特定された関係項目に記述されている関係名、あるいは、この特定された関係項目に記述されている２つの単語が含まれているか否かを判断する。関係名処理部１４ｂは、テキストデータに、関係項目に記述されている関係名、あるいは、２つの単語が含まれると判断した場合、主題となる単語と関係項目に記述されている関係名とにより表されるトピックを出力する。第１の実施形態と同様、主題となる単語を主題Ａ、関係項目に含まれる関係名を関係名Ｂとした場合、トピックは、「（主題Ａ）の（関係名Ｂ）」と表される。

トピック抽出装置１ｂにおけるトピック抽出処理のフローチャートは、図３に示す第１の実施形態と同様である。ただし、トピック抽出装置１ｂの主題抽出部１２ｂは、ステップＳ１１０における主題抽出処理として、以下の図８に示す処理を実行する。

図８は、主題抽出部１２ｂの主題抽出処理を示すフローチャートである。以下では、入力されたウェブサイトデータのテキストデータ、あるいは、電子図書データのテキストデータを、入力テキストデータと記載する。
主題抽出部１２ｂは、入力テキストデータを形態素解析する（ステップＳ４１０）。主題抽出部１２ｂは、形態素解析により品詞が特定できなかった単語を、名詞などの予め決められた品詞とする。主題抽出部１２ｂは、ステップＳ４１０における形態素解析結果から所定の品詞の単語を抽出する。本実施形態では、主題抽出部１２ｂは、品詞が名詞の単語を抽出する（ステップＳ４２０）。

主題抽出部１２ｂは、ステップＳ４２０において抽出した単語のそれぞれについて、語の重要度を定量的に表すスコアを計算する（ステップＳ４３０）。このスコアには、例えば、ｔｆｉｄｆ値が用いられる。主題抽出部１２ｂは、ステップＳ４３０において計算したスコアが基準より良い単語を主題Ａとして選択する（ステップＳ４４０）。主題抽出部１２ｂは、所定のしきい値よりも良いスコアの単語を選択してもよく、スコア順に並べたときに所定順位以上の単語を選択してもよく、スコアが上位から所定割合までの単語を選択してもよい。

ステップＳ４４０において主題抽出部１２ｂが単語を選択した後、トピック抽出装置１ｂは、図３のステップＳ１２０からの処理を行う。
ただし、ステップＳ１３０において、関係名処理部１４ｂは、入力テキストデータに、関係リストに含まれる関係項目から取得した関係名が含まれるか否かを判断する。関係名処理部１４ｂは、入力テキストデータに含まれると判断した関係名を、その関係名が得られた関係項目に単語Ｔ１または単語Ｔ２として含まれる主題Ａの関係名Ｂとする。

また、ステップＳ１４０において、関係名処理部１４ｂは、関係項目から右欄に存在する単語Ｔ１と、左欄に存在する単語Ｔ２とを取得し、取得した単語Ｔ１及び単語Ｔ２が入力テキストデータに含まれるか否かを判断する。関係名処理部１４ｂは、単語Ｔ１及び単語Ｔ２の両方が入力テキストデータに含まれると判断した場合、単語Ｔ１及び単語Ｔ２が得られた関係項目に記述されている関係名を関係名Ｂとする。

なお、トピック抽出装置１ｂは、ウェブサイトデータや電子図書データに限らず、ドキュメントのデータなど、テキストデータにより記述された文章を含むコンテンツデータであれば、トピックを抽出することができる。

［第４の実施形態］
本実施形態では、上述した第１〜第３の実施形態において抽出されたコンテンツのトピックを利用して、コンテンツマップを提示する。コンテンツマップとは、主題同士の関係と、それら各主題をトピックの主題とするコンテンツとを表す画像である。以下では、第１の実施形態のトピック抽出装置１にコンテンツマップを提示する機能を追加した場合の例について説明する。

図９は、本実施形態によるトピック抽出装置１ｃの構成を示すブロック図であり、本実施形態と関係する機能ブロックのみを抽出して示してある。同図において、図１に示す第１の実施形態によるトピック抽出装置１と同一の部分には同一の符号を付し、その説明を省略する。同図に示すトピック抽出装置１ｃが、図１に示す第１の実施形態のトピック抽出装置１と異なる点は、マップ生成部１５をさらに備える点である。マップ生成部１５は、関係名処理部１４が各番組の番組関連テキストデータから抽出した各コンテンツのトピックが示す主題と関係名に基づいてコンテンツマップの画像データを生成し、出力する。

図１０は、トピック抽出装置１ｃが出力するコンテンツマップの例を示す図である。
トピック抽出装置１ｃに、複数の番組の番組関連テキストデータが入力される。番組関連テキストデータには、番組に関する情報が付加されているか、番組に関する情報と対応付けるための番組識別情報が付加されている。このような複数の番組の番組関連テキストデータとして、電子番組表を用いることができる。ここでは、番組に関する情報として、番組名と番組サブタイトルを用いた場合を例に説明する。

トピック抽出装置１ｃは、図３に示す第１の実施形態と同様のトピック抽出処理により、各番組の番組関連テキストデータそれぞれから番組のトピックを抽出する。マップ生成部１５は、各番組のトピックから主題を抽出する。例えば、マップ生成部１５は、主題「肩こり」、「頭痛」、「ヨガ」、「冷え症」、…などを抽出する。

マップ生成部１５は、抽出した主題を用いて、２つの主題からなる全ての組を生成する。マップ生成部１５は、主題の組を１つずつ選択すると、概念辞書記憶部１１に記憶されている概念辞書を参照し、選択した主題の組が、右欄に存在する単語と左欄に存在する単語との組に一致する関係項目があるか否かを判断する。マップ生成部１５は、一致する関係項目があると判断した場合、その関係項目から関係名を読み出す。例えば、マップ生成部１５は、主題「肩こり」と「頭痛」の組については、関係名「原因結果」を読み出す。また、マップ生成部１５は、主題「肩こり」と「ヨガ」の組については、関係名「治療法」及び「予防法」を読み出す。

マップ生成部１５は、トピック抽出装置１ｃに備えられた入力装置、あるいは、トピック抽出装置１ｃとネットワークを介して接続されるコンピュータ装置やテレビジョン受像機から、選択された主題の入力を受ける。あるいは、マップ生成部１５は、ユーザーが視聴のため、あるいは、コンテンツ検索のために選択した番組を特定する情報の入力を受け、入力された情報により特定される番組について抽出されたトピックの主題を、選択された主題としてもよい。マップ生成部１５は、選択された主題と、選択された主題との関係名が読み出された他の主題とを表示対象とする。例えば、選択された主題が「肩こり」である場合、マップ生成部１５は、選択された主題「肩こり」と、主題「肩こり」について関係名が読み出された他の主題「頭痛」、「ヨガ」、「冷え症」、…を表示対象とする。なお、マップ生成部１５は、表示対象とした他の主題との関係名が選択されたさらに他の主題を表示対象とすることを所定回繰り返してもよい。

マップ生成部１５は、表示対象の主題と、表示対象の主題を表す画像Ｇ１、Ｇ２、Ｇ３、…（以下、総称して「画像Ｇ」と記載する。）とを対応付けて表示させるコンテンツマップの画像データを生成する。マップ生成部１５は、選択された主題に対応する画像Ｇを中心に表示させる。さらに、マップ生成部１５は、関係名が抽出された主題を表す画像Ｇ同士を結ぶ線Ｌ１、Ｌ２、…（以下、総称して「線Ｌ」と記載する。）と、線Ｌで結ばれた２つの画像Ｇが表す主題の組について読み出した関係名との表示を画像データに付加する。マップ生成部１５は、同じ主題間で複数の関係名が読み出された場合は、その数だけ画像Ｇ間に線Ｌを表示させる。

例えば、マップ生成部１５は、主題「肩こり」の画像Ｇ１と、主題「頭痛」の画像Ｇ２をと結ぶ線Ｌ１には、主題「肩こり」と「頭痛」の組について読み出した関係名「原因結果」を対応付けて表示させる。また、マップ生成部１５は、主題「肩こり」の画像Ｇ１と、主題「ヨガ」の画像Ｇ３をと結ぶ線Ｌ２、Ｌ３それぞれには、主題「肩こり」と「ヨガ」の組について読み出した関係名「治療法」、「予防法」を対応付けて表示させる。

マップ生成部１５は、表示対象の主題がトピックの主題となっている番組を特定すると、特定した番組の関連テキストデータに付加されている情報に基づいて、番組名と番組サブタイトルを取得する。マップ生成部１５は、特定した各番組を表す画像Ｈ１、Ｈ２、…（以下、総称して「画像Ｈ」と記載する。）と、画像Ｈが表す番組の番組名及び番組サブタイトルとの表示を画像データに付加する。さらに、マップ生成部１５は、画像Ｇと、画像Ｇが表す主題について特定された番組を表す画像Ｈとを結ぶ線Ｍ１、Ｍ２、…（以下、総称して「線Ｍ」と記載する。）の表示と、各線Ｍに対応した関係名の表示とを画像データに付加する。マップ生成部１５は、１つの番組において複数のトピックが読み出された場合は、その数だけ画像Ｇと画像Ｈ間に線Ｍを表示させる。

例えば、主題「肩こり」について番組Ｃ１、Ｃ２、Ｃ３…が特定され、番組Ｃ１のトピックが「肩こりの解消法」であり、番組Ｃ２のトピックが「肩こりの原因」、「肩こりの診断法」、「肩こりの症状」であったとする。また、主題「冷え症」と主題「漢方」について同じ番組Ｃ３が特定され、番組Ｃ３のトピックが「冷え症の利用法」、「漢方の紹介」であったとする。

マップ生成部１５は、主題「肩こり」の画像Ｇ１の周囲に番組Ｃ１、Ｃ２、…を表す画像Ｈ１、Ｈ２、…を表示させる。マップ生成部１５は、画像Ｈ１と対応付けて番組Ｃ１の番組名「今日も健康」及び番組サブタイトル「冷え症『肩こり解消エクササイズ』」を表示させる。さらに、マップ生成部１５は、画像Ｇ１と画像Ｈ１とを結ぶ線Ｍ１を表示させ、線Ｍ１に対応付けて番組Ｃ１の主題「肩こり」の関係名「解消法」を表示させる。

また、マップ生成部１５は、画像Ｈ２と対応付けて番組Ｃ２の番組名「今日も健康」及び番組サブタイトル「肩こり『原因を知ろう！』」を表示させる。さらに、マップ生成部１５は、画像Ｇ１と画像Ｈ２とを結ぶ線Ｍ２、Ｍ３、Ｍ４を表示させ、線Ｍ２、Ｍ３、Ｍ４のそれぞれに対応付けて、番組Ｃ２の主題「肩こり」の関係名「原因」、「診断法」、「症状」を表示させる。

また、マップ生成部１５は、画像Ｈ３と対応付けて番組Ｃ３の番組名「今日も健康」及び番組サブタイトル「冷え症『漢方で改善』」を表示させる。さらに、マップ生成部１５は、画像Ｇ４と画像Ｈ３とを結ぶ線Ｍ５、及び画像Ｇ５と画像Ｈ３を結ぶ線Ｍ６を表示させる。マップ生成部１５は、線Ｍ５に対応付けて番組Ｃ３の主題「漢方」の関係名「紹介」を表示させ、線Ｍ６に対応付けて番組Ｃ３の主題「冷え症」の関係名「治療法」を表示させる。

マップ生成部１５は、生成した画像データを、トピック抽出装置１ｃに備えられたディスプレイに表示させる。あるいは、マップ生成部１５は、トピック抽出装置１ｃとネットワークを介して接続されるコンピュータ装置やテレビジョン受像機に画像データを送信し、表示させる。そして、マップ生成部１５が、画像データにより表示させたコンテンツマップにおいていずれかの画像Ｇが選択されたことを受信した場合、選択された画像Ｇが表す主題を選択された主題として再び上記の処理を行う。また、マップ生成部１５が、画像データにより表示させたコンテンツマップにおいていずれかの画像Ｈが選択されたことを受信した場合、選択された画像Ｈが表す番組に関するさらなる情報を出力し、表示させる。番組に関するさらなる情報には、例えば、番組概要、番組の画像やサムネイルなどを用いることができる。マップ生成部１５は、番組に関するさらなる情報を、電子番組表や、トピック抽出装置１ｃと接続されるデータベース装置等から読み出す。

なお、マップ生成部１５は、全ての主題を表示対象として予めコンテンツマップの画像データを生成しておいてもよい。マップ生成部１５は、予め生成したコンテンツマップの画像データから、選択された主題を表す画像Ｇを中心とした所定範囲の画像データを抽出して出力し、表示させる。

上記においては、第１の実施形態のトピック抽出装置１にコンテンツマップを提示する機能を追加した場合を説明したが、第２の実施形態のトピック抽出装置１ａや第３の実施形態のトピック抽出装置１ｂにマップ生成部１５を追加することにより、同様の機能を追加することができる。第３の実施形態のトピック抽出装置１ｂにマップ生成部１５を備える場合、マップ生成部１５は、番組名と番組サブタイトルに代えて、例えば電子書籍のタイトルや著者などをコンテンツマップに表示させてもよい。また、マップ生成部１５は、トピック抽出装置１ａまたはトピック抽出装置１ｂの関係名処理部１４が抽出した各番組のトピックと、トピック抽出装置１ｂの関係名処理部１４ｂが抽出したウェブサイトや電子書籍のトピックとを用いて、コンテンツマップを生成してもよい。

以上説明した実施形態によれば、トピック抽出装置は、２つの単語の上位下位概念だけでなく、原因結果、治療法、予防法、材料、有益など、２単語の間の関係を表す概念辞書を利用して、コンテンツに関するテキストデータからトピックを推定する。これにより、トピック抽出装置は、コンテンツ間のリンクの把握に有用な情報を含んだトピックをユーザーに提供することができる。例えば、トピック抽出装置が、番組Ｐから「肺がんの治療法」というトピックを抽出し、番組Ｑから「肺がんの予防法」というトピックを抽出する。この場合、両番組は、共通した主題「肺がん」の話題であるという類似関係だけでなく、「肺がん」という主題に対する「治療法」と「予防法」という関係名によりリンクづけられる。また、トピック抽出装置によるトピックの抽出処理においては、ユーザーの検索履歴やアクセス情報などは不要である。

上述したように、コンテンツ間をトピック抽出装置が抽出した各コンテンツのトピックによりリンク付けることができるため、類似したコンテンツに加え、より発展した内容のコンテンツの推薦を行うことも可能となる。例えば、トピック抽出装置が抽出したトピックの主題が同じコンテンツを選択し、選択したそれらのコンテンツのトピックの関係名同士が表す関係に基づいてコンテンツを推薦することも可能となる。あるいは、トピック抽出装置は、ユーザーが選択したコンテンツと、この選択されたコンテンツに任意のコンテンツ検索方法により関連すると判断された他のコンテンツとについてトピックを抽出し、提示する。ユーザーは提示された各コンテンツのトピックに含まれる関係名によってコンテンツ間の関係を把握し、類似した、あるいは、発展した内容のコンテンツを発見することができる。

上述したトピック抽出装置１、１ａ、１ｂ、１ｃは、内部にコンピュータシステムを有している。そして、トピック抽出装置１、１ａ、１ｂ、１ｃの動作の過程は、プログラムの形式でコンピュータ読み取り可能な記録媒体に記憶されており、このプログラムをコンピュータシステムが読み出して実行することによって、上記処理が行われる。ここでいうコンピュータシステムとは、ＣＰＵ及び各種メモリやＯＳ、周辺機器等のハードウェアを含むものである。

また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の概念辞書記憶部のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。

１、１ａ、１ｂ、１ｃトピック抽出装置
１１概念辞書記憶部
１２、１２ａ、１２ｂ主題抽出部
１３関連項目抽出部
１４、１４ｂ関係名処理部
１５マップ生成部

Claims

コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出部と、
２つの異なる単語と前記２つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記２つの異なる単語の一方が前記主題抽出部により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出部と、
前記コンテンツに関するテキストデータに、前記関連項目抽出部により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出部により特定された前記関係項目データが示す前記２つの異なる単語が含まれる場合に、前記主題抽出部により抽出された主題となる前記単語と前記関連項目抽出部により特定された前記関係項目データが示す前記関係名とを出力する関係名処理部と、
を備えることを特徴とするトピック抽出装置。
前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の中から名詞を主題となる単語として抽出する、
ことを特徴とする請求項１に記載のトピック抽出装置。
前記コンテンツに関するテキストデータは、番組サブタイトルと番組概要文とを含み、
前記主題抽出部は、番組サブタイトルと番組概要文とに共通して含まれる単語の中から名詞を主題となる単語として抽出する、
ことを特徴とする請求項２に記載のトピック抽出装置。
前記主題抽出部は、前記コンテンツに関するテキストデータに含まれる単語の重要度を算出し、算出した前記重要度に基づいて主題となる単語を抽出する、
ことを特徴とする請求項１に記載のトピック抽出装置。
前記概念辞書データを参照し、複数のコンテンツそれぞれに関するテキストデータから前記主題抽出部により抽出された主題となる単語間の関係名を前記関係項目データから読み出し、主題となる前記単語と、主題となる前記単語間について読み出した前記関係名と、主題となる前記単語が抽出された前記コンテンツの情報と、主題となる前記単語が抽出された前記コンテンツに関するテキストデータから前記関係名処理部が読み出した前記関係名とを表示させる画像データを生成するマップ生成部をさらに備える、
ことを特徴とする請求項１から請求項４のいずれか１項に記載のトピック抽出装置。
コンピュータを、
コンテンツに関するテキストデータに含まれる単語の中から前記コンテンツの主題となる単語を抽出する主題抽出手段と、
２つの異なる単語と前記２つの異なる単語の間の関係を表す関係名とを示す関係項目データを複数含んだ概念辞書データから、前記２つの異なる単語の一方が前記主題抽出手段により抽出された主題となる前記単語と一致する前記関係項目データを特定する関連項目抽出手段と、
前記コンテンツに関するテキストデータに、前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名が含まれる場合、あるいは、前記関連項目抽出手段により特定された前記関係項目データが示す前記２つの異なる単語が含まれる場合に、前記主題抽出手段により抽出された主題となる前記単語と前記関連項目抽出手段により特定された前記関係項目データが示す前記関係名とを出力する関係名処理手段と、
を具備するトピック抽出装置として機能させるためのプログラム。