JP5950737B2

JP5950737B2 - 情報抽出装置及びプログラム

Info

Publication number: JP5950737B2
Application number: JP2012159901A
Authority: JP
Inventors: 宮崎　勝; 勝宮崎; 山田　一郎; 一郎山田
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2012-07-18
Filing date: 2012-07-18
Publication date: 2016-07-13
Anticipated expiration: 2032-07-18
Also published as: JP2014021727A

Description

本発明は、コンテンツに関する新たな情報を抽出する情報抽出装置及びプログラムに関する。

近年、番組、映画といった映像コンテンツや、Ｗｅｂサイト、ブログ等のテキストコンテンツがインターネット上で自由に利用及び閲覧できる環境が整えられている。また、ユーザ自身がそれらのコンテンツを検索するサービスの重要性が高まっている。

検索エンジン、インターネットのポータルサイト、又はコンテンツプロバイダーのサイト等において、映像コンテンツ及びテキストコンテンツの中から目的のコンテンツをキーワード検索するための機能が提供されている。しかし、主にキーワードのマッチングによるものが多いため、事前に用意した、コンテンツに関するキーワード情報（メタデータ）が不十分であると、目的のコンテンツに到達できないことも考えられる。

また、キーワード情報は、コンテンツプロバイダーが用意する場合が多く、大多数のユーザが共通して想像できるような一般的なものになりがちである。よって、様々な観点から多様なキーワード情報がコンテンツに付与されることはあまりない。

そこで、ユーザ自身がコンテンツに関する情報を付与し、それを他のユーザが利用できるサービス等が登場している。これらは「ソーシャル・タギング」と呼ばれる。
例えば、特許文献１では、ソーシャル・ブックマークという、ウェブページにユーザがタグ（キーワード）を付加することでウェブページを分類できるサービスを利用し、各ウェブサイトに自動的に検索のためのキーワードを付与する技術が提案されている。

また、特許文献２では、コミュニケーションの場に投稿されたメッセージからデータベースに未登録な用語を検出し、その用語の意味を問う質問メッセージをユーザに送信する技術が提案されている。これは、質問に対するユーザの回答メッセージに基づいて用語の意味をデータベースに登録し、そのコミュニケーションの場に参加するユーザの知識をサポートする技術に関するものである。

特開２００９−１４００８９号公報特開２００７−１５６８３３号公報

ところで、特許文献１の技術は、ソーシャル・ブックマークのデータを基本としているため、ユーザが明示的に付与したキーワードの情報しか検索に利用できない。また、特許文献２の技術は、コンテンツの検索に関するものではなく、また、質問文を生成してコミュニケーションの場に関する情報を得る手法をとっているため、質問文に関するユーザからの回答が得られることが前提となってしまう。つまり、ユーザがタギングや、質問への回答、という明示的な操作を行わなくても、コンテンツに関する情報が蓄積されていくことが望ましい。

本発明は、ユーザが明示的に指定したキーワードだけではなく、ユーザが重要とは判断してないキーワードを抽出することができる情報抽出装置及びプログラムを提供することを目的とする。

本発明に係る情報抽出装置は、番組についてのコメントを抽出する第１抽出部と、前記第１抽出部により抽出されたコメントを解析する第１解析部と、前記第１解析部で解析された第１解析結果に基づいて、番組を特定する番組特定部と、前記番組特定部により特定された番組に関する番組情報をデータベースから抽出する第２抽出部と、前記第２抽出部により抽出された番組情報を解析する第２解析部と、前記第１解析結果と、前記第２解析部で解析された第２解析結果を比較する比較部と、前記比較部による比較結果に基づいて、前記第２解析結果に含まれていなかった情報であって、前記第１解析結果に含まれている情報を前記番組特定部で特定した番組の番組情報に追加するか否かを判断する判断部と、前記判断部で情報を追加すると判断された場合、当該情報を前記番組特定部で特定した番組の番組情報に追加する追加部を備える構成である。

かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントを解析した第１解析結果と、番組情報を解析した第２解析結果を比較し、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加するので、ユーザが明示的に指定したキーワード（情報）だけではなく、ユーザが「重要とは判断してない」キーワードを抽出し、番組情報に追加することができる。

また、情報抽出装置では、前記第１解析部は、形態素解析により、前記第１抽出部により抽出されたコメントに含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第１解析結果として抽出し、前記第２解析部は、形態素解析により、前記第２抽出部により抽出された番組情報に含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第２解析結果として抽出する構成でもよい。

かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントと、番組情報に含まれている全ての単語又は特定の品詞を対象として特徴的なキーワードをそれぞれ抽出して比較する。よって、情報抽出装置は、全単語を対象にする場合には、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を漏れなく抽出でき、また、特定の品詞（例えば、名詞）を対象にする場合には、特定の品詞についてのみ、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を漏れなく抽出できる。

また、情報抽出装置では、前記第１解析部は、形態素解析により、前記第１抽出部により抽出されたコメントに含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語を前記第１解析結果として抽出し、前記第２解析部は、形態素解析により、前記第２抽出部により抽出された番組情報に含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語を前記第２解析結果として抽出する構成でもよい。

かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントと、番組情報に含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語をそれぞれ抽出して比較する。よって、情報抽出装置は、ＴＦ−ＩＤＦ値が高い語のみを対象にする場合には、第２解析結果に含まれていなかったＴＦ−ＩＤＦ値が高い語であって、第１解析結果に含まれているＴＦ−ＩＤＦ値が高い語を漏れなく抽出でき、また、話題性のある語を対象にする場合には、第２解析結果に含まれていなかった話題性のある語であって、第１解析結果に含まれている話題性のある語を漏れなく抽出できる。

また、情報抽出装置では、前記第１解析部は、形態素解析により、前記第１抽出部により抽出されたコメントに含まれている固有表現を前記第１解析結果として抽出し、前記第２解析部は、形態素解析により、前記第２抽出部により抽出された番組情報に含まれている固有表現を前記第２解析結果として抽出する構成でもよい。

かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントと、番組情報に含まれている語の中から、固有表現のみをそれぞれ抽出して比較する。よって、情報抽出装置は、第２解析結果に含まれていなかった固有表現であって、第１解析結果に含まれている固有表現を漏れなく抽出できる。

本発明に係るプログラムは、番組についてのコメントを抽出する第１抽出工程と、前記第１抽出工程により抽出されたコメントを解析する第１解析工程と、前記第１解析工程で解析された第１解析結果に基づいて、番組を特定する番組特定工程と、前記番組特定工程により特定された番組に関する番組情報をデータベースから抽出する第２抽出工程と、前記第２抽出工程により抽出された番組情報を解析する第２解析工程と、前記第１解析結果と、前記第２解析工程で解析された第２解析結果を比較する比較工程と、前記比較工程による比較結果に基づいて、前記第２解析結果に含まれていなかった情報であって、前記第１解析結果に含まれている情報を前記番組特定工程で特定した番組の番組情報に追加するか否かを判断する判断工程と、前記判断工程で情報を追加すると判断された場合、当該情報を前記番組特定工程で特定した番組の番組情報に追加する追加工程をコンピュータに実行させるためのものである。

かかる構成によれば、本発明に係るプログラムは、番組についてのコメントを解析した第１解析結果と、番組情報を解析した第２解析結果を比較し、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加するので、ユーザが明示的に指定したキーワード（情報）だけではなく、ユーザが「重要とは判断してない」キーワードを抽出し、番組情報に追加することができる。

本発明によれば、ユーザが明示的に指定したキーワードだけではなく、ユーザが重要とは判断してないキーワードを抽出することができる。

情報抽出装置の構成を示す図である。情報抽出装置の動作の流れについての説明に供するフローチャートである。

以下、本発明の実施形態の一例について図１を参照しながら説明する。
情報抽出装置１は、図１に示すように、第１抽出部１１と、第１解析部１２と、番組特定部１３と、第２抽出部１４と、第２解析部１５と、比較部１６と、判断部１７と、追加部１８を備える。

第１抽出部１１は、番組についてのコメントを投稿型のウェブサイト２から抽出する。投稿型のウェブサイト２は、例えば、コメントを投稿して他のユーザとコミュニケーションを図るサービス（ソーシャルネットワーキングサービス、ＳＮＳ）により実現される。また、投稿型のウェブサイト２は、ＳＮＳに限らず、掲示板（ＢＢＳ）のような形態で実現されてもよい。

また、投稿型のウェブサイト２は、各番組に対するレビューページを備える構成であってもよい。各ページは、ユーザが番組に対して自由に意見及び感想を書き込むことができる。このような構成によれば、第１抽出部１１は、投稿型のウェブサイト２に含まれている各番組に対するレビューページにアクセスして、投稿されているコメントを抽出する。
なお、第１抽出部１１は、投稿型のウェブサイト２に投稿されているコメントに限らず、番組についてのコメントを抽出できればよい。

例えば、情報抽出装置１とＰＣが有線又は無線で接続されているものとする。また、ＰＣは、番組についてのコメントの書き込み及び閲覧が可能なＶＯＤアプリケーションを起動しているものとする。第１抽出部１１は、ＶＯＤアプリケーションから番組についてのコメントを抽出する構成でもよい。

また、情報抽出装置１とスマートフォン等の携帯無線機器が有線又は無線で接続されているものとする。また、携帯無線機器は、番組についてのコメントの書き込み及び閲覧が可能な番組レビューアプリケーションを起動しているものとする。第１抽出部１１は、番組レビューアプリケーションから番組についてのコメントを抽出する構成でもよい。

また、情報抽出装置１とスマートテレビが有線又は無線で接続されているものとする。また、スマートテレビは、例えば、ハイブリッドキャスト（登録商標）対応テレビであって、番組についてのコメントの書き込み及び閲覧が可能な番組レビューアプリケーションを起動しているものとする。第１抽出部１１は、番組レビューアプリケーションから番組についてのコメントを抽出する構成でもよい。

第１解析部１２は、第１抽出部１１により抽出されたコメントを解析する。
番組特定部１３は、第１解析部１２で解析された第１解析結果に基づいて、番組を特定する。

第２抽出部１４は、番組特定部１３により特定された番組に関する番組情報をデータベース３から抽出する。データベース３は、例えば、放送事業者により提供されるものであり、番組ごとに番組に関する情報が番組情報として格納されている。番組情報は、例えば、番組のタイトル、出演者、番組概要等により構成されている。

第２解析部１５は、第２抽出部１４により抽出された番組情報を解析する。
比較部１６は、第１解析結果と、第２解析部１５で解析された第２解析結果を比較する。

判断部１７は、比較部１６による比較結果に基づいて、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を番組特定部１３で特定した番組の番組情報に追加するか否かを判断する。
追加部１８は、判断部１７で情報を追加すると判断された場合、当該情報を番組特定部１３で特定した番組の番組情報に追加する。

このように構成されることにより、情報抽出装置１は、投稿型のウェブサイト２に投稿されているコメントを解析した第１解析結果と、番組情報を解析した第２解析結果を比較し、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加する。

よって、情報抽出装置１は、ユーザによるキーワードのタギングや、ユーザとシステムのインタラクションによってコンテンツ検索のためのキーワードを付加するのではなく、コンテンツに関するユーザの意見、感想といったテキスト情報、又は、コンテンツに関してユーザ同士で行われたテキストコミュニケーションの情報からコンテンツに関する重要なキーワードを抽出し、それをそのコンテンツのメタデータとして蓄積するものである。これにより、情報抽出装置１は、ユーザが明示的に指定したキーワード（情報）だけではなく、ユーザが「重要とは判断してない」キーワードを抽出し、番組情報に追加することができる。
また、情報抽出装置１により抽出したキーワードを利用して、他のユーザにとって意外なコンテンツの検索や推薦に役立てることができる。

また、第１解析部１２は、形態素解析により、第１抽出部１１により抽出されたコメントに含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを第１解析結果として抽出する構成でもよい。第２解析部１５は、形態素解析により、第２抽出部１４により抽出された番組情報に含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを第２解析結果として抽出する構成でもよい。

かかる構成によれば、情報抽出装置１は、投稿型のウェブサイト２に投稿されているコメントと、番組情報に含まれている全ての単語又は特定の品詞を対象として特徴的なキーワードをそれぞれ抽出して比較する。

よって、情報抽出装置１は、全単語を対象にする場合には、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を漏れなく抽出でき、また、特定の品詞（例えば、名詞）を対象にする場合には、特定の品詞についてのみ、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を漏れなく抽出できる。

また、第１解析部１２は、形態素解析により、第１抽出部１１により抽出されたコメントに含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語を第１解析結果として抽出する構成でもよい。第２解析部１５は、形態素解析により、第２抽出部１４により抽出された番組情報に含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語を第２解析結果として抽出する構成でもよい。

かかる構成によれば、情報抽出装置１は、投稿型のウェブサイト２に投稿されているコメントと、番組情報に含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語をそれぞれ抽出して比較する。

よって、情報抽出装置１は、ＴＦ−ＩＤＦ値が高い語のみを対象にする場合には、第２解析結果に含まれていなかったＴＦ−ＩＤＦ値が高い語であって、第１解析結果に含まれているＴＦ−ＩＤＦ値が高い語を漏れなく抽出でき、また、話題性のある語を対象にする場合には、第２解析結果に含まれていなかった話題性のある語であって、第１解析結果に含まれている話題性のある語を漏れなく抽出できる。

また、第１解析部１２は、形態素解析により、第１抽出部１１により抽出されたコメントに含まれている固有表現を第１解析結果として抽出する構成でもよい。第２解析部１５は、形態素解析により、第２抽出部１４により抽出された番組情報に含まれている固有表現を第２解析結果として抽出する構成でもよい。

かかる構成によれば、情報抽出装置１は、投稿型のウェブサイト２に投稿されているコメントと、番組情報に含まれている語の中から、固有表現のみをそれぞれ抽出して比較する。よって、情報抽出装置１は、第２解析結果に含まれていなかった固有表現であって、第１解析結果に含まれている固有表現を漏れなく抽出できる。

つぎに、情報抽出装置１の動作の流れについて、図２に示すフローチャートを参照しながら説明する。
ステップＳＴ１において、第１抽出部１１は、投稿型のウェブサイト２に投稿されているコメントを抽出する。

ステップＳＴ２において、第１解析部１２は、ステップＳＴ１の工程により抽出されたコメントを解析する。
ステップＳＴ３において、番組特定部１３は、ステップＳＴ２の工程により解析された第１解析結果に基づいて、番組を特定する。

ステップＳＴ４において、第２抽出部１４は、ステップＳＴ３の工程により特定された番組に関する番組情報をデータベース３から抽出する。
ステップＳＴ５において、第２解析部１５は、ステップＳＴ４の工程により抽出された番組情報を解析する。

ステップＳＴ６において、比較部１６は、ステップＳＴ２の工程で解析された第１解析結果と、ステップＳＴ５の工程により解析された第２解析結果を比較する。
ステップＳＴ７において、判断部１７は、ステップＳＴ６の工程による比較結果に基づいて、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を番組特定工程で特定した番組の番組情報に追加するか否かを判断する。追加すると判断した場合には、ステップＳＴ８に進み、追加しないと判断した場合には、一連の処理を終了する。

ステップＳＴ８において、追加部１８は、ステップＳＴ７の工程で情報を追加すると判断された場合、当該情報をステップＳＴ３の工程で特定した番組の番組情報に追加する。

このようにして、情報抽出装置１は、投稿型のウェブサイト２に投稿されているコメントを解析した第１解析結果と、番組情報を解析した第２解析結果を比較し、第２解析結果に含まれていなかった情報であって、第１解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加するので、ユーザが明示的に指定したキーワード（情報）だけではなく、ユーザが重要とは判断してないキーワードを抽出し、番組情報に追加することができる。

つぎに、情報抽出装置１の具体的な実施例について説明する。
上述したように、情報抽出装置１は、番組ごとにレビュー投稿が可能なＳＮＳ（投稿型のウェブサイト２）を利用するものであり、ユーザの番組に対する自由な書き込みから、番組を検索するためのキーワードを自動抽出して、登録するものである。

情報抽出装置１は、ユーザの書き込みテキストを解析し、特徴的なキーワードを抽出する。このテキスト解析には、一般的な形態素解析処理、重要度計算処理、又は固有表現抽出処理を用いることができる。

重要度計算処理には、ＴＦ−ＩＤＦといった指標や、トピック抽出の技術等を用いてもよい。また、重要度の計算をせずに、形態素解析の結果得られた単語群をそのまま利用してもよい。

例えば、投稿型のウェブサイト２において、番組ＰＲ１に対するユーザＵ１の書き込みＰ１が「この番組を見て、○○（映画名）という映画のことを思い出しました。大きなアンテナが・・・」というものだったとする。また、番組ＰＲ１のメタデータＭ１は、「タイトル：○○」と、「出演者：○○、△△」と、「番組概要：アメリカにある天文台では、巨大なアンテナ太陽系外からの電波を・・・」が含まれているものとする。

情報抽出装置１は、投稿型のウェブサイト２にアクセスして、ユーザＵ１の書き込みＰ１を形態素解析して単語に分割する。また、情報抽出装置１は、データベース３にアクセスして、番組ＰＲ１に関するメタデータＭ１（番組情報）を取得し、解析する。

情報抽出装置１は、書き込みＰ１を解析して得られた単語リストＷＬ１と、メタデータＭ１を解析して得られた単語リストＷＬ２とを比較し、ＷＬ１に含まれているがＷＬ２に含まれていない単語を抽出する。

具体的には、単語リストＷＬ１には、「○○○（映画タイトル）」、「アンテナ」が含まれている。また、単語リストＷＬ２には、「○○」（タイトル）、「○○」（出演者）、「△△」（出演者）、「アメリカ」、「天文台」、「太陽系外」、「電波」、「アンテナ」が含まれている。

情報抽出装置１は、ＷＬ１に含まれる「○○○（映画タイトル）」という単語Ｗ１が単語リストＷＬ２に含まれていないため、新たに単語Ｗ１を番組ＰＲ１のメタデータＭ１に追加する処理を行う。例えば、情報抽出装置１は、オリジナルのメタデータＭ１には直接追加せず、追加メタデータＭ２という形式で新たな単語Ｗ１を追加する。

つまり、番組ＰＲ１のメタデータＭ１を作成した業者は、番組ＰＲ１と単語Ｗ１（映画タイトル）に関連があることを想定しておらず、そのような情報をメタデータに関連付けていなかった。

情報抽出装置１は、上述したように、あるユーザＵ１がこの番組を見て投稿した書き込みＰ１から番組ＰＲ１と単語Ｗ１（映画タイトル）との関係を抽出し、単語Ｗ１を番組ＰＲ１の新たなメタデータとして蓄積する。
このようにして、新たなメタデータをデータベース３に随時蓄積しておくことにより、例えば、ある別のユーザＵ２が「○○○（映画名）」というキーワードで番組を検索した場合に、番組ＰＲ１を「関連番組」として提供することが可能となり、ユーザＵ２に対して意外性のある番組提供を実現することができる。

また、書き込みＰ１から単語リストＷＬ１を作成する処理には、様々な手法を利用することができる。例えば、形態素解析を用いて書き込みＰ１から単語群ＷＬ０を生成し、生成した全ての単語群ＷＬ０を単語リストＷＬ１に含ませることができる。

また、ＴＦ−ＩＤＦ等の手法を用いて単語群ＷＬ０から重要な単語だけを抽出し、それを単語リストＷＬ１に含ませてもよい。

また、投稿群の時間的推移から現在話題になっている単語のみを取り出し、それを単語リストＷＬ１に含ませてもよい。
さらに、単語群ＷＬ０から、人名、地名、番組タイトル、といった固有名詞（固有表現）のみを抽出し、それを単語リストＷＬ１に含ませてもよい。

また、メタデータＭ１から単語リストＷＬ２を作成する手順も同様である。メタデータＭ１に含まれる全てを単語リストＷＬ２としてもよいし、メタデータＭ１の特定の属性（例えば、「番組名」、「出演者名」、又は「番組概要文に含まれる人物名」といった細かい設定も可能）のみを抽出し、単語リストＷＬ２としてもよい。

なお、本実施例では、主に情報抽出装置の構成と動作について説明したが、これに限られず、各構成要素を備え、ユーザが明示的に指定したキーワードだけではなく、ユーザが重要とは判断してないキーワードを抽出するための方法、及びプログラムとして構成されてもよい。

さらに、情報抽出装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。

ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。

さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。

１情報抽出装置
１１第１抽出部
１２第１解析部
１３番組特定部
１４第２抽出部
１５第２解析部
１６比較部
１７判断部
１８追加部

Claims

番組についてのコメントを抽出する第１抽出部と、
前記第１抽出部により抽出されたコメントを解析する第１解析部と、
前記第１解析部で解析された第１解析結果に基づいて、番組を特定する番組特定部と、
前記番組特定部により特定された番組に関する番組情報をデータベースから抽出する第２抽出部と、
前記第２抽出部により抽出された番組情報を解析する第２解析部と、
前記第１解析結果と、前記第２解析部で解析された第２解析結果を比較する比較部と、
前記比較部による比較結果に基づいて、前記第２解析結果に含まれていなかった情報であって、前記第１解析結果に含まれている情報を前記番組特定部で特定した番組の番組情報に追加するか否かを判断する判断部と、
前記判断部で情報を追加すると判断された場合、当該情報を前記番組特定部で特定した番組の番組情報に追加する追加部を備える情報抽出装置。
前記第１解析部は、形態素解析により、前記第１抽出部により抽出されたコメントに含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第１解析結果として抽出し、
前記第２解析部は、形態素解析により、前記第２抽出部により抽出された番組情報に含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第２解析結果として抽出する請求項１記載の情報抽出装置。
前記第１解析部は、形態素解析により、前記第１抽出部により抽出されたコメントに含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語を前記第１解析結果として抽出し、
前記第２解析部は、形態素解析により、前記第２抽出部により抽出された番組情報に含まれている語の中から、ＴＦ−ＩＤＦ値が高い語のみ、又は話題性のある語を前記第２解析結果として抽出する請求項１記載の情報抽出装置。
前記第１解析部は、形態素解析により、前記第１抽出部により抽出されたコメントに含まれている固有表現を前記第１解析結果として抽出し、
前記第２解析部は、形態素解析により、前記第２抽出部により抽出された番組情報に含まれている固有表現を前記第２解析結果として抽出する請求項１記載の情報抽出装置。
番組についてのコメントを抽出する第１抽出工程と、
前記第１抽出工程により抽出されたコメントを解析する第１解析工程と、
前記第１解析工程で解析された第１解析結果に基づいて、番組を特定する番組特定工程と、
前記番組特定工程により特定された番組に関する番組情報をデータベースから抽出する第２抽出工程と、
前記第２抽出工程により抽出された番組情報を解析する第２解析工程と、
前記第１解析結果と、前記第２解析工程で解析された第２解析結果を比較する比較工程と、
前記比較工程による比較結果に基づいて、前記第２解析結果に含まれていなかった情報であって、前記第１解析結果に含まれている情報を前記番組特定工程で特定した番組の番組情報に追加するか否かを判断する判断工程と、
前記判断工程で情報を追加すると判断された場合、当該情報を前記番組特定工程で特定した番組の番組情報に追加する追加工程をコンピュータに実行させるためのプログラム。