JP5950737B2 - 情報抽出装置及びプログラム - Google Patents

情報抽出装置及びプログラム Download PDF

Info

Publication number
JP5950737B2
JP5950737B2 JP2012159901A JP2012159901A JP5950737B2 JP 5950737 B2 JP5950737 B2 JP 5950737B2 JP 2012159901 A JP2012159901 A JP 2012159901A JP 2012159901 A JP2012159901 A JP 2012159901A JP 5950737 B2 JP5950737 B2 JP 5950737B2
Authority
JP
Japan
Prior art keywords
program
analysis
information
unit
analysis result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012159901A
Other languages
English (en)
Other versions
JP2014021727A (ja
Inventor
宮崎 勝
勝 宮崎
山田 一郎
一郎 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012159901A priority Critical patent/JP5950737B2/ja
Publication of JP2014021727A publication Critical patent/JP2014021727A/ja
Application granted granted Critical
Publication of JP5950737B2 publication Critical patent/JP5950737B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンテンツに関する新たな情報を抽出する情報抽出装置及びプログラムに関する。
近年、番組、映画といった映像コンテンツや、Webサイト、ブログ等のテキストコンテンツがインターネット上で自由に利用及び閲覧できる環境が整えられている。また、ユーザ自身がそれらのコンテンツを検索するサービスの重要性が高まっている。
検索エンジン、インターネットのポータルサイト、又はコンテンツプロバイダーのサイト等において、映像コンテンツ及びテキストコンテンツの中から目的のコンテンツをキーワード検索するための機能が提供されている。しかし、主にキーワードのマッチングによるものが多いため、事前に用意した、コンテンツに関するキーワード情報(メタデータ)が不十分であると、目的のコンテンツに到達できないことも考えられる。
また、キーワード情報は、コンテンツプロバイダーが用意する場合が多く、大多数のユーザが共通して想像できるような一般的なものになりがちである。よって、様々な観点から多様なキーワード情報がコンテンツに付与されることはあまりない。
そこで、ユーザ自身がコンテンツに関する情報を付与し、それを他のユーザが利用できるサービス等が登場している。これらは「ソーシャル・タギング」と呼ばれる。
例えば、特許文献1では、ソーシャル・ブックマークという、ウェブページにユーザがタグ(キーワード)を付加することでウェブページを分類できるサービスを利用し、各ウェブサイトに自動的に検索のためのキーワードを付与する技術が提案されている。
また、特許文献2では、コミュニケーションの場に投稿されたメッセージからデータベースに未登録な用語を検出し、その用語の意味を問う質問メッセージをユーザに送信する技術が提案されている。これは、質問に対するユーザの回答メッセージに基づいて用語の意味をデータベースに登録し、そのコミュニケーションの場に参加するユーザの知識をサポートする技術に関するものである。
特開2009−140089号公報 特開2007−156833号公報
ところで、特許文献1の技術は、ソーシャル・ブックマークのデータを基本としているため、ユーザが明示的に付与したキーワードの情報しか検索に利用できない。また、特許文献2の技術は、コンテンツの検索に関するものではなく、また、質問文を生成してコミュニケーションの場に関する情報を得る手法をとっているため、質問文に関するユーザからの回答が得られることが前提となってしまう。つまり、ユーザがタギングや、質問への回答、という明示的な操作を行わなくても、コンテンツに関する情報が蓄積されていくことが望ましい。
本発明は、ユーザが明示的に指定したキーワードだけではなく、ユーザが重要とは判断してないキーワードを抽出することができる情報抽出装置及びプログラムを提供することを目的とする。
本発明に係る情報抽出装置は、番組についてのコメントを抽出する第1抽出部と、前記第1抽出部により抽出されたコメントを解析する第1解析部と、前記第1解析部で解析された第1解析結果に基づいて、番組を特定する番組特定部と、前記番組特定部により特定された番組に関する番組情報をデータベースから抽出する第2抽出部と、前記第2抽出部により抽出された番組情報を解析する第2解析部と、前記第1解析結果と、前記第2解析部で解析された第2解析結果を比較する比較部と、前記比較部による比較結果に基づいて、前記第2解析結果に含まれていなかった情報であって、前記第1解析結果に含まれている情報を前記番組特定部で特定した番組の番組情報に追加するか否かを判断する判断部と、前記判断部で情報を追加すると判断された場合、当該情報を前記番組特定部で特定した番組の番組情報に追加する追加部を備える構成である。
かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントを解析した第1解析結果と、番組情報を解析した第2解析結果を比較し、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加するので、ユーザが明示的に指定したキーワード(情報)だけではなく、ユーザが「重要とは判断してない」キーワードを抽出し、番組情報に追加することができる。
また、情報抽出装置では、前記第1解析部は、形態素解析により、前記第1抽出部により抽出されたコメントに含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第1解析結果として抽出し、前記第2解析部は、形態素解析により、前記第2抽出部により抽出された番組情報に含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第2解析結果として抽出する構成でもよい。
かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントと、番組情報に含まれている全ての単語又は特定の品詞を対象として特徴的なキーワードをそれぞれ抽出して比較する。よって、情報抽出装置は、全単語を対象にする場合には、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を漏れなく抽出でき、また、特定の品詞(例えば、名詞)を対象にする場合には、特定の品詞についてのみ、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を漏れなく抽出できる。
また、情報抽出装置では、前記第1解析部は、形態素解析により、前記第1抽出部により抽出されたコメントに含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語を前記第1解析結果として抽出し、前記第2解析部は、形態素解析により、前記第2抽出部により抽出された番組情報に含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語を前記第2解析結果として抽出する構成でもよい。
かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントと、番組情報に含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語をそれぞれ抽出して比較する。よって、情報抽出装置は、TF−IDF値が高い語のみを対象にする場合には、第2解析結果に含まれていなかったTF−IDF値が高い語であって、第1解析結果に含まれているTF−IDF値が高い語を漏れなく抽出でき、また、話題性のある語を対象にする場合には、第2解析結果に含まれていなかった話題性のある語であって、第1解析結果に含まれている話題性のある語を漏れなく抽出できる。
また、情報抽出装置では、前記第1解析部は、形態素解析により、前記第1抽出部により抽出されたコメントに含まれている固有表現を前記第1解析結果として抽出し、前記第2解析部は、形態素解析により、前記第2抽出部により抽出された番組情報に含まれている固有表現を前記第2解析結果として抽出する構成でもよい。
かかる構成によれば、本発明に係る情報抽出装置は、番組についてのコメントと、番組情報に含まれている語の中から、固有表現のみをそれぞれ抽出して比較する。よって、情報抽出装置は、第2解析結果に含まれていなかった固有表現であって、第1解析結果に含まれている固有表現を漏れなく抽出できる。
本発明に係るプログラムは、番組についてのコメントを抽出する第1抽出工程と、前記第1抽出工程により抽出されたコメントを解析する第1解析工程と、前記第1解析工程で解析された第1解析結果に基づいて、番組を特定する番組特定工程と、前記番組特定工程により特定された番組に関する番組情報をデータベースから抽出する第2抽出工程と、前記第2抽出工程により抽出された番組情報を解析する第2解析工程と、前記第1解析結果と、前記第2解析工程で解析された第2解析結果を比較する比較工程と、前記比較工程による比較結果に基づいて、前記第2解析結果に含まれていなかった情報であって、前記第1解析結果に含まれている情報を前記番組特定工程で特定した番組の番組情報に追加するか否かを判断する判断工程と、前記判断工程で情報を追加すると判断された場合、当該情報を前記番組特定工程で特定した番組の番組情報に追加する追加工程をコンピュータに実行させるためのものである。
かかる構成によれば、本発明に係るプログラムは、番組についてのコメントを解析した第1解析結果と、番組情報を解析した第2解析結果を比較し、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加するので、ユーザが明示的に指定したキーワード(情報)だけではなく、ユーザが「重要とは判断してない」キーワードを抽出し、番組情報に追加することができる。
本発明によれば、ユーザが明示的に指定したキーワードだけではなく、ユーザが重要とは判断してないキーワードを抽出することができる。
情報抽出装置の構成を示す図である。 情報抽出装置の動作の流れについての説明に供するフローチャートである。
以下、本発明の実施形態の一例について図1を参照しながら説明する。
情報抽出装置1は、図1に示すように、第1抽出部11と、第1解析部12と、番組特定部13と、第2抽出部14と、第2解析部15と、比較部16と、判断部17と、追加部18を備える。
第1抽出部11は、番組についてのコメントを投稿型のウェブサイト2から抽出する。投稿型のウェブサイト2は、例えば、コメントを投稿して他のユーザとコミュニケーションを図るサービス(ソーシャルネットワーキングサービス、SNS)により実現される。また、投稿型のウェブサイト2は、SNSに限らず、掲示板(BBS)のような形態で実現されてもよい。
また、投稿型のウェブサイト2は、各番組に対するレビューページを備える構成であってもよい。各ページは、ユーザが番組に対して自由に意見及び感想を書き込むことができる。このような構成によれば、第1抽出部11は、投稿型のウェブサイト2に含まれている各番組に対するレビューページにアクセスして、投稿されているコメントを抽出する。
なお、第1抽出部11は、投稿型のウェブサイト2に投稿されているコメントに限らず、番組についてのコメントを抽出できればよい。
例えば、情報抽出装置1とPCが有線又は無線で接続されているものとする。また、PCは、番組についてのコメントの書き込み及び閲覧が可能なVODアプリケーションを起動しているものとする。第1抽出部11は、VODアプリケーションから番組についてのコメントを抽出する構成でもよい。
また、情報抽出装置1とスマートフォン等の携帯無線機器が有線又は無線で接続されているものとする。また、携帯無線機器は、番組についてのコメントの書き込み及び閲覧が可能な番組レビューアプリケーションを起動しているものとする。第1抽出部11は、番組レビューアプリケーションから番組についてのコメントを抽出する構成でもよい。
また、情報抽出装置1とスマートテレビが有線又は無線で接続されているものとする。また、スマートテレビは、例えば、ハイブリッドキャスト(登録商標)対応テレビであって、番組についてのコメントの書き込み及び閲覧が可能な番組レビューアプリケーションを起動しているものとする。第1抽出部11は、番組レビューアプリケーションから番組についてのコメントを抽出する構成でもよい。
第1解析部12は、第1抽出部11により抽出されたコメントを解析する。
番組特定部13は、第1解析部12で解析された第1解析結果に基づいて、番組を特定する。
第2抽出部14は、番組特定部13により特定された番組に関する番組情報をデータベース3から抽出する。データベース3は、例えば、放送事業者により提供されるものであり、番組ごとに番組に関する情報が番組情報として格納されている。番組情報は、例えば、番組のタイトル、出演者、番組概要等により構成されている。
第2解析部15は、第2抽出部14により抽出された番組情報を解析する。
比較部16は、第1解析結果と、第2解析部15で解析された第2解析結果を比較する。
判断部17は、比較部16による比較結果に基づいて、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を番組特定部13で特定した番組の番組情報に追加するか否かを判断する。
追加部18は、判断部17で情報を追加すると判断された場合、当該情報を番組特定部13で特定した番組の番組情報に追加する。
このように構成されることにより、情報抽出装置1は、投稿型のウェブサイト2に投稿されているコメントを解析した第1解析結果と、番組情報を解析した第2解析結果を比較し、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加する。
よって、情報抽出装置1は、ユーザによるキーワードのタギングや、ユーザとシステムのインタラクションによってコンテンツ検索のためのキーワードを付加するのではなく、コンテンツに関するユーザの意見、感想といったテキスト情報、又は、コンテンツに関してユーザ同士で行われたテキストコミュニケーションの情報からコンテンツに関する重要なキーワードを抽出し、それをそのコンテンツのメタデータとして蓄積するものである。これにより、情報抽出装置1は、ユーザが明示的に指定したキーワード(情報)だけではなく、ユーザが「重要とは判断してない」キーワードを抽出し、番組情報に追加することができる。
また、情報抽出装置1により抽出したキーワードを利用して、他のユーザにとって意外なコンテンツの検索や推薦に役立てることができる。
また、第1解析部12は、形態素解析により、第1抽出部11により抽出されたコメントに含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを第1解析結果として抽出する構成でもよい。第2解析部15は、形態素解析により、第2抽出部14により抽出された番組情報に含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを第2解析結果として抽出する構成でもよい。
かかる構成によれば、情報抽出装置1は、投稿型のウェブサイト2に投稿されているコメントと、番組情報に含まれている全ての単語又は特定の品詞を対象として特徴的なキーワードをそれぞれ抽出して比較する。
よって、情報抽出装置1は、全単語を対象にする場合には、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を漏れなく抽出でき、また、特定の品詞(例えば、名詞)を対象にする場合には、特定の品詞についてのみ、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を漏れなく抽出できる。
また、第1解析部12は、形態素解析により、第1抽出部11により抽出されたコメントに含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語を第1解析結果として抽出する構成でもよい。第2解析部15は、形態素解析により、第2抽出部14により抽出された番組情報に含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語を第2解析結果として抽出する構成でもよい。
かかる構成によれば、情報抽出装置1は、投稿型のウェブサイト2に投稿されているコメントと、番組情報に含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語をそれぞれ抽出して比較する。
よって、情報抽出装置1は、TF−IDF値が高い語のみを対象にする場合には、第2解析結果に含まれていなかったTF−IDF値が高い語であって、第1解析結果に含まれているTF−IDF値が高い語を漏れなく抽出でき、また、話題性のある語を対象にする場合には、第2解析結果に含まれていなかった話題性のある語であって、第1解析結果に含まれている話題性のある語を漏れなく抽出できる。
また、第1解析部12は、形態素解析により、第1抽出部11により抽出されたコメントに含まれている固有表現を第1解析結果として抽出する構成でもよい。第2解析部15は、形態素解析により、第2抽出部14により抽出された番組情報に含まれている固有表現を第2解析結果として抽出する構成でもよい。
かかる構成によれば、情報抽出装置1は、投稿型のウェブサイト2に投稿されているコメントと、番組情報に含まれている語の中から、固有表現のみをそれぞれ抽出して比較する。よって、情報抽出装置1は、第2解析結果に含まれていなかった固有表現であって、第1解析結果に含まれている固有表現を漏れなく抽出できる。
つぎに、情報抽出装置1の動作の流れについて、図2に示すフローチャートを参照しながら説明する。
ステップST1において、第1抽出部11は、投稿型のウェブサイト2に投稿されているコメントを抽出する。
ステップST2において、第1解析部12は、ステップST1の工程により抽出されたコメントを解析する。
ステップST3において、番組特定部13は、ステップST2の工程により解析された第1解析結果に基づいて、番組を特定する。
ステップST4において、第2抽出部14は、ステップST3の工程により特定された番組に関する番組情報をデータベース3から抽出する。
ステップST5において、第2解析部15は、ステップST4の工程により抽出された番組情報を解析する。
ステップST6において、比較部16は、ステップST2の工程で解析された第1解析結果と、ステップST5の工程により解析された第2解析結果を比較する。
ステップST7において、判断部17は、ステップST6の工程による比較結果に基づいて、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を番組特定工程で特定した番組の番組情報に追加するか否かを判断する。追加すると判断した場合には、ステップST8に進み、追加しないと判断した場合には、一連の処理を終了する。
ステップST8において、追加部18は、ステップST7の工程で情報を追加すると判断された場合、当該情報をステップST3の工程で特定した番組の番組情報に追加する。
このようにして、情報抽出装置1は、投稿型のウェブサイト2に投稿されているコメントを解析した第1解析結果と、番組情報を解析した第2解析結果を比較し、第2解析結果に含まれていなかった情報であって、第1解析結果に含まれている情報を番組情報に追加するか否かを判断し、判断結果に応じて、番組情報に新たに情報を追加するので、ユーザが明示的に指定したキーワード(情報)だけではなく、ユーザが重要とは判断してないキーワードを抽出し、番組情報に追加することができる。
つぎに、情報抽出装置1の具体的な実施例について説明する。
上述したように、情報抽出装置1は、番組ごとにレビュー投稿が可能なSNS(投稿型のウェブサイト2)を利用するものであり、ユーザの番組に対する自由な書き込みから、番組を検索するためのキーワードを自動抽出して、登録するものである。
情報抽出装置1は、ユーザの書き込みテキストを解析し、特徴的なキーワードを抽出する。このテキスト解析には、一般的な形態素解析処理、重要度計算処理、又は固有表現抽出処理を用いることができる。
重要度計算処理には、TF−IDFといった指標や、トピック抽出の技術等を用いてもよい。また、重要度の計算をせずに、形態素解析の結果得られた単語群をそのまま利用してもよい。
例えば、投稿型のウェブサイト2において、番組PR1に対するユーザU1の書き込みP1が「この番組を見て、○○(映画名)という映画のことを思い出しました。大きなアンテナが・・・」というものだったとする。また、番組PR1のメタデータM1は、「タイトル:○○」と、「出演者:○○、△△」と、「番組概要:アメリカにある天文台では、巨大なアンテナ太陽系外からの電波を・・・」が含まれているものとする。
情報抽出装置1は、投稿型のウェブサイト2にアクセスして、ユーザU1の書き込みP1を形態素解析して単語に分割する。また、情報抽出装置1は、データベース3にアクセスして、番組PR1に関するメタデータM1(番組情報)を取得し、解析する。
情報抽出装置1は、書き込みP1を解析して得られた単語リストWL1と、メタデータM1を解析して得られた単語リストWL2とを比較し、WL1に含まれているがWL2に含まれていない単語を抽出する。
具体的には、単語リストWL1には、「○○○(映画タイトル)」、「アンテナ」が含まれている。また、単語リストWL2には、「○○」(タイトル)、「○○」(出演者)、「△△」(出演者)、「アメリカ」、「天文台」、「太陽系外」、「電波」、「アンテナ」が含まれている。
情報抽出装置1は、WL1に含まれる「○○○(映画タイトル)」という単語W1が単語リストWL2に含まれていないため、新たに単語W1を番組PR1のメタデータM1に追加する処理を行う。例えば、情報抽出装置1は、オリジナルのメタデータM1には直接追加せず、追加メタデータM2という形式で新たな単語W1を追加する。
つまり、番組PR1のメタデータM1を作成した業者は、番組PR1と単語W1(映画タイトル)に関連があることを想定しておらず、そのような情報をメタデータに関連付けていなかった。
情報抽出装置1は、上述したように、あるユーザU1がこの番組を見て投稿した書き込みP1から番組PR1と単語W1(映画タイトル)との関係を抽出し、単語W1を番組PR1の新たなメタデータとして蓄積する。
このようにして、新たなメタデータをデータベース3に随時蓄積しておくことにより、例えば、ある別のユーザU2が「○○○(映画名)」というキーワードで番組を検索した場合に、番組PR1を「関連番組」として提供することが可能となり、ユーザU2に対して意外性のある番組提供を実現することができる。
また、書き込みP1から単語リストWL1を作成する処理には、様々な手法を利用することができる。例えば、形態素解析を用いて書き込みP1から単語群WL0を生成し、生成した全ての単語群WL0を単語リストWL1に含ませることができる。
また、TF−IDF等の手法を用いて単語群WL0から重要な単語だけを抽出し、それを単語リストWL1に含ませてもよい。
また、投稿群の時間的推移から現在話題になっている単語のみを取り出し、それを単語リストWL1に含ませてもよい。
さらに、単語群WL0から、人名、地名、番組タイトル、といった固有名詞(固有表現)のみを抽出し、それを単語リストWL1に含ませてもよい。
また、メタデータM1から単語リストWL2を作成する手順も同様である。メタデータM1に含まれる全てを単語リストWL2としてもよいし、メタデータM1の特定の属性(例えば、「番組名」、「出演者名」、又は「番組概要文に含まれる人物名」といった細かい設定も可能)のみを抽出し、単語リストWL2としてもよい。
なお、本実施例では、主に情報抽出装置の構成と動作について説明したが、これに限られず、各構成要素を備え、ユーザが明示的に指定したキーワードだけではなく、ユーザが重要とは判断してないキーワードを抽出するための方法、及びプログラムとして構成されてもよい。
さらに、情報抽出装置の機能を実現するためのプログラムをコンピュータで読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。
ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータで読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。
さらに「コンピュータで読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時刻の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時刻プログラムを保持しているものも含んでもよい。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよい。
1 情報抽出装置
11 第1抽出部
12 第1解析部
13 番組特定部
14 第2抽出部
15 第2解析部
16 比較部
17 判断部
18 追加部

Claims (5)

  1. 番組についてのコメントを抽出する第1抽出部と、
    前記第1抽出部により抽出されたコメントを解析する第1解析部と、
    前記第1解析部で解析された第1解析結果に基づいて、番組を特定する番組特定部と、
    前記番組特定部により特定された番組に関する番組情報をデータベースから抽出する第2抽出部と、
    前記第2抽出部により抽出された番組情報を解析する第2解析部と、
    前記第1解析結果と、前記第2解析部で解析された第2解析結果を比較する比較部と、
    前記比較部による比較結果に基づいて、前記第2解析結果に含まれていなかった情報であって、前記第1解析結果に含まれている情報を前記番組特定部で特定した番組の番組情報に追加するか否かを判断する判断部と、
    前記判断部で情報を追加すると判断された場合、当該情報を前記番組特定部で特定した番組の番組情報に追加する追加部を備える情報抽出装置。
  2. 前記第1解析部は、形態素解析により、前記第1抽出部により抽出されたコメントに含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第1解析結果として抽出し、
    前記第2解析部は、形態素解析により、前記第2抽出部により抽出された番組情報に含まれている全ての単語又は特定の品詞を対象として、特徴的なキーワードを前記第2解析結果として抽出する請求項1記載の情報抽出装置。
  3. 前記第1解析部は、形態素解析により、前記第1抽出部により抽出されたコメントに含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語を前記第1解析結果として抽出し、
    前記第2解析部は、形態素解析により、前記第2抽出部により抽出された番組情報に含まれている語の中から、TF−IDF値が高い語のみ、又は話題性のある語を前記第2解析結果として抽出する請求項1記載の情報抽出装置。
  4. 前記第1解析部は、形態素解析により、前記第1抽出部により抽出されたコメントに含まれている固有表現を前記第1解析結果として抽出し、
    前記第2解析部は、形態素解析により、前記第2抽出部により抽出された番組情報に含まれている固有表現を前記第2解析結果として抽出する請求項1記載の情報抽出装置。
  5. 番組についてのコメントを抽出する第1抽出工程と、
    前記第1抽出工程により抽出されたコメントを解析する第1解析工程と、
    前記第1解析工程で解析された第1解析結果に基づいて、番組を特定する番組特定工程と、
    前記番組特定工程により特定された番組に関する番組情報をデータベースから抽出する第2抽出工程と、
    前記第2抽出工程により抽出された番組情報を解析する第2解析工程と、
    前記第1解析結果と、前記第2解析工程で解析された第2解析結果を比較する比較工程と、
    前記比較工程による比較結果に基づいて、前記第2解析結果に含まれていなかった情報であって、前記第1解析結果に含まれている情報を前記番組特定工程で特定した番組の番組情報に追加するか否かを判断する判断工程と、
    前記判断工程で情報を追加すると判断された場合、当該情報を前記番組特定工程で特定した番組の番組情報に追加する追加工程をコンピュータに実行させるためのプログラム。
JP2012159901A 2012-07-18 2012-07-18 情報抽出装置及びプログラム Active JP5950737B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012159901A JP5950737B2 (ja) 2012-07-18 2012-07-18 情報抽出装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012159901A JP5950737B2 (ja) 2012-07-18 2012-07-18 情報抽出装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2014021727A JP2014021727A (ja) 2014-02-03
JP5950737B2 true JP5950737B2 (ja) 2016-07-13

Family

ID=50196532

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012159901A Active JP5950737B2 (ja) 2012-07-18 2012-07-18 情報抽出装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5950737B2 (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005209020A (ja) * 2004-01-23 2005-08-04 Sony Corp 属性情報提供システム,属性情報管理装置,利用者端末,属性情報管理方法,およびコンピュータプログラム
JP2007274605A (ja) * 2006-03-31 2007-10-18 Fujitsu Ltd 電子装置、放送番組情報の収集方法、その収集プログラム及びその収集システム
JP2011234198A (ja) * 2010-04-28 2011-11-17 Sony Corp 情報提供方法、コンテンツ表示端末、携帯端末、サーバ装置、情報提供システム及びプログラム
JP2012129982A (ja) * 2010-11-24 2012-07-05 Jvc Kenwood Corp 推定装置、推定方法、並びにプログラム

Also Published As

Publication number Publication date
JP2014021727A (ja) 2014-02-03

Similar Documents

Publication Publication Date Title
US12093252B2 (en) Retrieving context from previous sessions
US12499152B1 (en) Query modification based on non-textual resource context
CN102708174B (zh) 一种浏览器中的富媒体信息的展示方法和装置
CN105900087B (zh) 用于查询答案的丰富内容
US20090094189A1 (en) Methods, systems, and computer program products for managing tags added by users engaged in social tagging of content
US10621187B2 (en) Methods, systems, and media for providing a media search engine
WO2015196910A1 (zh) 基于搜索引擎的摘要信息提取方法、装置以及搜索引擎
US11748408B2 (en) Analyzing user searches of verbal media content
CN107341245A (zh) 数据处理方法、装置及服务器
CN104090923B (zh) 一种浏览器中的富媒体信息的展示方法和装置
US20180285444A1 (en) Rewriting contextual queries
CN104090757A (zh) 针对浏览器的富媒体信息展示方法
US8290925B1 (en) Locating product references in content pages
KR20200049193A (ko) 콘텐츠 추천 방법 및 이를 지원하는 서비스 장치
US10146849B2 (en) Triggering answer boxes
US9811592B1 (en) Query modification based on textual resource context
CN102436458B (zh) 一种命令解析的方法及其系统
US9092463B2 (en) Keyword generation
CN101641710A (zh) 使用场景相关元数据来定向广告
JP5950737B2 (ja) 情報抽出装置及びプログラム
JP5573051B2 (ja) ブックマークサービス提供装置、およびブックマークサービス提供装置の動作方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160425

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160510

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160607

R150 Certificate of patent or registration of utility model

Ref document number: 5950737

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250