JP5060211B2 - キーワード抽出装置及び方法、並びに、文書検索装置及び方法 - Google Patents

キーワード抽出装置及び方法、並びに、文書検索装置及び方法 Download PDF

Info

Publication number
JP5060211B2
JP5060211B2 JP2007218326A JP2007218326A JP5060211B2 JP 5060211 B2 JP5060211 B2 JP 5060211B2 JP 2007218326 A JP2007218326 A JP 2007218326A JP 2007218326 A JP2007218326 A JP 2007218326A JP 5060211 B2 JP5060211 B2 JP 5060211B2
Authority
JP
Japan
Prior art keywords
keyword
character string
program
extraction
extracting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007218326A
Other languages
English (en)
Other versions
JP2009053814A (ja
Inventor
智晴 國分
俊彦 真鍋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2007218326A priority Critical patent/JP5060211B2/ja
Publication of JP2009053814A publication Critical patent/JP2009053814A/ja
Application granted granted Critical
Publication of JP5060211B2 publication Critical patent/JP5060211B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、複数の電子文書からキーワードを抽出するキーワード抽出装置及び方法、並びに、抽出されたキーワードを用いて電子文書を検索する文書検索装置及び方法に関する。
近年、電子化された文書(電子文書)が増大し、またその電子文書に対してさまざまな形態でアクセスするニーズが高まっている。大量の電子文書の中から所望の電子文書にアクセスするための代表的な方法として、ユーザが入力したキーワードの出現する電子文書を検索するという方法がある。また、ユーザがキーワードを直接入力しなくても、電子文書から特徴的なキーワードを自動的に抽出してこれをユーザに提示するキーワード抽出システムがある。このようなシステムでは、ユーザは提示されたキーワードの中から適当なキーワードを選択して、所望の電子文書にアクセスすることができる。
複数の電子文書からキーワードを抽出する代表的な方法として、出現頻度のような統計的な特徴を元にキーワードを抽出する方法がある。例えば対象となる電子文書の集合中でのTF・IDFの値が高いキーワードを抽出する方法などがある。また電子文書の内容に応じてキーワードを分類する代表的な手法として、複数の電子文書をそれらの類似関係でクラスタリングし、各クラスタから特徴的なキーワードを抽出して、これをクラスタごとに提示する方法がある(例えば特許文献1参照)。
特開2002−149670号公報
ところで、電子文書の例として、テレビ番組の特定の放送回を単位に番組に関する情報が記載さている番組情報がある。テレビ番組をキーワードによって検索する場合にはこのような番組情報からキーワードを抽出することが考えられる。この場合、番組を検索するためのキーワードと、番組の特定の放送回を検索するためのキーワードとの2種類のキーワードが必要であると考えられる。前者の例としては、例えばニュース番組のコンセプトである政治経済を扱うニュース番組を検索するための「政治経済」というキーワードである。後者の例としては、例えば、コラーゲンがダイエットに効くということが取り扱われた情報番組の特定の放送回を検索するための「コラーゲン」というキーワードである。このように番組を検索するためのキーワードと番組の特定の放送回を検索するためのキーワードとを区別して提示することができなければ、テレビモニタのように制約のあるインタフェースを利用する際には使い勝手の上で大きな障害となる。しかし、特許文献1の技術においては、前者のキーワードと後者のキーワードとを区別して提示することは考慮されていなかった。
本発明は、上記に鑑みてなされたものであって、番組を検索するためのキーワードと番組の特定の放送回を検索するためのキーワードとを区別して提示することが可能なキーワード抽出装置及び方法、並びに、文書検索装置及び方法を提供することを目的とする。
上述した課題を解決し、目的を達成するために、本発明は、キーワード抽出装置であって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得する取得手段と、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定する判定手段と、前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出する第1抽出手段と、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出する第2抽出手段と、前記第1キーワードと、前記第2キーワードとを区別して表示させる表示手段とを備えることを特徴とする。
また、本発明は、文書検索装置であって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得する取得手段と、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定する判定手段と、前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出する第1抽出手段と、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出する第2抽出手段と、前記第1キーワードと、前記第2キーワードとを区別して表示手段に表示させ、操作手段を介して前記第1キーワードを選択する入力を受け付けた場合、当該第1キーワードを用いて前記電子文書の検索をクラス単位で行い、検索結果を前記表示手段に表示させ、操作手段を介して前記第2キーワードを選択する入力を受け付けた場合、当該第2キーワードを用いて前記電子文書の検索を放送回単位で行い、検索結果を前記表示手段に表示させる検索制御手段とを備えることを特徴とする。
また、本発明は、取得手段と、判定手段と、第1抽出手段と、第2抽出手段とを備える文書検索装置によって実行される文書検索方法であって、前記取得手段によって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得するステップと、前記判定手段によって、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定するステップと、前記第1抽出手段によって、前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出するステップと、前記第2抽出手段によって、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出する抽出ステップと、前記第1キーワードと、前記第2キーワードとを区別して表示させる表示ステップとを含むことを特徴とする。
また、本発明は、取得手段と、判定手段と、第1抽出手段と、第2抽出手段と、検索制御手段とを備える文書検索装置によって実行される文書検索方法であって、前記取得手段によって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得するステップと、前記判定手段によって、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定するステップと、前記第1抽出手段によって、前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出するステップと、前記第2抽出手段によって、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出するステップと、前記検索制御手段によって、前記第1キーワードと、前記第2キーワードとを区別して表示手段に表示させ、操作手段を介して前記第1キーワードを選択する入力を受け付けた場合、当該第1キーワードを用いて前記電子文書の検索をクラス単位で行い、検索結果を前記表示手段に表示させ、操作手段を介して前記第2キーワードを選択する入力を受け付けた場合、当該第2キーワードを用いて前記電子文書の検索を放送回単位で行い、検索結果を前記表示手段に表示させるステップとを含むことを特徴とする。
また、本発明は、取得手段と、判定手段と、第1抽出手段と、第2抽出手段と、検索制御手段とを備える文書検索装置によって実行される文書検索方法であって、前記取得手段によって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得する取得手段と、前記判定手段によって、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定する判定手段と、前記第1抽出手段によって、前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出する第1抽出手段と、前記判定手段によって、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出する第2抽出手段と、前記検索制御手段によって、前記第1キーワードを表示手段に表示させ、操作手段を介して当該第1キーワードを選択する入力を受け付けた場合、当該第1キーワードを用いて前記電子文書の検索をクラス単位で行い、検索の結果該当した前記電子文書に含まれる前記番組説明情報に基づいて抽出された前記第2キーワードを前記表示手段に表示させ、操作手段を介して前記第2キーワードを選択する入力を受け付けた場合、当該第2キーワードを用いて前記電子文書の検索を放送回単位で行い、検索結果を前記表示手段に表示させるステップとを含むことを特徴とする。
本発明によれば、番組内容を文字列により表す番組説明情報を用いて、番組を識別する第1識別情報によって判定されるクラスに共通する第1内容を表す第1文字列と、放送回に依存する第2内容を表す第2文字列とをクラス毎に抽出して、各々からキーワードを抽出することにより、番組を検索するためのキーワードと番組の特定の放送回を検索するためのキーワードとを各々抽出する。この結果、両者のキーワードを区別して提示することが可能になる。
また、本発明によれば、番組を検索するためのキーワードと番組の特定の放送回を検索するためのキーワードとを区別して提示するため、適切なキーワードをユーザに提示することができる。この結果、電子文書の検索効率を向上させることができる。
以下に添付図面を参照して、この発明にかかるキーワード抽出装置及び方法、並びに、文書検索装置及び方法の最良な実施の形態を詳細に説明する。
[第1の実施の形態]
・ 構成
まず、本実施の形態で電子文書として取り扱うテレビの番組情報について説明する。番組情報とは、番組毎及び放送回毎に番組内容が記載されている情報である。図1は、番組情報を例示する図である。同図に示されるように、番組情報は、放送局、放送日、開始時間、放送の長さ、ジャンル、番組名及び番組説明を含む。番組名は、番組を特定するための情報である。尚、番組はクラスに相当する。ここでは番組毎にクラスを分けるが、このクラス分けに番組名を用いる。番組説明は、番組の概略を説明する記述及び番組の特定の放送回のトピックに関する記述のうち少なくとも一方を含む。このような番組情報は、各番組の特定の放送回毎に存在する。番組の特定の放送回については、番組名により番組が特定され、更に、放送日及び開始時間により放送回が特定される。この番組名が第1識別情報に相当し、放送日及び開始時間が第2識別情報に相当する。尚、番組の特定の放送回をイベントともいう。
次に、本実施の形態における抽出装置の構成について説明する。キーワード抽出装置は、CPU(Central Processing Unit)と、各種プログラムや画像などの各種データを記憶するROM(Read Only Memory)、RAM(Random Access Memory)、HDD(Hard Disk Drive)などから構成される記憶部と、通信部と、これらを接続するバス(いずれも図示せず)とを備え、表示装置及びキーボードやマウス等の入力装置(いずれも図示せず)が接続された構成となっている。通信部は、有線又は無線により外部装置と通信を行い、番組情報を受信する。尚、外部装置とは、例えば、テレビ放送局であり、番組情報のみならずテレビ放送を受信可能であっても良い。表示装置は、CRT(Cathode Ray Tube)や液晶モニタなどである。操作装置は、ユーザからの操作が入力される操作キーや操作ボタン、マウスなどを備える。キーワード抽出装置のCPUが記憶部に記憶された各種プログラムを実行することにより、キーワード抽出装置において各種機能が実現される。
次に、キーワード抽出装置の機能的構成について説明する。図2は、キーワード抽出装置の機能的構成を例示するブロック図である。キーワード抽出装置1は、入力部10と、クラス判定部11と、イベント内容抽出部12と、キーワード抽出部13と、提示部14とを有する。入力部10と、クラス判定部11と、イベント内容抽出部12と、キーワード抽出部13と、提示部14とは、キーワード抽出装置1のCPUが記憶部に記憶された各種プログラムを実行することにより実現される。また、キーワード抽出部13の機能は、更に、キーワード属性テーブル及びキーワード辞書を用いて実現される。キーワード属性テーブル及びキーワード辞書は、記憶部に記憶される。
入力部10は、通信部を介して外部装置から受信された処理対象の複数の番組情報の入力を受け付け、これを記憶部に記憶させる。そして、入力部10は、各番組情報から番組名及び番組説明(第1抽出情報)を各々抽出する。クラス判定部11は、入力部10が抽出した各第1抽出情報からクラスを各々判定し、当該クラスを一意に識別するためのクラス番号を第1抽出情報に付与する。イベント内容抽出部12は、共通表現抽出部と、非共通表現抽出部と(いずれも図示せず)を含む。イベント内容抽出部12は、クラス番号が付与された第1抽出情報から、同一のクラスに共通した内容の共通表現を共通表現抽出部によりクラス番号毎に抽出し、特定の放送回に依存した内容の非共通表現を非共通表現抽出部によりクラス番号毎に抽出する。この共通表現が第1文字列に相当し、非共通表現が第2文字列に相当する。キーワード抽出部13は、キーワード属性テーブル及びキーワード辞書を参照して、イベント内容抽出部12がクラス番号毎に抽出した非共通表現及び共通表現から各々キーワードを抽出する。キーワード属性テーブル及びキーワード辞書のデータ構成については後述する。提示部14は、キーワード抽出部13が非共通表現から抽出したキーワード及び共通表現から抽出したキーワードとを区別して表示装置に表示させる。
(2)動作
次に、キーワード抽出装置1が行うキーワード抽出処理の手順について説明する。図3は、キーワード抽出装置1が行うキーワード抽出処理の手順を示すフローチャートである。ステップS1では、キーワード抽出装置1の入力部10が、通信部を介して外部装置から受信された処理対象の複数の番組情報の入力を受け付け、これを記憶部に記憶させる。図4は、入力部10が入力を受け付けた番組情報を例示する図である。同図に示されるように、番組情報A,B,C,D,Eの入力が受け付けられる。入力部10は、図4に示されるような各番組情報から番組名及び番組説明(第1抽出情報)を抽出する。図5は、第1抽出情報を例示する図である。同図に示されるように、上述の番組情報A,B,C,D,Eから、第1抽出情報A’,B’,C’,D’,E’が各々抽出される。
ステップS2では、クラス判定部11は、入力部10が抽出した第1抽出情報を用いて、以下のクラス判定処理を行う。図6は、クラス判定処理の手順を示すフローチャートである。クラス判定部11は、第1抽出情報に含まれる番組名を用いて、各第1抽出情報のクラスを判定する(ステップS10)。即ち、クラス判定部11は、番組名が等しい第1抽出情報は同じクラスであると判定する。ここでは、第1抽出情報A’,B’,C’が同一クラス、また第1抽出情報D’、E’が同一クラスと判定される。そして、クラス判定部11は、各クラスを一意に識別するためのクラス番号を各第1抽出情報に付与する(ステップS11)。図7は、クラス番号が付与された第1抽出情報を例示する図である。例えば、クラス判定部11は、図7に示すように、第1抽出情報A’,B’,C’に対してクラス番号「1」を各々付与し、第1抽出情報D’、E’に対してクラス番号「2」を各々付与する。
図3に戻り、ステップS3では、イベント内容抽出部12が、クラス判定部11がクラス番号を付与した第1抽出情報に含まれる番組説明を用いて、以下のイベント内容抽出処理を行う。
図8は、イベント内容抽出部12が行うイベント内容抽出処理の手順の詳細を示すフローチャートである。ステップS20では、イベント内容抽出部12の共通表現抽出部が、クラス判定部11がクラス番号を付与した第1抽出情報に含まれる番組説明から、クラス全体、即ち、番組全体で共通の内容の共通表現をクラス番号毎に抽出する。具体的には、共通表現抽出部は、同一のクラス番号が付与された第1抽出情報のうち、番組説明が等しいものの数を集計し、その数の、同一のクラス番号が付与された第1抽出情報全部の数に対する割合が所定割合以上であれば、その番組説明を共通表現として抽出する。図7の例では、クラス番号「1」が付与された第1抽出情報について、「国内外の事件・事故、政治経済ニュース」という番組説明が2回出現していることが分かる。この番組説明の割合は67%であり、上述の所定割合を「60%」とすると、共通表現抽出部は、この番組説明「国内外の事件・事故、政治経済ニュース」をクラス番号「1」のクラスの共通表現として抽出する。
また、共通表現抽出部は、同一のクラス番号が付与された第1抽出情報について、番組説明に含まれる文字列のうち一致する文字列の文字数が所定文字数以上であり、同一のクラス番号が付与された第1抽出情報全部に対するその文字列の出現割合が所定割合以上である場合、その文字列を共通表現として抽出する。図7の例では、クラス番号「2」が付与された第1抽出情報D’、E’について、双方の番組説明に「△△太郎 ▽あらゆる関心事にメスを入れます」という文字列が出現していることが分かる。例えば所定文字数を「10」文字とし、所定割合を「60%」とすると、文字列「△△太郎 ▽あらゆる関心事にメスを入れます」をクラス番号「2」のクラスの共通表現として抽出する。
ステップS21では、イベント内容抽出部12の非共通表現抽出部が、クラス判定部11がクラス番号を付与した第1抽出情報に含まれる番組説明から、特定の放送回に依存した内容の非共通表現をクラス番号毎に抽出する。具体的には、例えば、非共通表現抽出部は、上述の共通表現抽出部が抽出した共通表現に合致しない文字列を抽出する。図7の例では、クラス番号「1」が付与された第1抽出情報に含まれる番組説明に含まれる共通表現「国内外の事件・事故、政治経済ニュース」に合致しない文字列として、第1抽出情報A’の番組説明から「○次郎結婚パーティーの一部始終」という文字列が抽出される。この文字列をクラス番号「1」の非共通表現として非共通表現抽出部は抽出する。また、クラス番号「2」が付与された第1抽出情報に含まれる番組説明に含まれる共通表現「△△太郎 ▽あらゆる関心事にメスを入れます」に合致しない文字列として、第1抽出情報E’の番組説明から「旬の果物で肌荒れを改善▽北海道でコイが繁殖」という文字列が抽出される。この文字列をクラス番号「2」の非共通表現として非共通表現抽出部は抽出する。
図9は、イベント内容抽出部12がクラス毎に抽出した共通表現及び非共通表現を例示する図である。同図には、共通表現として主に番組の概要を示す情報が抽出され、非共通表現として主に特定の放送回のトピックを示す情報が抽出されることが示されている。
そして、イベント内容抽出部12は、全てのクラス番号について、共通表現及び非共通表現の抽出が終了すると(ステップS22:YES)、イベント内容抽出処理を終了し、クラス番号毎に抽出した共通表現及び非共通表現と、クラス番号とを対応付けて記憶部に記憶させる。
図3に戻り、ステップS4では、キーワード抽出部13は、イベント内容抽出部12がクラス番号毎に抽出した共通表現及び非共通表現から各々キーワードを抽出する。キーワードの抽出には例えば、固有表現抽出技術や、キーワード辞書を用いた方法を用いる。固有表現抽出技術とは、例えば、IREX(http://nlp.cs.nyu.edu/irex/index-j.html)等で研究されている、テキスト情報から人名や地名などの属性と共に固有名詞を抽出する技術である。この技術では、検索キーワードや、文書を代表するキーワードとして、利用価値の高いキーワードを抽出することが可能である。キーワード抽出部13は固有表現抽出技術により抽出された各固有名詞の中から、図10に示すようなキーワード属性テーブルを参照し、キーワード属性テーブル中に出現する属性の固有名詞をキーワードとして抽出する。例えば、図9に示されるクラス番号「1」の非共通表現からは、人名「○次郎」がキーワードとして抽出される。クラス番号「2」の共通表現からは、人名「△△太郎」がキーワードとして抽出される。クラス番号「2」の非共通表現からは、地名「北海道」及び動物名「コイ」がキーワードとして抽出される。尚、キーワード属性テーブルは図10に示したものに限らず、種々のキーワード属性テーブルを用いても良い。
またキーワード辞書を用いる方法として、例えば図11に示すような複数のキーワードを含むキーワード辞書を記憶部に予め記憶させておき、キーワード辞書に含まれるキーワードが共通表現中又は非共通表現中に出現した場合に当該キーワードを抽出する方法がある。図10に示されるキーワード辞書を用いると、図9に示されるクラス番号「1」の共通表現からは、「事件」、「事故」及び「政治経済」のキーワードが抽出される。クラス番号「2」の非共通表現からは、「肌荒れ」及び「果物」がキーワードとして抽出される。図12は、クラス番号毎に共通表現から抽出されたキーワード(共通キーワード)及びクラス番号毎に非共通表現から抽出されたキーワード(非共通キーワード)を例示する図である。このように、キーワード抽出部13は、上記の技術や手法を用いて、共通キーワード及び非共通キーワードをクラス番号毎に抽出する。
図3に戻り、ステップS5では、提示部14は、キーワード抽出部13がクラス番号毎に抽出した共通キーワード及び非共通キーワードを用いて、以下の提示処理を行う。
図13は、提示処理の手順を示すフローチャートである。提示部14は、共通キーワードと、非共通キーワードと分けて表示装置に表示させる(ステップS30)。図14は、表示装置における表示例及び表示の遷移を示す図であり、(a)は、共通キーワードと、非共通キーワードとが分けて表示される例を示す図である。同図の共通表現欄R1には、上述したクラス番号「1」〜「2」に対応付けられた各共通表現から抽出された共通キーワードがリスト形式で表示され、非共通表現欄R2には、上述したクラス番号「1」〜「2」に対応付けられた各非共通表現から抽出された非共通キーワードがリスト形式で表示される。
ここで、ユーザが、非共通表現欄R2に表示された非共通キーワードの中から所望の非共通キーワードを選択する入力を操作装置を介して行うと、提示部14は、当該入力を受け付け(ステップS31)、記憶部に記憶された番組情報の検索を放送回単位で行う(ステップS32)。例えばユーザがキーワード「○次郎」を選択する入力を行った場合は、提示部14は、「○次郎」の出現する非共通表現が対応付けられたクラス番号が付与された第1抽出情報によって特定される放送回の番組情報を記憶部の中から検索する。そして、提示部14は、その検索結果を特定の放送回毎に表示装置に表示させる(ステップS33)。図14(b)は、非共通キーワードにより検索された番組情報の表示例を示す図である。ここでは、提示部14は、検索結果として、該当する番組情報に含まれる番組名、放送日及び当該番組名に対応するクラス番号に対応付けられた非共通表現を表示装置に表示させる。
また、例えば、ユーザが、共通表現欄R1に表示された共通キーワードの中から所望のキーワードを選択する入力を操作装置を介して行うと、提示部14は、当該入力を受け付け(ステップS31)、記憶部に記憶された番組情報の検索をクラス単位、即ち、番組単位で行う。例えばユーザがキーワード「事件」を選択する入力を行うと、提示部14は、「事件」の出現する共通表現が対応付けられたクラス番号が付与された第1抽出情報によって特定される番組情報を検索する(ステップS34)。そして、提示部14は、その検索結果を番組毎に表示装置に表示させる(ステップS35)。図14(c)は、共通キーワードにより検索された番組情報の表示例を示す図である。ここでは、提示部14は、検索結果として、該当する番組情報に含まれる番組名、放送日及び当該番組名に対応するクラス番号に対応付けられた共通表現を表示装置に表示させる。
以上のように、番組毎に共通する共通表現と、特定の放送回に依存する非共通表現とを区別して抽出し、共通表現及び非共通表現から各々キーワードを抽出してこれらを区別して表示することにより、適切なキーワードをユーザに提示することができる。この結果、番組情報の検索の単位を適切に切り替えることができるため、ユーザは番組情報の検索をより効率良く行うことができ、表示装置の制限された表示領域においても所望の番組情報に効率的にアクセスすることができる。
また、一般的に、検索結果を表示させる際に、検索結果として得られた情報の要約文を表示させることが多い。本実施の形態においては、共通キーワードにより検索された検索結果については、共通表現を表示させ、非共通キーワードにより検索された検索結果については、非共通表現を表示させることにより、検索結果の提示をより効果的に行うことができる。尚、提示部14は、共通表現及び非共通表現から更に要約文を各々生成してこれを表示装置に表示させるようにしても良い。
[第2の実施の形態]
次に、キーワード抽出装置の第2の実施の形態について説明する。なお、上述の第1の実施の形態と共通する部分については、同一の符号を使用して説明したり、説明を省略したりする。
本実施の形態においては、同一の放送回に対する番組情報が複数存在し得る場合について説明する。例えば、テレビ番組の番組情報は、放送日の1ヶ月前や数週間前に作成され、日々作成され得る。このため、同一の放送回に対する番組情報が複数存在し得る。この場合、放送日に近づくと、同一の放送回であっても、放送内容が変更されたりして、番組情報に含まれる番組説明が、以前に作成された番組情報のものとは異なる可能性がある。このため、本実施の形態においては、番組情報を放送回毎に判別してキーワード抽出処理を行う。
・ 構成
図15は、本実施の形態にかかる番組情報を例示する図である。同図に示される番組情報AA,BB,CC,DD,EEは、放送局、日付、開始時間、放送の長さ、ジャンル、番組名及び番組説明に加え、データ作成日を含む。データ作成日は、番組情報の作成日を示す。
図16は、本実施の形態にかかるキーワード抽出装置1´の構成を示すブロック図である。本実施の形態にかかるキーワード抽出装置1´の構成は、上述の第1の実施の形態にかかるキーワード抽出装置1の構成とは以下の点で異なる。キーワード抽出装置1´は、上述した入力部10と、クラス判定部11と、イベント内容抽出部12と、キーワード抽出部13と、提示部14とに加え、同一イベント判定部15を有する。
入力部10は、通信部を介して外部装置から受信された処理対象の複数の番組情報の入力を受け付け、これを記憶部に記憶させる。そして、入力部10は、各番組情報から放送日、開始時間、番組名、番組説明及びデータ作成日(第2抽出情報)を各々抽出する。クラス判定部11は、入力部10が抽出した各第2抽出情報からクラスを各々判定し、当該クラスを一意に識別するためのクラス番号を第2抽出情報に付与する。同一イベント判定部15は、入力部10が抽出してクラス番号を付与した第2抽出情報のうち同一の放送回に関する第2抽出情報が複数存在するか否かを判定し、各放送回を一意に識別可能なイベント番号を各第2抽出情報に付与する。イベント内容抽出部12は、クラス番号及びイベント番号が付与された第2抽出情報から、上述の第1の実施形態と同様に、共通表現及び非共通表現をクラス番号毎に抽出する。
・ 動作
次に、キーワード抽出装置1´が行うキーワード抽出処理の手順について説明する。図17は、キーワード抽出装置1´が行うキーワード抽出処理の手順を示すフローチャートである。上述の第1の実施の形態にかかるキーワード抽出処理の手順と共通する部分についてはその説明を省略する。
ステップS50では、キーワード抽出装置1´の入力部10が、通信部を介して外部装置から受信された処理対象の複数の番組情報の入力を受け付け、これを記憶部に記憶させる。ここでは、図15に示されるような番組情報AA,BB,CC,DD,EEの入力が受け付けられるものとする。入力部10は、このような各番組情報から放送日、開始時間、番組名、番組説明及びデータ作成日(第2抽出情報)を各々抽出する。図18は、第2抽出情報を例示する図である。同図に示されるように、上述の番組情報AA,BB,CC,DD,EEから、第2抽出情報AA’,BB’,CC’,DD’,EE’が各々抽出される。
図17に戻り、ステップS51では、クラス判定部11は、入力部10が抽出した第2抽出情報に含まれる番組名を用いて、各第2抽出情報のクラスを判定する。クラスの判定の方法は、上述の第1の実施の形態と同様である。ここでは、第2抽出情報AA’,BB’,CC’,DD’,EE’が同一クラスと判定される。そして、クラス判定部11は、各クラスを一意に識別するためのクラス番号を各第2抽出情報に付与する。例えば、クラス判定部11は、図19に示すように、第2抽出情報AA’,BB’,CC’,DD’,EE’に対してクラス番号「1」を各々付与する。図19は、クラス番号が付与された第2抽出情報を例示する図である。
図17に戻り、ステップS52では、同一イベント判定部15は、クラス判定部11がクラス番号を付与した第2抽出情報を用いて、各第2抽出情報がどの放送回に対する情報であるかを判定する以下の同一イベント判定処理を行う。
図20は、同一イベント判定処理の手順を示すフローチャートである。同一イベント判定部15は、クラス番号が付与された第2抽出情報について、クラス番号、放送日及び開始時間が全て同一の第2抽出情報を同一の放送回の情報として判定する(ステップS60)。そして、同一イベント判定部15は、各第2抽出情報に対して、各放送回を一意に識別可能なイベント番号を付与する(ステップS61)。同一の放送回に対する第2抽出情報には同一のイベント番号が付与されることになる。ここでは、同一イベント判定部15は、第2抽出情報AA’,BB’にはイベント番号「1」を付与し、第2抽出情報CC’,DD’,EE’にはそれぞれイベント番号「2」,「3」,「4」を付与する。図21は、イベント番号が付与された第2抽出情報を例示する図である。
図17に戻り、ステップS53では、イベント内容抽出部12は、クラス判定部11がクラス番号を付与し同一イベント判定部15がイベント番号を付与した第2抽出情報に含まれる番組説明から、上述の第1の実施の形態と同様にして、共通表現及び非共通表現をクラス番号毎に抽出する。
更に、ここでは、イベント内容抽出部12は、抽出した非共通表現について、イベント番号毎にまとめる処理を行う。図21の例では、クラス番号「1」が付与されイベント番号「1」が付与された第2抽出情報AA’,BB’の非共通表現として、第2抽出情報AA’から「○次郎結婚パーティーの一部始終」が抽出され、第2抽出情報BB’から「○次郎結婚パーティーの一部始終、■■さんも涙」が各々抽出される。このように、同一の放送回に対して異なる非共通表現が得られることがある。このため、ここでは、同一の放送回に対する非共通表現をまとめる処理を行う。
図22は、イベント内容抽出部12が同一の放送回に対する非共通表現をまとめる処理の手順を示すフローチャートである。イベント内容抽出部12は、同一のイベント番号が付与されている第2抽出情報が複数ある場合(ステップS70:YES)、各々から抽出された複数の非共通表現を比較し、いずれか一つの番組情報の非共通表現を当該イベント番号に対応する非共通表現とする(ステップS71)。例えば、図21の例では、第2抽出情報BB’の非共通表現の文字列が、第2抽出情報AA’の非共通表現の文字列を包含していることから、イベント内容抽出部12は、第2抽出情報BB’の非共通表現をイベント番号「1」に対する非共通表現とする。図23は、イベント内容抽出部12が抽出した共通表現及び非共通表現を例示する図である。以上のようにして共通表現及び非共通表現を抽出すると、イベント内容抽出部12は、上述の第1の実施の形態と同様にして、クラス番号毎に抽出した共通表現及び非共通表現と、クラス番号とを対応付けて記憶部に記憶させる。
尚、同一の放送回に対応する各非共通表現が第2抽出情報毎に全く異なるケースも考えられる。このような場合、イベント内容抽出部12は、同一の放送回に対応する第2抽出情報に含まれるデータ作成日を比較して、新しい日付のデータ作成日に対応する第2抽出情報から抽出された非共通表現を、当該放送回に対応する非共通表現とする。図24は、第2抽出情報FF’,GG’を例示する図である。同図において、各第2抽出情報FF’,GG’のデータ作成日を比較すると、第2抽出情報GG’のデータ作成日の方が新しい日付である。このため、第2抽出情報GG’から抽出された非共通表現「×××のずさんな年金管理」をイベント番号「2」に対する非共通表現とする。このような構成によれば、同一の放送回に対する番組説明が変更された場合でも非共通表現を適切に抽出することが可能となる。
図17のステップS4以降の処理の手順は上述の第1の実施の形態と同様である。
以上のような構成によれば、同一の放送回に対する番組情報が複数存在する場合であっても、共通表現及び非共通表現を適切に抽出することが可能になる。この結果、ユーザは番組情報の検索をより効率良く行うことができ、表示装置の制限された表示領域においても所望の番組情報に効率的にアクセスすることができる。
[変形例]
なお、本発明は前記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、前記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
<変形例1>
上述の第1の実施の形態においては、提示部14は、共通キーワードと非共通キーワードとを段階的に表示装置に表示させるようにしても良い。図25は、提示部14の提示処理の手順を示すフローチャートである。図26は、表示装置における表示例及び表示の遷移を示す図である。提示部14は、まず、キーワード抽出部13が抽出した共通キーワードを表示装置に表示させる(ステップS80)。図26(a)は、共通キーワードの表示例を示す図である。ここで、ユーザが、表示された共通キーワードの中から所望のキーワードを選択する入力を操作装置を介して行うと、提示部14は、当該入力を受け付け(ステップS81)、記憶部に記憶された番組情報の検索を番組単位で行う。例えばユーザがキーワード「事件」を選択する入力を行った場合は、提示部14は、「事件」の出現する共通表現が対応付けられたクラス番号が付与された第1抽出情報によって特定される番組情報を検索する。そして、提示部14は、図26(b)に示されるような検索結果を番組毎に表示装置に表示させる(ステップS82)。ここでは提示部14は、検索結果として番組名を表示させる。そして例えばユーザが所望の番組名を選択する入力を行うと、提示部14は、当該入力を受け付け(ステップS83)、当該番組名に対応するクラス番号に対応する非共通表現から抽出された非共通キーワードを表示装置に表示させる(ステップS84)。例えば、ユーザが番組名「×××ニュース」を選択する入力を行った場合は、図26(c)に示されるように、非共通キーワード「○次郎」が表示される。そして、ユーザが、表示された非共通キーワード「○次郎」を選択する入力を行った場合、提示部14は、当該入力を受け付け(ステップS85)、当該クラス番号に対応し且つ「○次郎」の出現する非共通表現を番組説明に含む番組情報を記憶部の中から検索し、図26(d)に示されるように、該当する放送回に対応する番組情報を表示装置に表示させる(ステップS86)。ここでは、提示部14は、検索結果として、該当する番組情報に含まれる放送日及び上述のクラス番号に対応し且つ「○次郎」の出現する非共通表現を表示装置に表示させる。
第2の実施の形態の提示部14についても同様に、第2抽出情報を用いて上述の機能が実現されるように構成しても良い。
<変形例2>
上述の各実施の形態においては、共通キーワードの抽出のために用いるキーワード辞書と、非共通キーワードの抽出のために用いるキーワード辞書とを別々に備え、各キーワードの抽出の際に参照するキーワード辞書を切り替えるようにしても良い。この場合、例えば、共通キーワードの抽出のために用いるキーワード辞書には、番組の概要を示すような「事件」「事故」などのキーワードを予め登録しておき、非共通キーワードの抽出のために用いるキーワード辞書には、特定の放送回を説明するような「肌荒れ」などのキーワードを予め登録しておけば良い。
<変形例3>
上述の各実施の形態においては、入力部10は、通信部を介して番組情報を取得するように構成した。しかし、HDDなどに予め記憶された番組情報を読み出すことにより取得するようにしても良いし、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記憶媒体に記憶された番組情報を読み出すことにより取得するようにしても良い。
また、入力部10が番組情報を取得するタイミングは限定されず、例えば、所定の時間毎であっても良いし、ユーザからの指示があったときであっても良い。
また、キーワード抽出装置1が番組情報を用いて上述のキーワード抽出処理を行うタイミングも限定されず、例えば、入力部10が番組情報を取得したときであっても良いし、ユーザからの指示があったときであっても良い。
また、上述の各実施の形態においては、番組情報から第1抽出情報又は第2抽出情報を抽出して、これらの情報を用いてクラス判定処理やイベント内容抽出処理などの処理を行い、これらの情報に対してクラス番号やイベント番号を付与した。しかし、番組情報自体を用いてクラス判定処理やイベント内容抽出処理などの処理を行い、番組情報自体にクラス番号やイベント番号を付与するようにしても良い。
また、上述の各実施の形態においては、番組情報に含まれる番組名を第1識別情報として用いてクラスを判定するようにしたが、これに限らず、番組を識別する番組識別コードなどを第1識別情報として用いてクラスを判定するようにしても良い。また、第1識別情報によって識別される番組の放送回を識別する第2識別情報として、放送日及び開始時間を用いたが、これに限らず、放送回識別コードなどを用いるようにしても良い。
また、上述の各実施の形態においては、番組名を用いてクラスを分けるようにしたが、クラスの分け方はこれに限らない。また、上述の各実施の形態においては、クラスを分けた結果、複数のクラスが存在するようにしたが、1つのクラスのみ存在する場合であっても、本発明を適用可能である。
<変形例4>
また、キーワード抽出装置1のCPUが実行する各種プログラムを、インストール可能な形式又は実行可能な形式のファイルでCD−ROM、フレキシブルディスク(FD)、CD−R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記憶媒体に記憶して提供するように構成してもよい。また、当該各種プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成しても良い。
<変形例5>
上述の各実施の形態においては、キーワード抽出装置1は、提示部14を備えるように構成したが、提示部14を備えない構成であっても良い。この場合、キーワード抽出部13は、クラス番号と、共通キーワード及び非共通キーワードとを対応付けて記憶部に記憶させる。また、例えば、外部装置が上述の提示部14を備え、キーワード抽出装置1は、キーワード抽出部13がクラス番号と、共通キーワード及び非共通キーワードとを対応付けて記憶部に記憶させた後、これらの情報を通信部を介して外部装置に送信し、外部装置がこれらの情報を用いて上述の提示部14の機能を実現するように構成しても良い。
第1の実施の形態にかかる番組情報を例示する図である。 キーワード抽出装置の機能的構成を例示するブロック図である。 キーワード抽出処理の手順を示すフローチャートである。 入力部10が入力を受け付けた番組情報を例示する図である。 第1抽出情報を例示する図である。 クラス判定処理の手順を示すフローチャートである。 クラス番号が付与された第1抽出情報を例示する図である。 イベント内容抽出処理の手順の詳細を示すフローチャートである。 イベント内容抽出部12がクラス毎に抽出した共通表現及び非共通表現を例示する図である。 キーワード属性テーブルを例示する図である。 キーワード辞書を例示する図である。 共通キーワード及び非共通キーワードを例示する図である。 提示処理の手順を示すフローチャートである。 表示装置における表示例及び表示の遷移を示す図である。 第2の実施の形態にかかる番組情報を例示する図である。 キーワード抽出装置1´の構成を示すブロック図である。 キーワード抽出処理の手順を示すフローチャートである。 第2抽出情報を例示する図である。 クラス番号が付与された第2抽出情報を例示する図である。 同一イベント判定処理の手順を示すフローチャートである。 イベント番号が付与された第2抽出情報を例示する図である。 イベント内容抽出部12が同一の放送回に対する非共通表現をまとめる処理の手順を示すフローチャートである。 イベント内容抽出部12が抽出した共通表現及び非共通表現を例示する図である。 第2抽出情報FF’,GG’を例示する図である。 提示部14の提示処理の手順を示すフローチャートである。 表示装置における表示例及び表示の遷移を示す図である。
符号の説明
1 キーワード抽出装置
1´ キーワード抽出装置
10 入力部(取得手段)
11 クラス判定部(判定手段)
12 イベント内容抽出部(第1抽出手段)
13 キーワード抽出部(第2抽出手段)
14 提示部(検索制御手段)
15 同一イベント判定部(判別手段)

Claims (14)

  1. 番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得する取得手段と、
    前記第1識別情報を用いて、複数の前記電子文書のクラスを判定する判定手段と、
    前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出する第1抽出手段と、
    前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出する第2抽出手段と
    前記第1キーワードと、前記第2キーワードとを区別して表示させる表示手段と
    を備える
    ことを特徴とするキーワード抽出装置。
  2. 複数のキーワードを記憶する記憶手段を備え、
    前記第2抽出手段は、前記第1文字列に含まれ且つ前記記憶手段に記憶されたキーワードを前記第1キーワードとして抽出し、前記第2文字列に含まれ且つ前記記憶手段に記憶されたキーワードを前記第2キーワードとして抽出する
    ことを特徴とする請求項1に記載のキーワード抽出装置。
  3. 複数のキーワードを記憶する第1記憶手段と、
    前記第1記憶手段に記憶された複数のキーワードのうち全部又は一部が異なるキーワードを記憶する第2記憶手段を備え、
    前記第2抽出手段は、前記第1文字列に含まれ且つ前記第1記憶手段に記憶されたキーワードを前記第1キーワードとして抽出し、前記第2文字列に含まれ且つ前記第2記憶手段に記憶されたキーワードを前記第2キーワードとして抽出する
    ことを特徴とする請求項1に記載のキーワード抽出装置。
  4. 前記第1抽出手段は、
    判定された前記クラスが同じ前記電子文書のうち、同一の番組説明情報を含む第1電子文書の前記電子文書に対する割合が所定割合以上である場合、当該番組説明情報の番組内容を表す文字列を前記第1文字列として抽出する第1内容抽出手段と、
    判定された前記クラスが同じ前記電子文書に含まれる番組説明情報の番組内容を表す文字列のうち、前記第1文字列以外の文字列の全部又は一部を前記第2文字列として抽出する第2内容抽出手段とを有する
    ことを特徴とする請求項1乃至3のいずれか一項に記載のキーワード抽出装置。
  5. 前記第1抽出手段は、
    判定された前記クラスが同じ前記電子文書に含まれる番組説明情報の番組内容を表す文字列のうち、所定文字数以上の同一の文字列が出現する第1電子文書の前記電子文書に対する割合が所定割合以上である場合、当該同一の文字列を前記第1文字列として抽出する第1文字列抽出手段と、
    判定された前記クラスが同じ前記電子文書に含まれる番組説明情報の番組内容を表す文字列のうち、前記第1文字列以外の文字列の全部又は一部を前記第2文字列として抽出する第2文字列抽出手段とを有する
    ことを特徴とする請求項1乃至3のいずれか一項に記載のキーワード抽出装置。
  6. 同一の放送回に対する前記電子文書が複数あるか否かを判別する判別手段を有し、
    同一の放送回に対する前記電子文書が複数あると判別された場合、前記第2文字列抽出手段は、前記第2文字列を抽出した後、同一の放送回に対する複数の前記電子文書に含まれる番組説明情報に基づいて各々抽出された第2文字列のうちいずれか一方を選択する
    ことを特徴とする請求項4又は5に記載のキーワード抽出装置。
  7. 前記電子文書は、当該電子文書の作成日を示す作成日情報を更に含み、
    前記第2文字列抽出手段は、前記第2文字列を抽出した後、同一の放送回に対する複数の前記電子文書に含まれる番組説明情報から各々抽出された第2文字列のうち、より新しい作成日を示す作成日情報を含む電子文書に含まれる番組説明情報から抽出された第2文字列を選択する
    ことを特徴とする請求項6に記載のキーワード抽出装置。
  8. 同一の放送回に対する前記電子文書が複数あるか否かを判別する判別手段を有し、
    同一の放送回に対する前記電子文書が複数あると判別された場合、前記第2文字列抽出手段は、前記第2文字列を抽出した後、同一の放送回に対する複数の前記電子文書に含まれる番組説明情報から各々抽出された第2文字列のうち、いずれかを包含する第2文字列を選択する
    ことを特徴とする請求項4又は5に記載のキーワード抽出装置。
  9. 前記第1識別情報は、番組名であり、
    前記第2識別情報は、放送日及び放送時間である
    ことを特徴とする請求項1乃至8のいずれか一項に記載のキーワード抽出装置。
  10. 番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得する取得手段と、
    前記第1識別情報を用いて、複数の前記電子文書のクラスを判定する判定手段と、
    前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出する第1抽出手段と、
    前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出する第2抽出手段と、
    前記第1キーワードと、前記第2キーワードとを区別して表示手段に表示させ、操作手段を介して前記第1キーワードを選択する入力を受け付けた場合、当該第1キーワードを用いて前記電子文書の検索をクラス単位で行い、検索結果を前記表示手段に表示させ、操作手段を介して前記第2キーワードを選択する入力を受け付けた場合、当該第2キーワードを用いて前記電子文書の検索を放送回単位で行い、検索結果を前記表示手段に表示させる検索制御手段とを備える
    ことを特徴とする文書検索装置。
  11. 番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得する取得手段と、
    前記第1識別情報を用いて、複数の前記電子文書のクラスを判定する判定手段と、
    前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出する第1抽出手段と、
    前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出する第2抽出手段と、
    前記第1キーワードを表示手段に表示させ、操作手段を介して当該第1キーワードを選択する入力を受け付けた場合、当該第1キーワードを用いて前記電子文書の検索をクラス単位で行い、検索の結果該当した前記電子文書に含まれる前記番組説明情報に基づいて抽出された前記第2キーワードを前記表示手段に表示させ、操作手段を介して前記第2キーワードを選択する入力を受け付けた場合、当該第2キーワードを用いて前記電子文書の検索を放送回単位で行い、検索結果を前記表示手段に表示させる検索制御手段とを備える
    ことを特徴とする文書検索装置。
  12. 取得手段と、判定手段と、第1抽出手段と、第2抽出手段とを備える文書検索装置によって実行される文書検索方法であって、
    前記取得手段によって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得するステップと、
    前記判定手段によって、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定するステップと、
    前記第1抽出手段によって、前記番組説明情報を用いて、複数の前記電子文書の前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出するステップと、
    前記第2抽出手段によって、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出するステップと
    前記第1キーワードと、前記第2キーワードとを区別して表示させる表示ステップと
    を備える
    ことを特徴とするキーワード抽出装置。
  13. 取得手段と、判定手段と、第1抽出手段と、第2抽出手段と、検索制御手段とを備える文書検索装置によって実行される文書検索方法であって、
    前記取得手段によって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得するステップと、
    前記判定手段によって、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定するステップと、
    前記第1抽出手段によって、前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出するステップと、
    前記第2抽出手段によって、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出するステップと、
    前記検索制御手段によって、前記第1キーワードと、前記第2キーワードとを区別して表示手段に表示させ、操作手段を介して前記第1キーワードを選択する入力を受け付けた場合、当該第1キーワードを用いて前記電子文書の検索をクラス単位で行い、検索結果を前記表示手段に表示させ、操作手段を介して前記第2キーワードを選択する入力を受け付けた場合、当該第2キーワードを用いて前記電子文書の検索を放送回単位で行い、検索結果を前記表示手段に表示させるステップとを含む
    ことを特徴とする文書検索方法。
  14. 取得手段と、判定手段と、第1抽出手段と、第2抽出手段と、検索制御手段とを備える文書検索装置によって実行される文書検索方法であって、
    前記取得手段によって、番組を識別する第1識別情報と、前記第1識別情報により識別される番組の放送回を識別する第2識別情報と、番組内容を文字列により表す番組説明情報とを各々含む複数の電子文書を取得する取得手段と、
    前記判定手段によって、前記第1識別情報を用いて、複数の前記電子文書のクラスを判定する判定手段と、
    前記第1抽出手段によって、前記番組説明情報を用いて、前記クラスに共通する第1内容を表す第1文字列と、前記放送回に依存する第2内容を表す第2文字列とをクラス毎に複数の前記電子文書から抽出する第1抽出手段と、
    前記第2抽出手段によって、前記第1文字列から第1キーワードを抽出し、前記第2文字列から第2キーワードを抽出するステップと、
    前記検索制御手段によって、前記第1キーワードを表示手段に表示させ、操作手段を介して当該第1キーワードを選択する入力を受け付けた場合、当該第1キーワードを用いて前記電子文書の検索をクラス単位で行い、検索の結果該当した前記電子文書に含まれる前記番組説明情報に基づいて抽出された前記第2キーワードを前記表示手段に表示させ、操作手段を介して前記第2キーワードを選択する入力を受け付けた場合、当該第2キーワードを用いて前記電子文書の検索を放送回単位で行い、検索結果を前記表示手段に表示させるステップとを含む
    ことを特徴とする文書検索方法。
JP2007218326A 2007-08-24 2007-08-24 キーワード抽出装置及び方法、並びに、文書検索装置及び方法 Expired - Fee Related JP5060211B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007218326A JP5060211B2 (ja) 2007-08-24 2007-08-24 キーワード抽出装置及び方法、並びに、文書検索装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007218326A JP5060211B2 (ja) 2007-08-24 2007-08-24 キーワード抽出装置及び方法、並びに、文書検索装置及び方法

Publications (2)

Publication Number Publication Date
JP2009053814A JP2009053814A (ja) 2009-03-12
JP5060211B2 true JP5060211B2 (ja) 2012-10-31

Family

ID=40504866

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007218326A Expired - Fee Related JP5060211B2 (ja) 2007-08-24 2007-08-24 キーワード抽出装置及び方法、並びに、文書検索装置及び方法

Country Status (1)

Country Link
JP (1) JP5060211B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102311331B1 (ko) * 2014-11-20 2021-10-13 에스케이플래닛 주식회사 데이터저장장치 및 그 동작 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105769A (ja) * 1998-09-28 2000-04-11 Hitachi Ltd 文書表示方法
JP2004030021A (ja) * 2002-06-24 2004-01-29 Oki Electric Ind Co Ltd 文書処理装置および方法
JP2004312627A (ja) * 2003-04-10 2004-11-04 Matsushita Electric Ind Co Ltd テレビジョン受像装置およびその番組情報検索方法
JP4776235B2 (ja) * 2005-01-07 2011-09-21 ソニー株式会社 情報処理装置および方法、並びにプログラム
JP2008306300A (ja) * 2007-06-05 2008-12-18 Sony Corp 情報処理装置、情報処理方法、およびプログラム
JP4342575B2 (ja) * 2007-06-25 2009-10-14 株式会社東芝 キーワード提示のための装置、方法、及びプログラム

Also Published As

Publication number Publication date
JP2009053814A (ja) 2009-03-12

Similar Documents

Publication Publication Date Title
JP4623985B2 (ja) 電子番組ガイド(epg)データのフリーテキスト検索および属性検索
US20240019989A1 (en) Information presentation method and apparatus, and computer storage medium
JP4464463B2 (ja) 関連語提示装置
US8874590B2 (en) Apparatus and method for supporting keyword input
CN109558513B (zh) 一种内容推荐方法、装置、终端及存储介质
US20080215548A1 (en) Information search method and system
US20120036139A1 (en) Content recommendation device, method of recommending content, and computer program product
US20040260687A1 (en) Document retrieval apparatus that accentuates retrieval keyword based on feature index
JP2008276737A (ja) ユーザーの潜在的な関心情報へのアクセスを提供する方法及びシステム
JPWO2006134682A1 (ja) 固有表現抽出装置、方法、及びプログラム
US8782049B2 (en) Keyword presenting device
US20070136348A1 (en) Screen-wise presentation of search results
CN110866408B (zh) 数据库制作装置以及检索系统
EP3706014A1 (en) Methods, apparatuses, devices, and storage media for content retrieval
JP5060211B2 (ja) キーワード抽出装置及び方法、並びに、文書検索装置及び方法
CN112487159A (zh) 检索方法、检索装置及计算机可读存储介质
WO2008032353A1 (en) Information retrieval device
JP6836147B2 (ja) 画像関連付け装置、画像検索装置、画像検索システム及びプログラム
JP2005128872A (ja) 文書検索システム及び文書検索プログラム
JP2008225676A (ja) 辞書検索装置及びその制御プログラム
JP6440459B2 (ja) 検索装置、検索方法及び検索プログラム
JP3693734B2 (ja) 情報検索装置およびその情報検索方法
JP5127751B2 (ja) 情報検索装置及び方法
JP2011034261A (ja) 電子機器及びプログラム
US20210064586A1 (en) Data processing device and data processing method

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100601

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120416

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120424

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120620

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120710

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120803

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150810

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees