JP4040382B2 - キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム - Google Patents

キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム Download PDF

Info

Publication number
JP4040382B2
JP4040382B2 JP2002221698A JP2002221698A JP4040382B2 JP 4040382 B2 JP4040382 B2 JP 4040382B2 JP 2002221698 A JP2002221698 A JP 2002221698A JP 2002221698 A JP2002221698 A JP 2002221698A JP 4040382 B2 JP4040382 B2 JP 4040382B2
Authority
JP
Japan
Prior art keywords
keyword
character string
information
dictionary
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2002221698A
Other languages
English (en)
Other versions
JP2004062639A (ja
JP2004062639A5 (ja
Inventor
仁史 木村
顕介 大沼
秀俊 市岡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2002221698A priority Critical patent/JP4040382B2/ja
Application filed by Sony Corp filed Critical Sony Corp
Priority to KR1020057001427A priority patent/KR100993957B1/ko
Priority to CNB038223856A priority patent/CN100530174C/zh
Priority to US10/523,332 priority patent/US7577972B2/en
Priority to EP03771430A priority patent/EP1544751A4/en
Priority to PCT/JP2003/009678 priority patent/WO2004012101A1/ja
Publication of JP2004062639A publication Critical patent/JP2004062639A/ja
Publication of JP2004062639A5 publication Critical patent/JP2004062639A5/ja
Application granted granted Critical
Publication of JP4040382B2 publication Critical patent/JP4040382B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/35Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users
    • H04H60/48Arrangements for identifying or recognising characteristics with a direct linkage to broadcast information or to broadcast space-time, e.g. for identifying broadcast stations or for identifying users for recognising items expressed in broadcast information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04HBROADCAST COMMUNICATION
    • H04H60/00Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
    • H04H60/56Arrangements characterised by components specially adapted for monitoring, identification or recognition covered by groups H04H60/29-H04H60/54
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • H04N21/8405Generation or processing of descriptive data, e.g. content descriptors represented by keywords

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、EPG(Electronic Program Guide:電子番組ガイド)情報のようなコンテンツのタイトル文字列情報及び詳細文字列情報から、キーワードを自動的に抽出する装置及び方法、記録媒体、並びにプログラムに関する。
【0002】
【従来の技術】
近年本格化しているディジタルテレビジョン放送では、番組の映像・音声データとともに、番組のタイトルを示す情報(タイトル文字列情報)や番組の詳細を説明する情報(詳細文字列情報)や番組のジャンルを示す情報等を含んだEPG情報が、放送局から送信される。ディジタル放送に対応したテレビジョン受信機では、このEPG情報に基づいて画面上に電子番組ガイドを表示させることができる。
【0003】
また、アナログテレビジョン放送でも、こうしたEPG情報が送信されているものがある。
【0004】
ユーザーは、見たい番組を検索する場合、この電子番組ガイドを利用して、大まかなジャンル(例えばスポーツ,ドラマ等)を選んだ後、タイトルから検索したり、詳細文字列情報を読んで検索したりしている。
【0005】
しかし、番組のタイトルの付け方は千差万別であるので、タイトルからの検索はユーザーにとって必ずしも行いやすいものではない。また、番組の詳細文字列情報は文章の形式で記述されており何ページにも亘ることが少なくないので、詳細文字列情報からの検索もユーザーにとって面倒である。
【0006】
これに対し、例えば芸能人名等のキーワードを用いて番組を検索できるようにすれば、ユーザーにとって検索が非常に容易になる。しかるに、現在放送局から送信されるEPG情報には、キーワードは独立して含まれていない。そのため、キーワードを用いた検索を可能にするためには、EPG情報からキーワードを抽出することが必要になる。
【0007】
従来、このキーワードの抽出方法としては、テレビジョン受信機に表示された電子番組ガイド中の詳細文字列情報の文章の中から、ユーザーが、キーワードとして決定したい文字列の先頭及び末尾の語をカーソル等で指定するという方法が存在していた。
【0008】
【発明が解決しようとする課題】
しかし、この従来の抽出方法では、ユーザーが自らキーワード指定のための操作を行わなければならないので、煩雑であるとともに、多数のキーワードを短時間に抽出することは困難である。
【0009】
他方、一般的なキーワードの自動抽出方法としては、日本語形態要素解析という方法が知られている。しかし、この方法は、プログラムのサイズや使用する辞書のサイズが非常に大きいとともに、CPUに大きな負荷をかけてしまう。したがって、テレビジョン受信機のようにCPUの処理能力やメモリの容量がさほど大きくない家電製品でこの方法を用いることは、極めて非効率的である。
【0010】
さらに、一般的なキーワードの自動抽出方法としては、字種切り法という方法も知られている。この方法は、漢字・カタカナ・平仮名・アルファベット・数字等の字種の違いを検出することによってキーワードを抽出するものである。しかし、この字種切り法だけでは、番組を検索するためのキーワードの抽出を精度よく行うことはできない。すなわち、苗字が漢字で名前が平仮名やカタカナの芸能人名(例えば‘石田あかり’というような名称)は、苗字と名前とが分割されてしまうので抽出することができない。また、名前がアルファベットで表記され苗字がカタカナで表記された外国人名や名前と苗字との間に‘・’(中点)が挿入された外国人名(例えば‘B・ドゥーリー’というような名称)も、名前と苗字とが分割されてしまうので抽出することができない。
【0011】
本発明は、上述の点に鑑み、CPUの処理能力やメモリの容量がさほど大きくない家電製品でも、EPG情報のようなコンテンツのタイトル文字列情報及び詳細文字列情報から、ユーザーがコンテンツを検索するためのキーワードを、効率よく且つ精度よく自動的に抽出できるようにすることを課題としてなされたものである。
【0012】
【課題を解決するための手段】
この課題を解決するために、本出願人は、EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行う第1の抽出手段と、EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2の抽出手段とを備え、この第1の抽出手段は、このタイトル文字列情報が示す複数のタイトルのうち、この第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、所定の除外文字列辞書を用い、このキーワード抽出対象のタイトルの文字列全体からこの除外文字列辞書に登録されている文字列を除外する第2の処理と、この第2の処理を経たキーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理とを行うキーワード自動抽出装置を提案する。
【0013】
このキーワード自動抽出装置では、EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報からは、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いて、次の第1から第3の処理を行うことによってキーワードが抽出される。
・タイトル文字列情報が示す複数のタイトルのうち、この第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理。
・所定の除外文字列辞書を用い、このキーワード抽出対象のタイトルの文字列全体からこの除外文字列辞書に登録されている文字列を除外する第2の処理。
・第2の処理を経たこのキーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理。
【0014】
また、EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報からは、人名が登録されている第2のキーワード辞書を用いてキーワードが抽出されるとともに、字種切り法を利用したキーワードの抽出も行われる。その際、第2のキーワード辞書に登録されている人名であれば、苗字が漢字で名前が平仮名やカタカナの人名もキーワードとして抽出される。また、第2のキーワード辞書に登録されていない人名でも、字種切り法を利用することによってキーワードとして抽出される。
【0015】
このように、タイトル文字列情報からのキーワードの抽出と詳細文字列情報からのキーワードの抽出とを、それぞれの情報に合せて互いに異なるキーワード辞書とルール(字種切り法を利用するか否か等)で行うことにより、小さなサイズのプログラムや辞書で精度よくキーワードを抽出することができる。
さらに、タイトルに含まれていることのある文字列のうち、コンテンツを検索するためには不適切な(一般的過ぎるような)文字列がキーワードに含まれることを防止することができる。したがって、ユーザーは、抽出されたキーワードを用いて、コンテンツを一層効率的に検索することができるようになる。
【0016】
これにより、CPUの処理能力やメモリの容量がさほど大きくない家電製品でも、EPG情報のようなコンテンツのタイトル文字列情報及び詳細文字列情報から、ユーザーがコンテンツを検索するためのキーワードを、効率よく且つ精度よく自動的に抽出することができるようになる。
【0020】
また、平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られていないタイトルについては、そのタイトルに含まれる複数の文字列がばらばらのキーワードとして抽出されることなく、そのタイトルそのものがそのままの形でキーワードとして抽出されるようになる。
【0021】
こうした特殊文字で区切られていないタイトルは、そのタイトルに含まれる個々の文字列は意味が広すぎてコンテンツ検索のためのキーワードとしてあまり役立たず(検索結果が非常に多くなり)、タイトルそのものとしてはじめてコンテンツの効率的な検索のためのキーワードとして役立つことが多い。したがって、ユーザーは、抽出されたキーワード(タイトルそのもの)を用いて、コンテンツを一層効率的に検索することができるようになる。
【0022】
また一方では、特殊文字で区切られているタイトルについては、特殊文字で区切られている個々の文字列がそれぞれキーワードとして抽出されるようになる。
【0023】
特殊文字(例えばスペースや‘×’等)で区切られているタイトルは、その特殊文字で区切られている個々の文字列がそれぞれコンテンツ検索のためのキーワードとして役立ち、タイトルそのものとしては限定されすぎてコンテンツ検索のためのキーワードとしてあまり役立たない(検索結果がゼロまたは非常に少なくなる)ことが多い。したがって、ユーザーは、抽出されたキーワード(特殊文字で区切られている個々の文字列)を用いて、やはりコンテンツを一層効率的に検索することができるようになる。
【0024】
さらに、このキーワード自動抽出装置において、一例として、第2の抽出手段は、詳細文字列情報から第2のキーワード辞書を用いてキーワードを抽出する第1の処理と、所定の除外文字列辞書を用い、詳細文字列情報のうち第1の処理で抽出したキーワードを除外した部分から、この除外文字列辞書に登録されている文字列を除外する第2の処理と、この第2の処理を経た詳細文字列情報から、字種切り法を利用してキーワードを抽出する第3の処理とを行うことが好適である。
【0025】
それにより、詳細文字列情報に含まれていることのある文字列のうち、コンテンツを検索するためには不適切な文字列がキーワードに含まれることを防止することができる。したがって、ユーザーは、抽出されたキーワードを用いて、コンテンツを一層効率的に検索することができるようになる。
【0026】
さらに、このキーワード自動抽出装置において、一例として、第2の抽出手段は、詳細文字列情報から第2のキーワード辞書を用いてキーワードを抽出する処理と、詳細文字列情報のうちこの処理で抽出したキーワードを除外した部分から、字種切り法を利用しつつ、カタカナとアルファベットとを同一字種として扱うとともに、‘・’(中点)は、その直前の文字がカタカナ,アルファベットである場合にはそれぞれカタカナ,アルファベットとして扱ってキーワードを抽出する処理とを行うことが好適である。
【0027】
それにより、名前がアルファベットで表記され苗字がカタカナで表記された外国人名や名前と苗字との間に‘・’(中点)が挿入された外国人名も、キーワードとして抽出することができるようになる。
【0028】
さらに、このキーワード自動抽出装置において、第2のキーワード辞書をネットワーク経由でダウンロードする手段をさらに備え、第2の抽出手段はこのダウンロードされた第2のキーワード辞書を用いることが好適である。
【0029】
それにより、第2のキーワード辞書として、最新の辞書(最近有名になったばかりの人の名称も登録されている辞書)を用いてキーワードを抽出することができるようになる。
【0030】
次に、本出願人は、コンピュータ・ソフトウェアによるキーワード自動抽出方法において、コンピュータが、EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行う第1のステップと、コンピュータが、EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2のステップとを有し、第1のステップで、タイトル文字列情報が示す複数のタイトルのうち、この第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、所定の除外文字列辞書を用い、このキーワード抽出対象のタイトルの文字列全体からこの除外文字列辞書に登録されている文字列を除外する第2の処理と、第2の処理を経たこのキーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理とを行うキーワード自動抽出方法を提案する。
また、コンピュータに、EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行うステップであって、タイトル文字列情報が示す複数のタイトルのうち、この第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、所定の除外文字列辞書を用い、このキーワード抽出対象のタイトルの文字列全体からこの除外文字列辞書に登録されている文字列を除外する第2の処理と、第2の処理を経たこのキーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理とを行う第1の抽出ステップと、EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2の抽出ステップとを実行させるプログラムを記録したコンピュータ読み取り可能な記録媒体を提案する。
また、コンピュータに、EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行うステップであって、タイトル文字列情報が示す複数のタイトルのうち、この第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、所定の除外文字列辞書を用い、このキーワード抽出対象のタイトルの文字列全体からこの除外文字列辞書に登録されている文字列を除外する第2の処理と、第2の処理を経たこのキーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理とを行う第1の抽出ステップと、EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2の抽出ステップとを実行させるプログラムを提案する。
【0031】
このキーワード自動抽出方法や記録媒体やプログラムによれば、前述の本発明に係るキーワード自動抽出装置について説明したのと全く同様にして、CPUの処理能力やメモリの容量がさほど大きくない家電製品でも、EPG情報のようなコンテンツのタイトル文字列情報及び詳細文字列情報から、ユーザーがコンテンツを検索するためのキーワードを、効率よく且つ精度よく自動的に抽出することができるようになる。
【0032】
【発明の実施の形態】
以下、デジタルテレビジョン放送の番組を記録・再生する装置に本発明を適用した例について、図面を用いて説明する。
【0033】
図1は、本発明を適用した番組記録再生装置を含むデジタルテレビジョン放送受信システムの概要を示す図である。テレビジョン放送局から送信されたデジタル放送信号が、アンテナ1で受信されて番組記録再生装置2に入力する。番組記録再生装置2は、ディスプレイ及びスピーカを含む表示装置3に接続されるとともに、インターネット4に接続されている。
【0034】
図2は、番組記録再生装置2のハードウェア構成を示すブロック図である。この番組記録再生装置2では、チューナ11,復調器12,デスクランブラ13,多重分離器14が順に接続されるとともに、多重分離器14に対して映像デコーダ15,映像信号処理回路17と音声デコーダ16,D/A変換器18とがそれぞれ順に接続されている。
【0035】
また、チューナ11〜D/A変換器18,CPU19,ROM20,メインメモリ(RAM)21,フラッシュメモリ22,リモートコントローラ用のインターフェース23,HDD(ハードディスクドライブ)用のインターフェース24,インターネット接続用の通信インターフェース25が、互いにシステムバス26で結ばれている。インターフェース24には、テレビ番組を録画するためのHDD(ハードディスクドライブ)27が接続されている。
【0036】
この番組記録再生装置2に付属したリモートコントローラ(以下リモコンと呼ぶ)28には、通常のデジタル放送用テレビジョン受信機に付属したリモコンにおけるのと同じ各種の操作釦(電源釦や、選局釦や、録画予約釦や、再生釦や、EPG画面上で選択を行うための方向キーや決定キー等)が設けられている。
【0037】
テレビ番組の視聴時には、番組記録再生装置2に入力したデジタル放送信号は、リモコン28の選局操作に基づいてチューナ11で周波数帯を選択された後、復調器12で復調され、デスクランブラ13でスクランブルを解かれた後、多重分離器14で、複数チャンネル分の番組の映像・音声データのパケットやEPG情報のパケットに分離される。
【0038】
この複数チャンネル分のテレビ番組の映像・音声のパケットのうち、リモコン28の選局操作に基づいて抽出した1チャンネル分のパケットの映像,音声データが、それぞれ映像デコーダ15,音声デコーダ16によりMPEG−2Video,MPEG−2Audioで復号される。また、EPG情報のパケットはCPU19に送られる。
【0039】
そして、映像デコーダ15で復号された映像信号や、EPG情報を用いてCPU19で作成された電子番組ガイド表示用の映像信号が、映像信号処理回路17でNTSC方式への変換やミキシング等を施され、映像出力端子29から出力して図1の表示装置3に送られる。
【0040】
また、音声デコーダ16で復号された音声信号が、D/A変換器18でアナログ変換され、音声出力端子30から出力して図1の表示装置3に送られる。
【0041】
CPU19は、ROM20に格納されたプログラムやデータに基づき、メインメモリ21をワーキングメモリとして用いてこの番組記録再生装置2全体を制御する。
【0042】
CPU19が行う処理には、リモコン28の選局操作に基づくテレビ番組の視聴時の処理や、リモコン28の録画予約操作に基づくHDD27へのテレビ番組の録画処理の他に、キーワードの自動抽出処理がある。
【0043】
ROM20には、このキーワードの自動抽出処理で用いるための辞書として、タイトル用キーワード辞書,タイトル用除外文字列辞書,詳細情報用キーワード辞書及び詳細情報用除外文字列辞書が格納されている。
【0044】
タイトル用キーワード辞書には、‘プロ野球’,‘ゴルフ’,‘サッカー’,‘温泉’,‘囲碁’,‘将棋’,‘映画’等のサブジャンル(EPG情報中のジャンル情報による‘スポーツ’といったような大まかなジャンルよりも細かいジャンル)を示す文字列や、‘恋’,‘愛’といった文字列や、プロ野球の球団名の文字列のように、番組のタイトルに含まれていることの多い文字列のうち、番組を検索するために有効且つ重要な文字列が登録されている。
【0045】
タイトル用除外文字列辞書には、‘映画’,‘BS’,番組表独特の記号(例えば、ニュース番組を表す、Nを四角の枠で囲んだ記号)といったように、番組のタイトルに含まれていることのある文字列のうち、番組を検索するためのキーワードとしては一般的過ぎる文字列が登録されている。
【0046】
詳細情報用キーワード辞書には、テレビジョン番組に登場することの多い有名人(芸能人,スポーツ選手,政治家,文化人等)の名称のうち、平仮名のみ,平仮名と漢字との組み合わせ,平仮名とカタカナとの組み合わせ,漢字とカタカナとの組み合わせ,2文字以下の漢字のみ,6文字以上の漢字のみの名称の文字列がそれぞれ登録されている。また、詳細情報用キーワード辞書には、例えば‘温泉’というような、EPG情報中の詳細文字列情報に含まれていることの多い文字列のうち、人名以外の文字列であって番組を検索するためのキーワードとして適切な文字列も登録されている。
【0047】
詳細情報用除外文字列辞書には、‘ゲスト’,‘以上’,‘監督’のように、EPG情報中の詳細文字列情報に含まれていることの多い文字列のうち、番組を検索するためのキーワードとしては不適切な文字列が登録されている。
【0048】
なお、CPU19は、詳細情報用キーワード辞書に関しては、インターネット経由で専用のサイトから最新のもの(最近有名になったばかりの人の名称等が登録されているもの)をダウンロードしてフラッシュメモリ22にも記憶させる。
【0049】
また、CPU19は、キーワードの自動抽出処理を行う前提として、ユーザーの選局操作時やユーザーの録画予約操作に基づく録画時に多重分離器14から送られたEPG情報のパケットをフラッシュメモリ22に記憶させる。
【0050】
図3,図4は、CPU19が実行するキーワードの自動抽出処理を示すフローチャートである。このうち、図3は、タイトル文字列情報からキーワードを抽出する処理であり、最初に、フラッシュメモリ22に記憶させたEPG情報の中から、タイトル文字列情報を取り出す(ステップS1)。
【0051】
続いて、そのタイトル文字列情報が示す複数の番組のタイトルから、タイトル用キーワード辞書に登録されている文字列(‘ゴルフ’,‘サッカー’,‘温泉’,‘囲碁’,‘将棋’,‘映画’といったサブジャンルを示す文字列等)を探す。そして、それらの番組のタイトルのうち、このタイトル用キーワード辞書に登録されている文字列が含まれているタイトルの文字列全体を、キーワードの抽出対象とする(ステップS2)。
【0052】
続いて、ステップS2でキーワードの抽出対象としたタイトルのうち、タイトル用除外文字列辞書に登録されている文字列(‘映画’,‘BS’等)の部分をスペースで置換する(ステップS3)。
【0053】
続いて、ステップS3を経たタイトルの文字列から、図5に示すようなタイトル用の抽出ルールでキーワードを抽出する(ステップS4)。
【0054】
このタイトル用抽出ルールでは、そのタイトルの文字列が平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字(スペースや×や「」等)で区切られていない場合は、そのタイトルの文字列をそのままキーワードとして抽出する。他方、そのタイトルの文字列がこうした特殊文字で区切られている場合は、特殊文字で区切られている各文字列のうちの2文字以上の文字列をそれぞれキーワードとして抽出する。
【0055】
但し、‘・’(中点)は特殊文字としては扱わない。そして、キーワードとして抽出した文字列の先頭か末尾に‘・’(中点)が存在する場合には、‘・’(中点)を除いた部分をキーワードとする。
【0056】
最後に、ステップS4で抽出したキーワードを、タイトル文字列情報中のキーワードのリストとしてフラッシュメモリ22に記憶させる(ステップS5)。
【0057】
次に、図4は、詳細文字列情報からキーワードを抽出する処理であり、最初に、フラッシュメモリ22に記憶させたEPG情報の中から、詳細文字列情報を取り出す(ステップS11)。
【0058】
続いて、その詳細文字列情報から、詳細情報用キーワード辞書に登録されている文字列(有名な人の名称等)を探す。そして、その詳細文字列情報のうち、この詳細情報用キーワード辞書に登録されている文字列をキーワードとして抽出するとともに、その文字列の部分を半角スペースで置換する(ステップS12)。
【0059】
続いて、ステップS12を経た詳細文字列情報の文字列のうち、詳細情報用除外文字列辞書に登録されている文字列(‘ゲスト’,‘以上’,‘監督’等)の部分を半角スペースで置換する(ステップS13)。
【0060】
続いて、ステップS13を経た詳細文字列情報の文字列から、図6に示すような詳細文字列情報用の抽出ルールでキーワードを抽出する(ステップS14)。
【0061】
この詳細文字列情報用抽出ルールでは、基本的には、平仮名とカタカナと漢字と数字とアルファベットとその他の字種の文字とを互いに分離する字種切り法を利用する。
【0062】
但し、カタカナとアルファベットとは同一の字種として扱う(分離しない)。また、‘・’(中点)は、その直前の文字がカタカナ,アルファベットである場合にはそれぞれカタカナ,アルファベットとして扱う(分離しない)。
【0063】
そして、分離した各文字列のうち、平仮名のみの文字列,2文字以下の漢字のみの文字列,6文字以上の漢字のみの文字列を除いた文字列を、それぞれキーワードとして抽出する。但し、キーワードとして抽出した文字列の先頭か末尾に‘・’(中点)が存在する場合には、‘・’(中点)を除いた部分をキーワードとする。
【0064】
最後に、ステップS12で抽出したキーワードと、ステップS14で抽出したキーワードを、詳細文字列情報中のキーワードのリストとしてフラッシュメモリ22に記憶させる(ステップS15)。
【0065】
次に、この番組記録再生装置2において番組検索のためのキーワードが抽出される様子を、具体例を挙げて説明する。
【0066】
ユーザーの選局操作時やユーザーの録画予約操作に基づく録画時に多重分離器14から送られてフラッシュメモリ22に記憶されたEPG情報中のタイトル文字列情報に、例えば次のようなタイトルが含まれていたとする(但し□□,△△はプロ野球チーム名である)。
愛のから騒ぎ
プロ野球中継 □□×△△
BS映画「スペース・ウォーズ」
【0067】
すると、図3の処理では、‘愛’,‘プロ野球’,‘映画’という文字列がタイトル用キーワード辞書に登録されているので、ステップS2で、これらの各タイトルについて、それぞれそのタイトルの文字列全体がキーワードの抽出対象となる。
【0068】
そして、これらのタイトルのうち、BS映画「スペース・ウォーズ」については、ステップS3で、‘BS’の部分と‘映画’の部分とがスペースで置換される。
【0069】
また、これらのタイトルのうち、プロ野球中継 □□×△△については、‘プロ野球中継’と‘□□’との間にスペース(特殊記号)が存在し、‘□□’と‘△△’との間にも×(特殊記号)が存在するので、ステップS4で、文字列‘プロ野球中継’,‘□□’,‘△△’がそれぞれキーワードとして抽出される。
【0070】
また、これらのタイトルのうち、‘BS’,‘映画’の部分をスペース置換された「スペース・ウォーズ」については、「」(特殊記号)で区切られており、また‘・’(中点)は特殊記号として扱わないので、ステップS4で、本来の映画のタイトルそのものである‘スペース・ウォーズ’がキーワードとして抽出される。
【0071】
また、これらのタイトルのうち、愛のから騒ぎは、特殊記号で区切られていないので、ステップS4で、タイトルそのものである‘愛のから騒ぎ’がキーワードとして抽出される。
【0072】
したがって、ステップS5では、以下の文字列が番組検索用のキーワードとしてフラッシュメモリ22に記憶される(前述のように□□,△△はプロ野球チーム名である)。
愛のから騒ぎ
プロ野球中継
□□
△△
スペース・ウォーズ
【0073】
このようにして、愛のから騒ぎ,スペース・ウォーズというように特殊文字で区切られていないタイトルについては、図3の処理により、そのタイトルに含まれる複数の文字列がばらばらのキーワードとして抽出されることなく、そのタイトルそのものがそのままの形でキーワードとして抽出される。
【0074】
こうした特殊文字で区切られていないタイトルは、そのタイトルに含まれる‘愛’,‘スペース’等の個々の文字列は意味が広すぎて番組検索のためのキーワードとしてあまり役立たず(検索結果が非常に多くなり)、タイトルそのものとしてはじめて番組の効率的な検索のためのキーワードとして役立つことが多い。したがって、ユーザーは、抽出されたキーワード(タイトルそのもの)を用いて、番組を効率的に検索することができるようになる。
【0075】
また、スペース・ウォーズという映画のタイトル文字列については、タイトル文字列情報においてこのタイトルに付加されていた‘BS’,‘映画’というような番組検索のためには一般的過ぎる文字列がキーワードに含まれていないとともに、このタイトル文字列情報においてこのタイトルを囲っていた「」もキーワードに含まれていない。したがって、ユーザーは番組を効率的に検索することができるようになる。
【0076】
また一方では、プロ野球中継 □□×△△というように特殊文字(スペースや‘×’)で区切られているタイトルについては、図3の処理により、特殊文字で区切られている個々の文字列であるプロ野球中継,□□,△△がそれぞれキーワードとして抽出される。
【0077】
こうした特殊文字で区切られているタイトルは、その特殊文字で区切られている個々の文字列がそれぞれ番組検索のためのキーワードとして役立ち、タイトルそのものとしては限定されすぎて番組検索のためのキーワードとしてあまり役立たない(対戦チーム(□□や△△の具体名)が異なれば別のタイトルになってしまうので、検索結果がゼロまたは非常に少なくなる)ことが多い。したがって、ユーザーは、抽出されたキーワード(特殊文字で区切られている個々の文字列)を用いて、やはり番組を効率的に検索することができるようになる。
【0078】
他方、図4の処理では、フラッシュメモリ22に記憶されたEPG情報中のこれらのタイトルの番組の詳細文字列情報から、詳細情報用キーワード辞書に登録されている有名人(愛のから騒ぎという番組の司会者,ゲストや、映画スペース・ウォーズに出演している俳優)の名称等が、ステップS12でキーワードとして抽出される。
【0079】
その際、苗字が漢字で名前が平仮名やカタカナの有名人の名称(例えば石田あかりという名称)もこの詳細情報用キーワード辞書に登録されているので、そうした有名人の名称もキーワードとして抽出される。
【0080】
また、インターネット経由でダウンロードした最新の詳細情報用キーワード辞書も用いるので、最近有名になったばかりの人の名称もキーワードとして抽出される。
【0081】
また、その詳細文字列情報のうち、その有名人の名称等の部分と、詳細情報用除外文字列辞書に登録されている文字列(‘ゲスト’,‘以上’,‘監督’等)の部分とが、ステップS12及びS13で半角スペースに置換される。
【0082】
そして、このスペース置換された詳細文字列情報の文字列から、ステップS14で、図6に示したルールによってキーワードが抽出される。
【0083】
その際、カタカナとアルファベットとは同一の字種として扱われるとともに‘・’(中点)はその直前の文字がカタカナ,アルファベットである場合にはそれぞれカタカナ,アルファベットとして扱われるので、名前と苗字との間に‘・’(中点)が挿入された外国人名(例えばB・ドゥーリー)もキーワードとして抽出される。
【0084】
また、最新の詳細情報用キーワード辞書にもまだ登録されていない人(例えばデビューしたばかりの無名の芸能人)の名称でも、平仮名のみの名称や2文字以下の漢字のみの名称や6文字以上の漢字のみの名称(すなわち人名としてあまりなさそうな名称)でなければキーワードとして抽出される。
【0085】
また、‘ゲスト’,‘以上’,‘監督’といったような番組検索のためには不適切な文字列は、スペース置換されているのでキーワードとして抽出されることはない。
【0086】
これにより、ステップS15では、苗字が漢字で名前が平仮名やカタカナの有名人名や、最近有名になったばかりの人の名称や、名前がアルファベットで表記され苗字がカタカナで表記された外国人名や、名前と苗字との間に‘・’(中点)が挿入された外国人名も、番組検索用のキーワードとしてフラッシュメモリ22に記憶される。したがって、ユーザーは、抽出されたキーワードを用いて、番組を効率的に検索することができるようになる。
【0087】
なお、図3,図4の処理によってフラッシュメモリ22に記憶させたキーワードをユーザーが番組検索のために用いる方法としては、例えば、リモコン28による所定の操作に基づき、CPU19が、番組検索用画面(キーワードを一覧表示するとともにユーザーがその中の所望のキーワードを選択して検索を指示するための画面)の映像信号を作成して映像信号処理回路17,映像出力端子29を経て表示装置3に送るといったような、適宜の方法をとればよい。
【0088】
以上のように、この番組記録再生装置2では、EPG情報中のタイトル文字列情報からのキーワードの抽出と詳細文字列情報からのキーワードの抽出とを、それぞれの情報に合せて互いに異なるキーワード辞書とルールとで行うことにより、小さなサイズのプログラムや辞書で精度よくキーワードを抽出することができるようになっている。
【0089】
これにより、CPU19の処理能力やメモリ(ROM20やフラッシュメモリ22等)の容量がさほど大きくなくても、EPG情報中のタイトル文字列情報及び詳細文字列情報から、ユーザーが番組を検索するためのキーワードを効率よく且つ精度よく自動的に抽出することができるようになっている。
【0090】
なお、以上の例では、デジタルテレビジョン放送の番組を記録・再生する装置に本発明を適用している。しかし、これに限らず、アナログテレビジョン放送の番組を記録・再生する番組記録再生装置にも本発明を適用してよいことはもちろんである。
【0091】
図7は、本発明を適用したアナログテレビジョン放送用の番組記録再生装置のハードウェア構成を示すブロック図である。アンテナ31で受信されて番組記録再生装置41に入力したアナログ放送信号中の映像・音声信号は、チューナ42で周波数帯を選択され、MPEGエンコーダ43で符号化される。
【0092】
テレビ番組の視聴時には、この符号化された映像・音声データは、MPEGデコーダ47で復号されて、番組記録再生装置41から表示装置61に送られる。
【0093】
他方、テレビ番組の記録時には、MPEGエンコーダ43で符号化された映像・音声データは、バス44を介して主記憶装置45に送られて、主記憶装置45に記録される。
【0094】
そして、再生時には、主記憶装置45から読み出された映像・音声データが、バス44を介してMPEGデコーダ47に送られ、MPEGデコーダ47で復号されて、番組記録再生装置41から表示装置61に送られる。
【0095】
また、チューナ42で周波数帯を選択されたアナログ放送信号から、EPG取得モジュール46でEPG情報が取得される。このEPG情報も、バス44を介して主記憶装置45に送られて、主記憶装置45に記憶される。
【0096】
また、インターネット71と接続するための通信インターフェース48,ROM49,主記憶装置50,補助記憶装置51,MPEGデコーダ47が、互いにバス52で結ばれている。
【0097】
この番組記録再生装置41でも、前述のようなタイトル用キーワード辞書,タイトル用除外文字列辞書,詳細情報用キーワード辞書及び詳細情報用除外文字列辞書がROM49に格納されている(詳細情報用キーワード辞書に関してはインターネット経由で専用のサイトから最新のものをダウンロードして補助記憶装置51にも記憶させる)とともに、番組記録再生装置41全体を制御するCPU53が、図3,図4に示したのと同じキーワードの自動抽出処理をこれらの辞書及び主記憶装置45内のEPG情報を用いて行い、抽出したキーワードを補助記憶装置51に記憶させる。
【0098】
この番組記録再生装置41でも、図1,図2の番組記録再生装置2について説明したのと全く同様にして、EPG情報中のタイトル文字列情報からのキーワードの抽出と詳細文字列情報からのキーワードの抽出とを、それぞれの情報に合せて互いに異なるキーワード辞書とルールとで行うことにより、小さなサイズのプログラムや辞書で精度よくキーワードを抽出することができる。
【0099】
これにより、CPU53の処理能力やメモリ(ROM49や補助記憶装置51等)の容量がさほど大きくなくても、EPG情報中のタイトル文字列情報及び詳細文字列情報から、ユーザーが番組を検索するためのキーワードを効率よく且つ精度よく自動的に抽出することができる。
【0100】
また、以上の例では、表示装置とは別体となった番組記録再生装置に本発明を適用している。しかし、これに限らず、この番組記録再生装置と表示装置とが一体となったテレビジョン受信機や、番組の記録再生機能を有しないテレビジョン受信機にも本発明を適用してよい。
【0101】
また、以上の例では、EPG情報中の番組のタイトル文字列情報,詳細文字列情報からのキーワードの検索のために本発明を適用している。しかし、これに限らず、テレビジョン番組以外のコンテンツ(例えばインターネット経由で配信されるコンテンツ)のタイトル文字列情報,詳細文字列情報からのキーワードの検索のためにも本発明を適用してよい。
【0102】
また、本発明は、以上の例に限らず、本発明の要旨を逸脱することなく、その他様々の構成をとりうることはもちろんである。
【0103】
【発明の効果】
以上のように、本発明によれば、CPUの処理能力やメモリの容量がさほど大きくない家電製品でも、EPG情報のような番組のタイトル文字列情報及び詳細文字列情報から、ユーザーが番組を検索するためのキーワードを、効率よく且つ精度よく自動的に抽出することができるという効果が得られる。
【図面の簡単な説明】
【図1】本発明を適用した番組記録再生装置を含むデジタルテレビジョン放送受信システムの概要を示す図である。
【図2】図1の番組記録再生装置のハードウェア構成を示すブロック図である。
【図3】図2のCPUが実行するキーワードの自動抽出処理を示すフローチャートである。
【図4】図2のCPUが実行するキーワードの自動抽出処理を示すフローチャートである。
【図5】図3の処理におけるキーワード抽出のためのルールを示す図である。
【図6】図4の処理におけるキーワード抽出のためのルールを示す図である。
【図7】本発明を適用したアナログテレビジョン放送用の番組記録再生装置のハードウェア構成を示すブロック図である。
【符号の説明】
1,31 アンテナ、 2,41 番組記録再生装置、 3,61 表示装置、 11,42 チューナ、 12 復調器、 13 デスクランブラ、 14多重分離器、 15 映像デコーダ、 16 音声デコーダ、 17 映像信号処理回路、 18 D/A変換器18、 19 CPU、 20,49 ROM、 21 RAM、 22 フラッシュメモリ、 23 リモートコントローラ用のインターフェース、 24 HDD用のインターフェース、 25,48インターネット接続用の通信インターフェース、 26 システムバス、 27 HDD、 28 リモコン、 43 MPEGエンコーダ、 44,52 バス、 45,50 主記憶装置、 46 EPG取得モジュール、 47 MPEGデコーダ、 50 主記憶装置、 51 補助記憶装置

Claims (10)

  1. EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行う第1の抽出手段と、
    EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2の抽出手段と
    を備え、
    前記第1の抽出手段は、
    前記タイトル文字列情報が示す複数のタイトルのうち、前記第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、
    所定の除外文字列辞書を用い、前記キーワード抽出対象のタイトルの文字列全体から前記除外文字列辞書に登録されている文字列を除外する第2の処理と、
    前記第2の処理を経た前記キーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理と
    を行うことを特徴とするキーワード自動抽出装置。
  2. 請求項1に記載のキーワード自動抽出装置において、
    前記第2の抽出手段は、
    前記詳細文字列情報から前記第2のキーワード辞書を用いてキーワードを抽出する第1の処理と、
    所定の除外文字列辞書を用い、前記詳細文字列情報のうち前記第1の処理で抽出したキーワードを除外した部分から、前記除外文字列辞書に登録されている文字列を除外する第2の処理と、
    前記第2の処理を経た前記詳細文字列情報から、字種切り法を利用してキーワードを抽出する第3の処理と
    を行うことを特徴とするキーワード自動抽出装置。
  3. 請求項1に記載のキーワード自動抽出装置において、
    前記第2の抽出手段は、
    前記詳細文字列情報から前記第2のキーワード辞書を用いてキーワードを抽出する処理と、
    前記詳細文字列情報のうち前記処理で抽出したキーワードを除外した部分から、字種切り法を利用しつつ、カタカナとアルファベットとを同一字種として扱うとともに、‘・’(中点)は、その直前の文字がカタカナ,アルファベットである場合にはそれぞれカタカナ,アルファベットとして扱ってキーワードを抽出する処理と
    を行うことを特徴とするキーワード自動抽出装置。
  4. 請求項1に記載のキーワード自動抽出装置において、
    前記第2のキーワード辞書をネットワーク経由でダウンロードする手段
    をさらに備え、前記第2の抽出手段は前記ダウンロードされた第2のキーワード辞書を用いることを特徴とするキーワード自動抽出装置。
  5. コンピュータ・ソフトウェアによるキーワード自動抽出方法において、
    コンピュータが、EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行う第1のステップと、
    EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2のステップと
    を有し、
    前記第1のステップで、
    前記タイトル文字列情報が示す複数のタイトルのうち、前記第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、
    所定の除外文字列辞書を用い、前記キーワード抽出対象のタイトルの文字列全体から前記除外文字列辞書に登録されている文字列を除外する第2の処理と、
    前記第2の処理を経た前記キーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理と
    を行うことを特徴とするキーワード自動抽出方法。
  6. 請求項に記載のキーワード自動抽出方法において、
    前記第2のステップで、
    前記詳細文字列情報から前記第2のキーワード辞書を用いてキーワードを抽出する第1の処理と、
    所定の除外文字列辞書を用い、前記詳細文字列情報のうち前記第1の処理で抽出したキーワードを除外した部分から、前記除外文字列辞書に登録されている文字列を除外する第2の処理と、
    前記第2の処理を経た前記詳細文字列情報から、字種切り法を利用してキーワードを抽出する第3の処理と
    を行うことを特徴とするキーワード自動抽出方法。
  7. 請求項に記載のキーワード自動抽出方法において、
    前記第2のステップで、
    前記詳細文字列情報から前記第2のキーワード辞書を用いてキーワードを抽出する処理と、
    前記詳細文字列情報のうち前記処理で抽出したキーワードを除外した部分から、字種切り法を利用しつつ、カタカナとアルファベットとを同一字種として扱うとともに、‘・’(中点)は、その直前の文字がカタカナ,アルファベットである場合にはそれぞれカタカナ,アルファベットとして扱ってキーワードを抽出する処理と
    を行うことを特徴とするキーワード自動抽出方法。
  8. 請求項に記載のキーワード自動抽出方法において、
    前記コンピュータが、前記第2のキーワード辞書をネットワーク経由でダウンロードするステップ
    をさらに有し、前記第2のステップでは前記ダウンロードした第2のキーワード辞書を用いることを特徴とするキーワード自動抽出方法。
  9. コンピュータに、
    EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行うステップであって、前記タイトル文字列情報が示す複数のタイトルのうち、前記第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、所定の除外文字列辞書を用い、前記キーワード抽出対象のタイトルの文字列全体から前記除外文字列辞書に登録されている文字列を除外する第2の処理と、前記第2の処理を経た前記キーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理とを行う第1の抽出ステップと、
    EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2の抽出ステップと
    を実行させるプログラムを記録したことを特徴とするコンピュータ読み取り可能な記録媒体。
  10. コンピュータに、
    EPG情報中のコンテンツのタイトルを示す情報であるタイトル文字列情報から、サブジャンルを示す文字列が登録されている第1のキーワード辞書を用いてキーワードの抽出を行うステップであって、前記タイトル文字列情報が示す複数のタイトルのうち、前記第1のキーワード辞書に登録されている文字列を含むタイトルの文字列全体をキーワード抽出対象とする第1の処理と、所定の除外文字列辞書を用い、前記キーワード抽出対象のタイトルの文字列全体から前記除外文字列辞書に登録されている文字列を除外する第2の処理と、前記第2の処理を経た前記キーワード抽出対象のタイトルの文字列から平仮名,カタカナ,漢字,数字,アルファベット以外の特殊文字で区切られている文字列をキーワードとして抽出する第3の処理とを行う第1の抽出ステップと、
    EPG情報中のコンテンツの詳細を説明する情報である詳細文字列情報から、人名が登録されている第2のキーワード辞書を用いたキーワードの抽出と、字種切り法を利用したキーワードの抽出とを行う第2の抽出ステップと
    を実行させることを特徴とするプログラム。
JP2002221698A 2002-07-30 2002-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム Expired - Lifetime JP4040382B2 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2002221698A JP4040382B2 (ja) 2002-07-30 2002-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
CNB038223856A CN100530174C (zh) 2002-07-30 2003-07-30 关键字的自动提取装置和方法
US10/523,332 US7577972B2 (en) 2002-07-30 2003-07-30 Extracting keywords from multilingual alphabetic and glyph scripts in an electronic programming guide
EP03771430A EP1544751A4 (en) 2002-07-30 2003-07-30 DEVICE AND METHOD FOR AUTOMATIC KEYWORD EXTRACTION, RECORDING MEDIA AND PROGRAM
KR1020057001427A KR100993957B1 (ko) 2002-07-30 2003-07-30 키워드의 자동 추출 장치 및 방법, 및 기록 매체
PCT/JP2003/009678 WO2004012101A1 (ja) 2002-07-30 2003-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002221698A JP4040382B2 (ja) 2002-07-30 2002-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007239932A Division JP4623070B2 (ja) 2007-09-14 2007-09-14 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Publications (3)

Publication Number Publication Date
JP2004062639A JP2004062639A (ja) 2004-02-26
JP2004062639A5 JP2004062639A5 (ja) 2005-03-17
JP4040382B2 true JP4040382B2 (ja) 2008-01-30

Family

ID=31184873

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002221698A Expired - Lifetime JP4040382B2 (ja) 2002-07-30 2002-07-30 キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム

Country Status (6)

Country Link
US (1) US7577972B2 (ja)
EP (1) EP1544751A4 (ja)
JP (1) JP4040382B2 (ja)
KR (1) KR100993957B1 (ja)
CN (1) CN100530174C (ja)
WO (1) WO2004012101A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006013619A (ja) * 2004-06-22 2006-01-12 Pioneer Electronic Corp データ処理装置、その方法、そのプログラム、および、そのプログラムを記録した記録媒体
JP2006041978A (ja) * 2004-07-28 2006-02-09 Matsushita Electric Ind Co Ltd 放送受信装置
JP4498903B2 (ja) * 2004-11-30 2010-07-07 シャープ株式会社 番組情報抽出装置、番組情報表示装置、番組情報抽出方法、プログラム、および、プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2007074169A (ja) * 2005-09-05 2007-03-22 Sharp Corp 番組抽出装置
JP2007079745A (ja) * 2005-09-12 2007-03-29 Sharp Corp ネットワーク接続装置、サーバ装置、端末装置、システム、受信方法、文字入力方法、送信方法、プログラムおよびコンピュータ読み取り可能な記録媒体
US7461093B2 (en) 2005-09-12 2008-12-02 Sharp Kabushiki Kaisha Network connecting device, server device, terminal device, system, receiving method, character input method, transmission method, program, and computer-readable storage medium
CN100444591C (zh) * 2006-08-18 2008-12-17 北京金山软件有限公司 获取网页关键字的方法及其应用系统
EP1901187A3 (de) 2006-09-16 2009-02-04 LOEWE OPTA GmbH Verfahren zur Suche nach Nutzdaten in Datenbanken von unterhaltungselektronischen Geräten
TW200836564A (en) * 2007-02-16 2008-09-01 Mstar Semiconductor Inc Control circuit of a display with program searching function, and method for controlling the display to receive program information and select program
JP5178109B2 (ja) * 2007-09-25 2013-04-10 株式会社東芝 検索装置、方法及びプログラム
JP2009094658A (ja) * 2007-10-05 2009-04-30 Hitachi Ltd 関連情報提供装置、及び関連情報提供方法
JP2010003383A (ja) * 2008-06-23 2010-01-07 Victor Co Of Japan Ltd 放送番組記録再生装置
JP5392227B2 (ja) * 2010-10-14 2014-01-22 株式会社Jvcケンウッド フィルタリング装置およびフィルタリング方法
US8606788B2 (en) * 2011-06-15 2013-12-10 Microsoft Corporation Dictionary for hierarchical attributes from catalog items
JP5516641B2 (ja) * 2012-04-27 2014-06-11 株式会社Jvcケンウッド 放送番組記録再生装置
CN105554519B (zh) * 2015-12-24 2019-02-22 北京酷云互动科技有限公司 Epg信息解析方法及系统
CN106933799A (zh) * 2015-12-31 2017-07-07 北京四维图新科技股份有限公司 一种兴趣点poi名称的中文分词方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0810452B2 (ja) * 1988-04-18 1996-01-31 日本電信電話株式会社 日本語対象文固有用語抽出処理装置
US9286294B2 (en) 1992-12-09 2016-03-15 Comcast Ip Holdings I, Llc Video and digital multimedia aggregator content suggestion engine
US5870084A (en) * 1996-11-12 1999-02-09 Thomson Consumer Electronics, Inc. System and method for efficiently storing and quickly retrieving glyphs for large character set languages in a set top box
JP3880116B2 (ja) * 1996-12-27 2007-02-14 キヤノン株式会社 電子ファイリングシステム、電子ファイリング方法及び記録媒体
JPH10198667A (ja) * 1996-12-28 1998-07-31 Casio Comput Co Ltd 文字列変換装置およびそのプログラム記録媒体
DE69927907T2 (de) * 1998-05-22 2006-07-20 Koninklijke Philips Electronics N.V. Aufnahmevorrichtung mit schlüsselworterkennungsmitteln
JP3645720B2 (ja) * 1998-10-02 2005-05-11 松下電器産業株式会社 Epg情報表示方法、及びプログラム記録媒体
US7209942B1 (en) 1998-12-28 2007-04-24 Kabushiki Kaisha Toshiba Information providing method and apparatus, and information reception apparatus
JP2001075959A (ja) * 1999-08-31 2001-03-23 Matsushita Electric Ind Co Ltd 文書処理装置
US6449766B1 (en) * 1999-12-23 2002-09-10 Webtv Networks, Inc. System and method for consolidating television rating systems
EP1189150A4 (en) * 2000-01-05 2004-10-06 Mitsubishi Electric Corp DEVICE FOR EXTRACTING KEYWORDS
US6463428B1 (en) * 2000-03-29 2002-10-08 Koninklijke Philips Electronics N.V. User interface providing automatic generation and ergonomic presentation of keyword search criteria
JP2001337980A (ja) * 2000-05-29 2001-12-07 Sony Corp 電子番組ガイド検索方法及び電子番組ガイド検索装置
US6925650B1 (en) * 2000-08-21 2005-08-02 Hughes Electronics Corporation Method and apparatus for automated creation of linking information

Also Published As

Publication number Publication date
US7577972B2 (en) 2009-08-18
KR100993957B1 (ko) 2010-11-11
CN100530174C (zh) 2009-08-19
EP1544751A1 (en) 2005-06-22
CN1682220A (zh) 2005-10-12
KR20050025999A (ko) 2005-03-14
JP2004062639A (ja) 2004-02-26
EP1544751A4 (en) 2007-12-26
WO2004012101A1 (ja) 2004-02-05
US20060116869A1 (en) 2006-06-01

Similar Documents

Publication Publication Date Title
JP4040382B2 (ja) キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
US8826131B2 (en) Information processing apparatus, information processing method, and information processing program for generating content lists
JP4198786B2 (ja) 情報フィルタリングシステム、情報フィルタリング装置、映像機器および情報フィルタリング方法
US8341673B2 (en) Information processing apparatus and method as well as software program
US20090190804A1 (en) Electronic apparatus and image processing method
JP2013535733A (ja) 検索のためのキーワードの取得
US8195687B2 (en) Program retrieval support device for accumulating and searching pieces of program information and corresponding programs and a method for performing the same
US20150249968A1 (en) Posting-status notification system, information communication terminal, posting-status notification method, and program
JP4200393B2 (ja) 情報処理装置および情報処理方法
JP2009118168A (ja) 番組録画再生装置、および、番組録画再生方法
US20100031304A1 (en) Program Data Management Server, Identifier Allocation Device, Program Data Management Method and Computer Program
JP2006217215A (ja) 番組検索装置、番組検索方法、プログラムおよび記録媒体ならびに受信装置
JP5344937B2 (ja) テレビ番組のメタ情報に基づく検索方法、検索システム、及び検索ターム生成装置
EP1463059A2 (en) Recording and reproduction apparatus
JP2008027186A (ja) 情報検索装置および情報検索方法
JP4623070B2 (ja) キーワードの自動抽出装置及び方法、記録媒体、並びにプログラム
WO2008032353A1 (en) Information retrieval device
CN112866793B (zh) 一种媒体模式切换方法、装置、设备和存储介质
JP2004312627A (ja) テレビジョン受像装置およびその番組情報検索方法
JP2014102811A (ja) 情報処理装置及び情報処理方法
JP4403717B2 (ja) 番組受信装置、番組受信方法、番組記録装置、情報処理装置及び情報提供システム
JP2009159475A (ja) 番組検索装置および番組検索方法
JP4709919B2 (ja) 候補提示装置、候補提示方法、候補提示プログラム
JP2010182123A (ja) 情報検索装置および情報検索方法
JP2005057523A (ja) 番組付加情報抽出装置、番組表示装置および番組記録装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040422

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040422

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040608

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040809

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20040914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20041115

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20041118

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20050107

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20051020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070914

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4040382

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101116

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111116

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121116

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131116

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term