JP5332847B2 - コンテンツ処理装置および方法、プログラム、並びに記録媒体 - Google Patents

コンテンツ処理装置および方法、プログラム、並びに記録媒体 Download PDF

Info

Publication number
JP5332847B2
JP5332847B2 JP2009096304A JP2009096304A JP5332847B2 JP 5332847 B2 JP5332847 B2 JP 5332847B2 JP 2009096304 A JP2009096304 A JP 2009096304A JP 2009096304 A JP2009096304 A JP 2009096304A JP 5332847 B2 JP5332847 B2 JP 5332847B2
Authority
JP
Japan
Prior art keywords
content
title
processing
rule
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009096304A
Other languages
English (en)
Other versions
JP2010251860A (ja
Inventor
真一 河野
嗣智 榎並
政明 礒津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009096304A priority Critical patent/JP5332847B2/ja
Priority to CN201010129310.5A priority patent/CN101859311B/zh
Priority to US12/732,048 priority patent/US20100262994A1/en
Publication of JP2010251860A publication Critical patent/JP2010251860A/ja
Application granted granted Critical
Publication of JP5332847B2 publication Critical patent/JP5332847B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4826End-user interface for program selection using recommendation lists, e.g. of programs or channels sorted out according to their score
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/482End-user interface for program selection
    • H04N21/4828End-user interface for program selection for searching program descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/858Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot
    • H04N21/8586Linking data to content, e.g. by linking an URL to a video object, by creating a hotspot by using a URL

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンテンツ処理装置および方法、プログラム、並びに記録媒体に関し、特に、与えられた情報に基づいて、所望のコンテンツをユーザが簡単に同定することができるようにし、ユーザの満足度を向上させることができるようにするコンテンツ処理装置および方法、プログラム、並びに記録媒体に関する。
従来、放送される番組を録画予約する場合、ある番組を録画対象として録画予約が設定されたとき、録画対象の番組の放送時刻が変更されてしまうと、録画対象の番組ではなく別の番組が録画されてしまうなど、録画に失敗してしまうことがあった。
そこで、EPG(Electronic Program Guide)データを利用可能な録画装置において、最新のEPGデータの中から録画対象の番組を同定することができれば、同定した番組を録画するよう予約内容を修正し、録画の失敗を回避することができると考えられる。
EPGデータを用いて、番組タイトル情報の類似度や、放送日情報などの一致具合を判断することにより、番組を同定する方法も提案されている(例えば、特許文献1参照)。
しかし、特許文献1の技術では、放送日情報を利用せずに番組タイトル情報だけで同定処理を行う場合、番組タイトルが類似していないにもかかわらず、実際には同じである番組を同定できない。例えば、「ブラウン」という番組タイトルの番組があったときに、EPGデータで表現されている番組タイトルが「Brown」だった場合、実際には同じである番組を同定できない。
そこで、番組を同定するために必要とする情報それぞれに対し、カタカナをローマ字に変換し、キーワードが対象の文字列に含まれるかどうか判断することにより、番組を同定する方式も提案されている(例えば、特許文献2参照)。
特開2005−102059号公報 特開2007−201573号公報
しかしながら、特許文献2の技術を利用しても、番組タイトル情報だけで同定処理を行う場合、正しく同定できないことがある。例えば、「スポーツ情報ミッドナイト」という番組タイトルの番組があったときに、EPGデータで表現されている番組タイトルが、「スポーツ情報□〜Midnight〜」であった場合があげられる。
また、様々なコンテンツが存在する中、コンテンツを識別するための名前は、そのコンテンツを扱う側の都合により様々変化しうる。例えば、テレビ番組を紹介する雑誌、インターネット上のWEBページなどにおいて記載されている番組タイトルと、EPGデータで表現されている番組タイトルは、正確には一致しないことが多い。
例えば、再放送されるコンテンツの場合、EPGデータで表現されている番組タイトルには「再」などの文字が付加されていることが多い。その他、番組の放送回に応じて付されるサブタイトルや「スペシャル」などの文字が、EPGデータで表現されている番組タイトルには付加されていることが多い。さらに、番組タイトル中のスペースや記号などもEPGデータと、他のメディアなどとの間で一致しない場合がある。
このように、従来の技術では、実際には同じである番組を同定できず、例えば、所望の番組を録画できないことがあった。
本発明はこのような状況に鑑みてなされたものであり、与えられた情報に基づいて、所望のコンテンツをユーザが簡単に同定することができるようにし、ユーザの満足度を向上させることができるようにするものである。
本発明の第1の側面は、コンテンツを特定するためのキーワードを取得するキーワード取得手段と、コンテンツのタイトルを取得するタイトル取得手段と、前記取得したタイトルを予め定められた加工ルールに基づいて加工する加工手段と、前記加工したタイトルと前記キーワードの類似度を算出する類似度算出手段と、前記算出された類似度に基づいて、前記キーワードによって特定されるタイトルを有するコンテンツを同定する同定手段とを備え、前記加工ルールには、コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる複数の再構築ルールとが含まれ、前記加工手段は、複数の再構築ルールのそれぞれに基づいてタイトルを加工し、前記類似度算出手段は、前記加工手段により加工されたことにより得られたタイトルのそれぞれについて類似度を算出するコンテンツ処理装置である。
前記加工ルールを更新する更新手段をさらに備えるようにすることができる。
前記加工ルールには、コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる再構築ルールとが含まれるようにすることができる。
前記コンテンツのタイトルは、EPGデータに含まれるコンテンツのタイトルであり、前記正規化ルールには、EPGデータにおいてコンテンツの放送回を表す文字列を削除するルールが含まれるようにすることができる。
前記EPGデータに基づいて、前記同定したコンテンツの録画予約を設定するようにすることができる。
前記取得したキーワードを、予め定められた加工ルールに基づいて加工する他の加工手段をさらに備えるようにすることができる。
前記類似度算出手段は、前記加工したキーワードと前記タイトルの類似度を算出し、前記同定手段は、前記算出された類似度に基づいて、前記タイトルを特定するためのキーワードを同定するようにすることができる。
本発明の第1の側面は、コンテンツを特定するためのキーワードを取得し、コンテンツのタイトルを取得し、前記取得したタイトルを予め定められた加工ルールに基づいて加工し、前記加工したタイトルと前記キーワードの類似度を算出し、前記算出された類似度に基づいて、前記キーワードによって特定されるタイトルを有するコンテンツを同定するステップを含み、前記加工ルールには、コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる複数の再構築ルールとが含まれ、複数の再構築ルールのそれぞれに基づいてタイトルが加工され、前記加工されたことにより得られたタイトルのそれぞれについて類似度を算出するコンテンツ処理方法である。
本発明の第1の側面は、コンピュータを、コンテンツを特定するためのキーワードを取得するキーワード取得手段と、コンテンツのタイトルを取得するタイトル取得手段と、前記取得したタイトルを予め定められた加工ルールに基づいて加工する加工手段と、前記加工したタイトルと前記キーワードの類似度を算出する類似度算出手段と、前記算出された類似度に基づいて、前記キーワードによって特定されるタイトルを有するコンテンツを同定する同定手段とを備え、前記加工ルールには、コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる複数の再構築ルールとが含まれ、前記加工手段は、複数の再構築ルールのそれぞれに基づいてタイトルを加工し、前記類似度算出手段は、前記加工手段により加工されたことにより得られたタイトルのそれぞれについて類似度を算出するコンテンツ処理装置として機能させるプログラムである。
本発明の第1の側面においては、コンテンツを特定するためのキーワードが取得され、コンテンツのタイトルが取得され、前記取得したタイトルが予め定められた加工ルールに基づいて加工され、前記加工したタイトルと前記キーワードの類似度が算出され、前記算出された類似度に基づいて、前記キーワードによって特定されるタイトルを有するコンテンツが同定される。また、前記加工ルールには、コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる複数の再構築ルールとが含まれ、複数の再構築ルールのそれぞれに基づいてタイトルを加工し、加工されたことにより得られたタイトルのそれぞれについて類似度が算出される。
本発明によれば、与えられた情報に基づいて、所望のコンテンツをユーザが簡単に同定することができるようにし、ユーザの満足度を向上させることができる。
本発明の一実施の形態に係るコンテンツタイトル同定システムの構成例を示す図である。 図1のコンテンツタイトル同定システムの機能的構成例を示すブロック図である。 正規化ルールの一覧の例を示す図である。 再構築ルールの一覧の例を示す図である。 コンテンツタイトル同定処理の例を説明するフローチャートである。 コンテンツタイトル加工処理の例を説明するフローチャートである。 正規化処理の例を説明するフローチャートである。 再構築処理の例を説明するフローチャートである。 キーワード情報の例を説明する図である コンテンツのメタデータの例を説明する図である。 キーワードとコンテンツの対応表の例を示す図である。 図1のコンテンツタイトル同定システムの別の機能的構成例を示すブロック図である。 パーソナルコンピュータの構成例を示すブロック図である。
以下、図面を参照して、本発明の実施の形態について説明する。
図1は、本発明の一実施の形態に係るコンテンツタイトル同定システムの構成例を示す図である。同図に示されるコンテンツタイトル同定システム10は、サーバ31、レコーダ32、およびクライアント33がネットワーク20に接続されて構成されている。
コンテンツタイトル同定システム10は、例えば、サーバ31に蓄積されている情報から、コンテンツのタイトルを検索するためのキーワードを抽出し、それらのキーワードからレコーダ32に蓄積されたコンテンツのタイトルを同定するものである。同定されたタイトルに対応するコンテンツのデータは、クライアント33において、例えば、キーワードと対応付けられて提示されるようになされている。
例えば、サーバ31には、ユーザがインターネット上で検索して収集した情報が蓄積されている。ユーザは、例えば、自分が興味のある情報をインターネットで検索し、必要に応じてダウンロードするなどして、サーバ31が有するHDD(Hard Disk Drive)などの記録媒体に記録する。サーバ31は、このように蓄積された情報に基づいて、コンテンツのタイトルを検索するためのキーワードを抽出する機能を有しており、クライアント33からの要求に応じてキーワードを抽出して提供するようになされている。サーバ31は、例えば、汎用のコンピュータなどにより構成される。また、サーバ31は、例えば、インターネットなどを介してネットワーク20に接続されるようにしてもよい。
レコーダ32は、例えば、HDDレコーダ、DVDレコーダなどとして構成され、HDD、DVDなどの記録媒体にコンテンツを記録するようになされている。レコーダ32は、記録媒体に記録されたコンテンツのタイトルを抽出する機能を有しており、クライアント33からの要求に応じてタイトルを抽出して提供するようになされている。
クライアント33は、例えば、テレビジョン受像機などとして構成されるとともに、内部にCPU、メモリなどを有する構成とされる。クライアント33において、例えば、プログラムなどのソフトウェアをCPUで実行することにより、サーバ31から提供されたキーワードに対応するコンテンツのタイトルを特定する。すなわち、クライアント33は、与えられたキーワードのタイトルであって、レコーダ32に記録されたコンテンツのタイトルを同定するのである。
コンテンツタイトル同定システム10は、例えば、UPnPの仕様に適合する機器により構成される。例えば、UPnPの機能を用いてユーザに複雑な操作を求めることなく、ネットワークに参加し、通信が行える状態になるだけでなく、他の機器の検出や接続までをも自動的に行うことができるようにされる。また、コンテンツタイトル同定システム10は、例えば、DLNA(Digital Living Network Alliance)の仕様に対応する機器により構成される。
従って、レコーダ32は、例えば、DLNAで規定されるDMS(Digital Media Server)として機能するものとされ、クライアント33は、DLNAで規定されるDMP(Digital Media Player)として機能するものとされるようにしてもよい。その場合、例えば、DMSに組み込まれたCDS(Content Directory Service)の機能により、コンテンツタイトルが取得されるようにすることもできる。
図2は、図1のコンテンツタイトル同定システム10の機能的構成例を示すブロック図である。
同図において、キーワード情報51は、サーバ31に蓄積された情報から抽出されたキーワードのそれぞれが記憶されたデータベースとされる。キーワード提供部52は、キーワード取得部81からの要求に応じて、キーワード情報51から所定のキーワードを1つ、または複数読み出してキーワード取得部81に提供する。キーワード取得部81は、例えば、キーワードをテキストデータとして取得する。
コンテンツデータ61は、レコーダ32に蓄積されたコンテンツのデータの集合を現している。コンテンツのデータには、それぞれEPGなどから取得されたメタデータが付されており、コンテンツタイトル提供部62は、コンテンツデータのコンテンツのメタデータから、そのコンテンツのタイトルを抽出するようになされている。そして、コンテンツタイトル提供部62は、コンテンツタイトル取得部82からの要求に応じて、抽出されたコンテンツのタイトルのそれぞれを、コンテンツタイトル取得部82に提供する。コンテンツタイトル取得部82は、例えば、コンテンツのタイトルをテキストデータとして取得する。
コンテンツタイトル加工部84は、加工ルールデータ83から供給される加工ルールに基づいて、コンテンツタイトル取得部82が取得したコンテンツのタイトルを加工するようになされている。ここで、加工とは、テキストデータの文字列を構成するキャラクタの変換、文字列の一部の文字の削除、所定の文字の並び替えなどを行なうことを意味する。
加工ルールデータ83には、キーワードやコンテンツのタイトルを加工するときのルール(情報)が格納されている。ここでルールとは、コンテンツのタイトルを同定するときに必要な処理に利用されるものであり、コンテンツのタイトルやキーワードの種類、性質に対応したものが存在する。
例えば、テレビ番組を紹介するインターネット上のWEBページなどにおいて記載されているコンテンツのタイトルと、EPGデータに含まれるコンテンツのタイトルは、正確には一致しないことが多い。このような不一致は、例えば、EPGに特有の文字である「「新」」(新番組を表す)、「「再」」(再放送を表す)、「(終)」(最終回を表す)などがコンテンツのタイトルに付加されていることによるものであることが多い。
このように、EPGデータに含まれるコンテンツのタイトルには、例えば、当該コンテンツの放送回などを表す情報が付されることが多い。一方で、当該コンテンツの一般的な呼称(名前)においては、コンテンツの放送回などを表す情報が付されることはほとんどなく、このことがキーワードとコンテンツのタイトルの同定を困難にする1つの要因であると考えられる。
そこで、例えば、「特定の文字列が途中にあるときに、その文字自体とそれ以降の文字を削除すること。特定の文字列とは、「「新」」である。」というルールを定義する。
また、WEBページなどにおいて記載されているコンテンツのタイトルと、EPGデータに含まれるコンテンツのタイトルとの不一致は、例えば、全角文字と半角文字の違いによるものであることも多い。WEBページなどに記載されている情報は、例えば、特定のオペレーティングシステムなどでのみ採用されている文字などである機種依存文字が、汎用の文字に変換されていることが多いからである。
そこで、例えば、「コンテンツのタイトルの文字集合として全角と半角が存在する場合、変換対象文字が途中にあった場合にはそれをすべて半角に変換する。」というルールを定義する。
このように、コンテンツのタイトルに含まれる不要な文字を削除したり、字体や文字の属性を変換したりする処理を正規化処理と称することにする。そして、正規化処理のためのルールを正規化ルールと称することにする。
また、正規化処理が完了した後のコンテンツのタイトルでも、WEBページなどにおいて記載されているコンテンツのタイトルとは正確に一致しないことがある。このような不一致は、文字列の間に挿入されたスペースなどによるものであることが多い。
そこで、例えば、「全角もしくは半角のスペースを区切り文字とみなし、区切られた一番目の文字列と二番目の文字列を直接連結する」というルールを定義する。
このように、正規化処理が完了した後のコンテンツのタイトルの文字列を結合させたり削除したりする処理を再構築処理と称することにする。そして、再構築処理のためのルールを再構築ルールと称することにする。
図3は、加工ルールデータ83に格納されている正規化ルールの一覧の例を示す図である。
この例では、第1番目のルールのルール名が「Rule_EPG_A_01」とされている。同様に、第2番目乃至第6番目のルール名が「Rule_EPG_A_02」乃至「Rule_EPG_A_06」とされている。
ルール「Rule_EPG_A_01」のルール内容は、「特定文字列が先頭にあるときにそれを削除する。」とされており、対象とする特定文字列は「「新」(「かっこ」、「新」、「かっこ(閉じ)」の3つ文字からなる文字列)」とされている。ここで、「「新」」が付されたコンテンツのタイトルは、そのコンテンツが新番組であることを表している。
ルール「Rule_EPG_A_02」のルール内容は、「特定文字列がどこかにあるときに、その文字自体とそれ以降の文字を削除する。」とされており、対象とする特定文字列は、「「再」」、および「(終)」とされている。ここで、「「再」」または「(終)」が付されたコンテンツのタイトルは、そのコンテンツが再放送または最終回であることを表している。
ルール「Rule_EPG_A_03」のルール内容は、「全角と半角が存在する特定文字列の場合、その文字(文字列)が途中にあったときは、すべて半角へ変換する。」とされている。そして、対象とする特定文字列が「A 〜 Z(アルファベットA乃至Zの意味)」、「1 〜 9(数字の1乃至9の意味)」、「?」、「!」、・・・とされている。
ルール「Rule_EPG_A_04」のルール内容は、「特定文字列が先頭にあるときにそれを削除する。」とされている。そして、対象とする特定文字列は、「映画□」、「連続テレビ□」、「ドラマ□」、「アニメ□」、「ゴールデン□」、「プレスステージ□」、「ミッドナイト□」、・・・とされている。なお、上記の対象とする特定文字列における「□」は、全角スペースを表している。
ルール「Rule_EPG_A_05」のルール内容は、特定文字列が途中にあるときに、その文字列自体を削除する。」とされており、対象とする特定文字列は、「☆」とされている。
ルール「Rule_EPG_A_06」のルール内容は、特定文字列が途中にあるときに、その文字列を予め定められた文字列に変換する。」とされている。そして、対象とする特定文字列は、「〜」とされ、この「〜」を「γ(γは「〜」を逆向きにしたものを表す)」に変換するものとされている。
例えば、EPGのコンテンツのタイトルが「ドラマ□2009年の旅□〜ようこそ〜(終)「再」大空へ!□旅立ちの時」であった場合、ルール「Rule_EPG_A_01」乃至「Rule_EPG_A_06」により正規化されたタイトルは、「2009年の旅□γようこそγ大空へ!□旅立ちの時」となる。
図4は、加工ルールデータ83に格納されている再構築ルールの一覧の例を示す図である。
この例では、第1番目のルールのルール名が「Rule_EPG_B_01」とされている。同様に、第2番目乃至第4番目のルール名が「Rule_EPG_B_02」乃至「Rule_EPG_B_04」とされている。
ルール「Rule_EPG_B_01」のルール内容は、「全角又は半角のスペースを区切り文字とみなし、区切られた一番目の文字列と二番目の文字列を直接連結する。」とされている。
例えば、上述の正規化されたタイトルに、ルール「Rule_EPG_B_01」による再構築処理が施された場合、再構築されたタイトルは、「2009年の旅γようこそγ大空へ!□旅立ちの時」となる。
ルール「Rule_EPG_B_02」のルール内容は、「全角又は半角のスペースを区切り文字とみなし、区切られた一番目の文字列と二番目の文字列を全角スペースで連結する。」とされている。
例えば、上述の正規化されたタイトルに、ルール「Rule_EPG_B_02」による再構築処理が施された場合、再構築されたタイトルは、「2009年の旅□γようこそγ大空へ!□旅立ちの時」となり、再構築前のタイトルと何ら変わらないことになる。このように、再構築ルールを適用してもタイトルの文字列を加工できないこともある。
ルール「Rule_EPG_B_03」のルール内容は、「全角又は半角のスペースを区切り文字とみなし、区切られた一番目の文字列以外を削除する。」とされている。例えば、上述の初期化されたタイトルに、ルール「Rule_EPG_B_03」による再構築処理が施された場合、再構築されたタイトルは、「2009年の旅」となる。
ルール「Rule_EPG_B_04」のルール内容は、「全角又は半角のスペースを区切り文字とみなし、区切られた二番目の文字列以外を削除する。」とされている。例えば、上述の初期化されたタイトルに、ルール「Rule_EPG_B_04」による再構築処理が施された場合、再構築されたタイトルは、「γようこそγ大空へ!」となる。
なお、図3と図4は、それぞれ正規化ルールと再構築ルールの例であって、必ずしも上述した通りのルールを採用しなければならないというものではない。例えば、キーワード情報51やコンテンツデータ61の種類や属性などに応じて、正規化ルールと再構築ルールを変更するようにしてもよい。
図2に戻って、加工ルール更新部85は、加工ルールデータ83に格納されている正規化ルールおよび再構築ルールを更新するようになされている。正規化ルールおよび再構築ルールの更新は、例えば、ユーザの指令に基づいて行われる。また、例えば、正規化ルールおよび再構築ルールの管理者などによって、正規化ルールおよび再構築ルールが更新されるようにし、加工ルール更新部85は、管理者から提供されるルールを加工ルールデータ83に取り込むようにしてもよい。この場合、加工ルール更新部85は、例えば、ネットワークなどを介して管理者の装置と接続されるようにしてもよい。
コンテンツ特定部86は、キーワード取得部81から供給されるキーワードと、コンテンツタイトル加工部84から供給される加工後のタイトルとの類似度を算出する。また、コンテンツ特定部86は、キーワード取得部81から供給されるキーワードと、コンテンツタイトル取得部82から供給される加工前のタイトルとの類似度を算出する。
なお、キーワードとタイトルの類似度の算出は、例えば、キーワードとタイトルのそれぞれについて、2-gram(n-gram におけるn=2の場合。bi-gramとも称される。)による分割を行い、分割された文字列を集合として捉え、jaccard係数を算出するようにすればよい。
なお、n-gramの詳細は、例えば、下記に記述されている。
http://gihyo.jp/dev/serial/01/make-findspot/0005
また、jaccard係数の詳細は、例えば、下記に記述されている。
http://ibisforest.org/index.php?%E4%BA%8C%E5%80%A4%E5%A4%89%E6%95%B0
コンテンツ特定部86は、例えば、加工後のタイトルのそれぞれと、キーワードについて、上述のようにjaccard係数を算出し、それらのjaccard係数を、加工後のタイトルのそれぞれと、キーワードとの類似度として保存する。また、コンテンツ特定部86は、例えば、加工前のタイトルのそれぞれと、キーワードについて、上述のようにjaccard係数を算出し、それらのjaccard係数を、加工前のタイトルのそれぞれと、キーワードとの類似度として保存する。
なお、上述した2-gram、jaccard係数による類似度の算出は例であり、他の方式により類似度が算出されるようにしてもよい。
さらに、コンテンツ特定部86は、例えば、算出された類似度を降順に並べて最も類似度の高いタイトルをキーワードに対応するコンテンツのタイトルとして同定する。ここで、最も類似度の高いタイトルが、加工後のタイトルであった場合、当該加工が施される前のタイトル(すなわち加工前のタイトル)がキーワードに対応するコンテンツのタイトルとして同定される。
なお、類似度の高い上位数件の複数のタイトルを、キーワードに対応するコンテンツのタイトルとして同定するようにしてもよい。
このように、本発明によれば、例えば、EPGデータに含まれるコンテンツのタイトルと、WEBページなどの他のメディアに記述されたコンテンツのタイトルとが一致しない場合でも、両者を同定することができるのである。
なお、ここでは、説明を簡単にするために、図2の機能ブロックのそれぞれを、図1のサーバ31乃至クライアント33に対応付けて説明したが、各機能ブロックは必ずしも上述のように対応付けられなくてもよい。例えば、図2の機能ブロックの全てを含む1つの装置として構成されるようにしても構わない。また、図2の機能ブロックの全てがレコーダ32とクライアント33によって実現されるようにしても構わない。
次に、図5のフローチャートを参照して、クライアント33によるコンテンツ同定処理の例について説明する。
ステップS21において、キーワード取得部81は、キーワードを取得する。このとき、例えば、キーワード提供部52が、キーワード情報51から所定のキーワードを1つ、または複数読み出してキーワード取得部81に提供する。キーワード取得部81は、例えば、キーワードをテキストデータとして取得する。
ステップS22において、コンテンツタイトル取得部82は、コンテンツのタイトルを1つ取得する。このとき、例えば、コンテンツタイトル提供部62が、コンテンツデータのコンテンツのメタデータから、そのコンテンツのタイトルを抽出し、コンテンツタイトル取得部82に提供する。コンテンツタイトル取得部82は、例えば、コンテンツのタイトルをテキストデータとして取得する。
ステップS23において、コンテンツ特定部86は、ステップS21の処理で取得したキーワードと、ステップS22の処理で取得したコンテンツのタイトルの類似度を算出する。このとき、例えば、キーワードとタイトルのそれぞれについて、2-gramによる分割が行われ、分割された文字列を集合として捉え、jaccard係数が算出されることで、類似度が算出される。
ステップS24において、コンテンツタイトル加工部84は、図6を参照して後述するコンテンツタイトル加工処理を実行する。
ここで、図6のフローチャートを参照して、図5のステップS24のコンテンツタイトル加工処理の詳細な例について説明する。
ステップS41において、コンテンツタイトル加工部84は、図7を参照して後述する正規化処理を実行する。これにより、上述したように、コンテンツのタイトルが正規化される。
ステップS42において、コンテンツタイトル加工部84は、図8を参照して後述する再構築処理を実行する。これにより、上述したように、正規化後のコンテンツのタイトルが再構築される。
次に、図7のフローチャートを参照して、図6のステップS41の正規化処理の詳細な例について説明する。
ステップS61において、コンテンツタイトル加工部84は、初期化を行う。ここで、初期化は、例えば、過去の処理の対象となったテキストデータを消去したり、ルールの適用順序などを初期値に戻す処理などを意味している。
ステップS62において、コンテンツタイトル加工部84は、1つの正規化ルールを適用してコンテンツのタイトルを正規化する。例えば、図3の例のように、ルール「Rule_EPG_A_01」乃至ルール「Rule_EPG_A_06」が加工ルールデータ83に格納されている場合、まず、ルール「Rule_EPG_A_01」を適用して正規化が行なわれる。
ステップS63において、コンテンツタイトル加工部84は、ルール適用後の文字列に更新する。例えば、処理の対象となるコンテンツのタイトルが「ドラマ□2009年の旅□〜ようこそ〜(終)「再」大空へ!□旅立ちの時」であった場合、ルール「Rule_EPG_A_01」適用後の文字列は、やはり「ドラマ□2009年の旅□〜ようこそ〜(終)「再」大空へ!□旅立ちの時」である。従って、いまの場合、「ドラマ□2009年の旅□〜ようこそ〜(終)「再」大空へ!□旅立ちの時」がルール適用後の文字列として保存(更新)される。
ステップS64において、コンテンツタイトル加工部84は、次の正規化ルールがあるか否かを判定する。いまの場合、まだ、ルール「Rule_EPG_A_02」乃至ルール「Rule_EPG_A_06」を適用していないので、ステップS64では、次の正規化ルールがあると判定され、処理は、ステップS62に戻る。
そして、ステップS62において、次の正規化ルールが適用される。いまの場合、ルール「Rule_EPG_A_02」を適用して正規化が行なわれる。
これにより、ルール適用後の文字列は、「ドラマ□2009年の旅□〜ようこそ〜大空へ!□旅立ちの時」となり、ステップS63では、タイトルの文字列がこのように更新されることになる。
この後、さらに、ルール「Rule_EPG_A_03」乃至ルール「Rule_EPG_A_06」が適用されて正規化が行なわれるまで、ステップS62乃至ステップS64の処理が繰り返し実行されることになる。すなわち、ステップS62でルール「Rule_EPG_A_06」が適用されたとき、ステップS64では、次の正規化ルールがないと判定され、正規化処理が終了する。
なお、上述した例において、ルール「Rule_EPG_A_01」乃至「Rule_EPG_A_06」が適用されて正規化されたタイトルは、「2009年の旅□γようこそγ大空へ!□旅立ちの時」となり、正規化処理終了時には、この文字列が保存されている。
次に、図8のフローチャートを参照して、図6のステップS42の再構築処理の詳細な例について説明する。
ステップS81において、コンテンツタイトル加工部84は、正規化後の文字列を取得する。上述した例の場合、このとき、「2009年の旅□γようこそγ大空へ!□旅立ちの時」が、正規化後の文字列として取得されることになる。
ステップS82において、コンテンツタイトル加工部84は、再構築ルールを1つ適用する。例えば、図4の例のように、ルール「Rule_EPG_B_01」乃至ルール「Rule_EPG_B_04」が加工ルールデータ83に格納されている場合、まず、ルール「Rule_EPG_B_01」を適用して再構築が行なわれる。
上述の例では、ステップS81で取得された文字列に、ルール「Rule_EPG_B_01」による再構築処理が施された場合、再構築されたタイトルは、「2009年の旅γようこそγ大空へ!□旅立ちの時」となる。
ステップS83において、コンテンツタイトル加工部84は、文字列を加工できたか否かを判定する。いまの場合、ルール「Rule_EPG_B_01」適用前の文字列と、ルール「Rule_EPG_B_01」適用後の文字列が異なっているので、ステップS83では、文字列を加工できたと判定され、処理は、ステップS84に進む。
ステップS84において、コンテンツタイトル加工部84は、再構築された文字列を保存する。ここで保存された文字列が、加工後のタイトルの1つとされる。
ステップS85において、コンテンツタイトル加工部84は、次の再構築ルールがあるか否かを判定する。いまの場合、まだ、ルール「Rule_EPG_B_02」乃至ルール「Rule_EPG_B_04」を適用していないので、ステップS85では、次の再構築ルールがあると判定され、処理は、ステップS82に戻る。
そして、ステップS82において、次の正規化ルールが適用される。いまの場合、ルール「Rule_EPG_B_02」を適用して再構築が行なわれる。
例えば、上述の例では、ルール「Rule_EPG_B_02」による再構築処理が施された場合、再構築されたタイトルは、「2009年の旅□γようこそγ大空へ!□旅立ちの時」となり、再構築前のタイトルと何ら変わらないことになる。このように、再構築ルールを適用してもタイトルの文字列を加工できないこともある。
従って、いまの場合、ステップS83では、文字列を加工できなかったと判定され、処理は、ステップS85に進む。
そして、ステップS82乃至ステップS85の処理が繰り返し実行され、ルール「Rule_EPG_B_03」、およびルール「Rule_EPG_B_04」を適用して再構築が行なわれる。
ステップS82でルール「Rule_EPG_B_04」が適用されたとき、ステップS85では、次の再構築ルールがないと判定され、再構築処理が終了する。
なお、上述した例において、正規化処理終了時には、ルール「Rule_EPG_B_01」、ルール「Rule_EPG_B_03」、およびルール「Rule_EPG_B_04」による再構築処理結果の文字列が保存されている。
すなわち、コンテンツタイトル加工処理を施すことにより得られる加工後のタイトルは、「2009年の旅γようこそγ大空へ!□旅立ちの時」、「2009年の旅」、および「γようこそγ大空へ!」の3つとなる。
このようにしてコンテンツタイトル加工処理が実行される。
図5に戻って、ステップS24の処理の後、処理は、ステップS25に進む。
ステップS25において、コンテンツ特定部86は、ステップS21の処理で取得したキーワードと、ステップS24の処理の結果得られた加工後のタイトルの類似度を算出する。上述の例では、加工後のタイトルは3つあるので、類似度も3つ算出される。なお、類似度は、ステップS23の場合と同様の方式により算出されるものとする。
ステップS26において、コンテンツ特定部86は、次のコンテンツがあるか否かを判定する。コンテンツタイトル供給部62から供給されたコンテンツのタイトルの全てについて処理を完了するまでは、ステップS26において、次のコンテンツがあると判定され、処理は、ステップS22に戻る。
このように、ステップS22乃至ステップS26の処理が繰り返し実行される。
一方、コンテンツタイトル供給部62から供給されたコンテンツのタイトルの全てについて処理が完了した場合、ステップS26では、次のコンテンツがないと判定され、処理は、ステップS27に進む。
ステップS27において、コンテンツ特定部86は、ステップS23またはステップS25の処理で算出された類似度を降順に並べる。なお、類似度の値には、それぞれコンテンツのタイトルが対応付けられているものとする。
ステップS28において、コンテンツ特定部86は、キーワードとコンテンツの対応表を作成する。このとき、例えば、閾値以上の類似度が算出されたコンテンツのタイトルであって、類似度が高いものが所定の数だけ選択され、それらのコンテンツのタイトルがキーワードに対応するものとして同定されることになる。
なお、ここでは、個々のコンテンツのそれぞれについてステップS22乃至ステップS26の処理が繰り返し実行される場合の例について説明したが、必要に応じてより効率的な処理とするようにしてもよい。例えば、コンテンツデータ61に記憶されている全てのコンテンツについて、事前にステップS24のコンテンツタイトル加工処理を実行しておくようにしてもよい。
図9乃至図11を参照してさらに説明する。
図9は、サーバ31に蓄積された情報であって、図2のキーワード情報51に記憶されている情報の例を示す図である。この例では、例えば、インターネットに接続された他のサーバにおいてコンテンツを紹介するWEBページなどから取得されたコンテンツの名称である「番組名」が、そのWEBページのアドレス情報である「情報URL」とともに記述されている。
同図に示される情報は、例えば、データベースとして構成されるキーワード情報51のレコードとしてそれぞれ記憶されている。
レコード121は、番組名が「ABCドキュメンタリー」であるコンテンツの情報である。同様に、レコード122は、番組名が「DEFアニメ」であるコンテンツの情報であり、レコード123は、番組名が「GHIクイズの鬼」であるコンテンツの情報であり、・・・レコード124は、番組名が「XYZバラエティ」であるコンテンツの情報である。
キーワード提供部52は、キーワード情報51のレコードから、番組名として記述された情報をキーワードとして読み出してキーワード取得部81に提供する。キーワード取得部81は、キーワード情報51のレコードの番組名がテキストデータとされたものを、キーワードとして取得する。図5のステップS21では、例えば、このような処理が行われることになる。
図10は、レコーダ32に蓄積された情報であって、図2のコンテンツデータ61に記憶されている情報の例を示す図である。同図に示される情報は、例えば、コンテンツのデータに付されたメタデータの情報とされ、それぞれEPGなどから取得されたメタデータに基づいて生成されたものとする。
この例では、メタデータ141、メタデータ142、・・・に、コンテンツのタイトルを表す「タイトル」、当該コンテンツの放送日時、放送チャンネルを表す「放送日」、「放送時間」、「チャンネル」の情報が記述されている。また、メタデータ141、メタデータ142、・・・には、当該コンテンツの製作者のWEBページのアドレス情報である「コンテンツURL」の情報が記述されている。
コンテンツタイトル提供部62は、コンテンツデータ61のメタデータから、タイトルとして記述された情報を当該コンテンツのタイトルとして抽出してコンテンツタイトル取得部82に提供する。コンテンツタイトル取得部82は、例えば、コンテンツデータ61のメタデータのタイトルがテキストデータとされたものを、コンテンツのタイトルとして取得する。図5のステップS22では、例えば、このような処理が行われることになる。
図11は、キーワードとコンテンツの対応表の例を示す図である。ここでは、クライアント33により、例えば、図9に示したレコードのそれぞれに対応するキーワードを指定したコンテンツタイトル同定処理が実行されたものとする。
同図に示されるように、キーワードとコンテンツの対応表には、キーワード「ABCドキュメンタリー」、「DEFアニメ」、「GHIクイズの鬼」、・・・「XYZバラエティ」に対応するコンテンツのメタデータが記述されている。
すなわち、図9のレコード121から得られたキーワード「ABCドキュメンタリー」に対応するコンテンツとして、図10のメタデータ141が記述されている。なお、メタデータ141のタイトルは、「「新」ABC□ドキュメンタリー□初回3時間スペシャル」とされており、そのまま「ABCドキュメンタリー」との類似度を算出すると、高い類似度を得ることはできない。つまり、メタデータ141のタイトルの文字列を、図6乃至図8を参照して上述したように加工したことにより、レコード121から得られたキーワードとの類似度が高くなり、そのキーワードに対応するコンテンツとして同定することができたのである。
また、図9のレコード123から得られたキーワード「GHIクイズの鬼」に対応するコンテンツとして、図10のメタデータ142が記述されている。なお、メタデータ142のタイトルは、「連続テレビ□GHI☆クイズの鬼(終)「再」」とされており、そのまま「GHIクイズの鬼」との類似度を算出すると、高い類似度を得ることはできない。つまり、メタデータ142のタイトルの文字列を、図6乃至図8を参照して上述したように加工したことにより、レコード123から得られたキーワードとの類似度が高くなり、そのキーワードに対応するコンテンツとして同定することができたのである。
図9のレコード122およびレコード124から得られたキーワード「DEFアニメ」、および「XYZバラエティ」に対応するコンテンツは、それぞれ「なし」と記述されている。すなわち、当該キーワードとの類似度が閾値以上となるコンテンツのタイトルがなかった場合、それらのキーワードに対応するコンテンツは「なし」とされる。
図5のステップS28では、例えば、図11に示されるような対応表が生成されるのである。
なお、この例では、1つのキーワードに対応して1つのコンテンツが同定されるようにしたが、類似度が閾値以上となるコンテンツのタイトルが複数あった場合、それらの複数のコンテンツが1つのキーワードに対応するものとして同定されるようにしてもよい。
さらに、1つのキーワードに対応する複数のコンテンツが同定されるようにする場合、同定されるコンテンツの数の上限が設定されるようにしてもよい。その場合、例えば、類似度の高い上位3つのコンテンツが1つのキーワードに対応するコンテンツとして同定される。
あるいはまた、類似度が閾値以上となるコンテンツのタイトルが複数あった場合、記録日時の新しいものから順に3つのコンテンツが、1つのキーワードに対応するものとして同定されるようにしてもよい。
クライアント33は、例えば、図11に示されるような対応表をディスプレイに表示させる。このようにすることで、クライアント33のユーザは、例えば、インターネットで紹介されていたコンテンツに対応するものを、録画されたコンテンツの中から同定することができる。
あるいはまた、キーワード対応するものとして同定されたコンテンツのサムネイルなどが、GUIとしてさらに表示されるようにし、表示されたGUIに基づいて、同定されたコンテンツの再生が行なわれるようにしてもよい。
このようにして、コンテンツタイトル同定処理が実行されるのである。
以上においては、レコーダ32に記録されているコンテンツの中から、キーワードに対応するものが同定される場合の例について説明したが、本発明によりキーワードに対応するメタデータ(例えば、EPGデータの一部分)が同定されるようにしてもよい。
この場合、例えば、図5を参照して上述した処理により、図11に示されるような対応表を得たクライアント33が、レコーダ32に対して録画予約の指令を送信するようにしてもよい。このようにすることで、ユーザは、所望のキーワードに対応するコンテンツを、EPGデータの中から同定(特定)して、そのEPGデータに基づいて同定されたコンテンツの録画予約をすることができるのである。
例えば、従来の技術では、放送日時などの情報が分からないと番組を同定することが難しかった。放送日情報を利用せずに番組タイトル情報だけで同定処理を行う場合、番組タイトルが類似していないにもかかわらず、実際には同じである番組を同定できない。
また、カタカナをローマ字に変換し、キーワードが対象の文字列に含まれるかどうか判断することにより、番組を同定する方式もあるが、番組タイトル情報だけで同定処理を行う場合、正しく同定できないことがある。
さらに、様々なコンテンツが存在する中、コンテンツを識別するための名前は、そのコンテンツを扱う側の都合により様々変化しうる。例えば、テレビ番組を紹介する雑誌、インターネット上のWEBページなどにおいて記載されている番組タイトルと、EPGデータで表現されている番組タイトルは、正確には一致しないことが多い。
このように、従来の技術では、実際には同じである番組を同定できず、例えば、所望の番組を録画できないことがあった。
これに対して、本発明では、様々なコンテンツを識別するための名前が様々に変化した場合でも、そのコンテンツを適確に同定することが可能となる。従って、本発明によれば、ユーザの満足度を向上させることができる。
また、以上においては、キーワードに対応するものとして同定すべきコンテンツが、主に放送された番組などのコンテンツである場合の例について説明したが、必ずしもこれに限られるものではない。例えば、インターネット上の動画投稿サイトなどにおいて提供される動画像のデータなどのコンテンツが、キーワードに対応するものとして同定されるようにしてもよい。
さらに、以上においては、コンテンツのタイトルを、キーワードとの類比を判断し易くするために、正規化ルール、および再構築ルールを用いて加工する例について説明したが必要に応じてキーワードが加工されるようにしてもよい。例えば、コンテンツのタイトルを加工するとともに、キーワード情報51のレコードの情報の取得元などに応じてキーワードも加工するようにして、両者の類比を判断し易くするようにしても構わない。
このような場合、図2の構成に代えて、例えば、図12に示されるような構成を適用すればよい。図12は、図1のコンテンツタイトル同定システム10の別の機能的構成例を示すブロック図である。同図は、図2に対応する図であり、同一の部分には、それぞれ同一の符号が付されている。図12の構成では、図2の場合と異なり、キーワード加工部87が設けられている。図12におけるそれ以外の構成は、図2の場合と同様である。
図12の構成の場合、キーワード加工部87が、キーワード取得部81により取得したキーワードを、加工ルールデータ83に格納されているルールを適用して加工するようになされている。キーワード加工部87は、必ずしも正規化ルールおよび再構築ルールを適用してキーワードを加工する必要はなく、例えば、正規化ルールのみを適用してキーワードを加工するようにしてもよい。
また、図12の構成の場合、加工ルールデータ83に格納されているルールが、例えば、コンテンツタイトル加工部84により用いられるものと、キーワード加工部87により用いられるものに分けて格納されるようにしてもよい。
このようにすることで、例えば、キーワード情報51に記憶されている情報の種類とコンテンツデータ61に記憶されているコンテンツの種類が任意に変更されても、適切にコンテンツタイトル同定処理を実行することが可能となる。
また、以上においては、キーワードとの類比を判断し易くするためにコンテンツのタイトルを加工する場合の例について説明したが、キーワードが、コンテンツのタイトルとの類比を判断し易くするために加工されるようにしてもよい。
すなわち、以上の例においては、本発明が、与えられたキーワードに対応するコンテンツを同定するものとして説明したが、与えられたコンテンツに対応するキーワードが同定されるものとしても本発明を適用することができるのである。例えば、ユーザがEPGデータを表示させて、所定のコンテンツを録画すべきか否かを検討しているとき、当該コンテンツのメタデータに基づいて、インターネット上で表記されている当該コンテンツのタイトルが同定されるようにすることも可能である。このようにすることで、例えば、ユーザは、録画すべきか否かを検討しているコンテンツの評判などを事前に確認することが可能となる。
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図13に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
図13において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
なお、この記録媒体は、図13に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD (Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
ここでは、図13をパーソナルコンピュータの構成例として説明したが、例えば、同図のサーバ31乃至クライアント33の構成例として同図を適用することも可能である。すなわち、図2または図12を参照して説明した機能ブロックは、プログラムの所定のステップを実行するCPU701、または記憶部708若しくはリムーバブルメディア711などにより構成されるようにすることも可能である。
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
10 コンテンツタイトル同定システム, 31 サーバ, 32 レコーダ, 33 クライアント, 51 キーワード情報, 52 キーワード提供部, 61 コンテンツデータ, 62 コンテンツタイトル提供部, 81 キーワード取得部, 82 コンテンツタイトル取得部, 83 加工ルールデータ, 84 コンテンツタイトル加工部, 85 加工ルール更新部, 86 コンテンツ特定部, 87 キーワード加工部

Claims (9)

  1. コンテンツを特定するためのキーワードを取得するキーワード取得手段と、
    コンテンツのタイトルを取得するタイトル取得手段と、
    前記取得したタイトルを予め定められた加工ルールに基づいて加工する加工手段と、
    前記加工したタイトルと前記キーワードの類似度を算出する類似度算出手段と、
    前記算出された類似度に基づいて、前記キーワードによって特定されるタイトルを有するコンテンツを同定する同定手段とを備え、
    前記加工ルールには、
    コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、
    前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる複数の再構築ルールとが含まれ、
    前記加工手段は、複数の再構築ルールのそれぞれに基づいてタイトルを加工し、
    前記類似度算出手段は、前記加工手段により加工されたことにより得られたタイトルのそれぞれについて類似度を算出する
    コンテンツ処理装置。
  2. 前記加工ルールを更新する更新手段をさらに備える
    請求項1に記載のコンテンツ処理装置。
  3. 前記コンテンツのタイトルは、EPGデータに含まれるコンテンツのタイトルであり、
    前記正規化ルールには、EPGデータにおいてコンテンツの放送回を表す文字列を削除するルールが含まれる
    請求項に記載のコンテンツ処理装置。
  4. 前記EPGデータに基づいて、前記同定したコンテンツの録画予約を設定する
    請求項に記載のコンテンツ処理装置。
  5. 前記取得したキーワードを、予め定められた加工ルールに基づいて加工する他の加工手段をさらに備える
    請求項1に記載のコンテンツ処理装置。
  6. 前記類似度算出手段は、前記加工したキーワードと前記タイトルの類似度を算出し、
    前記同定手段は、前記算出された類似度に基づいて、前記タイトルを特定するためのキーワードを同定する
    請求項に記載のコンテンツ処理装置。
  7. コンテンツを特定するためのキーワードを取得し、
    コンテンツのタイトルを取得し、
    前記取得したタイトルを予め定められた加工ルールに基づいて加工し、
    前記加工したタイトルと前記キーワードの類似度を算出し、
    前記算出された類似度に基づいて、前記キーワードによって特定されるタイトルを有するコンテンツを同定するステップを含み、
    前記加工ルールには、
    コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、
    前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる複数の再構築ルールとが含まれ、
    複数の再構築ルールのそれぞれに基づいてタイトルが加工され、
    前記加工されたことにより得られたタイトルのそれぞれについて類似度を算出する
    コンテンツ処理方法。
  8. コンピュータを、
    コンテンツを特定するためのキーワードを取得するキーワード取得手段と、
    コンテンツのタイトルを取得するタイトル取得手段と、
    前記取得したタイトルを予め定められた加工ルールに基づいて加工する加工手段と、
    前記加工したタイトルと前記キーワードの類似度を算出する類似度算出手段と、
    前記算出された類似度に基づいて、前記キーワードによって特定されるタイトルを有するコンテンツを同定する同定手段とを備え、
    前記加工ルールには、
    コンテンツのタイトルに含まれる不要な文字の削除、または字体若しくは文字の属性を変換する正規化処理に用いられる正規化ルールと、
    前記正規化処理により正規化された前記コンテンツのタイトルの文字列を結合または削除する再構築処理に用いられる複数の再構築ルールとが含まれ、
    前記加工手段は、複数の再構築ルールのそれぞれに基づいてタイトルを加工し、
    前記類似度算出手段は、前記加工手段により加工されたことにより得られたタイトルのそれぞれについて類似度を算出する
    コンテンツ処理装置として機能させる
    プログラム。
  9. 請求項に記載のプログラムが記録されている記録媒体。
JP2009096304A 2009-04-10 2009-04-10 コンテンツ処理装置および方法、プログラム、並びに記録媒体 Expired - Fee Related JP5332847B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009096304A JP5332847B2 (ja) 2009-04-10 2009-04-10 コンテンツ処理装置および方法、プログラム、並びに記録媒体
CN201010129310.5A CN101859311B (zh) 2009-04-10 2010-03-09 内容处理设备和内容处理方法
US12/732,048 US20100262994A1 (en) 2009-04-10 2010-03-25 Content processing device and method, program, and recording medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009096304A JP5332847B2 (ja) 2009-04-10 2009-04-10 コンテンツ処理装置および方法、プログラム、並びに記録媒体

Publications (2)

Publication Number Publication Date
JP2010251860A JP2010251860A (ja) 2010-11-04
JP5332847B2 true JP5332847B2 (ja) 2013-11-06

Family

ID=42935377

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009096304A Expired - Fee Related JP5332847B2 (ja) 2009-04-10 2009-04-10 コンテンツ処理装置および方法、プログラム、並びに記録媒体

Country Status (3)

Country Link
US (1) US20100262994A1 (ja)
JP (1) JP5332847B2 (ja)
CN (1) CN101859311B (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8881201B2 (en) * 2010-05-13 2014-11-04 United Video Properties, Inc. Methods and systems for providing media content listings by content provider
KR101271171B1 (ko) 2011-05-31 2013-06-05 삼성에스디에스 주식회사 사용자가 선정한 키워드에 기반한 콘텐츠 관련정보 제공장치 및 방법
KR101818717B1 (ko) * 2011-09-27 2018-01-15 네이버 주식회사 컨셉 키워드 확장 데이터 셋을 이용한 검색방법, 장치 및 컴퓨터로 판독 가능한 기록매체
US20130246045A1 (en) * 2012-03-14 2013-09-19 Hewlett-Packard Development Company, L.P. Identification and Extraction of New Terms in Documents
JP6447066B2 (ja) * 2014-12-01 2019-01-09 株式会社リコー 画像処理装置、画像処理方法、及びプログラム
KR20170011072A (ko) * 2015-07-21 2017-02-02 삼성전자주식회사 방송 프로그램을 제공하는 전자 장치 및 방법
CN105893349B (zh) * 2016-03-31 2019-06-04 新浪网技术(中国)有限公司 类目标签匹配映射方法及装置
FR3078465B1 (fr) * 2018-02-26 2020-03-13 Sagemcom Broadband Sas Procede de mises en veille automatiques

Family Cites Families (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6441387A (en) * 1987-08-06 1989-02-13 Nec Corp Catv system program reservation system
JPH02264586A (ja) * 1989-04-04 1990-10-29 Pioneer Electron Corp Catvシステム及びcatv端末装置
US5619274A (en) * 1990-09-10 1997-04-08 Starsight Telecast, Inc. Television schedule information transmission and utilization system and process
JPH05176318A (ja) * 1991-12-20 1993-07-13 Sharp Corp Catvホ−ムタ−ミナルの番組選局システム
KR0165246B1 (ko) * 1992-09-04 1999-03-20 윤종용 문자입력 예약녹화 방법 및 장치
EP0688488A1 (en) * 1993-03-05 1995-12-27 MANKOVITZ, Roy J. Apparatus and method using compressed codes for television program record scheduling
JP2802876B2 (ja) * 1993-04-28 1998-09-24 橋本コーポレイション株式会社 テレビ受像機とビデオテープレコーダとを結合した装置
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
JP3360705B2 (ja) * 1994-12-21 2002-12-24 ソニー株式会社 放送受信装置および放送受信方法
US6035304A (en) * 1996-06-25 2000-03-07 Matsushita Electric Industrial Co., Ltd. System for storing and playing a multimedia application adding variety of services specific thereto
US6177931B1 (en) * 1996-12-19 2001-01-23 Index Systems, Inc. Systems and methods for displaying and recording control interface with television programs, video, advertising information and program scheduling information
JPH11259927A (ja) * 1998-03-06 1999-09-24 Matsushita Electric Ind Co Ltd 番組記録予約装置
KR100686622B1 (ko) * 1998-05-22 2007-02-23 코닌클리케 필립스 일렉트로닉스 엔.브이. 키워드 검출수단을 구비한 기록장치
JP4119025B2 (ja) * 1998-12-10 2008-07-16 株式会社日立製作所 放送映像自動録画装置
US7100195B1 (en) * 1999-07-30 2006-08-29 Accenture Llp Managing user information on an e-commerce system
JP2002027416A (ja) * 2000-07-07 2002-01-25 Sharp Corp 番組予約装置
US20050193408A1 (en) * 2000-07-24 2005-09-01 Vivcom, Inc. Generating, transporting, processing, storing and presenting segmentation information for audio-visual programs
US8020183B2 (en) * 2000-09-14 2011-09-13 Sharp Laboratories Of America, Inc. Audiovisual management system
JP4281238B2 (ja) * 2000-10-06 2009-06-17 ソニー株式会社 番組情報提供装置および方法、画像記録システム、並びにプログラム格納媒体
JP4534333B2 (ja) * 2000-10-10 2010-09-01 ソニー株式会社 サーバ運営費徴収方法
US20020092022A1 (en) * 2000-11-16 2002-07-11 Dudkicwicz Gil Gavriel System and method for using programming event timing data in a recording device
US7120872B2 (en) * 2002-03-25 2006-10-10 Microsoft Corporation Organizing, editing, and rendering digital ink
US7885963B2 (en) * 2003-03-24 2011-02-08 Microsoft Corporation Free text and attribute searching of electronic program guide (EPG) data
US7895615B1 (en) * 2003-05-08 2011-02-22 The Directv Group, Inc. Media delivery assurance in broadcast distribution services
EP1639818A1 (en) * 2003-05-09 2006-03-29 Matsushita Electric Industrial Co., Ltd. Reproduction apparatus and digest reproduction method
US7861269B1 (en) * 2003-09-03 2010-12-28 Microsoft Corporation EPG data
US20060064721A1 (en) * 2004-03-10 2006-03-23 Techfoundries, Inc. Method and apparatus for implementing a synchronized electronic program guide application
JP4333516B2 (ja) * 2004-08-05 2009-09-16 ソニー株式会社 記録制御装置および方法、並びにプログラム
JP4372673B2 (ja) * 2004-12-10 2009-11-25 株式会社日立製作所 予約録画設定方法
WO2006093003A1 (ja) * 2005-02-28 2006-09-08 Pioneer Corporation 辞書データ生成装置及び電子機器
JP2007060626A (ja) * 2005-07-29 2007-03-08 Victor Co Of Japan Ltd 番組選択支援装置、番組選択支援方法、及び番組選択支援プログラム
JP4619915B2 (ja) * 2005-10-04 2011-01-26 シャープ株式会社 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
JP2007104312A (ja) * 2005-10-04 2007-04-19 Toshiba Corp 電子ガイド情報を用いた情報処理方法およびその装置
JP2007201680A (ja) * 2006-01-25 2007-08-09 Sony Corp 情報管理装置および方法、並びにプログラム
US7962937B2 (en) * 2006-08-01 2011-06-14 Microsoft Corporation Media content catalog service
CN101212602B (zh) * 2006-12-30 2010-09-29 中兴通讯股份有限公司 手持数字视频广播中电子服务指南信息更新的实现方法
CA2681669C (en) * 2007-05-15 2013-10-08 Tivo Inc. Multimedia content search and recording scheduling system
JP4919879B2 (ja) * 2007-06-07 2012-04-18 ソニー株式会社 情報処理装置および方法、並びにプログラム
US7610283B2 (en) * 2007-06-12 2009-10-27 Microsoft Corporation Disk-based probabilistic set-similarity indexes
JP2009043156A (ja) * 2007-08-10 2009-02-26 Toshiba Corp 番組検索装置および番組検索方法
US9628746B2 (en) * 2007-08-22 2017-04-18 Time Warner Cable Enterprises Llc Apparatus and method for remote wireless control of digital video recorders and the like
US20090052870A1 (en) * 2007-08-22 2009-02-26 Time Warner Cable Inc. Apparatus And Method For Remote Control Of Digital Video Recorders And The Like
US20100083319A1 (en) * 2008-09-30 2010-04-01 Echostar Technologies Llc Methods and apparatus for locating content in an electronic programming guide

Also Published As

Publication number Publication date
US20100262994A1 (en) 2010-10-14
CN101859311A (zh) 2010-10-13
JP2010251860A (ja) 2010-11-04
CN101859311B (zh) 2014-07-09

Similar Documents

Publication Publication Date Title
JP5332847B2 (ja) コンテンツ処理装置および方法、プログラム、並びに記録媒体
US8935269B2 (en) Method and apparatus for contextual search and query refinement on consumer electronics devices
JP4650541B2 (ja) 推薦装置および方法、プログラム、並びに記録媒体
US8145648B2 (en) Semantic metadata creation for videos
US8168876B2 (en) Method of displaying music information in multimedia playback and related electronic device
US8782056B2 (en) Method and system for facilitating information searching on electronic devices
JP4678546B2 (ja) 推薦装置および方法、プログラム、並びに記録媒体
US8521759B2 (en) Text-based fuzzy search
US8972458B2 (en) Systems and methods for comments aggregation and carryover in word pages
US20120239690A1 (en) Utilizing time-localized metadata
JP4433327B2 (ja) 情報処理装置および方法、並びにプログラム
CN1975721B (zh) 用于管理内容文件信息的方法和装置
US20120271823A1 (en) Automated discovery of content and metadata
WO2010113619A1 (ja) コンテンツ推薦装置、方法、及びプログラム
US20110119248A1 (en) Topic identification system, topic identification device, client terminal, program, topic identification method, and information processing method
JP4354441B2 (ja) 映像データ管理装置及び方法及びプログラム
US20120239689A1 (en) Communicating time-localized metadata
WO2004023341A1 (ja) 検索処理システム、その検索サーバ、クライアント、検索処理方法、プログラム、及び記録媒体
CN103514289A (zh) 一种兴趣本体库构建方法及装置
US20090083227A1 (en) Retrieving apparatus, retrieving method, and computer program product
KR100916310B1 (ko) 오디오 신호처리 기반의 음악 및 동영상간의 교차 추천 시스템 및 방법
KR102252522B1 (ko) 내용 기반 동영상 목차 자동생성 방법 및 시스템
JP2019174925A (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム
JP6530002B2 (ja) コンテンツ探索装置、コンテンツ探索方法、プログラム
WO2019187920A1 (ja) 違法コンテンツ探索装置、違法コンテンツ探索方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120229

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130425

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130715

LAPS Cancellation because of no payment of annual fees