JP2010193147A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2010193147A
JP2010193147A JP2009035130A JP2009035130A JP2010193147A JP 2010193147 A JP2010193147 A JP 2010193147A JP 2009035130 A JP2009035130 A JP 2009035130A JP 2009035130 A JP2009035130 A JP 2009035130A JP 2010193147 A JP2010193147 A JP 2010193147A
Authority
JP
Japan
Prior art keywords
program
text data
contents
similarity
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009035130A
Other languages
English (en)
Other versions
JP4735726B2 (ja
Inventor
Yukiko Kanekiyo
由紀子 兼清
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009035130A priority Critical patent/JP4735726B2/ja
Priority to US12/688,216 priority patent/US20100211380A1/en
Priority to CN2010101176027A priority patent/CN101808210B/zh
Publication of JP2010193147A publication Critical patent/JP2010193147A/ja
Application granted granted Critical
Publication of JP4735726B2 publication Critical patent/JP4735726B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/102Programmed access in sequence to addressed parts of tracks of operating record carriers
    • G11B27/105Programmed access in sequence to addressed parts of tracks of operating record carriers of operating discs
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/327Table of contents
    • G11B27/329Table of contents on a disc [VTOC]
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/414Specialised client platforms, e.g. receiver in car or embedded in a mobile appliance
    • H04N21/4147PVR [Personal Video Recorder]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/426Internal components of the client ; Characteristics thereof
    • H04N21/42661Internal components of the client ; Characteristics thereof for reading from or writing on a magnetic storage medium, e.g. hard disk drive
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/431Generation of visual interfaces for content selection or interaction; Content or additional data rendering
    • H04N21/4312Generation of visual interfaces for content selection or interaction; Content or additional data rendering involving specific graphical features, e.g. screen layout, special fonts or colors, blinking icons, highlights or animations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • H04N21/4335Housekeeping operations, e.g. prioritizing content for deletion because of storage space restrictions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4345Extraction or processing of SI, e.g. extracting service information from an MPEG stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/765Interface circuits between an apparatus for recording and another apparatus
    • H04N5/775Interface circuits between an apparatus for recording and another apparatus between a recording apparatus and a television receiver
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/781Television signal recording using magnetic recording on disks or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/84Television signal recording using optical recording
    • H04N5/85Television signal recording using optical recording on discs or drums
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/907Television signal recording using static stores, e.g. storage tubes or semiconductor memories
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/8042Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components involving data reduction
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/804Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components
    • H04N9/806Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal
    • H04N9/8063Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback involving pulse code modulation of the colour picture signal components with processing of the sound signal using time division multiplex of the PCM audio and PCM video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】ユーザが、録画された番組のうち同一内容の番組をより効率良く、かつ、より正確に判別し、録画済の番組の整理を効率良く行う。
【解決手段】EPGデータ取得部111は、複数の番組それぞれのEPGデータを取得し、形態素解析部112は、取得されたEPGデータを、形態素解析することで、形態素に分解し、形態素比較部131は、複数の番組のEPGデータ同士の形態素を比較することで、EPGデータ同士の形態素において、品詞の順序が連続して一致する形態素の数を示す系列一致長を求め、類似度スコア算出部133は、形態素比較部131によって求められた系列一致長に基づいて、EPGデータ同士に対応する番組同士の類似度を示す類似度スコアを算出し、番組一覧表示制御部114は、複数の番組のうちの所定の番組と他の番組との類似度スコアに基づいて、番組一覧の表示を制御する。本発明は、例えば、HDDレコーダに適用することができる。
【選択図】図2

Description

本発明は、情報処理装置および方法、並びにプログラムに関し、特に、ユーザが、録画された番組のうちの同一内容の番組をより効率良く、かつ、より正確に判別し、録画済の番組の整理を効率良く行うことができるようにする情報処理装置および方法、並びにプログラムに関する。
番組同士を比較するための様々な技術が提案されている。
例えば、EPG(Electronic Program Guide)情報に基づき、予約候補番組と既に録画されている過去の番組とを比較することで、既に録画されている番組が再放送された場合に、重複して録画することを防止する技術が提案されている(特許文献1参照)。
また、EPG情報に含まれる番組タイトルを文字(特にかな文字)ごとに比較することで、同一番組であることを判定することが提案されている(特許文献2参照)。
さらに、番組情報に含まれるキーワードの一致率から番組同士の類似度を求めることで、同一の番組を抽出することが提案されている。(特許文献3参照)。
特開2007−281752号 特開2007−102489号 特開2007−74169号
しかしながら、上述した手法では、既に録画されている同一内容の番組を、効率良く、かつ、正確に判別し、ユーザにわかりやすく提示することができない。具体的には、例えば、HDD(Hard Disk Drive)に記録(録画)されている番組を、記録メディア等にダビングする際に、ユーザが、録画済の番組の整理、特に、重複して録画された番組の削除を効率良く行うことができない。
特許文献1では、EPG情報に含まれる「番組タイトル」、「放送時間情報」、および「再放送フラグ」の3情報のみを用いて、予約候補番組と録画されている過去の番組とを比較しているので、比較の精度が限られてしまい、同一内容の番組を正確に判別することは難しい。
また、特許文献1では、再放送やサイマル放送によって同一内容(同一放送回)の番組が録画された場合、番組タイトルの比較だけでは、同一番組であっても同一放送回の番組であるかを判別することは難しい。
そこで、特許文献2の手法により、EPG情報に含まれる番組概要や番組詳細を文字ごとに比較することが考えられる。
なお、デジタル放送において、EPGの基の情報となるPSI/SI(Program Specific Information / Service Information)のEIT(Event Information Table)に含まれる番組タイトルの文字数の上限は漢字かな混じりで40文字、番組概要の文字数の上限は80文字、番組詳細の文字数の上限はなしとされている。ここで、特許文献2の手法により、EPG情報に含まれる番組概要や番組詳細を文字ごとに比較した場合、文字数が増えるほど計算量が増えるので、同一内容の番組を効率良く判別することは難しい。
そこで、特許文献3の手法を用いて、EPG情報に含まれる番組詳細を比較した場合、番組詳細に含まれるキーワードの一致率から番組同士の類似度を求めることが可能である。
しかしながら、特許文献3の手法では、同一番組であって異なる放送回の番組同士を比較した場合、同一のキーワードがそれぞれの番組詳細に含まれる可能性が高い。したがって、比較した番組同士が、同様な類似度であっても、再放送やサイマル放送された同一内容(同一放送回)の番組であるのか、同一番組であって異なる放送回の番組であるのかを判別することは難しい。
本発明は、このような状況に鑑みてなされたものであり、特に、ユーザが、録画された番組のうちの同一内容の番組をより効率良く、かつ、より正確に判別し、録画済の番組の整理を効率良く行うようにするものである。
本発明の一側面の情報処理装置は、複数のコンテンツそれぞれに関連する関連データとしてのテキストデータを取得する取得手段と、前記取得手段によって取得された前記テキストデータを、所定の単位の言葉に分解し、言葉の種別である属性毎に分類する分解手段と、前記分解手段によって分解された、前記複数のコンテンツの前記テキストデータ同士の言葉を比較することで、前記テキストデータ同士の言葉において、属性の順序が連続して一致する言葉の数を示す一致長を求める比較手段と、前記比較手段によって求められた前記一致長に基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度を示す類似度スコアを算出する算出手段と、前記算出手段によって算出された、前記複数のコンテンツのうちの所定のコンテンツと他のコンテンツとの類似度スコアに基づいて、前記複数のコンテンツの一覧の表示を制御する表示制御手段とを備える。
前記算出手段には、前記一致長の大きさ毎の前記一致長の個数と、前記一致長に応じた重みとに基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度スコアを算出させることができる。
前記重みは、前記一致長の大きさが大きいほど大きな値をとるようにすることができる。
前記分解手段には、前記取得手段によって取得された前記テキストデータを形態素解析することで、形態素に分解させ、前記比較手段には、前記分解手段によって分解された、前記複数のコンテンツの前記テキストデータ同士の形態素を比較することで、前記テキストデータ同士の形態素において、品詞の順序が連続して一致する形態素の数を示す前記一致長を求めさせることができる。この場合、品詞の種別が前記属性として扱われる。
前記表示制御手段には、前記所定のコンテンツと前記他のコンテンツとの前記類似度スコアの、所定の閾値との大小関係に基づいて、前記他のコンテンツの、前記複数のコンテンツの一覧における表示を制御させることができる。
前記表示制御手段には、前記所定のコンテンツとの前記類似度スコアが、所定の閾値より大きい前記他のコンテンツの、前記複数のコンテンツの一覧における表示を強調するように制御させることができる。
前記表示制御手段には、前記所定のコンテンツとの前記類似度スコアが、所定の閾値より大きい前記他のコンテンツのみ、前記複数のコンテンツの一覧に表示されるように制御させることができる。
前記情報処理装置には、前記複数のコンテンツのうちの前記所定のコンテンツおよび前記他のコンテンツそれぞれに関連するデータであって、前記テキストデータ以外のデータの差異を検出する差異検出手段をさらに設け、前記分解手段には、前記差異検出手段によって検出された差異が、所定の度合いより小さくなる前記所定のコンテンツおよび前記他のコンテンツの前記テキストデータを、所定の単位の言葉に分解させることができる。
本発明の一側面の情報処理方法は、複数のコンテンツそれぞれに関連する関連データとしてのテキストデータを取得する取得ステップと、前記取得ステップの処理によって取得された前記テキストデータを、属性毎に、所定の単位の言葉に分解する分解ステップと、前記分解ステップの処理によって分解された、前記複数のコンテンツの前記テキストデータ同士の言葉を比較することで、前記テキストデータ同士の言葉において、属性の順序が連続して一致する言葉の数を示す一致長を求める比較ステップと、前記比較ステップの処理によって求められた前記一致長に基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度を示す類似度スコアを算出する算出ステップと、前記算出ステップの処理によって算出された、前記複数のコンテンツのうちの所定のコンテンツと他のコンテンツとの類似度スコアに基づいて、前記複数のコンテンツの一覧の表示を制御する表示制御ステップとを含む。
本発明の一側面のプログラムは、複数のコンテンツそれぞれに関連する関連データとしてのテキストデータを取得する取得ステップと、前記取得ステップの処理によって取得された前記テキストデータを、属性毎に、所定の単位の言葉に分解する分解ステップと、前記分解ステップの処理によって分解された、前記複数のコンテンツの前記テキストデータ同士の言葉を比較することで、前記テキストデータ同士の言葉において、属性の順序が連続して一致する言葉の数を示す一致長を求める比較ステップと、前記比較ステップの処理によって求められた前記一致長に基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度を示す類似度スコアを算出する算出ステップと、前記算出ステップの処理によって算出された、前記複数のコンテンツのうちの所定のコンテンツと他のコンテンツとの類似度スコアに基づいて、前記複数のコンテンツの一覧の表示を制御する表示制御ステップとを含む処理をコンピュータに実行させる。
本発明の一側面においては、複数のコンテンツそれぞれに関連する関連データとしてのテキストデータが取得され、取得されたテキストデータが、属性毎に、所定の単位の言葉に分解され、分解された、複数のコンテンツのテキストデータ同士の言葉を比較することで、テキストデータ同士の言葉において、属性の順序が連続して一致する言葉の数を示す一致長が求められ、求められた一致長に基づいて、テキストデータ同士に対応するコンテンツ同士の類似度を示す類似度スコアが算出され、算出された、複数のコンテンツのうちの所定のコンテンツと他のコンテンツとの類似度スコアに基づいて、複数のコンテンツの一覧の表示が制御される。
本発明の一側面によれば、同一内容の番組をより効率良く、かつ、より正確に判別し、ユーザにわかりやすく提示することが可能となる。
本発明を適用した情報処理装置の一実施の形態としてのHDDレコーダのハードウェア構成例を示すブロック図である。 HDDレコーダの機能構成例を示すブロック図である。 HDDレコーダの番組一覧表示処理について説明するフローチャートである。 テレビジョン受像機の表示部に表示される番組一覧を示す図である。 EPGデータの例について説明する図である。 類似度算出処理の詳細について説明するフローチャートである。 形態素の品詞が格納される配列について説明する図である。 一致系列長の例について説明する図である。 類似度スコアの算出例について説明する図である。 総類似率の算出例について説明する図である。 番組一覧の表示の例を示す図である。 一致系列長の他の例について説明する図である。 一致系列長のさらに他の例について説明する図である。 番組一覧の表示の他の例を示す図である。 番組一覧の表示のさらに他の例を示す図である。 番組一覧の表示のさらに他の例を示す図である。 番組一覧の表示のさらに他の例を示す図である。 番組一覧の表示のさらに他の例を示す図である。 番組一覧の表示のさらに他の例を示す図である。 番組一覧およびダビング候補の一覧の表示の例を示す図である。 第2の実施の形態のHDDレコーダの機能構成例を示すブロック図である。 第2の実施の形態のHDDレコーダの番組一覧表示処理について説明するフローチャートである。
以下、本発明の実施の形態について図を参照して説明する。なお、説明は以下の順序で行う。
1.第1の実施の形態
2.第2の実施の形態
<1.第1の実施の形態>
[HDDレコーダのハードウェア構成例]
図1は、本発明を適用した情報処理装置の一実施の形態としてのHDD(Hard Disk Drive)レコーダのハードウェア構成例を示している。
図1においては、アンテナ11は、図示せぬテレビジョン放送局から送信されたデジタル放送信号を受信し、HDDレコーダ12に供給する。HDDレコーダ12は、アンテナ11から供給されたデジタル放送信号を記録する。テレビジョン受像機13は、HDDレコーダ12に接続され、HDDレコーダ12から供給される画像信号に応じた画像を表示し、HDDレコーダ12から供給される音声信号に応じた音声を出力する。
なお、HDDレコーダ12は、AV(Audio Visual)機器として実現することができ、例えば、テレビジョン受像機13と一体で構成されるようにすることもできる。また、HDDレコーダ12とテレビジョン受像機13とを一体で構成したものは、放送波(実質的には、コンテンツおよびそのメタデータ)を取得する機能を有するPC(Personal Computer)、PDA(Personal Digital Assistant)、携帯電話機等のその他の電子機器として構成されるようにすることもできる。
図1のHDDレコーダ12は、チューナ31、デコーダ32、分離部33、画像処理部34、音声処理部35、表示制御部36、出力制御部37、CPU(Central Processing Unit)38、ROM(Read Only Memory)39、RAM(Random Access Memory)40、通信部41、I/F(インターフェース)42、HDD43、ドライブ44、リムーバブルメディア45、およびバス46から構成される。
チューナ31、デコーダ32、分離部33、画像処理部34、音声処理部35、表示制御部36、出力制御部37、CPU38、ROM39、RAM40、通信部41、およびI/F42は、バス46を介して相互に接続されている。また、バス46には、必要に応じてドライブ44が接続され、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリなどからなるリムーバブルメディア45が適宜装着される。そして、リムーバブルメディア45から読み出されたコンピュータプログラムが、必要に応じてRAM40やHDD43にインストールされる。
チューナ31は、CPU38の制御に基づいて、アンテナ11から入力された、所定のチャンネルのデジタル放送信号のチューニング、すなわち、選局を行い、デコーダ32に供給する。
デコーダ32は、チューナ31からの、デジタル変調されたデジタル放送信号を復調し、分離部33に供給する。
例えば、デジタル放送の場合、アンテナ11を介してチューナ31に入力され、デコーダ32により復調されたデジタルデータは、MPEG2(Moving Picture Experts Group 2)方式で圧縮されたAVデータおよびデータ放送用のデータが多重化されているトランスポートストリームである。AVデータは、コンテンツとしての放送番組(以下、単に、番組ともいう)本体を構成する画像データおよび音声データである。また、データ放送用のデータは、この放送番組本体に付随する、放送番組本体に関連する関連データ(例えば、テキストデータからなるEPGデータ)を含むものである。
分離部33は、デコーダ32から供給されたトランスポートストリームを、例えばMPEG2方式等で圧縮されたAVデータと、EPGデータを含むデータ放送用のデータとに分離する。分離されたデータ放送用のデータは、バス46およびI/F42を介してHDD43に供給され、記録される。
分離部33は、受信した番組(コンテンツ)の視聴が要求されている場合、AVデータを、圧縮されている画像データと圧縮されている音声データとにさらに分離する。分離部33は、分離した画像データを画像処理部34に供給し、分離した音声データを音声処理部35に供給する。
また、分離部33は、受信した番組をHDD43に記録することが指示されている場合、分離する前のAVデータ(多重化されている画像データと音声データからなるAVデータ)を、バス46およびI/F42を介してHDD43に供給する。
さらに、分離部33は、HDD43に記録されている番組の再生が指示されている場合、バス46およびI/F42を介して、HDD43からAVデータを取得し、圧縮されている画像データと圧縮されている音声データとに分離し、それぞれ、画像処理部34および音声処理部35に供給する。
画像処理部34は、分離部33から供給された、圧縮されている画像データをデコードし、その結果得られた画像信号を表示制御部36に供給する。
音声処理部35は、分離部33から供給された、圧縮されている音声データをデコードし、その結果得られた音声信号を出力制御部37に供給する。
表示制御部36は、画像処理部34から供給された画像信号を基に、テレビジョン受像機13に含まれる表示部61への画像の表示を制御する。また、表示制御部36は、HDD43に記憶されている、データ放送用データに含まれるEPGデータを基に、HDD43に記憶されている番組の一覧(番組一覧)の、表示部61への表示を制御する。
出力制御部37は、音声処理部35から供給された音声信号を基に、テレビジョン受像機13に含まれる音声出力部62への音声の出力を制御する。
CPU38は、ROM39に予め記憶されているプログラムや、RAM40やHDD43に記憶されているプログラムを実行することで、HDDレコーダ12全体を制御し、HDDレコーダ12の各種の機能を実現するための処理を実行する。
CPU38によって実行される処理としては、チャンネルの選局処理、録画予約に基づく録画処理や、キーワード登録処理、登録されたキーワードに基づく番組検索処理、番組の自動録画処理等の他に、後述する番組一覧表示処理がある。
通信部41は、CPU38の制御に基づいて、電話回線やケーブルなどの有線または無線を介して通信する。例えば、通信部41は、インターネットやイントラネットなどのネットワークを介して、所定のサーバやパーソナルコンピュータと通信する。通信部41において受信されたデータは、適宜、バス46を介してRAM40やHDD43に記録される。
I/F(インターフェース)42は、CPU38の制御に基づいて、HDD43のデータへのアクセスを制御する。
HDD43は、プログラムや番組(コンテンツ)を含む各種のデータなどを所定のフォーマットのファイル形式で蓄積することが可能で、ランダムアクセスが可能な記録装置である。HDD43は、I/F42を介してバス46に接続されており、分離部33または通信部41から、番組であるコンテンツおよびEPGデータ等の各種のデータが供給されると、これらのデータを記録し、読み出しが要求されると、記録しているデータを出力する。
[HDDレコーダの機能構成例]
次に、図2を参照して、CPU38によって実現される、HDDレコーダ12の機能構成例について説明する。
図2のHDDレコーダ12は、HDD43、EPGデータ取得部111、形態素解析部112、類似度算出部113、および番組一覧表示制御部114から構成される。また、番組一覧表示制御部114には、テレビジョン受像機13(図示せず)の表示部61が接続される。
EPGデータ取得部111は、HDD43に記録されている番組に関連する関連データとしてのEPGデータを、HDD43から取得し、形態素解析部112に供給する。より具体的には、EPGデータ取得部111は、解析材料として、EPGデータに含まれる、テキストデータとしての「番組タイトル」、「番組概要」、および「番組詳細」を取得する。
形態素解析部112は、EPGデータ取得部111により取得されたEPGデータ(「番組タイトル」、「番組概要」、および「番組詳細」)を、所定の単位の言葉に分解して、分解した言葉それぞれについて、属性を設定する。より具体的には、形態素解析部112は、EPGデータ取得部111により取得されたEPGデータを、例えば、ROM39(図1)等に記憶されている辞書(品詞等の情報が付された単語のリスト)に基づいて形態素解析する。形態素解析部112は、形態素解析することで、EPGデータを言葉の最小単位(形態素)に分解して、分解した各形態素について、品詞を設定する。
類似度算出部113は、形態素解析部112によって属性(品詞)が設定された、複数の番組のEPGデータ同士の言葉(形態素)を比較することで、EPGデータ同士に対応する番組同士の類似度を算出する。
類似度算出部113は、形態素比較部131、記録制御部132、類似度スコア算出部133、および総類似率算出部134を備えている。
形態素比較部131は、形態素解析部112によって品詞が設定された、複数の番組のEPGデータ同士の形態素を比較することで、比較したEPGデータ同士の形態素において、品詞の順序が連続して一致する形態素の数(系列の長さ)を示す一致系列長を求める。例えば、形態素比較部131は、ある2つの番組の「番組タイトル」同士の形態素の品詞を比較して、それぞれの番組の「番組タイトル」において、品詞の順序が連続して一致している形態素の数を一致系列長とする。
記録制御部132は、類似度算出部113の処理における記録の処理を制御する。記録制御部132は、例えば、形態素比較部131によって求められた一致系列長を、RAM40(図1)に記録させる。
類似度スコア算出部133は、RAM40に記録されている、系列の長さ(一致系列長の大きさ)毎の一致系列長の個数と、一致系列長に応じた重みとに基づいて、EPGデータ同士に対応する番組同士の類似度を示す類似度スコアを算出する。
総類似率算出部134は、類似度スコア算出部133によって算出された類似度スコアに基づいて、番組同士の類似度の総合的な指標である総類似率を算出する。より具体的には、総類似率算出部134は、類似度スコア算出部133によって、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについて算出された類似度スコアに基づいた総類似率を算出する。
番組一覧表示制御部114は、総類似率算出部134によって算出された総類似率に基づいて、HDD43に記録されている番組のうちの、所定の番組とその他の番組との類似度をユーザに提示するための番組一覧の表示部61への表示を、表示制御部36(図示せず)を介して制御する。
[HDDレコーダの番組一覧表示処理]
次に、図3のフローチャートを参照して、HDDレコーダ12の番組一覧表示処理について説明する。番組一覧は、HDDレコーダ12において、HDD43に記録されている番組が、ユーザの指示によってリムーバブルメディア45にダビング(記録)されるときに表示部61に表示される。ユーザは、この番組一覧を見ながら、HDD43に記録されている番組のうち、リムーバブルメディア45にダビングする番組を選択することができる。言い換えれば、ユーザは、番組一覧を見ながら録画済の番組の整理をすることができる。
図3の番組一覧表示処理は、テレビジョン受像機13の表示部61に、図4に示されるように、HDD43に記録されている番組の番組一覧が表示され、ユーザによって図示せぬ操作入力部が操作されることで、番組一覧における所定の番組が選択されたときに開始される。
図4においては、番組一覧に、7つの番組の番組タイトル、放送日時(録画日時)、および放送局名が表示されている。
具体的には、図4の番組一覧において、一番上の番組は、番組タイトルが“世界遺産 遥かなる旅へ”で、放送日時が2008年8月19日12時30分乃至13時30分で、放送局名が“BSニッポン”であり、上から2番目の番組は、番組タイトルが“新世界遺産「四大陸スペシャル[I]〜空から見る自然の記憶」”で、放送日時が2008年8月23日20時30分乃至21時00分で、放送局名が“BS-j”であり、上から3番目の番組は、番組タイトルが“新世界遺産「四大陸スペシャル[II]〜空から見る文化の記憶」”で、放送日時が2008年8月24日18時00分乃至18時30分で、放送局名が“TBN”であり、上から4番目の番組は、番組タイトルが“ハイビジョン旅行 憧れの都へ チェコ〜鮮やかな色彩の都〜”で、放送日時が2008年8月25日22時25分乃至22時55分で、放送局名が“BS夕日”である。
また、図4の番組一覧において、上から5番目の番組は、番組タイトルが“世界遺産 遥かなる旅へ”で、放送日時が2008年8月26日12時30分乃至13時30分で、放送局名が“BSニッポン”であり、上から6番目の番組は、番組タイトルが“歩いてみよう世界のまち−フィンランド・ヘルシンキ−”で、放送日時が2008年8月29日10時30分乃至11時00分で、放送局名が“MHK BS-hi”であり、一番下の番組は、番組タイトルが“新世界遺産「四大陸スペシャル[II]〜空から見る文化の記憶」”で、放送日時が2008年8月30日20時30分乃至21時00分で、放送局名が“BS-j”である。
なお、それぞれの番組タイトルの左側に表示されている四角形には、図示しないが、例えば、それぞれの番組を表すサムネイル画像等が表示される。
図4の番組一覧においては、上から3番目の番組が太枠に囲われて表示されることで、ユーザの操作によって選択されることを示している。選択されている番組(以下、注目番組という)の番組タイトル等の左側に表示されているアイコンは、番組一覧に表示されている番組が記録(格納)されているフォルダを示している。すなわち、図4において、番組一覧に表示されている番組は、「ビデオ」フォルダ内の、「旅行」フォルダ内に格納されている。また、図4の番組一覧の左端には、スクロールバーが表示されている。
スクロールバーは、番組一覧全体のうちの現在表示されている番組の位置を表すつまみの部分(ノブ)と、スクロールバーにおいてノブが上下に移動する部分(レール)とから構成される。スクロールバーにおいて、ノブの上下方向の長さは、全ての番組の数に対する、現在表示されている番組の数の割合を表している。すなわち、図4の番組一覧は、表示されている7つの番組の上下に番組(番組タイトル等)が存在していることを示している。
ステップS11において、EPGデータ取得部111は、番組一覧における注目番組のEPGデータと、番組一覧における注目番組以外の、注目番組と比較して類似度を求める番組(以下、比較対象番組という)のEPGデータを、HDD43から取得する。EPGデータ取得部111は、取得した2番組(注目番組と比較対象番組)のEPGデータ(テキストデータ)を形態素解析部112に供給する。
EPGデータ取得部111によって取得され、HDD43に記録されるEPGデータのうち、本実施の形態において用いるEPGデータの構成の例を図5に示す。図5においては、5つの番組について、EPGデータとしての「番組タイトル」、「番組概要」、「番組詳細」、「放送局」および「放送時間長」が示されている。ここで、図5において、一番上の番組を番組1とし、上から2番目の番組を番組2とし、・・・、一番下の番組を番組5とする。すなわち、番組1の番組タイトルは、“新世界遺産「四大陸スペシャル[I]〜空から見る自然の記憶」”であり、番組概要は、“世界中の自然や建造物など人類が共有すべき宝物を伝え続けてきた『世界遺産』が装いも新たに新登場。”であり、番組詳細は、“その昔「パンゲア」と呼ばれる…”であり、放送局は、“BS-j”であり、放送時間長は、30分を表す“0:30”である。番組詳細の末尾の“…”は、実際のEPGデータにおいては、文章が続いていることを表しているが、簡単のため、その説明は省略する。番組2の番組タイトルは、“新世界遺産「四大陸スペシャル[II]〜空から見る文化の記憶」”であり、番組概要は、“世界中の自然や建造物など人類が共有すべき宝物を伝え続けてきた『世界遺産』が装いも新たに新登場。”であり、番組詳細は、“およそ400万年前、アフリカで…”であり、放送局は、“TBN”であり、放送時間長は、30分を表す“0:30”である。番組3の番組タイトルは、“新世界遺産「四大陸スペシャル[II]〜空から見る文化の記憶」”であり、番組概要は、“19XX年にスタートした「世界遺産」の新シリーズ。ハイクオリティな…”であり、番組詳細は、“およそ400万年前、アフリカで…”であり、放送局は、“BS-j”であり、放送時間長は、30分を表す“0:30”である。番組4の番組タイトルは、“世界遺産 遥かなる旅へ”であり、番組概要は、“バールベック、古都アレッポ、シバームの旧城塞都市、アムラ城”であり、番組詳細は、“今回はレバノン共和国の…”であり、放送局は、“BSニッポン”であり、放送時間長は、1時間を表す“1:00”である。そして、番組5の番組タイトルは、“新世界遺産「四大陸スペシャル[II]〜空から見る文化の記憶」”であり、番組概要は、“世界中の自然や建造物など人類が共有すべき宝物を伝え続けてきた『世界遺産』が装いも新たに新登場。”であり、番組詳細は、“およそ400万年前、アフリカで…”であり、放送局は、“TBN”であり、放送時間長は、30分を表す“0:30”である。
図3のフローチャートに戻り、ステップS12において、形態素解析部112は、EPGデータ取得部111により取得されたEPGデータのうちの「番組タイトル」を形態素解析することで、形態素に分解して、分解した各形態素について、品詞を設定する。
ステップS13において、類似度算出部113は、形態素解析部112によって品詞が設定された、注目番組および比較対象番組の「番組タイトル」同士の形態素を比較することで、類似度算出処理を実行する。
[類似度算出部の類似度算出処理]
ここで、図6のフローチャートを参照して、ステップS13の類似度算出処理の詳細について説明する。
ステップS51において、形態素比較部131は、形態素解析部112によって設定された注目番組の「番組タイトル」(以下、文1という)の各形態素の品詞を、図7に示されるような配列a[0]乃至a[m](m≧1)に格納する。同様に、形態素比較部131は、形態素解析部112によって設定された比較対象番組の「番組タイトル」(以下、文2という)の各形態素の品詞を、図7に示されるような配列b[0]乃至b[n](n≧1)に格納する。ここで、値mは、文1の形態素の総数から1を引いた値であり、値nは、文2の形態素の総数から1を引いた値である。
図7は、形態素の品詞が格納される配列a[0]乃至a[m]およびb[0]乃至b[n]の構成を示している。図7中、上側の配列a[0]乃至a[m]は、m+1個の要素a[i](0≦i≦m)から構成され、要素a[i]には、文1を構成するi番目の形態素の品詞が格納される。同様に、下側の配列b[0]乃至b[n]は、n+1個の要素b[j](0≦j≦n)から構成され、要素b[j]には、文2を構成するj番目の形態素の要素が格納される。なお、以下においては、文1を構成するi番目の形態素の品詞の位置はa[i]である、等ともいう。
ステップS52において、形態素比較部131は、パラメータi,jについて、i=0,j=0とする。
ステップS53において、形態素比較部131は、パラメータiが値mより小さいか否かを判定する。すなわち、形態素比較部131は、文1を構成する形態素の品詞のうちのi番目の品詞(以下、適宜、文1の注目品詞という)が、文1を構成する形態素の品詞のうちの最後(m番目)の品詞でないか否かを判定する。1回目のステップS53においては、i=0であるので、パラメータiが値mより小さいと判定され、処理は、ステップS54に進む。
ステップS54において、形態素比較部131は、パラメータjが値nより小さいか否かを判定する。すなわち、形態素比較部131は、文2を構成する形態素の品詞のうちのj番目の品詞(以下、適宜、文2の注目品詞という)が、文2を構成する形態素の品詞のうちの最後(n番目)の品詞でないか否かを判定する。1回目のステップS54においては、j=0であるので、パラメータjが値nより小さいと判定され、処理は、ステップS55に進む。
ステップS55において、形態素比較部131は、パラメータxについて、x=0とする。なお、パラメータxの詳細については後述する。
ステップS56において、形態素比較部131は、パラメータiとパラメータxとの和、および、パラメータjとパラメータxとの和について、i+x<m、かつ、j+x<nであるか否かを判定する。より具体的には、形態素比較部131は、文1を構成する形態素の品詞のうちのi+x番目の品詞(以下、適宜、文1の比較対象品詞という)が、最後(m番目)の品詞でなく(つまり、配列a[0]乃至a[m]の中にあり)、かつ、文2を構成する形態素の品詞のうちのj+x番目の品詞(以下、適宜、文2の比較対象品詞という)が、最後(n番目)の品詞でなく(つまり、配列b[0]乃至b[n]の中にある)か否かを判定する。1回目のステップS56においては、i+x=0,j+x=0であるので、i+x<m、かつ、j+x<nであると判定され、処理は、ステップS57に進む。
ステップS57において、形態素比較部131は、文1の比較対象品詞が格納されている要素a[i+x]と、文2の比較対象品詞が格納されている要素b[j+x]とが一致するか否かを判定する。言い換えれば、形態素比較部131は、文1の比較対象品詞と文2の比較対象品詞とが一致するか否かを判定する。例えば、1回目のステップS57においては、要素a[0]に格納されている文1の比較対象品詞と、要素b[0]に格納されている文2の比較対象品詞とが一致するか否かが判定される。
ステップS57において、文1の比較対象品詞と文2の比較対象品詞とが一致すると判定された場合、処理は、ステップS58に進み、形態素比較部131は、パラメータxを1インクリメントする。その後、処理は、ステップS56に戻り、ステップS56において、i+x<m、かつ、j+x<nでないと判定されるか、ステップS57において、文1の比較対象品詞と文2の比較対象品詞とが一致しないと判定されるまで、ステップS56乃至S58の処理が繰り返される。
このように、ステップS56乃至S58の処理が繰り返され、文1の比較対象品詞と文2の比較対象品詞とが一致すると判定される毎に、パラメータxは、1ずつインクリメントされる。つまり、パラメータxは、文1の比較対象品詞と文2の比較対象品詞とが連続して一致している数、すなわち、一致系列長を表している。
一方、ステップS56において、i+x<m、かつ、j+x<nでない、すなわち、文1の比較対象品詞が、配列a[0]乃至a[m]の中にないか、または、文2の比較対象品詞が、配列b[0]乃至b[n]の中にないと判定された場合、処理は、ステップS59に進む。
また、ステップS57において、文1の比較対象品詞と文2の比較対象品詞とが一致しないと判定された場合、処理は、ステップS59に進む。
ステップS59において、形態素比較部131は、パラメータxについて、x>0であるか否かを判定する。
ステップS59において、x>0であると判定された場合、すなわち、文1の比較対象品詞と文2の比較対象品詞とが、少なくとも1以上連続して一致している場合、処理は、ステップS60に進む。
ステップS60において、形態素比較部131は、パラメータiについて、i=0であるか否か、すなわち、文1の注目品詞が、文1を構成する形態素の品詞のうちの最初の品詞であるか否かを判定する。1回目のステップS59においては、i=0であるので、処理は、ステップS61に進む。
ステップS61において、形態素比較部131は、再格納フラグがONであるか否かを判定する。再格納フラグは、後述するように、配列b[0]乃至b[n]に格納されていた文2の形態素の品詞が配列a[0]乃至a[m]に格納され、配列a[0]乃至a[m]に格納されていた文1の形態素の品詞が配列b[0]乃至b[n]に格納されるとき(ステップS70)にONされるフラグである。1回目のステップS61においては、再格納フラグはONでないので、処理は、ステップS62に進む。
ステップS62において、記録制御部132は、このときのパラメータiおよびパラメータj(以下、パラメータの組(i,j)とも表す)をRAM40に記録させる。すなわち、記録制御部132は、このときの配列a[0]乃至a[m]における文1の注目品詞の位置、および、配列b[0]乃至b[n]における文2の注目品詞の位置の記録を制御する。
ステップS63において、記録制御部132は、このときのパラメータxを、一致系列長としてRAM40に記録させる。
ステップS64において、形態素比較部131は、パラメータjについて、j=j+xとする。すなわち、形態素比較部131は、この時点での文2の比較対象品詞を、文2の注目品詞とする。ステップS64の後、処理は、ステップS54に戻り、これ以降の処理が繰り返される。
一方、ステップS59において、x>0でないと判定された場合、すなわち、文1の比較対象品詞と文2の比較対象品詞とが1つも一致していない場合、処理は、ステップS65に進む。
ステップS65において、形態素比較部131は、パラメータjを1インクリメントする。すなわち、形態素比較部131は、文2の注目品詞を、図7の配列b[0]乃至b[n]において、右側に1つシフトさせる。ステップS65の後、処理は、ステップS54に戻り、これ以降の処理が繰り返される。
例えば、図7において、要素a[0],a[1],a[2]に格納されている文1の形態素の品詞と、要素b[0],b[1],b[2]に格納されている文2の形態素の品詞とが、それぞれ一致している場合、ステップS56乃至S58の処理が3回繰り返され、x=3となる。4回目のステップS56において、文1および文2の注目品詞の位置は、それぞれa[0]およびb[0]であり、文1および文2の比較対象品詞の位置は、それぞれa[3]およびb[3]である。4回目のステップS57において、a[3]とb[3]とは一致せず、処理は、ステップS59に進む。その後、処理は、ステップS60,S61と進み、ステップS62においては、パラメータの組(i,j)=(0,0)が記録され、ステップS63においては、x=3が、一致系列長として記録される。さらに、ステップS64においては、文2の注目品詞が、要素b[3]に格納されている品詞となり、ステップS54に戻る。すなわち、文1および文2の注目品詞の位置は、それぞれa[0]およびb[3]となり、これ以降の処理に進む。
このようにして、ステップS54乃至S65の処理が繰り返され、文2の注目品詞が、要素b[n]に格納されている品詞(文2を構成する形態素の品詞のうちの最後の品詞)になったとき、ステップS54において、パラメータjが値nより小さくないと判定され、処理は、ステップS66に進む。
ステップS66において、形態素比較部131は、パラメータiを1インクリメントするとともに、パラメータjについて、j=0とする。すなわち、形態素比較部131は、文1の注目品詞の位置を、図7の配列a[0]乃至a[m]において、右側に1つシフトさせるとともに、文2の注目品詞の位置を、要素b[0]とする。1回目のステップS66においては、i=1となるので、文1および文2の注目品詞の位置は、それぞれa[1]およびb[0]となり、処理は、ステップS53に戻る。
その後、文1および文2の注目品詞の位置が、それぞれa[1]およびb[0]であるまま処理が進む。そして、ステップS60においては、i=1であるので、処理は、ステップS67に進む。
ステップS67において、形態素比較部131は、以下に示す条件1乃至3のうちのいずれか1つを満たすか否かを判定する。
条件1:文1の注目品詞の1つ左側の要素a[i-1]に格納されている品詞と、文2の注目品詞の1つ左側の要素b[j-1]に格納されている品詞とが一致する。
条件2:文1の注目品詞の1つ左側の要素a[i-1]に格納されている品詞と、文2の注目品詞とが一致し、かつ、文1の注目品詞と、文2の注目品詞の1つ右側の要素b[j+1]に格納されている品詞とが一致する。
条件3:文1の注目品詞と、文2の注目品詞の1つ左側の要素b[j-1]に格納されている品詞とが一致し、かつ、文1の注目品詞の1つ右側の要素a[i+1]に格納されている品詞と、文2の注目品詞とが一致する。
ステップS67において、条件1乃至3のうちのいずれかを満たすと判定された場合、処理は、ステップS65に進み、形態素比較部131は、パラメータjを1インクリメントする。すなわち、形態素比較部131は、文2の注目品詞を、図7の配列b[0]乃至b[n]において、右側に1つシフトさせる。ステップS65の後、処理は、ステップS54に戻り、これ以降の処理が繰り返される。
例えば、図7において、要素a[0],a[1],a[2]に格納されている文1の形態素の品詞と、要素b[0],b[1],b[2]に格納されている文2の形態素の品詞とが、それぞれ一致している場合であって、文1および文2の注目品詞の位置が、それぞれa[1]およびb[0]であった場合、x=2となる。これは、要素a[1],a[2]に格納されている文1の比較対象品詞と、要素b[1],b[2]に格納されている文2の比較対象品詞とが、それぞれ一致していることによる。この状態で、処理がステップS60,S61,S67と進んだとき、ステップS67においては、条件2を満たすと判定され、処理は、ステップS65に進む。このとき、ステップS63の処理は実行されないので、x=2が一致系列長として記録されることはない。
すなわち、ステップS67の処理によれば、既に記録された一致系列長が得られた配列において、部分的に一致系列長として判定されてしまうことを防ぐことができる。
一方、ステップS67において、条件1乃至3のうちのいずれも満たさないと判定された場合、処理は、ステップS61に進み、これ以降の処理が繰り返される。
このようにして、ステップS54乃至S67の処理が繰り返され、ステップS66において、文1の注目品詞が、要素a[m]に格納されている品詞(文1を構成する形態素の品詞のうちの最後の品詞)になったとき、ステップS53において、パラメータiが値mより小さくないと判定され、処理は、ステップS68に進む。
ステップS68において、形態素比較部131は、再格納フラグがONであるか否かを判定する。1回目のステップS68においては、再格納フラグがONでないので、処理は、ステップS69に進み、形態素比較部131は、再格納フラグをONにする。
ステップS70において、形態素比較部131は、文2の形態素の品詞を、配列a[0]乃至a[m](m≧1)に格納するとともに、文2の形態素の品詞を、配列b[0]乃至b[n](n≧1)に格納する。すなわち、形態素比較部131は、今まで、配列a[0]乃至a[m]およびb[0]乃至b[n]のそれぞれに格納されていた文1および文2を入れ替えて再格納する。なお、ここでは、値mは、文2の形態素の総数から1を引いた値であり、値nは、文1の形態素の総数から1を引いた値となる。ステップS70の後、処理は、ステップS52に戻り、これ以降の処理が繰り返される。
このように、ステップS52以降の処理が繰り返される中で、ステップS67において、条件1乃至3のうちのいずれか1つ満たすと判定された場合、処理は、ステップS61に進む。ここで、ステップS61においては、再格納フラグがONであると判定されるので、処理は、ステップS71に進む。
ステップS71において、形態素比較部131は、現在のパラメータの組(i,j)が、RAM40に記録されているパラメータの組(i,j)を逆にしたパラメータの組(j,i)のうちのいずれかと一致するか否かを判定する。
ステップS71において、現在のパラメータの組(i,j)が、RAM40に記録されているパラメータの組(i,j)を逆にしたパラメータの組(j,i)のうちのいずれかと一致すると判定された場合、処理は、ステップS65に進む。
一方、ステップS71において、現在のパラメータの組(i,j)が、RAM40に記録されているパラメータの組(i,j)を逆にしたパラメータの組(j,i)のうちのいずれとも一致しないと判定された場合、処理は、ステップS62に進む。
例えば、ステップS51(1回目の格納処理)において格納された、要素a[0],a[1],a[2]の文1の形態素の品詞と、要素b[0],b[1],b[2]の文2の形態素の品詞とがそれぞれ一致している場合、パラメータの組(i,j)=(0,0)と、3である一致系列長とがRAM40に記録される。そして、ステップS70(再格納処理)においては、要素a[0],a[1],a[2]に文2の形態素の品詞が格納され、要素b[0],b[1],b[2]に文1の形態素の品詞が格納される。ここで、配列a[0]乃至a[m]およびb[0]乃至b[n]のそれぞれに格納されていた文1および文2を入れ替えても、要素a[0],a[1],a[2]および要素b[0],b[1],b[2]に格納されている品詞は一致する。すなわち、一致系列長を表すパラメータxは、x=3となり、このときの文1および文2の注目品詞の位置はそれぞれa[0]およびb[0]となる。そして、ステップS71においては、現在のパラメータの組(i,j)=(0,0)がRAM40に記録されているパラメータの組(i,j)を逆にしたパラメータの組(j,i)のうちのいずれかと一致するか否かが判定される。このとき、RAM40には、3である一致系列長とともに、パラメータの組(i,j)=(0,0)が記録されており、これを逆にしたパラメータの組(j,i)=(0,0)が、現在のパラメータの組(i,j)=(0,0)と一致するので、処理は、ステップS65に進む。すなわち、ステップS63の処理は実行されないので、x=3が一致系列長として記録されることはない。
すなわち、ステップS61およびステップS71の処理によれば、1回目の格納における品詞同士の比較によって得られた一致系列長と、実質的に同一である一致系列長が、2回目の格納における品詞同士の比較によって重複して得られることを防ぐことができる。
このようにして、再格納処理以降についても、ステップS54乃至S66,S71の処理が繰り返され、ステップS66において、文2の注目品詞が、要素a[m]に格納されている品詞(文2を構成する形態素の品詞のうちの最後の品詞)になったとき、ステップS53において、パラメータiが値mより小さくないと判定され、処理は、2回目のステップS67に進む。
2回目のステップS67においては、再格納フラグがONであると判定され、処理は、ステップS72に進む。
このようにして、文1の注目品詞の位置と、文2の注目品詞の位置とを右にシフトしながら、文1の比較対象品詞と文2の比較対象品詞とを比較し、さらに、文1と文2とを入れ替えて、再度、それぞれの品詞を比較することで、一致系列長を求めることができる。
図8は、上述のようにして、EPGデータとしての番組タイトルの形態素の品詞を比較することで求められた、一致系列長の例を示している。
図8においては、文1と文2、および、文1と文3を比較したときの一致系列長が示されている。
図8に示されるように、“世界遺産「カナディアン・ロッキー・マウンテン自然公園群〜カナダ」”である文1は、“世界遺産”=名詞、“「”=記号、“カナディアン”=形容詞、“・”=記号、“ロッキー”=固有名詞、“・”=記号、“マウンテン”=名詞、“自然公園”=名詞、“群”=名詞、“〜”=記号、“カナダ”=固有名詞、“」”=記号と、形態素に分解され、品詞(図8中、品詞1)が設定されている。
また、“世界遺産〜カナディアン・ロッキー山脈自然公園群「氷が創り”である文2は、“世界遺産”=名詞、“〜”=記号、“カナディアン”=形容詞、“・”=記号、“ロッキー”=固有名詞、“山脈”=名詞、“自然公園”=名詞、“群”=名詞、“「”=記号、“氷”=名詞、“が”=助詞、“創り”=動詞と、形態素に分解され、品詞(図8中、品詞2)が設定されている。
さらに、“世界遺産「フェルクリンゲン製鉄所〜ドイツ〜」遺跡や景観、”である文3は、“世界遺産”=名詞、“「”=記号、“フェルクリンゲン”=固有名詞、“製鉄所”=名詞、“〜”=記号、“ドイツ”=固有名詞、“〜”=記号、“」”=記号、“遺跡”=名詞、“や”=助詞、“景観”=名詞、“、”=助詞と、形態素に分解され、品詞(図8中、品詞3)が設定されている。
文1の形態素と文2の形態素とを比較した場合、図8中、系列1および系列2の欄において、白抜きの数字の1が付されたラインで示される形態素の品詞の系列(名詞、記号、形容詞、記号、固有名詞)が一致している。すなわち、一致系列長5が1つ求められる。また、図8中、系列1および系列2の欄において、白抜きの数字の2が付されたラインで示される形態素の品詞の系列(名詞、名詞、名詞、記号)が一致している。すなわち、一致系列長4が1つ求められる。
同様に、文1の形態素と文3の形態素とを比較した場合、図8中、系列1および系列3の欄において、白抜きの数字の3が付されたラインで示される形態素の品詞の系列(名詞、記号、固有名詞、記号)が一致している。すなわち、一致系列長4が1つ求められる。
このようにして、形態素の品詞同士が比較され、一致系列長が求められる。
図6のフローチャートの説明に戻り、ステップS72において、類似度スコア算出部133は、RAM40に記録されている一致系列長と、一致系列長に応じた重みとに基づいて、EPGデータ同士に対応する番組同士の類似度を示す類似度スコアを算出する。
ここで、図9を参照して、類似度スコア算出部133の類似度スコアの算出例について説明する。
図9の上側には、図8で説明した文1と文2の類似度スコアの算出例が示されている。図9の上側において、1乃至10以上の系列長(一致系列長)のそれぞれに対して重みが設定されている。より具体的には、1乃至3の系列長に対して、0の重みが設定され、4の系列長に対して、0.5の重みが設定され、5乃至9の系列長に対して、1の重みが設定され、10以上の系列長に対して、10の重みが設定されている。一致個数は、RAM40に記録されている、それぞれの系列長(一致系列長)の個数であり、図8で説明した文1と文2について求められた一致系列長の数を表している。なお、1である系列長は、単に、文1と文2とで一致する品詞が1つあったに過ぎず、特に意味をなさないので、1である系列長の一致個数はカウントしないものとする。このため、ここでは、1である系列長に対して0の重みを設定している。このようにして得られた一致系列長の一致個数と、一致系列長に対する重みとの積の総和が、文1と文2の類似度スコアとなる。具体的には、系列長2の一致個数1と系列長2に対する重み0の積(=0)、系列長4の一致個数1と系列長4に対する重み0.5の積(=0.5)、および、系列長5の一致個数1と系列長5に対する重み1の積(=1)の和1.5が、文1と文2の類似度スコアとなる。また、一致個数の総和として、3が求められる。
また、図9の下側には、図8で説明した文1と文3の類似度スコアの算出例が示されている。図9の下側においても、図9の上側と同様に、一致系列長の数と、一致系列長に対する重みとの積の総和が、文1と文3の類似度スコアとなる。具体的には、系列長2の一致個数3と系列長2に対する重み0の積(=0)、系列長3の一致個数1と系列長3に対する重み0の積(=0)、および、系列長4の一致個数1と系列長4に対する重み0.5の積(=1)の和0.5が、文1と文3の類似度スコアとなる。また、一致個数の総和として、5が求められる。
なお、10以上の一致系列長が存在する場合、特に、比較するテキストデータ(EPGデータ)同士が全く同一であるような場合、他の一致系列長の数に関わらず、類似度スコアの値を、例えば、10とする。
また、系列長に対する重みは、図9に示された値に限らず、系列長の大きさが大きいほど大きな値をとるように、ユーザによって任意に設定されたり、所定の関数に従って設定されることができる。
なお、図9においては、3以下の系列長の重みに対して0を設定するようにしたが、これは、図6のフローチャートのステップS59において、x>3であるか否かの判定を行うようにした場合と結果的に同義となる。つまり、図6のフローチャートのステップS59において、x>N(Nは0以上の整数)であるか否かの判定を行うことにより、一致系列長が記録されるのはN+1以上の場合となる。したがって、図9において、N以下の系列長の一致個数は0となり、得られる類似度スコアは、N以下の系列長の重みに対して0が設定された場合と同一となる。
以上のようにして、ステップS72において、類似度スコア算出部133は、比較する「番組タイトル」同士における一致系列長の個数と、一致系列長に応じた重みとに基づいて、「番組タイトル」についての類似度スコアを算出し、処理は、図3のフローチャートのステップS13に戻る。
なお、上述した説明においては、一致系列長の個数と、一致系列長に応じた重みとの積の総和を類似度スコアとしたが、例えば、系列長の一致個数の総和を品詞数で除した値や、一致個数が1以上である一致系列長の和を文字数で除した値のような、何らかの正規化処理を施した値を類似度スコアとするようにしてもよい。
ステップS13の後、ステップS14に進み、形態素解析部112は、EPGデータ取得部111により取得されたEPGデータのうちの「番組概要」を形態素解析し、形態素に分解して、分解した各形態素について、品詞を設定する。
ステップS15において、類似度算出部113は、形態素解析部112によって品詞が設定された、注目番組および比較対象番組の「番組概要」同士の形態素を比較することで、類似度算出処理を実行し、「番組概要」についての類似度スコアを算出する。なお、類似度算出部113による類似度算出処理の詳細は、図6のフローチャートを参照して説明した類似度算出処理を、「番組概要」について実行したものと同一であるので、その説明は省略する。
ステップS16において、形態素解析部112は、EPGデータ取得部111により取得されたEPGデータのうちの「番組詳細」を形態素解析し、形態素に分解して、分解した各形態素について、品詞を設定する。
ステップS17において、類似度算出部113は、形態素解析部112によって品詞が設定された、注目番組および比較対象番組の「番組詳細」同士の形態素を比較することで、類似度算出処理を実行し、「番組詳細」についての類似度スコアを算出する。なお、類似度算出部113による類似度算出処理の詳細は、図6のフローチャートを参照して説明した類似度算出処理を、「番組詳細」について実行したものと同一であるので、その説明は省略する。
ステップS18において、EPGデータ取得部111は、注目番組と比較する番組、すなわち、いま注目番組と比較した比較対象番組以外の番組のEPGデータが存在するか否か(HDD43に記録されているか否か)を判定する。
ステップS18において、注目番組と比較する番組が存在すると判定された場合、処理は、ステップS11に戻り、ステップS11乃至S18の処理が繰り返される。なお、2回目以降のステップS11においては、EPGデータ取得部111は、新たに比較対象番組とする番組のEPGデータのみを、HDD43から取得する。
一方、ステップS18において、注目番組と比較する番組が存在しないと判定された場合、処理は、ステップS19に進む。
ステップS19において、総類似率算出部134は、類似度スコア算出部133によって、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについて算出された類似度スコアに基づいて、番組同士の類似度の総合的な指標である総類似率を算出する。
ここで、図10を参照して、総類似率算出部134による総類似率の算出例について説明する。
図10には、図5で説明した「番組1」乃至「番組5」について、「番組2」を注目番組としたときの、「番組タイトル」、「番組概要」、「番組詳細」のそれぞれについての類似度スコア、および、総類似率が示されている。
図10においては、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似度スコアは、注目番組(「番組2」)と全く同一の番組の類似度スコアを100としたときの相対値(以下、類似率ともいう)で表現されている。また、「総類似率」は、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似率に対して、所定の割合、例えば、2:1:2の割合で重みをつけた平均値である。
より具体的には、注目番組である「番組2」と比較対象番組である「番組1」との、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似率は、それぞれ、93,100,25で表され、「総類似率」は67となる。注目番組である「番組2」同士の、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似率は、全く同一であるので、全て100で表され、「総類似率」も100となる。注目番組である「番組2」と比較対象番組である「番組3」との、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似率は、それぞれ、100,60,100で表され、「総類似率」は92となる。注目番組である「番組2」と比較対象番組である「番組4」との、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似率は、それぞれ、26,10,8で表され、「総類似率」は15となる。注目番組である「番組2」と比較対象番組である「番組5」との、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似率は、全て100で表され、「総類似率」も100となる。すなわち、「番組2」と「番組5」とは、全く同一の番組であると言える。
以上のように、総類似率算出部134は、「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについての類似度スコアに基づいて総類似率を算出する。
図3のフローチャートに戻り、ステップS20において、番組一覧表示制御部114は、総類似率算出部134によって算出された総類似率に基づいて、注目番組と比較対象番組との類似度をユーザに提示するように、番組一覧を表示部61に表示させる。より具体的には、番組一覧表示制御部114は、総類似率が所定の閾値より大きい番組を、ユーザにとって見づらくするように、表示制御部36(図1)を介して、番組一覧を表示部61に表示させる。
図11は、図4で説明した番組一覧において、総類似率が所定の閾値より大きい番組が、ユーザにとって見づらくなるように表示された表示例を示している。図11においては、総類似率が所定の閾値より大きい番組ほど、その番組タイトルの背景色が濃くグレー表示されるように、番組一覧が表示されている。より具体的には、図11においては、一番上の番組、および、上から5番目の番組の番組タイトルの背景色が、淡くグレー表示され、上から2番目の番組の番組タイトルの背景色が、やや濃くグレー表示され、一番下の番組の番組タイトルの背景色が、最も濃くグレー表示されている。すなわち、一番上の番組、および、上から5番目の番組は、注目番組との類似度がやや高く、上から2番目の番組は、注目番組との類似度が次に高く、一番下の番組は、注目番組との類似度がさらに高い。
なお、上述の例においては、背景色のグレー表示に限らず、番組タイトル等の文字色の変更や、アイコンの表示等によって、総類似率が所定の閾値より大きい番組が、ユーザにとって見づらくなるようにしてもよい。
このように、総類似率が所定の閾値より大きい番組を、ユーザにとって見づらくなるように表示することで、ユーザが、番組一覧を見ながら録画済の番組の整理をするときに、ユーザにより選択された番組と同一内容の番組である可能性の高い番組(ユーザにとって見づらい番組)を削除対象となる番組の候補とし、それ以外の番組をダビング対象となる番組とすることができる。
以上の処理によれば、注目番組と比較対象番組の「番組タイトル」、「番組概要」、および「番組詳細」を形態素解析し、それぞれの形態素の品詞の系列に基づいて一致系列長を求めることで、類似度スコアを算出することができる。このように、番組同士のEPGデータを形態素単位で比較することで、文字ごとに比較する場合より計算量を低減でき、また、キーワードではなく形態素の品詞の出現順を比較できるので、同一内容の番組をより効率良く、かつ、より正確に判別することが可能となる。
また、類似度スコアに基づいて算出される総類似率に応じて、総類似率が所定の閾値より大きい番組が、ユーザにとって見づらくなるように表示されるので、ユーザが、番組一覧を見ながら録画済の番組の整理をするときに、ユーザにより選択された番組と同一内容の番組である可能性の高い番組(ユーザにとって見づらい番組)を削除対象となる番組の候補とし、それ以外の番組をダビング対象となる番組とすることができ、ユーザは、録画済の番組の整理を効率良く行うことが可能となる。
以上においては、テキストデータとしてのEPGデータを形態素解析することで分解した形態素の品詞の系列に基づいて一致系列長を求めるようにしたが、例えば、地名、人名、専門用語等の種類(以下、用語種という)や、ひらがな、カタカナ、漢字等の文字の種類(以下、文字種という)といった属性に応じて分解した言葉の系列に基づいて、一致系列長を求めるようにしてもよい。
[用語種を比較したときの一致系列長の例]
図12は、EPGデータとしての番組タイトルが用語種に応じた言葉に分解され、その言葉に設定された用語種を比較したときの、一致系列長の例を示している。
図12においては、図8と同様に、文1と文2、および、文1と文3を比較したときの一致系列長が示されている。
図12に示されるように、“世界遺産「カナディアン・ロッキー・マウンテン自然公園群〜カナダ」”である文1は、“世界遺産”=文化/自然、“「”=記号、“カナディアン・ロッキー・マウンテン”=地名、“自然公園”=施設、“群”=生活、“〜”=記号、“カナダ”=地名、“」”=記号、のように分解され、用語種(図12中、用語種1)が設定されている。
また、“世界遺産〜カナディアン・ロッキー山脈自然公園群「氷が”である文2は、“世界遺産”=文化/自然、“〜”=記号、“カナディアン・ロッキー山脈”=地名、“自然公園”=施設、“群”=生活、“「”=記号、“氷”=文化/自然、“が”=その他、のように分解され、用語種(図12中、用語種2)が設定されている。
さらに、“世界遺産「フェルクリンゲン製鉄所〜ドイツ〜」”である文3は、“世界遺産”=文化/自然、“「”=記号、“フェルクリンゲン”=地名、“製鉄所”=施設、“〜”=記号、“ドイツ”=地名、“〜”=記号、“」”=記号、のように分解され、用語種(図12中、用語種3)が設定されている。
文1の言葉と文2の言葉とを比較した場合、図12中、系列1および系列2の欄において、白抜きの数字の1が付されたラインで示される言葉の用語種の系列(文化/自然、記号、地名、施設)が一致している。すなわち、一致系列長4が1つ求められる。
同様に、文1の言葉と文3の言葉とを比較した場合、図12中、系列1および系列3の欄において、白抜きの数字の1が付されたラインで示される言葉の用語種の系列(文化/自然、記号、地名、施設)が一致している。すなわち、一致系列長4が1つ求められる。また、図12中、系列1および系列3の欄において、白抜きの数字の2が付されたラインで示される言葉の用語種の系列(記号、地名、記号)が一致している。すなわち、一致系列長3が1つ求められる。
これは、例えば、ROM39に、用語種の情報が付された単語リストとしての辞書を記憶させ、形態素解析部112に、EPGデータ取得部111により取得されたEPGデータを、ROM39に記憶された辞書に基づいて分解させることで、実現される。
[文字種を比較したときの一致系列長の例]
図13は、EPGデータとしての番組タイトルが文字種に応じた言葉で分解され、その言葉の文字種を比較したときの、一致系列長の例を示している。
図13においても、図8と同様に、文1と文2、および、文1と文3を比較したときの一致系列長が示されている。
図13に示されるように、“世界遺産「カナディアン・ロッキー・マウンテン自然公園群〜カナダ」”である文1は、“世界遺産”=漢字、“「”=記号、“カナディアン”=カタカナ、“・”=記号、“ロッキー”=カタカナ、“・”=記号、“マウンテン”=カタカナ、“自然公園群”=漢字、“〜”=記号、“カナダ”=カタカナ、“」”=記号、のように分解され、文字種(図13中、文字種1)が設定されている。
また、“世界遺産〜カナディアン・ロッキー山脈自然公園群「氷が創り”である文2は、“世界遺産”=漢字、“〜”=記号、“カナディアン”=カタカナ、“・”=記号、“ロッキー”=カタカナ、“山脈自然公園群”=漢字、“「”=記号、“氷”=漢字、“が”=ひらがな、“創”=漢字、“り”=ひらがな、のように分解され、文字種(図13中、文字種2)が設定されている。
さらに、“世界遺産「フェルクリンゲン製鉄所〜ドイツ〜」遺跡や景観”である文3は、“世界遺産”=漢字、“「”=記号、“フェルクリンゲン”=カタカナ、“製鉄所”=漢字、“〜”=記号、“ドイツ”=カタカナ、“〜”=記号、“」”=記号、“遺跡”=漢字、“や”=ひらがな、“景観”=漢字、のように分解され、文字種(図13中、文字種3)が設定されている。
文1の言葉と文2の言葉とを比較した場合、図13中、系列1および系列2の欄において、白抜きの数字の1が付されたラインで示される言葉の文字種の系列(漢字、記号、カタカナ、記号、カタカナ)が一致している。すなわち、一致系列長5が1つ求められる。
同様に、文1の言葉と文3の言葉とを比較した場合、図13中、系列1および系列3の欄において、白抜きの数字の2が付されたラインで示される言葉の文字種の系列(記号、カタカナ、漢字、記号、カタカナ、記号)が一致している。すなわち、一致系列長6が1つ求められる。
さらに、文2の言葉と文3の言葉とを比較した場合、図13中、系列2および系列3の欄において、白抜きの数字の3が付されたラインで示される言葉の文字種の系列(記号、漢字、ひらがな、漢字)が一致している。すなわち、4である一致系列長が1つ求められる。
これは、例えば、ROM39に、文字種の情報が付された単語リストとしての辞書を記憶させ、形態素解析部112に、EPGデータ取得部111により取得されたEPGデータを、ROM39に記憶された辞書に基づいて分解させることで、実現される。
以上の例のように、注目番組と比較対象番組の「番組タイトル」、「番組概要」、および「番組詳細」を形態素解析し、それぞれの言葉の用語種や文字種の系列に基づいて一致系列長を求めることで、類似度スコアを算出することができる。このように、番組同士のEPGデータを、用語種や文字種に応じた言葉単位で比較することで、文字ごとに比較する場合より計算量を低減でき、また、キーワードではなく言葉の用語種や文字種の出現順を比較できるので、同一内容の番組をより効率良く、かつ、より正確に判別することが可能となる。
[番組一覧の他の表示例]
以上においては、総類似率が所定の閾値より大きい番組が、ユーザにとって見づらくなるように番組一覧が表示されるようにしたが、逆に、総類似率が所定の閾値より小さい番組が、ユーザにとって見づらくなるように番組一覧が表示されるようにすることもできる。
図14は、図4で説明した番組一覧において、総類似率が所定の閾値より小さい番組が、ユーザにとって見づらくなるように表示された表示例を示している。図14においては、総類似率が所定の閾値より小さい番組の番組タイトルの背景色がグレー表示されるように、番組一覧が表示されている。より具体的には、図14においては、上から4番目の番組、および、上から6番目の番組の番組タイトルの背景色が、グレー表示されている。すなわち、上から4番目の番組、および、上から6番目の番組は、注目番組との類似度が低い。
なお、上述の例においては、背景色のグレー表示に限らず、番組タイトル等の文字色の変更や、アイコンの表示等によって、総類似率が所定の閾値より小さい番組が、ユーザにとって見づらくなるようにしてもよい。
このように、総類似率が所定の閾値より小さい番組を、ユーザにとって見づらくなるように表示することで、ユーザが、番組一覧を見ながら録画済の番組の整理をするときに、ユーザにより選択された番組と同一内容の番組である可能性の低い番組(ユーザにとって見づらい番組)の中から削除対象とダビング対象とを検討・厳選することができる。例えば、同一内容の番組である可能性が低い番組のみをダビング対象とし、それ以外の番組を全て削除対象とすることができる。
以上においては、総類似率が所定の閾値より小さい番組が、ユーザにとって見づらくなるように番組一覧が表示されるようにしたが、総類似率が所定の閾値より大きい番組が、番組一覧において強調して表示されるようにすることもできる。
図15は、図4で説明した番組一覧において、総類似率が所定の閾値より大きい番組が、強調されて表示された表示例を示している。図15においては、総類似率が所定の閾値より大きい番組ほど、その番組タイトルがはっきりとした枠で囲まれることで強調されて、番組一覧が表示されている。より具体的には、図15においては、一番上の番組、上から2番目の番組、および、上から5番目の番組の番組タイトルが、ややはっきりとした枠(破線)で囲まれ、一番下の番組の番組タイトルが、よりはっきりとした枠(実線)で囲まれている。すなわち、一番上の番組、上から2番目の番組、および、上から5番目の番組は、注目番組との類似度が高く、一番下の番組は、注目番組との類似度がさらに高い。
なお、上述の例においては、番組タイトルを囲む枠に限らず、番組タイトルの文字色または背景色の変更や、アイコンの表示等によって、総類似率が所定の閾値より大きい番組が、強調されて表示されるようにしてもよい。
さらに、図15に示されている番組一覧の7つの番組の上下にも、総類似率が所定の閾値より大きい番組(番組タイトル)が存在している場合、図16に示されるように、スクロールバーが、その番組の位置に応じて強調されて表示されるようにすることもできる。
図16においては、スクロールバーにおけるノブの、現在表示されている番組一覧において総類似率が所定の閾値より大きい番組が存在する位置に対応する箇所が、例えばグレー等の所定の色で強調表示されている。さらに、図16においては、スクロールバーにおけるレールの、現在表示されていない番組一覧において総類似率が所定の閾値より大きい番組が存在する位置に対応する箇所が、例えばグレー等の所定の色で強調表示されている。より具体的には、図16に示されている7つの番組の上には、総類似率が所定の閾値より大きい番組が1つ存在し、図16に示されている7つの番組の下には、総類似率が所定の閾値より大きい番組が、例えば3つ存在する。
このように、総類似率が所定の閾値より大きい番組を、番組一覧において強調して表示させることで、ユーザが、番組一覧を見ながら録画済の番組の整理をするときに、ユーザにより選択された番組と同一内容の番組である可能性の高い番組(強調して表示された番組)の中から削除対象とダビング対象とを検討・厳選することができる。例えば、同一内容の番組である可能性が高い番組のみを削除対象し、それ以外の番組を全てダビング対象とすることができる。
以上においては、総類似率が所定の閾値より大きい番組が、番組一覧において強調して表示されるようにしたが、総類似率が所定の閾値より大きい番組のみがピックアップされて表示されるようにすることもできる。
図17は、図4で説明した番組一覧において、総類似率が所定の閾値より大きい番組のみが、ピックアップされて表示された表示例を示している。より具体的には、図17においては、図4の番組一覧における、一番上の番組、上から2番目の番組、上から3番目の番組(注目番組)、上から5番目の番組、および、一番下の番組の番組タイトルが表示されている。すなわち、図4の番組一覧において、一番上の番組、上から2番目の番組、上から5番目の番組、および、一番下の番組は、注目番組との類似度が高い。また、図17において、注目番組(上から3番目の番組)の番組タイトルの左側に表示されているアイコンは、ピックアップされて表示された番組が記録(格納)されているフォルダを示している。すなわち、図17において、番組一覧に表示されている番組は、「ビデオ」フォルダ内の、「pickup」フォルダ内に格納されている。
なお、上述の例においては、ユーザは、ピックアップされて表示された番組以外の番組を選択することができない。そこで、番組一覧において、ピックアップされて表示された番組以外の番組を選択できるようにすることができる。
図18は、図17で説明した番組一覧において、番組一覧において、ピックアップされて表示された番組以外の番組を選択できるようにした番組一覧の表示例を示している。図18においては、総類似率が所定の閾値より大きい番組のみがピックアップされて表示された上に、総類似率が所定の閾値より大きくない番組がアイコンとして表示されている。より具体的には、図18においては、図17と同様に、図4の番組一覧における、一番上の番組、上から2番目の番組、上から3番目の番組(注目番組)、上から5番目の番組、および、一番下の番組の番組タイトルが表示されているとともに、上から4番目の番組、および、上から6番目の番組を示すアイコンが、「pickup」フォルダの下に表示されている。また、上から4番目の番組、および、上から6番目の番組を示すアイコンの下には、それぞれの番組タイトル「ハイビジョン旅行…」および「歩いてみよう…」が表示されている。これにより、ユーザは、ピックアップされて表示された番組以外の番組を選択することができるようになる。
また、図16で説明したような、番組一覧に表示されている番組の上下にも番組が存在する場合に、総類似率が所定の閾値より大きい番組のみがピックアップされて表示させるようにすることもできる。
図19は、番組一覧に表示されている番組の上下にも番組が存在する場合に、総類似率が所定の閾値より大きい番組のみがピックアップされて表示された番組一覧の表示例を示している。図19の番組一覧において、上から2乃至6番目の番組として、図17に示された5つの番組の番組タイトルが表示されている。また、図19の番組一覧において、一番上の番組は、図16の番組一覧において表示されている番組の上に存在する、総類似率が所定の閾値より大きい番組であり、一番下の番組は、図16の番組一覧において表示されている番組の下に存在する、総類似率が所定の閾値より大きい番組である。なお、図19の左端には、図16と同様のスクロールバーが表示されており、総類似率が所定の閾値より大きい番組がピックアップされていないときの表示と同様となっている。さらに、図16の番組一覧において、スクロールバーの右側には、ピックアップされた番組のうちの注目番組(ユーザの操作によって選択されている番組)の位置(図中、黒いマーク)を示すバーが表示されている。
このように、総類似率が所定の閾値より大きい番組のみをピックアップして表示することで、ユーザが、番組一覧を見ながら録画済の番組の整理をするときに、ユーザにより選択された番組と同一内容の番組である可能性の高い番組(ピックアップして表示された番組)の中から削除対象とダビング対象とを検討・厳選することができる。例えば、同一内容の番組である可能性が高い番組のみを削除対象とし、それ以外の番組を全てダビング対象とすることができる。
以上においては、表示部61の表示例として、番組一覧のみが表示されるようにしたが、番組一覧とともに、ユーザの操作によってHDD43からリムーバブルメディア45にダビング(記録)される番組の候補(ダビング候補)の一覧が表示されるようにしてもよい。
図20は、番組一覧とともに、ダビング候補の一覧が表示される表示例を示している。図20に示されるように、図15で説明した番組一覧と同様の番組一覧の右側には、ダビング候補の一覧が表示される領域(ダビング候補表示領域)が設けられている。図20のダビング候補表示領域には、ユーザによって予め選択された、2つのダビング候補の番組タイトルが表示されている。図20のように表示されている状態で、ユーザによって図示せぬ操作入力部が操作され、図20の左側の番組一覧から所定の番組が選択されることで、ダビング候補表示領域に、新たに、ダビング候補の番組タイトルが追加表示される。また、ダビング候補表示領域の下端部には、ダビング先であるリムーバブルメディア45のディスク(disk)残量が、「48GB/50GB」と表示されており、リムーバブルメディア45の空き容量が48GBであることが示されている。
このように、番組一覧とともに、ダビング候補表示領域が表示されるので、ユーザが、番組一覧を見ながら録画済の番組の整理をするときに、ユーザにより既にダビング対象として選択された番組と同一内容の番組である可能性の高い番組、すなわち、1つの記録媒体に一緒に保存(記録)するには冗長であると考えられる番組を削除対象となる番組の候補とし、それ以外の番組をダビング対象となる番組とすることができ、効率良くダビングを行うことが可能となる。
上述した例では、テキストデータとしてのEPGデータである、注目番組および比較対象番組の「番組タイトル」、「番組概要」、および「番組詳細」のそれぞれについて、言葉に分解して、その属性を比較するようにしたが、「番組タイトル」および「番組概要」のそれぞれについてのみ、言葉に分解して、その属性を比較するようにすることもできる。これにより、「番組詳細」についての処理を行わないので、計算量をより低減することができ、同一内容の番組をさらに効率良く判別することが可能となる。
以上においては、注目番組および比較対象番組のテキストデータとしてのEPGデータについて、言葉に分解し(形態素解析し)、その属性(品詞)を比較することで、注目番組と比較対象番組との類似度を求めるようにしたが、さらに、例えば、「放送時間長」の差分等、EPGデータに含まれる他のパラメータやそれを加工(編集)したものを用いて、注目番組と比較対象番組との類似度を求めるようにしてもよい。
<2.第2の実施の形態>
以下、一致系列長の他に、EPGデータに含まれる「放送時間長」(再生時間長)の差分を用いて、注目番組と比較対象番組との類似度を求めるようにした実施の形態について説明する。なお、本実施の形態のHDDレコーダのハードウェア構成例は、図1と同一であるので、その説明は省略する。
[HDDレコーダの機能構成例]
次に、図21を参照して、本実施の形態のHDDレコーダ12の機能構成例について説明する。なお、図21のHDDレコーダ12において、図2のHDDレコーダ12に設けられたものと同様の機能を備える構成については、同一名称および同一符号を付するものとし、その説明は、適宜省略するものとする。
すなわち、図21のHDDレコーダ12において、図2のHDDレコーダ12と異なるのは、差分算出部201を新たに設けた点である。
図21のHDDレコーダにおいては、EPGデータ取得部111は、HDD43に記録されている番組のEPGデータに含まれるテキストデータとしての「番組タイトル」、および、「番組概要」の他、「放送時間長」を取得する。
差分算出部201は、EPGデータ取得部111により取得された複数のEPGデータのうちの「放送時間長」同士の差分を算出し、その差分と所定の閾値とを比較して、その比較結果をEPGデータ取得部111または形態素解析部112に供給する。
[HDDレコーダの番組一覧表示処理]
ここで、図22のフローチャートを参照して、図21のHDDレコーダの番組一覧表示処理について説明する。なお、図22のフローチャートにおけるステップS211,S213乃至S219の処理は、図3のフローチャートを参照して説明したステップS11乃至S15,S18乃至S20の処理と同様であるので、その説明は省略するものとする。
すなわち、ステップS212において、差分算出部201は、EPGデータ取得部111により取得された複数のEPGデータのうちの、注目番組および比較対象番組の「放送時間長」同士の差分を算出し、その差分が所定の閾値より小さいか否かを判定する。
ステップS212において、注目番組および比較対象番組の放送時間長の差分が所定の閾値より小さいと判定された場合、差分算出部201は、形態素解析部112に、EPGデータの形態素解析を指示する旨の情報を供給し、処理は、ステップS213に進む。
一方、ステップS212において、注目番組および比較対象番組の放送時間長の差分が所定の閾値より小さくないと判定された場合、差分算出部201は、EPGデータ取得部111に、比較対象番組以外の番組のEPGデータが存在するかの判定を指示する旨の情報を供給する。その後、処理は、ステップS213乃至S216をスキップし、ステップS217に進む。
なお、ステップS217においては、総類似率算出部134は、類似度スコア算出部133によって、「番組タイトル」および「番組概要」のそれぞれについて算出された類似度スコアに基づいて、総類似率を算出する。
以上の処理によれば、注目番組の放送時間長との差分が所定時間より大きい放送時間長の比較対象番組については、同一の番組である可能性が低いので、EPGデータの形態素解析や類似度算出の処理を行わないようにすることができる。したがって、番組一覧表示処理において、計算量をより低減することができ、同一内容の番組をより効率良く、かつ、より正確に判別することが可能となる。
なお、以上においては、放送時間長の差分と所定の閾値とを比較した上で、EPGデータの形態素解析や類似度算出の処理を行うようにしたが、例えば、AVデータ(画像データおよび音声データ)から取得される、番組盛り上がり度の時間パターンや、本放送部分およびCM部分の時間長等の情報を比較した上で、EPGデータの形態素解析や類似度算出の処理を行うようにしてもよい。ここで、番組盛り上がり度の時間パターンとは、例えば、所定の時間毎の、番組における音声のレベルの変化に基づいた情報である。また、比較する番組に関する情報(メタデータ)を、インターネットを介して取得し、それらを比較した上で、EPGデータの形態素解析や類似度算出の処理を行うようにしてもよい。すなわち、番組に関連するデータ(EPGデータ)であって、テキストデータ以外のデータを比較し、差異を検出した上で、テキストデータの形態素解析や類似度算出の処理を行うようにしてもよい。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータ等に、プログラム記録媒体からインストールされる。
コンピュータにインストールされ、コンピュータによって実行可能な状態とされるプログラムを格納するプログラム記録媒体は、図1に示すように、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory)、DVD(Digital Versatile Disc)を含む)、光磁気ディスクを含む)、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア45、または、プログラムが一時的もしくは永続的に格納されるROM39や、RAM40を構成するハードディスクなどにより構成される。プログラム記憶媒体へのプログラムの格納は、必要に応じてルータ、モデムなどのインターフェースである通信部41を介して、ネットワーク、ローカルエリアネットワーク、インターネット、デジタル衛生放送といった、有線または無線の通信媒体を利用して行われる。
また、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
12 HDDレコーダ, 31 テレビジョン受像機, 36 表示制御部, 38 CPU, 39 ROM, 40 RAM, 43 HDD, 45 リムーバブルメディア, 111 EPGデータ取得部, 112 形態素解析部, 113 類似度算出部, 114 番組一覧表示制御部, 131 形態素比較部, 132 記録制御部, 133 類似度スコア算出部, 134 総類似率算出部, 201 差分算出部

Claims (10)

  1. 複数のコンテンツそれぞれに関連する関連データとしてのテキストデータを取得する取得手段と、
    前記取得手段によって取得された前記テキストデータを、属性毎に、所定の単位の言葉に分解する分解手段と、
    前記分解手段によって分解された、前記複数のコンテンツの前記テキストデータ同士の言葉を比較することで、前記テキストデータ同士の言葉において、属性の順序が連続して一致する言葉の数を示す一致長を求める比較手段と、
    前記比較手段によって求められた前記一致長に基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度を示す類似度スコアを算出する算出手段と、
    前記算出手段によって算出された、前記複数のコンテンツのうちの所定のコンテンツと他のコンテンツとの類似度スコアに基づいて、前記複数のコンテンツの一覧の表示を制御する表示制御手段と
    を備える情報処理装置。
  2. 前記算出手段は、前記一致長の大きさ毎の前記一致長の個数と、前記一致長に応じた重みとに基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度スコアを算出する
    請求項1に記載の情報処理装置。
  3. 前記重みは、前記一致長の大きさが大きいほど大きな値をとる
    請求項2に記載の情報処理装置。
  4. 前記分解手段は、前記取得手段によって取得された前記テキストデータを形態素解析することで、形態素に分解し、
    前記比較手段は、前記分解手段によって分解された、前記複数のコンテンツの前記テキストデータ同士の形態素を比較することで、前記テキストデータ同士の形態素において、品詞の順序が連続して一致する形態素の数を示す前記一致長を求める
    請求項1に記載の情報処理装置。
  5. 前記表示制御手段は、前記所定のコンテンツと前記他のコンテンツとの前記類似度スコアの、所定の閾値との大小関係に基づいて、前記他のコンテンツの、前記複数のコンテンツの一覧における表示を制御する
    請求項1に記載の情報処理装置。
  6. 前記表示制御手段は、前記所定のコンテンツとの前記類似度スコアが、所定の閾値より大きい前記他のコンテンツの、前記複数のコンテンツの一覧における表示を強調するように制御する
    請求項1に記載の情報処理装置。
  7. 前記表示制御手段は、前記所定のコンテンツとの前記類似度スコアが、所定の閾値より大きい前記他のコンテンツのみ、前記複数のコンテンツの一覧に表示されるように制御する
    請求項1に記載の情報処理装置。
  8. 前記複数のコンテンツのうちの前記所定のコンテンツおよび前記他のコンテンツそれぞれに関連するデータであって、前記テキストデータ以外のデータの差異を検出する差異検出手段をさらに備え、
    前記分解手段は、前記差異検出手段によって検出された差異が、所定の度合いより小さくなる前記所定のコンテンツおよび前記他のコンテンツの前記テキストデータを、所定の単位の言葉に分解する
    請求項1に記載の情報処理装置。
  9. 複数のコンテンツそれぞれに関連する関連データとしてのテキストデータを取得する取得ステップと、
    前記取得ステップの処理によって取得された前記テキストデータを、属性毎に、所定の単位の言葉に分解する分解ステップと、
    前記分解ステップの処理によって分解された、前記複数のコンテンツの前記テキストデータ同士の言葉を比較することで、前記テキストデータ同士の言葉において、属性の順序が連続して一致する言葉の数を示す一致長を求める比較ステップと、
    前記比較ステップの処理によって求められた前記一致長に基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度を示す類似度スコアを算出する算出ステップと、
    前記算出ステップの処理によって算出された、前記複数のコンテンツのうちの所定のコンテンツと他のコンテンツとの類似度スコアに基づいて、前記複数のコンテンツの一覧の表示を制御する表示制御ステップと
    を含む情報処理方法。
  10. 複数のコンテンツそれぞれに関連する関連データしてのテキストデータを取得する取得ステップと、
    前記取得ステップの処理によって取得された前記テキストデータを、属性毎に、所定の単位の言葉に分解する分解ステップと、
    前記分解ステップの処理によって分解された、前記複数のコンテンツの前記テキストデータ同士の言葉を比較することで、前記テキストデータ同士の言葉において、属性の順序が連続して一致する言葉の数を示す一致長を求める比較ステップと、
    前記比較ステップの処理によって求められた前記一致長に基づいて、前記テキストデータ同士に対応する前記コンテンツ同士の類似度を示す類似度スコアを算出する算出ステップと、
    前記算出ステップの処理によって算出された、前記複数のコンテンツのうちの所定のコンテンツと他のコンテンツとの類似度スコアに基づいて、前記複数のコンテンツの一覧の表示を制御する表示制御ステップと
    を含む処理をコンピュータに実行させるプログラム。
JP2009035130A 2009-02-18 2009-02-18 情報処理装置および方法、並びにプログラム Expired - Fee Related JP4735726B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2009035130A JP4735726B2 (ja) 2009-02-18 2009-02-18 情報処理装置および方法、並びにプログラム
US12/688,216 US20100211380A1 (en) 2009-02-18 2010-01-15 Information processing apparatus and information processing method, and program
CN2010101176027A CN101808210B (zh) 2009-02-18 2010-02-10 信息处理设备、信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009035130A JP4735726B2 (ja) 2009-02-18 2009-02-18 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2010193147A true JP2010193147A (ja) 2010-09-02
JP4735726B2 JP4735726B2 (ja) 2011-07-27

Family

ID=42560694

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009035130A Expired - Fee Related JP4735726B2 (ja) 2009-02-18 2009-02-18 情報処理装置および方法、並びにプログラム

Country Status (3)

Country Link
US (1) US20100211380A1 (ja)
JP (1) JP4735726B2 (ja)
CN (1) CN101808210B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160052124A (ko) * 2014-11-04 2016-05-12 현대모비스 주식회사 멀티데이터 방송 수신장치 및 그 제어방법

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104603779A (zh) * 2012-08-31 2015-05-06 日本电气株式会社 文本挖掘设备、文本挖掘方法和计算机可读记录介质
CN103514283A (zh) * 2013-09-29 2014-01-15 方正国际软件有限公司 疑似数据对比显示系统和方法
CN105120335B (zh) * 2015-08-17 2018-08-24 无锡天脉聚源传媒科技有限公司 一种处理电视节目图片的方法和装置
CN111144104B (zh) * 2018-11-02 2023-06-20 中国电信股份有限公司 文本相似度的确定方法、装置和计算机可读存储介质
CN113490912A (zh) * 2019-02-21 2021-10-08 三菱电机株式会社 信息处理装置、信息处理方法及信息处理程序
CN113065311A (zh) * 2021-02-26 2021-07-02 成都环宇知了科技有限公司 一种基于OpenXml处理Power Point文稿内容的评分方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171222A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 情報抽出装置および方法、プログラム
JP2004178044A (ja) * 2002-11-25 2004-06-24 Mitsubishi Electric Corp 属性抽出方法及びその装置及び属性抽出プログラム
JP2010066964A (ja) * 2008-09-10 2010-03-25 Kobe Steel Ltd 文検索装置,文検索プログラム,文検索方法

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5887120A (en) * 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
TW421764B (en) * 1996-05-21 2001-02-11 Hitachi Ltd Input character string estimation and identification apparatus
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
JP4198786B2 (ja) * 1998-06-30 2008-12-17 株式会社東芝 情報フィルタリングシステム、情報フィルタリング装置、映像機器および情報フィルタリング方法
JP2000113064A (ja) * 1998-10-09 2000-04-21 Fuji Xerox Co Ltd 最適行為者選定支援システム
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
CN100592788C (zh) * 2000-04-14 2010-02-24 日本电信电话株式会社 与广播信息相关的信息取得方法、系统和装置
US20020123994A1 (en) * 2000-04-26 2002-09-05 Yves Schabes System for fulfilling an information need using extended matching techniques
US6823331B1 (en) * 2000-08-28 2004-11-23 Entrust Limited Concept identification system and method for use in reducing and/or representing text content of an electronic document
AU2001293595A1 (en) * 2000-09-29 2002-04-08 Gavagai Technology Incorporated A method and system for describing and identifying concepts in natural language text for information retrieval and processing
US7356188B2 (en) * 2001-04-24 2008-04-08 Microsoft Corporation Recognizer of text-based work
US7421418B2 (en) * 2003-02-19 2008-09-02 Nahava Inc. Method and apparatus for fundamental operations on token sequences: computing similarity, extracting term values, and searching efficiently
TWI270792B (en) * 2003-03-28 2007-01-11 Lin-Shan Lee Speech-based information retrieval
JP4251634B2 (ja) * 2004-06-30 2009-04-08 株式会社東芝 マルチメディアデータ再生装置およびマルチメディアデータ再生方法
US20080250452A1 (en) * 2004-08-19 2008-10-09 Kota Iwamoto Content-Related Information Acquisition Device, Content-Related Information Acquisition Method, and Content-Related Information Acquisition Program
US20070130112A1 (en) * 2005-06-30 2007-06-07 Intelligentek Corp. Multimedia conceptual search system and associated search method
JP2007241902A (ja) * 2006-03-10 2007-09-20 Univ Of Tsukuba テキストデータの分割システム及びテキストデータの分割及び階層化方法
JP4407661B2 (ja) * 2006-04-05 2010-02-03 ソニー株式会社 放送番組予約装置、放送番組予約方法及びそのプログラム
CA2653932C (en) * 2006-06-02 2013-03-19 Telcordia Technologies, Inc. Concept based cross media indexing and retrieval of speech documents
CN101013421B (zh) * 2007-02-02 2012-06-27 清华大学 基于规则的汉语基本块自动分析方法
CN101359325B (zh) * 2007-08-01 2010-06-16 北京启明星辰信息技术股份有限公司 一种快速内容分析的多关键词匹配方法
US20090132493A1 (en) * 2007-08-10 2009-05-21 Scott Decker Method for retrieving and editing HTML documents
CN100520782C (zh) * 2007-11-09 2009-07-29 清华大学 一种基于词频和多元文法的新闻关键词抽取方法
JP5355949B2 (ja) * 2008-07-16 2013-11-27 株式会社東芝 次検索キーワード提示装置、次検索キーワード提示方法、及び次検索キーワード提示プログラム
US20100131563A1 (en) * 2008-11-25 2010-05-27 Hongfeng Yin System and methods for automatic clustering of ranked and categorized search objects

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004171222A (ja) * 2002-11-19 2004-06-17 Yamatake Corp 情報抽出装置および方法、プログラム
JP2004178044A (ja) * 2002-11-25 2004-06-24 Mitsubishi Electric Corp 属性抽出方法及びその装置及び属性抽出プログラム
JP2010066964A (ja) * 2008-09-10 2010-03-25 Kobe Steel Ltd 文検索装置,文検索プログラム,文検索方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160052124A (ko) * 2014-11-04 2016-05-12 현대모비스 주식회사 멀티데이터 방송 수신장치 및 그 제어방법
KR102244965B1 (ko) * 2014-11-04 2021-04-27 현대모비스 주식회사 멀티데이터 방송 수신장치 및 그 제어방법

Also Published As

Publication number Publication date
JP4735726B2 (ja) 2011-07-27
US20100211380A1 (en) 2010-08-19
CN101808210B (zh) 2012-02-08
CN101808210A (zh) 2010-08-18

Similar Documents

Publication Publication Date Title
JP4735726B2 (ja) 情報処理装置および方法、並びにプログラム
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US9280709B2 (en) Information processing device, information processing method and program
US9232205B2 (en) Information processing device, information processing method and program
US7698721B2 (en) Video viewing support system and method
CN101778233B (zh) 数据处理装置以及数据处理方法
US7844115B2 (en) Information processing apparatus, method, and program product
US20050044091A1 (en) Contents retrieval system
US7769761B2 (en) Information processing apparatus, method, and program product
JP2004533756A (ja) 自動コンテンツ分析及びマルチメデイア・プレゼンテーションの表示
JP2008176538A (ja) 映像属性情報出力装置、映像要約装置、プログラムおよび映像属性情報出力方法
KR20070020208A (ko) 콘텐트를 프로그램에서 위치지정하는 방법 및 장치
JP2007148976A (ja) 関連情報検索装置
JP2010124224A (ja) 番組情報表示装置および方法
JP2007174255A (ja) 録画再生装置
JP2007102489A (ja) 番組データ処理装置、番組データ処理方法、制御プログラム、記録媒体、ならびに、番組データ処理装置を備えた録画装置、再生装置、および、情報表示装置
CN101431645A (zh) 节目录像再现装置以及节目录像再现方法
JP2006343941A (ja) コンテンツ検索・再生方法、装置、プログラム、及び記録媒体
GB2475584A (en) Searching and extracting digital images from digital video files
JP2004289530A (ja) 記録再生装置
Hauptmann et al. Artificial intelligence techniques in the interface to a digital video library
JP4270118B2 (ja) 映像シーンに対する意味ラベル付与方法及び装置及びプログラム
Amir et al. Automatic generation of conference video proceedings
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
Dumont et al. Sequence alignment for redundancy removal in video rushes summarization

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110104

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110113

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110307

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110329

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110411

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees