JP4873018B2 - データ処理装置、データ処理方法、及び、プログラム - Google Patents

データ処理装置、データ処理方法、及び、プログラム Download PDF

Info

Publication number
JP4873018B2
JP4873018B2 JP2009003688A JP2009003688A JP4873018B2 JP 4873018 B2 JP4873018 B2 JP 4873018B2 JP 2009003688 A JP2009003688 A JP 2009003688A JP 2009003688 A JP2009003688 A JP 2009003688A JP 4873018 B2 JP4873018 B2 JP 4873018B2
Authority
JP
Japan
Prior art keywords
timing information
keyword
timing
data
image data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009003688A
Other languages
English (en)
Other versions
JP2010161722A (ja
Inventor
康治 浅野
賢一郎 小林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2009003688A priority Critical patent/JP4873018B2/ja
Priority to US12/651,799 priority patent/US9049418B2/en
Priority to CN2010100029016A priority patent/CN101778233B/zh
Publication of JP2010161722A publication Critical patent/JP2010161722A/ja
Application granted granted Critical
Publication of JP4873018B2 publication Critical patent/JP4873018B2/ja
Priority to US14/686,816 priority patent/US9837125B2/en
Priority to US15/811,031 priority patent/US20180068690A1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/4508Management of client data or end-user data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/78Television signal recording using magnetic recording
    • H04N5/782Television signal recording using magnetic recording on tape
    • H04N5/783Adaptations for reproducing at a rate different from the recording rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8211Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a sound signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8233Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being a character code signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/87Regeneration of colour television signals
    • H04N9/8715Regeneration of colour television signals involving the mixing of the reproduced video signal with a non-recorded signal, e.g. a text signal
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N9/00Details of colour television systems
    • H04N9/79Processing of colour television signals in connection with recording
    • H04N9/80Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback
    • H04N9/82Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only
    • H04N9/8205Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal
    • H04N9/8227Transformation of the television signal for recording, e.g. modulation, frequency changing; Inverse transformation for playback the individual colour picture signal components being recorded simultaneously only involving the multiplexing of an additional signal and the colour video signal the additional signal being at least another television signal

Description

本発明は、データ処理装置、データ処理方法、及び、プログラムに関し、特に、例えば、テレビジョン放送の番組等のコンテンツの内容を、ユーザが容易に把握することができるようにするデータ処理装置、データ処理方法、及び、プログラムに関する。
例えば、テレビジョン放送の番組等の、画像及び音声を含むコンテンツの内容(概要)を、ユーザが、容易に把握することができるようにするためのコンテンツの再生方法として、ダイジェスト再生がある。
ダイジェスト再生では、例えば、コンテンツの画像の特徴量や、音声の特徴量に基づき、コンテンツが、幾つかのシーンに分割される。そして、各シーンの先頭の画像等の代表的な画像のサムネイル等のダイジェスト再生用の画像が生成されて表示される。
また、ダイジェスト再生用の画像の生成にあたり、比較的低い負荷で、コンテンツに含まれるセリフ部分を効率的に抽出する方法として、字幕の表示期間に再生されている音声の再生期間の中から、セリフの音声の再生期間を抽出する方法がある(例えば、特許文献1を参照)。
特開2008-124551号公報
ところで、ダイジェスト再生において、上述したように、各シーンの先頭の画像のサムネイルを表示するだけでは、ユーザは、各シーンのサムネイルからでは、必ずしも、そのシーンの内容を把握することが困難なことがある。
例えば、ニュース番組(報道番組)については、そのニュース番組を分割したシーンの多くの先頭の画像が、キャスタ(アナウンサ)が写っている画像となることがある。
この場合、ダイジェスト再生で表示されるサムネイルの多くは、キャスタが写っている画像のサムネイルとなり、そのサムネイルを見るだけでは、各シーンの内容を把握することが困難である。
本発明は、このような状況に鑑みてなされたものであり、ユーザが、画像及び音声を含むコンテンツの内容を、容易に把握することができるようにするものである。
本発明の一側面のデータ処理装置、又は、プログラムは、画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得するテキスト取得手段と、前記テキストから、前記キーワードを取得するキーワード取得手段と、前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得する音声検索手段と、前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う再生制御手段とを備え、前記再生制御手段は、前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、前記類似度に基づき、前記音声検索手段で取得されたタイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成するデータ処理装置、又は、データ処理装置として、コンピュータを機能させるためのプログラムである。
本発明の一側面のデータ処理方法は、データ処理装置が、画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得し、前記テキストから、前記キーワードを取得し、前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得し、前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行うステップを含み、前記再生制御では、前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、前記類似度に基づき、前記タイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成するデータ処理方法である。
本発明の一側面においては、画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストが取得され、前記テキストから、前記キーワードが取得される。さらに、前記コンテンツデータの前記音声データから、前記キーワードの発話が検索され、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報が取得される。そして、前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データが生成され、前記表示用画像データに対応する前記表示用画像が、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示される。その際、前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度が算出され、前記類似度に基づき、前記タイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報が、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択される。そして、前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データが生成される。
なお、データ処理装置は、独立した装置であっても良いし、1つの装置を構成している内部ブロックであっても良い。
また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。
本発明の一側面によれば、ユーザは、コンテンツのシーンの内容を、容易に把握することが可能となる。すなわち、例えば、画像及び音声を含むコンテンツにおいて、所定の単語等が内容を表すシーン等のタイミングを取得し、そのタイミング付近の画像とともに、所定の単語等を表示することができ、その結果、ユーザは、コンテンツのシーンの内容を、容易に把握することが可能となる。
本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。 タイミング情報取得処理を説明するフローチャートである。 再生処理を説明するフローチャートである。 テキスト取得部21の第1の構成例を示すブロック図である。 テキスト取得部21の第1の構成例の処理を説明するフローチャートである。 表示用画像の表示例を示す図である。 表示用画像の表示例を示す図である。 テキスト取得部21の第2の構成例を示すブロック図である。 テキスト取得部21の第2の構成例の処理を説明するフローチャートである。 特定コンテンツ検索処理を説明するフローチャートである。 音声検索部24の構成例を示すブロック図である。 音声検索部24が行うインデクス作成処理を説明するフローチャートである。 表示用画像生成部31の第1の構成例を示すブロック図である。 表示用画像生成部31の第1の構成例の処理を説明するフローチャートである。 表示用画像生成部31の第2の構成例を示すブロック図である。 表示用画像生成部31の第2の構成例の処理を説明するフローチャートである。 表示用画像生成部31の第2の構成例の他の処理を説明するフローチャートである。 リスト変更処理を説明するフローチャートである。 本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
[本発明を適用したレコーダの一実施の形態の構成例]
図1は、本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。
図1において、レコーダは、例えば、HD(Hard Disk)レコーダ等であり、コンテンツ取得部11、コンテンツ保持部12、タイミング情報取得部20、及び、再生制御部30から構成される。
コンテンツ取得部11は、例えば、テレビジョン放送の番組等としての画像及び音声等のコンテンツのコンテンツデータを取得し、コンテンツ保持部12に供給する。
さらに、コンテンツ取得部11は、コンテンツデータに、そのコンテンツデータに対応するコンテンツのメタデータが付与されている場合には、そのメタデータをも取得し、コンテンツ保持部12に供給する。
すなわち、コンテンツ取得部11は、例えば、ディジタル放送等のテレビジョン放送の放送データを受信するチューナであり、図示せぬ放送局から送信(放送)されてくる放送データとしての、例えば、TS(Transport Stream)等を受信することにより取得し、コンテンツ保持部12に供給する。
ここで、放送データには、コンテンツである番組のデータとしてのコンテンツデータが含まれる。さらに、放送データには、番組のメタデータ(番組(コンテンツ)に付与されたメタデータ)としてのEPG(Electronic Program Guide)等のデータが必要に応じて含まれる。
また、番組のデータとしてのコンテンツデータには、番組の画像データと、その画像データに付随する音声データとが、少なくとも含まれる。さらに、コンテンツデータには、クローズドキャプション等の字幕データが含まれることがある。コンテンツデータに、字幕データが含まれる場合、コンテンツデータには、さらに、字幕データに対応する字幕を表示する表示時刻を表す表示時刻情報が含まれる。
なお、コンテンツ取得部11は、例えば、LAN(Local Area Network)やインターネット等のネットワークを介した通信を行う通信I/F(Interface)等で構成することができる。この場合、コンテンツ取得部11は、ネットワーク上のサーバからダウンロードすることができるコンテンツデータやメタデータ(例えば、いわゆるiEPG等のデータ)を受信することにより取得する。
また、コンテンツ取得部11は、DVD等のパッケージメディアに記録されたコンテンツを再生することにより取得することが可能である。
コンテンツ保持部12は、例えば、HD(Hard Disk)等の大容量の記録(記憶)媒体で構成され、コンテンツ取得部11から供給されるコンテンツデータを、必要に応じて記録(記憶)(保持)する。
また、コンテンツ取得部11からコンテンツ保持部12に対して、EPGのデータ等のコンテンツ(番組)のメタデータが供給される場合、コンテンツ保持部12は、そのメタデータも記録する。
なお、コンテンツ保持部12へのコンテンツデータの記録が、録画(予約録画や、いわゆるおまかせ録画、ダビング等を含む)に相当する。
タイミング情報取得部20は、コンテンツ保持部12にコンテンツデータが記録されたコンテンツにおいて、キーワードが発話されるタイミングを表すタイミング情報を取得するデータ処理装置として機能する。
すなわち、タイミング情報取得部20は、テキスト取得部21、キーワード取得部22、音声データ取得部23、音声検索部24、及び、タイミング情報記憶部25から構成される。
テキスト取得部21は、音声検索部24で音声検索を行うキーワードを取得するためのテキストを取得し、キーワード取得部22に供給する。
キーワード取得部22は、テキスト取得部21からのテキストから、音声検索の対象とする文字列であるキーワードを取得し、音声検索部24に供給する。
ここで、キーワード取得部22では、テキスト取得部21からのテキスト全体を、1個のキーワードとして取得することができる。
また、キーワード取得部22では、テキスト取得部21からのテキストに対して、形態素解析等の自然言語処理を施すことにより、テキストを形態素に分解し、そのテキストを構成する形態素の全部、又は一部を、キーワードとして取得することができる。
ここで、キーワード取得部22では、例えば、形態素の読み情報(音韻)を取得し、その読み情報に基づき、読みが長い単語(読みの文字数が所定数以上の単語)を、キーワードとして取得することができる。
また、キーワード取得部22では、出現頻度が所定回数以上の形態素のうちの、助詞等の付属語以外(自立語)を、キーワードとして取得することができる。
さらに、キーワード取得部22では、品詞が固有名詞の形態素を、キーワードとして取得することができる。
その他、キーワード取得部22では、例えば、いわゆる固有表現抽出技術で抽出される文字列等を、キーワードとして取得することができる。
音声データ取得部23は、コンテンツ保持部12にコンテンツデータが記録されているコンテンツのうちの、注目する注目コンテンツのコンテンツデータの音声データを読み出すことにより取得し、音声検索部24に供給する。
音声検索部24は、音声データ取得部23から供給される注目コンテンツの音声データから、キーワード取得部22から供給されるキーワードの発話を検索する音声検索を行う。さらに、音声検索部24は、発話が検索されたキーワードの発話のタイミング、すなわち、例えば、注目コンテンツの先頭等を基準する、キーワードが発話される時刻(タイミング)を表すタイミング情報を取得する。
ここで、タイミング情報としては、例えば、タイムコード等を採用することができる。また、キーワードの発話のタイミングとしては、例えば、発話の開始又は終了のタイミングを採用することもできるし、その他、発話の中の任意のタイミングを採用することもできる。
音声検索部24は、注目コンテンツについて、発話が検索されたキーワードと、その発話のタイミングを表すタイミング情報とを対応付けて登録したタイミング情報リストを生成し、タイミング情報記憶部25に供給する。
タイミング情報記憶部25は、音声検索部24から供給される、注目コンテンツについてのタイミング情報リストを、注目コンテンツ(を識別する識別情報)と対応付けて記憶する。
再生制御部30は、コンテンツ保持部12にコンテンツデータが記録されているコンテンツのうちの、再生の対象として指定されたコンテンツを、再生の対象である再生コンテンツとして、その再生コンテンツのダイジェスト再生等の再生を制御する再生制御を行う。
すなわち、再生制御部30は、表示用画像生成部31、及び、表示制御部32から構成される。
表示用画像生成部31は、コンテンツ保持部12から、再生コンテンツのコンテンツデータの画像データを取得するとともに、タイミング情報記憶部25から、再生コンテンツについてのタイミング情報リストを取得する。
さらに、表示用画像生成部31は、再生コンテンツの画像データのうちの、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データから、そのタイミング情報に対応付けられたキーワードとともに表示する表示用画像の表示用画像データを生成する。
ここで、表示用画像としては、例えば、いわゆるサムネイル等の、元の画像を縮小した縮小画像等を採用することができる。
表示用画像生成部31は、タイミング情報に対応するキーワードと表示用画像データ、すなわち、タイミング情報に対応付けられたキーワードと、そのタイミング情報が表すタイミング付近の画像データから生成された表示用画像データとのセットを、表示制御部32に供給する。
表示制御部32は、表示用画像生成部31からの表示用画像データに対応する表示用画像を、その表示用画像データとセットになっているキーワードとともに、例えば、TV(テレビジョン受像機)等の表示装置40に表示させる。
以上のように構成されるレコーダでは、タイミング情報取得処理や、再生処理等が行われる。
タイミング情報取得処理は、タイミング情報取得部20によって行われる。そして、タイミング情報取得処理では、コンテンツにおける、キーワードの発話のタイミングを表すタイミング情報が取得される。
また、再生処理は、再生制御部30によって行われる。そして、再生処理では、タイミング情報取得処理で取得されたタイミング情報を利用して、ダイジェスト再生等が行われる。
[タイミング情報取得処理の説明]
図2を参照して、図1のタイミング情報取得部20が行うタイミング情報取得処理を説明する。
なお、図1のレコーダにおいて、コンテンツ保持部12には、1以上のコンテンツのコンテンツデータが、既に記録されていることとする。また、タイミング情報取得処理は、任意のタイミングで行われる(開始される)。
タイミング情報取得処理では、ステップS11において、テキスト取得部21がテキストを取得し、キーワード取得部22に供給して、処理は、ステップS12に進む。
ステップS12では、キーワード取得部22は、テキスト取得部21からのテキストから、音声検索の対象とする文字列であるキーワードを取得し、1個以上のキーワードを登録したキーワードリストを作成する。
すなわち、キーワード取得部22は、テキスト取得部21からのテキストから、音声検索の対象とする1個以上の文字列を抽出し、各文字列を、キーワードとして登録したキーワードリストを作成する。
その後、処理は、ステップS12からステップS13に進み、音声データ取得部23は、コンテンツ保持部12にコンテンツデータが記録されているコンテンツのうちの、まだ、注目コンテンツとしていないコンテンツの1つを、注目コンテンツとして選択する。さらに、ステップS13では、音声データ取得部23は、注目コンテンツのコンテンツデータの音声データを、コンテンツ保持部12から取得し、音声検索部24に供給する。
そして、処理は、ステップS13からステップS14に進み、以下、ステップS14ないしS19において、注目コンテンツについてのタイミング情報リストを生成するタイミング情報リスト生成処理が行われる。
すなわち、ステップS14において、音声検索部24は、キーワード取得部22からのキーワードリストに、キーワードが登録されているかどうかを判定する。
ステップS14において、キーワードリストに、キーワードが登録されていると判定された場合、処理は、ステップS15に進み、音声検索部24は、キーワードリストに登録されているキーワードのうちの1つを、注目する注目キーワードとして選択し、処理は、ステップS16に進む。
ステップS16では、音声検索部24は、音声データ取得部23から供給される注目コンテンツの音声データから、注目キーワードの発話を検索する音声検索を行い、処理は、ステップS17に進む。
ここで、音声データからの注目キーワードの発話の音声検索は、例えば、いわゆるキーワードスポッティングを利用して行うことができる。
また、音声検索は、その他、例えば、音声データ取得部23から音声検索部24に供給される音声データの音素、及び、音素の位置のインデクスを作成し、注目キーワードを構成する音素の系列を、そのインデクスから探し出す方法(以下、インデクス検索法ともいう)等を利用して行うことができる。インデクス検索法については、例えば、N.Kanda, et al. "Open-VocaburaryKeyword Detection from Super-Large Scale Speech Database," IEEE SingalProcessing Society 2008 International Workshop on Multimedia SignalProcessingに記載されている。
ステップS17では、音声検索部24は、ステップS16での音声検索の結果に基づき、注目コンテンツの音声データに、注目キーワードの発話(注目キーワードを発話した音声データ)があったかどうかを判定する。
ステップS17において、注目コンテンツの音声データに、注目キーワードの発話があったと判定された場合、音声検索部24は、その発話のタイミングを検出し、処理は、ステップS18に進む。
ステップS18では、音声検索部24は、注目コンテンツについてのタイミング情報リストに、注目キーワードと、注目キーワードの発話のタイミングを表すタイミング情報とを対応付けて登録し(記憶させ)、処理は、ステップS19に進む。
一方、ステップS17において、注目コンテンツの音声データに、注目キーワードの発話がなかったと判定された場合、処理は、ステップS18をスキップして、ステップS19に進む。
ステップS19では、音声検索部24が、キーワードリストから、注目キーワードを削除して、処理は、ステップS14に戻り、以下、同様の処理が繰り返される。
そして、ステップS14において、キーワードリストに、キーワードが登録されていないと判定された場合、すなわち、ステップS12で作成されたキーワードリストに登録されたキーワードすべてについて、音声検索が行われた場合、音声検索部24は、注目コンテンツについてのタイミング情報リストをタイミング情報記憶部25に供給して記憶させ、処理は終了する。
以上のように、タイミング情報取得処理では、テキスト取得部21において、テキストが取得され、キーワード取得部22において、そのテキストから、キーワードが取得される。そして、音声検索部24において、注目コンテンツの音声データから、キーワードの発話が検索され、発話が検索されたキーワードの発話のタイミングを表すタイミング情報が取得される。
したがって、コンテンツにおいて、キーワードが発話されるシーン、すなわち、キーワードが内容を説明するシーンのタイミング(を表すタイミング情報)を取得することができる。
[再生処理の説明]
図3を参照して、図1の再生制御部30が行う再生処理を説明する。
なお、図1のレコーダにおいては、図2のタイミング情報取得処理が行われ、タイミング情報記憶部25には、コンテンツ保持部12にコンテンツデータが記録されているコンテンツのすべてについて、タイミング情報リストが、既に記憶されていることとする。
例えば、ユーザが、図示せぬ操作部を操作することにより、コンテンツ保持部12にコンテンツデータが記録されているコンテンツの中から、ダイジェスト再生をするコンテンツを指定すると、ステップS31において、表示用画像生成部31は、ユーザによって指定されたコンテンツを、再生コンテンツとして選択し、処理は、ステップS32に進む。
ステップS32では、表示用画像生成部31が、コンテンツ保持部12から、再生コンテンツの画像データを取得するとともに、タイミング情報記憶部25から、再生コンテンツについてのタイミング情報リストを取得して、処理は、ステップS33に進む。
ステップS33では、表示用画像生成部31は、再生コンテンツの画像データのうちの、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データを取得し、その画像データから、表示用画像データを生成する。
すなわち、表示用画像生成部31は、例えば、タイミング情報リストに登録されたタイミング情報が表すタイミングのフレーム(フィールド)の画像データから、サムネイルの画像データを、表示用画像データとして生成する。
表示用画像生成部31は、タイミング情報リストに登録されたタイミング情報すべてについて、表示用画像データを生成し、各表示用画像データを、その表示用画像データに対応するキーワードとセット(タイミング情報に対応付けられたキーワードと、そのタイミング情報が表すタイミング付近の画像データから生成された表示用画像データとのセット)にして、表示制御部32に供給する。
その後、処理は、ステップS33からステップS34に進み、表示制御部32は、表示用画像データ生成部31からの表示用画像データに対応する表示用画像の一覧を、対応するキーワードとともに、表示装置40に表示させ、処理は終了する。
すなわち、これにより、表示装置40においては、表示用画像が、その表示用画像データとセットになっているキーワード、つまり、表示用画像を含むシーンの内容を説明するキーワードとともに表示される。
したがって、ユーザは、再生コンテンツの各シーンの内容を、容易に把握することができる。
すなわち、例えば、前述したように、再生コンテンツが、ニュース番組であり、表示用画像の多くが、キャスタが写っている同じような画像となったとしても、各表示用画像とともに表示されるキーワードを見ることにより、ユーザは、表示用画像を含むシーンの内容を、容易に把握することができる。
なお、表示用画像の一覧において、表示用画像は、例えば、その表示用画像を生成するのに用いた画像データのフレームの表示時刻の順番で表示される。
また、ここでは、タイミング情報が表すタイミングのフレームのサムネイルを、表示用画像とすることとしたが、表示用画像としては、その他、例えば、タイミング情報が表すタイミングの画像を含む所定の短時間分の動画(サイズを縮小したものを含む)等を採用することが可能である。
[テキスト取得部21の第1の構成例]
図4は、図1のテキスト取得部21の第1の構成例を示している。
図4では、テキスト取得部41は、関連テキスト取得部50から構成される。
関連テキスト取得部50は、コンテンツ保持部12にコンテンツデータが記録されたコンテンツに関連するテキスト(以下、関連テキストともいう)を取得し、キーワード取得部22に供給する。
すなわち、図4において、関連テキスト取得部50は、メタデータ取得部51と、字幕データ取得部52とから構成される。
メタデータ取得部51は、注目コンテンツのメタデータが、コンテンツ保持部12に記録されている場合、そのメタデータを、コンテンツ保持部12から読み出すことにより、関連テキストとして取得し、キーワード取得部22に供給する。
すなわち、メタデータ取得部51は、例えば、注目コンテンツが、テレビジョン放送の番組であり、そのメタデータとしてのEPGのデータが、コンテンツ保持部12に記録されている場合には、そのEPGのデータから、注目コンテンツとしての番組のタイトルや、出演者の氏名、あらすじ(概要)等の関連テキストを抽出し、キーワード取得部22に供給する。
なお、メタデータ取得部51では、注目コンテンツのメタデータを、コンテンツ保持部12に記録されているメタデータから取得する他、インターネット等のネットワーク上のサイトから取得することができる。
すなわち、メタデータ取得部51では、例えば、インターネット上の、iEPGを提供しているサイトや、番組の放送局のサイト等の、番組の情報を提供しているサイト(webページ等)から、注目コンテンツのメタデータを取得することができる。
字幕データ取得部52は、注目コンテンツのコンテンツデータが、画像データ及び音声データの他、字幕データを含む場合に、その字幕データを、コンテンツ保持部12から読み出すことにより、関連テキストとして取得し、キーワード取得部22に供給する。
なお、字幕データ取得部52は、コンテンツ保持部12から字幕データを取得する他、その字幕データに対応する字幕を表示する表示時刻を表す表示時刻情報も、コンテンツ保持部12から取得する。そして、字幕データ取得部52は、表示時刻情報を、音声検索部24に供給する。
この場合、音声検索部24は、関連テキストとしての字幕データから取得されたキーワードの発話の音声検索を、その字幕データについての表示時刻情報が表す表示時刻のタイミング付近の音声データ、すなわち、例えば、字幕データに対応する字幕の表示開始時刻から表示終了時刻までの区間を、前後に所定の時間だけ延長した区間の音声データ等に限定して行うことができる。
キーワードの発話の音声検索を、注目コンテンツの音声データの全区間ではなく、表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行うことにより、音声検索の精度の向上、検索に要する処理量の低減、及び、検索の処理の高速化等を図ることができる。そして、その結果、タイミング情報取得処理を、効率的に行うことができる。
なお、字幕が、字幕データとしてコンテンツデータに含まれるのではなく、コンテンツの画像に、テロップ等の形で重畳されている場合には、字幕データ取得部52では、画像処理により、テロップを抽出し、さらに、文字認識によって、テロップを、テキストの字幕データとすることにより、字幕が、字幕データとしてコンテンツデータに含まれる場合と同様の処理を行うことができる。
[テキスト取得部21の第1の構成例の処理]
図5を参照して、図4のテキスト取得部21の第1の構成例の処理、すなわち、図2のタイミング情報取得処理におけるステップS11の処理を説明する。
ステップS41において、メタデータ取得部51は、注目コンテンツのメタデータが、コンテンツ保持部12や、インターネット上のサイトにあるかどうかを判定する。
ステップS41において、注目コンテンツのメタデータが、コンテンツ保持部12や、インターネット上のサイトにあると判定された場合、ステップS42に進み、メタデータ取得部51は、コンテンツ保持部12や、インターネット上のサイトから、注目コンテンツのメタデータを、関連テキストとして取得する。さらに、メタデータ取得部51は、関連テキストとしてのメタデータを、キーワード取得部22に供給して、処理は、ステップS42からステップS43に進む。
また、ステップS41において、注目コンテンツのメタデータが、コンテンツ保持部12、及び、インターネット上のサイトのいずれにもないと判定された場合、処理は、ステップS42をスキップして、ステップS43に進む。
ステップS43では、字幕データ取得部52は、注目コンテンツの字幕データが、コンテンツ保持部12にあるかどうかを判定する。
ステップS43において、注目コンテンツの字幕データが、コンテンツ保持部12にあると判定された場合、処理は、ステップS44に進み、字幕データ取得部52は、コンテンツ保持部12から、注目コンテンツの字幕データを、関連テキストとして取得するとともに、その字幕データの表示時刻情報を取得する。さらに、字幕データ取得部52は、関連テキストとしての字幕データを、キーワード取得部22に供給するとともに、表示時刻情報を、音声検索部24に供給して、処理は、ステップS44からステップS45に進む。
ステップS45では、キーワード取得部22が、メタデータ取得部51、及び、字幕データ取得部52のうちの少なくとも一方から、関連テキストが供給されたか否かを判定する。
ステップS45において、キーワード取得部22に対して、メタデータ取得部51、及び、字幕データ取得部52のうちのいずれからも、関連テキストが供給されていないと判定された場合、キーワードを取得することができないため、タイミング情報取得処理は終了する。
また、ステップS45において、キーワード取得部22に対して、メタデータ取得部51、及び、字幕データ取得部52のうちの少なくとも一方から、関連テキストが供給されたと判定された場合、処理は、図2のステップS12に進み、以下、上述した処理が行われる。
[表示用画像の表示例]
図6は、図3の再生処理で表示される表示用画像の表示例を示している。
すなわち、図6は、例えば、コンテンツとしてのニュース番組を、注目コンテンツとして、図2及び図5で説明したタイミング情報取得処理が行われた後、図3の再生処理において、そのニュース番組が再生コンテンツとして選択された場合に表示される表示用画像の表示例を示している。
図6では、再生コンテンツとしてのニュース番組において、キャスタが写っている4つの画像それぞれのサムネイルが、表示用画像として、左から、表示時刻順に表示されている。
図6の4つのサムネイルは、いずれも、キャスタが写っているだけなので、サムネイルを見るだけでは、ニュース番組の内容を把握することは困難である。
しかしながら、図6では、各サムネイルとともに、そのサムネイルとしての表示用画像に対応するキーワードが表示されている。
すなわち、図6では、キャスタが写っている4つの画像それぞれのサムネイルのうちの(左から)1番目のサムネイルの下部には、キーワード「サブプライムローン」が表示され、2番目のサムネイルの下部には、キーワード「日経平均株価」が表示されている。さらに、3番目のサムネイルの下部には、キーワード「テロ特別措置法」が表示され、4番目のサムネイルの下部には、キーワード「全国高校野球選手権」が表示されている。
したがって、ユーザは、キーワードを見ることにより、ニュース番組の内容を、容易に把握することができる。
ここで、キーワードは、コンテンツを、幾つかのシーンに分割したときに、各シーンのタイトルとして機能するということができる。
なお、図6では、表示用画像として、キーワードが発話されているタイミングの画像のサムネイルを表示することとしたが、表示用画像としては、コンテンツのその他の画像のサムネイルを表示することが可能である。
すなわち、コンテンツの画像から、キーワードが発話されているタイミングに近いタイミングの画像を、サムネイルとする画像の候補(以下、サムネイル候補画像ともいう)として、キーワードが発話されているタイミングの画像に代えて、サムネイル候補画像のサムネイルを、表示用画像として表示することができる。
ここで、サムネイル候補画像としては、キーワードが発話されているタイミングに近いタイミングの画像のうちの、例えば、コンテンツを、画像や音声の特徴量に基づいて分割したときにシーンの先頭となる画像を採用することができる。また、サムネイル候補画像としては、キーワードが発話されているタイミングに近いタイミングの画像のうちの、例えば、画像や音声の特徴量が周辺の特徴量と大きく異なる画像等を採用することができる。
キーワードが発話されているタイミングの画像の以外の画像であるサムネイル候補画像のサムネイルも、表示用画像として表示されうるようにすることで、表示用画像としては、図6に示したキャスタが写っている画像のような同様の(シーン(場面)の)画像ではなく、いわば多様な(シーンの)画像のサムネイルが表示される可能性が高くなる。
図7は、多様な画像のサムネイルが表示用画像として表示される場合の、表示用画像の表示例を示している。
図7では、キーワードが発話されているタイミングの画像に代えて、そのタイミングに近いタイミングのサムネイル候補画像のサムネイルが、4つの表示用画像として、図6に示したキーワードとともに表示されている。
すなわち、図7において、1番目には、例えば、サブプライムローン問題に起因して競売にかけられている住宅が写っているサムネイル候補画像のサムネイルが、キーワード「サブプライムローン」とともに表示されている。
2番目には、例えば、東証Arrowsのマーケットセンターが写っているサムネイル候補画像のサムネイルが、キーワード「日経平均株価」とともに表示されている。
3番目には、例えば、国会内の様子が写っているサムネイル候補画像のサムネイルが、キーワード「テロ特別措置法」とともに表示されている。
4番目には、例えば、高校野球の試合の様子が写っているサムネイル候補画像のサムネイルが、キーワード「全国高校野球選手権」とともに表示されている。
図7の表示用画像は、図6の表示用画像に比較して、ユーザが、コンテンツの内容を把握しやすい画像になっている。
但し、それでも、例えば、3番目の、国会内の様子が写っているサムネイル候補画像のサムネイルによれば、コンテンツの内容が、政治に関することであることは、大雑把に把握することはできるが、それ以上の詳しい内容までを把握することは困難である。
しかしながら、サムネイルとともに表示されているキーワード「テロ特別措置法」により、コンテンツの内容が、テロ特別措置法に関することであることを、容易に把握することができる。
ここで、図6及び図7では、キーワードが、表示用画像の下部に表示されているが、キーワードの表示位置は、特に限定されるものではない。また、キーワードは、表示用画像の一部に重畳して表示することができる。
なお、前述した特許文献1に記載の技術では、セリフの音声の再生期間を抽出するので、その再生期間のみを順次再生するダイジェスト再生を行うことができるが、図6及び図7に示したような表示用画像としてのサムネイルの一覧は表示されない。
また、仮に、特許文献1に記載の技術において、セリフの音声の再生期間の先頭の画像のサムネイルを表示することとしても、図6及び図7に示したように、キーワードは表示されない。したがって、同様の画像のサムネイルが表示される場合には、コンテンツの内容を把握することが困難となる。
[テキスト取得部21の第2の構成例]
図8は、図1のテキスト取得部21の第2の構成例を示している。
図8では、テキスト取得部21は、ユーザ入力取得部61から構成される。
ユーザ入力取得部61は、ユーザからの入力を、テキストとして取得し、キーワード取得部22に供給する。
すなわち、ユーザ入力取得部61は、例えば、ユーザが図示せぬキーボードを操作することにより、そのキーボードから供給される文字列の入力を、テキストとして取得する。また、ユーザ入力取得部61は、例えば、ユーザの発話(音声)の入力を音声認識し、その音声認識の結果得られる文字列を、テキストとして取得する。
[テキスト取得部21の第2の構成例の処理]
図9を参照して、図8のテキスト取得部21の第2の構成例の処理、すなわち、図2のタイミング情報取得処理におけるステップS11の処理を説明する。
ステップS51において、ユーザ入力取得部61は、ユーザがキーボードを操作すること、あるいは、発話を行うことによって、テキストの入力があったかどうかを判定する。ステップS51において、テキストの入力がなかったと判定された場合、処理は、ステップS51に戻る。
また、ステップS51において、テキストの入力があったと判定された場合、処理は、ステップS52に進み、ユーザ入力取得部61は、そのテキストを取得し、キーワード取得部22に供給して、処理は、図2のステップS12に進み、以下、上述した処理が行われる。
なお、キーワード取得部22は、図1で説明したように、テキスト取得部21から供給されるテキスト全体を、1個のキーワードとして取得することができる。
キーワード取得部22において、テキスト取得部21から供給されるテキスト全体が、1個のキーワードとして取得される場合には、ユーザが入力したテキストが、そのままキーワードとされることになるので、等価的に、ユーザは、キーワードを入力することができることになる。
[特定コンテンツ検索処理の説明]
ところで、ユーザの入力をテキストとして、そのテキストからキーワードを取得する場合には(ユーザの入力のテキストを、そのままキーワードとする場合も含む)、図2で説明したタイミング情報取得処理によって、そのキーワードと、そのキーワードのタイミング情報とを対応付けて登録したタイミング情報リストを生成する他、ユーザの入力から取得されるキーワードの発話があるコンテンツを検索する特定コンテンツ検索処理を行うことができる。
図10を参照して、図1のレコーダで行うことができる特定コンテンツ検索処理を説明する。
特定コンテンツ検索処理は、図2のタイミング情報取得処理と、図3の再生処理とを利用して行うことができる。
すなわち、特定コンテンツ検索処理では、ステップS61において、テキスト取得部21が、図9で説明したようにして、テキストを取得し、キーワード取得部22に供給する。
具体的には、例えば、ユーザは、興味を持っている俳優の氏名や、ジャンルを表す単語等を入力し、テキスト取得部21(のユーザ入力取得部61(図8))は、そのユーザによる入力を、テキストとして取得して、キーワード取得部22に供給する。
そして、処理は、ステップS61からステップS62に進み、キーワード取得部22は、図2のステップS12と同様に、テキスト取得部21からのテキストから、キーワードを取得し、そのキーワードを登録したキーワードリストを作成する。さらに、キーワード取得部22は、キーワードリストを、音声検索部24に供給して、処理は、ステップS62からステップS63に進む。
ここで、いまの場合、キーワードリストには、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等が、キーワードとして登録される。
ステップS63では、音声データ取得部23は、コンテンツ保持部12にコンテンツデータが記録されているコンテンツの中に、まだ、注目コンテンツとしていないコンテンツがあるかどうかを判定する。
ステップS63において、コンテンツ保持部12にコンテンツデータが記録されているコンテンツの中に、まだ、注目コンテンツとしていないコンテンツがあると判定された場合、処理は、ステップS64に進み、音声データ取得部23は、コンテンツ保持部12にコンテンツデータが記録されているコンテンツのうちの、まだ、注目コンテンツとしていないコンテンツの1つを、注目コンテンツとして選択する。
さらに、ステップS64では、音声データ取得部23は、注目コンテンツのコンテンツデータの音声データを、コンテンツ保持部12から取得し、音声検索部24に供給する。
そして、処理は、ステップS64からステップS65に進み、音声検索部24は、注目コンテンツについてのタイミング情報リストを生成するタイミング情報リスト生成処理、すなわち、図2のステップS14ないしS19と同様の処理を行う。
ステップS65において、タイミング情報リスト生成処理が行われることにより、注目コンテンツについて、タイミング情報リストが生成され、タイミング情報記憶部25に記憶されると、処理は、ステップS66に進み、以下、ステップS66ないしS68において、再生制御部30は、注目コンテンツを、再生コンテンツとして、図3の再生処理におけるステップS32ないしS34とそれぞれ同様の処理を行う。
すなわち、ステップS66では、再生制御部30の表示用画像生成部31が、コンテンツ保持部12から、注目コンテンツの画像データを取得するとともに、タイミング情報記憶部25から、注目コンテンツについてのタイミング情報リストを取得して、処理は、ステップS67に進む。
ステップS67では、表示用画像生成部31は、注目コンテンツの画像データのうちの、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データを取得し、その画像データから、表示用画像データを生成する。
すなわち、表示用画像生成部31は、例えば、タイミング情報リストに登録されたタイミング情報が表すタイミングのフレームの画像データから、サムネイルの画像データを、表示用画像データとして生成する。
表示用画像生成部31は、タイミング情報リストに登録されたタイミング情報すべてについて、表示用画像データを生成すると、各表示用画像データを、その表示用画像データに対応するキーワードとセットにして、表示制御部32に供給する。
その後、処理は、ステップS67からステップS68に進み、表示制御部32は、表示用画像データ生成部31からの表示用画像データに対応する表示用画像の一覧を、対応するキーワードとともに、表示装置40に表示させる。
これにより、表示装置40においては、表示用画像が、その表示用画像データとセットになっているキーワード、つまり、表示用画像を含むシーン(連続するフレーム)の内容を説明するキーワードとともに表示される。
その後、処理は、ステップS68からステップS63に戻り、以下、同様の処理が繰り返される。
そして、ステップS63において、コンテンツ保持部12にコンテンツデータが記録されているコンテンツの中に、注目コンテンツとしていないコンテンツがないと判定されると、すなわち、コンテンツ保持部12にコンテンツデータが記録されているコンテンツすべてを、注目コンテンツとして、ステップS63ないしS68の処理が行われると、処理は終了する。
いまの場合、キーワードは、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等になっている。したがって、注目コンテンツが、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等の発話を多く含むコンテンツであるほど、多数のサムネイルが、キーワードとともに表示される。
一方、注目コンテンツが、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等の発話が少ないコンテンツである場合、すなわち、極端には、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等の発話が一切ないコンテンツである場合、表示用画像としてのサムネイルは、表示されない。
したがって、ユーザは、多数のサムネイルが、キーワードとともに表示されたコンテンツが、ユーザが興味を持っている俳優に関するコンテンツや、ユーザが興味を持っているジャンルのコンテンツであるとして、容易に探し出すことができる。
なお、図10の特定コンテンツ検索処理では、ユーザによって指定されたコンテンツではなく、コンテンツ保持部12にコンテンツデータが記録されたコンテンツのすべてを、注目データとして、ステップS65のタイミング情報リスト生成処理(図2のステップS14ないしS19)を行う必要がある。
したがって、タイミング情報リスト生成処理のうちの、特に、音声データからキーワードの発話を検索する音声検索は、高速に行うことが望ましい。
音声検索を高速に行う方法としては、例えば、上述した、音声データの音素、及び、音素の位置をインデクスとして作成し、注目キーワードを構成する音素の系列を、そのインデクスから探し出すインデクス検索法がある。
そこで、特に、図10の特定コンテンツ検索処理を行う場合においては、図1の音声検索部24は、インデクス検索法によって音声検索を行うように構成するのが望ましい。
[インデクス検索法による音声検索を行う音声検索部24の構成例]
図11は、インデクス検索法による音声検索を行う音声検索部24の構成例を示している。
図11において、音声検索部24は、インデクス作成部71、インデクス記憶部72、及び、キーワード検索部73から構成される。
インデクス作成部71には、音声データ取得部23から、注目コンテンツの音声データが供給される。
インデクス作成部71は、音声データ取得部23からの注目コンテンツの音声データの中の各音素(列)、及び、その音素の位置(タイミング)のインデクスを作成し、インデクス記憶部72に供給する。
インデクス記憶部72は、インデクス作成部71からのインデクスを一時記憶する。
キーワード検索部73には、キーワード取得部22からのキーワードが供給される。
キーワード検索部73は、インデクス記憶部72に記憶されたインデクスから、キーワード取得部22から供給されるキーワードを構成する音素の系列を検索する。
さらに、キーワード検索部73は、インデクス記憶部72に記憶されたインデクスから、キーワードの音素の系列を検索することができた場合、キーワードの発話を検索することができたとして、そのタイミング(音素の系列の位置)を表すタイミング情報を、インデクス記憶部72に記憶されたインデクスから取得する。そして、キーワード検索部73は、キーワードとタイミング情報とを対応付けて登録したタイミング情報リストを生成し、タイミング情報記憶部25に供給する。
[インデクス検索法による音声検索を行う音声検索部24の処理]
音声検索部24が、図11に示すように構成され、インデクス検索法による音声検索を行う場合、音声検索部24は、図10のステップS64において、音声データ取得部23から注目コンテンツの音声データが供給されると、ステップS65のタイミング情報リスト生成処理の前に、インデクスを作成するインデクス作成処理を行う。
図12を参照して、図11の音声検索部24が行うインデクス作成処理を説明する。
ステップS71において、インデクス作成部71は、音声データ取得部23から供給される注目コンテンツの音声データの中の各音素、及び、その音素の位置のインデクスを作成し、インデクス記憶部72に供給して、処理は、ステップS72に進む。
ステップS72では、インデクス記憶部72が、インデクス作成部71からのインデクスを一時記憶して、処理は終了する。
以上のようなインデクス作成処理の終了後、図10のステップS65のタイミング情報リスト生成処理では、キーワード検索部73において、インデクス記憶部72に記憶されたインデクスから、キーワード取得部22から供給されるキーワードを構成する音素の系列を検索する、キーワードの音声検索(図2のステップS16)が行われる。
[表示用画像生成部31の第1の構成例]
次に、図13は、図1の表示用画像生成部31の第1の構成例を示している。
図13において、表示用画像生成部31は、画像データ取得部81とサムネイル生成部82から構成される。
画像データ取得部81は、コンテンツ保持部12から、注目コンテンツ(又は再生コンテンツ)の画像データを取得し、サムネイル生成部82に供給する。
サムネイル生成部82には、画像データ取得部81から注目コンテンツの画像データが供給される他、タイミング情報記憶部25から注目コンテンツ(又は再生コンテンツ)についてのタイミング情報リストが供給される。
サムネイル生成部82は、タイミング情報記憶部25からのタイミング情報リストに登録されたタイミング情報に基づき、画像データ取得部81からの画像データのうちの、タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。
そして、サムネイル生成部82は、タイミング情報に対応付けられたキーワードと、そのタイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部32に供給する。
[表示用画像生成部31の第1の構成例の処理]
図14を参照して、図13の表示用画像生成部31の第1の構成例の処理、すなわち、図3の再生処理におけるステップS32及びS33の処理を説明する。
なお、図10のステップS66及びS67でも、同様の処理が行われる。
ステップS81において、サムネイル生成部82は、タイミング情報記憶部25から再生コンテンツについてのタイミング情報リストを取得し、処理は、ステップS82に進む。
ステップS82では、画像データ取得部81は、コンテンツ保持部12から、再生コンテンツの画像データを取得し、サムネイル生成部82に供給して、処理は、ステップS83に進む。
ここで、以上のステップS81及びS82の処理が、図3のステップS32(図10のステップS66)で行われる。そして、以下、説明するS83及びS84の処理が、図3のステップS33(図10のステップS67)で行われる。
ステップS83では、サムネイル生成部82が、タイミング情報記憶部25からのタイミング情報リストに登録されたタイミング情報に基づき、画像データ取得部81からの画像データのうちの、タイミング情報が表すタイミングの画像データを取得する。
そして、処理は、ステップS83からステップS84に進み、サムネイル生成部82が、タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。
さらに、ステップS84では、サムネイル生成部82が、タイミング情報リストにおいてタイミング情報に対応付けられたキーワードと、そのタイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部32に供給し、処理は、図3のステップS34(図10のステップS68)に進む。
[表示用画像生成部31の第2の構成例]
上述したように、音声検索部24は、音声データ取得部23から供給される注目コンテンツの音声データから、キーワード取得部22から供給される注目キーワードの発話を検索する音声検索を行い、発話が検索された注目キーワードのタイミング情報を取得する。
すなわち、音声検索部24は、注目コンテンツの音声データから、注目キーワードの発話が検索された場合には、その発話が検索された注目キーワードのタイミング情報を取得する。
したがって、注目コンテンツにおいて、注目キーワードの発話が、複数回されている場合には、音声検索部24では、その複数回の発話について、注目キーワードのタイミング情報が取得される。
このように、複数回の発話について、注目キーワードのタイミング情報が取得された場合、すなわち、注目キーワードについて、複数のタイミング情報が取得された場合、タイミング情報リストには、注目キーワードと、その複数のタイミング情報とが対応付けられて登録される。
そして、タイミング情報リストにおいて、キーワードと、複数のタイミング情報とが対応付けられている場合、図3の再生処理では、その複数のタイミング情報それぞれが表すタイミングの画像データから生成される複数の表示用画像が、同一のキーワードとともに表示される。
ところで、タイミング情報リストに登録されたキーワードとともに表示される複数の表示用画像は、ユーザの注意をひく等の観点からは、例えば、キャスタが写っている画像等の似たような画像ばかりになるよりも、なるべく異なる画像とする方が望ましい。
そこで、図15は、図1の表示用画像生成部31の第2の構成例を示している。
なお、図中、図13の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。
図15の表示用画像生成部31は、画像データ取得部81、及び、サムネイル生成部82を有する点で、図13の場合と共通する。
但し、図15の表示用画像生成部31は、類似度算出部83、及び、選択部84をさらに有する点で、図13の場合と相違している。
図15の表示用画像生成部31は、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出する。さらに、表示用画像生成部31は、その類似度に基づき、タイミング情報リストに登録されたタイミング情報の中から、表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択する。そして、表示用画像生成部31は、確定タイミング情報が表すタイミング付近の画像データから、表示用画像データを生成する。
すなわち、図15において、類似度算出部83には、画像データ取得部81から注目コンテンツ(又は、再生コンテンツ)の画像データが供給される。さらに、類似度算出部83には、タイミング情報記憶部25から注目コンテンツ(又は、再生コンテンツ)についてのタイミング情報リストが供給される。
類似度算出部83は、タイミング情報記憶部25からのタイミング情報リストに登録されたキーワードを、順次、注目する注目キーワードとして、注目キーワードに対応付けられているタイミング情報を、表示用画像となる画像のタイミングの候補を表す候補タイミング情報として取得する。
そして、注目キーワードについて取得した候補タイミング情報が、1つである場合、類似度算出部83は、その1つの候補タイミング情報を、注目キーワードとともに、選択部84に供給する。
また、注目キーワードについて取得した候補タイミング情報が、複数である場合、類似度算出部83は、注目キーワードについての複数の候補タイミング情報それぞれが表すタイミングの画像データに対応する画像を、表示用画像の候補となる候補画像として、複数の候補画像について、他のキーワードに対応付けられているタイミング情報が表すタイミングの画像データに対応する画像との類似度を算出する。
すなわち、類似度算出部83は、画像データ取得部81からの画像データを用い、注目キーワードについての複数の候補タイミング情報が表すタイミングの複数の候補画像それぞれについて、タイミング情報リストにおいて、その複数の候補タイミング情報を除くタイミング情報(注目キーワード以外のキーワード(他のキーワード)に対応付けられているタイミング情報)が表すタイミングの画像との類似度を算出する。
そして、類似度算出部83は、注目キーワードについての複数の候補タイミング情報が表すタイミングの複数の候補画像(以下、候補タイミング情報の候補画像ともいう)それぞれについて算出した、他のキーワードに対応付けられているタイミング情報が表すタイミングの画像(以下、類似度算出対象画像ともいう)との類似度と、候補タイミング情報とを、注目キーワードとともに、選択部84に供給する。
選択部84は、注目キーワードについて、類似度算出部83から、1つの候補タイミング情報が供給される場合、その1つの候補タイミング情報を、表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、類似度算出部83からの注目キーワードとともに、サムネイル生成部82に供給する。
また、選択部84は、注目キーワードについて、類似度算出部83から、複数の候補タイミング情報が供給される場合、同じく、類似度算出部83から供給される類似度に基づき、複数の候補タイミング情報の複数の候補画像のうちの、類似度算出対象画像と最も類似しない候補画像の候補タイミング情報を、確定タイミング情報として選択する。
そして、選択部84は、確定タイミング情報を、類似度算出部83からの注目キーワードとともに、サムネイル生成部82に供給する。
以上のように、図15においては、サムネイル生成部82には、選択部84から、確定タイミング情報と、注目キーワードとが供給される。さらに、サムネイル生成部82には、画像データ取得部81から、注目コンテンツの画像データが供給される。
サムネイル生成部82は、選択部84からの確定タイミング情報に基づき、画像データ取得部81からの画像データのうちの、確定タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。
そして、サムネイル生成部82は、選択部84からの注目キーワード、すなわち、確定タイミング情報に対応付けられたキーワードと、その確定タイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部32に供給する。
ここで、類似度算出部83において算出される、画像どうしの類似度(候補画像と類似度算出対象画像との類似度)としては、例えば、画像のカラーヒストグラム(RGB等のヒストグラム)から求められる、画像どうしの距離(尺度)等を採用することができる。画像のカラーヒストグラムから距離を求める方法は、例えば、Y.Rubner, et al.,"The EarthMover's Distance as a Metric for Image Retrieval," InternationalJournal of Computer Vision 40(2) pp.99-121 (2000)に記載されている。
また、類似度は、コンテンツの画像データそのものを用いて算出することもできるし、コンテンツの画像データを縮小した画像データを用いて算出することもできる。コンテンツの画像データを縮小した画像データを用いて、類似度を算出する場合には、類似度の算出に必要な演算量を低減することができる。
[表示用画像生成部31の第2の構成例の処理]
図16を参照して、図15の表示用画像生成部31の第2の構成例の処理、すなわち、図3の再生処理におけるステップS32及びS33(並びに、図10のステップS66及びS67)の処理を説明する。
ステップS101において、類似度計算部83は、タイミング情報記憶部25から再生コンテンツについてのタイミング情報リストを取得し、処理は、ステップS102に進む。
ステップS102において、画像データ取得部81は、コンテンツ保持部12から、再生コンテンツの画像データを取得し、サムネイル生成部82、及び、類似度算出部83に供給して、処理は、ステップS103に進む。
ここで、以上のステップS101及びS102の処理が、図3のステップS32(図10のステップS66)で行われる。そして、以下、説明するS103ないしS111の処理が、図3のステップS33(図10のステップS67)で行われる。
ステップS103では、類似度算出部83が、タイミング情報記憶部25からのタイミング情報リストに登録されたキーワードのうちの、まだ、注目キーワードとしていないキーワードの1つを、注目キーワートとして選択し、処理は、ステップS104に進む。
ステップS104では、類似度算出部83は、タイミング情報記憶部25からのタイミング情報リストから、注目キーワードに対応付けられているタイミング情報を、候補タイミング情報として取得し、処理は、ステップS105に進む。
ステップS105において、類似度算出部83は、注目キーワードについて取得された候補タイミング情報が、複数であるかどうかを判定する。
ステップS105において、注目キーワードについて取得された候補タイミング情報が、複数でないと判定された場合、すなわち、注目キーワードについて取得された候補タイミング情報が、1つである場合、類似度算出部83は、その1つの候補タイミング情報を、注目キーワードとともに、選択部84に供給する。
そして、処理は、ステップS105からステップS106に進み、選択部84は、類似度算出部83からの1つの候補タイミング情報を、確定タイミング情報として選択する。さらに、ステップS106では、選択部84は、確定タイミング情報を、類似度算出部83からの注目キーワードとともに、サムネイル生成部82に供給し、処理は、ステップS109に進む。
一方、ステップS105において、注目キーワードについて取得された候補タイミング情報が、複数であると判定された場合、処理は、ステップS107に進み、類似度算出部83は、注目キーワードについての複数の候補タイミング情報それぞれが表すタイミングの画像データに対応する画像を、候補画像として、複数の候補画像について、他のキーワードに対応付けられているタイミング情報が表すタイミングの画像データに対応する画像(類似度算出対象画像)との類似度を算出する。
すなわち、類似度算出部83は、画像データ取得部81からの画像データを用い、注目キーワードについての複数の候補タイミング情報の複数の候補画像それぞれについて、タイミング情報リストにおいて、注目キーワード以外のキーワード(他のキーワード)に対応付けられているタイミング情報)が表すタイミングの画像である類似度算出対象画像との類似度を算出する。
そして、類似度算出部83は、注目キーワードについての複数の候補タイミング情報の複数の候補画像それぞれについて算出した、類似度算出対象画像との類似度と、候補タイミング情報とを、注目キーワードとともに、選択部84に供給する。
その後、処理は、ステップS107からステップS108に進み、選択部84は、注目キーワードについて、類似度算出部83から供給される類似度に基づき、同じく類似度算出部83から供給される複数の候補タイミング情報のうちの、類似度算出対象画像と最も類似しない候補画像の候補タイミング情報を、確定タイミング情報として選択する。
すなわち、類似度の値が小さいほど、類似しないことを表すとすると、選択部84は、例えば、複数の候補画像それぞれについて、類似度算出対象画像との類似度の最小値(又は、最大値)を検出する。さらに、選択部84は、複数の候補画像それぞれについて検出した類似度の最小値(又は、最大値)の中で、最も小さい値(又は、最も大きい値)が得られている候補画像を、類似度算出対象画像と最も類似しない候補画像として、その候補画像の候補タイミング情報を、確定タイミング情報として選択する。
そして、選択部84は、確定タイミング情報を、類似度算出部83からの注目キーワードとともに、サムネイル生成部82に供給し、処理は、ステップS109に進む。
ステップS109では、サムネイル生成部82は、選択部84からの確定タイミング情報が表すタイミングの画像データを、画像データ取得部81からの注目コンテンツの画像データから取得し、処理は、ステップS110に進む。
ステップS110では、サムネイル生成部82は、確定タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。
さらに、ステップS110では、サムネイル生成部82は、選択部84からの注目キーワードと、選択部84からの確定タイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部32に供給する。
そして、処理は、ステップS110からステップS111に進み、類似度算出部83は、タイミング情報記憶部25からのタイミング情報リストに登録されたキーワードのすべてを処理したかどうかを判定する。
ステップS111において、タイミング情報リストに登録されたキーワードのすべてを、まだ処理していないと判定された場合、すなわち、タイミング情報リストに登録されたキーワードの中に、まだ、注目キーワードとしていないキーワードがある場合、処理は、ステップS103に戻る。そして、ステップS103では、タイミング情報リストに登録されたキーワードのうちの、まだ、注目キーワードとしていないキーワードの1つが、注目キーワートとして新たに選択され、以下、同様の処理が繰り返される。
また、ステップS111において、タイミング情報リストに登録されたキーワードのすべてを処理したと判定された場合、処理は、図3のステップS34(図10のステップS68)に進む。
以上のように、タイミング情報リストにおいて、注目キーワードに、複数のタイミング情報が対応付けられている場合には、その複数のタイミング情報を、候補タイミング情報として、各候補タイミング情報の候補画像について、類似度算出対象画像それぞれとの類似度を算出し、その類似度に基づき、複数の候補画像のうちの、類似度算出対象画像と最も類似しない候補画像の候補タイミング情報を、確定タイミング情報として選択することにより、表示装置40において、タイミング情報リストに登録されたキーワードとともに表示される複数の表示用画像は、互いに、なるべく異なる画像となる。
したがって、例えば、キャスタが写っている画像等の似たような画像ばかりが、表示用画像として表示される場合に比較して、ユーザの注意をひくこと等ができる。
[表示用画像生成部31の第2の構成例の他の処理]
図17を参照して、図15の表示用画像生成部31の第2の構成例の他の処理、すなわち、図3の再生処理におけるステップS32及びS33(並びに、図10のステップS66及びS67)の他の処理を説明する。
図17では、ステップS121及びS122、並びに、ステップS124ないしS132において、図16のステップS101ないしS111とそれぞれ同様の処理が行われる。
但し、図17では、例えば、ステップS122とS124との間のステップS123において、類似度算出部83が、タイミング情報記憶部25から取得したタイミング情報リストを変更するリスト変更処理を行う。
[リスト変更処理の説明]
図18を参照して、図15の類似度算出部83が行うリスト変更処理を説明する。
ステップS141において、類似度算出部83は、タイミング情報記憶部25からのタイミング情報リストに登録されたキーワードのうちの、まだ、注目キーワードとしていないキーワードの1つを、注目キーワートとして選択し、処理は、ステップS142に進む。
ステップS142では、類似度算出部83は、タイミング情報記憶部25からのタイミング情報リストから、注目キーワードに対応付けられているタイミング情報のうちの、まだ、注目する注目タイミング情報としていないタイミング情報の1つを、注目タイミング情報として選択し、処理は、ステップS143に進む。
ステップS143では、類似度算出部83は、画像データ取得部81からの注目コンテンツの画像データのタイミングのうちの、注目タイミング情報が表すタイミングの周辺(近傍)の1以上のタイミングを、注目キーワードに対して追加で対応付ける追加タイミングの候補として選択する。
すなわち、類似度算出部83は、例えば、注目タイミング情報が表すタイミングを中心とする所定の区間を所定数の小区間に等分するタイミングのうちの、注目タイミング情報が表すタイミング以外のタイミングを、追加タイミングの候補として選択する。ここで、所定の区間の長さや、その所定の区間を等分する小区間の数は、例えば、固定の値とすることもできるし、乱数等によって決定される可変の値とすることもできる。
そして、処理は、ステップS143からステップS144に進み、類似度算出部83は、1以上の追加タイミングの候補の画像それぞれについて、他のタイミングの画像それぞれとの類似度を算出する。
ここで、いま、1以上の追加タイミングの候補の画像のうちの、類似度が算出される画像を、注目する注目画像ということとする。
ステップS144において、注目画像との類似度が算出される「他のタイミングの画像」とは、1以上の追加タイミングの候補の画像のうちの、注目画像を除く画像と、注目タイミング情報が表すタイミングの画像とを意味する。
その後、処理は、ステップS144からステップS145に進み、類似度算出部83は、ステップS144で算出された類似度に基づき、1以上の追加タイミングの候補の画像の中から、他のタイミングの画像と類似しない画像のタイミング(追加タイミングの候補)を、追加タイミングとして確定する。
すなわち、例えば、いま、類似度が、値が大であるほど、類似していることを表すこととすると、類似度算出部83は、1以上の追加タイミングの候補の画像の中から、例えば、他のタイミングの画像との類似度の最小値又は最大値等が、所定の閾値以下の画像や、類似度が下位N(>1)位以内の画像等を、他のタイミングの画像と類似しない画像として選択し、その画像のタイミング(追加タイミングの候補)を、追加タイミングとして確定する。
さらに、ステップS145では、類似度算出部83は、追加タイミングを表すタイミング情報を、注目キーワードに追加で対応付ける形で、タイミング情報リストに登録し、処理は、ステップS146に進む。
ステップS146では、類似度算出部83が、注目キーワードに対応付けられているタイミング情報のすべてを処理したかどうかを判定する。
ステップS146において、注目キーワードに対応付けられているタイミング情報のすべてを、まだ、処理していないと判定された場合、すなわち、注目キーワードに対応付けられているタイミング情報の中で、まだ、注目タイミング情報としていないタイミング情報がある場合、処理は、ステップS142に戻る。
そして、以下、ステップS142ないしS146の処理が繰り返される。
ここで、ステップS142ないしS146の処理によれば、注目キーワードに対応付けられている注目タイミング情報が表すタイミングの周辺の1以上のタイミングのうちの、互いに類似しない画像(注目タイミング情報が表すタイミングの画像とも類似しない画像)のタイミングを表すタイミング情報が、注目キーワードに追加で対応付けられる。
一方、ステップS146において、注目キーワードに対応付けられているタイミング情報のすべてを処理したと判定された場合、処理は、ステップS147に進み、類似度算出部83は、タイミング情報リストに登録されたキーワードのすべてを処理したかどうかを判定する。
ステップS147において、タイミング情報リストに登録されたキーワードのすべてを、まだ処理していないと判定された場合、すなわち、タイミング情報リストに登録されたキーワードの中で、まだ、注目キーワードとしていないキーワードがある場合、処理は、ステップS141に戻る。
そして、以下、ステップS141ないしS147の処理が繰り返される。
また、ステップS147において、タイミング情報リストに登録されたキーワードのすべてを処理したと判定された場合、処理は、リターンする。
以上のように、リスト変更処理では、タイミング情報リストに登録されたタイミング情報が表すタイミングの周辺の1以上のタイミング(追加タイミングの候補)の中から、なるべく互いに類似しない画像のタイミングを、追加タイミングとして選択し、その追加タイミングを表すタイミング情報を、タイミング情報リストに追加する、タイミング情報リストの変更が行われる。
そして、図17では、その変更後のタイミング情報リストを用い、ステップS124ないしS132において、図16のステップS103ないしS111とそれぞれ同様の処理が行われる。
したがって、図17の処理によれば、より異なる画像のサムネイルが、表示用画像として、キーワードとともに表示される。
その結果、特に、図10の特定コンテンツ検索処理において、図17の処理を行うことにより、ユーザの入力から取得されるキーワードの発話があるコンテンツについて、より異なるシーン(場面)のサムネイルが表示され、同様のシーンのサムネイルが表示される場合よりも、ユーザは、コンテンツの内容を、いわば一目で把握し、ユーザが興味を持っているコンテンツを、より容易に探し出すことができる。
[本発明を適用したコンピュータの説明]
次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。
そこで、図19は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。
プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク105やROM103に予め記録しておくことができる。
あるいはまた、プログラムは、リムーバブル記録媒体111に格納(記録)しておくことができる。このようなリムーバブル記録媒体111は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体111としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory),MO(Magneto Optical)ディスク,DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。
なお、プログラムは、上述したようなリムーバブル記録媒体111からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク105にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。
コンピュータは、CPU(Central Processing Unit)102を内蔵しており、CPU102には、バス101を介して、入出力インタフェース110が接続されている。
CPU102は、入出力インタフェース110を介して、ユーザによって、入力部107が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)103に格納されているプログラムを実行する。あるいは、CPU102は、ハードディスク105に格納されたプログラムを、RAM(Random Access Memory)104にロードして実行する。
これにより、CPU102は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU102は、その処理結果を、必要に応じて、例えば、入出力インタフェース110を介して、出力部106から出力、あるいは、通信部108から送信、さらには、ハードディスク105に記録等させる。
なお、入力部107は、キーボードや、マウス、マイク等で構成される。また、出力部106は、LCD(Liquid Crystal Display)やスピーカ等で構成される。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。
また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
すなわち、例えば、テキスト取得部21は、図4の関連テキスト取得部50と、図8のユーザ入力取得部61とで構成することが可能である。
11 コンテンツ取得部, 12 コンテンツ保持部, 20 タイミング情報取得部, 21 テキスト取得部, 22 キーワード取得部, 23 音声データ取得部, 24 音声検索部, 25 タイミング情報記憶部, 30 再生制御部, 31 表示用画像生成部, 32 表示制御部, 40 表示装置, 50 関連テキスト取得部, 51 メタデータ取得部, 52 字幕データ取得部, 61 ユーザ入力取得部, 71 インデクス作成部, 72 インデクス記憶部, 73 キーワード検索部, 81 画像データ取得部, 82 サムネイル生成部, 83 類似度算出部, 84 選択部, 101 バス, 102 CPU, 103 ROM, 104 RAM, 105 ハードディスク, 106 出力部, 107 入力部, 108 通信部, 109 ドライブ, 110 入出力インタフェース, 111 リムーバブル記録媒体

Claims (10)

  1. 画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得するテキスト取得手段と、
    前記テキストから、前記キーワードを取得するキーワード取得手段と、
    前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得する音声検索手段と、
    前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う再生制御手段と
    を備え、
    前記再生制御手段は、
    前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、
    前記類似度に基づき、前記音声検索手段で取得されたタイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、
    前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成する
    ータ処理装置。
  2. 前記キーワードと、そのキーワードの発話のタイミングを表すタイミング情報とが対応付けられて登録されるタイミング情報リストを記憶するタイミング情報記憶手段をさらに備え、
    前記再生制御手段は、前記タイミング情報リストに登録された前記キーワードを、順次、注目する注目キーワードとして、
    前記注目キーワードに、1つのタイミング情報が対応付けられている場合、
    その1つのタイミング情報を、前記確定タイミング情報として選択し、
    前記注目キーワードに、複数のタイミング情報が対応付けられている場合、
    前記複数のタイミング情報が表すタイミングの画像データに対応する画像である候補画像それぞれについて、前記タイミング情報リストのタイミング情報のうちの、前記複数のタイミング情報を除くタイミング情報が表すタイミングの画像データに対応する画像である類似度算出対象画像それぞれとの類似度を算出し、
    前記類似度に基づき、前記候補画像のうちの、前記類似度算出対象画像と最も類似しない候補画像の前記タイミング情報を、前記確定タイミング情報として選択する
    請求項に記載のデータ処理装置。
  3. 前記コンテンツデータは、字幕データをさらに含み、
    前記テキスト取得手段は、前記コンテンツデータの字幕データを、前記テキストとして取得する
    請求項1に記載のデータ処理装置。
  4. 前記音声検索手段は、前記音声データからの、前記キーワードの発話を検索を、前記字幕データに対応する字幕が表示される表示時刻のタイミング付近の音声データに限定して行う
    請求項に記載のデータ処理装置。
  5. 前記テキスト取得手段は、前記コンテンツデータに対応するコンテンツのメタデータを、前記テキストとして取得する
    請求項1に記載のデータ処理装置。
  6. 前記コンテンツは、テレビジョン放送の番組であり、
    前記コンテンツのメタデータは、EPG(Electronic Program Guide)のデータである
    請求項に記載のデータ処理装置。
  7. 前記テキスト取得手段は、ユーザからの入力も、前記テキストとして取得する
    請求項1に記載のデータ処理装置。
  8. 前記テキスト取得手段は、ユーザによって操作されるキーボードからの入力、又は、ユーザの音声の音声認識の結果を、前記テキストとして取得する
    請求項に記載のデータ処理装置。
  9. データ処理装置が、
    画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得し、
    前記テキストから、前記キーワードを取得し、
    前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得し、
    前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う
    ステップを含み、
    前記再生制御では、
    前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、
    前記類似度に基づき、前記タイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、
    前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成する
    データ処理方法。
  10. 画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得するテキスト取得手段と、
    前記テキストから、前記キーワードを取得するキーワード取得手段と、
    前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得する音声検索手段と、
    前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う再生制御手段と
    して、コンピュータを機能させるためのプログラムであり、
    前記再生制御手段は、
    前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、
    前記類似度に基づき、前記音声検索手段で取得されたタイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、
    前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成する
    プログラム
JP2009003688A 2009-01-09 2009-01-09 データ処理装置、データ処理方法、及び、プログラム Expired - Fee Related JP4873018B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2009003688A JP4873018B2 (ja) 2009-01-09 2009-01-09 データ処理装置、データ処理方法、及び、プログラム
US12/651,799 US9049418B2 (en) 2009-01-09 2010-01-04 Data processing apparatus, data processing method, and program
CN2010100029016A CN101778233B (zh) 2009-01-09 2010-01-08 数据处理装置以及数据处理方法
US14/686,816 US9837125B2 (en) 2009-01-09 2015-04-15 Generation of correlated keyword and image data
US15/811,031 US20180068690A1 (en) 2009-01-09 2017-11-13 Data processing apparatus, data processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009003688A JP4873018B2 (ja) 2009-01-09 2009-01-09 データ処理装置、データ処理方法、及び、プログラム

Publications (2)

Publication Number Publication Date
JP2010161722A JP2010161722A (ja) 2010-07-22
JP4873018B2 true JP4873018B2 (ja) 2012-02-08

Family

ID=42319767

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009003688A Expired - Fee Related JP4873018B2 (ja) 2009-01-09 2009-01-09 データ処理装置、データ処理方法、及び、プログラム

Country Status (3)

Country Link
US (3) US9049418B2 (ja)
JP (1) JP4873018B2 (ja)
CN (1) CN101778233B (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4930564B2 (ja) * 2009-09-24 2012-05-16 カシオ計算機株式会社 画像表示装置及び方法並びにプログラム
JP2012034235A (ja) * 2010-07-30 2012-02-16 Toshiba Corp 映像再生装置及び映像再生方法
KR101700365B1 (ko) 2010-09-17 2017-02-14 삼성전자주식회사 미디어 컨텐츠 관련 정보 제공 방법, 이 방법을 수행할 수 있는 디바이스와 서버 및 저장 매체
JP6095381B2 (ja) * 2013-01-25 2017-03-15 キヤノン株式会社 データ処理装置、データ処理方法及びプログラム
JP2015050655A (ja) * 2013-09-02 2015-03-16 ソニー株式会社 情報表示装置及び情報表示方法、並びにコンピューター・プログラム
KR20160057864A (ko) * 2014-11-14 2016-05-24 삼성전자주식회사 요약 컨텐츠를 생성하는 전자 장치 및 그 방법
EP3324305A4 (en) * 2015-07-13 2018-12-05 Teijin Limited Information processing apparatus, information processing method, and computer program
US9936066B1 (en) * 2016-03-16 2018-04-03 Noble Systems Corporation Reviewing portions of telephone call recordings in a contact center using topic meta-data records
US10764643B2 (en) * 2016-06-15 2020-09-01 Opentv, Inc. Context driven content rewind
CN106534965A (zh) * 2016-11-30 2017-03-22 北京小米移动软件有限公司 获取视频信息的方法及装置
CN110278398B (zh) * 2018-03-16 2022-01-21 杭州海康威视数字技术股份有限公司 数据存储方法、视频片段搜索方法、装置及电子设备
KR20200057426A (ko) * 2018-11-16 2020-05-26 삼성전자주식회사 음성 인식 기반 이미지를 표시하는 전자 장치
US11164595B2 (en) * 2018-12-05 2021-11-02 International Business Machines Corporation Displayed analytics for multiparty communications
CN110035313A (zh) * 2019-02-28 2019-07-19 阿里巴巴集团控股有限公司 视频播放控制方法、视频播放控制装置、终端设备和电子设备
EP3720141B1 (en) * 2019-03-29 2024-01-03 Sony Interactive Entertainment Inc. Audio confirmation system, audio confirmation method, and program
CN110347866B (zh) * 2019-07-05 2023-06-23 联想(北京)有限公司 信息处理方法、装置、存储介质及电子设备

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6363380B1 (en) * 1998-01-13 2002-03-26 U.S. Philips Corporation Multimedia computer system with story segmentation capability and operating program therefor including finite automation video parser
JP2001197405A (ja) * 2000-01-14 2001-07-19 Sharp Corp インデックス画像作成装置および方法
JP2003304486A (ja) * 2002-04-09 2003-10-24 Hitachi Ltd 記憶システムとそれを用いたサービスの販売方法
JP2004289530A (ja) * 2003-03-24 2004-10-14 Orion Denki Kk 記録再生装置
JP2005115607A (ja) * 2003-10-07 2005-04-28 Matsushita Electric Ind Co Ltd 映像検索装置
AU2003284413A1 (en) * 2003-11-19 2005-06-08 National Institute Of Information And Communications Technology, Independent Administrative Agency Method and device for presenting video content
US7546554B2 (en) * 2004-03-31 2009-06-09 Fuji Xerox Co., Ltd. Systems and methods for browsing multimedia content on small mobile devices
JP2008124551A (ja) 2006-11-08 2008-05-29 Matsushita Electric Ind Co Ltd ダイジェスト作成装置
JP2008276340A (ja) * 2007-04-26 2008-11-13 Hitachi Ltd 検索装置
JP4887264B2 (ja) * 2007-11-21 2012-02-29 株式会社日立製作所 音声データ検索システム
US8019969B2 (en) * 2008-02-14 2011-09-13 International Business Machines Corporation Self prefetching L3/L4 cache mechanism
JP2009200699A (ja) * 2008-02-20 2009-09-03 Pfu Ltd 画像処理装置および画像処理方法

Also Published As

Publication number Publication date
US9049418B2 (en) 2015-06-02
US20100179972A1 (en) 2010-07-15
US9837125B2 (en) 2017-12-05
US20150221344A1 (en) 2015-08-06
US20180068690A1 (en) 2018-03-08
CN101778233A (zh) 2010-07-14
CN101778233B (zh) 2012-06-06
JP2010161722A (ja) 2010-07-22

Similar Documents

Publication Publication Date Title
JP4873018B2 (ja) データ処理装置、データ処理方法、及び、プログラム
JP5691289B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2012020667A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
JP4905103B2 (ja) 動画再生装置
US8168876B2 (en) Method of displaying music information in multimedia playback and related electronic device
US20080046406A1 (en) Audio and video thumbnails
US20110243529A1 (en) Electronic apparatus, content recommendation method, and program therefor
JP2010154397A (ja) データ処理装置、データ処理方法、及び、プログラム
JP2007041988A (ja) 情報処理装置および方法、並びにプログラム
JP2008537627A (ja) 複合ニュース・ストーリーの合成
JP2006319980A (ja) イベントを利用した動画像要約装置、方法及びプログラム
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP4192703B2 (ja) コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP4064902B2 (ja) メタ情報生成方法、メタ情報生成装置、検索方法および検索装置
KR20060089922A (ko) 음성 인식을 이용한 데이터 추출 장치 및 방법
JP2010258615A (ja) 再生装置及びプログラム
JP5257356B2 (ja) コンテンツ分割位置判定装置、コンテンツ視聴制御装置及びプログラム
US7949667B2 (en) Information processing apparatus, method, and program
JP2004289530A (ja) 記録再生装置
JP2002312370A (ja) マルチメディアデータ検索装置、マルチメディアデータ検索方法およびマルチメディアデータ検索プログラム
JP4631251B2 (ja) メディア検索装置およびメディア検索プログラム
JP2008141621A (ja) 映像抽出装置及び映像抽出プログラム
US20060092327A1 (en) Story segmentation method for video
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
JP2002324071A (ja) コンテンツ検索システム、コンテンツ検索方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20101105

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101118

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110926

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20111004

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20111025

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20111107

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R151 Written notification of patent or utility model registration

Ref document number: 4873018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20141202

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees