JP4873018B2

JP4873018B2 - データ処理装置、データ処理方法、及び、プログラム

Info

Publication number: JP4873018B2
Application number: JP2009003688A
Authority: JP
Inventors: 康治浅野; 賢一郎小林
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2009-01-09
Filing date: 2009-01-09
Publication date: 2012-02-08
Anticipated expiration: 2029-01-09
Also published as: US9049418B2; US20100179972A1; US9837125B2; US20150221344A1; US20180068690A1; CN101778233A; CN101778233B; JP2010161722A

Description

本発明は、データ処理装置、データ処理方法、及び、プログラムに関し、特に、例えば、テレビジョン放送の番組等のコンテンツの内容を、ユーザが容易に把握することができるようにするデータ処理装置、データ処理方法、及び、プログラムに関する。

例えば、テレビジョン放送の番組等の、画像及び音声を含むコンテンツの内容（概要）を、ユーザが、容易に把握することができるようにするためのコンテンツの再生方法として、ダイジェスト再生がある。

ダイジェスト再生では、例えば、コンテンツの画像の特徴量や、音声の特徴量に基づき、コンテンツが、幾つかのシーンに分割される。そして、各シーンの先頭の画像等の代表的な画像のサムネイル等のダイジェスト再生用の画像が生成されて表示される。

また、ダイジェスト再生用の画像の生成にあたり、比較的低い負荷で、コンテンツに含まれるセリフ部分を効率的に抽出する方法として、字幕の表示期間に再生されている音声の再生期間の中から、セリフの音声の再生期間を抽出する方法がある（例えば、特許文献１を参照）。

特開2008-124551号公報

ところで、ダイジェスト再生において、上述したように、各シーンの先頭の画像のサムネイルを表示するだけでは、ユーザは、各シーンのサムネイルからでは、必ずしも、そのシーンの内容を把握することが困難なことがある。

例えば、ニュース番組（報道番組）については、そのニュース番組を分割したシーンの多くの先頭の画像が、キャスタ（アナウンサ）が写っている画像となることがある。

この場合、ダイジェスト再生で表示されるサムネイルの多くは、キャスタが写っている画像のサムネイルとなり、そのサムネイルを見るだけでは、各シーンの内容を把握することが困難である。

本発明は、このような状況に鑑みてなされたものであり、ユーザが、画像及び音声を含むコンテンツの内容を、容易に把握することができるようにするものである。

本発明の一側面のデータ処理装置、又は、プログラムは、画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得するテキスト取得手段と、前記テキストから、前記キーワードを取得するキーワード取得手段と、前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得する音声検索手段と、前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う再生制御手段とを備え、前記再生制御手段は、前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、前記類似度に基づき、前記音声検索手段で取得されたタイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成するデータ処理装置、又は、データ処理装置として、コンピュータを機能させるためのプログラムである。

本発明の一側面のデータ処理方法は、データ処理装置が、画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得し、前記テキストから、前記キーワードを取得し、前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得し、前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行うステップを含み、前記再生制御では、前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、前記類似度に基づき、前記タイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成するデータ処理方法である。

本発明の一側面においては、画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストが取得され、前記テキストから、前記キーワードが取得される。さらに、前記コンテンツデータの前記音声データから、前記キーワードの発話が検索され、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報が取得される。そして、前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データが生成され、前記表示用画像データに対応する前記表示用画像が、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示される。その際、前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度が算出され、前記類似度に基づき、前記タイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報が、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択される。そして、前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データが生成される。

なお、データ処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

また、プログラムは、伝送媒体を介して伝送することにより、又は、記録媒体に記録して、提供することができる。

本発明の一側面によれば、ユーザは、コンテンツのシーンの内容を、容易に把握することが可能となる。すなわち、例えば、画像及び音声を含むコンテンツにおいて、所定の単語等が内容を表すシーン等のタイミングを取得し、そのタイミング付近の画像とともに、所定の単語等を表示することができ、その結果、ユーザは、コンテンツのシーンの内容を、容易に把握することが可能となる。

本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。タイミング情報取得処理を説明するフローチャートである。再生処理を説明するフローチャートである。テキスト取得部２１の第１の構成例を示すブロック図である。テキスト取得部２１の第１の構成例の処理を説明するフローチャートである。表示用画像の表示例を示す図である。表示用画像の表示例を示す図である。テキスト取得部２１の第２の構成例を示すブロック図である。テキスト取得部２１の第２の構成例の処理を説明するフローチャートである。特定コンテンツ検索処理を説明するフローチャートである。音声検索部２４の構成例を示すブロック図である。音声検索部２４が行うインデクス作成処理を説明するフローチャートである。表示用画像生成部３１の第１の構成例を示すブロック図である。表示用画像生成部３１の第１の構成例の処理を説明するフローチャートである。表示用画像生成部３１の第２の構成例を示すブロック図である。表示用画像生成部３１の第２の構成例の処理を説明するフローチャートである。表示用画像生成部３１の第２の構成例の他の処理を説明するフローチャートである。リスト変更処理を説明するフローチャートである。本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。

［本発明を適用したレコーダの一実施の形態の構成例］

図１は、本発明を適用したレコーダの一実施の形態の構成例を示すブロック図である。

図１において、レコーダは、例えば、HD(Hard Disk)レコーダ等であり、コンテンツ取得部１１、コンテンツ保持部１２、タイミング情報取得部２０、及び、再生制御部３０から構成される。

コンテンツ取得部１１は、例えば、テレビジョン放送の番組等としての画像及び音声等のコンテンツのコンテンツデータを取得し、コンテンツ保持部１２に供給する。

さらに、コンテンツ取得部１１は、コンテンツデータに、そのコンテンツデータに対応するコンテンツのメタデータが付与されている場合には、そのメタデータをも取得し、コンテンツ保持部１２に供給する。

すなわち、コンテンツ取得部１１は、例えば、ディジタル放送等のテレビジョン放送の放送データを受信するチューナであり、図示せぬ放送局から送信（放送）されてくる放送データとしての、例えば、TS(Transport Stream)等を受信することにより取得し、コンテンツ保持部１２に供給する。

ここで、放送データには、コンテンツである番組のデータとしてのコンテンツデータが含まれる。さらに、放送データには、番組のメタデータ（番組（コンテンツ）に付与されたメタデータ）としてのEPG(Electronic Program Guide)等のデータが必要に応じて含まれる。

また、番組のデータとしてのコンテンツデータには、番組の画像データと、その画像データに付随する音声データとが、少なくとも含まれる。さらに、コンテンツデータには、クローズドキャプション等の字幕データが含まれることがある。コンテンツデータに、字幕データが含まれる場合、コンテンツデータには、さらに、字幕データに対応する字幕を表示する表示時刻を表す表示時刻情報が含まれる。

なお、コンテンツ取得部１１は、例えば、LAN(Local Area Network)やインターネット等のネットワークを介した通信を行う通信I/F(Interface)等で構成することができる。この場合、コンテンツ取得部１１は、ネットワーク上のサーバからダウンロードすることができるコンテンツデータやメタデータ（例えば、いわゆるiEPG等のデータ）を受信することにより取得する。

また、コンテンツ取得部１１は、DVD等のパッケージメディアに記録されたコンテンツを再生することにより取得することが可能である。

コンテンツ保持部１２は、例えば、HD(Hard Disk)等の大容量の記録（記憶）媒体で構成され、コンテンツ取得部１１から供給されるコンテンツデータを、必要に応じて記録（記憶）（保持）する。

また、コンテンツ取得部１１からコンテンツ保持部１２に対して、EPGのデータ等のコンテンツ（番組）のメタデータが供給される場合、コンテンツ保持部１２は、そのメタデータも記録する。

なお、コンテンツ保持部１２へのコンテンツデータの記録が、録画（予約録画や、いわゆるおまかせ録画、ダビング等を含む）に相当する。

タイミング情報取得部２０は、コンテンツ保持部１２にコンテンツデータが記録されたコンテンツにおいて、キーワードが発話されるタイミングを表すタイミング情報を取得するデータ処理装置として機能する。

すなわち、タイミング情報取得部２０は、テキスト取得部２１、キーワード取得部２２、音声データ取得部２３、音声検索部２４、及び、タイミング情報記憶部２５から構成される。

テキスト取得部２１は、音声検索部２４で音声検索を行うキーワードを取得するためのテキストを取得し、キーワード取得部２２に供給する。

キーワード取得部２２は、テキスト取得部２１からのテキストから、音声検索の対象とする文字列であるキーワードを取得し、音声検索部２４に供給する。

ここで、キーワード取得部２２では、テキスト取得部２１からのテキスト全体を、１個のキーワードとして取得することができる。

また、キーワード取得部２２では、テキスト取得部２１からのテキストに対して、形態素解析等の自然言語処理を施すことにより、テキストを形態素に分解し、そのテキストを構成する形態素の全部、又は一部を、キーワードとして取得することができる。

ここで、キーワード取得部２２では、例えば、形態素の読み情報（音韻）を取得し、その読み情報に基づき、読みが長い単語（読みの文字数が所定数以上の単語）を、キーワードとして取得することができる。

また、キーワード取得部２２では、出現頻度が所定回数以上の形態素のうちの、助詞等の付属語以外（自立語）を、キーワードとして取得することができる。

さらに、キーワード取得部２２では、品詞が固有名詞の形態素を、キーワードとして取得することができる。

その他、キーワード取得部２２では、例えば、いわゆる固有表現抽出技術で抽出される文字列等を、キーワードとして取得することができる。

音声データ取得部２３は、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツのうちの、注目する注目コンテンツのコンテンツデータの音声データを読み出すことにより取得し、音声検索部２４に供給する。

音声検索部２４は、音声データ取得部２３から供給される注目コンテンツの音声データから、キーワード取得部２２から供給されるキーワードの発話を検索する音声検索を行う。さらに、音声検索部２４は、発話が検索されたキーワードの発話のタイミング、すなわち、例えば、注目コンテンツの先頭等を基準する、キーワードが発話される時刻（タイミング）を表すタイミング情報を取得する。

ここで、タイミング情報としては、例えば、タイムコード等を採用することができる。また、キーワードの発話のタイミングとしては、例えば、発話の開始又は終了のタイミングを採用することもできるし、その他、発話の中の任意のタイミングを採用することもできる。

音声検索部２４は、注目コンテンツについて、発話が検索されたキーワードと、その発話のタイミングを表すタイミング情報とを対応付けて登録したタイミング情報リストを生成し、タイミング情報記憶部２５に供給する。

タイミング情報記憶部２５は、音声検索部２４から供給される、注目コンテンツについてのタイミング情報リストを、注目コンテンツ（を識別する識別情報）と対応付けて記憶する。

再生制御部３０は、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツのうちの、再生の対象として指定されたコンテンツを、再生の対象である再生コンテンツとして、その再生コンテンツのダイジェスト再生等の再生を制御する再生制御を行う。

すなわち、再生制御部３０は、表示用画像生成部３１、及び、表示制御部３２から構成される。

表示用画像生成部３１は、コンテンツ保持部１２から、再生コンテンツのコンテンツデータの画像データを取得するとともに、タイミング情報記憶部２５から、再生コンテンツについてのタイミング情報リストを取得する。

さらに、表示用画像生成部３１は、再生コンテンツの画像データのうちの、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データから、そのタイミング情報に対応付けられたキーワードとともに表示する表示用画像の表示用画像データを生成する。

ここで、表示用画像としては、例えば、いわゆるサムネイル等の、元の画像を縮小した縮小画像等を採用することができる。

表示用画像生成部３１は、タイミング情報に対応するキーワードと表示用画像データ、すなわち、タイミング情報に対応付けられたキーワードと、そのタイミング情報が表すタイミング付近の画像データから生成された表示用画像データとのセットを、表示制御部３２に供給する。

表示制御部３２は、表示用画像生成部３１からの表示用画像データに対応する表示用画像を、その表示用画像データとセットになっているキーワードとともに、例えば、TV（テレビジョン受像機）等の表示装置４０に表示させる。

以上のように構成されるレコーダでは、タイミング情報取得処理や、再生処理等が行われる。

タイミング情報取得処理は、タイミング情報取得部２０によって行われる。そして、タイミング情報取得処理では、コンテンツにおける、キーワードの発話のタイミングを表すタイミング情報が取得される。

また、再生処理は、再生制御部３０によって行われる。そして、再生処理では、タイミング情報取得処理で取得されたタイミング情報を利用して、ダイジェスト再生等が行われる。

［タイミング情報取得処理の説明］

図２を参照して、図１のタイミング情報取得部２０が行うタイミング情報取得処理を説明する。

なお、図１のレコーダにおいて、コンテンツ保持部１２には、１以上のコンテンツのコンテンツデータが、既に記録されていることとする。また、タイミング情報取得処理は、任意のタイミングで行われる（開始される）。

タイミング情報取得処理では、ステップＳ１１において、テキスト取得部２１がテキストを取得し、キーワード取得部２２に供給して、処理は、ステップＳ１２に進む。

ステップＳ１２では、キーワード取得部２２は、テキスト取得部２１からのテキストから、音声検索の対象とする文字列であるキーワードを取得し、１個以上のキーワードを登録したキーワードリストを作成する。

すなわち、キーワード取得部２２は、テキスト取得部２１からのテキストから、音声検索の対象とする１個以上の文字列を抽出し、各文字列を、キーワードとして登録したキーワードリストを作成する。

その後、処理は、ステップＳ１２からステップＳ１３に進み、音声データ取得部２３は、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツのうちの、まだ、注目コンテンツとしていないコンテンツの１つを、注目コンテンツとして選択する。さらに、ステップＳ１３では、音声データ取得部２３は、注目コンテンツのコンテンツデータの音声データを、コンテンツ保持部１２から取得し、音声検索部２４に供給する。

そして、処理は、ステップＳ１３からステップＳ１４に進み、以下、ステップＳ１４ないしＳ１９において、注目コンテンツについてのタイミング情報リストを生成するタイミング情報リスト生成処理が行われる。

すなわち、ステップＳ１４において、音声検索部２４は、キーワード取得部２２からのキーワードリストに、キーワードが登録されているかどうかを判定する。

ステップＳ１４において、キーワードリストに、キーワードが登録されていると判定された場合、処理は、ステップＳ１５に進み、音声検索部２４は、キーワードリストに登録されているキーワードのうちの１つを、注目する注目キーワードとして選択し、処理は、ステップＳ１６に進む。

ステップＳ１６では、音声検索部２４は、音声データ取得部２３から供給される注目コンテンツの音声データから、注目キーワードの発話を検索する音声検索を行い、処理は、ステップＳ１７に進む。

ここで、音声データからの注目キーワードの発話の音声検索は、例えば、いわゆるキーワードスポッティングを利用して行うことができる。

また、音声検索は、その他、例えば、音声データ取得部２３から音声検索部２４に供給される音声データの音素、及び、音素の位置のインデクスを作成し、注目キーワードを構成する音素の系列を、そのインデクスから探し出す方法（以下、インデクス検索法ともいう）等を利用して行うことができる。インデクス検索法については、例えば、N.Kanda, et al. "Open-VocaburaryKeyword Detection from Super-Large Scale Speech Database," IEEE SingalProcessing Society 2008 International Workshop on Multimedia SignalProcessingに記載されている。

ステップＳ１７では、音声検索部２４は、ステップＳ１６での音声検索の結果に基づき、注目コンテンツの音声データに、注目キーワードの発話（注目キーワードを発話した音声データ）があったかどうかを判定する。

ステップＳ１７において、注目コンテンツの音声データに、注目キーワードの発話があったと判定された場合、音声検索部２４は、その発話のタイミングを検出し、処理は、ステップＳ１８に進む。

ステップＳ１８では、音声検索部２４は、注目コンテンツについてのタイミング情報リストに、注目キーワードと、注目キーワードの発話のタイミングを表すタイミング情報とを対応付けて登録し（記憶させ）、処理は、ステップＳ１９に進む。

一方、ステップＳ１７において、注目コンテンツの音声データに、注目キーワードの発話がなかったと判定された場合、処理は、ステップＳ１８をスキップして、ステップＳ１９に進む。

ステップＳ１９では、音声検索部２４が、キーワードリストから、注目キーワードを削除して、処理は、ステップＳ１４に戻り、以下、同様の処理が繰り返される。

そして、ステップＳ１４において、キーワードリストに、キーワードが登録されていないと判定された場合、すなわち、ステップＳ１２で作成されたキーワードリストに登録されたキーワードすべてについて、音声検索が行われた場合、音声検索部２４は、注目コンテンツについてのタイミング情報リストをタイミング情報記憶部２５に供給して記憶させ、処理は終了する。

以上のように、タイミング情報取得処理では、テキスト取得部２１において、テキストが取得され、キーワード取得部２２において、そのテキストから、キーワードが取得される。そして、音声検索部２４において、注目コンテンツの音声データから、キーワードの発話が検索され、発話が検索されたキーワードの発話のタイミングを表すタイミング情報が取得される。

したがって、コンテンツにおいて、キーワードが発話されるシーン、すなわち、キーワードが内容を説明するシーンのタイミング（を表すタイミング情報）を取得することができる。

［再生処理の説明］

図３を参照して、図１の再生制御部３０が行う再生処理を説明する。

なお、図１のレコーダにおいては、図２のタイミング情報取得処理が行われ、タイミング情報記憶部２５には、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツのすべてについて、タイミング情報リストが、既に記憶されていることとする。

例えば、ユーザが、図示せぬ操作部を操作することにより、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツの中から、ダイジェスト再生をするコンテンツを指定すると、ステップＳ３１において、表示用画像生成部３１は、ユーザによって指定されたコンテンツを、再生コンテンツとして選択し、処理は、ステップＳ３２に進む。

ステップＳ３２では、表示用画像生成部３１が、コンテンツ保持部１２から、再生コンテンツの画像データを取得するとともに、タイミング情報記憶部２５から、再生コンテンツについてのタイミング情報リストを取得して、処理は、ステップＳ３３に進む。

ステップＳ３３では、表示用画像生成部３１は、再生コンテンツの画像データのうちの、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データを取得し、その画像データから、表示用画像データを生成する。

すなわち、表示用画像生成部３１は、例えば、タイミング情報リストに登録されたタイミング情報が表すタイミングのフレーム（フィールド）の画像データから、サムネイルの画像データを、表示用画像データとして生成する。

表示用画像生成部３１は、タイミング情報リストに登録されたタイミング情報すべてについて、表示用画像データを生成し、各表示用画像データを、その表示用画像データに対応するキーワードとセット（タイミング情報に対応付けられたキーワードと、そのタイミング情報が表すタイミング付近の画像データから生成された表示用画像データとのセット）にして、表示制御部３２に供給する。

その後、処理は、ステップＳ３３からステップＳ３４に進み、表示制御部３２は、表示用画像データ生成部３１からの表示用画像データに対応する表示用画像の一覧を、対応するキーワードとともに、表示装置４０に表示させ、処理は終了する。

すなわち、これにより、表示装置４０においては、表示用画像が、その表示用画像データとセットになっているキーワード、つまり、表示用画像を含むシーンの内容を説明するキーワードとともに表示される。

したがって、ユーザは、再生コンテンツの各シーンの内容を、容易に把握することができる。

すなわち、例えば、前述したように、再生コンテンツが、ニュース番組であり、表示用画像の多くが、キャスタが写っている同じような画像となったとしても、各表示用画像とともに表示されるキーワードを見ることにより、ユーザは、表示用画像を含むシーンの内容を、容易に把握することができる。

なお、表示用画像の一覧において、表示用画像は、例えば、その表示用画像を生成するのに用いた画像データのフレームの表示時刻の順番で表示される。

また、ここでは、タイミング情報が表すタイミングのフレームのサムネイルを、表示用画像とすることとしたが、表示用画像としては、その他、例えば、タイミング情報が表すタイミングの画像を含む所定の短時間分の動画（サイズを縮小したものを含む）等を採用することが可能である。

［テキスト取得部２１の第１の構成例］

図４は、図１のテキスト取得部２１の第１の構成例を示している。

図４では、テキスト取得部４１は、関連テキスト取得部５０から構成される。

関連テキスト取得部５０は、コンテンツ保持部１２にコンテンツデータが記録されたコンテンツに関連するテキスト（以下、関連テキストともいう）を取得し、キーワード取得部２２に供給する。

すなわち、図４において、関連テキスト取得部５０は、メタデータ取得部５１と、字幕データ取得部５２とから構成される。

メタデータ取得部５１は、注目コンテンツのメタデータが、コンテンツ保持部１２に記録されている場合、そのメタデータを、コンテンツ保持部１２から読み出すことにより、関連テキストとして取得し、キーワード取得部２２に供給する。

すなわち、メタデータ取得部５１は、例えば、注目コンテンツが、テレビジョン放送の番組であり、そのメタデータとしてのEPGのデータが、コンテンツ保持部１２に記録されている場合には、そのEPGのデータから、注目コンテンツとしての番組のタイトルや、出演者の氏名、あらすじ（概要）等の関連テキストを抽出し、キーワード取得部２２に供給する。

なお、メタデータ取得部５１では、注目コンテンツのメタデータを、コンテンツ保持部１２に記録されているメタデータから取得する他、インターネット等のネットワーク上のサイトから取得することができる。

すなわち、メタデータ取得部５１では、例えば、インターネット上の、iEPGを提供しているサイトや、番組の放送局のサイト等の、番組の情報を提供しているサイト（webページ等）から、注目コンテンツのメタデータを取得することができる。

字幕データ取得部５２は、注目コンテンツのコンテンツデータが、画像データ及び音声データの他、字幕データを含む場合に、その字幕データを、コンテンツ保持部１２から読み出すことにより、関連テキストとして取得し、キーワード取得部２２に供給する。

なお、字幕データ取得部５２は、コンテンツ保持部１２から字幕データを取得する他、その字幕データに対応する字幕を表示する表示時刻を表す表示時刻情報も、コンテンツ保持部１２から取得する。そして、字幕データ取得部５２は、表示時刻情報を、音声検索部２４に供給する。

この場合、音声検索部２４は、関連テキストとしての字幕データから取得されたキーワードの発話の音声検索を、その字幕データについての表示時刻情報が表す表示時刻のタイミング付近の音声データ、すなわち、例えば、字幕データに対応する字幕の表示開始時刻から表示終了時刻までの区間を、前後に所定の時間だけ延長した区間の音声データ等に限定して行うことができる。

キーワードの発話の音声検索を、注目コンテンツの音声データの全区間ではなく、表示時刻情報が表す表示時刻のタイミング付近の音声データに限定して行うことにより、音声検索の精度の向上、検索に要する処理量の低減、及び、検索の処理の高速化等を図ることができる。そして、その結果、タイミング情報取得処理を、効率的に行うことができる。

なお、字幕が、字幕データとしてコンテンツデータに含まれるのではなく、コンテンツの画像に、テロップ等の形で重畳されている場合には、字幕データ取得部５２では、画像処理により、テロップを抽出し、さらに、文字認識によって、テロップを、テキストの字幕データとすることにより、字幕が、字幕データとしてコンテンツデータに含まれる場合と同様の処理を行うことができる。

［テキスト取得部２１の第１の構成例の処理］

図５を参照して、図４のテキスト取得部２１の第１の構成例の処理、すなわち、図２のタイミング情報取得処理におけるステップＳ１１の処理を説明する。

ステップＳ４１において、メタデータ取得部５１は、注目コンテンツのメタデータが、コンテンツ保持部１２や、インターネット上のサイトにあるかどうかを判定する。

ステップＳ４１において、注目コンテンツのメタデータが、コンテンツ保持部１２や、インターネット上のサイトにあると判定された場合、ステップＳ４２に進み、メタデータ取得部５１は、コンテンツ保持部１２や、インターネット上のサイトから、注目コンテンツのメタデータを、関連テキストとして取得する。さらに、メタデータ取得部５１は、関連テキストとしてのメタデータを、キーワード取得部２２に供給して、処理は、ステップＳ４２からステップＳ４３に進む。

また、ステップＳ４１において、注目コンテンツのメタデータが、コンテンツ保持部１２、及び、インターネット上のサイトのいずれにもないと判定された場合、処理は、ステップＳ４２をスキップして、ステップＳ４３に進む。

ステップＳ４３では、字幕データ取得部５２は、注目コンテンツの字幕データが、コンテンツ保持部１２にあるかどうかを判定する。

ステップＳ４３において、注目コンテンツの字幕データが、コンテンツ保持部１２にあると判定された場合、処理は、ステップＳ４４に進み、字幕データ取得部５２は、コンテンツ保持部１２から、注目コンテンツの字幕データを、関連テキストとして取得するとともに、その字幕データの表示時刻情報を取得する。さらに、字幕データ取得部５２は、関連テキストとしての字幕データを、キーワード取得部２２に供給するとともに、表示時刻情報を、音声検索部２４に供給して、処理は、ステップＳ４４からステップＳ４５に進む。

ステップＳ４５では、キーワード取得部２２が、メタデータ取得部５１、及び、字幕データ取得部５２のうちの少なくとも一方から、関連テキストが供給されたか否かを判定する。

ステップＳ４５において、キーワード取得部２２に対して、メタデータ取得部５１、及び、字幕データ取得部５２のうちのいずれからも、関連テキストが供給されていないと判定された場合、キーワードを取得することができないため、タイミング情報取得処理は終了する。

また、ステップＳ４５において、キーワード取得部２２に対して、メタデータ取得部５１、及び、字幕データ取得部５２のうちの少なくとも一方から、関連テキストが供給されたと判定された場合、処理は、図２のステップＳ１２に進み、以下、上述した処理が行われる。

［表示用画像の表示例］

図６は、図３の再生処理で表示される表示用画像の表示例を示している。

すなわち、図６は、例えば、コンテンツとしてのニュース番組を、注目コンテンツとして、図２及び図５で説明したタイミング情報取得処理が行われた後、図３の再生処理において、そのニュース番組が再生コンテンツとして選択された場合に表示される表示用画像の表示例を示している。

図６では、再生コンテンツとしてのニュース番組において、キャスタが写っている４つの画像それぞれのサムネイルが、表示用画像として、左から、表示時刻順に表示されている。

図６の４つのサムネイルは、いずれも、キャスタが写っているだけなので、サムネイルを見るだけでは、ニュース番組の内容を把握することは困難である。

しかしながら、図６では、各サムネイルとともに、そのサムネイルとしての表示用画像に対応するキーワードが表示されている。

すなわち、図６では、キャスタが写っている４つの画像それぞれのサムネイルのうちの（左から）１番目のサムネイルの下部には、キーワード「サブプライムローン」が表示され、２番目のサムネイルの下部には、キーワード「日経平均株価」が表示されている。さらに、３番目のサムネイルの下部には、キーワード「テロ特別措置法」が表示され、４番目のサムネイルの下部には、キーワード「全国高校野球選手権」が表示されている。

したがって、ユーザは、キーワードを見ることにより、ニュース番組の内容を、容易に把握することができる。

ここで、キーワードは、コンテンツを、幾つかのシーンに分割したときに、各シーンのタイトルとして機能するということができる。

なお、図６では、表示用画像として、キーワードが発話されているタイミングの画像のサムネイルを表示することとしたが、表示用画像としては、コンテンツのその他の画像のサムネイルを表示することが可能である。

すなわち、コンテンツの画像から、キーワードが発話されているタイミングに近いタイミングの画像を、サムネイルとする画像の候補（以下、サムネイル候補画像ともいう）として、キーワードが発話されているタイミングの画像に代えて、サムネイル候補画像のサムネイルを、表示用画像として表示することができる。

ここで、サムネイル候補画像としては、キーワードが発話されているタイミングに近いタイミングの画像のうちの、例えば、コンテンツを、画像や音声の特徴量に基づいて分割したときにシーンの先頭となる画像を採用することができる。また、サムネイル候補画像としては、キーワードが発話されているタイミングに近いタイミングの画像のうちの、例えば、画像や音声の特徴量が周辺の特徴量と大きく異なる画像等を採用することができる。

キーワードが発話されているタイミングの画像の以外の画像であるサムネイル候補画像のサムネイルも、表示用画像として表示されうるようにすることで、表示用画像としては、図６に示したキャスタが写っている画像のような同様の（シーン（場面）の）画像ではなく、いわば多様な（シーンの）画像のサムネイルが表示される可能性が高くなる。

図７は、多様な画像のサムネイルが表示用画像として表示される場合の、表示用画像の表示例を示している。

図７では、キーワードが発話されているタイミングの画像に代えて、そのタイミングに近いタイミングのサムネイル候補画像のサムネイルが、４つの表示用画像として、図６に示したキーワードとともに表示されている。

すなわち、図７において、１番目には、例えば、サブプライムローン問題に起因して競売にかけられている住宅が写っているサムネイル候補画像のサムネイルが、キーワード「サブプライムローン」とともに表示されている。

２番目には、例えば、東証Arrowsのマーケットセンターが写っているサムネイル候補画像のサムネイルが、キーワード「日経平均株価」とともに表示されている。

３番目には、例えば、国会内の様子が写っているサムネイル候補画像のサムネイルが、キーワード「テロ特別措置法」とともに表示されている。

４番目には、例えば、高校野球の試合の様子が写っているサムネイル候補画像のサムネイルが、キーワード「全国高校野球選手権」とともに表示されている。

図７の表示用画像は、図６の表示用画像に比較して、ユーザが、コンテンツの内容を把握しやすい画像になっている。

但し、それでも、例えば、３番目の、国会内の様子が写っているサムネイル候補画像のサムネイルによれば、コンテンツの内容が、政治に関することであることは、大雑把に把握することはできるが、それ以上の詳しい内容までを把握することは困難である。

しかしながら、サムネイルとともに表示されているキーワード「テロ特別措置法」により、コンテンツの内容が、テロ特別措置法に関することであることを、容易に把握することができる。

ここで、図６及び図７では、キーワードが、表示用画像の下部に表示されているが、キーワードの表示位置は、特に限定されるものではない。また、キーワードは、表示用画像の一部に重畳して表示することができる。

なお、前述した特許文献１に記載の技術では、セリフの音声の再生期間を抽出するので、その再生期間のみを順次再生するダイジェスト再生を行うことができるが、図６及び図７に示したような表示用画像としてのサムネイルの一覧は表示されない。

また、仮に、特許文献１に記載の技術において、セリフの音声の再生期間の先頭の画像のサムネイルを表示することとしても、図６及び図７に示したように、キーワードは表示されない。したがって、同様の画像のサムネイルが表示される場合には、コンテンツの内容を把握することが困難となる。

［テキスト取得部２１の第２の構成例］

図８は、図１のテキスト取得部２１の第２の構成例を示している。

図８では、テキスト取得部２１は、ユーザ入力取得部６１から構成される。

ユーザ入力取得部６１は、ユーザからの入力を、テキストとして取得し、キーワード取得部２２に供給する。

すなわち、ユーザ入力取得部６１は、例えば、ユーザが図示せぬキーボードを操作することにより、そのキーボードから供給される文字列の入力を、テキストとして取得する。また、ユーザ入力取得部６１は、例えば、ユーザの発話（音声）の入力を音声認識し、その音声認識の結果得られる文字列を、テキストとして取得する。

［テキスト取得部２１の第２の構成例の処理］

図９を参照して、図８のテキスト取得部２１の第２の構成例の処理、すなわち、図２のタイミング情報取得処理におけるステップＳ１１の処理を説明する。

ステップＳ５１において、ユーザ入力取得部６１は、ユーザがキーボードを操作すること、あるいは、発話を行うことによって、テキストの入力があったかどうかを判定する。ステップＳ５１において、テキストの入力がなかったと判定された場合、処理は、ステップＳ５１に戻る。

また、ステップＳ５１において、テキストの入力があったと判定された場合、処理は、ステップＳ５２に進み、ユーザ入力取得部６１は、そのテキストを取得し、キーワード取得部２２に供給して、処理は、図２のステップＳ１２に進み、以下、上述した処理が行われる。

なお、キーワード取得部２２は、図１で説明したように、テキスト取得部２１から供給されるテキスト全体を、１個のキーワードとして取得することができる。

キーワード取得部２２において、テキスト取得部２１から供給されるテキスト全体が、１個のキーワードとして取得される場合には、ユーザが入力したテキストが、そのままキーワードとされることになるので、等価的に、ユーザは、キーワードを入力することができることになる。

［特定コンテンツ検索処理の説明］

ところで、ユーザの入力をテキストとして、そのテキストからキーワードを取得する場合には（ユーザの入力のテキストを、そのままキーワードとする場合も含む）、図２で説明したタイミング情報取得処理によって、そのキーワードと、そのキーワードのタイミング情報とを対応付けて登録したタイミング情報リストを生成する他、ユーザの入力から取得されるキーワードの発話があるコンテンツを検索する特定コンテンツ検索処理を行うことができる。

図１０を参照して、図１のレコーダで行うことができる特定コンテンツ検索処理を説明する。

特定コンテンツ検索処理は、図２のタイミング情報取得処理と、図３の再生処理とを利用して行うことができる。

すなわち、特定コンテンツ検索処理では、ステップＳ６１において、テキスト取得部２１が、図９で説明したようにして、テキストを取得し、キーワード取得部２２に供給する。

具体的には、例えば、ユーザは、興味を持っている俳優の氏名や、ジャンルを表す単語等を入力し、テキスト取得部２１（のユーザ入力取得部６１（図８））は、そのユーザによる入力を、テキストとして取得して、キーワード取得部２２に供給する。

そして、処理は、ステップＳ６１からステップＳ６２に進み、キーワード取得部２２は、図２のステップＳ１２と同様に、テキスト取得部２１からのテキストから、キーワードを取得し、そのキーワードを登録したキーワードリストを作成する。さらに、キーワード取得部２２は、キーワードリストを、音声検索部２４に供給して、処理は、ステップＳ６２からステップＳ６３に進む。

ここで、いまの場合、キーワードリストには、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等が、キーワードとして登録される。

ステップＳ６３では、音声データ取得部２３は、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツの中に、まだ、注目コンテンツとしていないコンテンツがあるかどうかを判定する。

ステップＳ６３において、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツの中に、まだ、注目コンテンツとしていないコンテンツがあると判定された場合、処理は、ステップＳ６４に進み、音声データ取得部２３は、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツのうちの、まだ、注目コンテンツとしていないコンテンツの１つを、注目コンテンツとして選択する。

さらに、ステップＳ６４では、音声データ取得部２３は、注目コンテンツのコンテンツデータの音声データを、コンテンツ保持部１２から取得し、音声検索部２４に供給する。

そして、処理は、ステップＳ６４からステップＳ６５に進み、音声検索部２４は、注目コンテンツについてのタイミング情報リストを生成するタイミング情報リスト生成処理、すなわち、図２のステップＳ１４ないしＳ１９と同様の処理を行う。

ステップＳ６５において、タイミング情報リスト生成処理が行われることにより、注目コンテンツについて、タイミング情報リストが生成され、タイミング情報記憶部２５に記憶されると、処理は、ステップＳ６６に進み、以下、ステップＳ６６ないしＳ６８において、再生制御部３０は、注目コンテンツを、再生コンテンツとして、図３の再生処理におけるステップＳ３２ないしＳ３４とそれぞれ同様の処理を行う。

すなわち、ステップＳ６６では、再生制御部３０の表示用画像生成部３１が、コンテンツ保持部１２から、注目コンテンツの画像データを取得するとともに、タイミング情報記憶部２５から、注目コンテンツについてのタイミング情報リストを取得して、処理は、ステップＳ６７に進む。

ステップＳ６７では、表示用画像生成部３１は、注目コンテンツの画像データのうちの、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データを取得し、その画像データから、表示用画像データを生成する。

すなわち、表示用画像生成部３１は、例えば、タイミング情報リストに登録されたタイミング情報が表すタイミングのフレームの画像データから、サムネイルの画像データを、表示用画像データとして生成する。

表示用画像生成部３１は、タイミング情報リストに登録されたタイミング情報すべてについて、表示用画像データを生成すると、各表示用画像データを、その表示用画像データに対応するキーワードとセットにして、表示制御部３２に供給する。

その後、処理は、ステップＳ６７からステップＳ６８に進み、表示制御部３２は、表示用画像データ生成部３１からの表示用画像データに対応する表示用画像の一覧を、対応するキーワードとともに、表示装置４０に表示させる。

これにより、表示装置４０においては、表示用画像が、その表示用画像データとセットになっているキーワード、つまり、表示用画像を含むシーン（連続するフレーム）の内容を説明するキーワードとともに表示される。

その後、処理は、ステップＳ６８からステップＳ６３に戻り、以下、同様の処理が繰り返される。

そして、ステップＳ６３において、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツの中に、注目コンテンツとしていないコンテンツがないと判定されると、すなわち、コンテンツ保持部１２にコンテンツデータが記録されているコンテンツすべてを、注目コンテンツとして、ステップＳ６３ないしＳ６８の処理が行われると、処理は終了する。

いまの場合、キーワードは、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等になっている。したがって、注目コンテンツが、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等の発話を多く含むコンテンツであるほど、多数のサムネイルが、キーワードとともに表示される。

一方、注目コンテンツが、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等の発話が少ないコンテンツである場合、すなわち、極端には、ユーザが興味を持っている俳優の氏名や、ジャンルを表す単語等の発話が一切ないコンテンツである場合、表示用画像としてのサムネイルは、表示されない。

したがって、ユーザは、多数のサムネイルが、キーワードとともに表示されたコンテンツが、ユーザが興味を持っている俳優に関するコンテンツや、ユーザが興味を持っているジャンルのコンテンツであるとして、容易に探し出すことができる。

なお、図１０の特定コンテンツ検索処理では、ユーザによって指定されたコンテンツではなく、コンテンツ保持部１２にコンテンツデータが記録されたコンテンツのすべてを、注目データとして、ステップＳ６５のタイミング情報リスト生成処理（図２のステップＳ１４ないしＳ１９）を行う必要がある。

したがって、タイミング情報リスト生成処理のうちの、特に、音声データからキーワードの発話を検索する音声検索は、高速に行うことが望ましい。

音声検索を高速に行う方法としては、例えば、上述した、音声データの音素、及び、音素の位置をインデクスとして作成し、注目キーワードを構成する音素の系列を、そのインデクスから探し出すインデクス検索法がある。

そこで、特に、図１０の特定コンテンツ検索処理を行う場合においては、図１の音声検索部２４は、インデクス検索法によって音声検索を行うように構成するのが望ましい。

［インデクス検索法による音声検索を行う音声検索部２４の構成例］

図１１は、インデクス検索法による音声検索を行う音声検索部２４の構成例を示している。

図１１において、音声検索部２４は、インデクス作成部７１、インデクス記憶部７２、及び、キーワード検索部７３から構成される。

インデクス作成部７１には、音声データ取得部２３から、注目コンテンツの音声データが供給される。

インデクス作成部７１は、音声データ取得部２３からの注目コンテンツの音声データの中の各音素（列）、及び、その音素の位置（タイミング）のインデクスを作成し、インデクス記憶部７２に供給する。

インデクス記憶部７２は、インデクス作成部７１からのインデクスを一時記憶する。

キーワード検索部７３には、キーワード取得部２２からのキーワードが供給される。

キーワード検索部７３は、インデクス記憶部７２に記憶されたインデクスから、キーワード取得部２２から供給されるキーワードを構成する音素の系列を検索する。

さらに、キーワード検索部７３は、インデクス記憶部７２に記憶されたインデクスから、キーワードの音素の系列を検索することができた場合、キーワードの発話を検索することができたとして、そのタイミング（音素の系列の位置）を表すタイミング情報を、インデクス記憶部７２に記憶されたインデクスから取得する。そして、キーワード検索部７３は、キーワードとタイミング情報とを対応付けて登録したタイミング情報リストを生成し、タイミング情報記憶部２５に供給する。

［インデクス検索法による音声検索を行う音声検索部２４の処理］

音声検索部２４が、図１１に示すように構成され、インデクス検索法による音声検索を行う場合、音声検索部２４は、図１０のステップＳ６４において、音声データ取得部２３から注目コンテンツの音声データが供給されると、ステップＳ６５のタイミング情報リスト生成処理の前に、インデクスを作成するインデクス作成処理を行う。

図１２を参照して、図１１の音声検索部２４が行うインデクス作成処理を説明する。

ステップＳ７１において、インデクス作成部７１は、音声データ取得部２３から供給される注目コンテンツの音声データの中の各音素、及び、その音素の位置のインデクスを作成し、インデクス記憶部７２に供給して、処理は、ステップＳ７２に進む。

ステップＳ７２では、インデクス記憶部７２が、インデクス作成部７１からのインデクスを一時記憶して、処理は終了する。

以上のようなインデクス作成処理の終了後、図１０のステップＳ６５のタイミング情報リスト生成処理では、キーワード検索部７３において、インデクス記憶部７２に記憶されたインデクスから、キーワード取得部２２から供給されるキーワードを構成する音素の系列を検索する、キーワードの音声検索（図２のステップＳ１６）が行われる。

［表示用画像生成部３１の第１の構成例］

次に、図１３は、図１の表示用画像生成部３１の第１の構成例を示している。

図１３において、表示用画像生成部３１は、画像データ取得部８１とサムネイル生成部８２から構成される。

画像データ取得部８１は、コンテンツ保持部１２から、注目コンテンツ（又は再生コンテンツ）の画像データを取得し、サムネイル生成部８２に供給する。

サムネイル生成部８２には、画像データ取得部８１から注目コンテンツの画像データが供給される他、タイミング情報記憶部２５から注目コンテンツ（又は再生コンテンツ）についてのタイミング情報リストが供給される。

サムネイル生成部８２は、タイミング情報記憶部２５からのタイミング情報リストに登録されたタイミング情報に基づき、画像データ取得部８１からの画像データのうちの、タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。

そして、サムネイル生成部８２は、タイミング情報に対応付けられたキーワードと、そのタイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部３２に供給する。

［表示用画像生成部３１の第１の構成例の処理］

図１４を参照して、図１３の表示用画像生成部３１の第１の構成例の処理、すなわち、図３の再生処理におけるステップＳ３２及びＳ３３の処理を説明する。

なお、図１０のステップＳ６６及びＳ６７でも、同様の処理が行われる。

ステップＳ８１において、サムネイル生成部８２は、タイミング情報記憶部２５から再生コンテンツについてのタイミング情報リストを取得し、処理は、ステップＳ８２に進む。

ステップＳ８２では、画像データ取得部８１は、コンテンツ保持部１２から、再生コンテンツの画像データを取得し、サムネイル生成部８２に供給して、処理は、ステップＳ８３に進む。

ここで、以上のステップＳ８１及びＳ８２の処理が、図３のステップＳ３２（図１０のステップＳ６６）で行われる。そして、以下、説明するＳ８３及びＳ８４の処理が、図３のステップＳ３３（図１０のステップＳ６７）で行われる。

ステップＳ８３では、サムネイル生成部８２が、タイミング情報記憶部２５からのタイミング情報リストに登録されたタイミング情報に基づき、画像データ取得部８１からの画像データのうちの、タイミング情報が表すタイミングの画像データを取得する。

そして、処理は、ステップＳ８３からステップＳ８４に進み、サムネイル生成部８２が、タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。

さらに、ステップＳ８４では、サムネイル生成部８２が、タイミング情報リストにおいてタイミング情報に対応付けられたキーワードと、そのタイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部３２に供給し、処理は、図３のステップＳ３４（図１０のステップＳ６８）に進む。

［表示用画像生成部３１の第２の構成例］

上述したように、音声検索部２４は、音声データ取得部２３から供給される注目コンテンツの音声データから、キーワード取得部２２から供給される注目キーワードの発話を検索する音声検索を行い、発話が検索された注目キーワードのタイミング情報を取得する。

すなわち、音声検索部２４は、注目コンテンツの音声データから、注目キーワードの発話が検索された場合には、その発話が検索された注目キーワードのタイミング情報を取得する。

したがって、注目コンテンツにおいて、注目キーワードの発話が、複数回されている場合には、音声検索部２４では、その複数回の発話について、注目キーワードのタイミング情報が取得される。

このように、複数回の発話について、注目キーワードのタイミング情報が取得された場合、すなわち、注目キーワードについて、複数のタイミング情報が取得された場合、タイミング情報リストには、注目キーワードと、その複数のタイミング情報とが対応付けられて登録される。

そして、タイミング情報リストにおいて、キーワードと、複数のタイミング情報とが対応付けられている場合、図３の再生処理では、その複数のタイミング情報それぞれが表すタイミングの画像データから生成される複数の表示用画像が、同一のキーワードとともに表示される。

ところで、タイミング情報リストに登録されたキーワードとともに表示される複数の表示用画像は、ユーザの注意をひく等の観点からは、例えば、キャスタが写っている画像等の似たような画像ばかりになるよりも、なるべく異なる画像とする方が望ましい。

そこで、図１５は、図１の表示用画像生成部３１の第２の構成例を示している。

なお、図中、図１３の場合と対応する部分については、同一の符号を付してあり、以下では、その説明は、適宜省略する。

図１５の表示用画像生成部３１は、画像データ取得部８１、及び、サムネイル生成部８２を有する点で、図１３の場合と共通する。

但し、図１５の表示用画像生成部３１は、類似度算出部８３、及び、選択部８４をさらに有する点で、図１３の場合と相違している。

図１５の表示用画像生成部３１は、タイミング情報リストに登録されたタイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出する。さらに、表示用画像生成部３１は、その類似度に基づき、タイミング情報リストに登録されたタイミング情報の中から、表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択する。そして、表示用画像生成部３１は、確定タイミング情報が表すタイミング付近の画像データから、表示用画像データを生成する。

すなわち、図１５において、類似度算出部８３には、画像データ取得部８１から注目コンテンツ（又は、再生コンテンツ）の画像データが供給される。さらに、類似度算出部８３には、タイミング情報記憶部２５から注目コンテンツ（又は、再生コンテンツ）についてのタイミング情報リストが供給される。

類似度算出部８３は、タイミング情報記憶部２５からのタイミング情報リストに登録されたキーワードを、順次、注目する注目キーワードとして、注目キーワードに対応付けられているタイミング情報を、表示用画像となる画像のタイミングの候補を表す候補タイミング情報として取得する。

そして、注目キーワードについて取得した候補タイミング情報が、１つである場合、類似度算出部８３は、その１つの候補タイミング情報を、注目キーワードとともに、選択部８４に供給する。

また、注目キーワードについて取得した候補タイミング情報が、複数である場合、類似度算出部８３は、注目キーワードについての複数の候補タイミング情報それぞれが表すタイミングの画像データに対応する画像を、表示用画像の候補となる候補画像として、複数の候補画像について、他のキーワードに対応付けられているタイミング情報が表すタイミングの画像データに対応する画像との類似度を算出する。

すなわち、類似度算出部８３は、画像データ取得部８１からの画像データを用い、注目キーワードについての複数の候補タイミング情報が表すタイミングの複数の候補画像それぞれについて、タイミング情報リストにおいて、その複数の候補タイミング情報を除くタイミング情報（注目キーワード以外のキーワード（他のキーワード）に対応付けられているタイミング情報）が表すタイミングの画像との類似度を算出する。

そして、類似度算出部８３は、注目キーワードについての複数の候補タイミング情報が表すタイミングの複数の候補画像（以下、候補タイミング情報の候補画像ともいう）それぞれについて算出した、他のキーワードに対応付けられているタイミング情報が表すタイミングの画像（以下、類似度算出対象画像ともいう）との類似度と、候補タイミング情報とを、注目キーワードとともに、選択部８４に供給する。

選択部８４は、注目キーワードについて、類似度算出部８３から、１つの候補タイミング情報が供給される場合、その１つの候補タイミング情報を、表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、類似度算出部８３からの注目キーワードとともに、サムネイル生成部８２に供給する。

また、選択部８４は、注目キーワードについて、類似度算出部８３から、複数の候補タイミング情報が供給される場合、同じく、類似度算出部８３から供給される類似度に基づき、複数の候補タイミング情報の複数の候補画像のうちの、類似度算出対象画像と最も類似しない候補画像の候補タイミング情報を、確定タイミング情報として選択する。

そして、選択部８４は、確定タイミング情報を、類似度算出部８３からの注目キーワードとともに、サムネイル生成部８２に供給する。

以上のように、図１５においては、サムネイル生成部８２には、選択部８４から、確定タイミング情報と、注目キーワードとが供給される。さらに、サムネイル生成部８２には、画像データ取得部８１から、注目コンテンツの画像データが供給される。

サムネイル生成部８２は、選択部８４からの確定タイミング情報に基づき、画像データ取得部８１からの画像データのうちの、確定タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。

そして、サムネイル生成部８２は、選択部８４からの注目キーワード、すなわち、確定タイミング情報に対応付けられたキーワードと、その確定タイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部３２に供給する。

ここで、類似度算出部８３において算出される、画像どうしの類似度（候補画像と類似度算出対象画像との類似度）としては、例えば、画像のカラーヒストグラム（RGB等のヒストグラム）から求められる、画像どうしの距離（尺度）等を採用することができる。画像のカラーヒストグラムから距離を求める方法は、例えば、Y.Rubner, et al.,"The EarthMover's Distance as a Metric for Image Retrieval," InternationalJournal of Computer Vision 40(2) pp.99-121 (2000)に記載されている。

また、類似度は、コンテンツの画像データそのものを用いて算出することもできるし、コンテンツの画像データを縮小した画像データを用いて算出することもできる。コンテンツの画像データを縮小した画像データを用いて、類似度を算出する場合には、類似度の算出に必要な演算量を低減することができる。

［表示用画像生成部３１の第２の構成例の処理］

図１６を参照して、図１５の表示用画像生成部３１の第２の構成例の処理、すなわち、図３の再生処理におけるステップＳ３２及びＳ３３（並びに、図１０のステップＳ６６及びＳ６７）の処理を説明する。

ステップＳ１０１において、類似度計算部８３は、タイミング情報記憶部２５から再生コンテンツについてのタイミング情報リストを取得し、処理は、ステップＳ１０２に進む。

ステップＳ１０２において、画像データ取得部８１は、コンテンツ保持部１２から、再生コンテンツの画像データを取得し、サムネイル生成部８２、及び、類似度算出部８３に供給して、処理は、ステップＳ１０３に進む。

ここで、以上のステップＳ１０１及びＳ１０２の処理が、図３のステップＳ３２（図１０のステップＳ６６）で行われる。そして、以下、説明するＳ１０３ないしＳ１１１の処理が、図３のステップＳ３３（図１０のステップＳ６７）で行われる。

ステップＳ１０３では、類似度算出部８３が、タイミング情報記憶部２５からのタイミング情報リストに登録されたキーワードのうちの、まだ、注目キーワードとしていないキーワードの１つを、注目キーワートとして選択し、処理は、ステップＳ１０４に進む。

ステップＳ１０４では、類似度算出部８３は、タイミング情報記憶部２５からのタイミング情報リストから、注目キーワードに対応付けられているタイミング情報を、候補タイミング情報として取得し、処理は、ステップＳ１０５に進む。

ステップＳ１０５において、類似度算出部８３は、注目キーワードについて取得された候補タイミング情報が、複数であるかどうかを判定する。

ステップＳ１０５において、注目キーワードについて取得された候補タイミング情報が、複数でないと判定された場合、すなわち、注目キーワードについて取得された候補タイミング情報が、１つである場合、類似度算出部８３は、その１つの候補タイミング情報を、注目キーワードとともに、選択部８４に供給する。

そして、処理は、ステップＳ１０５からステップＳ１０６に進み、選択部８４は、類似度算出部８３からの１つの候補タイミング情報を、確定タイミング情報として選択する。さらに、ステップＳ１０６では、選択部８４は、確定タイミング情報を、類似度算出部８３からの注目キーワードとともに、サムネイル生成部８２に供給し、処理は、ステップＳ１０９に進む。

一方、ステップＳ１０５において、注目キーワードについて取得された候補タイミング情報が、複数であると判定された場合、処理は、ステップＳ１０７に進み、類似度算出部８３は、注目キーワードについての複数の候補タイミング情報それぞれが表すタイミングの画像データに対応する画像を、候補画像として、複数の候補画像について、他のキーワードに対応付けられているタイミング情報が表すタイミングの画像データに対応する画像（類似度算出対象画像）との類似度を算出する。

すなわち、類似度算出部８３は、画像データ取得部８１からの画像データを用い、注目キーワードについての複数の候補タイミング情報の複数の候補画像それぞれについて、タイミング情報リストにおいて、注目キーワード以外のキーワード（他のキーワード）に対応付けられているタイミング情報）が表すタイミングの画像である類似度算出対象画像との類似度を算出する。

そして、類似度算出部８３は、注目キーワードについての複数の候補タイミング情報の複数の候補画像それぞれについて算出した、類似度算出対象画像との類似度と、候補タイミング情報とを、注目キーワードとともに、選択部８４に供給する。

その後、処理は、ステップＳ１０７からステップＳ１０８に進み、選択部８４は、注目キーワードについて、類似度算出部８３から供給される類似度に基づき、同じく類似度算出部８３から供給される複数の候補タイミング情報のうちの、類似度算出対象画像と最も類似しない候補画像の候補タイミング情報を、確定タイミング情報として選択する。

すなわち、類似度の値が小さいほど、類似しないことを表すとすると、選択部８４は、例えば、複数の候補画像それぞれについて、類似度算出対象画像との類似度の最小値（又は、最大値）を検出する。さらに、選択部８４は、複数の候補画像それぞれについて検出した類似度の最小値（又は、最大値）の中で、最も小さい値（又は、最も大きい値）が得られている候補画像を、類似度算出対象画像と最も類似しない候補画像として、その候補画像の候補タイミング情報を、確定タイミング情報として選択する。

そして、選択部８４は、確定タイミング情報を、類似度算出部８３からの注目キーワードとともに、サムネイル生成部８２に供給し、処理は、ステップＳ１０９に進む。

ステップＳ１０９では、サムネイル生成部８２は、選択部８４からの確定タイミング情報が表すタイミングの画像データを、画像データ取得部８１からの注目コンテンツの画像データから取得し、処理は、ステップＳ１１０に進む。

ステップＳ１１０では、サムネイル生成部８２は、確定タイミング情報が表すタイミングの画像データから、そのサムネイルの画像データを、表示用画像データとして生成する。

さらに、ステップＳ１１０では、サムネイル生成部８２は、選択部８４からの注目キーワードと、選択部８４からの確定タイミング情報に基づいて生成された表示用画像データとしてのサムネイルの画像データとのセットを、表示制御部３２に供給する。

そして、処理は、ステップＳ１１０からステップＳ１１１に進み、類似度算出部８３は、タイミング情報記憶部２５からのタイミング情報リストに登録されたキーワードのすべてを処理したかどうかを判定する。

ステップＳ１１１において、タイミング情報リストに登録されたキーワードのすべてを、まだ処理していないと判定された場合、すなわち、タイミング情報リストに登録されたキーワードの中に、まだ、注目キーワードとしていないキーワードがある場合、処理は、ステップＳ１０３に戻る。そして、ステップＳ１０３では、タイミング情報リストに登録されたキーワードのうちの、まだ、注目キーワードとしていないキーワードの１つが、注目キーワートとして新たに選択され、以下、同様の処理が繰り返される。

また、ステップＳ１１１において、タイミング情報リストに登録されたキーワードのすべてを処理したと判定された場合、処理は、図３のステップＳ３４（図１０のステップＳ６８）に進む。

以上のように、タイミング情報リストにおいて、注目キーワードに、複数のタイミング情報が対応付けられている場合には、その複数のタイミング情報を、候補タイミング情報として、各候補タイミング情報の候補画像について、類似度算出対象画像それぞれとの類似度を算出し、その類似度に基づき、複数の候補画像のうちの、類似度算出対象画像と最も類似しない候補画像の候補タイミング情報を、確定タイミング情報として選択することにより、表示装置４０において、タイミング情報リストに登録されたキーワードとともに表示される複数の表示用画像は、互いに、なるべく異なる画像となる。

したがって、例えば、キャスタが写っている画像等の似たような画像ばかりが、表示用画像として表示される場合に比較して、ユーザの注意をひくこと等ができる。

［表示用画像生成部３１の第２の構成例の他の処理］

図１７を参照して、図１５の表示用画像生成部３１の第２の構成例の他の処理、すなわち、図３の再生処理におけるステップＳ３２及びＳ３３（並びに、図１０のステップＳ６６及びＳ６７）の他の処理を説明する。

図１７では、ステップＳ１２１及びＳ１２２、並びに、ステップＳ１２４ないしＳ１３２において、図１６のステップＳ１０１ないしＳ１１１とそれぞれ同様の処理が行われる。

但し、図１７では、例えば、ステップＳ１２２とＳ１２４との間のステップＳ１２３において、類似度算出部８３が、タイミング情報記憶部２５から取得したタイミング情報リストを変更するリスト変更処理を行う。

［リスト変更処理の説明］

図１８を参照して、図１５の類似度算出部８３が行うリスト変更処理を説明する。

ステップＳ１４１において、類似度算出部８３は、タイミング情報記憶部２５からのタイミング情報リストに登録されたキーワードのうちの、まだ、注目キーワードとしていないキーワードの１つを、注目キーワートとして選択し、処理は、ステップＳ１４２に進む。

ステップＳ１４２では、類似度算出部８３は、タイミング情報記憶部２５からのタイミング情報リストから、注目キーワードに対応付けられているタイミング情報のうちの、まだ、注目する注目タイミング情報としていないタイミング情報の１つを、注目タイミング情報として選択し、処理は、ステップＳ１４３に進む。

ステップＳ１４３では、類似度算出部８３は、画像データ取得部８１からの注目コンテンツの画像データのタイミングのうちの、注目タイミング情報が表すタイミングの周辺（近傍）の１以上のタイミングを、注目キーワードに対して追加で対応付ける追加タイミングの候補として選択する。

すなわち、類似度算出部８３は、例えば、注目タイミング情報が表すタイミングを中心とする所定の区間を所定数の小区間に等分するタイミングのうちの、注目タイミング情報が表すタイミング以外のタイミングを、追加タイミングの候補として選択する。ここで、所定の区間の長さや、その所定の区間を等分する小区間の数は、例えば、固定の値とすることもできるし、乱数等によって決定される可変の値とすることもできる。

そして、処理は、ステップＳ１４３からステップＳ１４４に進み、類似度算出部８３は、１以上の追加タイミングの候補の画像それぞれについて、他のタイミングの画像それぞれとの類似度を算出する。

ここで、いま、１以上の追加タイミングの候補の画像のうちの、類似度が算出される画像を、注目する注目画像ということとする。

ステップＳ１４４において、注目画像との類似度が算出される「他のタイミングの画像」とは、１以上の追加タイミングの候補の画像のうちの、注目画像を除く画像と、注目タイミング情報が表すタイミングの画像とを意味する。

その後、処理は、ステップＳ１４４からステップＳ１４５に進み、類似度算出部８３は、ステップＳ１４４で算出された類似度に基づき、１以上の追加タイミングの候補の画像の中から、他のタイミングの画像と類似しない画像のタイミング（追加タイミングの候補）を、追加タイミングとして確定する。

すなわち、例えば、いま、類似度が、値が大であるほど、類似していることを表すこととすると、類似度算出部８３は、１以上の追加タイミングの候補の画像の中から、例えば、他のタイミングの画像との類似度の最小値又は最大値等が、所定の閾値以下の画像や、類似度が下位N(>1)位以内の画像等を、他のタイミングの画像と類似しない画像として選択し、その画像のタイミング（追加タイミングの候補）を、追加タイミングとして確定する。

さらに、ステップＳ１４５では、類似度算出部８３は、追加タイミングを表すタイミング情報を、注目キーワードに追加で対応付ける形で、タイミング情報リストに登録し、処理は、ステップＳ１４６に進む。

ステップＳ１４６では、類似度算出部８３が、注目キーワードに対応付けられているタイミング情報のすべてを処理したかどうかを判定する。

ステップＳ１４６において、注目キーワードに対応付けられているタイミング情報のすべてを、まだ、処理していないと判定された場合、すなわち、注目キーワードに対応付けられているタイミング情報の中で、まだ、注目タイミング情報としていないタイミング情報がある場合、処理は、ステップＳ１４２に戻る。

そして、以下、ステップＳ１４２ないしＳ１４６の処理が繰り返される。

ここで、ステップＳ１４２ないしＳ１４６の処理によれば、注目キーワードに対応付けられている注目タイミング情報が表すタイミングの周辺の１以上のタイミングのうちの、互いに類似しない画像（注目タイミング情報が表すタイミングの画像とも類似しない画像）のタイミングを表すタイミング情報が、注目キーワードに追加で対応付けられる。

一方、ステップＳ１４６において、注目キーワードに対応付けられているタイミング情報のすべてを処理したと判定された場合、処理は、ステップＳ１４７に進み、類似度算出部８３は、タイミング情報リストに登録されたキーワードのすべてを処理したかどうかを判定する。

ステップＳ１４７において、タイミング情報リストに登録されたキーワードのすべてを、まだ処理していないと判定された場合、すなわち、タイミング情報リストに登録されたキーワードの中で、まだ、注目キーワードとしていないキーワードがある場合、処理は、ステップＳ１４１に戻る。

そして、以下、ステップＳ１４１ないしＳ１４７の処理が繰り返される。

また、ステップＳ１４７において、タイミング情報リストに登録されたキーワードのすべてを処理したと判定された場合、処理は、リターンする。

以上のように、リスト変更処理では、タイミング情報リストに登録されたタイミング情報が表すタイミングの周辺の１以上のタイミング（追加タイミングの候補）の中から、なるべく互いに類似しない画像のタイミングを、追加タイミングとして選択し、その追加タイミングを表すタイミング情報を、タイミング情報リストに追加する、タイミング情報リストの変更が行われる。

そして、図１７では、その変更後のタイミング情報リストを用い、ステップＳ１２４ないしＳ１３２において、図１６のステップＳ１０３ないしＳ１１１とそれぞれ同様の処理が行われる。

したがって、図１７の処理によれば、より異なる画像のサムネイルが、表示用画像として、キーワードとともに表示される。

その結果、特に、図１０の特定コンテンツ検索処理において、図１７の処理を行うことにより、ユーザの入力から取得されるキーワードの発話があるコンテンツについて、より異なるシーン（場面）のサムネイルが表示され、同様のシーンのサムネイルが表示される場合よりも、ユーザは、コンテンツの内容を、いわば一目で把握し、ユーザが興味を持っているコンテンツを、より容易に探し出すことができる。

［本発明を適用したコンピュータの説明］

次に、上述した一連の処理は、ハードウェアにより行うこともできるし、ソフトウェアにより行うこともできる。一連の処理をソフトウェアによって行う場合には、そのソフトウェアを構成するプログラムが、汎用のコンピュータ等にインストールされる。

そこで、図１９は、上述した一連の処理を実行するプログラムがインストールされるコンピュータの一実施の形態の構成例を示している。

プログラムは、コンピュータに内蔵されている記録媒体としてのハードディスク１０５やROM１０３に予め記録しておくことができる。

あるいはまた、プログラムは、リムーバブル記録媒体１１１に格納（記録）しておくことができる。このようなリムーバブル記録媒体１１１は、いわゆるパッケージソフトウエアとして提供することができる。ここで、リムーバブル記録媒体１１１としては、例えば、フレキシブルディスク、CD-ROM(Compact Disc Read Only Memory)，MO(Magneto Optical)ディスク，DVD(Digital Versatile Disc)、磁気ディスク、半導体メモリ等がある。

なお、プログラムは、上述したようなリムーバブル記録媒体１１１からコンピュータにインストールする他、通信網や放送網を介して、コンピュータにダウンロードし、内蔵するハードディスク１０５にインストールすることができる。すなわち、プログラムは、例えば、ダウンロードサイトから、ディジタル衛星放送用の人工衛星を介して、コンピュータに無線で転送したり、LAN(Local Area Network)、インターネットといったネットワークを介して、コンピュータに有線で転送することができる。

コンピュータは、CPU(Central Processing Unit)１０２を内蔵しており、CPU１０２には、バス１０１を介して、入出力インタフェース１１０が接続されている。

CPU１０２は、入出力インタフェース１１０を介して、ユーザによって、入力部１０７が操作等されることにより指令が入力されると、それに従って、ROM(Read Only Memory)１０３に格納されているプログラムを実行する。あるいは、CPU１０２は、ハードディスク１０５に格納されたプログラムを、RAM(Random Access Memory)１０４にロードして実行する。

これにより、CPU１０２は、上述したフローチャートにしたがった処理、あるいは上述したブロック図の構成により行われる処理を行う。そして、CPU１０２は、その処理結果を、必要に応じて、例えば、入出力インタフェース１１０を介して、出力部１０６から出力、あるいは、通信部１０８から送信、さらには、ハードディスク１０５に記録等させる。

なお、入力部１０７は、キーボードや、マウス、マイク等で構成される。また、出力部１０６は、LCD(Liquid Crystal Display)やスピーカ等で構成される。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。

また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであっても良いし、複数のコンピュータによって分散処理されるものであっても良い。さらに、プログラムは、遠方のコンピュータに転送されて実行されるものであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

すなわち、例えば、テキスト取得部２１は、図４の関連テキスト取得部５０と、図８のユーザ入力取得部６１とで構成することが可能である。

１１コンテンツ取得部，１２コンテンツ保持部，２０タイミング情報取得部，２１テキスト取得部，２２キーワード取得部，２３音声データ取得部，２４音声検索部，２５タイミング情報記憶部，３０再生制御部，３１表示用画像生成部，３２表示制御部，４０表示装置，５０関連テキスト取得部，５１メタデータ取得部，５２字幕データ取得部，６１ユーザ入力取得部，７１インデクス作成部，７２インデクス記憶部，７３キーワード検索部，８１画像データ取得部，８２サムネイル生成部，８３類似度算出部，８４選択部，１０１バス，１０２ CPU，１０３ ROM，１０４ RAM，１０５ハードディスク，１０６出力部，１０７入力部，１０８通信部，１０９ドライブ，１１０入出力インタフェース，１１１リムーバブル記録媒体

Claims

画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得するテキスト取得手段と、
前記テキストから、前記キーワードを取得するキーワード取得手段と、
前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得する音声検索手段と、
前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う再生制御手段と
を備え、
前記再生制御手段は、
前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、
前記類似度に基づき、前記音声検索手段で取得されたタイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、
前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成する
データ処理装置。
前記キーワードと、そのキーワードの発話のタイミングを表すタイミング情報とが対応付けられて登録されるタイミング情報リストを記憶するタイミング情報記憶手段をさらに備え、
前記再生制御手段は、前記タイミング情報リストに登録された前記キーワードを、順次、注目する注目キーワードとして、
前記注目キーワードに、１つのタイミング情報が対応付けられている場合、
その１つのタイミング情報を、前記確定タイミング情報として選択し、
前記注目キーワードに、複数のタイミング情報が対応付けられている場合、
前記複数のタイミング情報が表すタイミングの画像データに対応する画像である候補画像それぞれについて、前記タイミング情報リストのタイミング情報のうちの、前記複数のタイミング情報を除くタイミング情報が表すタイミングの画像データに対応する画像である類似度算出対象画像それぞれとの類似度を算出し、
前記類似度に基づき、前記候補画像のうちの、前記類似度算出対象画像と最も類似しない候補画像の前記タイミング情報を、前記確定タイミング情報として選択する
請求項１に記載のデータ処理装置。
前記コンテンツデータは、字幕データをさらに含み、
前記テキスト取得手段は、前記コンテンツデータの字幕データを、前記テキストとして取得する
請求項１に記載のデータ処理装置。
前記音声検索手段は、前記音声データからの、前記キーワードの発話を検索を、前記字幕データに対応する字幕が表示される表示時刻のタイミング付近の音声データに限定して行う
請求項３に記載のデータ処理装置。
前記テキスト取得手段は、前記コンテンツデータに対応するコンテンツのメタデータを、前記テキストとして取得する
請求項１に記載のデータ処理装置。
前記コンテンツは、テレビジョン放送の番組であり、
前記コンテンツのメタデータは、EPG(Electronic Program Guide)のデータである
請求項５に記載のデータ処理装置。
前記テキスト取得手段は、ユーザからの入力も、前記テキストとして取得する
請求項１に記載のデータ処理装置。
前記テキスト取得手段は、ユーザによって操作されるキーボードからの入力、又は、ユーザの音声の音声認識の結果を、前記テキストとして取得する
請求項７に記載のデータ処理装置。
データ処理装置が、
画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得し、
前記テキストから、前記キーワードを取得し、
前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得し、
前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う
ステップを含み、
前記再生制御では、
前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、
前記類似度に基づき、前記タイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、
前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成する
データ処理方法。
画像データ、及び、音声データを含むコンテンツデータに対応するコンテンツに関連するテキストであって、音声検索を行うキーワードを取得するためのテキストを取得するテキスト取得手段と、
前記テキストから、前記キーワードを取得するキーワード取得手段と、
前記コンテンツデータの前記音声データから、前記キーワードの発話を検索し、発話が検索された前記キーワードの発話のタイミングを表すタイミング情報を取得する音声検索手段と、
前記コンテンツデータの前記画像データのうちの、前記タイミング情報が表すタイミング付近の画像データから、前記キーワードとともに表示する表示用画像の表示用画像データを生成し、前記表示用画像データに対応する前記表示用画像を、前記タイミング情報が表すタイミングで発話がされた前記キーワードとともに表示させる再生制御を行う再生制御手段と
して、コンピュータを機能させるためのプログラムであり、
前記再生制御手段は、
前記タイミング情報が表すタイミング付近の画像データに対応する画像と、他のタイミング情報が表すタイミング付近の画像データに対応する画像との類似性を表す類似度を算出し、
前記類似度に基づき、前記音声検索手段で取得されたタイミング情報の中から、前記表示用画像が、他の表示用画像と類似しない画像となるタイミングを表すタイミング情報を、前記表示用画像データとなる画像データのタイミングを表す確定タイミング情報として選択し、
前記確定タイミング情報が表すタイミング付近の画像データから、前記表示用画像データを生成する
プログラム。