JP6638281B2

JP6638281B2 - 情報処理装置及びプログラム

Info

Publication number: JP6638281B2
Application number: JP2015187195A
Authority: JP
Inventors: 小川　正和; 正和小川
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2015-09-24
Filing date: 2015-09-24
Publication date: 2020-01-29
Anticipated expiration: 2035-09-24
Also published as: JP2017062611A

Description

本発明は、情報処理装置及びプログラムに関する。

特許文献１には、講演等の映像を使用したスライド画像と同期させて再生する映像再生システムについて開示されている。このような映像再生システムでは、スライド画像に含まれるオブジェクトと映像の再生位置とを予め関連付けておき、オブジェクトを指定すると当該オブジェクトに関連付けられる再生位置から映像が再生される。特許文献２には、発表者がマウスカーソルでスライド画像を指し示す等、スライド画像に対して位置指定を行った場合、該位置指定とその際の発表者の音声情報を対応づけて記憶し、利用者が同スライド画像の位置を指示した際、該位置に対応付けられた音声情報を再生することが開示されている。

特開２００６−２２８０５９号公報特開２０１２−６５１７０号公報

しかし、一般的に、発表者がスライド画像に対して位置指定を行わなかった場合は、その際の音声情報はスライド画像と対応づけて記憶することができず、対応付けが行われていないスライドの位置を指示した場合、利用者は該位置に関する音声情報を再生することができなかった。

本発明の目的の一つは、対応画像に対して発表者の位置指定が行われていなくても、再生される時系列情報に対応する対応画像に対して利用者が任意に指示した位置に基づいて、時系列情報の再生位置を特定できる情報処理装置を提供することにある。

請求項１に係る情報処理装置は、時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段と、前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段と、前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段と、前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段と、前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段と、を含み、前記出現時点特定手段は、前記対応画像に含まれる複数の前記文字情報を当該対応画像内の位置に基づく規則に従って順序付ける順序付け手段をさらに含み、前記再生位置の候補となる複数の前記出現時点を特定した場合、前記順序付けされた前記複数の文字情報における前記取得された文字情報の位置に基づいて、いずれか１つの前記出現時点を前記再生位置として決定する、を含むことを特徴とする。

請求項２に係る情報処理装置は、時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段と、前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段と、前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段と、前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段と、前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段と、を含み、前記出現時点特定手段は、前記対応画像に含まれる複数の前記文字情報を所定の規則に従って並べてテキスト化した対応画像テキストにおいて、前記取得された文字情報の示す単語または文章の出現位置を算出し、前記対応画像テキストにおいて算出された前記取得された文字情報の示す単語または文章の出現位置から、前記音声情報における前記取得された文字情報の示す単語または文章の推定出現時点を算出する。

請求項３に係る情報処理装置は、請求項２に記載の情報処理装置において、前記出現時点特定手段は、前記出現時点を特定しないと判断された場合、前記推定出現時点を前記再生位置とする。

請求項４に係る情報処理装置は、請求項２に記載の情報処理装置において、前記出現時点特定手段は、前記出現時点を複数特定したと判断された場合、前記推定出現地点から最も近い前記出現地点を前記再生位置とする。

請求項５に係る情報処理装置は、請求項１乃至４のいずれか１項に記載の情報処理装置において、前記出現時点特定手段は、前記音声情報をテキスト化した音声テキスト情報から前記取得された文字情報の示す単語または文章を検索する検索手段、をさらに含み、前記検索手段により検索された前記音声テキスト情報における前記単語または文章の位置に基づいて前記出現時点を特定する。
請求項６に係るプログラムは、時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段、前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段、前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段、前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段、前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段、としてコンピュータを機能させるためのプログラムであって、前記出現時点特定手段は、前記対応画像に含まれる複数の前記文字情報を当該対応画像内の位置に基づく規則に従って順序付ける順序付け手段をさらに含み、前記再生位置の候補となる複数の前記出現時点を特定した場合、前記順序付けされた前記複数の文字情報における前記取得された文字情報の位置に基づいて、いずれか１つの前記出現時点を前記再生位置として決定するプログラムである。
請求項７に係るプログラムは、時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段、前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段、前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段、前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段、前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段、としてコンピュータを機能させるためのプログラムであって、前記出現時点特定手段は、前記対応画像に含まれる複数の前記文字情報を所定の規則に従って並べてテキスト化した対応画像テキストにおいて、前記取得された文字情報の示す単語または文章の出現位置を算出し、前記対応画像テキストにおいて算出された前記取得された文字情報の示す単語または文章の出現位置から、前記音声情報における前記取得された文字情報の示す単語または文章の推定出現時点を算出するプログラムである。

請求項１乃至４、６及び７に係る発明によれば、対応画像において利用者が任意に指示した位置に対応した時系列情報の再生位置が複数ある場合に、最適な１つの再生位置を特定できる。

請求項５に係る発明によれば、音声情報をテキスト化した音声テキスト情報に基づいて、対応画像に対して発表者の位置指定が行われていなくても、対応画像に対して利用者が任意に指示した位置に対応した時系列情報を再生できる。

本実施形態に係る情報処理装置のハードウエア構成の一例を示す図である。本実施形態に係る時系列情報テーブルの一例を示す図である。本実施形態に係る対応画像の一例を示す図である。本実施形態に係る対応画像情報テーブルの一例を示す図である。本実施形態に係る情報処理装置が実現する機能の一例を示す機能ブロック図である。本実施形態に係る情報処理装置が実行する時系列情報再生処理の一例を示すフロー図である。本実施形態に係る情報処理装置が実行する再生位置決定処理の一例を示すフロー図である。本実施形態に係る対応画像テキストの一例を示す図である。

以下、本発明の実施の形態について、図面を参照しながら説明する。

図１は、本実施形態に係る情報処理装置１０のハードウエア構成の一例を示す図である。本実施形態に係る情報処理装置１０は、例えばパーソナルコンピュータ等であって、図１に示すように、制御部１１、記憶部１２、通信部１３、表示部１４、操作部１５、及び音声出力部１６を含んで構成される。なお、上記各部１１〜１６はバスを介して接続される。

制御部１１は、例えばＣＰＵ等であって、記憶部１２に格納されるプログラムに従って各種の情報処理を実行する。

記憶部１２は、例えばＲＡＭやＲＯＭ等のメモリ素子、ハードディスクなどを含んで構成される。記憶部１２は、制御部１１によって実行されるプログラムや、各種のデータを保持する。また、記憶部１２は、制御部１１のワークメモリとしても動作する。

通信部１３は、例えばＬＡＮカード等のネットワークインタフェースであって、ＬＡＮや無線通信網などの通信手段を介して、他の情報処理装置との間で情報の送受信を行う。

表示部１４は、例えば液晶ディスプレイ、ＣＲＴディスプレイ、有機ＥＬディスプレイ等であって、制御部１１からの指示に従って、情報の表示を行う。

操作部１５は、例えばキーボード、マウス、ボタンやタッチパネル等であって、利用者の指示操作を受け付けて、当該指示操作の内容を制御部１１に出力する。

音声出力部１６は、例えばスピーカ等の音声出力デバイスであって、制御部１１が出力する音声信号に従って音声の出力を行う。

本実施形態では、利用者が情報処理装置１０を用いて、記録された講演情報等を視聴する。例えば、発表者がスクリーンやモニタの画面などに講演画像を表示させながら、プレゼンテーションや講義などの講演を行うことがある。本実施形態では、ビデオカメラなどの記録装置が、講演画像や、講演の際の音声や、講演の状況を示す動画像などの各種情報を、記録する。ここで、記録開始時及び表示される講演画像が発表者の指示などによって変更された場合には、新たに表示された講演画像を記録し、講演画像の切り替えタイミングを示す時刻情報を記録する。また、それまで記録された音声や動画像を一つの映像データとして出力して、新たな音声や動画像の記録を開始する。これにより、講演の際に聴衆に提示された複数の講演画像のそれぞれについて、当該講演画像が画面上に表示された表示時間が記録されるともに、当該講演画像の表示中に記録された音声情報や動画像を含んだ映像データが生成される。

そして、本実施形態に係る情報処理装置１０の記憶部１２には、上述した複数の映像データからなる時系列情報と、講演の際に聴衆に提示された１以上の講演画像（時系列情報に対応する対応画像とする）と、が関連付けられて記憶されている。図２は、本実施形態に係る時系列情報テーブルＴｂｌ１００の一例を示す図である。図２に示す時系列情報テーブルＴｂｌ１００は情報処理装置１０の記憶部１２に記憶される。図２に示すように時系列情報テーブルＴｂｌ１００は、対応画像毎に、対応画像に対応する時系列情報の再生位置と、対応画像に対応する映像データと、が関連付けられて管理されている。対応画像は、講演の際に表示された順に番号（ここでは、００１〜０１０）が付与されて記憶される。対応画像に対応する時系列情報の再生位置は、講演時に対応画像が切り替えられたタイミングとするが、発表者が対応画像に関する話を開始したタイミングとしてもよい。複数の映像データは、互いの順序が定められたデータであって、これら互いに順序づけられた複数の映像データによって、講演の開始時から終了時までの時間にわたって時間とともに変化する時系列情報が構成されている。例えば図２においては、対応画像の番号に応じて「００１．ｍｐｇ」から「０１０．ｍｐｇ」まで順に並べられた一連の映像データが時系列情報を構成している。なお各映像データは、音声情報と、複数のフレーム画像から構成される画像情報と、を含む。

利用者が記録された時系列情報を視聴する際に、時系列情報のはじめから再生して視聴する場合もあれば、興味のある部分だけを再生したい場合もある。利用者が任意に再生位置を指定すれば当該再生位置からの時系列情報を再生することができるが、図２に示すような時系列情報テーブルＴｂｌ１００により時系列情報が管理されていれば、利用者は対応画像に対応する部分の時系列情報だけを容易に視聴することができる。例えば利用者が対応画像を指示すれば当該対応画像に対応する再生位置が特定され、当該再生位置から時系列情報が再生される。さらに本実施形態では、対応画像内のオブジェクト毎に時系列情報の再生位置を特定できる構成としている。これにより利用者は、情報処理装置１０の表示部１４に表示された対応画像を見て興味のあるオブジェクトやその周辺を指示することで、当該オブジェクトに関する内容を話している時点から時系列情報を視聴することができることとなる。

以下に本実施形態で用いられる対応画像について説明する。図３は、本実施形態に係る対応画像１００の一例を示す図である。図３に示すように、本実施形態に係る対応画像１００は、講演の際に聴衆に提示するための画像であり、発表者が話す内容に対応する事項が示されている。図３に示す対応画像１００は、１以上の文字オブジェクト１１０（例えば１１０ａ、１１０ｂ、１１０ｃ、１１０ｄ）を含む。文字オブジェクト１１０は、単語、文章等の文字情報を含むオブジェクトである。ここでは文字オブジェクト１１０ａ〜１１０ｄを例として示しているがその他の単語、文章等についても文字オブジェクト１１０として認識されていることとする。なお、対応画像１００には、文字オブジェクト以外に図形や画像などを含むオブジェクトが含まれていてもよい。そして情報処理装置１０の表示部１４に対応画像１００が表示されると、利用者が操作部１５を操作することでカーソル１５０を任意の位置に移動させ指示操作可能となっている。

図４は、本実施形態に係る対応画像情報テーブルＴｂｌ２００の一例を示す図である。図４に示す対応画像情報テーブルＴｂｌ２００は情報処理装置１０の記憶部１２に記憶される。図４に示す対応画像情報テーブルＴｂｌ２００は、図３に示した対応画像１００に含まれる複数の文字オブジェクトに関する情報を示している。図４に示すように対応画像情報テーブルＴｂｌ２００は、文字オブジェクト毎に、文字オブジェクトを識別する識別ＩＤと、文字オブジェクトに含まれる文字情報と、対応画像における文字オブジェクトの位置を示す位置情報と、文字オブジェクトのサイズを示す情報と、が関連付けられて管理されている。文字情報は、単語、数字、記号、文章等であってよい。位置情報は、対応画像における位置を示す情報であり、例えば図３に示す対応画像における左上の点Ｏを原点とする座標値であってよい。このとき図３に示す対応画像の左から右へ向かう方向をＸ軸、上から下へ向かう方向をＹ軸とする。文字オブジェクトのサイズを示す情報は、オブジェクトの高さ、幅、文字の大きさなどであってよい。このような対応画像情報テーブルＴｂｌ２００が対応画像毎に記憶されていることとする。

以下、本実施形態に係る情報処理装置１０が実現する機能について、説明する。図５は、本実施形態に係る情報処理装置１０が実現する機能の一例を示す機能ブロック図である。図５に示すように、本実施形態に係る情報処理装置１０は、機能的には、対応画像取得部、指示位置情報取得部５２、文字情報取得部５３、出現時点特定部５４、及び再生処理部５５を含んで構成される。これらの機能は、記憶部１２に記憶されたプログラムを制御部１１が実行することにより実現される。このプログラムは、例えば、光ディスク、磁気ディスク、磁気テープ、光磁気ディスク、フラッシュメモリ等のコンピュータ可読な情報記憶媒体を介して、あるいは、インターネットなどの通信手段を介して情報処理装置１０に供給される。

対応画像表示部５１は、時間とともに変化する時系列情報に対応付けられている対応画像を表示部１４に表示させる。

指示位置情報取得部５２は、表示部１４に表示された対応画像に対して利用者が指示操作を行うと、利用者が指示した対応画像内の位置を示す指示位置情報を取得する。本実施形態においては、利用者が操作部１５を用いて対応画像内の任意の位置を指示する指示操作（例えばクリック操作やタップ操作）を行う。すると操作部１５が当該指示操作を受け付けて、当該指示操作が示す情報（ここでは対応画像内の位置を示す指示位置情報）を出力する。そして指示位置情報取得部５２が操作部１５から出力された指示位置情報を取得する。

文字情報取得部５３は、指示位置情報取得部５２が取得した指示位置情報が示す位置に対応する文字情報を取得する。本実施形態において、文字情報取得部５３は、予め記憶部１２に記憶されている対応画像情報テーブルＴｂｌ２００から指示位置情報が示す位置に対応する文字情報を取得する。ここで文字情報取得部５３は、指示位置情報が示す位置に最も近い文字オブジェクトに含まれる文字情報を取得すればよい。

出現時点特定部５４は、時系列情報に含まれる音声情報において、文字情報取得部５３が取得した文字情報の示す単語または文章が出現する出現時点を特定する。以下、文字情報取得部５３が取得した文字情報の示す単語または文章、つまりは利用者が指示した文字情報の示す単語または文章をキーワードとする。ここでキーワードは、文字情報に含まれる単語や文章そのものであってもよいし、文字情報に含まれる単語や文章の一部であってもよい。またキーワードが出現する出現時点は、講演者によりキーワードが発せられた時点とし、時系列情報における再生位置として示されてよい。本実施形態において出現時点特定部５４は、音声情報をテキスト化した音声テキスト情報からキーワードを検索する。そして出現時点特定部５４は、検索されたキーワードの音声テキスト情報における位置に基づいて出現時点を特定する。また出現時点特定部５４は、音声情報からキーワードが発せられる時点を検索して出現時点を特定してもよい。

再生処理部５５は、出現時点特定部５４が特定した出現時点に対応する再生位置から時系列情報を再生する。再生処理部５５は、出現時点特定部５４が特定した出現時点を再生位置として時系列情報を再生してもよいし、出現時点特定部５４が特定した出現時点から所定時間だけ前後した範囲内を再生位置として時系列情報を再生してもよい。

ここで本実施形態に係る情報処理装置１０が実行する時系列情報再生処理の一例について図６に示すフロー図を参照して説明する。

まず、利用者の表示指示に応じて情報処理装置１０の表示部１４に対応画像が表示されることとする。ここでは具体的に図３に示す対応画像が表示部１４に表示される例について説明する。

そして、指示位置情報取得部５２が、対応画像に対する利用者の指示操作を監視する（Ｓ１０１）。処理Ｓ１０１に示す処理では、利用者が操作部１５を用いて対応画像に対して所定の指示操作（クリック操作やタップ操作等）を行ったか否かが判断される。

処理Ｓ１０１の判断の結果、利用者により所定の指示操作が行われたと判断された場合は（Ｓ１０１：Ｙ）、指示位置情報取得部５２が当該指示操作により指示された対応画像内の位置を示す指示位置情報を取得する（Ｓ１０２）。

具体的に、図３に示す対応画像において利用者がカーソル１５０を「香川」に合わせて指示操作を行うと、指示位置情報取得部５２は、図３に示す対応画像におけるカーソル１５０の位置を示す指示位置情報を取得する。指示位置情報取得部５２は、例えば位置情報として座標（０．１０１,０．４５）を取得する。

そして文字情報取得部５３は、対応画像情報テーブルから指示位置情報が示す位置に対応する文字情報を取得する（Ｓ１０３）。

具体的に、文字情報取得部５３は、図４に示す対応画像情報テーブルＴｂｌ２００の位置情報を示す欄から、指示位置情報取得部５２が取得した指示位置情報である座標（０．１０１,０．４５）に最も近い値を検索し、該当する位置情報（ここでは（０．１，０．４５））に対応する文字情報（ここでは識別ＩＤ＝００４の文字情報）を取得する。

そして出現時点特定部５４は、対応画像に対応する音声テキストを取得する（Ｓ１０４）。

ここで出現時点特定部５４は、図２に示す時系列情報テーブルＴｂｌ１００から、利用者が指示操作を行った対象の対応画像（例えば対象画像００２．ｊｐｇ）に対応する映像データ（例えば映像データ００２．ｍｐｇ）を取得する。そして出現時点特定部５４は、当該映像データに含まれる音声情報を取得する。そして出現時点特定部５４は、当該音声情報に対して音声認識を行い文字情報に変換した音声テキストを取得する。

そして出現時点特定部５４は、処理Ｓ１０４において取得された音声テキストから、処理Ｓ１０３において取得された文字情報が示す単語または文章（以下、キーワードとする）を検索する（Ｓ１０５）。

具体的に、処理Ｓ１０３で取得された識別ＩＤ＝００４の文字情報である「香川」がキーワードとなる。この場合、出現時点特定部５４は、音声テキストからキーワードである「香川」を検索する。

そして出現時点特定部５４は、音声情報におけるキーワードの出現時点Ｔｎを特定する（Ｓ１０６）。

例えば音声テキストには、単語毎または文節毎に音声情報における再生位置が関連付けられていることとする。そして出現時点特定部５４が、検索されたキーワードに関連付けられている再生位置を取得して出現時点Ｔｎと特定する。また、出現時点特定部５４は、音声テキストにおける検索されたキーワードの出現位置から、音声情報における出現時点Ｔｎを推定することとしてもよい。具体的にはまず、出現時点特定部５４は、音声テキストにおけるキーワードの出現位置を、音声テキストの総文字数に対する、音声テキストの最初の文字からキーワードが出現するまでの文字数の割合として算出する。なお、文字数は単語数であってもよい。次に、出現時点特定部５４は、音声情報の総再生時間に対して、音声テキストにおけるキーワードの出現位置（すなわち算出した割合）を掛けることで算出される再生位置を、音声情報におけるキーワードの出現時点Ｔｎとして推定する。

次に処理Ｓ１０６において出現時点特定部５４が特定した出現時点Ｔｎの個数が判断される（Ｓ１０７）。処理Ｓ１０７の処理では、出現時点特定部５４が出現時点Ｔｎを１つ特定したか、出現特定時点Ｔｎを複数特定したまたは特定しないか、が判断される。

処理Ｓ１０７の判断の結果、出現時点特定部５４が出現時点Ｔｎを１つ特定したと判断された場合は、再生処理部５５が出現時点Ｔｎを再生位置Ｔｓとして決定する（Ｓ１０８）。そして再生処理部５５が再生位置Ｔｓ（＝Ｔｎ）ら時系列情報を再生し（Ｓ１０９）、時系列情報再生処理が終了する。

また処理Ｓ１０７の判断の結果、出現時点特定部５４が出現特定時点Ｔｎを複数特定したまたは特定しない、と判断された場合は、再生位置Ｔｓ決定処理が実行される（Ｓ１１０）。

本実施形態に係る情報処理装置１０が実行する再生位置Ｔｓ決定処理の一例については図７に示すフロー図を参照して説明する。図７に示すように、まず、出現時点特定部５４は、対応画像に含まれる複数の文字情報を所定の規則に従って並べてテキスト化した対応画像テキストを取得する（Ｓ２０１）。

図８は、本実施形態に係る対応画像テキストの一例を示す図である。図８に示す対応画像テキストは、図３に示した対応画像をテキスト化したものである。また図８に示す対応画像テキストは、図３に示した対応画像に含まれる複数の文字情報を、Ｘ座標値が小さい文字オブジェクト（すなわち対応画像の左側に位置する文字オブジェクト）に対応する文字情報から順に、そしてＹ座標値が小さい文字オブジェクト（すなわち対応画像の上側に位置する文字オブジェクト）に対応する文字情報から順に、並べてなるテキストである。この対応画像テキストにおける文字情報の順は、講演者が対応画像の左上から右下にかけて説明すると想定した場合の順序であり、その他の規則に従った順序で並べられてもよい。例えば文字情報が縦書きで構成されている場合には、複数の文字情報が、Ｘ座標値が大きい文字オブジェクト（すなわち対応画像の右側に位置する文字オブジェクト）に対応する文字情報から順に、そしてＹ座標値が小さい文字オブジェクト（すなわち対応画像の上側に位置する文字オブジェクト）に対応する文字情報から順に、並べられてもよい。

そして出現時点特定部５４は、対応画像テキストにおけるキーワードの出現位置を算出する（Ｓ２０２）。ここでは出現時点特定部５４は、対応画像テキストにおけるキーワードの出現位置を、対応画像テキストの総文字数に対する、対応画像テキストの最初の文字からキーワードが出現するまでの文字数の割合として算出する。なお文字数を単語数であってもよい。

そして出現時点特定部５４は、対応画像テキストにおけるキーワードの出現位置から、音声情報におけるキーワードの推定出現時点Ｔｐを算出する（Ｓ２０３）。ここでは出現時点特定部５４は、音声情報の総再生時間に対して、対応画像テキストにおけるキーワードの出現位置を掛けることで算出される再生位置を、音声情報におけるキーワードの推定出現時点Ｔｐとして算出する。

次に、処理Ｓ１０６において出現時点特定部５４が特定した出現時点Ｔｎの個数が判断される（Ｓ２０４）。処理Ｓ２０４の処理では、出現時点特定部５４が出現時点Ｔｎを複数特定したか、出現時点Ｔｎを特定しないか、が判断される。

処理Ｓ２０４の判断の結果、出現時点特定部５４が出現時点Ｔｎを特定しないと判断された場合は、出現時点特定部５４が推定出現時点Ｔｐを再生位置Ｔｓとして決定し（Ｓ２０５）、リターンする。ここでは、音声テキストにキーワードが含まれていない場合に、再生処理部５５が処理Ｓ２０３において出現時点特定部５４が算出した推定出現時点Ｔｐから時系列情報を再生することとなる。なお、出現時点特定部５４が出現時点Ｔｎを特定しないと判断された場合に、再生処理部５５が対応画像に関連付けられる再生位置から時系列情報を再生してもよい。対応画像に関連付けられる再生位置は時系列情報テーブルＴｂｌ１００から取得することができる。この場合は、音声テキストにキーワードが含まれていない場合に、キーワードが含まれている対応画像についての時系列情報を最初から再生することとする。

また処理Ｓ２０４の判断の結果、出現時点特定部５４が出現時点Ｔｎを複数特定したと判断された場合は、出現時点特定部５４が処理Ｓ２０３において算出された推定出現時点Ｔｐに最も近い出現時点Ｔｎを再生位置Ｔｓとして決定し（Ｓ２０６）、リターンする。ここでは、音声テキストにキーワードが複数含まれている場合、つまり再生位置Ｔｓの候補である候補再生位置（つまりは出現時点Ｔｎ）が複数ある場合に、いずれか１つを再生位置Ｔｓとして決定する。具体的には、処理Ｓ２０３において算出された推定出現時点Ｔｐからの時系列情報の内容が、キーワードについての説明として最適であるとの考えから、出現時点特定部５４は推定出現時点Ｔｐに最も近い出現時点Ｔｎを再生位置Ｔｓとして決定する。

なお、上述の例では対応画像テキストに基づいて推定出現時点Ｔｐを算出する例を示したがこの例に限定されない。例えば、処理Ｓ２０１において出現時点特定部５４は、対応画像に含まれる複数の文字情報を所定の規則に従って順序付けできれば対応画像をテキスト化しなくてもよい。例えば、出現時点特定部５４が、上述したような規則に従って複数の文字情報を順序付けし、各文字情報に順序付けに応じた番号を付与することとしてもよい。そして、処理Ｓ２０２において出現時点特定部５４は、対応画像テキストにおけるキーワードの出現位置を、複数の文字情報に付与された番号のうち最大の番号に対する、キーワードを含む文字情報に付与された番号の割合として算出してもよい。このように順序付けされた複数の文字情報におけるキーワードを含む文字情報の位置に基づいて、複数の出現時点Ｔｎのうちいずれか１つを再生位置として決定する。

なお、再生位置Ｔｓの候補である候補再生位置（つまりは出現時点Ｔｎ）が複数ある場合に、いずれか１つを再生位置Ｔｓとして決定する方法は上述の例に限定されない。例えば音声テキストにおける複数のキーワードの位置について重心位置を算出し、当該重心位置に最も近いキーワードの出現時点Ｔｎを再生位置Ｔｓとして決定してもよい。

なお、本発明は上述の実施形態に限定されるものではない。

例えば、図５に示した本実施形態に係る情報処理装置１０が実現する機能の一部又は全部が情報処理装置１０とネットワークを介して接続される他の情報処理装置に実装されてもよい。具体的には、他の情報処理装置に対応画像表示部５１及び再生処理部５５が実装され、情報処理装置１０が時系列情報の配信装置として機能してもよい。

１０情報処理装置、１１制御部、１２記憶部、１３通信部、１４表示部、１５操作部、１６音声出力部、５１対応画像表示部、５２指示位置情報取得部、５３文字情報取得部、５４出現時点特定部、５５再生処理部、１００対応画像、１１０文字オブジェクト、１５０カーソル、Ｔｂｌ１００時系列情報テーブル、Ｔｂｌ２００対応画像情報テーブル。

Claims

時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段と、
前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段と、
前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段と、
前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段と、
前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段と、
を含み、
前記出現時点特定手段は、
前記対応画像に含まれる複数の前記文字情報を当該対応画像内の位置に基づく規則に従って順序付ける順序付け手段をさらに含み、
前記再生位置の候補となる複数の前記出現時点を特定した場合、前記順序付けされた前記複数の文字情報における前記取得された文字情報の位置に基づいて、いずれか１つの前記出現時点を前記再生位置として決定する、
ことを特徴とする情報処理装置。
時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段と、
前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段と、
前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段と、
前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段と、
前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段と、
を含み、
前記出現時点特定手段は、
前記対応画像に含まれる複数の前記文字情報を所定の規則に従って並べてテキスト化した対応画像テキストにおいて、前記取得された文字情報の示す単語または文章の出現位置を算出し、
前記対応画像テキストにおいて算出された前記取得された文字情報の示す単語または文章の出現位置から、前記音声情報における前記取得された文字情報の示す単語または文章の推定出現時点を算出する、
ことを特徴とする情報処理装置。
前記出現時点特定手段は、
前記出現時点を特定しないと判断された場合、前記推定出現時点を前記再生位置とする、
ことを特徴とする請求項２に記載の情報処理装置。
前記出現時点特定手段は、
前記出現時点を複数特定したと判断された場合、前記推定出現地点から最も近い前記出現地点を前記再生位置とする、
ことを特徴とする請求項２又は３に記載の情報処理装置。
前記出現時点特定手段は、
前記音声情報をテキスト化した音声テキスト情報から前記取得された文字情報の示す単語または文章を検索する検索手段、をさらに含み、
前記検索手段により検索された前記音声テキスト情報における前記単語または文章の位置に基づいて前記出現時点を特定する、
ことを特徴とする請求項１乃至４のいずれか１項に記載の情報処理装置。
時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段、
前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段、
前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段、
前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段、
前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段、
としてコンピュータを機能させるためのプログラムであって、
前記出現時点特定手段は、
前記対応画像に含まれる複数の前記文字情報を当該対応画像内の位置に基づく規則に従って順序付ける順序付け手段をさらに含み、
前記再生位置の候補となる複数の前記出現時点を特定した場合、前記順序付けされた前記複数の文字情報における前記取得された文字情報の位置に基づいて、いずれか１つの前記出現時点を前記再生位置として決定する、
プログラム。
時間とともに変化する時系列情報に対応付けられ、複数の文字情報を含む対応画像を表示部に表示させる対応画像表示手段、
前記対応画像における、利用者により指示された位置を示す指示位置情報を取得する指示位置情報取得手段、
前記指示位置情報が示す位置に対応する前記文字情報を取得する文字情報取得手段、
前記時系列情報に含まれる音声情報において、前記取得された文字情報の示す単語または文章が出現する出現時点を特定する出現時点特定手段、
前記特定された出現時点に応じた再生位置から前記時系列情報を再生する再生処理手段、
としてコンピュータを機能させるためのプログラムであって、
前記出現時点特定手段は、
前記対応画像に含まれる複数の前記文字情報を所定の規則に従って並べてテキスト化した対応画像テキストにおいて、前記取得された文字情報の示す単語または文章の出現位置を算出し、
前記対応画像テキストにおいて算出された前記取得された文字情報の示す単語または文章の出現位置から、前記音声情報における前記取得された文字情報の示す単語または文章の推定出現時点を算出する、
プログラム。