JP2019128850A

JP2019128850A - 情報処理装置、動画検索方法、生成方法及びプログラム

Info

Publication number: JP2019128850A
Application number: JP2018010904A
Authority: JP
Inventors: 繁塩澤; Shigeru Shiozawa
Original assignee: Recruit Co Ltd
Current assignee: Recruit Co Ltd
Priority date: 2018-01-25
Filing date: 2018-01-25
Publication date: 2019-08-01
Anticipated expiration: 2038-01-25
Also published as: JP6506427B1; WO2019146466A1; CN111542817A

Abstract

【課題】動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供すること。【解決手段】情報処理装置１０は、複数の第１文字列の画像が表示される動画について、該第１文字列の画像を文字認識することで生成される第２文字列と、動画で第１文字列の画像が表示される時間を示す時間情報と、動画とを対応づけて格納するデータベースを記憶する記憶部１０５と、検索対象の文字列を受け付ける受付部１０１と、検索対象の文字列を含む第２文字列と、該第２文字列に対応する時間情報と、該第２文字列に対応する動画とをデータベースから検索する検索部１０２と、検索された動画を再生する第１表示領域と、検索された第２文字列と時間情報とを時系列順に表示する第２表示領域とを含む画面を出力する出力部１０３と、を有する。【選択図】図３

Description

本発明は、情報処理装置、動画検索方法、生成方法及びプログラムに関する。

ユーザが、Ｗｅｂブラウザ等を用いて学習を行うことが可能な、オンライン学習システムが知られている。オンライン学習システムを用いることで、ユーザは、興味のある講義の動画を視聴したり、テストを受けることで自分の理解度を把握したり、テストで躓いた問題を重点的に復習したりすることができ、効率的に学習を進めることができる。なお、ネットワークを利用した遠隔学習支援システムとして、例えば特許文献１に記載の技術が知られている。

特開２００１−１８８４６１号公報

ユーザが苦手科目の復習をする場合など、必ずしも講義動画を最初から最後まで全て視聴するのではなく、特定の部分のみを視聴したいといったニーズが存在すると考えられる。例えば、世界史の科目のうちアメリカの歴史について復習をしたいために、世界史の講義動画の中で講師がアメリカについて説明をしている部分のみを視聴したいといったニーズがあると考えられる。

しかしながら、従来のオンライン学習システムでは、講義動画の中から、ユーザが視聴を所望する特定の部分を検索する機能が提供されていない。そのため、ユーザは、講義動画を最初から最後まで視聴するか、又は早送り等を行うことで視聴したい部分を自ら探す必要があった。このような問題は、講義動画に限らずあらゆる動画においても生じ得る。

そこで、本発明は、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することを目的とする。

本発明の一態様に係る情報処理装置は、複数の第１文字列の画像が表示される動画について、該第１文字列の画像を文字認識することで生成される第２文字列と、前記動画で該第１文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部と、検索対象の文字列を受け付ける受付部と、前記検索対象の文字列を含む第２文字列と、該第２文字列に対応する時間情報と、該第２文字列に対応する動画とを前記データベースから検索する検索部と、検索された動画を再生する第１表示領域と、検索された第２文字列と時間情報とを時系列順に表示する第２表示領域とを含む画面を出力する出力部と、を有する。この態様によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することが可能になる。

上記態様において、前記出力部は、前記第２表示領域に、検索された第２文字列と時間情報とを、横方向又は縦方向に時系列順に並べて表示する画面を出力するようにしてもよい。この態様によれば、画面内の第２領域に複数のテキスト情報と時間情報とが時系列順に表示されるため、視認性を向上させることが可能になる。

上記態様において、前記出力部は、前記第２表示領域に、更に、検索された第２文字列に対応する第１文字列の画像が、前記動画に表示されていることを示すメッセージを表示するようにしてもよい。この態様によれば、ユーザは、検索対象が、動画に表示されている第１文字列であることを画面上で容易に認識することが可能になる。

上記態様において、前記出力部は、検索された第２文字列に対応する第１文字列の画像が前記動画の中で表示される位置を示す情報を、前記動画に重ねて表示するようにしてもよい。この態様によれば、ユーザは、検索対象の文字列が動画内で表示されている位置を容易に把握することが可能になる。

上記態様において、前記出力部は、前記第２表示領域に表示する第２文字列のうち、前記検索対象の文字列に該当する部分を強調表示するようにしてもよい。この態様によれば、例えば第２文字列の文字数が多い場合であっても、検索対象の文字列が第２文字列のうちどの部分に該当するのかを容易に把握することが可能になる。

上記態様において、前記動画は、講師が黒板を用いて講義を行っている様子を撮影した動画であり、前記第１文字列は、前記黒板に手書きで書かれた複数の手書き文字を含む文字列であってもよい。この態様によれば、ユーザは、講義の動画の中で黒板に書かれた手書き文字のうち、検索対象の文字列が表示される部分を容易に検索することが可能になる。

本発明の他の態様に係る情報処理装置は、動画内で第１文字列の画像が表示される領域である第１画像を抽出し、前記動画内で前記第１文字列の画像の表示が開始される時間情報を出力する抽出部と、前記抽出部で抽出された前記第１画像を、前記第１文字列に含まれる文字ごとの第２画像に分割する分割部と、前記複数の第２画像の各々について文字認識を行うことで、前記第２画像ごとに複数の候補文字を出力する文字認識部と、前記第２画像ごとに出力された前記複数の候補文字を前記第１文字列における文字の並び順に従って組み合わせることで生成される複数の候補文字列について、前記動画で使用される可能性のある複数の文字列のうち、前記複数の候補文字列のいずれかに最も類似すると判定される文字列を、第２文字列として出力する出力部と、前記出力部で出力された前記第２文字列と、前記抽出部で出力された前記時間情報と、前記動画とを対応づけたデータベースを生成する生成部と、を有する。この態様によれば、データベースを自動的に生成することができ、ユーザは、動画の中で視聴を所望する特定の部分を迅速に検索することが可能な技術を迅速に利用することが可能になる。

本発明の他の態様に係る動画検索方法は、複数の第１文字列の画像が表示される動画について、該第１文字列の画像を文字認識することで生成される第２文字列と、前記動画で該第１文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う動画検索方法であって、検索対象の文字列を受け付けるステップと、前記検索対象の文字列を含む第２文字列と、該第２文字列に対応する時間情報と、該第２文字列に対応する動画とを前記データベースから検索するステップと、検索された動画を再生する第１表示領域と、検索された第２文字列と時間情報とを時系列順に表示する第２表示領域とを含む画面を出力するステップと、を有する。この態様によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することが可能になる。

本発明の他の態様に係るプログラムは、コンピュータを、複数の第１文字列の画像が表示される動画について、該第１文字列の画像を文字認識することで生成される第２文字列と、前記動画で該第１文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶手段と、検索対象の文字列を受け付ける受付手段と、前記検索対象の文字列を含む第２文字列と、該第２文字列に対応する時間情報と、該第２文字列に対応する動画とを前記データベースから検索する検索手段と、検索された動画を再生する第１表示領域と、検索された第２文字列と時間情報とを時系列順に表示する第２表示領域とを含む画面を出力する出力手段と、として機能させる。この態様によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することが可能になる。

本発明によれば、動画の中でユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することができる。

実施形態に係る動画配信システムの一例を示す図である。配信サーバのハードウェア構成例を示す図である。配信サーバの機能ブロック構成例を示す図である。講義データＤＢを生成する際の処理手順の一例を示すフローチャートである。文字表示領域の画像の抽出を行う処理の具体例を示す図である。文字単位の画像からキーワードを特定する処理を示す図である。講義データＤＢの一例を示す図である。端末に表示される画面の一例を示す図である。端末に表示される画面の一例を示す図である。

添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。

＜システム構成＞
図１は、実施形態に係る動画配信システムの一例を示す図である。本動画配信システムは、配信サーバ１０及び端末２０を含む。配信サーバ１０及び端末２０は、無線又は有線の通信ネットワークＮを介して相互に通信することができる。図１には、端末２０が１つずつ図示されているが、本動画配信システムには、複数の端末２０が含まれていてもよい。本実施形態では、配信サーバ１０及び端末２０をまとめて情報処理装置と称してもよいし、配信サーバ１０のみを情報処理装置と称してもよい。

配信サーバ１０は、講義動画を配信するサーバであり、端末２０から要求された講義動画のデータを端末２０に送信する機能を有する。配信サーバ１０は、１又は複数の物理的又は仮想的なサーバであってもよいし、クラウドサーバであってもよい。

端末２０は、ユーザが操作する端末であり、スマートフォン、タブレット端末、携帯電話機、パーソナルコンピュータ（ＰＣ）、ノートＰＣ、携帯情報端末（ＰＤＡ）、家庭用ゲーム機器など、通信機能を備えた端末であればあらゆる端末を用いることができる。

本実施形態では、ユーザは、検索対象の文字列（検索キーワード）を入力することで、講義動画において講師が黒板に手書きで書いた文字列（以下、「手書き文字列」と言う。）の画像に、検索対象の文字列が含まれる講義動画を検索することができる。例えば、ユーザが端末２０の検索画面に検索対象の文字列として「有機化合物」を入力すると、講師が黒板に「有機化合物」と書いた講義動画が端末２０の画面上に一覧表示される。また、ユーザが、一覧表示された講義動画の中から視聴したい講義動画を選択すると、端末２０の画面上にて講義動画の再生が開始されると共に、講義動画の時間軸上において講師が黒板に「有機化合物」と書いた時間（例えば３０分の動画の中で５分３０秒、１５分１０秒及び２３分４０秒あたり等）が一覧表示される。ユーザが一覧表示された時間の中から１つを選択すると、再生中の講義動画が、選択された時間まで移動する。

このような動作を実現するために、配信サーバ１０には、手書き文字列（第１文字列）の画像を文字認識することで生成されるテキスト情報（第２文字列）と、講義動画で手書き文字列の画像が表示される時間を示す時間情報と、講義動画（又は講義動画を一意に特定する情報）とを対応づけてデータベースに格納しておく。時間情報は、より詳細には、講義動画内で手書き文字列が表示されてから表示が終了するまでの時間（以下、「出現時間」と言う。）を示す情報であってもよい。本実施形態では、当該データベースを「講義データＤＢ（Database）」と呼ぶ。これにより、配信サーバ１０は、検索対象の文字列が含まれる講義動画を、講義データＤＢを用いて検索することで、講師が黒板に書いた手書きの文章や文字列に検索対象の文字列が含まれる講義動画を検索することが可能になる。

＜ハードウェア構成＞
図２は、配信サーバ１０のハードウェア構成例を示す図である。配信サーバ１０は、ＣＰＵ（Central Processing Unit）１１、メモリ等の記憶装置１２、有線又は無線通信を行う通信ＩＦ（Interface）１３、入力操作を受け付ける入力デバイス１４、及び情報の出力を行う出力デバイス１５を有する。後述する機能ブロック構成にて説明する各機能部は、記憶装置１２に記憶されたプログラムがＣＰＵ１１に実行させる処理により実現することができる。なお、当該プログラムは、例えば非一時的な記録媒体に格納することができる。

＜機能ブロック構成＞
図３は、配信サーバ１０の機能ブロック構成例を示す図である。配信サーバ１０は、受付部１０１と、検索部１０２と、出力部１０３と、生成部１０４と、記憶部１０５とを有する。記憶部１０５には、講義データＤＢが格納される。

受付部１０１は、ユーザが端末２０の画面に入力した、検索対象の文字列を受け付ける機能を有する。

検索部１０２は、受付部１０１で受け付けた検索対象の文字列を含む「テキスト情報」と、当該テキスト情報に対応する「出現時間」と、当該テキスト情報に対応する「講義動画」とを講義データＤＢから検索する。

出力部１０３は、検索部１０２により検索された講義動画を再生する領域（第１領域）と、検索されたテキスト情報と出現時間（時間情報）とを時系列順に表示する領域（第２領域）とを含む画面を出力する。出力された画面は端末２０のディスプレイに表示される。なお、出力部１０３は、例えばＷｅｂサーバ機能を備えており、講義動画を配信するＷｅｂサイトを端末２０に送信する機能を有していてもよい。或いは、出力部１０３は、端末２０にインストールされたアプリケーションの画面に講義動画等を表示させるためのコンテンツを、端末２０に送信する機能を有していてもよい。

生成部１０４は、講義動画の動画に表示される手書き文字列を文字認識することで、講義データＤＢを生成する。生成部１０４は、更に、領域抽出部１０４１と、分割部１０４２と、単一文字認識エンジン１０４３と、文字列認識エンジン１０４４と、ＤＢ生成部１０４５とを含む。領域抽出部１０４１と、分割部１０４２と、単一文字認識エンジン１０４３と、文字列認識エンジン１０４４と、ＤＢ生成部１０４５とが行う処理については後述する。

＜講義データＤＢの生成について＞
続いて、図４を用いて、講義データＤＢを生成する方法について具体的に説明する。以下の説明では、配信サーバ１０の生成部１０４が、講義データＤＢを生成する前提で説明するが、必ずしも配信サーバ１０が自ら講義データＤＢを作成するようにする必要はなく、外部の情報処理装置で生成されることとしてもよい。その場合、生成部１０４は、配信サーバ１０ではなく、配信サーバ１０とは異なる他の情報処理装置に実装されており、当該情報処理装置で生成された講義データＤＢが配信サーバ１０の記憶部１０５に登録されることとしてもよい。

図４は、講義データＤＢを生成する際の処理手順の一例を示すフローチャートである。

ステップＳ１０１で、領域抽出部１０４１は、講義動画内で手書き文字列が表示される文字表示領域の画像（第１画像）を抽出する。また、講義動画内で当該手書き文字列が表示されてから表示が終了するまでの時間（出現時間）を判定して出力する。もし複数の手書き文字列が存在する場合、各々の手書き文字列に対して、文字表示領域の画像の抽出と出現時間の判定とを行う。

１つの手書き文字列について、文字表示領域の画像の抽出と出現時間の判定を行う処理の具体例を、図５を用いて説明する。領域抽出部１０４１は、講師が黒板に文字を書きながら講義を行っている動画（図５（ａ））に対して、所定のフレーム数単位（例えば８０フレーム等）で画像処理をして、背景と区別される領域を抽出する。例えば、ピクセル単位かつ当該所定のフレーム数単位で背景画像と異なる可能性を示すスコア（確率）を出力する。この処理により、黒板上に文字が書かれた領域のピクセル及び講師が写っている領域のピクセルについては所定の値以上のスコアが出力される。

続いて、領域抽出部１０４１は、出力されたスコアが所定の値以上であるピクセルを抽出する。抽出されたピクセルの例を図５（ｂ）に示す。図５（ｂ）に示す抽出箇所５００は、抽出されたピクセルが集合している箇所を示している。また、領域抽出部１０４１は、背景と区別される領域を抽出する際に、講師が写っている領域を除く処理をすることが好ましい。例えば、所定の時間長（例えば、１０秒等）におけるスコアの変動が所定の閾値以下であるピクセルのみを抽出することで、動画内で動き回る講師が認識されたピクセルについては抽出対象外として扱うことができる。また、抽出されたピクセルが集合している領域の面積が所定値よりも大きい場合は、文字列ではなく講師が抽出されたものとみなして、抽出対象外として扱うことができる。領域抽出部１０４１は、講義動画において、ピクセルが集合している箇所が現れてから消えるまでの時間を、講義動画内で手書き文字列が表示されている出現時間として判定する。

続いて、領域抽出部１０４１は、ピクセルが集合している箇所を囲む長方形の枠の位置（例えば動画の左下を起点とした場合の長方形の左下のピクセル位置）及び大きさ（縦方向及び横方向の大きさ）を決定する。図５（ｂ）に示す枠５１０は、決定された長方形の枠の一例である。

続いて、領域抽出部１０４１は、出現時間の間における講義動画を構成する各フレームの画像のうち任意のフレームの画像から長方形の枠で囲まれた領域を切り出すことで、講義動画内で手書き文字列が表示される文字表示領域の画像を抽出する。

ステップＳ１０２で、分割部１０４２は、領域抽出部１０４１で抽出された文字表示領域の画像を、手書き文字列を構成する一文字単位の画像（第２画像）に分割する。分割部１０４２は、文字表示領域の画像を２値化すると共に、例えば、当該画像の縦軸方向の全ピクセルの照度が所定の閾値を下回る部分を文字の切れ目とみなすことで、一文字単位の画像に分割する。図５（ｃ）に切れ目の位置の具体例を示す。

ステップＳ１０３で、単一文字認識エンジン１０４３は、手書き文字列を構成する一文字単位の画像について文字認識を行うことで、当該画像ごとに複数の候補文字を出力する。図６を用いて具体例を示す。図６に示す候補文字１〜５は、「異」、「性」、「体」の画像の各々について文字認識を行うことで出力された複数の候補文字の例を示している。

なお、単一文字認識エンジン１０４３が高精度な文字認識能力を有している場合、ステップＳ１０４の処理手順に進まずに、単一文字認識エンジン１０４３が出力した候補文字をそのままテキスト情報として講義データＤＢに格納することとしてもよい。例えば図６の例において、単一文字認識エンジン１０４３が、「異」、「性」、「体」の画像に対して「異」、「性」、「体」と正しく認識可能な能力を有している場合、認識された「異」、「性」、「体」のテキストを結合した「異性体」を、そのままテキスト情報として講義データＤＢに格納することとしてもよい。

ステップＳ１０４で、文字列認識エンジン１０４４（出力部）は、一文字単位の画像ごとに出力された複数の候補文字を、手書き文字列における文字の並び順に従って組み合わせることで複数の候補文字列を生成する。例えば、図６の例では、「異」に対応する５つの候補文字と、「性」に対応する５つの候補文字と、「体」に対応する５つの候補文字とを組み合わせることで生成される１２５（５×５×５）個の候補文字列を生成する。

ここで、文字列認識エンジン１０４４は、講義動画で使用される可能性のある複数のキーワード（文字列）を予め学習済みであり、任意の文字列を入力することで、当該複数のキーワードのうち、入力された文字列と最も類似すると判定されるキーワード及び類似度を示すスコアを出力する機能を有している。講義動画で使用される可能性のあるキーワードとは、例えば、日本史の講義動画の場合、「邪馬台国」や「徳川家康」といった教科書の索引に記載されているようなキーワードである。ただし、キーワードは科目ごとに異なることが一般的である。そのため、講義動画の属性（科目や講義名等）に応じて異なるキーワードを学習させた文字列認識エンジン１０４４を用意しておき、講義動画の属性に応じた文字列認識エンジン１０４４を使用してステップＳ１０４の処理手順を行うようにしてもよい。

続いて、文字列認識エンジン１０４４は、講義動画で使用される可能性のある複数のキーワード（文字列）として予め学習したキーワード（文字列）のうち、生成した複数の候補文字列のいずれかに最も類似すると判定されるキーワード（文字列）を、手書き文字列に対応するテキスト情報として出力する。より具体的には、文字列認識エンジン１０４４は、生成した複数の候補文字列の各々について、最も類似すると判定されるキーワードと類似度（スコア）を出力し、出力された類似度が最も高いキーワードを、手書き文字列に対応するテキスト情報として出力する。

図６には、文字列認識エンジン１０４４が、１２５個の候補文字列の各々と学習済みキーワード（図６の例では少なくとも「異性体」を含む）との間の類似度を出力し、出力した類似度が最も高い学習済みキーワード「異性体」を、手書き文字列に対応するテキスト情報として出力した場合の例を示している。仮に、単一文字認識エンジン１０４３が文字を正しく認識することができず、１２５個の候補文字列の中に「異性体」そのものが含まれていない場合であっても、複数の候補文字列の中に「異性体」に類似する候補文字列（例えば「異住体」等）が含まれるのであれば、手書き文字列に対応するテキスト情報として「異性体」が文字列認識エンジン１０４４から出力されることになる。

生成部１０４は、以上説明したステップＳ１０１〜１０４のまでの処理手順を、講義動画内で表示される手書き文字列ごとに繰り返し行うことで、講義動画内で表示される複数の手書き文字列の各々について、キーワード及び出現時間を判定する。

ステップＳ１０５で、ＤＢ生成部１０４５は、ステップＳ１０４の処理手順で文字列認識エンジン１０４４から出力されたテキスト情報と、ステップＳ１０１で領域抽出部１０４１から出力された出現時間と、処理対象である講義動画（講義動画のファイル名でもよい）とを対応づけて講義データＤＢを生成する。

図７は、講義データＤＢの一例を示す図である。「講義動画」には、講義動画を一意に識別する識別子が格納される。当該識別子には、講義動画の科目及び講義名等を含む。当該識別子は、例えば、講義動画の科目を含むファイル名であってもよい。「出現時間」には、手書き文字列が講義動画内で表示されてから消えるまでの時間が格納される。「テキスト情報」には、手書き文字列に対応するテキストデータが格納される。図７の例では、「化学_第１講_有機化合物の構造決定_チャプター１」の講義動画には「錯イオン形成反応」が０分０５秒〜３分１０秒までの間表示されていること、「元素分析」が１分２０秒〜３分１０秒までの間表示されていること等を示すデータが格納されている。

＜講義の検索について＞
続いて、ユーザが講義動画を検索する際の処理手順について具体的に説明する。図８及び図９は、端末２０に表示される画面の一例を示す図である。図８（ａ）は講義動画を検索するための画面の一例である。講義動画を検索する画面には、検索対象の文字列と、検索対象とする講義動画の科目を入力する入力ボックス１００１が設けられている。入力ボックス１００１の右側に表示される検索ボタンが押下されると、検索部１０２は、講義データＤＢにアクセスし、入力された科目に該当する講義動画のテキスト情報の中に、検索対象の文字列が含まれる講義動画が存在するか否かを検索する。テキスト情報に検索対象の文字列が含まれる講義動画が存在する場合、出力部１０３は、検索された講義動画を一覧表示する画面を出力する。なお、出力部１０３は、検索された講義動画が複数である場合に、講義動画を一覧表示する画面を出力し、検索された講義動画が１つである場合は、後述する「講義動画を再生する画面（図９（ａ））」に直接遷移するようにしてもよい。

図８（ｂ）は、検索された講義動画を一覧表示する画面の一例である。検索結果は、表示エリア１００３に一覧表示される。例えば、ユーザが、科目として「化学」を選択し、検索対象の文字列に「イオン」を入力して検索を行った場合、化学に関する講義動画の中から、講師が「イオン」と黒板に書いた講義動画が検索結果として表示エリア１００３に一覧表示される。

続いて、ユーザが、表示エリア１００３に一覧表示された講義動画の中から視聴を所望する講義動画を選択すると、講義動画を再生する画面に遷移する。表示エリア１００３は、検索された講義動画を一覧表示することに加えて、ユーザが視聴を所望する講義動画の選択を受け付ける機能も備えていることから、表示エリア１００３を含む画面を、ユーザが視聴を所望する講義動画の選択を受け付ける画面と称してもよい。

講義動画を再生する画面の一例を図９（ａ）に示す。図９（ａ）には、講義動画を再生する表示エリア２００１（第１領域）と、検索対象の文字列を含むテキスト情報と、手書き文字列の表示が開始される開始時間とを横方向に時系列順に並べて表示する表示エリア２００２（第２領域）と、表示エリア２００１で再生される講義動画の科目に関して過去に検索された文字列を表示する表示エリア２００４（第３領域）とを含む。表示エリア２００２の上部には、開始時間及びテキスト情報を一覧表示するボタン２００３が表示される。ユーザがボタン２００３を押下すると、図９（ｂ）に示すように、表示エリア２００２に代えて、検索対象の文字列を含むテキスト情報とタイムスタンプ情報とを縦方向に時系列順に並べて表示する表示エリア２００５（第２領域）が表示される。

表示エリア２００２及び表示エリア２００５には、検索結果が講義動画に表示される手書き文字列であることを示すメッセージ（検索されたテキスト情報に対応する手書き文字列が、講義動画に表示されるものであることを示すメッセージ）として「板書」の文言が表示される。また、表示エリア２００２及び表示エリア２００５の上部には、検索対象の文字列を含むテキスト情報が検索された件数が表示エリア２１０２に表示される。

表示エリア２００２及び表示エリア２００５に表示されるテキスト情報のうち、検索対象の文字列に該当する部分が強調表示されるようにしてもよい。例えば図９（ａ）及び図９（ｂ）の例では、「錯イオン形成反応」及び「水素イオン」のうち検索対象の文字列である「イオン」の部分が強調して表示されている。

表示エリア２００２及び表示エリア２００５には、更に、手書き文字列の表示が終了する終了時間を表示するようにしてもよい。例えば、表示エリア２００２及び表示エリア２００５には、「０：０５〜３：１０錯イオン形成反応」といったように、手書き文字列の出現時間を表示するようにしてもよい。

なお、表示エリア２００１には、検索されたテキスト情報に対応する手書き文字列が講義動画の中で表示される位置を示す情報が、講義動画に重ねて表示されるようにしてもよい。例えば、図９（ａ）及び図９（ｂ）に示すように、表示エリア２００１には、検索されたテキスト情報である「錯イオン形成反応」が講義動画の中で表示される位置を示す枠２１０１が表示されるようにしてもよい。２１０１を表示可能にするために、講義データＤＢには、更に、枠２１０１を表示する位置及び枠２１０１の大きさを示す情報がレコード毎に格納されていてもよい。枠２１０１を表示する位置及び枠２１０１の大きさを示す情報として講義データＤＢに格納する情報には、図４のステップＳ１０１で説明した、抽出されたピクセルの集合を囲む長方形の枠の位置及び大きさを示す情報と同一の情報が格納されることとしてもよい。また、枠２１０１は、検索されたテキスト情報に対応する出現時間の間、表示エリア２００１に表示され続けることとしてもよい。

ユーザが表示エリア１００３（図８（ｂ））で講義動画を選択すると、表示エリア２００１にて講義動画の再生が開始される。続いて、ユーザが、表示エリア２００２又は表示エリア２００５に表示されている開始時間及びテキスト情報の中から、視聴を所望する開始時間及びテキスト情報を選択すると、表示エリア２００１に表示される講義動画が、選択された開始時間の時間又は開始時間の時間より所定の時間前（例えば１０秒前等）の時間から再生される。例えば、ユーザが表示エリア２００２にて２：１５と表示されている箇所をタップすると、表示エリア２００１において、２：１５の時点又は所定の時間前（例えば２：０６等）から講義動画が再生される。

なお、ユーザが表示エリア１００３（図８（ｂ））で講義動画を選択した時点では表示エリア２００１にて講義動画の再生は開始されず、ユーザが表示エリア２００１の中に表示される再生開始ボタンを押下するか、又は、ユーザが表示エリア２００２又は表示エリア２００５に表示されているタイムスタンプ情報及びテキスト情報の中から、視聴を所望するタイムスタンプ情報を選択することで初めて講義動画の再生が開始されるようにしてもよい。

また、ユーザが表示エリア２００２を右から左（又は左から右）にスワイプすることで、次の（又は以前の）開始時間及びテキスト情報が表示されるようにしてもよい。例えば、図９（ａ）の例では、ユーザが表示エリア２００２を右から左にスワイプすることで、開始時間が０：０５であるテキスト情報が左から消えると共に開始時間が２：１５であるテキスト情報が右側から左側に移動し、更に、右側に次のテキスト情報が現れるようにしてもよい。

同様に、ユーザが表示エリア２００５を上から下（又は下から上）にスワイプすることで、次の（又は以前の）タイムスタンプ情報及びテキスト情報が表示されるようにしてもよい。

また、検索部１０２で検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、出力部１０３は、表示エリア２００２において、検索されたテキスト情報に含まれるテキストのうち、少なくとも検索対象の文字列を含む一部のテキストのみを出力するようにしてもよい。これにより、テキスト情報に含まれるテキストの文字数が多すぎて表示エリア２００２又は表示エリア２００５に全ての文字を表示することが困難な場合や、端末２０がスマートフォン等でありディスプレイサイズが小さいためにテキスト情報を全て表示することが困難である場合等であっても、視認性を大きく犠牲にすることなくテキスト情報を表示することが可能になる。

また、表示エリア２００４に表示される、講義動画の科目に関して過去に検索された文字列は、本動画配信システムを利用する複数のユーザが過去に検索対象の文字列として入力した文字列のうち入力された回数が多い順に表示されるようにしてもよい。また、ユーザが表示エリア２００４に表示される文字列を選択した場合、選択した文字列が入力ボックス１００１に自動的に入力されるようにしてもよい。

以上、本実施形態について説明した。本実施形態では、講義データＤＢに、講義動画において講師が黒板に書いた文字をテキスト化したテキスト情報を格納しておき、検索対象の文字列とテキスト情報とを比較することで講義動画の検索を行うようにした。これにより、本実施形態は、講義動画の動画を直接解析しながら文字列を検索する方法と比較して検索速度を向上させることができるという技術的効果を有する。

以上の説明では、講義データＤＢに格納される出現時間には、手書き文字列の表示が開始された時間（黒板に文字列が書かれた時間）と表示が終了する時間（例えば講師が黒板消し等を用いて文字を消した時間）とが含まれることとしたが、手書き文字列の表示が開始された時間のみが含まれることとしてもよい。これにより、講義データＤＢのデータ容量を削減することができる。なお、手書き文字列の表示が開始された時間と表示が終了する時間とをまとめて「時間情報」と称してもよいし、手書き文字列の表示が開始された時間のみを「時間情報」と称してもよい。

以上の説明において、文字列が表示される動画とは、講師が黒板に手書の文字を書きながら講義を行う講義動画である前提で説明したが、本実施形態は、講義動画や手書きの文字に限定されない。本実施形態は、文字列が表示される動画であればどのような文字列や動画に対しても適用することが可能である。

以上、説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態で説明したフローチャート、シーケンス、実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。

１０…配信サーバ、１１…ＣＰＵ、１２…記憶装置、１３…通信ＩＦ、１４…入力デバイス、１５…出力デバイス、２０…端末、１０１…受付部、１０２…検索部、１０３…出力部、１０４…生成部、１０５…記憶部、１０４１…領域抽出部、１０４２…分割部、１０４３…単一文字認識エンジン、１０４４…文字列認識エンジン、１０４５…生成部

Claims

複数の第１文字列の画像が表示される動画について、該第１文字列の画像を文字認識することで生成される第２文字列と、前記動画で該第１文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部と、
検索対象の文字列を受け付ける受付部と、
前記検索対象の文字列を含む第２文字列と、該第２文字列に対応する時間情報と、該第２文字列に対応する動画とを前記データベースから検索する検索部と、
検索された動画を再生する第１表示領域と、検索された第２文字列と時間情報とを時系列順に表示する第２表示領域とを含む画面を出力する出力部と、
を有する情報処理装置。
前記出力部は、前記第２表示領域に、検索された第２文字列と時間情報とを、横方向又は縦方向に時系列順に並べて表示する画面を出力する、
請求項１に記載の情報処理装置。
前記出力部は、前記第２表示領域に、更に、検索された第２文字列に対応する第１文字列の画像が、前記動画に表示されていることを示すメッセージを表示する、
請求項２に記載の情報処理装置。
前記出力部は、検索された第２文字列に対応する第１文字列の画像が前記動画の中で表示される位置を示す情報を、前記動画に重ねて表示する、
請求項１乃至３のいずれか一項に記載の情報処理装置。
前記出力部は、前記第２表示領域に表示する第２文字列のうち、前記検索対象の文字列に該当する部分を強調表示する、
請求項１乃至４のいずれか一項に記載の情報処理装置。
前記動画は、講師が黒板を用いて授業を行っている様子を撮影した動画であり、
前記第１文字列は、前記黒板に手書きで書かれた複数の手書き文字を含む文字列である、
請求項１乃至５のいずれか一項に記載の情報処理装置。
動画内で第１文字列の画像が表示される領域である第１画像を抽出し、前記動画内で前記第１文字列の画像の表示が開始される時間情報を出力する抽出部と、
前記抽出部で抽出された前記第１画像を、前記第１文字列に含まれる文字ごとの第２画像に分割する分割部と、
複数の前記第２画像の各々について文字認識を行うことで、前記第２画像ごとに複数の候補文字を出力する文字認識部と、
前記第２画像ごとに出力された前記複数の候補文字を前記第１文字列における文字の並び順に従って組み合わせることで生成される複数の候補文字列について、前記動画で使用される可能性のある複数の文字列のうち、前記複数の候補文字列のいずれかに最も類似すると判定される文字列を、第２文字列として出力する出力部と、
前記出力部で出力された前記第２文字列と、前記抽出部で出力された前記時間情報と、前記動画とを対応づけたデータベースを生成する生成部と、
を有する情報処理装置。
複数の第１文字列の画像が表示される動画について、該第１文字列の画像を文字認識することで生成される第２文字列と、前記動画で該第１文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う動画検索方法であって、
検索対象の文字列を受け付けるステップと、
前記検索対象の文字列を含む第２文字列と、該第２文字列に対応する時間情報と、該第２文字列に対応する動画とを前記データベースから検索するステップと、
検索された動画を再生する第１表示領域と、検索された第２文字列と時間情報とを時系列順に表示する第２表示領域とを含む画面を出力するステップと、
を有する動画検索方法。
コンピュータを、
複数の第１文字列の画像が表示される動画について、該第１文字列の画像を文字認識することで生成される第２文字列と、前記動画で該第１文字列の画像が表示される時間を示す時間情報と、前記動画とを対応づけて格納するデータベースを記憶する記憶手段と、
検索対象の文字列を受け付ける受付手段と、
前記検索対象の文字列を含む第２文字列と、該第２文字列に対応する時間情報と、該第２文字列に対応する動画とを前記データベースから検索する検索手段と、
検索された動画を再生する第１表示領域と、検索された第２文字列と時間情報とを時系列順に表示する第２表示領域とを含む画面を出力する出力手段と、
として機能させるためのプログラム。