JP2019066785A - 情報処理装置、画面出力方法及びプログラム - Google Patents

情報処理装置、画面出力方法及びプログラム Download PDF

Info

Publication number
JP2019066785A
JP2019066785A JP2017194904A JP2017194904A JP2019066785A JP 2019066785 A JP2019066785 A JP 2019066785A JP 2017194904 A JP2017194904 A JP 2017194904A JP 2017194904 A JP2017194904 A JP 2017194904A JP 2019066785 A JP2019066785 A JP 2019066785A
Authority
JP
Japan
Prior art keywords
moving image
information
text information
time stamp
searched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017194904A
Other languages
English (en)
Other versions
JP6382423B1 (ja
Inventor
繁 塩澤
Shigeru Shiozawa
繁 塩澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Recruit Holdings Co Ltd
Original Assignee
Recruit Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Recruit Holdings Co Ltd filed Critical Recruit Holdings Co Ltd
Priority to JP2017194904A priority Critical patent/JP6382423B1/ja
Application granted granted Critical
Publication of JP6382423B1 publication Critical patent/JP6382423B1/ja
Priority to PCT/JP2018/037087 priority patent/WO2019069997A1/ja
Publication of JP2019066785A publication Critical patent/JP2019066785A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/08Electrically-operated educational appliances providing for individual presentation of information to a plurality of student stations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Educational Administration (AREA)
  • Educational Technology (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)

Abstract

【課題】動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供すること。
【解決手段】動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部(105)と、検索対象の文字列を受け付ける受付部と、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索する検索部(102)と、検索された動画を再生する第1領域(2001)と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域(2002,2005)とを含む画面を出力する出力部(103)と、を有する情報処理装置(10)を提供する。
【選択図】図9

Description

本発明は、情報処理装置、画面出力方法及びプログラムに関する。
ユーザが、Webブラウザ等を用いて学習を行うことが可能な、オンライン学習システムが知られている。オンライン学習システムを用いることで、ユーザは、興味のある講義の動画を視聴したり、テストを受けることで自分の理解度を把握したり、テストで躓いた問題を重点的に復習したりすることができ、効率的に学習を進めることができる。なお、ネットワークを利用した遠隔学習支援システムとして、例えば特許文献1に記載の技術が知られている。
特開2001−188461号公報
ユーザが苦手科目の復習をする場合など、必ずしも講義動画を最初から最後まで全て視聴するのではなく、特定の部分のみを視聴したいといったニーズが存在すると考えられる。例えば、世界史の科目のうちアメリカの歴史について復習をしたいために、世界史の講義動画の中で講師がアメリカについて説明をしている部分のみを視聴したいといったニーズがあると考えられる。
しかしながら、従来のオンライン学習システムでは、講義動画の中から、ユーザが視聴を所望する特定の部分を検索する機能が提供されていないことから、ユーザは、講義動画を最初から最後まで視聴するか、又は早送り等を行うことで視聴したい部分を自ら探す必要があった。このような問題は、講義動画に限らずあらゆる動画においても生じ得る。
そこで、本発明は、動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することを目的とする。
本発明の一態様に係る情報処理装置は、動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部と、検索対象の文字列を受け付ける受付部と、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索する検索部と、検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力する出力部と、を有する。この態様によれば、話し手が発話した内容のうち検索対象の文字列を含む講義動画を検索することができるので、ユーザは、講義動画のうち視聴を所望する特定の部分を迅速に検索することが可能になる。
上記態様において、前記出力部は、前記第2領域に、検索されたテキスト情報とタイムスタンプ情報とを、横方向又は縦方向に時系列順に並べて表示する画面を出力するようにしてもよい。この態様によれば、画面内の第2領域に複数のテキスト情報とタイムスタンプ情報と時系列順に表示されるため、視認性を向上させることが可能になる。
上記態様において、前記出力部は、更に、前記第1領域で再生される動画の科目に関して過去に検索された文字列を表示する第3領域を含む画面を出力するようにしてもよい。この態様によれば、ユーザは、他のユーザが頻繁に検索に使用している文字列を把握し、自身の学習等に役立てることが可能になる。
上記態様において、前記出力部は、前記検索部で複数の動画が検索された場合、該複数の動画の中からユーザが視聴を所望する動画の選択を受け付ける画面を出力するようにしてもよい。この態様によれば、検索された講義動画が多数存在する場合であっても、ユーザは、視聴を所望する講義を任意に選択することが可能になる。
上記態様において、前記出力部は、前記第2領域に表示されたタイムスタンプ情報のうち選択されたタイムスタンプ情報の時間又は該タイムスタンプ情報の時間より所定の時間前の時間から動画の再生を開始するようにしてもよい。この態様によれば、ユーザは、指定した時間から講義動画を視聴することが可能になる。
上記態様において、前記出力部は、検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、前記第2領域において、検索されたテキスト情報に含まれるテキストのうち、少なくとも前記検索対象の文字列を含む一部のテキストを出力するようにしてもよい。この態様によれば、テキスト情報に含まれるテキストの文字数が多すぎる場合や端末のディスプレイサイズが小さいためにテキスト情報を全て表示することが困難である場合等であっても、視認性を大きく犠牲にすることなくテキスト情報を表示することが可能になる。
上記態様において、動画に含まれる音声が所定の時間無音であるタイミングで音声データを分割することで複数の音声データ及びタイムスタンプ情報を生成し、生成した前記複数の音声データの各々を音声認識処理を用いてテキスト情報に変換し、変換したテキスト情報について辞書に基づいて又はユーザの指示により補正を行うことで、前記データベースに格納するためのテキスト情報及びタイムスタンプ情報を生成する生成部を有するようにしてもよい。この態様によれば、撮影された講義動画のデータを用いて、講義動画を検索する際に必要になるデータベースを作成することが可能になる。
本発明の他の態様に係る画面出力方法は、動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う画面出力方法であって、検索対象の文字列を受け付けるステップと、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、を有する。この態様によれば、話し手が発話した内容のうち検索対象の文字列を含む講義動画を検索することができるので、ユーザは、講義動画のうち視聴を所望する特定の部分を迅速に検索することが可能になる。
本発明の他の態様に係るプログラムは、動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有するコンピューターに実行させるプログラムであって、検索対象の文字列を受け付けるステップと、前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、を有する。この態様によれば、話し手が発話した内容のうち検索対象の文字列を含む講義動画を検索することができるので、ユーザは、講義動画のうち視聴を所望する特定の部分を迅速に検索することが可能になる。
本発明によれば、動画のうちユーザが視聴を所望する特定の部分を迅速に検索することが可能な技術を提供することができる。
実施形態に係る動画配信システムの一例を示す図である。 配信サーバのハードウェア構成例を示す図である。 配信サーバの機能ブロック構成例を示す図である。 テキスト情報及びタイムスタンプ情報を生成する際の処理手順の一例を示すフローチャートである。 講義動画の音声を分割する際の具体例を示す図である。 辞書ファイルの一例を示す図である。 補正作業用の画面の具体例を示す図である。 講義データDBの一例を示す図である。 端末に表示される画面の一例を示す図である。 端末に表示される画面の一例を示す図である。
添付図面を参照して、本発明の好適な実施形態について説明する。なお、各図において、同一の符号を付したものは、同一又は同様の構成を有する。以下の説明では、動画が講義動画である前提で説明するが、本実施形態は、話し声が含まれる動画であればどのような動画に対しても適用することが可能である。
<システム構成>
図1は、実施形態に係る動画配信システムの一例を示す図である。本動画配信システムは、配信サーバ10及び端末20を含む。配信サーバ10及び端末20は、無線又は有線の通信ネットワークNを介して相互に通信することができる。図1には、端末20が1つずつ図示されているが、本動画配信システムには、複数の端末20が含まれていてもよい。本実施形態では、配信サーバ10及び端末20をまとめて情報処理装置と称してもよいし、配信サーバ10のみを情報処理装置と称してもよい。
配信サーバ10は、講義動画を配信するサーバであり、端末20から要求された講義動画のデータを端末20に送信する機能を有する。配信サーバ10は、1又は複数の物理的又は仮想的なサーバであってもよいし、クラウドサーバであってもよい。
端末20は、ユーザが操作する端末であり、スマートフォン、タブレット端末、携帯電話機、パーソナルコンピュータ(PC)、ノートPC、携帯情報端末(PDA)、家庭用ゲーム機器など、通信機能を備えた端末であればあらゆる端末を用いることができる。
本実施形態では、ユーザは、検索対象の文字列(検索キーワード)を入力することで、講師が話した内容に当該文字列が含まれる講義動画を検索することができる。例えば、ユーザが端末20の検索画面に「日本」を入力すると、講義の中で講師が「日本」と話した講義動画が端末20の画面上に一覧表示される。また、ユーザが、一覧表示された講義動画の中から視聴したい講義動画を選択すると、端末20の画面上にて講義動画の再生が開始されると共に、講義動画の時間軸上において講師が「日本」と発言したおおよそのタイムスタンプ(例えば30分の動画の中で5分30秒、15分10秒及び23分40秒あたり等)が一覧表示される。ユーザが一覧表示されたタイムスタンプの中から1つを選択すると、再生中の講義動画が、選択されたタイムスタンプまで移動する。
このような動作を実現するために、配信サーバ10には、講義動画に含まれる音声データを講義動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、講義動画の時間軸上での開始時間を示すタイムスタンプ情報と、当該音声データを文字列に変換したテキスト情報と、当該講義動画とを対応づけてデータベースに格納しておく。本実施形態では、当該データベースを「講義データDB(Database)」と呼ぶ。
<ハードウェア構成>
図2は、配信サーバ10のハードウェア構成例を示す図である。配信サーバ10は、CPU(Central Processing Unit)11、メモリ等の記憶装置12、有線又は無線通信を行う通信IF(Interface)13、入力操作を受け付ける入力デバイス14、及び情報の出力を行う出力デバイス15を有する。後述する機能ブロック構成にて説明する各機能部は、記憶装置12に記憶されたプログラムがCPU11に実行させる処理により実現することができる。なお、当該プログラムは、例えば非一時的な記録媒体に格納することができる。
<機能ブロック構成>
図3は、配信サーバ10の機能ブロック構成例を示す図である。配信サーバ10は、受付部101と、検索部102と、出力部103と、生成部104と、記憶部105とを有する。記憶部105には、講義データDBが格納される。
受付部101は、ユーザが端末20の画面に入力した、検索対象の文字列を受け付ける機能を有する。
検索部102は、受付部101で受け付けた検索対象の文字列を含むテキスト情報と、当該テキスト情報に対応するタイムスタンプ情報と、当該テキスト情報に対応する講義動画とを講義データDBから検索する機能を有する。
出力部103は、検索部102により検索された講義動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力する機能を有する。出力された画面は端末20のディスプレイに表示される。なお、出力部103は、例えばWebサーバ機能を備えており、講義動画を配信するWebサイトを端末20に送信する機能を有していてもよい。或いは、出力部103は、端末20にインストールされたアプリケーションの画面に講義動画等を表示させるためのコンテンツを、端末20に送信する機能を有していてもよい。
生成部104は、講義動画から、講義データDBに格納するテキスト情報及びタイムスタンプ情報を生成する機能を有する。生成部104は、更に、分割部1041と、音声認識部1042と、補正部1043とを含む。分割部1041は、講義動画に含まれる音声が所定の時間(例えば2秒等)無音であるタイミングで音声データを分割することで複数の音声データ及びタイムスタンプ情報を生成する。音声認識部1042は、生成した複数の音声データの各々を、音声認識処理を行うことでテキスト情報に変換する。補正部1043は、変換されたテキスト情報について、辞書ファイルに基づいて又はユーザの指示に基づいて補正を行う。
<テキスト情報及びタイムスタンプ情報の生成について>
続いて、講義データDBに格納されるタイムスタンプ情報とテキスト情報とを作成する方法について具体的に説明する。以下の説明では、配信サーバ10の生成部104が、タイムスタンプ情報とテキスト情報とを作成する前提で説明するが、必ずしも配信サーバ10が自らタイムスタンプ情報とテキスト情報とを作成するようにする必要はなく、外部の装置やツール等で生成されることとしてもよい。
図4は、テキスト情報及びタイムスタンプ情報を生成する際の処理手順の一例を示すフローチャートである。
ステップS101で、分割部1041は、講義動画の音声を分割することで複数の音声データ及びタイムスタンプ情報を生成する。ここで、講義動画の音声を分割する際の具体例を図5に示す。分割部1041は、講義動画に含まれる音声データを解析し、所定の時間(図5の例では2秒間)無音であるタイミングで音声データを分割する。図5の例では、分割部1041は、「邪馬台国は、女王卑弥呼が統治をしていたと伝えられている。邪馬台国の所在地は、未だに九州か近畿かは、議論が続けられている。私は、九州にあったと考える。」の音声データを、「邪馬台国は、女王卑弥呼が統治をしていたと伝えられている。邪馬台国の所在地は、未だに九州か近畿かは、議論が続けられている。」の音声データと、「私は、九州にあったと考える。」の音声データに分割する。また、それぞれの音声データに対して、講義動画の時間軸上の開始時刻である「1:39(1分39秒目)」を示すタイムスタンプ情報と、「1:52(1分52秒目)」を示すタイムスタンプ情報を生成する。
なお、一般的に講義の中で講師が話をする際、ある話題について一通り話した後、少し時間をおいて次の話題を話すといったように、講義の内容や話題ごとに間をおきながら話をすることが多いと考えられる。従って、所定の時間無音であるタイミングで音声データを分割することで、単に音声データが分割されるのみならず、講義の内容や話題ごとに音声データを分割することが可能になる。
ステップS102で、音声認識部1042は、ステップS101で分割された音声データごとに音声認識処理を行い、音声認識した結果を格納したテキスト情報を生成する。
ステップS103で、補正部1043は、ステップS102で生成されたテキスト情報を、辞書ファイルを用いて補正する。図6に辞書ファイルの一例を示す。図6(a)は、正誤変換辞書の一例である。図6(b)は、NG用語辞書の一例である。
補正部1043は、正誤変換辞書の「誤り」フィールドに格納された文字列がテキスト情報に含まれている場合、当該文字列を、「正解」フィールドに格納された文字列に置き換えることで補正を行う。例えば、テキスト情報に、「山大国は、女王君子が・・・」という文字列が含まれていた場合、補正部1043は、正誤変換辞書に従い、「邪馬台国は、女王卑弥呼が・・・」という文字列に補正する。また、補正部1043は、NG用語辞書に格納された文字列がテキスト情報に含まれている場合、当該文字列を、符号に置き換える補正を行う。例えば、テキスト情報に、「邪馬台国では、アホが・・」という文字列が含まれていた場合、補正部1043は、例えば、「邪馬台国では、**が・・」という文字列に補正する。
ステップS104で、補正部1043は、ステップS103で補正されたテキスト情報を補正作業用の画面に表示することで、更にユーザからの補正を受け付ける。図7に、補正作業用の画面の一例を示す。補正作業用の画面は、補正を行うユーザがテキストの補正を行い易いように表示上の工夫がなされている。
ここで、全ての科目で使用される共通辞書及び特定の科目でのみ表示される科目別辞書について説明する。図6(c)は、全ての科目で使用される共通辞書の一例である。共通辞書には、あらゆる科目で用いられる可能性のある単語が格納される。図6(d)は、講義動画の科目ごとに使用される科目別辞書である。科目別辞書は、特定の科目でのみ用いられる単語が格納される。図6(d)は、例えば世界史の科目についての科目別辞書の例を示している。補正作業用の画面では、共通辞書及び科目別辞書に登録されている文字列については補正の必要が無い文字列であることを示す表示がなされる。図7の例では、共通辞書に格納されている文字列(図7では「フランス」)には点線のアンダーラインが付与され、科目別辞書に格納されている文字列(図7では「1848年革命」)には実線のアンダーラインが付与されている。また、補正作業用の画面では、正誤変換辞書により補正された名刺ではなく、かつ共通辞書にも科目別辞書にも存在しない名詞については強調表示(図7では「所在地」、「九州」、「近畿」)がなされる。これにより、ユーザは、強調表示されている箇所を重点的にチェックすることができることから、ユーザが行う補正作業の負担軽減を図ることが可能になる。
図8は、講義データDBの一例を示す図である。「講義動画」には、講義動画を一意に識別する識別子が格納される。当該識別子は、例えば講義動画のファイル名でもよい。また、当該識別子には、講義動画の科目及び講義名等が含まれていてもよい。「タイムスタンプ情報」にはタイムスタンプ情報が格納され、「テキスト」にはテキスト情報が格納される。図8に示す講義データDBの構成はあくまで一例であり、これに限定されるものではない。
<講義の検索について>
続いて、ユーザが講義動画を検索する際の処理手順について具体的に説明する。図8及び図9は、端末20に表示される画面の一例を示す図である。図8(a)は講義動画を検索するための画面の一例である。講義動画を検索する画面には、検索対象の文字列と、検索対象とする講義動画の科目を入力する入力ボックス1001が設けられている。入力ボックス1001の右側に表示される検索ボタンが押下されると、検索部102は、講義データDBにアクセスし、入力された科目に該当する講義動画のテキスト情報の中に、検索対象の文字列が含まれる講義動画が存在するか否かを検索する。テキスト情報に検索対象の文字列が含まれる講義動画が存在する場合、出力部103は、検索された講義動画を一覧表示する画面を出力する。なお、出力部103は、検索された講義動画が複数である場合に、講義動画を一覧表示する画面を出力し、検索された講義動画が1つである場合は、後述する「講義動画を再生する画面(図9(a))に直接遷移するようにしてもよい。
図8(b)は、検索された講義動画を一覧表示する画面の一例である。検索結果は、表示エリア1003に一覧表示される。例えば、ユーザが、科目として「世界史」を選択し、検索対象の文字列に「日本」を入力して検索を行った場合、世界史に関する講義動画の中から、講師が「日本」と発話した1以上の講義動画が検索結果として表示エリア1003に一覧表示される。
続いて、ユーザが、表示エリア1003に一覧表示された講義動画の中から視聴を所望する講義動画を選択すると、講義動画を再生する画面に遷移する。表示エリア1003は、検索された講義動画を一覧表示することに加えて、ユーザが視聴を所望する講義動画の選択を受け付ける機能も備えていることから、表示エリア1003を含む画面を、ユーザが視聴を所望する講義動画の選択を受け付ける画面と称してもよい。
講義動画を再生する画面の一例を図9(a)に示す。図9(a)には、講義動画を再生する表示エリア2001(第1領域)と、検索対象の文字列を含むテキスト情報とタイムスタンプ情報とを横方向に時系列順に並べて表示する表示エリア2002(第2領域)と、表示エリア2001で再生される講義動画の科目に関して過去に検索された文字列を表示する表示エリア2004(第3領域)とを含む。表示エリア2002の上部には、タイムスタンプ情報及びテキスト情報を一覧表示するボタン2003が表示される。ユーザがボタン2003を押下すると、図9(b)に示すように、表示エリア2002に代えて、検索対象の文字列を含むテキスト情報とタイムスタンプ情報とを縦方向に時系列順に並べて表示する表示エリア2005(第2領域)が表示される。
ユーザが表示エリア1003(図8(b))で講義動画を選択すると、表示エリア2001にて講義動画の再生が開始される。続いて、ユーザが、表示エリア2002又は表示エリア2005に表示されているタイムスタンプ情報及びテキスト情報の中から、視聴を所望するタイムスタンプ情報を選択すると、表示エリア2001に表示される講義動画が、選択されたタイムスタンプ情報の時間又はタイムスタンプ情報の時間より所定の時間前(例えば10秒前等)の時間から再生される。例えば、ユーザが表示エリア2002にて1:11と表示されている箇所をタップすると、表示エリア2001において、1:11の時点又は所定の時間前(例えば1:01等)から講義動画が再生される。
なお、ユーザが表示エリア1003(図8(b))で講義動画を選択した時点では表示エリア2001にて講義動画の再生は開始されず、ユーザが表示エリア2001の中に表示される再生開始ボタンを押下するか、又は、ユーザが表示エリア2002又は表示エリア2005に表示されているタイムスタンプ情報及びテキスト情報の中から、視聴を所望するタイムスタンプ情報を選択することで初めて講義動画の再生が開始されるようにしてもよい。
また、ユーザが表示エリア2002を右から左(又は左から右)にスワイプすることで、次の(又は以前の)タイムスタンプ情報及びテキスト情報が表示されるようにしてもよい。例えば、図9(a)の例では、ユーザが表示エリア2002を右から左にスワイプすることで、タイムスタンプが1:25であるテキスト情報が表示され、更に右から左にスワイプすることで、タイムスタンプが1:55であるテキスト情報が表示されるようにしてもよい。
同様に、ユーザが表示エリア2005を上から下(又は下から上)にスワイプすることで、次の(又は以前の)タイムスタンプ情報及びテキスト情報が表示されるようにしてもよい。
また、検索部102で検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、出力部103は、表示エリア2002において、検索されたテキスト情報に含まれるテキストのうち、少なくとも検索対象の文字列を含む一部のテキストのみを出力するようにしてもよい。また、“少なくとも検索対象の文字列を含む一部のテキスト”とは、検索対象の文字列に加えて、更に、“検索対象の文字列より前の文字”及び/又は“検索対象の文字列より後の文字”を含むテキストであってもよい。例えば図9(a)及び(b)の例では、タイムスタンプが0:51であるテキスト情報には、「・・・登場と言いますが登場だけは日本が両方出てくるんだ。630年・・・」と表示されているように、検索対象の文字列である「日本」を中心として前後所定の文字数のみを表示し、それ以外の文字については表示しないようにしている。これにより、テキスト情報に含まれるテキストの文字数が多すぎて表示エリア2002又は表示エリア2005に全ての文字を表示することが困難な場合や、端末20がスマートフォン等でありディスプレイサイズが小さいためにテキスト情報を全て表示することが困難である場合等であっても、視認性を大きく犠牲にすることなくテキスト情報を表示することが可能になる。
また、表示エリア2004に表示される、講義動画の科目に関して過去に検索された文字列は、本動画配信システムを利用する複数のユーザが過去に検索対象の文字列として入力した文字列のうち入力された回数が多い順に表示されるようにしてもよい。また、ユーザが表示エリア2004に表示される文字列を選択した場合、選択した文字列が入力ボックス1001に自動的に入力されるようにしてもよい。
また、上述の説明では、表示エリア1003には検索された講義動画の一覧が表示され、表示エリア2002及び表示エリア2005にタイムスタンプ情報及びテキスト情報が表示されることで説明したが、表示エリア1003にて、検索された講義動画とタイムスタンプ情報とテキスト情報とをまとめて一覧表示するようにしてもよい。具体的には、「第50講 朝鮮現代史・中国現代史 チャプター2 0:51 登場と言いますが登場だけは日本が両方出てくるんだ。630年」といったようにまとめて表示するようにしてもよい。検索された講義動画の数が少なく、かつ、検索されたタイムスタンプ情報及びテキスト情報の数も少ない場合、表示エリア1003にまとめて表示することで視認性及び操作性を向上させることが可能になる。
以上、本実施形態について説明した。本実施形態では、講義データDBに、講義動画の音声をテキスト化したテキスト情報を格納しておき、検索対象の文字列とテキスト情報とを比較することで講義動画の検索を行うようにした。これにより、本実施形態は、講義動画の音声を音声認識させながら直接検索する方法と比較して検索速度を向上させることができるという技術的効果を有する。
以上説明した実施形態は、本発明の理解を容易にするためのものであり、本発明を限定して解釈するためのものではない。実施形態が備える各要素並びにその配置、材料、条件、形状及びサイズ等は、例示したものに限定されるわけではなく適宜変更することができる。また、異なる実施形態で示した構成同士を部分的に置換し又は組み合わせることが可能である。
10…配信サーバ、11…CPU、12…記憶装置、13…通信IF、14…入力デバイス、15…出力デバイス、20…端末、101…受付部、102…検索部、103…出力部、104…生成部、105…記憶部

Claims (9)

  1. 動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部と、
    検索対象の文字列を受け付ける受付部と、
    前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索する検索部と、
    検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力する出力部と、
    を有する情報処理装置。
  2. 前記出力部は、前記第2領域に、検索されたテキスト情報とタイムスタンプ情報とを、横方向又は縦方向に時系列順に並べて表示する画面を出力する、
    請求項1に記載の情報処理装置。
  3. 前記出力部は、更に、前記第1領域で再生される動画の科目に関して過去に検索された文字列を表示する第3領域を含む画面を出力する、
    請求項1又は2に記載の情報処理装置。
  4. 前記出力部は、前記検索部で複数の動画が検索された場合、該複数の動画の中からユーザが視聴を所望する動画の選択を受け付ける画面を出力する、
    請求項1乃至3のいずれか一項に記載の情報処理装置。
  5. 前記出力部は、前記第2領域に表示されたタイムスタンプ情報のうち選択されたタイムスタンプ情報の時間又は該タイムスタンプ情報の時間より所定の時間前の時間から動画の再生を開始する、
    請求項1乃至4のいずれか一項に記載の情報処理装置。
  6. 前記出力部は、検索されたテキスト情報に含まれるテキストの文字数が所定の文字数以上である場合、前記第2領域において、検索されたテキスト情報に含まれるテキストのうち、少なくとも前記検索対象の文字列を含む一部のテキストを出力する、
    請求項1乃至5のいずれか一項に記載の情報処理装置。
  7. 動画に含まれる音声が所定の時間無音であるタイミングで音声データを分割することで複数の音声データ及びタイムスタンプ情報を生成し、生成した前記複数の音声データの各々を音声認識処理を用いてテキスト情報に変換し、変換したテキスト情報について辞書に基づいて又はユーザの指示により補正を行うことで、前記データベースに格納するためのテキスト情報及びタイムスタンプ情報を生成する生成部、
    を有する請求項1乃至4のいずれか一項に記載の情報処理装置。
  8. 動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有する情報処理装置が行う画面出力方法であって、
    検索対象の文字列を受け付けるステップと、
    前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、
    検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、
    を有する画面出力方法。
  9. 動画に含まれる音声データを動画の時間軸上で複数に分割することで生成される複数の音声データの各々について、動画の時間軸上での開始時間を示すタイムスタンプ情報と、該音声データを文字列に変換したテキスト情報と、該動画とを対応づけて格納するデータベースを記憶する記憶部を有するコンピューターに実行させるプログラムであって、
    検索対象の文字列を受け付けるステップと、
    前記検索対象の文字列を含むテキスト情報と、該テキスト情報に対応するタイムスタンプ情報と、該テキスト情報に対応する動画とを前記データベースから検索するステップと、
    検索された動画を再生する第1領域と、検索されたテキスト情報とタイムスタンプ情報とを時系列順に表示する第2領域とを含む画面を出力するステップと、
    を有するプログラム。
JP2017194904A 2017-10-05 2017-10-05 情報処理装置、画面出力方法及びプログラム Active JP6382423B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017194904A JP6382423B1 (ja) 2017-10-05 2017-10-05 情報処理装置、画面出力方法及びプログラム
PCT/JP2018/037087 WO2019069997A1 (ja) 2017-10-05 2018-10-03 情報処理装置、画面出力方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017194904A JP6382423B1 (ja) 2017-10-05 2017-10-05 情報処理装置、画面出力方法及びプログラム

Publications (2)

Publication Number Publication Date
JP6382423B1 JP6382423B1 (ja) 2018-08-29
JP2019066785A true JP2019066785A (ja) 2019-04-25

Family

ID=63354759

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017194904A Active JP6382423B1 (ja) 2017-10-05 2017-10-05 情報処理装置、画面出力方法及びプログラム

Country Status (2)

Country Link
JP (1) JP6382423B1 (ja)
WO (1) WO2019069997A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089364A (ja) * 2019-12-04 2021-06-10 株式会社デジタル・ナレッジ 教育システム

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157112A (ja) * 2000-11-20 2002-05-31 Teac Corp 音声情報変換装置
JP2002189728A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd マルチメディア情報編集装置、その方法および記録媒体並びにマルチメディア情報配信システム
JP2005303742A (ja) * 2004-04-13 2005-10-27 Daikin Ind Ltd 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム
JP2006195900A (ja) * 2005-01-17 2006-07-27 Matsushita Electric Ind Co Ltd マルチメディアコンテンツ生成装置及び方法
US20090254578A1 (en) * 2008-04-02 2009-10-08 Michael Andrew Hall Methods and apparatus for searching and accessing multimedia content
JP2011049707A (ja) * 2009-08-26 2011-03-10 Nec Corp 動画再生装置、動画再生方法及びプログラム
US20130308922A1 (en) * 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
JP2016021217A (ja) * 2014-06-20 2016-02-04 株式会社神戸製鋼所 文書検索装置、文書検索方法、及び、文書検索プログラム

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002157112A (ja) * 2000-11-20 2002-05-31 Teac Corp 音声情報変換装置
JP2002189728A (ja) * 2000-12-21 2002-07-05 Ricoh Co Ltd マルチメディア情報編集装置、その方法および記録媒体並びにマルチメディア情報配信システム
JP2005303742A (ja) * 2004-04-13 2005-10-27 Daikin Ind Ltd 情報処理装置および情報処理方法、プログラム、並びに、情報処理システム
JP2006195900A (ja) * 2005-01-17 2006-07-27 Matsushita Electric Ind Co Ltd マルチメディアコンテンツ生成装置及び方法
US20090254578A1 (en) * 2008-04-02 2009-10-08 Michael Andrew Hall Methods and apparatus for searching and accessing multimedia content
JP2011049707A (ja) * 2009-08-26 2011-03-10 Nec Corp 動画再生装置、動画再生方法及びプログラム
US20130308922A1 (en) * 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
JP2016021217A (ja) * 2014-06-20 2016-02-04 株式会社神戸製鋼所 文書検索装置、文書検索方法、及び、文書検索プログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021089364A (ja) * 2019-12-04 2021-06-10 株式会社デジタル・ナレッジ 教育システム
JP7428321B2 (ja) 2019-12-04 2024-02-06 株式会社デジタル・ナレッジ 教育システム

Also Published As

Publication number Publication date
JP6382423B1 (ja) 2018-08-29
WO2019069997A1 (ja) 2019-04-11

Similar Documents

Publication Publication Date Title
US20240155092A1 (en) Interactive information processing method, device and medium
US8751238B2 (en) Systems and methods for determining the language to use for speech generated by a text to speech engine
US9282377B2 (en) Apparatuses, methods and systems to provide translations of information into sign language or other formats
US9298704B2 (en) Language translation of visual and audio input
US8352268B2 (en) Systems and methods for selective rate of speech and speech preferences for text to speech synthesis
US8972265B1 (en) Multiple voices in audio content
JP6684231B2 (ja) 同音異字の存在下でasrを行うためのシステムおよび方法
KR20090004990A (ko) 인터넷 검색 기반 텔레비전을 위한 방법, 매체 및 시스템
WO2014154097A1 (en) Automatic page content reading-aloud method and device thereof
WO2019146466A1 (ja) 情報処理装置、動画検索方法、生成方法及びプログラム
US20150111189A1 (en) System and method for browsing multimedia file
US20170004859A1 (en) User created textbook
WO2019069997A1 (ja) 情報処理装置、画面出力方法及びプログラム
JP2007199315A (ja) コンテンツ提供装置
US11086592B1 (en) Distribution of audio recording for social networks
JP2013092912A (ja) 情報処理装置、情報処理方法、並びにプログラム
US20140297285A1 (en) Automatic page content reading-aloud method and device thereof
US20240126500A1 (en) Device and method for creating a sharable clip of a podcast
CN113626722A (zh) 舆论引导方法、装置、设备及计算机可读存储介质
JP2022051500A (ja) 関連情報提供方法及びシステム
CN112562733A (zh) 媒体数据处理方法及装置、存储介质、计算机设备
US10657202B2 (en) Cognitive presentation system and method
JP2012022447A (ja) 音声合成装置、音声合成プログラムおよび音声合成方法
KR100879667B1 (ko) 멀티미디어 처리 장치의 어학 학습 방법
KR102487589B1 (ko) 음성인식서버, 번역서버와 집단지성을 이용한 동영상의 자막 제공 방법 및 그를 이용한 시스템

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180706

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180801

R150 Certificate of patent or registration of utility model

Ref document number: 6382423

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250