JP2024024479A - Information processing device, information processing method, and program - Google Patents
Information processing device, information processing method, and program Download PDFInfo
- Publication number
- JP2024024479A JP2024024479A JP2022127327A JP2022127327A JP2024024479A JP 2024024479 A JP2024024479 A JP 2024024479A JP 2022127327 A JP2022127327 A JP 2022127327A JP 2022127327 A JP2022127327 A JP 2022127327A JP 2024024479 A JP2024024479 A JP 2024024479A
- Authority
- JP
- Japan
- Prior art keywords
- information
- moving image
- time
- input
- position input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000010365 information processing Effects 0.000 title claims description 72
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000000034 method Methods 0.000 claims description 91
- 238000012545 processing Methods 0.000 abstract description 25
- 238000003860 storage Methods 0.000 description 17
- 230000000694 effects Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000004458 analytical method Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 230000006870 function Effects 0.000 description 5
- 238000009826 distribution Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000010191 image analysis Methods 0.000 description 3
- 238000003909 pattern recognition Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 239000003550 marker Substances 0.000 description 2
- 241000711573 Coronaviridae Species 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000010079 rubber tapping Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Landscapes
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
本開示は、情報処理装置、情報処理方法、及びプログラムに関し、特に配信された映像に関連するメタデータを記録する方法に関する。 The present disclosure relates to an information processing device, an information processing method, and a program, and particularly relates to a method of recording metadata related to distributed video.
近年、映像配信サービスが広く用いられている。例えば、教育現場において、新型コロナウイルスの影響に伴い、講義映像のリアルタイム配信及びオンデマンド配信の導入が進んでいる。 In recent years, video distribution services have been widely used. For example, in educational settings, due to the impact of the new coronavirus, real-time distribution and on-demand distribution of lecture videos are being introduced.
また、映像に付与するメタデータに関連する様々な技術が提案されている。このような技術は、映像制作の効率化及び講義映像の視聴者における学習効果の向上に寄与している。例えば特許文献1は、「発表スライドの切り替え検出」及び「講師の発話内容の音声解析」などに基づいて、映像データを分割することを開示している。また、特許文献1は、分割されたそれぞれの区間を示す情報を記録することを開示している。特許文献1に記載の技術を利用することで、視聴者は所望の話題に関連する区間を迅速に再生することが可能となる。
Additionally, various techniques related to metadata added to videos have been proposed. Such technology contributes to increasing the efficiency of video production and improving the learning effect for viewers of lecture videos. For example,
視聴者は、講義の復習などの目的で、映像を再度視聴することがある。このときに視聴者が重要な部分に注目しやすくなることは視聴者にとって便利である。例えば、講義映像を再度視聴する場合に、「重要箇所」や「分からない箇所」に注目しやすくなることにより、学習効果をより向上させることができる。 Viewers may rewatch videos for the purpose of reviewing lectures or the like. At this time, it is convenient for the viewer to be able to easily focus on important parts. For example, when rewatching a lecture video, it becomes easier to focus on "important parts" and "parts you don't understand," which can further improve the learning effect.
本開示は、視聴者が映像を視聴する際に、特定の部分に注目しやすくするためのメタデータ編集を容易にする技術を提供する。 The present disclosure provides a technology that facilitates metadata editing to make it easier for a viewer to focus on a specific part when viewing a video.
本開示の一実施形態に係る情報処理装置は以下の構成を備える。すなわち、
動画像上の位置を指定する位置入力を取得する取得手段と、
前記位置入力に基づいて前記動画像上の位置を示す位置情報及び前記動画像の再生位置を示す時刻情報を生成する生成手段であって、前記位置情報と前記時刻情報との少なくとも一方を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方にさらに基づいて生成する、生成手段と、
前記位置情報及び前記時刻情報を記録する記録手段と、
を備える。
An information processing device according to an embodiment of the present disclosure includes the following configuration. That is,
an acquisition means for acquiring a position input specifying a position on the moving image;
A generating means for generating position information indicating a position on the moving image and time information indicating a playback position of the moving image based on the position input, the generating means generating at least one of the position information and the time information by the at least one of the content of the moving image at the position on the moving image specified by the position input, and the sound related to the moving image corresponding to the playback position of the moving image that is the target of the position input. further generating means for generating based on;
recording means for recording the location information and the time information;
Equipped with.
視聴者が映像を視聴する際に、特定の部分に注目しやすくするためのメタデータ編集を容易にすることができる。 It is possible to easily edit metadata to make it easier for viewers to focus on specific parts when viewing a video.
以下、添付図面を参照して実施形態を詳しく説明する。なお、以下の実施形態は特許請求の範囲を限定するものではない。実施形態には複数の特徴が記載されているが、これらの複数の特徴の全てが必須のものとは限らず、また、複数の特徴は任意に組み合わせられてもよい。さらに、添付図面においては、同一若しくは同様の構成に同一の参照番号を付し、重複した説明は省略する。 Hereinafter, embodiments will be described in detail with reference to the accompanying drawings. Note that the following embodiments do not limit the scope of the claims. Although a plurality of features are described in the embodiment, not all of these features are essential, and the plurality of features may be arbitrarily combined. Furthermore, in the accompanying drawings, the same or similar components are designated by the same reference numerals, and redundant description will be omitted.
本開示の一実施形態に係る情報処理装置の全体構成を図1に示す。情報処理装置101は、PC(パーソナルコンピュータ)、スマートフォン、又はタブレット端末装置等のコンピュータ装置である。情報処理装置101は、CPU102、ROM103、RAM104、記憶部105、表示部106、及び操作部107を有する。これらの構成のそれぞれはバス108で互いに接続されている。
FIG. 1 shows the overall configuration of an information processing device according to an embodiment of the present disclosure. The
CPU102は、ROM103又はRAM104の内容に従って情報処理装置101内の各部の動作を制御することができる。また、CPU102は、RAM104にロードされたプログラムを実行することができる。ROM103は読み出し専用メモリである。ROM103は、ブートプログラム、ファームウェア、後述する処理を実現するための各種処理プログラム、及び各種データを格納することができる。RAM104はワークメモリである。RAM104は、CPU102が処理を行うために、一時的にプログラム及びデータを格納することができる。RAM104には、CPU102によって各種の処理プログラム及びデータがロードされる。記憶部105は、変更可能なデータを大量に記憶するための記録媒体である。記憶部105は、例えばハードディスクドライブ又はソリッドステートドライブなどであってもよい。
The
本実施形態において、記憶部105は後述するメタデータを記憶することができる。また、記憶部105は動画像のデータを記憶することができる。動画像は複数のフレームで構成される。また、動画像は複数のフレーム画像を含むことができる。本明細書においては、動画像のことを映像と呼ぶことがある。また、記憶部105は、動画像に関連する音のデータを記憶することができる。例えば、記憶部105は、動画像データと音データとを含むビデオファイルを格納していてもよい。
In this embodiment, the
表示部106は、液晶画面又はタッチパネル画面等の画面である。表示部106は、CPU102による処理結果を画像又は文字として表示することができる。また、表示部106は、動画像を表示することができる。表示部106が表示する動画像は、記憶部105に記憶されていてもよいし、ネットワークを介して外部の装置から送信されていてもよい。さらに、表示部106は、後述するようなメタデータに基づく情報を表示することができる。なお、表示部106がタッチパネル画面を有する場合には、表示部106は、ユーザがタッチパネル画面を操作することで入力された操作入力をCPU102へと通知することができる。
The
操作部107はユーザインターフェースである。操作部107は、例えばキーボード、マウス、ボタン、又はタッチパネル画面などであってもよい。ユーザは、操作部107を操作することにより、各種の指示をCPU102に対して入力することができる。本実施形態では、動画像の視聴者であるユーザは、動画像に対する位置入力を行うために、操作部107を操作することができる。
The
図2は、本開示の一実施形態に係る情報処理装置101の論理構成を示す。情報処理装置101は、取得部201、位置決定部202、時刻決定部203、及び記録部204を有する。このような情報処理装置101は、図1に示すような、プロセッサとメモリとを備えるコンピュータにより実現することができる。すなわち、CPU102のようなプロセッサが、ROM103、RAM104、又は記憶部105のようなメモリに格納されたプログラムを実行することにより、図2に示される各部の機能を実現することができる。もっとも、情報処理装置101が有する一部又は全部の機能が専用のハードウェアによって実現されてもよい。また、本開示の一実施形態に係る画像処理装置は、例えばネットワークを介して接続された複数の情報処理装置によって構成されていてもよい。
FIG. 2 shows a logical configuration of the
取得部201は、動画像上の位置を指定する位置入力を取得する。ユーザは、動画像の特定のフレーム画像が表示部106に表示されている際に、この特定のフレーム画像の特定の位置を指定することができる。ユーザによる位置入力は、1つの座標を指定する入力であってもよいし、特定の領域を指定する入力であってもよい。領域の入力方法については後述する。
The
位置決定部202は、取得部201が取得した位置入力に基づいて動画像上の位置を示す位置情報を生成する。この位置情報は、位置入力によって指定された動画像上の位置を示していてもよい。一方で、この位置情報は、位置入力によって指定された動画像上の位置に基づいて位置決定部202が決定した別の位置を示していてもよい。例えば、図5及び図7を参照して後述するように、位置決定部202は、位置入力によって指定された動画像上の位置における動画像の内容に基づいて位置情報を生成することができる。また、位置決定部202は、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音に基づいて位置情報を生成してもよい。より具体的には、位置決定部202は、位置入力が指定する動画像上の位置を、この位置における動画像の内容と、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音と、の少なくとも一方に基づいて補正できる。
The
時刻決定部203は、取得部201が取得した位置入力に基づいて動画像の再生位置を示す時刻情報を生成する。この時刻情報は、動画像中の特定の時刻を示すことができる。例えば、時刻情報は、動画像の開始から特定の時点までの経過時間を表していてもよい。また、時刻情報は、動画像中の特定のフレームの時刻を示していてもよい。例えば、時刻情報は、動画像におけるフレーム画像の表示タイミングを示す情報であってもよい。この表示タイミングを示す情報は、動画像の開始からフレーム画像が表示されるまでの時間を示す情報であってもよいし、フレーム画像の番号を示す情報であってもよい。
The
時刻決定部203が生成する時刻情報は、位置入力の対象となった動画像の再生位置を示していてもよい。例えば、時刻情報は、動画像の開始からユーザが位置入力を行った時点までの経過時間を表していてもよい。また、この時刻情報は、ユーザによる位置入力の対象となったフレームの時刻を示していてもよい。一方で、この時刻情報は、位置入力の対象となった動画像の再生位置に基づいて時刻決定部203が決定した別の時刻を示していてもよい。例えば、図9を参照して後述するように、位置決定部202は、位置入力によって指定された動画像上の位置における動画像の内容に基づいて、時刻情報を生成してもよい。また、図10を参照して後述するように、位置決定部202は、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音に基づいて、時刻情報を生成してもよい。より具体的には、時刻決定部203は、位置入力の対象となった動画像の再生位置を、位置入力が指定する動画像上の位置における動画像の内容と、この再生位置に対応する動画像に関連する音と、の少なくとも一方に基づいて補正できる。図9及び10はこのような例を示している。
The time information generated by the
このように、位置決定部202及び時刻決定部203は、取得部201が取得した位置入力に基づいて、動画像上の位置を示す位置情報及び動画像の再生位置を示す時刻情報を生成する。ここで、位置情報と時刻情報との少なくとも一方は、位置入力によって指定された動画像上の位置における動画像の内容と、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音と、の少なくとも一方にさらに基づいて生成することができる。例えば、位置決定部202は、位置入力によって指定された動画像上の位置における動画像の内容と、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音と、の少なくとも一方にさらに基づいて、位置情報を生成することができる。このとき、時刻決定部203は、位置入力の対象となった動画像の再生位置を示す時刻情報を生成してもよい。別の例において、時刻決定部203は、位置入力によって指定された動画像上の位置における動画像の内容と、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音と、の少なくとも一方にさらに基づいて、時刻情報を生成することができる。このとき、位置決定部202は、位置入力が指定する動画像上の位置を示す位置情報を生成してもよい。
In this way, the
記録部204は、位置決定部202が生成した位置情報及び時刻決定部203が生成した時刻情報を記録する。記録部204は、これらの情報を、動画像に対するメタデータとして記録することができる。また、記録部204は、これらの情報を、記憶部105のような任意の記憶媒体に記録することができる。
The
再生部205は、動画像を再生する。再生部205は、例えば、記憶部105のような記憶媒体に記録されている動画像を、表示部106のような画面に表示することができる。ユーザは、表示部106に表示された画面を見ながら、動画像に対する位置入力を行うことができる。また、再生部205は、記録部204が記録した位置情報及び時刻情報のようなメタデータに基づいて、動画像の表示を制御することができる。具体的な表示制御方法については後述する。
The
もっとも、情報処理装置101の構成は上記のものには限定されない。例えば、情報処理装置101がネットワークに接続されていてもよい。また、ネットワーク上のストリーミングサーバから、情報処理装置101に動画像が配信されてもよい。この場合、記録部204は必須ではない。また、情報処理装置101は、ネットワークを介して位置情報及び時刻情報のようなメタデータをストリーミングサーバ内に記録することができる。また、情報処理装置101は、このようなメタデータをストリーミングサーバから取得することができる。このような構成によっても、情報処理装置101は動作可能である。
However, the configuration of the
図3は、一実施形態に係る情報処理方法のフローチャートを示す。図3に示す処理は、情報処理装置101が行うことができる。また、図3に示す処理は、再生部205が動画像を再生している間に行うことができる。
FIG. 3 shows a flowchart of an information processing method according to an embodiment. The processing shown in FIG. 3 can be performed by the
S301では、取得部201が、ユーザからの動画像に対する位置入力を取得する。なお、上述のように、取得部201は、位置入力に関連する属性情報(例えばマークの種類を示す情報)をさらに取得してもよい。
In S301, the
S302では、位置決定部202が、S301で取得した位置入力に基づいて位置情報を生成する。この位置情報はメタデータとして記憶される。詳細な位置情報の生成方法は後述する。
In S302, the
S303では、時刻決定部203が、S301で取得した位置入力に基づいて時刻情報を生成する。この時刻情報はメタデータとして記憶される。詳細な時刻情報の生成方法は後述する。
In S303, the
S304では、記録部204が、S302で生成された位置情報とS303で生成された時刻情報を、それぞれメタデータの格納領域に記録する。記録部204は、再生中の動画像のメタデータとしてこれらの情報を記録することができる。
In S304, the
S305では、記録部204が、ユーザによる位置入力に備えて、メタデータの識別子を示すインデクスnを1つ加算する。
In S305, the
S306では、記録部204が、インデクスnが最大値となっているかどうかを判定する。この最大値は、格納可能なメタデータの最大数を示す。インデクスnが最大値であれば、図3に示すフローチャートに従う処理は終了する。そうでなければ、処理はS301へ戻る。
In S306, the
図4(D)は、記録部204が記録したメタデータの一例を示す。ユーザが位置入力を行うと、メタデータの識別子であるインデクスごとの格納領域に、位置情報(例えば座標)、時刻情報(例えば動画像中の時刻)、及び入力されたマークの種類が記憶される。
FIG. 4(D) shows an example of metadata recorded by the
(領域指定に基づく位置情報の生成方法)
以下では、ユーザによる位置入力が四角形の領域を指定する場合の、位置情報の生成方法について説明する。既に説明したとおり、この場合に位置決定部202は、ユーザが指定した四角形の領域を示す位置情報を生成してもよい。一方で、以下の例において、位置決定部202は、位置入力によって指定された動画像上の位置における動画像の内容に基づいて位置情報を生成する。例えば、位置決定部202は、位置入力によって指定された動画像上の位置にある動画像上の情報を包含する領域を示すように、位置情報を生成することができる。例えば、位置入力は、動画像中の情報の少なくとも一部を含む領域を指定していてもよい。この場合、位置決定部202は、情報全体(例えば連続した記述全体)を包含する領域を示す位置情報を生成することができる。以下の例において、位置決定部202は、このような領域を特定するための座標を算出する。ここで、動画像上の情報の種類は特に限定されない。動画像上の情報は、例えば連続した記述、イラスト、図、又は表などでありうる。以下の例において、位置決定部202は、このような領域を特定するための座標を算出する。
(Method of generating location information based on area specification)
In the following, a method for generating position information when the user's position input specifies a rectangular area will be described. As already explained, in this case, the
このような実施形態について、図4(A)~(D)を参照して説明する。この例においては、動画像上の連続した記述を包含する領域を示すように、位置情報が生成される。図4(A)に示すように、ユーザは、講義の配信映像401内の黒板402に書かれている記述内容「ABCDE」に注目する。そして、ユーザは、位置入力として記述内容「ABCDE」と重畳する四角形の枠403を入力し、さらにこの記述が重要であることを示すマーク404を入力する。このように、ユーザは、動画像中の注目部分を示す位置入力を行うことができる。また、この位置入力は、動画像中の連続した記述の一部を指しているかもしれない。
Such an embodiment will be described with reference to FIGS. 4(A) to 4(D). In this example, position information is generated to indicate an area that includes continuous descriptions on a moving image. As shown in FIG. 4(A), the user pays attention to the descriptive content "ABCDE" written on the
また、ユーザは、位置入力に関連付けて、注目部分の種類を示す属性情報(この例ではマーク404)を入力することができる。なお、属性情報の種類は特に限定されない。例えば、属性情報は複数の種類から選択可能であってもよい。例えば、属性情報として、ユーザにとって記述が分からないことを示す「分からない」マークを入力可能であってもよい。
Furthermore, the user can input attribute information (
このような例において、位置決定部202は、位置入力が指定する領域を拡大又は縮小することにより、動画像上の情報(例えば連続した記述)を包含する領域を判定することができる。以下に、S302で位置決定部202が位置情報を生成するための処理例を、図5に示すフローチャートに従って説明する。図5に示す処理において、位置決定部202は、位置入力が示す領域の隣接領域に記述情報がある場合に、隣接領域を含むように領域を拡大する。
In such an example, the
S501では、取得部201が、位置入力が示す領域(この例では四角形の枠403)の頂点座標を検出する。この例では、図4(B)に示す通り、左側の水平座標x1、右側の水平座標x2、上側の垂直座標y1、及び下側の垂直座標y2が検出される。
In S501, the
S502では、位置決定部202が、位置入力が示す領域の上側の画像領域を解析する。この解析により、位置決定部202は、この上側の画像領域に記述情報があるかどうかを判定することができる。図4(B)では、この上側の画像領域は、領域405として表されている、位置入力が示す領域の上側にある幅αを有する領域である。具体的には、領域405は、座標(x1,y1)、(x2,y1)、(x1,y1+α)、及び(x2,y1+α)で囲まれる領域である。ここで、αは任意の一定値である。
In S502, the
具体的な解析方法は特に限定されない。例えば、位置決定部202は、領域405内のRGB値を走査することができる。そして、走査中に背景(例えば黒板402)のRGB値と異なるRGB値が検出された場合、位置決定部202は、記述情報が存在すると判断することができる。また、位置決定部202は、パターン認識に基づく手法を用いることで解析を行ってもよい。パターン認識を用いることにより、さらに高い精度で記述情報を検出できる。例えば、領域405から文字が検出された場合、位置決定部202は、位置決定部202は領域405に記述情報が存在すると判断することができる。
The specific analysis method is not particularly limited. For example,
S503では、位置決定部202が、上側の画像領域に記述情報があるかどうかを判定する。記述情報がある場合、処理はS505へ進み、そうでない場合、処理はS504へ進む。S504では、位置決定部202が、上側の垂直座標y1をy1+αで置き換え、その後処理はS502に戻る。
In S503, the
S505では、位置決定部202が、位置入力が示す領域の下側の画像領域を解析する。解析方法はS502と同様である。S506では、位置決定部202が、下側の画像領域に記述情報があるかどうかを判定する。記述情報があれば処理はS508へ進み、そうでない場合、処理はS507へ進む。S507では、位置決定部202が、下側の垂直座標y2をy2-αで置き換え、その後処理はS505に戻る。
In S505, the
S508では、位置決定部202が、位置入力が示す領域の右側の画像領域を解析する。解析方法はS502と同様である。S509では、位置決定部202が、右側の画像領域に記述情報があるかどうかを判定する。記述情報があれば処理はS511へ進み、そうでない場合、処理はS510へ進む。S510では、位置決定部202が、右側の水平座標x2をx2+αで置き換え、その後処理はS508に戻る。
In S508, the
S511では、位置決定部202が、位置入力が示す領域の左側の画像領域を解析する。解析方法はS502と同様である。S512では、位置決定部202が、左側の画像領域に記述情報があるかどうかを判定する。記述情報があれば処理はS514へ進み、そうでない場合、処理はS513へ進む。S513では、位置決定部202が、左側の水平座標x1をx1-αで置き換え、その後処理はS511に戻る。
In S511, the
S514では、位置決定部202、S504で算出したx1、S507で算出したx2、S510で算出したy1、及びS513で算出したy2を示す位置情報を生成する。こうして、図5のフローチャートに従う処理は終了する。
In S514, the
ここまで、位置入力が四角形の領域を示す場合について説明した。例えば、ユーザが、マウスを操作することにより、注目した領域と重なるように四角形の領域を指定する場合に、このような方法を用いることができる。一方で、上述のように、位置入力が1つの座標、すなわち点を指定してもよい。1つの座標を指定する位置入力は、例えば、視線入力又はスマートフォン上でのタップ操作により、手軽に行うことができる。この場合、S501において、x1及びx2として指定された座標の水平方向の座標を用いることができ、y1及びy2として指定された座標の垂直方向の座標を用いることができる。S502以降の処理は同様に行うことができる。 Up to this point, the case where the position input indicates a rectangular area has been described. For example, such a method can be used when the user specifies a rectangular area so as to overlap the area of interest by operating the mouse. On the other hand, as described above, the position input may specify one coordinate, that is, a point. A position input specifying one coordinate can be easily performed by, for example, line-of-sight input or a tap operation on a smartphone. In this case, in S501, the horizontal coordinates of the coordinates designated as x1 and x2 can be used, and the vertical coordinates of the coordinates designated as y1 and y2 can be used. Processing after S502 can be performed in the same manner.
また、位置入力が示す領域の形状は特に限定されない。例えば、位置入力が、丸のようなループ形状を示していてもよい。この場合、S501において、形状の内部、又は形状の境界線上の座標から、水平方向の座標x1,x2及び垂直方向の座標y1,y2を任意に選択することができる。例えば、位置入力が示す形状の境界線上の各点が持つ座標値のうち、最も小さい水平方向の座標及び最も大きい水平方向の座標をx1及びx2に、最も小さい垂直方向の座標及び最も大きい垂直方向の座標をy2及びy1に、それぞれ設定することができる。S502以降の処理は同様に行うことができる。 Further, the shape of the area indicated by the position input is not particularly limited. For example, the position input may indicate a loop shape such as a circle. In this case, in S501, horizontal coordinates x1, x2 and vertical coordinates y1, y2 can be arbitrarily selected from coordinates inside the shape or on the boundary line of the shape. For example, among the coordinate values of each point on the boundary line of the shape indicated by the position input, the smallest horizontal coordinate and largest horizontal coordinate are x1 and x2, and the smallest vertical coordinate and largest vertical coordinate are The coordinates of can be set to y2 and y1, respectively. Processing after S502 can be performed in the same manner.
上記の方法によれば、動画像中の連続した記述の一部を指す位置入力がなされた場合に、連続した記述全体を包含する領域を示す位置情報を生成することができる。このような処理により得られた位置情報が示す位置は、位置入力が指定する位置を補正したものに相当する。このような方法によれば、ユーザによる注目部分の一部を指定するという簡単な操作で、注目部分の全体を示す位置情報を生成することができる。後述するように、このような位置情報に従う領域を動画像上に示すことにより、ユーザは注目部分を把握しやすくなる。 According to the above method, when a positional input indicating a part of continuous descriptions in a moving image is made, positional information indicating an area including the entire continuous descriptions can be generated. The position indicated by the position information obtained through such processing corresponds to the position specified by the position input, which has been corrected. According to such a method, position information indicating the entire portion of interest can be generated by the user's simple operation of specifying a part of the portion of interest. As will be described later, by showing an area according to such positional information on a moving image, it becomes easier for the user to grasp the part of interest.
ここまで、位置入力に従う領域を、位置入力が示す位置における動画像に基づいて拡大する場合について説明した。一方で、位置入力に従う領域、又は上記の方法に従って拡大された領域を、位置入力が示す位置における動画像に基づいて縮小してもよい。例えば、位置入力が示す領域が連続した記述の領域よりも広い場合、領域を縮小してもよい。具体的には、位置決定部202は、領域の境界線と記述の間の空白を省くように、領域を示す適切な座標を決定することができる。このような処理は、位置決定部202が、位置入力が示す領域の端部領域に記述情報があるかどうかを判定し、記述情報を含まない端部領域を除外するように領域を縮小することにより実現できる。具体的には、マイナスの値を有するαを用いて図5に従う処理を行うことにより、座標x1、x2、y1、及びy2をそれぞれ領域の内側方向に移動させることができる。
Up to this point, a case has been described in which the area according to the position input is enlarged based on the moving image at the position indicated by the position input. On the other hand, the area according to the position input or the area enlarged according to the above method may be reduced based on the moving image at the position indicated by the position input. For example, if the area indicated by the position input is wider than the area of continuous description, the area may be reduced. Specifically, the
(領域分割に基づく位置情報の生成方法)
位置入力は、動画像上の領域の分割位置を指定していてもよい。この場合、位置決定部202は、位置入力に従う分割により得られた分割領域のうちの1つを示すように、位置情報を生成することができる。このような例において、ユーザによる位置入力は線を指定していてもよい。線を指定する位置入力は、例えば、視線入力又はスマートフォン上でのスワイプ操作により、手軽に行うことができる。
(Method for generating location information based on area division)
The position input may specify a dividing position of an area on a moving image. In this case, the
以下では、動画像に映っている所定領域を2つの領域に分割する線が入力された場合の、位置情報の生成方法について説明する。所定領域の種類は特に限定されないが、例えば黒板又はホワイトボードの領域であってもよい。この場合、位置決定部202は、動画像から所定領域を検出し、位置入力に従って分割された所定領域の分割領域のうちの1つを示すように、位置情報を生成することができる。このように、位置入力によって指定された動画像上の位置にある所定領域に基づいて位置情報を生成することも、動画像の内容に基づいて位置情報を生成する方法の一例である。
In the following, a method for generating positional information when a line dividing a predetermined area shown in a moving image into two areas is input will be described. The type of the predetermined area is not particularly limited, but may be, for example, a blackboard or whiteboard area. In this case, the
図6(A)は、ユーザが、配信映像601の中の黒板602上の記述「ABCDEVWXYZ」に注目した場合を表す。この例において、ユーザは、記述「ABCDEVWYZ」がある領域の位置をメタデータとして記録するために、線603を引いている。位置決定部202は、図6(C)に示すように、記述「ABCDEVWXYZ」を包含する領域604を決定し、この領域604の位置を示す位置情報を生成する。
FIG. 6A shows a case where the user focuses on the description “ABCDEVWXYZ” on the
このような例において、S302で位置決定部202が位置情報を生成するための処理例を、図7に示すフローチャートに従って説明する。図7に示す処理において、位置決定部202は、位置入力に従って分割された動画像上の複数の領域のそれぞれに情報が含まれるかどうかに基づいて、複数の領域から1つの領域を選択し、選択された領域を示すように位置情報を生成する。以下の例において位置決定部202は、線によって分割された領域の中から、記述情報を含む領域を選択する。なお、領域の分割方法は2分割には限定されない。また、領域の分割手法も、線を引く方法には限られない。いずれにせよ、同様の手法を用いて、分割により得られたそれぞれの分割領域のうち、記述情報を含む領域を選択することができる。このように、分割位置を指定する位置入力によって指定されたそれぞれの分割領域における動画像の内容に基づいて位置情報を生成することも、動画像の内容に基づいて位置情報を生成する方法の一例である。
In such an example, a processing example for the
S701で、位置決定部202は、図6(B)に示すように、黒板602の4つの頂点座標(x1,x2,y1,y2)を画像解析により算出する。なお、画像解析の方法は特に限定されないが、例えば領域分割手法を用いることができる。例えば、位置決定部202は、フレーム画像内の特徴量に基づいて黒板領域を判定し、判定された黒板領域の頂点座標を算出することができる。さらに、位置決定部202は、位置入力が示す線と黒板の上辺との交点座標x3を画像解析により算出する。
In S701, the
S702で、位置決定部202は、黒板602の画像領域を解析することにより、黒板602上で記述情報が存在する部分を判定する。記述情報の検出は、S502と同様に行うことができる。
In S702, the
S703で、位置決定部202は、位置入力が示す線の右側と左側との双方に記述が有るかどうかを判定する。双方に記述が有ると場合、処理はS704へ進み、そうでない場合、処理はS707へ進む。
In S703, the
S704で、位置決定部202は、位置入力が示す線の右側に記述が有るかどうかを判定する。記述がある場合、処理はS709へ進み、そうでない場合、処理はS705へ進む。
In S704, the
S705で、位置決定部202は、位置入力が示す線の左側に記述が有るかどうかを判定する。記述が有る場合、処理はS710へ進み、そうでない場合、処理はS706へ進む。
In S705, the
S706で、位置決定部202は、メタデータとして記録される位置情報は存在しないと判定する。そして、図7に従う処理は終了する。
In S706, the
S707で、位置決定部202は、右側と左側のどちらの領域を示す位置情報をメタデータとして記録するのかを示すユーザ入力を取得する。位置決定部202は、ユーザ入力を促すプロンプトをユーザに対して出力してもよい。例えば、スマートフォン上で位置入力が行われている場合、ユーザは、右側と左側のどちらかをタップすることにより入力を行うことができる。また、視線入力を用いて位置入力が行われている場合、右側と左側のどちらかに一定時間以上視線を向けることにより入力を行うことができる。
In step S707, the
S708で、位置決定部202は、ユーザが右側を選択したかどうかを判定する。右側が選択されている場合、処理はS709へ進み、そうでない場合、処理はS710へ進む。
In S708, the
S709で、位置決定部202は、位置入力が示す線の右側の領域を示す位置情報をメタデータとして記録することを決定する。そして、位置決定部202は、S701で算出された座標に従い、このような位置情報を生成する。この位置情報は、例えば頂点座標(x1,x3,y1,y2)を示す情報である。そして、図7に従う処理は終了する。
In S709, the
S710で、位置決定部202は、位置入力が示す線の左側の領域を示す位置情報をメタデータとして記録することを決定する。そして、位置決定部202は、S701で算出された座標に従い、このような位置情報を生成する。この位置情報は、例えば頂点座標(x2,x3,y1,y2)を示す情報である。そして、図7に従う処理は終了する。
In S710, the
上記の例では、ユーザが縦方向に線を引く場合について説明した。一方で、領域の分割方法は特に限定されない。例えば、線の方向は特に限定されない。ユーザが横方向に線を引いた場合にも、位置決定部202は同様に位置情報を生成することができる。その場合、位置決定部202は、位置入力が示す線に従って上下に領域を分割し、上下それぞれの領域に記述が有るかどうかを判定することができる。
In the above example, the case where the user draws a line in the vertical direction has been described. On the other hand, the method of dividing the regions is not particularly limited. For example, the direction of the line is not particularly limited. Even when the user draws a line in the horizontal direction, the
このような例によれば、注目部分に合わせて領域を線などで分割するという簡単な入力操作に基づいて、注目部分を示す位置情報を生成することができる。後述するように、このような位置情報に従う領域を動画像上に示すことにより、ユーザは注目部分を把握しやすくなる。 According to such an example, position information indicating the portion of interest can be generated based on a simple input operation of dividing an area with lines or the like according to the portion of interest. As will be described later, by showing an area according to such positional information on a moving image, it becomes easier for the user to grasp the part of interest.
(動画像に基づく時刻情報の生成方法)
以下では、時刻決定部203による時刻情報の生成方法について説明する。上述のように、時刻決定部203は、位置入力の対象となった動画像の再生位置を示す時刻情報を生成してもよい。一方で、時刻決定部203は、位置入力によって指定された動画像上の位置における動画像の内容に基づいて、時刻情報を生成してもよい。
(Method for generating time information based on moving images)
Below, a method for generating time information by the
この実施形態で、時刻決定部203は、位置入力が示す位置にある動画像上の情報の出現が開始した時刻を判定し、判定した時刻を示すように時刻情報を生成する。例えば、時刻決定部203は、位置入力が示す位置にある記述情報が出現したタイミングを特定する。そして、時刻決定部203は、このタイミングを示す時刻情報を生成する。以下の例で、時刻決定部203は、講義の配信映像において、講師が黒板に注目部分の板書を書き始めたタイミングを特定する。このような構成によれば、ユーザが復習のために動画像を再度視聴するときに、注目部分の板書の説明が開始するタイミングから動画像を再生することが容易になる。
In this embodiment, the
図8(A)は、ユーザが動画像に対して位置入力を行う様子を示す。ユーザは、四角形の領域803を示す位置入力を行っている。この領域803は、配信映像801内の黒板802にある記述内容「ABCDE」を包含している。ここで、ユーザが位置入力を行った際に表示されている(すなわち、位置入力の対象となった)フレームの時刻をt1とする。このとき時刻決定部203は、図8(B)に示すように、講師804が領域803で囲まれている記述内容を書き始めたときのフレームを特定する。そして、時刻決定部203は、特定したフレームの時刻t0を示す時刻情報を生成する。こうして生成された時刻情報は、メタデータとして記憶される。
FIG. 8(A) shows how a user inputs a position on a moving image. The user is inputting a position indicating a
このような例において、S303で時刻決定部203が時刻情報を生成するための処理例を、図9に示すフローチャートに従って説明する。S901で、時刻決定部203は、時刻t0を探索するための一時変数tを用意する。また、時刻決定部203は、変数tに、位置入力の対象となったフレームの時刻t1を設定する。
In such an example, a processing example for the
S902で、時刻決定部203は、変数tが示す時刻のフレームの1つ前のフレームの時刻を、変数tに代入する。
In S902, the
S903で、時刻決定部203は、変数tが示す時刻のフレームにおいて、フレーム画像から記述情報を抽出する。ここで、時刻決定部203は、フレーム画像のうち、S302で生成された位置情報に示される位置(例えば四角形の領域)から、記述情報を抽出することができる。このように、時刻決定部203は、位置入力が示す位置にある動画像上の情報として、位置情報が示す領域内の情報と連続している情報全体を取得することができる。別の実施形態において、時刻決定部203は、フレーム画像のうち、S301で取得された位置情報に示される位置(例えば四角形の領域)から、記述情報を抽出してもよい。記述情報の抽出は、S502と同様の方法で行うことができる。
In S903, the
S904で、時刻決定部203は、記述情報を抽出できたかどうかを判定する。抽出された記述情報がない場合、処理はS905へ進み、そうでなければ、処理はS902へ戻る。S905で、時刻決定部203は、変数tを示す時刻情報を生成する。この時刻情報は、メタデータとして記録される。このような処理により得られた時刻情報が示す再生位置は、位置入力の対象となった動画像の再生位置を補正したものに相当する。
In S904, the
このような実施形態によれば、注目部分の記述情報が出現した時刻を記録することができる。このため、ユーザが動画像を再び視聴する時に、動画像のうち注目部分に関係する区間を再生することが容易になる。 According to such an embodiment, it is possible to record the time when the descriptive information of the portion of interest appears. Therefore, when the user views the moving image again, it becomes easy to reproduce the section of the moving image that is related to the portion of interest.
(音に基づく時刻情報の生成方法)
時刻決定部203は、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音に基づいて、時刻情報を生成してもよい。特に、時刻決定部203は、位置入力によって指定された動画像上の位置における動画像の内容と、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音と、の双方に基づいて時刻情報を生成することができる。特に、時刻決定部203は、位置入力によって指定された動画像上の位置における動画像上の記述情報と、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音が示す内容と、に基づいて時刻情報を生成することができる。
(Method for generating time information based on sound)
The
例えば、図8(A)の例において、講師は時刻t0よりも前の時刻t00において、四角形の領域803にある記述内容「ABCDE」に関する説明を開始しているかもしれない。この実施形態において、時刻決定部203は、「ABCDE」のような記述情報を示す発話が開始する時刻を示す時刻情報を生成する。具体的には、時刻決定部203は、動画像に関連付けられた音が示す発話言語に基づいて時刻t00を特定することができる。そして、時刻決定部203は、こうして特定した時刻t00を示す時刻情報を生成する。このような構成によれば、注目部分の板書を書き始める前に注目部分に関する説明を開始した場合であっても、注目部分の板書の説明が開始するタイミングから動画像を再生することが容易になる。
For example, in the example of FIG. 8A, the lecturer may have started explaining the written content "ABCDE" in the
このような例において、S303で時刻決定部203が時刻情報を生成するための処理例を、図10に示すフローチャートに従って説明する。S1101で、時刻決定部203は、時刻t1のフレームにおいて、フレーム画像から記述情報を抽出する。記述情報の抽出は、S903と同様に行うことができ、具体的には例えばパターン認識を用いることができる。S1102で、時刻決定部203は、図9に示す方法に従って、記述内容を書き始めたときの時刻t0を特定する。さらに、時刻決定部203は、時刻t00を探索するための一時変数tを用意する。また、時刻決定部203は、変数tに、特定された時刻t0を設定する。
In such an example, a processing example for the
S1103で、時刻決定部203は、変数tが示す時刻から始まり、一定時間後までの音データを抽出する。また、時刻決定部203は、抽出された音データに示される発話言語を音声解析により抽出する。音声解析の方法は特に限定されない。
In S1103, the
S1104で、時刻決定部203は、S1101で抽出した記述情報と、S1103で抽出した発話言語とが一致するかどうかを判定する。なお、記述情報と発話言語とが一致するかどうかを判定する際に、時刻決定部203は、記述情報が発話言語に含まれるかどうかを判定してもよい。一致した場合、処理はS1105へ進み、そうでなければ、処理はS1106へ進む。
In S1104, the
S1105で、時刻決定部203は、変数tによって示される時刻を示す時刻情報を生成する。そして、図10に従う処理は終了する。
In S1105, the
S1106で、時刻決定部203は、動画像の終端の音データを抽出したどうかを判定する。なお、図10に示す処理においては、時刻t1から一定の範囲内の音データが処理対象として抽出されてもよい。この場合、時刻決定部203は、この範囲内における終端の音データを抽出したどうかを判定してもよい。動画像の終端の音データを抽出したと判定された場合、処理はS1107へ進む。そうではない場合、処理はS1103へ戻る。その後、S1103において、時刻決定部203は、変数tを、S1103で抽出された音の長さを加算することにより更新し、再び音データの抽出を行う。
In S1106, the
S1107で、時刻決定部203は、変数tを初期化するためにt0を代入する。S1108で、時刻決定部203は、変数tが示す時刻の一定時間前から始まり、時刻tまでの音データを抽出する。また、時刻決定部203は、抽出された音データに示される発話言語を、S1103と同様に抽出する。さらに、時刻決定部203は、変数tを、抽出された音の長さを減算することにより更新する。
In S1107, the
S1109で、時刻決定部203は、S1101で抽出した記述情報と、S1108で抽出した言語が一致するかどうかを判定する。一致した場合、処理はS1105へ進み、そうでなければ、処理はS1110へ進む。
In S1109, the
S1110で、時刻決定部203は、動画像の先頭の音データを抽出したどうかを判定する。動画像の先頭の音データを抽出したと判定された場合、処理はS1111へ進む。そうではない場合、処理はS1108へ戻る。
In S1110, the
S1111で、時刻決定部203は、メタデータとして記録される時刻情報は存在しないと判定する。そして、図10に従う処理は終了する。もっとも、このような場合に、時刻決定部203は、位置入力の対象となった動画像の再生位置を示す時刻情報を生成してもよい。
In S1111, the
上記の手法によれば、時刻決定部203は、音に基づいて、位置入力の対象となった動画像の再生位置(時刻t1)又は図9に従う補正後の再生位置(時刻t0)の近傍において、記述情報を示す発話が開始する時刻(t00)を特定することができる。そして、時刻決定部203は、この時刻(t00)を示す時刻情報を生成することができる。このような処理により得られた時刻情報が示す再生位置は、位置入力の対象となった動画像の再生位置を補正したものに相当する。なお、S1107~S1110の処理を行った後に、S1103~S1106の処理を行ってもよい。
According to the above method, the
上記の例においては、音データに示される発話言語と、動画像から抽出された記述情報とに基づいて、時刻情報が生成された。しかしながら、音データを用いた時刻情報の生成方法は、この方法に限定されない。時刻決定部203は、さまざまな方法で、動画像に関連する音に基づいて時刻情報を生成することができる。例えば、時刻決定部203は、音データに基づいて、継続した発話が途切れたタイミングを判定することができる。そして、時刻決定部203は、継続した発話が途切れたタイミングのうち、位置入力が行われた際の動画像中の時刻より前で、位置入力が行われた際の動画像中の時刻に最も近いタイミングを示す時刻情報を生成してもよい。別の例として、時刻決定部203は、継続した発話が途切れたタイミングのうち、図9に従う処理で判定された時刻t0より前で、時刻t0に最も近いタイミングを示す時刻情報を生成してもよい。
In the above example, time information was generated based on the spoken language shown in the sound data and the descriptive information extracted from the video image. However, the method of generating time information using sound data is not limited to this method. The
また、時刻決定部203は、さまざまな方法で、動画像に関連する音が示す内容に基づいて時刻情報を生成することができる。例えば、時刻決定部203は、動画像に関連する音が含む効果音の再生時刻に基づいて時刻情報を生成することができる。例えば、動画像に関連する音は、特定の効果音(例えばセクションの最初に再生される効果音、又は注目点を示す効果音など)を含んでいてもよい。この場合、時刻決定部203は、位置入力の対象となった動画像の再生位置に対応する時刻において、効果音を再生中かどうかを判定することができる。そして、この時刻において効果音を再生中の場合、時刻決定部203は、この効果音の再生開始時刻又は再生終了時刻を示す時刻情報を生成することができる。また、時刻決定部203は、位置入力の対象となった動画像の再生位置の近傍において再生される効果音を検出してもよい。この場合、時刻決定部203は、検出した効果音の再生開始時刻又は再生終了時刻を示す時刻情報を生成することができる。このような構成により生成された時刻情報を用いることにより、音の内容及びユーザの好みに合った適切な位置から動画像及びこれに関連する音を再生することが可能となる。以上のように、時刻情報を生成するために記述情報を参照することは必須ではない。
Further, the
このような実施形態によれば、注目部分の記述情報に関する説明を開始した時刻を記録することができる。このため、ユーザが動画像を再び視聴する時に、動画像のうち注目部分に関係する区間を再生することが容易になる。 According to such an embodiment, it is possible to record the time when the explanation regarding the descriptive information of the portion of interest is started. Therefore, when the user views the moving image again, it becomes easy to reproduce the section related to the portion of interest in the moving image.
(メタデータの利用方法)
図4(C)は、記録部204が記録したメタデータである位置情報及び時刻情報の利用方法の一例を示す。図4(C)に示すように、再生部205は、動画像を表示部106に表示させることができる。このとき、再生部205は、時刻情報が示すフレームにおいて、位置情報に従う部分を示す情報を動画像上に表示することができる。例えば、図4(C)の例では、位置情報に従う領域406が動画像上で特定されている。さらに、再生部205は、位置情報に従う部分を示す情報に関連付けて、この部分の属性情報を示すことができる。図4(C)の例では、領域406に関連付けて、この部分が重要であることを示すマークが表示されている。
(How to use metadata)
FIG. 4C shows an example of a method of using location information and time information, which are metadata recorded by the
また、再生部205は、動画像の再生位置を決めるために用いられるシークバー上に、時刻情報が示す再生位置を示すマーカを表示してもよい。このマーカをユーザが指定した際に、再生部205は、時刻情報が示す再生位置から動画像の再生を開始してもよい。さらなる例として、再生部205は、位置情報が示す動画像上の位置を示す情報を、位置入力の対象となった動画像の再生位置におけるフレーム画像に重畳することにより得られたサムネイル画像を表示してもよい。このサムネイル画像をユーザが指定した際に、再生部205は、時刻情報が示す再生位置から動画像の再生を開始してもよい。
Furthermore, the
(その他の実施例)
ここまで、位置入力によって指定された動画像上の位置における動画像の内容に基づいて位置情報を生成する方法を説明した(図5及び図7)。また、位置入力によって指定された動画像上の位置における動画像の内容に基づいて時刻情報を生成する方法も説明した(図9及び図10)。さらに、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音に基づいて時刻情報を生成する方法も説明した(図10)。一方で、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音に基づいて位置情報を生成してもよい。例えば、位置決定部202は、位置入力の対象となった動画像の再生位置に対応する動画像に関連する音が示す発話言語を検出することができる。そして、位置決定部202は、検出された発話言語に対応する記述情報を、例えばパターンマッチング等を用いて位置入力によって指定された動画像上の位置の近傍で検索することができる。このような記述情報が検索された場合、位置決定部202は、検索された記述情報を包含する領域を示すように位置情報を生成することができる。これらの方法は、位置情報と時刻情報との少なくとも一方を生成するために、任意に組み合わせて用いることができる。
(Other examples)
Up to this point, a method for generating position information based on the content of a moving image at a position on the moving image specified by position input has been described (FIGS. 5 and 7). Furthermore, a method for generating time information based on the content of a moving image at a position on the moving image specified by position input has also been described (FIGS. 9 and 10). Furthermore, a method for generating time information based on the sound associated with a moving image corresponding to the playback position of the moving image that is the target of position input has also been described (FIG. 10). On the other hand, the position information may be generated based on the sound related to the moving image corresponding to the playback position of the moving image that is the target of the position input. For example, the
本開示の内容は、上述の実施形態の1以上の機能を実現するプログラムを、ネットワーク又は記憶媒体を介してシステム又は装置に供給し、そのシステム又は装置のコンピュータにおける1つ以上のプロセッサがプログラムを読出し実行する処理でも実現可能である。また、1以上の機能を実現する回路(例えば、ASIC)によっても実現可能である。 The content of the present disclosure provides a system or device with a program that implements one or more functions of the embodiments described above via a network or a storage medium, and one or more processors in a computer of the system or device executes the program. This can also be realized by reading and executing processing. It can also be realized by a circuit (for example, ASIC) that realizes one or more functions.
本明細書の開示は、以下の情報処理装置、情報処理方法、及びプログラムを含む。 The disclosure of this specification includes the following information processing device, information processing method, and program.
(項目1)
動画像上の位置を指定する位置入力を取得する取得手段と、
前記位置入力に基づいて前記動画像上の位置を示す位置情報及び前記動画像の再生位置を示す時刻情報を生成する生成手段であって、前記位置情報と前記時刻情報との少なくとも一方を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方にさらに基づいて生成する、生成手段と、
前記位置情報及び前記時刻情報を記録する記録手段と、
を備えることを特徴とする情報処理装置。
(Item 1)
an acquisition means for acquiring a position input specifying a position on the moving image;
A generating means for generating position information indicating a position on the moving image and time information indicating a playback position of the moving image based on the position input, the generating means generating at least one of the position information and the time information by the at least one of the content of the moving image at the position on the moving image specified by the position input, and the sound related to the moving image corresponding to the playback position of the moving image that is the target of the position input. further generating means for generating based on;
recording means for recording the location information and the time information;
An information processing device comprising:
(項目2)
前記生成手段は、前記位置入力が指定する前記動画像上の位置を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方に基づいて補正することにより、前記位置情報を生成し、及び/又は、
前記位置入力の対象となった前記動画像の再生位置を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方に基づいて補正することにより、前記時刻情報を生成する
ことを特徴とする、項目1に記載の情報処理装置。
(Item 2)
The generating means converts the position on the moving image specified by the position input into the contents of the moving image at the position on the moving image specified by the position input, and the moving image that is the target of the position input. generating the position information by correcting it based on at least one of: a sound associated with the moving image corresponding to a reproduction position of the image; and/or
The playback position of the video that is the target of the position input, the content of the video at the position on the video specified by the position input, and the reproduction of the video that is the target of the position input. The information processing device according to
(項目3)
前記生成手段は、前記位置入力によって指定された前記動画像上の位置にある前記動画像上の情報を包含する領域を示すように、前記位置情報を生成することを特徴とする、項目1又は2に記載の情報処理装置。
(Item 3)
(項目4)
前記情報は連続した記述であることを特徴とする、項目3に記載の情報処理装置。
(Item 4)
The information processing device according to
(項目5)
前記位置入力は前記動画像上の情報の少なくとも一部を含む領域を指定し、
前記生成手段は、前記位置入力が指定する領域を拡大又は縮小することにより、前記動画像上の情報を包含する領域を判定することを特徴とする、項目2から4のいずれか1項目に記載の情報処理装置。
(Item 5)
The position input specifies an area including at least part of information on the video image,
According to any one of
(項目6)
前記位置入力は、四角形、ループ形状、又は点を指定することを特徴とする、項目1から5のいずれか1項目に記載の情報処理装置。
(Item 6)
The information processing device according to any one of
(項目7)
前記位置入力は、前記動画像上の所定領域の分割位置を指定し、
前記生成手段は、前記動画像から前記所定領域を検出し、前記位置入力に従って分割された前記所定領域の分割領域のうちの1つを示すように、前記位置情報を生成することを特徴とする、項目1に記載の情報処理装置。
(Item 7)
The position input specifies a division position of a predetermined area on the video image,
The generating means detects the predetermined area from the moving image and generates the position information so as to indicate one of the divided areas of the predetermined area divided according to the position input. , the information processing device according to
(項目8)
前記所定領域は黒板又はホワイトボードの領域であることを特徴とする、項目7に記載の情報処理装置。
(Item 8)
8. The information processing device according to item 7, wherein the predetermined area is an area of a blackboard or a whiteboard.
(項目9)
前記生成手段は、前記位置入力に従って分割された前記動画像上の複数の領域のそれぞれに情報が含まれるかどうかに基づいて、前記複数の領域から1つの領域を選択し、選択された領域を示すように前記位置情報を生成することを特徴とする、項目7又は8に記載の情報処理装置。
(Item 9)
The generating means selects one region from the plurality of regions based on whether information is included in each of the plurality of regions on the moving image divided according to the position input, and generates the selected region. 9. The information processing device according to item 7 or 8, characterized in that the position information is generated as shown.
(項目10)
前記位置入力は線を指定することを特徴とする、項目7から9のいずれか1項目に記載の情報処理装置。
(Item 10)
9. The information processing device according to any one of items 7 to 9, wherein the position input specifies a line.
(項目11)
前記生成手段は、前記位置入力が示す位置にある前記動画像上の情報の出現が開始した時刻を判定し、判定した時刻を示すように前記時刻情報を生成することを特徴とする、項目1から10のいずれか1項目に記載の情報処理装置。
(Item 11)
(項目12)
前記生成手段は、前記位置情報が示す領域内の情報と連続している情報全体について出現が開始した時刻を判定し、判定した時刻を示すように前記時刻情報を生成することを特徴とする、項目1から10のいずれか1項目に記載の情報処理装置。
(Item 12)
The generation means is characterized in that it determines the time when the appearance of all information that is continuous with the information in the area indicated by the position information starts to appear, and generates the time information so as to indicate the determined time. The information processing device according to any one of
(項目13)
前記生成手段は、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の双方に基づいて前記時刻情報を生成することを特徴とする、項目1から10のいずれか1項目に記載の情報処理装置。
(Item 13)
The generating means generates the content of the moving image at the position on the moving image specified by the position input, and the sound related to the moving image corresponding to the playback position of the moving image that is the target of the position input. The information processing device according to any one of
(項目14)
前記生成手段は、前記位置入力によって指定された前記動画像上の位置における前記動画像上の記述情報と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音が示す内容と、に基づいて前記時刻情報を生成することを特徴とする、項目1から10のいずれか1項目に記載の情報処理装置。
(Item 14)
The generating means is configured to generate descriptive information on the moving image at a position on the moving image specified by the position input, and information related to the moving image corresponding to a playback position of the moving image that is the target of the position input. The information processing device according to any one of
(項目15)
前記生成手段は、前記記述情報を示す発話が開始する時刻を示す前記時刻情報を生成することを特徴とする、項目14に記載の情報処理装置。
(Item 15)
15. The information processing device according to item 14, wherein the generating means generates the time information indicating a time when an utterance indicating the descriptive information starts.
(項目16)
前記生成手段は、前記音に基づいて、前記位置入力の対象となった前記動画像の再生位置の近傍において、前記記述情報を示す発話が開始する時刻を特定し、前記時刻を示す前記時刻情報を生成することを特徴とする、項目14又は15に記載の情報処理装置。
(Item 16)
The generating means identifies, based on the sound, a time at which an utterance indicating the descriptive information starts in the vicinity of a playback position of the moving image that is the target of the position input, and generates the time information indicating the time. The information processing device according to item 14 or 15, characterized in that the information processing device generates.
(項目17)
情報処理装置が行う情報処理方法であって、
動画像上の位置を指定する位置入力を取得する工程と、
前記位置入力に基づいて前記動画像上の位置を示す位置情報及び前記動画像の再生位置を示す時刻情報を生成する工程であって、前記位置情報と前記時刻情報との少なくとも一方を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方にさらに基づいて生成する工程と、
前記位置情報及び前記時刻情報を記録する工程と、
を含むことを特徴とする情報処理方法。
(Item 17)
An information processing method performed by an information processing device, the method comprising:
obtaining a position input specifying a position on the video image;
The step of generating position information indicating a position on the moving image and time information indicating a playback position of the moving image based on the position input, the step of generating at least one of the position information and the time information based on the position input. Further, at least one of the content of the moving image at the position on the moving image specified by the input, and the sound related to the moving image corresponding to the playback position of the moving image that is the target of the position input. a step of generating based on the
recording the location information and the time information;
An information processing method characterized by comprising:
(項目18)
コンピュータを、項目1から16のいずれか1項目に記載の情報処理装置として機能させるためのプログラム。
(Item 18)
A program for causing a computer to function as the information processing device according to any one of
本開示の範囲は上記実施形態に制限されるものではなく、その精神及び範囲から離脱することなく、様々な変更及び変形が可能である。従って、権利範囲を公にするために請求項を添付する。 The scope of the present disclosure is not limited to the above embodiments, and various changes and modifications can be made without departing from the spirit and scope thereof. Accordingly, the claims are appended hereto in order to disclose the scope of the rights.
101:情報処理装置、201:取得部、202:位置決定部、203:時刻決定部、204:記憶部、205:再生部 101: Information processing device, 201: Acquisition unit, 202: Position determination unit, 203: Time determination unit, 204: Storage unit, 205: Reproduction unit
Claims (18)
前記位置入力に基づいて前記動画像上の位置を示す位置情報及び前記動画像の再生位置を示す時刻情報を生成する生成手段であって、前記位置情報と前記時刻情報との少なくとも一方を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方にさらに基づいて生成する、生成手段と、
前記位置情報及び前記時刻情報を記録する記録手段と、
を備えることを特徴とする情報処理装置。 an acquisition means for acquiring a position input specifying a position on the moving image;
A generating means for generating position information indicating a position on the moving image and time information indicating a playback position of the moving image based on the position input, the generating means generating at least one of the position information and the time information by the at least one of the content of the moving image at the position on the moving image specified by the position input, and the sound related to the moving image corresponding to the playback position of the moving image that is the target of the position input. further generating means for generating based on;
recording means for recording the location information and the time information;
An information processing device comprising:
前記位置入力の対象となった前記動画像の再生位置を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方に基づいて補正することにより、前記時刻情報を生成する
ことを特徴とする、請求項1に記載の情報処理装置。 The generating means converts the position on the moving image specified by the position input into the contents of the moving image at the position on the moving image specified by the position input, and the moving image that is the target of the position input. generating the position information by correcting it based on at least one of: a sound associated with the moving image corresponding to a reproduction position of the image; and/or
The playback position of the video that is the target of the position input, the content of the video at the position on the video specified by the position input, and the reproduction of the video that is the target of the position input. The information processing apparatus according to claim 1, wherein the time information is generated by correcting the time information based on at least one of: a sound related to the moving image corresponding to a position;
前記生成手段は、前記位置入力が指定する領域を拡大又は縮小することにより、前記動画像上の情報を包含する領域を判定することを特徴とする、請求項3に記載の情報処理装置。 The position input specifies an area including at least part of information on the video image,
4. The information processing apparatus according to claim 3, wherein the generating means determines an area that includes information on the moving image by enlarging or reducing an area specified by the position input.
前記生成手段は、前記動画像から前記所定領域を検出し、前記位置入力に従って分割された前記所定領域の分割領域のうちの1つを示すように、前記位置情報を生成することを特徴とする、請求項1に記載の情報処理装置。 The position input specifies a division position of a predetermined area on the video image,
The generating means detects the predetermined area from the moving image and generates the position information so as to indicate one of the divided areas of the predetermined area divided according to the position input. , The information processing device according to claim 1.
動画像上の位置を指定する位置入力を取得する工程と、
前記位置入力に基づいて前記動画像上の位置を示す位置情報及び前記動画像の再生位置を示す時刻情報を生成する工程であって、前記位置情報と前記時刻情報との少なくとも一方を、前記位置入力によって指定された前記動画像上の位置における前記動画像の内容と、前記位置入力の対象となった前記動画像の再生位置に対応する前記動画像に関連する音と、の少なくとも一方にさらに基づいて生成する工程と、
前記位置情報及び前記時刻情報を記録する工程と、
を含むことを特徴とする情報処理方法。 An information processing method performed by an information processing device, the method comprising:
obtaining a position input specifying a position on the video image;
The step of generating position information indicating a position on the moving image and time information indicating a playback position of the moving image based on the position input, the step of generating at least one of the position information and the time information based on the position input. Further, at least one of the content of the moving image at the position on the moving image specified by the input, and the sound related to the moving image corresponding to the playback position of the moving image that is the target of the position input. a step of generating based on the
recording the location information and the time information;
An information processing method characterized by comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022127327A JP2024024479A (en) | 2022-08-09 | 2022-08-09 | Information processing device, information processing method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2022127327A JP2024024479A (en) | 2022-08-09 | 2022-08-09 | Information processing device, information processing method, and program |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2024024479A true JP2024024479A (en) | 2024-02-22 |
Family
ID=89940074
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022127327A Pending JP2024024479A (en) | 2022-08-09 | 2022-08-09 | Information processing device, information processing method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2024024479A (en) |
-
2022
- 2022-08-09 JP JP2022127327A patent/JP2024024479A/en active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10380773B2 (en) | Information processing apparatus, information processing method, and computer readable medium | |
JP6044553B2 (en) | Information processing apparatus, information processing method, and program | |
JP5634853B2 (en) | Electronic comic viewer device, electronic comic browsing system, viewer program, and electronic comic display method | |
KR101378493B1 (en) | Synchronized text editing method and apparatus based on image data | |
JP5312420B2 (en) | Content analysis apparatus, method and program | |
WO2019128742A1 (en) | Image processing method, device, terminal and storage medium | |
JP4791565B2 (en) | Evaluation system, marker display control method and program | |
JP2007066018A (en) | Information processing method and information processor | |
JP2018180519A (en) | Voice recognition error correction support device and program therefor | |
US9870134B2 (en) | Interactive blocking and management for performing arts productions | |
JP2010061343A (en) | Voice recording method, voice reproduction method, voice recording program and voice reproduction program | |
JP2024024479A (en) | Information processing device, information processing method, and program | |
JP2009065462A (en) | Device, method, and program for summarizing video | |
JP2007208651A (en) | Content viewing apparatus | |
JP2019022186A (en) | Image processing system, imaging apparatus, image processing method, and program | |
JP6261198B2 (en) | Information processing apparatus, information processing method, and program | |
JP2020034823A (en) | Facilitation support program, facilitation support device, and facilitation support method | |
JP2010108296A (en) | Information processor and information processing method | |
US20200294552A1 (en) | Recording device, recording method, reproducing device, reproducing method, and recording/reproducing device | |
JP6638281B2 (en) | Information processing device and program | |
JP2020129763A (en) | Video reproduction device, video reproduction method, and program | |
JP4967983B2 (en) | Information recording apparatus and program | |
WO2022209648A1 (en) | Information processing device, information processing method, and non-transitory computer-readable medium | |
JP2024022847A (en) | Information processing device, information processing method and program | |
JP2023167630A (en) | Image processing apparatus and image processing method |