JP2023005038A - Moving image summarization device, moving image summarization method, and program - Google Patents
Moving image summarization device, moving image summarization method, and program Download PDFInfo
- Publication number
- JP2023005038A JP2023005038A JP2021106710A JP2021106710A JP2023005038A JP 2023005038 A JP2023005038 A JP 2023005038A JP 2021106710 A JP2021106710 A JP 2021106710A JP 2021106710 A JP2021106710 A JP 2021106710A JP 2023005038 A JP2023005038 A JP 2023005038A
- Authority
- JP
- Japan
- Prior art keywords
- video
- sentences
- moving image
- summarization
- sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000006243 chemical reaction Methods 0.000 claims abstract description 6
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 19
- 238000013500 data storage Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
本発明は、動画を要約する技術に関連するものである。 The present invention relates to techniques for summarizing moving images.
長時間にわたる動画(映像と呼んでもよい)の内容を短時間で把握したいという要求が従来からあり、様々な動画要約技術が提案されている(例えば特許文献1~3)。 2. Description of the Related Art There has been a demand for grasping the contents of a long moving image (which may be called a video) in a short time, and various moving image summarization techniques have been proposed (for example, Patent Documents 1 to 3).
一例として、発表を撮影した多数の動画から、優れた発表を選ぶ状況において、個々の動画を、時間をかけて視聴することは難しい。動画要約技術を用いることで、短時間で個々の動画の内容を把握でき、効率的な評価を行うことができる。 As an example, in a situation in which excellent presentations are selected from a large number of presentation videos, it is difficult to watch each video over time. By using video summarization technology, it is possible to grasp the contents of individual videos in a short time and to perform efficient evaluation.
従来の動画要約技術においては、一般に、動画から特定のジャンルに関連する画像の特徴を抽出し、その特徴を用いて動画の要約を作成している。しかし、動画には、多くのジャンルが存在しており、今後これまでにないジャンル、表現が生まれてくる可能性もある。 In conventional video summarization techniques, generally, features of images related to a specific genre are extracted from a video, and the features are used to create a summary of the video. However, there are many genres in moving images, and there is a possibility that new genres and expressions will be created in the future.
従って、従来技術における動画要約技術では、要約を実施できる動画が特定のジャンルのものに限定されてしまい、汎用的に動画を要約できないという課題がある。 Therefore, with the video summarization technology in the prior art, videos that can be summarized are limited to those of a specific genre, and there is a problem that videos cannot be general-purposely summarized.
本発明は上記の点に鑑みてなされたものであり、特定のジャンルに限定されない汎用性の高い動画要約技術を提供することを目的とする。 The present invention has been made in view of the above points, and an object of the present invention is to provide a highly versatile technique for summarizing moving images that is not limited to a specific genre.
開示の技術によれば、動画の要約を作成する動画要約装置であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化部と、
前記テキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と
を備える動画要約装置が提供される。
According to the disclosed technology, a moving image summarization device for creating a moving image summary,
a speech-to-text conversion unit that acquires text by performing speech recognition on speech contained in the moving image;
a sentence summarization unit that summarizes sentences obtained from the text into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A video summarization device is provided comprising:
開示の技術によれば、特定のジャンルに限定されない汎用性の高い動画要約技術を実現することが可能となる。 According to the disclosed technique, it is possible to realize a highly versatile video summarization technique that is not limited to a specific genre.
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下で説明する実施の形態に限られるわけではない。 An embodiment (this embodiment) of the present invention will be described below with reference to the drawings. The embodiments described below are merely examples, and the embodiments to which the present invention is applied are not limited to the embodiments described below.
以下の説明では、特に断らない限り、「動画」は、音声入りの動画であるものとする。当該音声入りの動画において、音声と動画は同期している。また、動画に音声を含める形式についてはどのような形式であってもよい。例えば、動画と音声が別ファイルで提供される形式のものであってもよい。 In the following description, unless otherwise specified, a "moving image" is a moving image with sound. In the video with sound, the sound and the video are synchronized. In addition, any format may be used for including sound in moving images. For example, it may be of a format in which moving images and audio are provided as separate files.
(システム構成例)
図1に、本実施の形態におけるシステムの全体構成例を示す。図1に示すように、本システムは、動画要約装置100と端末200がネットワーク300に接続された構成を有する。
(System configuration example)
FIG. 1 shows an example of the overall configuration of a system according to this embodiment. As shown in FIG. 1, this system has a configuration in which a moving
動画要約装置100は、本発明に係る技術により動画を要約する装置である。端末200は、スマートフォン、PC等の一般的な端末である。ネットワーク300は、例えばインターネットである。ネットワーク300は、LAN等の小規模なネットワークであってもよい。
The moving
(動画要約装置100の構成例)
図2に、動画要約装置100の機能構成例を示す。図2に示すように、動画要約装置100は、動画データ取得部110、音声テキスト化処理部120、文章要約部130、動画区間抽出部140、要約動画生成部150、データ記憶部160を有する。なお、動画区間抽出部140の機能を、要約動画生成部150内に含めてもよい。各部の機能概要は下記のとおりである。
(Configuration example of video summarizing device 100)
FIG. 2 shows an example of the functional configuration of the
動画データ取得部110は、端末200等から動画のデータを取得する。音声テキスト化処理部120は、動画における音声を文章に変換する。文章要約部130は、音声テキスト化処理部120により音声から変換された文章を要約する。動画区間抽出部140は、音声テキスト化処理部120により得られた要約文(抽出文)の時間位置に基づいて、動画の時間区間を抽出する。要約動画生成部150は、動画区間抽出部140により抽出された時間区間の動画を用いて要約動画を生成する。データ記憶部160は各種データを格納する。
The moving image
(システムの動作例)
次に、図3のシーケンスチャートの手順に沿って、システムの動作例を説明する。ここでは、端末200が様々な動画のデータ(動画ファイルと呼んでもよい)を保持していると想定する。また、各動画は、人の発話の音声を含んでいる。
(Example of system operation)
Next, an operation example of the system will be described along the procedure of the sequence chart of FIG. Here, it is assumed that the
端末200のユーザがある動画の要約を視聴したと考え、S101において、ユーザは、端末200に対して要約の視聴を希望する動画を指定する。
Assuming that the user of the
S102において、端末200は、指定された動画のデータを動画要約装置100にアップロードする。動画要約装置100の動画データ取得部110が動画のデータを受信し、データ記憶部160に格納する。
At S<b>102 , the
音声テキスト化処理部120は、データ記憶部160から動画のデータを読み出し、当該データから音声(ここでは人の発話音声)を取得して音声認識を実行し、音声をテキストに変換する(S103、S104)。
The speech-to-
S105において、音声テキスト化処理部120は、音声から変換されたテキストから、複数の文からなる文章を生成する。この文章は、文の一覧の形式で生成されてもよい。S106において、音声テキスト化処理部120は、それぞれの文の時間情報(区間、長さ)を取得する。生成された文章(文の一覧)は各文の時間情報とともにデータ記憶部160に格納される。なお、音声認識により音声から文章を生成する技術自体は既存技術である。
In S105, the speech-to-
S107において、音声テキスト化処理部120は、生成した文の一覧(各文の時間情報付き)を端末200に送信する。S108において、端末200上に文の一覧が表示される。
In S<b>107 , the speech-to-
図4に、S108において端末200上に表示される画面の例を示す。この例では、対象となっている動画の時間長、及び、音声認識により得られた文の一覧がその時刻(時間)とともに画面上に表示されている。「要約時間長」の指定により、希望する要約動画の長さ(時間長)を指定できる。また、「要約作成開始」ボタンにより要約開始を指示できる。
FIG. 4 shows an example of a screen displayed on the
なお、希望する要約動画の長さの指定に関しては、文の数で指定してもよい。例えば、全体で100文がある場合に、文数として「20」を指定することで、要約により20文の分の要約動画を作成することができる。 Note that the desired length of the digest video may be specified by the number of sentences. For example, if there are 100 sentences in total, by specifying "20" as the number of sentences, a summary video for 20 sentences can be created.
また、全体の長さに対する要約の長さの比率(要約率と呼ぶ)で希望する要約動画の長さを指定してもよい。例えば「6分の1」を指定した場合、60分の動画から10分の要約動画が生成され、6分の動画から1分の動画が生成される。 Alternatively, the length of the desired digest video may be specified as a ratio of the length of the digest to the total length (referred to as the digest rate). For example, when "1/6" is specified, a 10-minute summary video is generated from a 60-minute video, and a 1-minute video is generated from a 6-minute video.
また、希望する要約動画の長さを指定せずに、予め決められた要約率で要約動画を生成してもよい。 Alternatively, a digest video may be generated with a predetermined digest rate without specifying the desired length of the digest video.
図3のS109において、ユーザは、端末200上で希望する要約時間長を指定し、要約作成開始を指示する。S110において、要約作成命令とともに、上記時間長が、端末200から動画要約装置100に送信される。動画要約装置100の文章要約部130は、要約作成命令と時間長を受信する。
In S109 of FIG. 3, the user designates a desired length of time for a summary on the terminal 200 and instructs to start creating a summary. At S110, the time length is transmitted from the terminal 200 to the moving
S111において、文章要約部130は、音声テキスト化処理部120により得られた文章(文の一覧)と時間情報をデータ記憶部160から読み出し、指定された時間長になるように、文章の要約を作成する。文章の要約自体は既存技術で実現できる。
In S111, the
文章の要約を行うための既存技術としてどのような技術を使用してもよいが、本実施の形態では、一例として、文章から、複数の文を抽出することで要約を行う。例えば、全体の文章の中に、文1~文60の60個の文が含まれているとする。各文には、動画における時間区間(開始時刻、終了時刻、時間長)が対応付けられている。 Any existing technique for summarizing a sentence may be used, but in the present embodiment, as an example, the sentence is summarized by extracting a plurality of sentences from the sentence. For example, it is assumed that 60 sentences from sentence 1 to sentence 60 are included in the entire sentence. Each sentence is associated with a time segment (start time, end time, length of time) in the moving image.
例えば、指定された時間長が10分であるとした場合、文章要約部130は、要約に含める文の時間長の合計が10分になるように、例えば、「文1(時間長1分)、文20(時間長1分)、文21(時間長2分)、文53(時間長3分)、文54(時間長1分)、文60(時間長2分)」といったようにして、重要と考えられる複数の文を抽出する。抽出された文、及び時間区間の情報はデータ記憶部160に格納される。
For example, if the specified time length is 10 minutes, the
前述したように、要約の長さとして、時間長ではなく、文の数や要約率を指定することも可能である。文の数が指定された場合には、指定された数だけ文を抽出する。要約率が指定された場合には、その要約率に該当する時間長になるように文を抽出する。 As described above, it is also possible to specify the number of sentences or the rate of summarization as the length of the summary instead of the length of time. If the number of sentences is specified, extract only the specified number of sentences. When a summarization rate is specified, sentences are extracted so that the length of time corresponds to the summarization rate.
図3の例では、S111の次にS112に進む。ただし、S111の次にS112に進むことは例であり、S111の次に、S112の前に、文章要約部130は、要約の結果である複数の文(文の一覧)を端末200に送信してもよい。つまり、要約の結果である複数の文(文の一覧)をユーザに対して出力してもよい。 In the example of FIG. 3, after S111, the process proceeds to S112. However, proceeding to S112 after S111 is an example. may In other words, a plurality of sentences (a list of sentences) as a summary result may be output to the user.
この場合、端末200上には、例えば、図5に示す画面が表示される。図5に示すように、図4の画面に文章の要約が追加される。ユーザは、この画面上で、全文の中から要約動画に追加したい時間区間の文を指定することができる。また、要約動画から削除したい時間区間の文を指定することもできる。 In this case, the screen shown in FIG. 5 is displayed on the terminal 200, for example. As shown in FIG. 5, a text summary is added to the screen of FIG. On this screen, the user can specify sentences in a time segment that he/she wants to add to the digest video from all the sentences. You can also specify sentences in a time period that you want to delete from the summary video.
上記の文追加の指定がなされた場合、動画要約装置100において、要約の結果として得られた複数の文にユーザから指定された文を追加して得られた複数の文から要約動画を生成することができる。また、上記の文削除の指定がなされた場合、動画要約装置100において、要約の結果として得られた複数の文から、ユーザにより指定された文を削除して得られた複数の文から要約動画を生成することができる。
When the above sentence addition is specified, the
S112において、動画区間抽出部140は、S111において抽出されたそれぞれの文について、対応する時間区間の情報を取得する。
In S112, the moving image
例えば、上記の例でいえば、文1に対して(開始時刻:0分0秒,終了時刻:1分0秒)が取得され、文20に対して、例えば、(開始時刻:20分30秒,終了時刻:21分30秒)が取得される。他の文についても同様である。 For example, in the above example, (start time: 0 minutes 0 seconds, end time: 1 minute 0 seconds) is obtained for sentence 1, and for sentence 20, for example, (start time: 20 minutes 30 seconds seconds, end time: 21 minutes and 30 seconds). The same is true for other sentences.
S113において、動画区間抽出部140は、S112において取得したそれぞれの時間区間について、時間区間に対応する動画区間(時間区間の時間位置に対応する動画であり、部分動画と呼んでもよい)を、全体の動画から抽出する。
In S113, the video
例えば、上記の例を用いると、全体が60分の動画から、文1に対応する時間区間(開始時刻:0分0秒,終了時刻:1分0秒)の動画1が抽出され、文20に対応する時間区間(開始時刻:20分30秒,終了時刻:21分30秒)の動画20が抽出される。他の時間区間についても同様である。 For example, using the above example, the video 1 in the time interval corresponding to sentence 1 (start time: 0 minutes 0 seconds, end time: 1 minute 0 seconds) is extracted from the video of 60 minutes in total, and sentence 20 is extracted. (start time: 20 minutes and 30 seconds, end time: 21 minutes and 30 seconds). The same is true for other time intervals.
動画抽出のイメージを図6に示す。図6に示すように、各抽出文の時間区間に対応する区間の動画を抽出する。 Fig. 6 shows an image of video extraction. As shown in FIG. 6, a moving image of a section corresponding to the time section of each extracted sentence is extracted.
図3のS114において、要約動画生成部150は、S113において抽出した動画を結合することにより、要約動画を生成する。例えば、S113において、動画1、動画20、動画21、動画53、動画54、動画60が抽出されたとすると、これらを結合した「動画1+動画20+動画21+動画53+動画54+動画60」が要約動画として生成される。
In S114 of FIG. 3, the summarized moving
S115において、要約動画生成部150は、生成した要約動画を端末200に送信する。S116において、端末200上に要約動画が表示され、ユーザは要約動画を視聴する。
In S<b>115 , the digest
(その他の例)
図3に示したシーケンスは一例であり、図3に示したシーケンスとは異なる手順で処理を行ってもよい。例えば、S107~S110の処理を行わないこととしてもよい。この場合、予め定めた要約率を使用してもよいし、S101、S102において要約の時間長等を端末200から動画要約装置100に指定してもよい。
(Other examples)
The sequence shown in FIG. 3 is an example, and processing may be performed in a procedure different from the sequence shown in FIG. For example, the processes of S107 to S110 may not be performed. In this case, a predetermined summarization rate may be used, or the length of time for summarization, etc. may be specified from the terminal 200 to the
また、図1に示した構成も一例であり、この構成に限定されるわけではない。例えば、端末200内に動画要約装置100の機能を含めてもよい。この場合、端末200は、自端末内で、元の動画から要約動画を生成し、表示することができる。なお、動画要約装置100の機能を含む端末を「動画要約装置」と呼んでもよい。端末200内に動画要約装置100の機能を含める場合、図3における端末200への情報送信は、端末200のディスプレイに情報を表示することに相当する。
Moreover, the configuration shown in FIG. 1 is also an example, and the configuration is not limited to this configuration. For example, the terminal 200 may include the function of the moving
また、これまでに説明した例では、動画に含まれる音声から音声認識によりテキストを取得し、当該テキストを用いて要約動画を生成することとしているが、字幕等のテキストが含まれる動画に関しては、音声認識を用いることなく、当該テキストを用いて要約動画を生成することとしてもよい。 Also, in the examples described so far, text is obtained by speech recognition from the voice contained in the video, and the summary video is generated using the text. A summary video may be generated using the text without using speech recognition.
この場合、例えば、動画のデータ(動画ファイル)には、動画とテキストが含まれる。動画とテキストはタイムスタンプ等により同期しているが、分離しており、動画を解析することなくテキストを取得可能である。 In this case, for example, moving image data (moving image file) includes moving images and text. The video and text are synchronized by time stamps, etc., but they are separated, so the text can be obtained without analyzing the video.
例えば、音声テキスト化処理部120が、上記テキストから、複数の文からなる文章を生成する。この文章は、文の一覧の形式で生成され、各文には、その文に対応する動画における時間区間の情報が付されている。この処理以降の処理は、これまでに説明した処理と同様である。動画に含まれるテキストを使用する場合でも、動画抽出のイメージは図6に示したものと同じである。
For example, the speech-to-
(ハードウェア構成例)
動画要約装置100、端末200はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。当該コンピュータは物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。動画要約装置100、端末200を総称して「装置」と呼ぶ。
(Hardware configuration example)
Both the moving
すなわち、当該装置は、コンピュータに内蔵されるCPUやメモリ等のハードウェア資源を用いて、当該装置で実施される処理に対応するプログラムを実行することによって実現することが可能である。上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。 That is, the device can be realized by executing a program corresponding to the processing performed by the device using hardware resources such as a CPU and memory built into the computer. The above program can be recorded in a computer-readable recording medium (portable memory, etc.), saved, or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
図7は、本実施の形態における上記コンピュータのハードウェア構成例を示す図である。図7のコンピュータは、それぞれバスBで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、及び出力装置1008等を有する。
FIG. 7 is a diagram showing a hardware configuration example of the computer in this embodiment. The computer of FIG. 7 has a
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
A program for realizing processing by the computer is provided by a
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。
The
インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
The
(実施の形態の効果)
本実施の形態に係る技術によれば、動画に含まれる音声又はテキストを利用して動画要約を行うことができるので、動画の特徴を事前に定義することが不要であり、汎用性の高い動画要約技術を実現することができる。また、より具体的な効果として下記の効果がある。
(Effect of Embodiment)
According to the technology according to the present embodiment, it is possible to summarize a moving image by using the voice or text contained in the moving image. Summarization techniques can be implemented. In addition, there are the following effects as more specific effects.
5Gの本格化に伴い動画コンテンツの需要は高まっている。かつコロナ禍によるセミナーや研修など各種イベントがほぼ全てオンライン開催となり、その模様を動画として記録することが激増している。そのような状況において、本実施の形態に係る技術により、要約動画を自動的に生成でき、生成した要約動画を、隙間時間にスマホやタブレット等で手軽に視聴することができる。また、セミナーや講演会の記録動画や研修の教材動画の視聴を促すプロモーションとしても非常に有効であり、本技術は世の中で非常に渇望されている。 Demand for video content is increasing with the full-scale introduction of 5G. In addition, almost all events such as seminars and trainings due to the corona wreck have been held online, and the number of video recordings of these events has increased dramatically. In such a situation, the technology according to the present embodiment can automatically generate a summary video, and the generated summary video can be easily viewed on a smartphone, tablet, or the like in a spare time. In addition, this technology is highly desired in the world because it is very effective as a promotion to encourage viewing of video recordings of seminars and lectures and videos of teaching materials for training.
(実施の形態のまとめ)
本明細書には、少なくとも下記各項の動画要約装置、動画要約方法、及びプログラムが開示されている。
(第1項)
動画の要約を作成する動画要約装置であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化部と、
前記テキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と
を備える動画要約装置。
(第2項)
動画の要約を作成する動画要約装置であって、
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と
を備える動画要約装置。
(第3項)
前記文章要約部は、ユーザから指定された時間長、ユーザから指定された文の数、ユーザから指定された要約率、又は、予め定めた要約率に基づいて、前記要約を実行する
第1項又は第2項に記載の動画要約装置。
(第4項)
前記文章要約部は、前記文章の要約結果である前記複数の文をユーザに対して出力し、
前記要約動画生成部は、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
第1項ないし第3項のうちいずれか1項に記載の動画要約装置。
(第5項)
動画の要約を作成する動画要約装置が実行する動画要約方法であって、
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化ステップと、
前記テキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと
を備える動画要約方法。
(第6項)
動画の要約を作成する動画要約装置が実行する動画要約方法であって、
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと
を備える動画要約方法。
(第7項)
コンピュータを、第1項ないし第4項のうちいずれか1項に記載の動画要約装置における各部として機能させるためのプログラム。
(Summary of embodiment)
This specification discloses at least the moving image summarizing device, moving image summarizing method, and program described below.
(Section 1)
A video summarizing device for creating a video summary,
a speech-to-text conversion unit that acquires text by performing speech recognition on speech contained in the moving image;
a sentence summarization unit that summarizes sentences obtained from the text into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A moving picture summarization device comprising a section and .
(Section 2)
A video summarizing device for creating a video summary,
a sentence summarizing unit that summarizes sentences obtained from the text included in the moving image into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A moving picture summarization device comprising a section and .
(Section 3)
The text summarization unit executes the summarization based on the length of time specified by the user, the number of sentences specified by the user, the summarization rate specified by the user, or a predetermined summarization rate. Or the moving picture summarization device according to item 2.
(Section 4)
The sentence summarization unit outputs the plurality of sentences, which are the results of summarizing the sentences, to the user;
The summary video generation unit performs an addition process of adding a sentence specified by the user to the plurality of sentences, or a deletion process of deleting the sentence specified by the user from the plurality of sentences, and performs the addition process or 3. The moving image summarizing device according to any one of items 1 to 3, wherein a summarized moving image is generated from the plurality of sentences subjected to the deletion processing.
(Section 5)
A video summarizing method executed by a video summarizing device that creates a video summary,
a speech-to-text conversion step of obtaining text by performing speech recognition on speech contained in the moving image;
a sentence summarization step of summarizing sentences obtained from the text into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A video summarization method comprising steps and .
(Section 6)
A video summarizing method executed by a video summarizing device that creates a video summary,
a sentence summarization step of summarizing sentences obtained from the text included in the moving image into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A video summarization method comprising steps and .
(Section 7)
A program for causing a computer to function as each part of the moving picture summarizing device according to any one of items 1 to 4.
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to such a specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention described in the claims. It is possible.
100 動画要約装置
110 動画データ取得部
120 音声テキスト化処理部
130 文章要約部
140 動画区間抽出部
150 要約動画生成部
160 データ記憶部
1000 ドライブ装置
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
100
1005
Claims (7)
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化部と、
前記テキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と
を備える動画要約装置。 A video summarizing device for creating a video summary,
a speech-to-text conversion unit that acquires text by performing speech recognition on speech contained in the moving image;
a sentence summarization unit that summarizes sentences obtained from the text into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A moving picture summarization device comprising a section and .
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約部と、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成部と
を備える動画要約装置。 A video summarizing device for creating a video summary,
a sentence summarizing unit that summarizes sentences obtained from the text included in the moving image into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A moving picture summarization device comprising a section and .
請求項1又は2に記載の動画要約装置。 2. The text summarization unit performs the summarization based on a user-specified time length, a user-specified number of sentences, a user-specified summarization rate, or a predetermined summarization rate. 3. The moving image summarization device according to 2.
前記要約動画生成部は、ユーザから指定された文を前記複数の文に追加する追加処理、又は、ユーザから指定された文を前記複数の文から削除する削除処理を実行し、前記追加処理又は前記削除処理がなされた複数の文から要約動画を生成する
請求項1ないし3のうちいずれか1項に記載の動画要約装置。 The sentence summarization unit outputs the plurality of sentences, which are the results of summarizing the sentences, to the user;
The summary video generation unit performs an addition process of adding a sentence specified by the user to the plurality of sentences, or a deletion process of deleting the sentence specified by the user from the plurality of sentences, and performs the addition process or 4. The moving picture summarizing device according to any one of claims 1 to 3, wherein a summarized moving picture is generated from the plurality of deleted sentences.
前記動画に含まれる音声に対して音声認識を行うことにより、テキストを取得する音声テキスト化ステップと、
前記テキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと
を備える動画要約方法。 A video summarizing method executed by a video summarizing device that creates a video summary,
a speech-to-text conversion step of obtaining text by performing speech recognition on speech contained in the moving image;
a sentence summarization step of summarizing sentences obtained from the text into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A video summarization method comprising steps and .
前記動画に含まれるテキストから得られた文章を複数の文に要約する文章要約ステップと、
前記複数の文におけるそれぞれの文に対応する時間区間を取得し、前記動画から各時間区間に対応する部分動画を抽出し、抽出された部分動画を結合することにより要約動画を生成する要約動画生成ステップと
を備える動画要約方法。 A video summarizing method executed by a video summarizing device that creates a video summary,
a sentence summarization step of summarizing sentences obtained from the text included in the moving image into a plurality of sentences;
Generating a summary video by obtaining a time segment corresponding to each sentence in the plurality of sentences, extracting partial videos corresponding to each time segment from the video, and combining the extracted partial videos to generate a summary video. A video summarization method comprising steps and .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021106710A JP7369739B2 (en) | 2021-06-28 | 2021-06-28 | Video summarization device, video summarization method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021106710A JP7369739B2 (en) | 2021-06-28 | 2021-06-28 | Video summarization device, video summarization method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2023005038A true JP2023005038A (en) | 2023-01-18 |
JP7369739B2 JP7369739B2 (en) | 2023-10-26 |
Family
ID=85107623
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021106710A Active JP7369739B2 (en) | 2021-06-28 | 2021-06-28 | Video summarization device, video summarization method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7369739B2 (en) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255981A (en) * | 2002-03-05 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for providing summary information |
JP2003255979A (en) * | 2002-03-06 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Data editing method, device and program |
JP2004333738A (en) * | 2003-05-06 | 2004-11-25 | Nec Corp | Device and method for voice recognition using video information |
JP2008152605A (en) * | 2006-12-19 | 2008-07-03 | Toyohashi Univ Of Technology | Presentation analysis device and presentation viewing system |
WO2016098458A1 (en) * | 2014-12-15 | 2016-06-23 | ソニー株式会社 | Information processing method, video processing device, and program |
JP2019212308A (en) * | 2018-06-01 | 2019-12-12 | ネイバー コーポレーションNAVER Corporation | Video service providing method and service server using the same |
-
2021
- 2021-06-28 JP JP2021106710A patent/JP7369739B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003255981A (en) * | 2002-03-05 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Method, device and program for providing summary information |
JP2003255979A (en) * | 2002-03-06 | 2003-09-10 | Nippon Telegr & Teleph Corp <Ntt> | Data editing method, device and program |
JP2004333738A (en) * | 2003-05-06 | 2004-11-25 | Nec Corp | Device and method for voice recognition using video information |
JP2008152605A (en) * | 2006-12-19 | 2008-07-03 | Toyohashi Univ Of Technology | Presentation analysis device and presentation viewing system |
WO2016098458A1 (en) * | 2014-12-15 | 2016-06-23 | ソニー株式会社 | Information processing method, video processing device, and program |
JP2019212308A (en) * | 2018-06-01 | 2019-12-12 | ネイバー コーポレーションNAVER Corporation | Video service providing method and service server using the same |
Also Published As
Publication number | Publication date |
---|---|
JP7369739B2 (en) | 2023-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021109678A1 (en) | Video generation method and apparatus, electronic device, and storage medium | |
WO2022121601A1 (en) | Live streaming interaction method and apparatus, and device and medium | |
JP6939037B2 (en) | How to represent meeting content, programs, and equipment | |
US20240107127A1 (en) | Video display method and apparatus, video processing method, apparatus, and system, device, and medium | |
US8799774B2 (en) | Translatable annotated presentation of a computer program operation | |
JP6339529B2 (en) | Conference support system and conference support method | |
JP4568144B2 (en) | Information presentation device and information presentation program | |
US20150287434A1 (en) | Method of capturing and structuring information from a meeting | |
WO2019245033A1 (en) | Moving image editing server and program | |
JP2014109988A (en) | Motion video generation device and motion video generation program | |
JP2020065307A (en) | Server, program, and moving image distribution system | |
JP2018180519A (en) | Voice recognition error correction support device and program therefor | |
KR102353797B1 (en) | Method and system for suppoting content editing based on real time generation of synthesized sound for video content | |
JP7369739B2 (en) | Video summarization device, video summarization method, and program | |
JP6603929B1 (en) | Movie editing server and program | |
JP2019197210A (en) | Speech recognition error correction support device and its program | |
JP2003208083A (en) | Method and device for generating teaching material, teaching material generating program, and storage medium with the teaching material generating program stored therein | |
JP6863648B1 (en) | Server and data allocation method | |
WO2020066659A1 (en) | Information processing method, information processing device, and program | |
US20200026535A1 (en) | Converting Presentations into and Making Presentations from a Universal Presentation Experience | |
JP2010230948A (en) | Content distribution system and text display method | |
JP2008032788A (en) | Program for creating data for language teaching material | |
KR101647442B1 (en) | Visual Contents Producing System, Method and Computer Readable Recoding Medium | |
JP2005267278A (en) | Information processing system, information processing method, and computer program | |
WO2022168211A1 (en) | Graphic display control device, graphic display control method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220209 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230418 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230616 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231016 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7369739 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |