JP7457332B2 - Tree structure estimation device, parameter learning device, tree structure estimation method, parameter learning method, and program - Google Patents
Tree structure estimation device, parameter learning device, tree structure estimation method, parameter learning method, and program Download PDFInfo
- Publication number
- JP7457332B2 JP7457332B2 JP2021035375A JP2021035375A JP7457332B2 JP 7457332 B2 JP7457332 B2 JP 7457332B2 JP 2021035375 A JP2021035375 A JP 2021035375A JP 2021035375 A JP2021035375 A JP 2021035375A JP 7457332 B2 JP7457332 B2 JP 7457332B2
- Authority
- JP
- Japan
- Prior art keywords
- video
- vector
- tree structure
- tree
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 21
- 239000013598 vector Substances 0.000 claims description 125
- 238000000605 extraction Methods 0.000 claims description 40
- 230000015572 biosynthetic process Effects 0.000 claims description 18
- 238000003786 synthesis reaction Methods 0.000 claims description 18
- 239000002131 composite material Substances 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 9
- 238000005457 optimization Methods 0.000 claims description 9
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 6
- 230000002194 synthesizing effect Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 2
- 230000009466 transformation Effects 0.000 claims description 2
- 238000004458 analytical method Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000013589 supplement Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
本発明は、計算機を用いて自動的に動画を処理するコンピュータビジョン分野と自動的にテキストを処理する自然言語処理分野に関連し、特に、動画をイベント(シーン)に分割してキャプションを与え、それらの関係を木構造として表す技術に関連するものである。 The present invention relates to the fields of computer vision, which automatically processes video using a computer, and natural language processing, which automatically processes text, and in particular to a technology that divides video into events (scenes), gives them captions, and represents the relationships between them as a tree structure.
自然言語処理分野では、文書全体を木構造として表現する談話構造解析技術が開発されている。特に、文書を修辞構造理論に基づいた木構造として表す技術が開発されている。 In the field of natural language processing, discourse structure analysis technology has been developed that represents an entire document as a tree structure. In particular, technology has been developed that represents a document as a tree structure based on rhetorical structure theory.
修辞構造はテキストの話題構造を木として表現したものであるが、こうした構造はテキストだけではなく動画にも存在する。 Rhetorical structure is a tree representation of the topic structure of a text, and this structure exists not only in text but also in videos.
つまり、葉がイベント区間(シーン)とそのキャプションを表し、ノードがスパン(シーン系列)の核性役割を表し、エッジがスパン間の修辞関係を表す木として動画を表現することができる。ただし、テキストの場合とは異なり木の葉は、動画の区間とキャプション文なので、文内の構造は考えなくて良い。 In other words, videos can be represented as a tree in which leaves represent event segments (scenes) and their captions, nodes represent the nuclear roles of spans (scene sequences), and edges represent rhetorical relationships between spans. However, unlike in the case of text, the leaves of the tree are video segments and caption sentences, so there is no need to consider the structure within the sentences.
こうした構造を得るために、非特許文献1に開示された技術では、動画に対してキャプション文を生成し、得たキャプションに対して従来の修辞構造解析技術を適用し木構造を得る。そして、キャプション文と動画フレームとを、LSTMを用いて対応付けている。 In order to obtain such a structure, in the technique disclosed in Non-Patent Document 1, a caption sentence is generated for a video, and a conventional rhetorical structure analysis technique is applied to the obtained caption to obtain a tree structure. Then, caption sentences and video frames are associated using LSTM.
従来の技術において修辞構造木はテキスト情報のみを用いて構築される。しかし、動画を修辞構造木として表す場合において、テキストがシーンに対応する動画区間の全てを書き尽くしているとは限らないため、シーン間の構造や関係を決定するためにテキストを利用するだけでは十分とは限らない。特に木構造を決定する際にはシーン間の類似性が重要な要素となるがテキストだけでは類似性をうまくとらえることができないことが多々ある。 In the prior art, rhetorical structure trees are constructed using only textual information. However, when representing a video as a rhetorical structure tree, the text does not necessarily cover the entire video section corresponding to the scene, so it is not possible to simply use the text to determine the structure and relationships between scenes. Not necessarily enough. In particular, when determining a tree structure, the similarity between scenes is an important factor, but it is often difficult to accurately capture the similarity using text alone.
本発明は上記の点に鑑みてなされたものであり、動画から、シーン間の類似性を適切に反映した修辞構造木を生成するための技術を提供することを目的とする。 The present invention has been made in view of the above points, and it is an object of the present invention to provide a technique for generating a rhetorical structure tree that appropriately reflects the similarity between scenes from a video.
開示の技術によれば、入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置が提供される。
According to the disclosed technology, a feature extraction unit extracts, from an input video, a video vector that is a feature amount of the video and a text vector that is a feature amount of a text attached to the video;
a vector synthesis unit that generates a composite vector by synthesizing the video vector and the text vector;
A tree structure estimating device is provided, comprising: a tree structure representing a rhetorical structure tree of the video and a tree structure estimator that estimates a label from the composite vector.
開示の技術によれば、動画から、シーン間の類似性を適切に反映した修辞構造木を生成するための技術が提供される。 According to the disclosed technology, a technology for generating a rhetorical structure tree that appropriately reflects the similarity between scenes from a video is provided.
以下、図面を参照して本発明の実施の形態(本実施の形態)を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。 DESCRIPTION OF THE PREFERRED EMBODIMENTS An embodiment of the present invention (this embodiment) will be described below with reference to the drawings. The embodiments described below are merely examples, and embodiments to which the present invention is applied are not limited to the following embodiments.
(修辞構造木について)
まず、従来の修辞構造木の例を説明する。修辞構造理論では、文書は2分木(修辞構造木)として表現される。修辞構造木は、それを構成する最小の談話基本単位であるEDUの系列(以降、スパンと呼ぶ)を修辞関係により結合し、より大きなスパンを構成するという操作を再帰的に繰り返すことによって得られる木である。
(About rhetorical structure trees)
First, an example of a conventional rhetorical structure tree will be explained. In rhetorical structure theory, a document is expressed as a binary tree (rhetorical structure tree). A rhetorical structure tree is obtained by recursively repeating the operation of connecting a series of EDUs (hereinafter referred to as spans), which are the smallest basic units of discourse that make up the tree, through rhetorical relationships to form larger spans. It's a tree.
木の葉はEDU(節に相当)のユニットであり、木のノードにはそれが支配するスパンの核性ラベルが付与される。結合される2つのスパン(兄弟スパン)の一方は重要な情報を持つ核となり、もう一方はそれを補足する衛星となる。例外的に双方が核となる場合もある。木の枝にはスパン間の修辞関係を表す関係ラベルが付与される。修辞関係を表す関係ラベルは、18種類が定義されている。 A leaf of a tree is a unit of EDU (corresponding to a node), and a node of the tree is given a nuclearity label of the span it dominates. One of the two spans (sibling spans) that will be combined will become a core containing important information, and the other will become a satellite that supplements it. In exceptional cases, both sides may be core. Tree branches are given relational labels that represent the rhetorical relationships between spans. Eighteen types of relational labels representing rhetorical relations are defined.
図1に修辞構造木の例を示す。図中のe1~e7がそれぞれEDUであり、S/Nがスパンの核性ラベル(Nが核でSが衛星)、Condition、Elaborationなどが兄弟スパンの間の関係ラベルである。関係ラベルは兄弟スパンの核性がSとNの組合せの場合、S側のスパンに対して与えられ、NとNになる場合には双方のスパンに対して与えられる。ConditionやElaborationはSとNの組合せに対して与えられ、List、Same-UnitはNとNの組合せに与えられる。 Figure 1 shows an example of a rhetorical structure tree. In the figure, e 1 to e 7 are EDUs, S/N is the nuclearity label of the span (N is the nucleus, S is the satellite), Condition, Elaboration, etc. are the relationship labels between the sibling spans. When the nuclearity of the sibling spans is a combination of S and N, the relationship label is given to the span on the S side, and when it is N and N, it is given to both spans. Condition and Elaboration are given to the combination of S and N, and List and Same-Unit are given to the combination of N and N.
(実施の形態の概要)
前述したとおり、修辞構造はテキストだけではなく動画にも存在し、葉がイベント(シーン)とそのキャプションを表し、ノードがスパン(シーン系列)の核性役割を表し、エッジがスパン間の修辞関係を表す木として動画を表現することができる。例えば、図1に示す修辞構造木における葉(e)をシーンとキャプションのタプルに置き換えた修辞構造木により、動画の修辞構造とスパン間の関係が表される。
(Overview of the embodiment)
As mentioned above, rhetorical structures exist not only in texts but also in videos, and videos can be represented as trees in which leaves represent events (scenes) and their captions, nodes represent the nuclear roles of spans (scene sequences), and edges represent the rhetorical relationships between spans. For example, the rhetorical structure of a video and the relationships between spans can be represented by a rhetorical structure tree in which the leaves (e) in the rhetorical structure tree shown in Figure 1 are replaced with tuples of scenes and captions.
図2に、動画を木構造とラベルにより修辞構造木として表した例を示す。図2に示す例では、「[」,「]」の中の数字によりシーンが表す動画の開始、終了時刻を表し、cが、シーンに対応するキャプション文を表す。 FIG. 2 shows an example in which a video is represented as a rhetorical structure tree using a tree structure and labels. In the example shown in FIG. 2, the numbers in "[" and "]" represent the start and end times of the video represented by the scene, and c represents the caption text corresponding to the scene.
前述したように、非特許文献1に開示された従来技術では、シーン間の構造や関係を決定するのにテキストのみを利用してるため、シーン間の類似性をうまくとらえることができないことが多々ある。そこで、本実施の形態では、テキスト情報だけでなく画像情報も合わせてシーンの修辞構造推定、関係推定を行うことにより、シーン間の類似性を適切に反映した修辞構造木を生成することを可能としている。 As mentioned above, the conventional technology disclosed in Non-Patent Document 1 uses only text to determine the structure and relationships between scenes, and therefore often fails to capture the similarities between scenes well. Therefore, in this embodiment, the rhetorical structure and relationship estimation of scenes is performed using not only text information but also image information, making it possible to generate a rhetorical structure tree that appropriately reflects the similarities between scenes.
(装置構成例、動作概要)
図3に、本実施の形態における動画談話構造解析装置100の構成例を示す。図3に示すように動画談話構造解析装置100は、データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140を備える。
(Device configuration example, operation overview)
FIG. 3 shows a configuration example of the video discourse
動画談話構造解析装置100は、1つのコンピュータで実装されてもよいし、複数のコンピュータで実装されてもよい。また、動画談話構造解析装置100のうちの一部又は全部の機能が、クラウド上の仮想マシンで実装されてもよい。データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140がそれぞれ別装置で実装されてもよく、これらをそれぞれ、データ入力装置、木構造推定装置、パラメタ学習装置、データ出力装置と呼んでもよい。また、「データ入力部110+木構造推定部120+データ出力部140」を木構造推定装置と呼んでもよい。
The video discourse
図3には、処理の流れも示されている。図3に示すように、データ入力部110は、動画を受け取り、動画からスパンベクトルを生成し、生成したスパンベクトルを木構造推定部120へ渡す。
The process flow is also shown in FIG. 3. As shown in FIG. 3, the
パラメタ学習部130は、図2に示したアノテーション、つまりシーンに対するアノテーション(動画区間時間とキャプション)及び修辞構造に対するアノテーション(木構造とラベル)がなされた動画を受け取り、当該アノテーション済みの動画に基づいて、ニューラルネットワークによる修辞木構造推定、核性ラベル推定、関係ラベル推定のためのパラメタを学習し、学習済みのパラメタを木構造推定部120へ渡す。アノテーションとして与えられる木構造とラベルは、パラメタ学習の際の正解データとして用いられる。
The
木構造推定部120は、データ入力部11からスパンベクトルを受け取り、パラメタ学習部130からパラメタを受け取り、これらを用いてシーンの分割点、及びシーンのラベルを推定し、推定したシーンの分割点、及びシーンのラベルをデータ出力部140へ渡す。
The tree
データ出力部140は、木構造推定120から受け取ったシーンの分割点、及びラベルを受け取り、例えばS式を用いて木を出力する。
The
なお、本実施の形態において、データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140はいずれもニューラルネットワークにより構成されるものとする。以下、各部の構成と処理内容を詳細に説明する。
In this embodiment, it is assumed that the
(データ入力部110)
データ入力部110は、ラベル付き木の生成対象である動画を入力として受け取り、シーン系列に対応するスパンベクトルを木構造推定装置120に渡す。図4に、データ入力部110の機能構成を示す。図4に示すように、データ入力部110は、キャプション生成部111とスパンベクトル生成部112を備える。各部の処理内容は下記のとおりである。
(Data Input Unit 110)
The
<キャプション生成部111>
キャプション生成部111は、ビデオキャプション技術を用いて、入力された動画中の各シーンを同定して、同定したシーンのキャプションを生成する。つまり、各シーンの開始終了時刻とキャプションを与える。なお、ビデオキャプションには既存の技術を利用すれば良い。
<
The
<スパンベクトル生成部112>
スパンベクトル生成部112は、後述するパラメタ学習部130が備えるものと同じ動画特徴抽出部、テキスト特徴抽出部、ベクトル合成部を有する。動画特徴抽出部、テキスト特徴抽出部、及びベクトル合成部の詳細についてはパラメタ学習部130の説明の際に説明する。動画特徴抽出部、テキスト特徴抽出部、ベクトル合成部のそれぞれのパラメタについては、パラメタ学習部130で最適化されたパラメタが使用される。
<Span
The span
キャプション生成部111により生成されたシーンの開始時刻、終了時刻、及び当該シーンに対するキャプション文が、動画特徴抽出部とテキスト特徴抽出部のそれぞれへ入力される。動画特徴抽出部とテキスト特徴抽出部のそれぞれが出力した特徴ベクトルをベクトル合成部へ渡し、ベクトル合成部によりスパンベクトルを生成する。
The start time and end time of the scene generated by the
(パラメタ学習部130)
図5に、パラメタ学習部130の機能構成を示す。図5に示すように、パラメタ学習部130は、特徴量抽出部131、ベクトル合成部134、木構造推定処理部135、ラベル推定部136、パラメタ最適化部137を有する。特徴量抽出部131は、動画特徴抽出部132、テキスト特徴抽出部133を有する。
(Parameter Learning Unit 130)
Fig. 5 shows the functional configuration of the
図6は、パラメタ学習部130の動作概要を示している。動画特徴抽出部132とテキスト特徴抽出部133のそれぞれに、アノテーション済み動画が与えられる。アノテーション済み動画とは、動画におけるシーンに関するデータ(開始・終了時刻及びキャプション)と、スパン(シーン系列)の分割点と、スパンの核性ラベルと、スパン間の修辞関係ラベルとが、アノテーションとして付された動画である。
FIG. 6 shows an outline of the operation of the
動画特徴抽出部132から出力された動画ベクトルとテキスト特徴抽出部133から出力されたテキストベクトルがベクトル合成部134に入力され、ベクトル合成部134が、これらを合成してスパンベクトルを生成する。スパンベクトルに基づいて、木構造推定処理部135、ラベル推定部136、及びパラメタ最適化部137により、ニューラルネットワークにおける、木構造、核性、及び関係を推定するためのパタメタを出力する。以下、各部の処理内容を詳細に説明する。
The video vector output from the video
<動画特徴抽出部132>
動画特徴抽出部132は、アノテーション済み動画から、各シーンに対応する動画ベクトルを、動画中のフレームに対するベクトル(例えば、C3D、I3Dなどの手法で得た各フレームに対する特徴ベクトル)とLSTMを利用することで生成する。
<Video
The video
例えば、あるシーンの開始時刻が0:10であり終了時刻が1:00であるならば、その区間が支配する全てのフレームに対応するベクトルを前向きLSTM、及び後ろ向きLSTMに入力する。 For example, if the start time of a certain scene is 0:10 and the end time is 1:00, vectors corresponding to all frames dominated by that section are input to the forward LSTM and backward LSTM.
あるシーンが0:10から1:00であったとき、その区間に含まれるフレーム数がn個であるとして、j番目のフレームに対応するベクトル(C3Dなどで得られた特徴ベクトル)をvjとする。そして、前向きLSTMを→LSTMf、後ろ向きLSTMを←LSTMfとする。なお、本明細書での記載の便宜上、本明細書のテキストにおいて、頭の上に矢印線を記載したLSTMを「→LSTMf」、「←LSTMf」のように記載している。他の文字も同様に「→」、「←」を使用する。 When a scene is from 0:10 to 1:00, the number of frames included in that section is n, and the vector (feature vector obtained by C3D or the like) corresponding to the j-th frame is denoted as vj . The forward LSTM is denoted as → LSTMf , and the backward LSTM is denoted as ← LSTMf . For convenience of description in this specification, LSTMs with an arrow above them are written as " → LSTMf " and " ← LSTMf " in the text of this specification. Similarly, " → " and " ← " are used for other characters.
ここでj番目のフレームに対する前向き、後ろ向きの隠れ状態を用いてj番目のフレームの隠れ状態hv jを以下の式で表す。なお、[→hv j;←hv j]は、→hv jと←hv jの連結を示す。 Here, using the forward and backward hidden states for the j-th frame, the hidden state h v j of the j-th frame is expressed by the following equation. Note that [ → h v j ; ← h v j ] indicates the connection of → h v j and ← h v j .
<テキスト特徴抽出部133>
テキスト特徴抽出部133は、アノテーション済み動画から、シーンのキャプションに対応するテキストベクトルを、文に含まれる単語埋め込みベクトルとLSTMを用いて生成する。
<Text
The text
テキスト特徴抽出部133は、キャプションの文に含まれる全ての単語に対してその埋め込みベクトルを得た後、それを前向き、後ろ向きLSTMに入力する。動画特徴抽出部132と同様に、前向きLSTMによる隠れ状態、後ろ向きLSTMによる隠れ状態を用いてj番目の単語の隠れ状態hw
jを以下の式で表す。
The text
<ベクトル合成部134>
ベクトル合成部134では、まず、各シーンについて、シーンに対する動画ベクトルVとそのキャプションに対応するテキストベクトルSを合成し、シーンのベクトルを生成する。いま、シーンに対応するキャプションのj番目の単語の隠れ状態hw
j、動画ベクトルV、テキストベクトルSに対し、選択的ゲートを用いて新たなj番目の単語の隠れ状態h´w
jを以下の式で定義する。
<
The
木構造推定処理部135は、スパンの分割点を推定することで木構造を推定する。任意のスパン(i番目のシーンからj番目のシーンからなるシーンの系列)に対しk番目のシーンでスパンが分割されるスコアssplit(i;j;k)を以下の式で与える。
The tree structure
hi:k=MLPleft(ui:k),hk+1:j=MLPright(uk+1:j),
MLP*は多層パーセプトロンを表す。スパンベクトルui:jはベクトル合成部134により得られたベクトルである。スパンは、下記の式のとおり、式(8)を最大にするkにて分割される。
h i:k = MLP left (u i:k ), h k+1:j = MLP right (u k+1:j ),
MLP * stands for multilayer perceptron. The span vector u i:j is a vector obtained by the
ラベル推定部136は、木構造推定処理部136が決定したスパンの分割点kに対し、分割した2つのスパンに対する核性ラベル、修辞関係ラベルを予測する。予測のスコアは以下の式で与えられる。
The
なお、WlとMLPは核性ラベルを与える場合と修辞ラベルを与える場合とでは独立に最適化する。 Note that W l and MLP are optimized independently in the case of giving a nuclear label and the case of giving a rhetorical label.
<パラメタ最適化部137>
パラメタ最適化部137は、学習対象の全てのパラメタ、すなわち、WS、US、UV、Wu、Wl、vr、vl、LSTM、及びMLPのパラメタを、以下に定義する2つの損失関数の和を最小化することで得る。なお、k*とl*(lはLの小文字)はそれぞれ正解の分割位置、ラベルである。正解の分割位置とラベルは、入力されたアノテーション済み動画のアノテーションかた得られる。損失関数を最小化する演算については、誤差逆伝搬法等の既存手法を用いて行うことができる。
<
The
木構造推定部120は、パラメタ学習部130が出力するパラメタとデータ入力部112が出力するスパンベクトルを用いて木構造を推定する。図7に、木構造推定部120の機能構成を示す。図7に示すように、木構造推定部120は、木構造推定処理部121とラベル推定部122を備える。以下、各部について説明する。
The tree
<木構造推定処理部121>
木構造推定処理部121は、パラメタ学習部130における木構造推定処理部135と同じものである。木構造推定処理部121は初期状態として動画全体に対応するスパンベクトルを入力として受け取り、これを再帰的に2分割することで木構造を得る。シーン数がmである場合、パラメタ学習部130が決定したパラメタを使用した式(8)においてi=1;j=mとして、式(9)で分割点を決定する。これを再帰的に繰り返す。
<Tree structure
The tree structure
例えば、対象とする動画が、図2に示した木構造になることを想定した場合、まず、c1~c3のスパンとc4~c6のスパンに分割され、分割された各スパンが図示のとおりに分割されていく。 For example, assuming that the target video has the tree structure shown in Figure 2, it is first divided into spans c 1 to c 3 and spans c 4 to c 6 , and each divided span is It is divided as shown.
<ラベル推定部122>
ラベル推定部122もパラメタ学習部130のラベル推定部136と同じものである。ラベル推定部122は、木構造推定処理部121にて2分割された2つのスパンベクトルを受け取り、核性ラベルと関係ラベルのそれぞれを推定する。核性ラベルの推定時にはN-S、S-N、N-Nのいずれかに分類し、修辞ラベルの推定時には18種のラベルのいずれかに分類する。
<Label
The
(データ出力部140)
データ出力部140は、木構造推定処理部121が推定したスパンの分割点、及びラベル推定部122が出力したスパンのラベル情報をまとめ、ラベル付き木として、例えばS式として出力する。
(Data output unit 140)
The
(装置のハードウェア構成例)
動画談話構造解析装置100は、データ入力部110、木構造推定部120、パラメタ学習部130、データ出力部140、データ入力装置、木構造推定装置、パラメタ学習装置、データ出力装置(これらを総称して「装置」と呼ぶ)はいずれも、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。
(Example of device hardware configuration)
The video discourse
上記プログラムは、コンピュータが読み取り可能な記録媒体(可搬メモリ等)に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。 The above program can be recorded on a computer-readable recording medium (such as a portable memory) and can be stored or distributed. It is also possible to provide the above program through a network such as the Internet or e-mail.
図8は、上記コンピュータのハードウェア構成例を示す図である。図8のコンピュータは、それぞれバスBSで相互に接続されているドライブ装置1000、補助記憶装置1002、メモリ装置1003、CPU1004、インタフェース装置1005、表示装置1006、入力装置1007、出力装置1008等を有する。
Figure 8 is a diagram showing an example of the hardware configuration of the computer. The computer in Figure 8 has a
当該コンピュータでの処理を実現するプログラムは、例えば、CD-ROM又はメモリカード等の記録媒体1001によって提供される。プログラムを記憶した記録媒体1001がドライブ装置1000にセットされると、プログラムが記録媒体1001からドライブ装置1000を介して補助記憶装置1002にインストールされる。但し、プログラムのインストールは必ずしも記録媒体1001より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置1002は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
A program for realizing processing by the computer is provided, for example, by a
メモリ装置1003は、プログラムの起動指示があった場合に、補助記憶装置1002からプログラムを読み出して格納する。CPU1004は、メモリ装置1003に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置1005は、ネットワークに接続するためのインタフェースとして用いられる。表示装置1006はプログラムによるGUI(Graphical User Interface)等を表示する。入力装置1007はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。出力装置1008は演算結果を出力する。
The
(実施の形態の効果)
以上説明したとおり、本実施の形態では、動画を入力として、シーンを葉、シーン間の関係を核性、関係ラベルで表現する修辞構造木を出力できる。特に、テキスト情報だけでなく画像情報も合わせてシーンの修辞構造推定、関係推定を行うこととしたので、動画から、シーン間の類似性を適切に反映した修辞構造木を生成することができる。
(Effects of the embodiment)
As described above, in this embodiment, a video is input and a rhetorical structure tree can be output in which scenes are represented as leaves and relationships between scenes are represented as kernels and relationship labels. In particular, since the rhetorical structure and relationship inference of scenes is performed not only on the basis of text information but also on the basis of image information, a rhetorical structure tree that appropriately reflects the similarity between scenes can be generated from a video.
(実施の形態のまとめ)
本明細書には、少なくとも下記各項の木構造推定装置、パラメタ学習装置、木構造推定方法、パラメタ学習方法、及びプログラムが開示されている。
(第1項)
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置。
(第2項)
前記修辞構造木の葉が前記動画のシーンと、そのシーンに対するキャプションに対応し、ノードのラベルがシーン系列の核性に対応し、エッジのラベルがシーン系列間の修辞関係に対応する
第1項に記載の木構造推定装置。
(第3項)
前記特徴抽出部は、シーンを構成する各フレームの特徴ベクトルをLSTMに入力することにより当該シーンに対応する動画ベクトルを作成する
第1項又は第2項に記載の木構造推定装置。
(第4項)
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出部と、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定部と、
前記木構造推定部により推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定部に対応するニューラルネットワークのパラメタを最適化するパラメタ最適化部と
を備えるパラメタ学習装置。
(第5項)
木構造推定装置が実行する木構造推定方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定ステップと
を備える木構造推定方法。
(第6項)
パラメタ学習装置が実行するパラメタ学習方法であって、
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定ステップと、
前記木構造推定ステップにより推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定ステップを実行するニューラルネットワークのパラメタを最適化するパラメタ最適化ステップと
を備えるパラメタ学習方法。
(第7項)
コンピュータを、第1項ないし第3項のうちいずれか1項に記載の木構造推定装置における各部として機能させるためのプログラム。
(第8項)
コンピュータを、第4項に記載のパラメタ学習装置における各部として機能させるためのプログラム。
(Summary of embodiments)
This specification discloses at least the following items: a tree structure estimation device, a parameter learning device, a tree structure estimation method, a parameter learning method, and a program.
(Section 1)
a feature extraction unit that extracts, from an input video, a video vector that is a feature of the video and a text vector that is a feature of a text attached to the video;
a vector synthesis unit that generates a composite vector by synthesizing the video vector and the text vector;
A tree structure estimating device comprising: a tree structure estimation unit that estimates a tree structure representing a rhetorical structure tree of the video and a label from the composite vector.
(Section 2)
The leaves of the rhetorical structure tree correspond to scenes of the video and captions for the scenes, the labels of nodes correspond to the core nature of scene sequences, and the labels of edges correspond to rhetorical relationships between scene sequences. tree structure estimation device.
(Section 3)
The tree structure estimating device according to claim 1 or 2, wherein the feature extraction unit creates a video vector corresponding to the scene by inputting the feature vectors of each frame constituting the scene into LSTM.
(Section 4)
a feature extraction unit that extracts, from an input video, a video vector that is a feature of the video and a text vector that is a feature of a text attached to the video;
a vector synthesis unit that generates a composite vector by synthesizing the video vector and the text vector;
a tree structure estimation unit that estimates a tree structure and a label representing a rhetorical structure tree of the video based on the composite vector;
Parameter optimization for optimizing parameters of a neural network corresponding to the tree structure estimator using the tree structure and the label estimated by the tree structure estimator, and correct answer data representing the rhetorical structure tree of the video. A parameter learning device comprising a conversion section and.
(Section 5)
A tree structure estimation method executed by a tree structure estimation device, comprising:
a feature extraction step of extracting a video vector that is a feature amount of the video and a text vector that is a feature amount of a text attached to the video from the input video;
a vector compositing step of composing the video vector and the text vector to generate a composite vector;
A tree structure estimation method comprising: estimating a tree structure representing a rhetorical structure tree of the video and a label from the composite vector.
(Section 6)
A parameter learning method executed by a parameter learning device, comprising:
a feature extraction step of extracting a video vector that is a feature amount of the video and a text vector that is a feature amount of a text attached to the video from the input video;
a vector compositing step of composing the video vector and the text vector to generate a composite vector;
a tree structure estimation step of estimating a tree structure and a label representing a rhetorical structure tree of the video based on the composite vector;
parameter optimization for optimizing the parameters of a neural network that executes the tree structure estimation step using the tree structure and the label estimated in the tree structure estimation step, and correct answer data representing the rhetorical structure tree of the video; A parameter learning method comprising a transformation step and .
(Section 7)
A program for causing a computer to function as each part of the tree structure estimating device according to any one of items 1 to 3.
(Section 8)
A program for causing a computer to function as each part of the parameter learning device according to item 4.
以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。 Although the present embodiment has been described above, the present invention is not limited to such specific embodiment, and various modifications and changes can be made within the scope of the gist of the present invention as described in the claims. It is possible.
100 動画談話構造解析装置
110 データ入力部
111 キャプション生成部
112 スパンベクトル生成部
120 木構造推定部
121 木構造推定処理部
122 ラベル推定部
130 パラメタ学習部
131 特徴量抽出部
132 動画特徴抽出部
133 テキスト特徴抽出部
134 ベクトル合成部
135 木構造推定処理部
136 ラベル推定部
137 パラメタ最適化部
140 データ出力部
1000 ドライブ装置
1001 記録媒体
1002 補助記憶装置
1003 メモリ装置
1004 CPU
1005 インタフェース装置
1006 表示装置
1007 入力装置
1008 出力装置
100 Video discourse
1005
Claims (8)
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定部と
を備える木構造推定装置。 A feature extraction unit that extracts, from an input video, a video vector that is a feature of the video and a text vector that is a feature of text added to the video;
a vector synthesis unit that synthesizes the video vector and the text vector to generate a synthetic vector;
a tree structure estimation unit that estimates a tree structure representing a rhetorical structure tree of the video and a label from the composite vector.
請求項1に記載の木構造推定装置。 2. A leaf of the rhetorical structure tree corresponds to a scene of the video and a caption for the scene, a node label corresponds to a core of a scene sequence, and an edge label corresponds to a rhetorical relationship between scene sequences. tree structure estimation device.
請求項1又は2に記載の木構造推定装置。 The tree structure estimation device according to claim 1 or 2, wherein the feature extraction unit creates a video vector corresponding to the scene by inputting feature vectors of each frame constituting the scene into LSTM.
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成部と、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定部と、
前記木構造推定部により推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定部に対応するニューラルネットワークのパラメタを最適化するパラメタ最適化部と
を備えるパラメタ学習装置。 a feature extraction unit that extracts, from an input video, a video vector that is a feature of the video and a text vector that is a feature of a text attached to the video;
a vector synthesis unit that generates a composite vector by synthesizing the video vector and the text vector;
a tree structure estimation unit that estimates a tree structure and a label representing a rhetorical structure tree of the video based on the composite vector;
Parameter optimization for optimizing parameters of a neural network corresponding to the tree structure estimator using the tree structure and the label estimated by the tree structure estimator, and correct answer data representing the rhetorical structure tree of the video. A parameter learning device comprising a conversion section and.
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルから、前記動画の修辞構造木を表す木構造とラベルを推定する木構造推定ステップと
を備える木構造推定方法。 A tree structure estimation method executed by a tree structure estimation device, comprising:
A feature extraction step of extracting from an input video a video vector that is a feature of the video and a text vector that is a feature of text added to the video;
a vector synthesis step of synthesizing the video vector and the text vector to generate a synthetic vector;
and a tree structure estimation step of estimating a tree structure and a label representing a rhetorical structure tree of the video from the composite vector.
入力された動画から、前記動画の特徴量である動画ベクトルと、前記動画に付されたテキストの特徴量であるテキストベクトルとを抽出する特徴抽出ステップと、
前記動画ベクトルと前記テキストベクトルとを合成して合成ベクトルを生成するベクトル合成ステップと、
前記合成ベクトルに基づいて、前記動画の修辞構造木を表す木構造とラベルとを推定する木構造推定ステップと、
前記木構造推定ステップにより推定された前記木構造と前記ラベル、及び、前記動画の修辞構造木を表す正解データを用いて、前記木構造推定ステップを実行するニューラルネットワークのパラメタを最適化するパラメタ最適化ステップと
を備えるパラメタ学習方法。 A parameter learning method executed by a parameter learning device, comprising:
a feature extraction step of extracting a video vector that is a feature amount of the video and a text vector that is a feature amount of a text attached to the video from the input video;
a vector compositing step of composing the video vector and the text vector to generate a composite vector;
a tree structure estimation step of estimating a tree structure and a label representing a rhetorical structure tree of the video based on the composite vector;
parameter optimization for optimizing the parameters of a neural network that executes the tree structure estimation step using the tree structure and the label estimated in the tree structure estimation step, and correct answer data representing the rhetorical structure tree of the video; A parameter learning method comprising a transformation step and .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035375A JP7457332B2 (en) | 2021-03-05 | 2021-03-05 | Tree structure estimation device, parameter learning device, tree structure estimation method, parameter learning method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021035375A JP7457332B2 (en) | 2021-03-05 | 2021-03-05 | Tree structure estimation device, parameter learning device, tree structure estimation method, parameter learning method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022135518A JP2022135518A (en) | 2022-09-15 |
JP7457332B2 true JP7457332B2 (en) | 2024-03-28 |
Family
ID=83231480
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021035375A Active JP7457332B2 (en) | 2021-03-05 | 2021-03-05 | Tree structure estimation device, parameter learning device, tree structure estimation method, parameter learning method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7457332B2 (en) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562172B (en) * | 2023-07-07 | 2023-09-15 | 中国人民解放军国防科技大学 | Geographical scene time deduction method, device and equipment for space-time narrative |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016162198A (en) | 2015-03-02 | 2016-09-05 | 日本電信電話株式会社 | Parameter learning method, device, and program |
JP2017041207A (en) | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | Structural analysis device, method, and program |
-
2021
- 2021-03-05 JP JP2021035375A patent/JP7457332B2/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016162198A (en) | 2015-03-02 | 2016-09-05 | 日本電信電話株式会社 | Parameter learning method, device, and program |
JP2017041207A (en) | 2015-08-21 | 2017-02-23 | 日本電信電話株式会社 | Structural analysis device, method, and program |
Non-Patent Citations (2)
Title |
---|
AKULA, Arjun R et al.,"Visual Discourse Parsing",arXiv [online],2019年03月,[2024年02月26日検索],インターネット<URL:https://arxiv.org/abs/1903.02252v2>,1903.02252v2 |
小林尚輝 ほか,"階層構造を考慮したトップダウン談話構造解析",言語処理学会 第25回年次大会 発表論文集,言語処理学会,2019年03月04日,p. 1002-1005 |
Also Published As
Publication number | Publication date |
---|---|
JP2022135518A (en) | 2022-09-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Discourse parsing with attention-based hierarchical neural networks | |
Adaloglou et al. | A comprehensive study on deep learning-based methods for sign language recognition | |
CN113761936B (en) | Multi-task chapter-level event extraction method based on multi-head self-attention mechanism | |
KR102458463B1 (en) | A method for training a convolutional neural network for image recognition using image-conditioned masked language modeling | |
US8504361B2 (en) | Deep neural networks and methods for using same | |
Jin et al. | A novel lexicalized HMM-based learning framework for web opinion mining | |
CN111274829B (en) | Sequence labeling method utilizing cross-language information | |
CN106778878B (en) | Character relation classification method and device | |
CN111026861A (en) | Text abstract generation method, text abstract training method, text abstract generation device, text abstract training device, text abstract equipment and text abstract training medium | |
Zhang et al. | Neural multimodal belief tracker with adaptive attention for dialogue systems | |
Zhang et al. | Deep autoencoding topic model with scalable hybrid Bayesian inference | |
Zhou et al. | Gesturemaster: Graph-based speech-driven gesture generation | |
CN112818670B (en) | Segmentation grammar and semantics in a decomposable variant automatic encoder sentence representation | |
CN110705490A (en) | Visual emotion recognition method | |
CN112861514A (en) | Attention-enhanced fully-correlated variational auto-encoder for partitioning syntax and semantics | |
JP7457332B2 (en) | Tree structure estimation device, parameter learning device, tree structure estimation method, parameter learning method, and program | |
Zakraoui et al. | Improving text-to-image generation with object layout guidance | |
JP2019086979A (en) | Information processing device, information processing method, and program | |
CN110990630B (en) | Video question-answering method based on graph modeling visual information and guided by using questions | |
CN114169408A (en) | Emotion classification method based on multi-mode attention mechanism | |
US11494431B2 (en) | Generating accurate and natural captions for figures | |
CN113378919A (en) | Image description generation method for fusing visual sense and enhancing multilayer global features | |
CN113010717B (en) | Image verse description generation method, device and equipment | |
Zakraoui et al. | Visualizing Children Stories with Generated Image Sequences | |
Subramanian et al. | Image Caption Generation using CNN-GRU Approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7426 Effective date: 20210309 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20210309 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230215 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240229 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240305 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240307 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7457332 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |