JP7426919B2 - Program, device and method for estimating causal terms from images - Google Patents
Program, device and method for estimating causal terms from images Download PDFInfo
- Publication number
- JP7426919B2 JP7426919B2 JP2020183065A JP2020183065A JP7426919B2 JP 7426919 B2 JP7426919 B2 JP 7426919B2 JP 2020183065 A JP2020183065 A JP 2020183065A JP 2020183065 A JP2020183065 A JP 2020183065A JP 7426919 B2 JP7426919 B2 JP 7426919B2
- Authority
- JP
- Japan
- Prior art keywords
- sentences
- image
- cause
- word
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000001364 causal effect Effects 0.000 title claims description 109
- 238000000034 method Methods 0.000 title claims description 15
- 230000004044 response Effects 0.000 claims description 108
- 239000013598 vector Substances 0.000 claims description 59
- 238000012549 training Methods 0.000 claims description 42
- 230000006870 function Effects 0.000 claims description 31
- 230000000694 effects Effects 0.000 claims description 18
- 239000002245 particle Substances 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 12
- 238000013136 deep learning model Methods 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 18
- 238000005516 engineering process Methods 0.000 description 9
- 238000006243 chemical reaction Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 5
- 238000013528 artificial neural network Methods 0.000 description 4
- 239000000284 extract Substances 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000000740 bleeding effect Effects 0.000 description 2
- 239000008280 blood Substances 0.000 description 2
- 210000004369 blood Anatomy 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 102100034761 Cilia- and flagella-associated protein 418 Human genes 0.000 description 1
- 241000238558 Eucarida Species 0.000 description 1
- 101100439214 Homo sapiens CFAP418 gene Proteins 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
Images
Landscapes
- Machine Translation (AREA)
- Image Analysis (AREA)
Description
本発明は、画像に対して、原因語及び結果語からなる因果関係語を推定する技術に関する。この技術は、映像を見ているユーザと対話エージェントとが自然な対話を実現する用途に適用することができる。 The present invention relates to a technique for estimating causal words consisting of a cause word and a result word for an image. This technology can be applied to applications in which a user viewing a video and a dialogue agent can have a natural dialogue.
ユーザとの対話システムとしては、テキストベースが一般的である。端末は、ユーザインタフェースとして機能し、ユーザの発話音声を対話システムへ送信する。対話システムは、その発話文に対して自然な対話となる応答文を推定し、その応答文を端末へ返信する。そして、端末は、その応答文を音声又はテキストによって、ユーザへ返答する。このような対話システムとしては、例えば「Siri(登録商標)」や「しゃべってコンシェル(登録商標)」がある。 Text-based systems are commonly used as interaction systems with users. The terminal functions as a user interface and transmits the user's speech to the dialogue system. The dialogue system estimates a response sentence that will be a natural dialogue for the uttered sentence, and sends the response sentence back to the terminal. Then, the terminal replies to the user with the response sentence in voice or text. Examples of such dialogue systems include "Siri (registered trademark)" and "Shabette Concierge (registered trademark)."
近年、ユーザ周辺のマルチモーダル情報(動画、画像、キャプション、字幕、音声、自然言語テキストなど)に応じた対話システムの技術が期待されている。この技術によれば、ユーザの発話文に対して、ユーザ周辺の様々なマルチモーダル情報に応じた自然な応答文を推定することができる。特に、AI(Artificial Intelligence)を用いて、テレビ番組や映画、オンラインビデオのような周辺状況に応じて自然な対話をすることができ、ユーザの対話意欲を高めることが期待される。 In recent years, there have been high expectations for dialogue system technology that responds to multimodal information (videos, images, captions, subtitles, audio, natural language text, etc.) surrounding the user. According to this technology, it is possible to estimate a natural response sentence to a user's utterance according to various multimodal information surrounding the user. In particular, by using AI (Artificial Intelligence), it is possible to have natural dialogues depending on the surrounding situation, such as TV programs, movies, and online videos, and it is expected that this will increase the user's desire for dialogue.
従来、ユーザが視聴している映像の内容に基づいて、ユーザとロボットとが対話する対話システムの技術がある(例えば非特許文献1参照)。この技術によれば、音声付き映像及び字幕を入力することによって、ユーザの質問文に対して、当該ユーザが視聴している映像に応じた応答文を返答することができる。 2. Description of the Related Art Conventionally, there is a technology for an interaction system in which a user and a robot interact based on the content of a video that the user is viewing (for example, see Non-Patent Document 1). According to this technology, by inputting a video with audio and subtitles, it is possible to respond to a user's question with a response text that corresponds to the video that the user is viewing.
また、音声付き映像及び字幕の特徴ベクトルを学習し、直前の質問文に対する応答文を生成する技術もある(例えば非特許文献2参照)。この技術によれば、対話システムは、訓練済みの学習モデルGPT-2(登録商標)を用いてファインチューニングをし、マルチモーダル情報に応じた応答文の対話精度を高めることができる。 There is also a technology that learns feature vectors of audio-accompanied video and subtitles and generates a response to the previous question (see, for example, Non-Patent Document 2). According to this technology, the dialogue system can perform fine tuning using the trained learning model GPT-2 (registered trademark) and improve the dialogue accuracy of response sentences according to multimodal information.
更に、発話文に対して因果関係を持つ応答文を生成し、自然な対話を実現する技術がある(例えば非特許文献3参照)。この技術によれば、因果関係を持つ単語ペア辞書を予め構築し、発話文と因果関係を持つ応答文を優先的に選択する(リランキング応答生成)。具体的には、ユーザの発話文の単語と応答文の単語とをペアとして、単語ペア辞書を照合する。照合一致した際に、因果関係があると判定し、この応答文を優先的に選択する。
例えば以下の文章に対して、因果関係語を抽出して学習することができる。
「円安になったため、貿易の視点から見ると日本の景気が上昇することが期待できる」
:因果関係語{(円安になる)->(景気が上昇)}
Furthermore, there is a technology that generates a response sentence that has a causal relationship with an uttered sentence and realizes a natural dialogue (for example, see Non-Patent Document 3). According to this technique, a dictionary of word pairs having a causal relationship is constructed in advance, and a response sentence having a causal relationship with an uttered sentence is preferentially selected (reranking response generation). Specifically, the words in the user's uttered sentence and the words in the response sentence are paired and compared against a word pair dictionary. When a match is found, it is determined that there is a causal relationship, and this response sentence is selected preferentially.
For example, it is possible to extract and learn causal words from the following sentences:
"As the yen has weakened, we can expect Japan's economy to improve from a trade perspective."
: Causal relationship word {(yen becomes weaker) -> (economy rises)}
更に、大規模な対話コーパスから因果関係を持つ対話データ(発話文及び応答文)のみを用いて、学習モデルを作成する技術もある(例えば非特許文献4参照) Furthermore, there is also a technique for creating a learning model using only dialogue data (utterances and response sentences) that have causal relationships from a large-scale dialogue corpus (for example, see Non-Patent Document 4).
しかしながら、前述した非特許文献1及び2に記載の技術によれば、音声付き映像及び字幕のようなマルチモーダル情報を用いているものの、ユーザの直前の発話文に応じた応答文を生成しているに過ぎない。そのために、発話文と応答文以外のオープンドメインの話題に対して、例えば雑談のような自然な対話を生成することは難しい。これは、結局、ユーザの直前の質問文(発話文)に対する回答文(応答文)との関係に過ぎない。
However, according to the technologies described in
また、前述した非特許文献3に記載の技術によれば、学習時には、単語ペアのみを照合するために、その単語ペア以外の文脈の特徴量を全く考慮してない。前述の例の因果関係語{(円安になる)->(景気が上昇)}によれば、「貿易の視点」や「日本」のような制限となる特徴量が、全く含まれないこととなる。また、運用時には、実際のユーザの発話文に対して、予め学習された因果関係語が完全一致で照合しないと、リランキングを実現できないという問題もある。 Furthermore, according to the technique described in the above-mentioned Non-Patent Document 3, during learning, only word pairs are compared, and therefore no consideration is given to the feature amounts of the context other than the word pairs. According to the causal relationship term in the above example {(the yen weakens) -> (the economy rises)}, there are no restrictive features such as "trade perspective" or "Japan" included. becomes. In addition, during operation, there is a problem that reranking cannot be achieved unless pre-learned causal relation words are completely matched against sentences uttered by an actual user.
更に、非特許文献4に記載の技術によれば、因果関係を持つ対話データ(発話文及び応答文)のみを用いて学習モデルを作成するために、教師データとなる対話データに依存しすぎてしまう。これは、教師データにおけるユーザの発話文に対する応答文としての多様性や汎用性が乏しいという問題もある。 Furthermore, according to the technology described in Non-Patent Document 4, since a learning model is created using only dialogue data (utterances and response sentences) that have a causal relationship, the learning model is too dependent on dialogue data as training data. Put it away. This also has the problem of lack of diversity and versatility as responses to user utterances in the training data.
これに対し、本願の発明者らは、マルチモーダル情報としての字幕文付き映像を用いて、映像に字幕文を対応付けて学習させることによって、映像に対する言語の特徴を抽出することができるのではないか、と考えた。その上で、ユーザの発話文に対して複数の応答文の候補が推定できた際に、映像に対する言語の特徴に応じた応答文を選択することができるのではないか、と考えた。
これを実現するには少なくとも、画像(映像の中のフレーム)から、因果関係語(原因語及び結果語)を推定することができれば、その因果関係語に応じた応答文を返答することができるのではないか、と考えた。
On the other hand, the inventors of the present application believe that it is possible to extract the linguistic features of a video by using videos with subtitles as multimodal information and learning to associate subtitles with videos. I wondered if there was. Based on this, we thought that when multiple response sentence candidates can be estimated for a user's utterance, it would be possible to select a response sentence that corresponds to the language characteristics of the video.
To achieve this, at least if it is possible to infer the causal words (cause and result words) from the image (frame in the video), it is possible to respond with a response sentence that corresponds to the causal word. I thought that might be the case.
そこで、本発明は、画像から、因果関係語(原因語及び結果語)を推定することができるプログラム、装置及び方法を提供することを目的とする。そして、ユーザ周辺のマルチモーダル情報から因果関係語を推定し、ユーザの発話文に対してその因果関係に応じた応答文を返答することによって、ユーザとできる限り自然に対話させること目的とする。 SUMMARY OF THE INVENTION Therefore, an object of the present invention is to provide a program, a device, and a method that can estimate causal words (cause and result words) from images. The purpose is to make the interaction with the user as natural as possible by estimating causal relation words from multimodal information around the user and responding to the user's utterances with a response sentence according to the causal relation.
本発明によれば、画像から、原因語及び結果語の因果関係語を推定するようにコンピュータを機能させるプログラムであって、
教師データとして、画像と、当該画像に紐付く字幕文とが対応付けられており、
訓練段階について、
字幕文の特徴ベクトルを入力し、因果関係有りと推定された字幕文から原因語及び結果語を推定する因果関係学習エンジンと、
画像の特徴ベクトルを入力し、因果関係学習エンジンによって推定された原因語及び結果語を出力するように訓練する画像学習エンジンと
して機能させ、
推定段階について、
画像学習エンジンは、対象データとしての画像を入力し、原因語及び結果語を出力する
ようにコンピュータを機能させることを特徴とする。
According to the present invention, there is provided a program that causes a computer to function to estimate causal relation words of a cause word and a result word from an image,
As training data, images are associated with subtitles associated with the images.
Regarding the training stage,
a causal relationship learning engine that inputs feature vectors of subtitle sentences and estimates cause and effect words from subtitle sentences that are estimated to have a causal relationship;
Function as an image learning engine that inputs image feature vectors and trains to output cause and effect words estimated by the causal relationship learning engine,
Regarding the estimation stage,
The image learning engine is characterized by inputting images as target data and causing a computer to function so as to output cause words and result words.
本発明のプログラムにおける他の実施形態によれば、
訓練段階について、
画像学習エンジンは、敵対的生成ネットワークによって構成されており、
画像の特徴ベクトルを入力する生成器と、
生成器から出力された原因語及び結果語と、因果関係推定手段から出力された原因語及び結果語とを入力する識別器と
して訓練する
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
Regarding the training stage,
The image learning engine is composed of a generative adversarial network,
a generator inputting a feature vector of an image;
It is also preferable that the computer be trained as a discriminator that receives the cause and effect words output from the generator and the cause and effect words output from the causality estimation means.
本発明のプログラムにおける他の実施形態によれば、
生成器は、Transformerに基づくものであり、
識別器は、分類型の畳み込みニューラルネットワークに基づくものである
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The generator is based on Transformer,
Preferably, the computer functions such that the discriminator is based on a convolutional neural network of the classification type.
本発明のプログラムにおける他の実施形態によれば、
因果関係学習エンジンは、
訓練時に、
文の前後を因果関係で接続する接続助詞を予め登録しており、教師データの字幕文を入力し、接続助詞を含む字幕文を選別する字幕文選別手段と
選別された字幕文を入力層へ入力し、第1出力層から原因語が出力され、第2出力層から結果語が出力されるように、マルチタスク深層学習モデルとして学習する因果関係語推定手段と
してコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The causal learning engine is
During training,
Conjunctive particles that connect sentences before and after sentences in a causal relationship are registered in advance, and a subtitle sentence selection means that inputs subtitle sentences from teacher data and selects subtitle sentences that include conjunctive particles, and sends the selected subtitle sentences to the input layer. It is also preferable for the computer to function as a causal relationship word estimating means that is trained as a multi-task deep learning model so that the cause word is input, the cause word is output from the first output layer, and the result word is output from the second output layer.
本発明のプログラムにおける他の実施形態によれば、
因果関係語推定手段は、
入力層と、
埋め込み層と、
当該埋め込み層から分岐した第1再帰ネットワーク層、第1識別層及び第1出力層と、
当該埋め込み層から分岐した第2再帰ネットワーク層、第2識別層及び第2出力層としてコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
The causal relationship term estimation means is
an input layer;
an embedded layer;
a first recursive network layer, a first identification layer, and a first output layer branched from the embedding layer;
It is also preferable that the computer function as a second recursive network layer, a second identification layer, and a second output layer branched from the embedding layer.
本発明のプログラムにおける他の実施形態によれば、
特徴ベクトルは、分散表現生成アルゴリズムによって生成されたものである
ように機能させることも好ましい。
According to another embodiment of the program of the present invention,
It is also preferred that the feature vectors act as if they were generated by a distributed representation generation algorithm.
本発明のプログラムにおける他の実施形態によれば、
訓練時に、
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対話文履歴における発話文及び応答文の組毎に、当該映像から画像を抽出するマルチモーダル情報抽出手段と、
発話文及び応答文の組毎に、発話文をエンコーダ側に入力し、デコーダ側から応答文を出力するように訓練する応答文推定エンジンと
して機能させ、
推定時に、
応答文推定エンジンは、ユーザの発話文を入力し、候補となる複数の応答文を出力し、
候補となる複数の応答文の中から、画像学習エンジンによって出力された結果語を含む又は類似する応答文を選択する応答文リランキング手段と
してコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
During training,
The training data consists of a video and a series of dialogue history including multiple sets of utterances and response sentences between the people viewing the video,
multimodal information extraction means for extracting an image from the video for each set of uttered sentences and response sentences in the dialogue history;
Functions as a response sentence estimation engine that trains each set of utterance sentences and response sentences to input the utterance sentences to the encoder side and output the response sentences from the decoder side,
When estimating,
The response sentence estimation engine inputs the user's utterance, outputs multiple candidate response sentences,
It is also preferable that the computer function as a response sentence reranking means that selects response sentences that include or are similar to the result word output by the image learning engine from among a plurality of candidate response sentences.
本発明のプログラムにおける他の実施形態によれば、
応答文推定エンジンは、汎用的な発話文及び応答文の間の特徴を抽出可能なSeq2Seqである
ようにコンピュータを機能させることも好ましい。
According to another embodiment of the program of the present invention,
It is also preferable that the computer functions as the response sentence estimation engine using Seq2Seq, which is capable of extracting features between a general-purpose utterance sentence and a response sentence.
本発明によれば、画像から、原因語及び結果語の因果関係語を推定する推定装置であって、
教師データとして、画像と、当該画像に紐付く字幕文とが対応付けられており、
訓練段階について、
字幕文の特徴ベクトルを入力し、因果関係有りと推定された字幕文から原因語及び結果語を推定する因果関係学習エンジンと、
画像の特徴ベクトルを入力し、因果関係学習エンジンによって推定された原因語及び結果語を出力するように訓練する画像学習エンジンと
を有し、
推定段階について、
画像学習エンジンは、対象データとしての画像を入力し、原因語及び結果語を出力する
ことを特徴とする。
According to the present invention, there is provided an estimation device for estimating a causal relation word between a cause word and a result word from an image,
As training data, images are associated with subtitles associated with the images.
Regarding the training stage,
a causal relationship learning engine that inputs feature vectors of subtitle sentences and estimates cause and effect words from subtitle sentences that are estimated to have a causal relationship;
and an image learning engine that trains to input image feature vectors and output cause and effect words estimated by the causal relationship learning engine,
Regarding the estimation stage,
The image learning engine is characterized by inputting images as target data and outputting cause words and result words.
本発明によれば、画像から、原因語及び結果語の因果関係語を推定する装置の推定方法であって、
教師データとして、画像と、当該画像に紐付く字幕文とが対応付けられており、
装置は、
訓練段階について、
字幕文の特徴ベクトルを入力し、因果関係有りと推定された字幕文から原因語及び結果語を推定する因果関係学習エンジンと、
画像の特徴ベクトルを入力し、因果関係学習エンジンによって推定された原因語及び結果語を出力するように訓練する画像学習エンジンと
を有し、
推定段階について、
画像学習エンジンは、対象データとしての画像を入力し、原因語及び結果語を出力する
ことを特徴とする。
According to the present invention, there is provided an estimation method of a device for estimating causal relation words of a cause word and a result word from an image, comprising:
As training data, images are associated with subtitles associated with the images.
The device is
Regarding the training stage,
a causal relationship learning engine that inputs feature vectors of subtitle sentences and estimates cause and effect words from subtitle sentences that are estimated to have a causal relationship;
and an image learning engine that trains to input image feature vectors and output cause and effect words estimated by the causal relationship learning engine,
Regarding the estimation stage,
The image learning engine is characterized by inputting images as target data and outputting cause words and result words.
本発明のプログラム、装置及び方法によれば、画像から、因果関係語(原因語及び結果語)を推定することができる。そして、ユーザ周辺のマルチモーダル情報から因果関係語を推定し、ユーザの発話文に対してその因果関係に応じた応答文を返答することによって、ユーザとできる限り自然に対話させることができる。 According to the program, device, and method of the present invention, causal words (cause word and result word) can be estimated from an image. Then, by estimating a causal relationship word from multimodal information around the user and responding to the user's utterance with a response sentence that corresponds to the causal relationship, it is possible to interact with the user as naturally as possible.
以下、本発明の実施の形態について、図面を用いて詳細に説明する。 Hereinafter, embodiments of the present invention will be described in detail using the drawings.
図面によれば、説明上、以下のように分類される。
最初に、図1~図4は、画像から因果関係語を推定する推定装置について説明する。図1~図3は<訓練時>として説明し、図4は<推定時>として説明する。
次に、図5及び図6は、映像から因果関係語を推定する推定装置について説明する。図5は<訓練時>として説明し、図6は<推定時>として説明する。
更に、図7~図9は、映像に応じて発話文に対する応答文を返答する推定装置について説明する。
According to the drawings, for the sake of explanation, they are classified as follows.
First, FIGS. 1 to 4 will explain an estimation device that estimates causal terms from images. 1 to 3 will be described as <during training>, and FIG. 4 will be described as <during estimation>.
Next, FIG. 5 and FIG. 6 will explain an estimation device that estimates a causal relation word from a video. FIG. 5 will be described as <during training>, and FIG. 6 will be described as <during estimation>.
Furthermore, FIGS. 7 to 9 explain an estimation device that responds with a response sentence to an uttered sentence according to a video.
<画像から因果関係語を推定する推定装置における<訓練時>>
図1は、画像から因果関係語を推定する訓練時の推定装置の機能構成図である。
<<During training> in the estimation device that estimates causal terms from images>
FIG. 1 is a functional configuration diagram of an estimation device during training that estimates causal relation words from images.
図1によれば、推定装置1は、訓練時に、画像特徴ベクトル生成部101と、言語特徴ベクトル生成部102と、因果関係学習エンジン11と、画像学習エンジン12とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、推定装置の訓練方法としても理解できる。
また、推定装置1には、教師データとして、画像と字幕文とが入力されている。教師データは、訓練時に外部から入力する必要がある。
According to FIG. 1, the
Furthermore, images and subtitle sentences are input to the
[画像特徴ベクトル生成部101]
画像特徴ベクトル生成部101は、画像を入力し、その画像から画像特徴ベクトル(潜在空間のランダムベクトル)を生成する。その画像特徴ベクトルは、画像学習エンジン12へ出力される。
画像特徴ベクトルは、具体的にはVisualBERT(登録商標)のような分散表現生成(embedding)アルゴリズムを適用し、高次元ベクトルに置き換えたものである。
[Image feature vector generation unit 101]
The image feature
Specifically, the image feature vector is replaced with a high-dimensional vector by applying a distributed representation generation (embedding) algorithm such as VisualBERT (registered trademark).
[言語特徴ベクトル生成部102(字幕文用)]
言語特徴ベクトル生成部102は、画像に紐付く字幕文を入力し、形態素解析によって形態素に分析し、形態素毎に言語特徴ベクトル(潜在空間のランダムベクトル)を生成する。その言語特徴ベクトルは、因果関係学習エンジン11へ出力される。
言語特徴ベクトルも、具体的にはBERT(登録商標)やGPT-2(登録商標)のような分散表現生成アルゴリズムを適用し、高次元ベクトルに置き換えたものである。
[Language feature vector generation unit 102 (for subtitle text)]
The language feature
Specifically, the language feature vector is also replaced with a high-dimensional vector by applying a distributed representation generation algorithm such as BERT (registered trademark) or GPT-2 (registered trademark).
BERT(Bidirectional Encoder Representations from Transformers)とは、Transformerアーキテクチャ(例えば非特許文献3参照)による双方向学習のエンコード表現であり、Google(登録商標)の自然言語処理モデルである。映像や画像についてはVideoBERTやVisualBERTがある。BERTは、Seq2seqベースの事前学習モデルであり、ラベルが付与されていない特徴ベクトル(分散表現)をTransformerで処理して学習する。これは、連続する文章の中で、次に来る単語を単に予測するだけでなく、周りの文脈からからマスクされている単語を双方向で予測する。これによって、単語に対応する文脈情報を学習する。
また、GPT-2(Generative Pre-Training 2)は、Open AIに基づくものであり、自然言語に代えてピクセルで学習する。これによって、前半の映像(又は一部の画像)のシーケンスから、人間が感覚的に考えるであろう後半の映像(又は画像全体)を予測することができる。
BERT (Bidirectional Encoder Representations from Transformers) is an encoded representation of bidirectional learning using the Transformer architecture (for example, see Non-Patent Document 3), and is a natural language processing model of Google (registered trademark). For videos and images, there are VideoBERT and VisualBERT. BERT is a Seq2seq-based pre-learning model that learns by processing unlabeled feature vectors (distributed representations) with a Transformer. It not only predicts the next word in a sequence of sentences, but also bidirectionally predicts words that are masked from the surrounding context. In this way, context information corresponding to the word is learned.
Additionally, GPT-2 (Generative Pre-Training 2) is based on Open AI and uses pixels to learn instead of natural language. As a result, it is possible to predict the second half of the video (or the entire image) that humans would intuitively think of from the first half of the video (or some images) sequence.
[因果関係学習エンジン11]
因果関係学習エンジン11は、言語特徴ベクトル生成部102から、教師データとしての字幕文の特徴ベクトルを入力し、因果関係有りと推定された字幕文から原因語及び結果語(因果関係語)を推定する。
図1によれば、因果関係学習エンジン11は、字幕文選別部111と、因果関係語推定部112とを有する。
[Causal relationship learning engine 11]
The causal
According to FIG. 1, the causal
[字幕文選別部111]
字幕文選別部111は、文の前後を因果関係で接続する接続助詞を予め登録している。その上で、字幕文選別部111は、教師データの字幕文を入力し、接続助詞を含む字幕文を選別する。
[Subtitle sentence selection unit 111]
The subtitle
図2は、字幕文選別部の説明図である。 FIG. 2 is an explanatory diagram of the subtitle sentence selection section.
図2によれば、字幕文選別部111は、分類型のニューラルネットワークであり、コーパスデータによって予め訓練されたものである。ここでは、コーパスデータの訓練時と、字幕文の分類判定の推定時とに分けられる。
According to FIG. 2, the subtitle
(コーパスデータの訓練時)
字幕文選別部111は、コーパスデータを入力し、因果関係有りとなる文章全体の表現の特徴を網羅的に抽出した深層学習モデルを構築する。
コーパスデータは、インターネット上で、自然言語の文章を構造化して大規模に集積した大量の「コーパス」である。これは、例えばウィキペディア(Wikipedia)(登録商標)のような百科事典であって、自然言語として正当な文章群である。勿論、Webサイトにおける自然言語知識のコンテンツの文章群であってもよい。
(When training on corpus data)
The subtitle
Corpus data is a large-scale "corpus" that is a large-scale collection of structured natural language sentences on the Internet. This is, for example, an encyclopedia such as Wikipedia (registered trademark), and is a group of sentences that are valid as natural language. Of course, it may also be a group of sentences of natural language knowledge content on a website.
大規模なコーパスに含まれる文章の群から、接続助詞テーブルに登録された「接続助詞」を含む学習文章を選別する。接続助詞を含む文は、接続助詞を挟んで、因果関係となる原因語及び結果語を含む場合が多い。
接続助詞テーブルは、文章中の前後を因果関係で接続する接続助詞を登録したものである。「接続助詞」とは、前文と後文との間に因果関係を構築する助詞であり、因果関係の手がかりとなるものである。
例えば、以下のような助詞がある。
「~ため、~」「~から、~」「~により、~」「~によって、~」
「~を背景に、~」「~を受け、~」「~の結果、~」「~をきっかけに、~」
「~の影響、~」「~の原因、~」「~を行うと、~」「~すれば、~」
「~しないと、~」「~に伴い、~」「~を反映し、~」
From a group of sentences included in a large-scale corpus, training sentences containing "conjunctive particles" registered in the conjunctive particle table are selected. Sentences that include a conjunctive particle often include a cause word and a result word that are in a causal relationship with the conjunctive particle in between.
The conjunctive particle table is a register of conjunctive particles that connect the preceding and following sentences in a causal relationship. A "conjunctive particle" is a particle that establishes a causal relationship between a preceding sentence and a subsequent sentence, and serves as a clue to the causal relationship.
For example, there are particles such as:
"for,""from,""by,""by,"
"In the background of...""In response to...""As a result of...""In the wake of..."
"The effect of...""The cause of...""If you do...""If you do..."
"If we don't...""In accordance with...""Reflecting..."
字幕文選別部111は、例えば以下のようなコーパスデータを入力したとする。
コーパスデータ:「手を切った{ため}血が出た」
このコーパスデータは、接続助詞として「ため」を含むと判定し、その接続助詞を削除して連結して、以下のような文を作成する。
因果関係語 :「手を切った、血が出た」
その因果関係後は、データ前処理、畳み込み層、プーリング層、全結合層、識別層によって、因果関係有りとして訓練される。
It is assumed that the subtitle
Corpus data: “I cut my hand and it bled.”
This corpus data is determined to include "tame" as a conjunctive particle, and the following conjunctive particle is deleted and concatenated to create the following sentence.
Causal words: “I cut my hand, there was blood”
After the causal relationship is established, data preprocessing, convolution layer, pooling layer, fully connected layer, and discrimination layer are used to train the data as having a causal relationship.
(字幕文の分類判定の推定時)
字幕文選別部111は、因果関係が不明な字幕文を入力すると、形態素分析によって形態素に区分した上で、因果関係有り又は無しの分類結果を出力する。
字幕文選別部111は、言語特徴ベクトル生成部102から、以下のような特徴ベクトルの字幕文を入力したとする。
字幕文 :「手を切って、血が出た」
この字幕文は、データ前処理、畳み込み層、プーリング層、全結合層、識別層によって、「因果関係有り」として判定される。
そして、字幕文選別部111は、因果関係有りと推定した字幕文のみを、因果関係語推定部112へ出力する。
字幕文 :「手を切って、血が出た」
(When estimating the classification judgment of subtitle sentences)
When the subtitle
It is assumed that the subtitle
Subtitle: "I cut my hand and it bled"
This subtitle sentence is determined to have a "causal relationship" by data preprocessing, convolution layer, pooling layer, fully connected layer, and discrimination layer.
Then, the subtitle
Subtitle: "I cut my hand and it bled"
[因果関係語推定部112]
因果関係語推定部112は、選別された字幕文を入力層へ入力し、第1出力層から原因語が出力され、第2出力層から結果語が出力されるように、マルチタスク深層学習モデルとして学習する。
因果関係語推定部112は、字幕文選別部111から、因果関係有りと推定された字幕文のみを入力し、その字幕文における原因語及び結果語(因果関係語)それぞれを出力する。
[Causal relation word estimation unit 112]
The causal relation
The causal relationship
図3は、因果関係語推定部の説明図である。 FIG. 3 is an explanatory diagram of the causal relationship word estimation unit.
図3によれば、因果関係語推定部112は、以下のように2つの系列に分岐して構成される。
{(原因語)->(結果語)}
-> 第1再帰ネットワーク層 -> 第1識別層 -> 原因語出力層
-> 第2再帰ネットワーク層 -> 第2識別層 -> 結果語出力層
According to FIG. 3, the causal relationship
{(Cause word)->(Result word)}
-> 1st recursive network layer -> 1st discrimination layer -> Cause word output layer
-> 2nd recursive network layer -> 2nd identification layer -> Result word output layer
第1再帰ネットワーク層及び第2再帰ネットワーク層は、同一のRNN(Recurrent Neural Network)である。RNNは、学習文章の時系列データをそのまま入力することによって、時間依存性を学習することができるモデルである。RNNとしては、例えばLSTM(Long Short-Term Memory)やGRU(Gated Recurrent Unit)を用いることができる。LSTMは、複数のブロックを並べて、各ブロックが、誤差を内部に留まらせて勾配消失を防ぐセルと、必要な情報を必要なタイミングで保持・消却させる入力ゲート、出力ゲート及び忘却ゲートとから構成されている。GRUは、LSTMを簡略化したものであり、リセットゲートと更新ゲートとからなる。
第1識別層及び第2識別層は、同一の識別器(Discriminator)であり、第1識別層は原因語を識別し、第2識別層は結果語を識別する。
最終的に、原因語出力層は原因語を出力し、結果語出力層は結果語を出力する。
The first recurrent network layer and the second recurrent network layer are the same RNN (Recurrent Neural Network). RNN is a model that can learn time dependence by inputting time-series data of learning sentences as they are. As the RNN, for example, LSTM (Long Short-Term Memory) or GRU (Gated Recurrent Unit) can be used. LSTM consists of multiple blocks lined up, each block consisting of a cell that keeps errors inside to prevent gradient disappearance, and input gates, output gates, and forgetting gates that retain and erase necessary information at the necessary timing. has been done. GRU is a simplified version of LSTM and consists of a reset gate and an update gate.
The first discrimination layer and the second discrimination layer are the same discriminator, the first discrimination layer discriminating cause words, and the second discrimination layer discriminating result words.
Finally, the cause word output layer outputs the cause word, and the result word output layer outputs the result word.
[画像学習エンジン12]
画像学習エンジン12は、画像の特徴ベクトルを入力し、因果関係学習エンジン11によって推定された原因語及び結果語を出力するように訓練する。
画像学習エンジン12は、例えばGAN(Generative adversarial networks)のような敵対的生成ネットワークによって構成されており、生成器(Generator)と識別器(Discriminator)とからなる。
生成器121は、画像の特徴ベクトルを入力し、原因語及び結果語を出力する。生成器は、Transformerに基づくものである。
識別器122は、生成器121から出力された原因語及び結果語と、因果関係語推定部112から出力された原因語及び結果語とを入力する。識別器は、分類型の畳み込みニューラルネットワークに基づくものである。識別器122は、生成器121から出力された原因語及び結果語が、本物か偽物かを予測して出力する。識別器122の予測結果は、生成器121へフィードバックされる。結果的に、生成器121は、識別器122が誤るような偽物の原因語及び結果語を生成するように学習していき、識別器122は、その偽物の原因語及び結果語を判別できるように学習していく。
[Image learning engine 12]
The
The
The
The
<画像から因果関係語を推定する推定装置における<推定時>>
図4は、画像から因果関係語を推定する推定時の推定装置の機能構成図である。
<<At the time of estimation> in the estimation device that estimates causal terms from images>
FIG. 4 is a functional configuration diagram of an estimation device for estimating a causal relation word from an image.
図4によれば、画像特徴ベクトル生成部101と、画像学習エンジン12の生成器121とからなる。
画像特徴ベクトル生成部101は、任意の画像を入力し、その画像から画像特徴ベクトルを生成する。その画像特徴ベクトルは、画像学習エンジン12の生成器121へ出力される。
生成器121は、特徴ベクトルの画像を入力し、原因語及び結果語(因果関係語)を出力する。
図4によれば、任意の画像から、以下のような因果関係語が出力されている。
因果関係語 「手を切る、血が出る」
According to FIG. 4, it consists of an image feature
The image feature
The
According to FIG. 4, the following causal relation words are output from an arbitrary image.
Causal words “cut your hand, bleed”
<映像から因果関係語を推定する推定装置<訓練時>>
図5は、教師データとしての字幕文付き映像から因果関係語を推定する訓練時の推定装置の機能構成図である。
<Estimation device that estimates causality words from videos <During training>>
FIG. 5 is a functional configuration diagram of an estimation device during training that estimates causal words from videos with subtitles as teacher data.
推定装置1は、ユーザとの間で、自然な対話を実現するものであり、ユーザの発話文に対する応答文を生成する。
図5によれば、サーバ機能を有する推定装置1は、ユーザインタフェース機能を有する端末2と通信する。端末2は、ユーザに対する入出力デバイスとして、マイクによってユーザの音声を取得し、スピーカによってユーザへ発声するものであってもよいし、ユーザからテキストベースの発話文を入力し、応答文を表示するものであってもよい。
尚、音声認識機能は、推定装置1に搭載されたものであってもよいし、端末2に搭載されていてもよい。
The
According to FIG. 5, an
Note that the voice recognition function may be installed in the
図5によれば、図1と比較して、マルチモーダル情報抽出部103を更に有し、訓練時における教師データを入力する。ここで、教師データは、過去に記録された大量のマルチモーダル情報としての「字幕文付き映像」である。
According to FIG. 5, compared to FIG. 1, it further includes a multimodal
[マルチモーダル情報抽出部103]
マルチモーダル情報抽出部103は、マルチモーダル情報に対して、画像の抽出機能と、字幕文の抽出機能とを有する。
マルチモーダル情報抽出部103は、教師データの一連の映像の中で、字幕文毎に、映像からサンプリング的な1枚の画像を抽出する。例えば、1つの字幕文に対して、映像の中でその時点の1枚のフレームとなる画像が抽出される。
映像付き字幕文から抽出された画像は、画像特徴ベクトル生成部101へ出力される。
また、映像付き字幕文から抽出された字幕文は、言語特徴ベクトル生成部102へ出力される。
[Multimodal information extraction unit 103]
The multimodal
The multimodal
The image extracted from the video-attached subtitle text is output to the image feature
Further, the subtitle sentence extracted from the video-attached subtitle sentence is output to the language feature
<映像から因果関係語を推定する推定装置<推定時>>
図6は、映像から因果関係語を推定する推定時の推定装置の機能構成図である。
<Estimation device for estimating causal relation words from video <Estimation time>>
FIG. 6 is a functional configuration diagram of an estimation device for estimating a causal relation word from a video.
図6によれば、推定装置1は、ユーザインタフェース機能となる端末2と通信する。端末2は、ユーザ周辺のマルチモーダル情報を取得可能なデバイスを搭載している。少なくともユーザが視聴中の映像を撮影可能なカメラ(又はテレビやディスプレイへの接続インタフェース)を搭載する。このような端末2としては、一般的なスマートフォンであってもよいし、例えば「SOTA(登録商標)」「ユニボー(登録商標)」のようなロボットであってもよい。また、カメラを備えた「Google Home(登録商標)」や「Amazon Echo(登録商標)」のようなスマートスピーカであってもよい。
According to FIG. 6, the
図6によれば、図4と比較して、マルチモーダル情報抽出部103を更に有し、端末2から推定対象となる映像を受信する。この映像は、マルチモーダル情報抽出部103へ入力され、画像が抽出される。その画像は、前述した図4と同様に、画像特徴ベクトル生成部101へ入力される。
According to FIG. 6, compared to FIG. 4, it further includes a multimodal
即ち、前述した図5における訓練時では、教師データの字幕文付き映像について処理されるのに対し、図6における推定時では、通信インタフェースによってリアルタイムに受信した推定対象の画像について処理される。 That is, during the training shown in FIG. 5 described above, the subtitled video of the teacher data is processed, whereas during the estimation shown in FIG. 6, the estimation target image received in real time via the communication interface is processed.
<映像に応じて発話文に対する応答文を返答する推定装置>
図7は、映像に応じて発話文に対する応答文を返答する推定時の推定装置の機能構成図である。
<Estimation device that responds with a response sentence to the uttered sentence according to the video>
FIG. 7 is a functional configuration diagram of an estimation device at the time of estimation, which responds with a response sentence to an uttered sentence according to a video.
図7によれば、前述した図6と比較して、言語特徴ベクトル生成部102と、応答文推定エンジン13と、応答文リランキング部14と、言語変換部15とを更に有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、推定装置の推定方法としても理解できる。
According to FIG. 7, compared to FIG. 6 described above, it further includes a language feature
図7によれば、図6と比較して、端末2から、ユーザ周辺のマルチモーダル情報としての映像と共に、ユーザによる発話文とを受信し、ユーザへ応答文を返信する。
端末2は、ユーザの発話音声を収音するマイクと、ユーザへ応答音声を出力するスピーカとを搭載する。また、ユーザの発話音声をテキストベースの発話文に変換する音声認識機能と、テキストベースの応答文をユーザに向けた音声に変換する音声変換機能とは、端末2が搭載するものあってもよいし、推定装置1が搭載するものであってもよい。勿論、発話文と応答文とは、音声に限らず、キー入力とディスプレイ表示に基づくものであってもよい。
更に、端末2から送信されるマルチモーダル情報は、ユーザの発話音声が映像に混在したものであってもよい。その場合、マルチモーダル情報抽出部103は、映像と発話文とを分離して抽出するものであってもよい。
According to FIG. 7, compared to FIG. 6, a video as multimodal information around the user and a sentence uttered by the user are received from the
The
Furthermore, the multimodal information transmitted from the
図8は、図7における具体例となるテキストの流れを表す説明図である。 FIG. 8 is an explanatory diagram showing the flow of text as a specific example in FIG.
図8によれば、推定装置1の対話エージェントのキャラクタXと、ユーザYとが対話している。このとき、ユーザYが視聴している映像と、ユーザYの発話文とが、端末2から推定装置1へ送信される。また、推定装置1は、キャラクタXが返答すべき応答文を、端末2へ送信する。これによって、ユーザYは、端末2に表示されたキャラクタXと、音声によって対話をすることができる。
According to FIG. 8, character X, who is a dialogue agent of
映像は、ユーザYとキャラクタXとの間で共通認識となるマルチモーダル情報である。また、ユーザYとキャラクタXとの間の対話は、その映像を一緒に視聴している人物同士の「発話文及び応答文の組」となる。 The video is multimodal information that is shared by user Y and character X. Furthermore, the dialogue between user Y and character X becomes a "set of utterances and response sentences" between the people who are viewing the video together.
[言語特徴ベクトル生成部102(発話文用)]
言語特徴ベクトル生成部102は、ユーザの発話文を入力し、形態素解析によって形態素に分析し、形態素毎に言語特徴ベクトルを生成する。その機能は、図5と同様のものである。その言語特徴ベクトルは、応答文推定エンジン13へ出力される。
図8によれば、以下の発話文が、言語特徴ベクトル生成部102へ入力されている。
ユーザYの発話文:「得意でないので、絶対、手を切りそう」
[Language feature vector generation unit 102 (for utterances)]
The language feature
According to FIG. 8, the following utterances are input to the language feature
User Y's utterance: “I'm not good at it, so I'm definitely going to cut off.”
[応答文推定エンジン13]
応答文推定エンジン13は、訓練時に、教師データとしての対話コーパス(発話文及び応答文の組)毎に、発話文をエンコーダ側に入力し、デコーダ側から応答文を出力するように訓練したものである。ここでは、因果関係に拘わらず、汎用的に発話文及び応答文の関係の特徴を学習したものである。
[Response sentence estimation engine 13]
During training, the response
図9は、応答文推定エンジンの説明図である。 FIG. 9 is an explanatory diagram of the response sentence estimation engine.
応答文推定エンジン13は、汎用的な発話文及び応答文の間の特徴を抽出可能なSeq2Seqであってもよいし、seq2seq+attentionやtransformのような改良モデルであってもよい。
seq2seqは、形態素文字列を入力して、別の形態素文字列を出力する置き換えルールを学習するニューラルネットワークである。これによって、発話文に対して複数のの応答文を学習していく。勿論、文字列の依存関係を学習可能なRNN(Recurrent Neural Network)の一種である例えばLSTM(Long Short-Term Memory)であってもよい。
The response
seq2seq is a neural network that inputs a morpheme string and learns replacement rules that output another morpheme string. In this way, multiple response sentences are learned for each uttered sentence. Of course, for example, LSTM (Long Short-Term Memory), which is a type of RNN (Recurrent Neural Network) capable of learning character string dependencies, may also be used.
これによって、応答文推定エンジン13は、推定時に、エンコーダ側にユーザの発話文が入力されると、デコーダ側から候補となる複数の応答文を出力する。候補となる複数の応答文は、応答文リランキング部14へ出力される。
As a result, when a user's utterance is input to the encoder during estimation, the response
図8によれば、応答文推定エンジン13は、応答文リランキング部14から、以下の発話文が入力されたとする。
ユーザYの発話文:「得意でないので、絶対、手を切りそう」
これに対して、応答文推定エンジン13は、以下の複数の応答文を出力する。
応答文候補1 :「大丈夫ですよ」
応答文候補2 :「白い皮も剥いて」
応答文候補3 :「血が出るよ」
応答文候補4 :「気をつけて」
応答文候補5 :「得意じゃないですね」
According to FIG. 8, it is assumed that the response
User Y's utterance: “I'm not good at it, so I'm definitely going to cut off.”
In response, the response
Candidate response sentence 1: “It’s okay.”
Candidate response sentence 2: “Peel off the white skin too.”
Candidate response sentence 3: “I’m bleeding.”
Candidate response sentence 4: “Be careful.”
Candidate response sentence 5: “I’m not good at it.”
[応答文リランキング部14]
応答文リランキング部14は、応答文推定エンジン13から出力された候補となる複数の応答文の中から、画像学習エンジン12によって出力された結果語を含む又は類似する応答文を選択する。語は、特徴ベクトル化されているので、類似度の比較も可能となる。
選択された応答文は、言語変換部15へ出力される。
[Response sentence reranking unit 14]
The response
The selected response sentence is output to the
図8によれば、応答文リランキング部14は、画像学習エンジン12から因果関係語(手を切る->血が出る)を入力することによって、候補となる複数の応答文の中から、以下の応答文を選択する。
応答文候補3 :「血が出るよ」
According to FIG. 8, the response
Candidate response sentence 3: “I’m bleeding.”
[言語変換部15]
言語変換部15は、前述した言語特徴ベクトル生成部102と逆の機能であって、応答文リランキング部14から出力された応答文の特徴ベクトルを、応答文のテキストに変換する。変換された応答文は、通信インタフェースを介して端末2へ送信される。
[Language conversion unit 15]
The
以上、詳細に説明したように、本発明のプログラム、装置及び方法によれば、画像から、因果関係語(原因語及び結果語)を推定することができる。そして、ユーザ周辺のマルチモーダル情報から因果関係語を推定し、ユーザの発話文に対してその因果関係に応じた応答文を返答することによって、ユーザとできる限り自然に対話させることができる。
特に、本発明によれば、発話文及び応答文の文脈関係の特徴を汎用的且つ網羅的に学習した応答文推定エンジンを用いることによって、候補となる複数の応答文の中から、できる限り因果関係を持つ応答文で返答することができる。
As described above in detail, according to the program, device, and method of the present invention, causal words (cause word and result word) can be estimated from an image. Then, by estimating a causal relationship word from multimodal information around the user and responding to the user's utterance with a response sentence that corresponds to the causal relationship, it is possible to interact with the user as naturally as possible.
In particular, according to the present invention, by using a response sentence estimation engine that has learned the characteristics of the context relationship of uttered sentences and response sentences in a general and exhaustive manner, it is possible to select causal sentences from among a plurality of candidate response sentences. You can respond with a related response sentence.
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。 Regarding the various embodiments of the present invention described above, various changes, modifications, and omissions within the scope of the technical idea and viewpoint of the present invention can be easily made by those skilled in the art. The above description is merely an example and is not intended to be limiting in any way. The invention is limited only by the claims and their equivalents.
1 推定装置
101 画像特徴ベクトル生成部
102 言語特徴ベクトル生成部
103 マルチモーダル情報抽出部
11 因果関係学習エンジン
111 字幕文選別部
112 因果関係語推定部
12 画像学習エンジン
121 生成器
122 識別器
13 応答文推定エンジン
14 応答文リランキング部
15 言語変換部
2 端末
1
Claims (10)
教師データとして、画像と、当該画像に紐付く字幕文とが対応付けられており、
訓練段階について、
字幕文の特徴ベクトルを入力し、因果関係有りと推定された字幕文から原因語及び結果語を推定する因果関係学習エンジンと、
画像の特徴ベクトルを入力し、因果関係学習エンジンによって推定された原因語及び結果語を出力するように訓練する画像学習エンジンと
して機能させ、
推定段階について、
画像学習エンジンは、対象データとしての画像を入力し、原因語及び結果語を出力する
ようにコンピュータを機能させることを特徴とするプログラム。 A program that causes a computer to function to estimate causal relations between a cause word and a result word from an image, the program comprising:
As training data, images are associated with subtitles associated with the images.
Regarding the training stage,
a causal relationship learning engine that inputs feature vectors of subtitle sentences and estimates cause and effect words from subtitle sentences that are estimated to have a causal relationship;
Function as an image learning engine that inputs image feature vectors and trains to output cause and effect words estimated by the causal relationship learning engine,
Regarding the estimation stage,
The image learning engine is a program that operates a computer to input images as target data and output cause words and result words.
画像学習エンジンは、敵対的生成ネットワークによって構成されており、
画像の特徴ベクトルを入力する生成器と、
生成器から出力された原因語及び結果語と、因果関係推定手段から出力された原因語及び結果語とを入力する識別器と
して訓練する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。 Regarding the training stage,
The image learning engine is composed of a generative adversarial network,
a generator inputting a feature vector of an image;
Claim 1, characterized in that the computer is operated to train as a discriminator that receives cause and effect words output from the generator and cause and effect words output from the causal relationship estimation means. Programs listed.
識別器は、分類型の畳み込みニューラルネットワークに基づくものである
ようにコンピュータを機能させることを特徴とする請求項2に記載のプログラム。 The generator is based on Transformer,
3. The program according to claim 2, characterized in that the discriminator causes the computer to function as if it were based on a classification type convolutional neural network.
訓練時に、
文の前後を因果関係で接続する接続助詞を予め登録しており、教師データの字幕文を入力し、接続助詞を含む字幕文を選別する字幕文選別手段と
選別された字幕文を入力層へ入力し、第1出力層から原因語が出力され、第2出力層から結果語が出力されるように、マルチタスク深層学習モデルとして学習する因果関係語推定手段と
してコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載のプログラム。 The causal learning engine is
During training,
Conjunctive particles that connect sentences before and after sentences in a causal relationship are registered in advance, and a subtitle sentence selection means that inputs subtitle sentences from teacher data and selects subtitle sentences that include conjunctive particles, and sends the selected subtitle sentences to the input layer. The computer functions as a causal relationship word estimating means that is trained as a multi-task deep learning model such that a cause word is inputted, a cause word is output from the first output layer, and a result word is output from the second output layer. The program according to any one of claims 1 to 3.
入力層と、
埋め込み層と、
当該埋め込み層から分岐した第1再帰ネットワーク層、第1識別層及び第1出力層と、
当該埋め込み層から分岐した第2再帰ネットワーク層、第2識別層及び第2出力層としてコンピュータを機能させることを特徴とする請求項4に記載のプログラム。 The causal relationship term estimation means is
an input layer;
an embedded layer;
a first recursive network layer, a first identification layer, and a first output layer branched from the embedding layer;
5. The program according to claim 4, causing a computer to function as a second recursive network layer, a second identification layer, and a second output layer branched from the embedding layer.
ように機能させることを特徴とする請求項1から5のいずれか1項に記載のプログラム。 6. The program according to claim 1, wherein the program causes the feature vector to function as if it were generated by a distributed representation generation algorithm.
教師データは、映像と、当該映像を視聴している人物同士の発話文及び応答文の組を複数含む一連の対話文履歴とからなり、
対話文履歴における発話文及び応答文の組毎に、当該映像から画像を抽出するマルチモーダル情報抽出手段と、
発話文及び応答文の組毎に、発話文をエンコーダ側に入力し、デコーダ側から応答文を出力するように訓練する応答文推定エンジンと
して機能させ、
推定時に、
応答文推定エンジンは、ユーザの発話文を入力し、候補となる複数の応答文を出力し、
候補となる複数の応答文の中から、画像学習エンジンによって出力された結果語を含む又は類似する応答文を選択する応答文リランキング手段と
してコンピュータを機能させることを特徴とする請求項1から6のいずれか1項に記載のプログラム。 During training,
The training data consists of a video and a series of dialogue history including multiple sets of utterances and response sentences between the people viewing the video,
multimodal information extraction means for extracting an image from the video for each set of uttered sentences and response sentences in the dialogue history;
Functions as a response sentence estimation engine that trains each set of utterance sentences and response sentences to input the utterance sentences to the encoder side and output the response sentences from the decoder side,
When estimating,
The response sentence estimation engine inputs the user's utterance, outputs multiple candidate response sentences,
Claims 1 to 6, characterized in that the computer functions as a response sentence reranking means for selecting a response sentence that includes or is similar to the result word output by the image learning engine from among a plurality of candidate response sentences. The program described in any one of the above.
ようにコンピュータを機能させることを特徴とする請求項7に記載のプログラム。 8. The program according to claim 7, wherein the response sentence estimation engine causes the computer to function as Seq2Seq capable of extracting features between a general-purpose utterance sentence and a response sentence.
教師データとして、画像と、当該画像に紐付く字幕文とが対応付けられており、
訓練段階について、
字幕文の特徴ベクトルを入力し、因果関係有りと推定された字幕文から原因語及び結果語を推定する因果関係学習エンジンと、
画像の特徴ベクトルを入力し、因果関係学習エンジンによって推定された原因語及び結果語を出力するように訓練する画像学習エンジンと
を有し、
推定段階について、
画像学習エンジンは、対象データとしての画像を入力し、原因語及び結果語を出力する
ことを特徴とする推定装置。 An estimation device for estimating causal relation words of a cause word and a result word from an image,
As training data, images are associated with subtitles associated with the images.
Regarding the training stage,
a causal relationship learning engine that inputs feature vectors of subtitle sentences and estimates cause and effect words from subtitle sentences that are estimated to have a causal relationship;
and an image learning engine that trains to input image feature vectors and output cause and effect words estimated by the causal relationship learning engine,
Regarding the estimation stage,
The image learning engine is an estimation device characterized in that it inputs an image as target data and outputs cause words and result words.
教師データとして、画像と、当該画像に紐付く字幕文とが対応付けられており、
装置は、
訓練段階について、
字幕文の特徴ベクトルを入力し、因果関係有りと推定された字幕文から原因語及び結果語を推定する因果関係学習エンジンと、
画像の特徴ベクトルを入力し、因果関係学習エンジンによって推定された原因語及び結果語を出力するように訓練する画像学習エンジンと
を有し、
推定段階について、
画像学習エンジンは、対象データとしての画像を入力し、原因語及び結果語を出力する
ことを特徴とする装置の推定方法。
An estimation method of a device for estimating causal relation words of a cause word and a result word from an image, the method comprising:
As training data, images are associated with subtitles associated with the images.
The device is
Regarding the training stage,
a causal relationship learning engine that inputs feature vectors of subtitle sentences and estimates cause and effect words from subtitle sentences that are estimated to have a causal relationship;
and an image learning engine that trains to input image feature vectors and output cause and effect words estimated by the causal relationship learning engine,
Regarding the estimation stage,
An estimation method for an apparatus characterized in that the image learning engine inputs an image as target data and outputs a cause word and a result word.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020183065A JP7426919B2 (en) | 2020-10-30 | 2020-10-30 | Program, device and method for estimating causal terms from images |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020183065A JP7426919B2 (en) | 2020-10-30 | 2020-10-30 | Program, device and method for estimating causal terms from images |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2022073219A JP2022073219A (en) | 2022-05-17 |
JP7426919B2 true JP7426919B2 (en) | 2024-02-02 |
Family
ID=81603958
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020183065A Active JP7426919B2 (en) | 2020-10-30 | 2020-10-30 | Program, device and method for estimating causal terms from images |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7426919B2 (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016156845A (en) | 2015-02-23 | 2016-09-01 | Kddi株式会社 | Interaction support program, server and method for supporting user operation with user interaction system |
US20200273581A1 (en) | 2019-02-21 | 2020-08-27 | Theator inc. | Post discharge risk prediction |
CN111859005A (en) | 2020-07-01 | 2020-10-30 | 江西理工大学 | Cross-layer multi-model feature fusion and image description method based on convolutional decoding |
-
2020
- 2020-10-30 JP JP2020183065A patent/JP7426919B2/en active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2016156845A (en) | 2015-02-23 | 2016-09-01 | Kddi株式会社 | Interaction support program, server and method for supporting user operation with user interaction system |
US20200273581A1 (en) | 2019-02-21 | 2020-08-27 | Theator inc. | Post discharge risk prediction |
CN111859005A (en) | 2020-07-01 | 2020-10-30 | 江西理工大学 | Cross-layer multi-model feature fusion and image description method based on convolutional decoding |
Also Published As
Publication number | Publication date |
---|---|
JP2022073219A (en) | 2022-05-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10817650B2 (en) | Natural language processing using context specific word vectors | |
JP6726800B2 (en) | Method and apparatus for human-machine interaction based on artificial intelligence | |
Chen et al. | Deep Learning for Video Captioning: A Review. | |
Khare et al. | Self-supervised learning with cross-modal transformers for emotion recognition | |
JP2023029973A (en) | Speaker diarization using speaker embedding and trained generation model | |
WO2017094911A1 (en) | Method for processing utterances | |
KR102315830B1 (en) | Emotional Classification Method in Dialogue using Word-level Emotion Embedding based on Semi-Supervised Learning and LSTM model | |
JP2018055548A (en) | Interactive device, learning device, interactive method, learning method, and program | |
Yang et al. | Open domain dialogue generation with latent images | |
CN113705315B (en) | Video processing method, device, equipment and storage medium | |
EP4392972A1 (en) | Speaker-turn-based online speaker diarization with constrained spectral clustering | |
JP2024502946A (en) | Punctuation and capitalization of speech recognition transcripts | |
EP4409568A1 (en) | Contrastive siamese network for semi-supervised speech recognition | |
Li et al. | Improving code-switching language modeling with artificially generated texts using cycle-consistent adversarial networks | |
US11856038B2 (en) | Cognitively learning to generate scripts that simulate live-agent actions and responses in synchronous conferencing | |
Chandak et al. | Streaming language identification using combination of acoustic representations and ASR hypotheses | |
KR20210051523A (en) | Dialogue system by automatic domain classfication | |
CN114373443A (en) | Speech synthesis method and apparatus, computing device, storage medium, and program product | |
Ravuri et al. | Neural network models for lexical addressee detection. | |
CN116882418A (en) | Method, apparatus, computing device and medium for generating contextual tasks for dialogue data | |
JP7426919B2 (en) | Program, device and method for estimating causal terms from images | |
CN116186255A (en) | Method for training unknown intention detection model, unknown intention detection method and device | |
JP7426917B2 (en) | Program, device and method for interacting with a user according to multimodal information around the user | |
JP7224278B2 (en) | Apparatus, program and method for estimating response sentence to user's utterance sentence | |
US11887600B2 (en) | Techniques for interpreting spoken input using non-verbal cues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230210 |
|
TRDD | Decision of grant or rejection written | ||
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240118 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240119 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240123 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7426919 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |