CN112307241A

CN112307241A - 检索装置、学习装置、检索系统及记录介质

Info

Publication number: CN112307241A
Application number: CN202010602162.8A
Authority: CN
Inventors: 福岛真太朗; 笹井健行
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2019-07-26
Filing date: 2020-06-29
Publication date: 2021-02-02
Also published as: JP2021022171A; JP7151654B2; US20210026887A1; US11403343B2

Abstract

提供能够检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对的检索装置、学习装置、检索系统及记录介质。检索装置通过对预先学习的句子特征量提取模型输入检索文来提取与检索文对应的特征量。并且，检索装置关于保存于数据库的包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个组合中的每个组合，算出表示从与动态图像及车辆行为数据建立了对应的说明文的各句子提取的特征量和与检索文对应的特征量之间的差异的句子距离。并且，检索装置根据句子距离，按照句子距离从小到大的顺序将规定个数的动态图像和车辆行为数据的对作为检索结果输出。

Description

检索装置、学习装置、检索系统及记录介质

技术领域

公开的技术涉及检索装置、学习装置、检索系统及记录介质。

背景技术

在日本特开2019-95878号公报中公开了将驾驶员的驾驶行动数据设为查询且将与该查询相似的驾驶行动数据提取并输出的技术。

另外，在N.C.Mithun et al.,“Weakly supervised video moment retrievalfrom text queries”,CVPR2019.及J.Gao et al.Tall,“Temporal activitylocalization via language query”,ICCV2017.中公开了将检索文设为查询且检索与该查询相似的动态图像的技术。

发明内容

发明所要解决的课题

在想要检索表示车辆的行为的时间序列的车辆行为数据的情况下，与将车辆行为数据设为查询相比，优选与一般的检索引擎同样地将检索文设为查询来检索车辆行为数据。另外，优选不仅检索车辆行为数据，也一并检索与该车辆行为数据对应的动态图像的数据(例如，从车辆观察到的动态图像的数据)。

但是，日本特开2019-95878号公报的技术必须将与车辆行为数据对应的驾驶行动数据作为查询而输入。而且，日本特开2019-95878号公报的技术仅将驾驶行动数据作为结果输出。

相对于此，N.C.Mithun et al.,“Weakly supervised video moment retrievalfrom text queries”,CVPR2019.及J.Ga et al.Tall,“Temporalactivity localizationvia language query”,ICCV2017.的技术将检索文设为查询来检索动态图像。但是，N.C.Mithun et al.,“Weakly supervised video moment retrieval from textqueries”,CVPR2019.及J.Ga et al.Tall,“Temporal activity localization vialanguage query”,ICCV2017.的技术无法检索车辆行为数据。

因而，在使用了现有技术的情况下，存在无法检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对这一课题。

公开的技术考虑上述事实，目的在于提供能够检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对的检索装置、学习装置、检索系统及记录介质。

用于解决课题的手段

第一方案的检索装置包括：取得部，取得检索文；句子特征量提取部，通过对从输入的句子提取特征量的句子特征量提取模型输入由所述取得部取得的检索文来提取与所述检索文对应的特征量，所述句子特征量提取模型是以使表示从句子提取的特征量与从自车辆观察到的标准的动态图像提取的特征量之间的差异的损失变小的方式且以使表示从句子提取的特征量与从表示车辆的行为的时间序列的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式预先学习过的模型；算出部，关于保存于数据库的包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个组合中的每个组合，算出表示从与动态图像及车辆行为数据建立了对应的说明文的各句子提取的特征量和与检索文对应的特征量之间的差异的句子距离；及检索结果输出部，根据由所述算出部算出的所述句子距离，按照所述句子距离从小到大的顺序将规定个数的动态图像和车辆行为数据的对作为检索结果而输出。

第一方案的检索装置通过对句子特征量提取模型输入检索文来提取与检索文对应的特征量，所述句子特征量提取模型是以使表示从句子提取的特征量与从自车辆观察到的标准的动态图像提取的特征量之间的差异的损失变小的方式且以使表示从句子提取的特征量与从表示车辆的行为的时间序列的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式预先学习过的模型。并且，检索装置根据表示从与动态图像及车辆行为数据建立了对应的说明文的各句子提取的特征量和与检索文对应的特征量之间的差异的句子距离，按照句子距离从小到大的顺序将规定个数的动态图像和车辆行为数据的对作为检索结果而输出。能够检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对。

第二方案的检索装置的所述句子特征量提取部通过将所述检索文中的表示动态图像的句子即第一句子q₁向句子特征量提取模型输入来提取第一句子q₁的特征量Q₁，通过将所述检索文中的表示车辆行为数据的句子即第二句子q₂向句子特征量提取模型输入来提取第二句子q₂的特征量Q₂，所述损失算出部根据第一句子q₁的特征量Q₁与保存于数据库的多个学习用数据的每一个的相对于第i个动态图像建立了对应的说明文中的第j₁个句子的特征量W_j1 ⁱ之间的差量和第二句子q₂的特征量Q₂与保存于数据库的相对于第i个动态图像建立了对应的说明文中的第j₂个句子的特征量W_j2 ^i～之间的差量，算出所述句子距离，所述检索结果输出部按照所述句子距离从小到大的顺序将N个动态图像和车辆行为数据的对作为检索结果而输出。由此，能够考虑检索文中包含的表示动态图像的句子和表示车辆行为的句子来检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对。

第三方案的检索装置的所述检索结果输出部关于动态图像和车辆行为数据的N个对中包含的第n(1≤n≤N)个对的每一个对，将区间[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]的帧图像与区间[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]的车辆行为的对作为所述检索结果而输出，所述区间[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]是与相对于对应于第n个对的第i个动态图像建立了对应的说明文中的第j₁ ⁽ⁿ⁾个句子的特征量和所述第i个动态图像中的时刻k的帧图像的特征量之间的相似度sⁱ _jk对应的加权系数aⁱ _j1(n)k比阈值δ₁大的区间，所述区间[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]是与相对于与对应于第n个对的第i个动态图像对应的车辆行为数据建立了对应的说明文中的第j₂ ⁽ⁿ⁾个句子的特征量和与所述第i个动态图像对应的车辆行为数据中的时刻l的车辆行为的特征量之间的相似度uⁱ _j2(n)l对应的加权系数bⁱ _j2(n)l比阈值δ₂大的区间。由此，能够合适地提示动态图像和车辆行为数据的对中的检索文所表示的驾驶场景。

第四方案的检索装置的所述检索结果输出部从动态图像和车辆行为数据的N个对的每一个对将由用户预先设定的n^*个对作为所述检索结果而输出。由此，能够合适地提示用户所期望的数量的检索结果。

第五方案的学习装置包括第一损失算出部、第二损失算出部、统合部、第一学习部、第二学习部和模型取得部，关于包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个学习用数据的每一个，所述第一损失算出部通过对从输入的句子提取特征量的句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的动态图像提取特征量的动态图像特征量提取模型输入与同一学习用数据对应的动态图像来提取动态图像的特征量，算出表示句子的特征量与动态图像的特征量之间的差异的第一损失；所述第二损失算出部，通过对句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的车辆行为数据提取特征量的车辆行为特征量提取模型输入与同一学习用数据对应的车辆行为数据来提取车辆行为数据的特征量，算出表示句子的特征量与车辆行为数据的特征量之间的差异的第二损失；所述统合部，算出将第一损失与第二损失统合而得到的统合损失值；所述第一学习部，以使由所述统合部算出的所述统合损失值变小的方式使句子特征量提取模型及动态图像特征量提取模型进行学习；所述第二学习部，以使由所述统合部算出的所述统合损失值变小的方式使句子特征量提取模型及车辆行为特征量提取模型进行学习；及所述模型取得部，通过直到由所述统合部算出的统合损失值变得比规定的阈值小为止使第一学习部的学习处理和第二学习部的学习处理反复进行，来得到学习完毕的句子特征量提取模型。

第五方案的学习装置算出表示句子的特征量与动态图像的特征量之间的差异的第一损失，算出表示句子的特征量与车辆行为数据的特征量之间的差异的第二损失，算出将第一损失与第二损失统合而得到的统合损失值。并且，学习装置以使统合损失值变小的方式使句子特征量提取模型及动态图像特征量提取模型学习。另外，学习装置以使统合损失值变小的方式使句子特征量提取模型及车辆行为特征量提取模型进行学习。由此，能够得到用于合适地检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对的句子特征量提取模型。具体而言，由于考虑动态图像及车辆行为数据双方与说明文之间的关系来生成句子特征量提取模型，所以能够得到用于合适地检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对的句子特征量提取模型。

第六方案的学习装置的第一损失算出部通过对将多个不同的特征量向同一空间映射的第一映射模型输入由句子特征量提取模型提取出的句子的特征量和由动态图像特征量提取模型提取出的动态图像的特征量，来取得向同一空间映射的句子的新的特征量和动态图像的新的特征量，算出表示句子的新的特征量与动态图像的新的特征量之间的差异的第一损失，第二损失算出部通过对将多个不同的特征量向同一空间映射的第二映射模型输入由句子特征量提取模型提取出的句子的特征量和由车辆行为特征量提取模型提取出的车辆行为数据的特征量，来取得向同一空间映射的句子的新的特征量和车辆行为数据的新的特征量，算出表示句子的新的特征量与车辆行为数据的新的特征量之间的差异的第二损失。由于句子的特征量和动态图像的特征量向同一空间映射，且句子的特征量和车辆行为数据向同一空间映射，所以能够算出特征量间的差异，能够合适地学习句子特征量提取模型。

第七方案的学习装置的动态图像特征量提取模型包括从图像提取特征量的图像特征量提取模型、将句子的特征量与图像的特征量进行对照的第一对照模型及基于从第一对照模型输出的对照结果和图像的特征量来输出动态图像的特征量的第一输出模型，车辆行为特征量提取模型包括从车辆行为数据的各时刻的车辆行为提取特征量的各时刻特征量提取模型、将句子的特征量与车辆行为的特征量进行对照的第二对照模型及基于从第二对照模型输出的对照结果和车辆行为的特征量来输出车辆行为数据的特征量的第二输出模型，关于多个学习用数据的每一个，第一损失算出部通过对图像特征量提取模型输入学习用数据的第i个动态图像的时刻k的帧图像来提取相对于第i个动态图像的时刻k的帧图像的特征量v_k ⁱ，通过对句子特征量提取模型输入与学习用数据的第i个动态图像建立了对应的说明文中的第j个句子来提取第j个句子的特征量w_j ⁱ的每一个，通过对第一对照模型输入相对于学习用数据的第i个动态图像的时刻k的帧图像的特征量v_k ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来计算第i个动态图像的时刻k的帧图像与说明文中的第j个句子之间的相似度s_jk ⁱ，计算与相似度s_jk ⁱ对应的加权系数a_jk ⁱ作为对照结果，通过对第一输出模型输入学习用数据的第i个动态图像的对照结果即加权系数a_jk ⁱ和相对于第i个动态图像的时刻k的帧图像的特征量v_k ⁱ的组合，来取得相对于第i个动态图像的第j个句子的特征量f_j ⁱ，通过对第一映射模型输入学习用数据的第i个动态图像的特征量f_j ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来取得与特征量f_j ⁱ对应的动态图像的新的特征量F_j ⁱ和与句子的特征量w_j ⁱ对应的句子的新的特征量W_j ⁱ，算出表示动态图像的新的特征量F_j ⁱ与句子的新的特征量W_j ⁱ之间的差异的第一损失，关于多个学习用数据的每一个，第二损失算出部通过对车辆行为特征量提取模型输入与学习用数据的第i个动态图像建立了对应的车辆行为数据的时刻l的行为，来提取相对于第i个车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ，通过对第二对照模型输入与学习用数据的第i个动态图像建立了对应的车辆行为数据的时刻l的行为的特征量c_l ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来计算与第i个动态图像建立了对应的车辆行为数据的时刻l的车辆行为和说明文中的第j个句子之间的相似度u_jl ⁱ，计算与相似度u_jl ⁱ对应的加权系数b_jl ⁱ作为对照结果，通过对第二输出模型输入与学习用数据的第i个动态图像建立了对应的车辆行为数据的对照结果即加权系数b_jl ⁱ和相对于与第i个动态图像建立了对应的车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ的多个组合，来取得车辆行为数据的特征量g_j ⁱ，通过对第二映射模型输入相对于与学习用数据的第i个动态图像建立了对应的车辆行为数据的第j个句子的特征量g_j ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来取得与特征量g_j ⁱ对应的车辆行为数据的新的特征量G_j ⁱ和与句子的特征量w_j ⁱ对应的句子的新的特征量W_j ^i～，算出表示车辆行为数据的新的特征量G_j ⁱ与句子的新的特征量W_j ^i～之间的差异的第二损失。

第八方案的检索系统包括检索装置和学习装置，其中，在所述检索装置中使用的句子特征量提取模型是由所述学习装置进行了学习的学习完毕的句子特征量提取模型。

第九方案的记录介质记录有检索程序，该检索程序用于使计算机执行以下处理：取得检索文，通过对从输入的句子提取特征量的句子特征量提取模型输入取得的检索文来提取与所述检索文对应的特征量，所述句子特征量提取模型是以使表示从句子提取的特征量与从自车辆观察到的标准的动态图像提取的特征量之间的差异的损失变小的方式且以使表示从句子提取的特征量与从表示车辆的行为的时间序列的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式预先学习过的模型，关于保存于数据库的包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个组合中的每个组合，算出表示从与动态图像及车辆行为数据建立了对应的说明文的各句子提取的特征量和与检索文对应的特征量之间的差异的句子距离，根据算出的所述句子距离，按照所述句子距离从小到大的顺序将规定个数的动态图像和车辆行为数据的对作为检索结果而输出。

第十方案的记录介质记录有学习程序，该学习程序用于使计算机执行以下处理：关于包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个学习用数据的每一个，通过对从输入的句子提取特征量的句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的动态图像提取特征量的动态图像特征量提取模型输入与同一学习用数据对应的动态图像来提取动态图像的特征量，算出表示句子的特征量与动态图像的特征量之间的差异的第一损失，通过对句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的车辆行为数据提取特征量的车辆行为特征量提取模型输入与同一学习用数据对应的车辆行为数据来提取车辆行为数据的特征量，算出表示句子的特征量与车辆行为数据的特征量之间的差异的第二损失，算出将第一损失与第二损失统合而得到的统合损失值，执行以使算出的所述统合损失值变小的方式使句子特征量提取模型及动态图像特征量提取模型进行学习的第一学习处理，执行以使算出的所述统合损失值变小的方式使句子特征量提取模型及车辆行为特征量提取模型进行学习的第二学习处理，通过直到算出的统合损失值变得比规定的阈值小为止使第一学习处理和第二学习处理反复进行，来得到学习完毕的句子特征量提取模型。

发明效果

如以上说明那样，根据公开的技术，存在能够检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对这一效果。

附图说明

图1是实施方式的检索系统的概略框图。

图2是用于说明本实施方式的学习用数据的一例的说明图。

图3是用于说明本实施方式的各模型的说明图。

图4是用于说明本实施方式的各模型的说明图。

图5是示出显示于显示装置的检索结果的一例的图。

图6是示出构成检索系统的各装置的计算机的结构例的图。

图7是示出由本实施方式的学习装置执行的学习处理的一例的图。

图8是示出由本实施方式的检索装置执行的检索处理的一例的图。

具体实施方式

<实施方式>

以下，使用附图来对本实施方式的检索系统进行说明。

图1是示出本实施方式的检索系统10的结构的一例的框图。如图1所示，检索系统10具备学习装置12、检索装置14及显示装置15。学习装置12和检索装置14通过规定的通信手段而连接。

(学习装置12)

学习装置12具备数据库16、学习完毕模型存储部18、第一损失算出部20、第二损失算出部22、统合部24、第一学习部26、第二学习部28及模型取得部30。第一损失算出部20及第二损失算出部22是公开的技术的算出部的一例。

在数据库16中保存有包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个学习用数据。需要说明的是，车辆行为数据也可以说是表示车辆的驾驶操作的时间序列的驾驶操作数据。

例如，在数据库16中，如图2所示，说明文、动态图像及车辆行为数据被建立对应而保存。动态图像是由搭载于车辆的相机拍摄到的动态图像。另外，车辆行为数据是在拍摄该动态图像时得到的车辆行为数据。因而，动态图像和车辆行为数据是在相同时刻得到的数据。另外，说明文是对动态图像及车辆行为数据进行说明的文章，包括多个句子。说明文中包含的各句子表示存在动态图像及车辆行为数据的驾驶场景。

在本实施方式中，使用与动态图像及车辆行为数据建立了对应的说明文，生成用于根据检索文来检索动态图像及车辆行为数据的各模型。

在学习完毕模型存储部18中保存有句子特征量提取模型31、动态图像特征量提取模型32、第一映射模型33、车辆行为特征量提取模型34及第二映射模型35。

句子特征量提取模型31从输入的句子提取特征量。另外，动态图像特征量提取模型32从输入的动态图像提取特征量。车辆行为特征量提取模型34从车辆行为数据提取特征量。关于第一映射模型33及第二映射模型35将在后文叙述。

如图3所示，动态图像特征量提取模型32构成为包括图像特征量提取模型32A、第一对照模型32B及第一输出模型32C。另外，如图4所示，车辆行为特征量提取模型34构成为包括各时刻特征量提取模型34A、第二对照模型34B及第二输出模型34C。关于这些各模型的功能将在后文叙述。

第一损失算出部20关于保存于数据库16的多个学习用数据的每一个，通过对句子特征量提取模型31输入学习用数据的句子来提取句子的特征量。另外，第一损失算出部20通过对动态图像特征量提取模型32输入与同一学习用数据对应的动态图像来提取动态图像的特征量。并且，第一损失算出部20算出表示句子的特征量与动态图像的特征量之间的差异的第一损失。

具体而言，首先，第一损失算出部20读出保存于数据库16的多个学习用数据的每一个。需要说明的是，以下，说明对于1个学习用数据的处理。

接着，第一损失算出部20将学习用数据的说明文中包含的多个句子的每一个向保存于学习完毕模型存储部18的句子特征量提取模型31输入，提取多个句子的特征量。具体而言，第一损失算出部20通过对句子特征量提取模型31输入与学习用数据的第i个动态图像建立了对应的说明文中的第j个句子来提取说明文中包含的第j个句子的特征量w_j ⁱ的每一个。

需要说明的是，在提取句子的特征量的句子特征量提取模型31中，使用利用循环神经网络(例如，LSTM或GRU等)而构建出的自编码器。需要说明的是，作为句子的特征量，使用自编码器的编码器或解码器的隐藏向量等。在本实施方式中，针对说明文的每1句子提取特征量，作为其结果而得到的相对于第i个动态图像的第j个句子的特征量由w_j ⁱ表示。

接着，第一损失算出部20通过对保存于学习完毕模型存储部18的动态图像特征量提取模型32输入与和在句子特征量提取模型31中使用的学习用数据相同的学习用数据对应的动态图像来提取动态图像的特征量。

动态图像的特征量由图3所示的图像特征量提取模型32A、第一对照模型32B及第一输出模型32C提取。关于动态图像的特征量的提取，以下具体说明。

首先，第一损失算出部20通过对图像特征量提取模型32A输入学习用数据的第i个动态图像的时刻k的帧图像来提取相对于第i个动态图像的时刻k的帧图像的特征量v_k ⁱ的每一个。

图像特征量提取模型32A由卷积神经网络及循环神经网络等构成。需要说明的是，将学习用数据中的第i个动态图像的时刻k下的帧图像的特征量表示为v_k ⁱ。

需要说明的是，在从帧图像提取特征量时，可以如以下的参考文献1中的“C3D”或以下的参考文献2中的“VGG16”那样使用学习完毕模型的中间层的输出。

参考文献1：D Tran et al.,"Learning spatiotemporal features with 3dconvolutional networks",In ICCV,pages 4489 4497 2015.

参考文献2：K Simonyan and A.Zisserman,"Very deep convolutionalnetworks for large scale image recognition",arXiv:1409.1556,2014

接着，第一损失算出部20对第一对照模型32B输入由图像特征量提取模型32A提取出的相对于第i个动态图像的时刻k的帧图像的特征量v_k ⁱ和由句子特征量提取模型31提取出的相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合。第一对照模型32B计算第i个动态图像的时刻k的帧图像与说明文中的第j个句子之间的相似度s_jk ⁱ。并且，第一对照模型32B计算与相似度s_jk ⁱ对应的加权系数a_jk ⁱ作为对照结果。

由第一对照模型32B将动态图像中包含的帧图像与说明文进行对照，将对照的程度定量化。需要说明的是，在对照时，使用动态图像中包含的帧图像的特征量v_k ⁱ和说明文中包含的各句子的特征量w_j ⁱ。

需要说明的是，在对照时，需要使帧图像的特征量v_k ⁱ和说明文中包含的各句子的特征量w_j ⁱ的维度相同。因而，在帧图像的特征量v_k ⁱ的维度与说明文中包含的各句子的特征量w_j ⁱ的维度不同的情况下，例如进行使帧图像的特征量v_k ⁱ的维度与说明文中包含的各句子的特征量w_j ⁱ的维度一致的处理。例如，根据需要，将帧图像的特征量v_k ⁱ作为输入并将全结合层、卷积层、池化层、活性化函数及丢弃等由一级或多级构成的架构向第一对照模型32B追加，得到与说明文中包含的各句子的特征量w_j ⁱ同一维度的帧图像的特征量v^― _k ⁱ。需要说明的是，第一对照模型32B的对照处理例如使用帧图像的特征量v^― _k ⁱ与说明文中包含的各句子的特征量w_j ⁱ之间的余弦相似度(例如，参照上述非专利文献1)等来定量化。

另外，第一对照模型32B根据相似度s_jk ⁱ来算出相对于第i个动态图像的时刻k的帧图像与说明文中的第j个句子之间的相似度的加权系数a_jk ⁱ。例如，使用计算相似度s_jk ⁱ的Softmax的方法(例如，参照上述非专利文献1)等。

接着，第一损失算出部20通过对第一输出模型32C输入从第一对照模型32B输出的学习用数据的第i个动态图像的对照结果即加权系数a_jk ⁱ与由图像特征量提取模型32A提取出的相对于第i个动态图像的时刻k的帧图像的特征量v_k ⁱ的组合，来取得第i个动态图像的特征量f_j ⁱ。

由第一输出模型32C使用帧图像的特征量v_k ⁱ和加权系数a_jk ⁱ来算出相对于说明文中的第j个句子的第i个动态图像的特征量f_j ⁱ。例如，如以下的式(1)所示，通过将帧图像的特征量v_k ⁱ利用加权系数a_jk ⁱ赋予了权重的线性结合(例如，参照上述非专利文献1)，算出第i个动态图像的特征量f_j ⁱ。

接着，第一损失算出部20通过对第一映射模型输入从第一输出模型32C输出的学习用数据的第i个动态图像的特征量f_j ⁱ与从句子特征量提取模型31输出的相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来取得与特征量f_j ⁱ对应的动态图像的新的特征量F_j ⁱ和与句子的特征量w_j ⁱ对应的句子的新的特征量W_j ⁱ。

第一映射模型是将多个不同的特征量向同一空间映射的模型。由第一映射模型将动态图像的特征量f_j ⁱ和说明文的特征量w_j ⁱ向相同维度的空间埋入，得到相对于动态图像的特征量f_j ⁱ的新的特征量F_j ⁱ和相对于说明文的特征量w_j ⁱ的新的特征量w_j ⁱ。作为埋入的方法，例如能够使用线性映射(例如，参照上述非专利文献1)或其他的像成为相同维度的任意的2个映射。

由此，得到了学习用数据中的第i个动态图像的新的特征量F_j ⁱ和表示该第i个动态图像的说明文中包含的第j个句子的新的特征量W_j ⁱ。

接着，第一损失算出部20算出表示动态图像的新的特征量F_j ⁱ与句子的新的特征量W_j ⁱ之间的差异的第一损失。

作为第一损失而使用的损失函数L_VT例如能够使用video text loss(例如，参照上述非专利文献1)等。但是，作为损失函数L_VT，不限定于此，损失函数L_VT只要表示为表示第i个动态图像与说明文中的第j个句子之间的损失l_VT(i，j)之和的损失函数L_VT＝Σ_(i，j)l_VT(i，j)即可，能够使用任意的函数。

第二损失算出部22关于保存于数据库16的多个学习用数据的每一个，通过对句子特征量提取模型31输入学习用数据的句子来提取句子的特征量，通过对车辆行为特征量提取模型34输入与同一学习用数据对应的车辆行为数据来提取车辆行为数据的特征量。并且，第二损失算出部22算出表示句子的特征量与车辆行为数据的特征量之间的差异的第二损失。

具体而言，首先，第二损失算出部22读出保存于数据库16的多个学习用数据的每一个。需要说明的是，以下，说明对于1个学习用数据的处理。

首先，第二损失算出部22通过对保存于学习完毕模型存储部18的车辆行为特征量提取模型34输入与和在句子特征量提取模型31中已经使用的学习用数据相同的学习用数据对应的车辆行为数据，来提取车辆行为数据的特征量。

车辆行为数据的特征量由图4所示的各时刻特征量提取模型34A、第二对照模型34B及第二输出模型34C提取。关于车辆行为数据的特征量的提取，以下具体说明。

首先，第二损失算出部22通过对各时刻特征量提取模型34A输入与学习用数据的第i个动态图像建立了对应的车辆行为数据的时刻l的行为，来提取相对于第i个车辆行为数据的时刻l的车辆行为的特征量c_l ¹。

在此，将与学习用数据中的第i个动态图像建立了对应的车辆行为数据的开始时刻及结束时刻预先指定设为前提。典型地，以包含于动态图像的开始时刻与结束时刻之间的时间的方式提取特征量，但不限定于此。

具体而言，首先，第二损失算出部22基于由用户预先指定的窗口宽度W，利用时刻l下的窗口[l，l+W]来分割车辆行为数据。接着，第二损失算出部22从与各窗口对应的车辆行为使用利用循环神经网络(例如，LSTM或GRU等)等构建出的自编码器来提取特征量。作为特征量，使用自编码器的编码器或解码器的埋入向量、隐藏向量等。由此，提取相对于第i个车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ。

接着，第二损失算出部22对第二对照模型34B输入从各时刻特征量提取模型34A输出的车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ与由句子特征量提取模型31提取出的句子的特征量w_j ⁱ的组合。由此，第二损失算出部22计算与第i个动态图像建立了对应的车辆行为数据的时刻l的车辆行为与第j个句子之间的相似度u_jl ⁱ。并且，第二损失算出部22计算与相似度u_jl ⁱ对应的加权系数b_jl ⁱ作为对照结果。

由第二对照模型34B将车辆行为数据与说明文进行对照，将对照的程度定量化。需要说明的是，在对照时，使用车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ和在第一损失算出部20中提取出的说明文中包含的各句子的特征量w_j ⁱ。

需要说明的是，在对照时，需要使车辆行为的特征量c_l ⁱ与说明文中包含的各句子的特征量w_j ⁱ的维度相同。因而，在车辆行为的特征量c_l ⁱ的维度与说明文中包含的各句子的特征量w_j ⁱ的维度不同的情况下，例如进行使车辆行为的特征量c_l ⁱ的维度与说明文中包含的各句子的特征量w_j ⁱ的维度一致的处理。例如，根据需要，将车辆行为的特征量c_l ⁱ设为输入且将全结合层、卷积层、池化层、活性化函数及丢弃等由一级或多级构成的架构向第二对照模型34B追加，得到与说明文中包含的各句子的特征量w_j ⁱ同一维度的车辆行为的特征量c_l ^―i。需要说明的是，第二对照模型34B的对照处理例如使用车辆行为的特征量c_l ^―i与说明文中包含的各句子的特征量w_j ⁱ之间的余弦相似度(例如，参照上述非专利文献1)等来定量化。

需要说明的是，以下，将与第i个动态图像建立了对应的说明文中的第j个句子与车辆行为数据的窗口[l，l+W]内的车辆行为之间的相似度利用u_jl ⁱ表示。

另外，第二对照模型34B根据相似度u_jl ⁱ，算出相对于第i个动态图像的时刻l的车辆行为与说明文中的第j个句子之间的相似度的加权系数b_jl ⁱ。例如，使用计算相似度u_jl ⁱ的Softmax的方法(例如，参照上述非专利文献1)等。

接着，第二损失算出部22通过对第二输出模型34C输入从第二对照模型34B输出的加权系数b_jl ⁱ和由各时刻特征量提取模型34A提取出的相对于与第i个动态图像建立了对应的车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ的组合，来取得车辆行为数据的特征量g_j ⁱ。

由第二输出模型34C使用车辆行为的特征量c_l ⁱ和加权系数b_jl ⁱ来算出相对于第i个动态图像和说明文中的第j个句子的车辆行为数据的特征量g_j ⁱ。例如，如以下的式(2)所示，通过将车辆行为的特征量c_l ⁱ利用加权系数b_jl ⁱ赋予了权重的线性结合(例如，参照上述非专利文献1)，来算出相对于第j个句子的车辆行为数据的特征量g_j ⁱ。

接着，第二损失算出部22通过对第二映射模型35输入从第二输出模型34C输出的车辆行为数据的特征量g_j ⁱ和由句子特征量提取模型31提取出的相对于第i个动态图像的第j个句子的特征量w_j ⁱ的组合，来取得与车辆行为数据的特征量g_j ⁱ对应的车辆行为数据的新的特征量G_j ⁱ和与句子的特征量w_j ⁱ对应的句子的新的特征量W_j ^i～。

第二映射模型35是将多个不同的特征量向同一空间映射的模型。由第二映射模型35将车辆行为数据的特征量g_j ⁱ和说明文的特征量w_j ⁱ向相同维度的空间埋入，得到相对于车辆行为数据的特征量g_j ⁱ的新的特征量G_j ⁱ和相对于说明文的特征量w_j ⁱ的新的特征量W_j ^i～。作为埋入的方法，例如能够使用线性映射(例如，参照上述非专利文献1)或其他的像成为相同维度的任意的2个映射。需要说明的是，该埋入的维度可以与在第一损失算出部20中埋入的维度相同，也可以不同。

由此，得到了学习用数据中的第i个车辆行为数据的新的特征量G_j ⁱ和表示与该第i个动态图像建立了对应的车辆行为数据的说明文中包含的第j个句子的新的特征量W_j ^i～。

接着，第二损失算出部22算出表示车辆行为数据的新的特征量G_j ⁱ与句子的新的特征量W_j ^i～之间的差异的第二损失。新的特征量是埋入于同一空间的特征量。

作为第二损失使用的损失函数L_CT例如能够使用video text loss(例如，参照上述非专利文献1)等。但是，作为损失函数L_CT，不限定于此，损失函数L_CT只要表示为表示与第i个动态图像建立了对应的车辆行为数据与说明文中的第j个句子之间的损失l_CT(i，j)之和的损失函数L_CT＝Σ_(i，j)l_CT(i，j)即可，能够使用任意的函数。

统合部24算出将由第一损失算出部20算出的第一损失L_VT与在第二损失算出部22中算出的第二损失L_CT统合而得到的统合损失值。

例如，如以下的式(3)所示，统合部24将在动态图像与说明文之间的学习中算出的第一损失L_VT和在车辆行为数据与说明文之间的学习中算出的第二损失L_CT进行线性结合，算出统合损失值L。需要说明的是，以下的式中的λ是用户指定的超参数。

第一学习部26以使由统合部24算出的统合损失值L变小的方式使句子特征量提取模型31、动态图像特征量提取模型32及第一映射模型33进行学习。具体而言，第一学习部26以使统合损失值L变小的方式分别更新句子特征量提取模型31、动态图像特征量提取模型32及第一映射模型33的各参数。由此，关于句子特征量提取模型31，以使表示从句子提取的特征量与从相对于该句子的标准的动态图像提取的特征量之间的差异的损失变小的方式，使包括句子特征提取模型31的各模型进行学习。

并且，第一学习部26更新保存于学习完毕模型存储部18的动态图像特征量提取模型32中包含的各模型及句子特征量提取模型31。

第二学习部28以使由统合部24算出的统合损失值L变小的方式使句子特征量提取模型31、车辆行为特征量提取模型34及第二映射模型35进行学习。具体而言，第二学习部28以使统合损失值L变小的方式分别更新句子特征量提取模型31、车辆行为特征量提取模型34及第二映射模型35的各参数。由此，关于句子特征量提取模型31，以使表示从句子提取的特征量与从相对于该句子的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式，使包括句子特征提取模型31的各模型进行学习。

并且，第二学习部28更新保存于学习完毕模型存储部18的车辆行为特征量提取模型34中包含的各模型及句子特征量提取模型31。

第一学习部26及第二学习部28例如利用Mini-batch法来更新各参数。在各模型的参数的更新时，使用随机梯度下降法(SGD)、Adam、AdaGrad及RMSprop等随机最优化的手法。

模型取得部30直到由统合部24算出的统合损失值L变得比规定的阈值ε小为止，使第一学习部26的学习处理和第二学习部28的学习处理反复进行。

并且，模型取得部30得到统合损失值L变得比规定的阈值ε小时的学习完毕的各模型。并且，模型取得部30将学习完毕的各模型向学习完毕模型存储部18保存，更新各模型。

需要说明的是，关于由第一学习部26及第二学习部28学习的句子特征量提取模型31，以使表示从句子提取的特征量与从相对于该句子的标准的动态图像提取的特征量之间的差异的损失变小的方式学习。另外，关于由第一学习部26及第二学习部28学习的句子特征量提取模型31，以使表示从句子提取的特征量与从相对于该句子的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式学习。

因而，在后述的检索装置14中，通过根据检索文而使用句子特征提取模型检索动态图像及车辆行为数据，来检索检索文所表示的合适的动态图像及车辆行为数据。

(检索装置14)

检索装置14具备数据库40、学习完毕模型存储部42、取得部44、句子特征量提取部46、句子距离算出部48及检索结果输出部49。

在数据库40中保存有与学习装置12的数据库16相同的数据。

在学习完毕模型存储部42中保存有与保存于学习装置12的学习完毕模型存储部18的各模型相同的各模型。

取得部44取得从用户输入的检索文q。该检索文q是用于检索从车辆观察到的动态图像和与该动态图像建立了对应的车辆行为数据的句子。

句子特征量提取部46对保存于学习完毕模型存储部42的句子特征量提取模型31输入由取得部44取得的检索文q。并且，句子特征量提取部46提取从句子特征量提取模型31输出的与检索文q对应的特征量。

在本实施方式中，表示为检索文q＝(q1，q₂)。q₁是与动态图像对应的句子，q₂是与车辆行为数据对应的句子。

具体而言，首先，句子特征量提取部46确定检索文q中的表示动态图像的句子即第一句子q₁和表示车辆行为数据的句子即第二句子q₂。在本实施方式中，以在检索文q中包含2个句子且最初的句子是第一句子q₁且第二个句子是第二句子q₂的情况为例进行说明。

接着，句子特征量提取部46通过将第一句子q₁向句子特征量提取模型31输入来提取第一句子q₁的特征量Q₁。另外，句子特征量提取部46通过将第二句子q₂向句子特征量提取模型输入来提取第二句子q₂的特征量Q₂。

接着，句子特征量提取部46关于保存于数据库40的多个学习用数据的每一个，使用保存于学习完毕模型存储部42的各模型，从与动态图像及车辆行为数据建立了对应的说明文的各句子提取特征量。

需要说明的是，将相对于学习用数据的第i个动态图像埋入的说明文中的第j₁个句子的特征量设为W_j1 ⁱ。另外，将相对于与学习用数据的第i个动态图像建立了对应的车辆行为数据埋入的说明文中的第j₂个句子的特征量设为W_j2 ⁱ。

需要说明的是，在本实施方式中，以由检索装置14的句子特征量提取部46提取这些特征量W_j1 ⁱ、W_j2 ⁱ的情况为例进行说明，但也可以使用由学习装置12提取出的特征量W_j1 ⁱ、W_j2 ⁱ。

句子距离算出部48算出表示从多个学习用数据的说明文的各句子由句子特征量提取部46提取出的特征量W_j1 ⁱ、W_j2 ⁱ与由句子特征量提取部46提取出的与检索文对应的特征量Q₁、Q₂之间的差异的句子距离。

具体而言，句子距离算出部48按照以下的式(4)，算出第一句子q₁的特征量Q₁与保存于数据库40的相对于第i个动态图像建立了对应的说明文中的第j₁个句子的特征量W_j1 ⁱ之间的差量。

另外，句子距离算出部48按照以下的式(5)，算出第二句子q₂的特征量Q₂与保存于数据库40的相对于第i个动态图像建立了对应的说明文中的第j₂个句子的特征量W_j2 ^i～之间的差量。

需要说明的是，||·||表示向量的范数，例如使用L2范数或L1范数等。ν>0是由用户预先指定的参数。

并且，句子距离算出部48算出通过上述式(4)算出的差量与通过上述式(5)算出的差量的加权和即由以下的式(6)表示的值作为句子距离。

需要说明的是，句子距离针对学习用数据的每一个中的说明文的各句子算出。

检索结果输出部49根据由句子距离算出部48算出的句子距离的每一个，按照以下的式(7)，按照句子距离从小到大的顺序确定规定个数N的动态图像i⁽ⁿ⁾和与该动态图像建立了对应的说明文中包含的2个句子j₁ ⁽ⁿ⁾、j₂ ⁽ⁿ⁾。需要说明的是，i⁽ⁿ⁾表示学习用数据的动画的索引，j₁ ⁽ⁿ⁾、j₂ ⁽ⁿ⁾表示说明文中包含的句子的索引。

在此，以下的式(8)设为在将目的函数f(i，j₁，j₂)按照从小到大的顺序提取了N件提取时返回对应的三元组(i，j₁，j₂)的集合的函数。

通过上述式(7)，按照句子距离从小到大的顺序确定N个动态图像i⁽ⁿ⁾和与该动态图像建立了对应的说明文中的句子j₁ ⁽ⁿ⁾、j₂ ⁽ⁿ⁾。

而且，检索结果输出部49关于动态图像和车辆行为数据的N个对中包含的第n(1≤n≤N)个对的每一个，基于与相对于与第n个对对应的第i个动态图像建立了对应的说明文中的第j₁ ⁽ⁿ⁾个句子的特征量与第i个动态图像中的时刻k的帧图像的特征量之间的相似度sⁱ _jk对应的加权系数aⁱ _j1(n)k，确定加权系数aⁱ _j1(n)k比阈值δ₁大的区间[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]的帧图像。需要说明的是，各学习用数据的加权系数aⁱ _j1(n)k由学习装置12预先计算并保存于数据库40。

具体而言，检索结果输出部49对于由用户预先指定的加权系数的阈值0<δ₁<1，将满足加权系数aⁱ _j1(n)k>δ₁的连续的k的最长区间K⁽ⁿ⁾＝[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]设为与说明文中的j₁ ⁽ⁿ⁾的句子对应的动态图像的时间段。

另外，检索结果输出部49关于动态图像和车辆行为数据的N个对中包含的第n(1≤n≤N)个对的每一个，基于与相对于与对应于第n个对的第i个动态图像对应的车辆行为数据建立了对应的说明文中的第j₂ ⁽ⁿ⁾个句子的特征量与对应于第i个动态图像的车辆行为数据中的时刻l的车辆行为的特征量之间的相似度uⁱ _j2(n)l对应的加权系数bⁱ _j2(n)l，确定加权系数bⁱ _j2(n)l比阈值δ₂大的区间[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]的车辆行为。需要说明的是，各学习用数据的加权系数bⁱ _j2(n)l由学习装置12预先计算并保存于数据库40。

具体而言，检索结果输出部49对于由用户预先指定的加权系数的阈值0<δ₂<1，将满足加权系数bⁱ _j2(n)l>δ₂的连续的l的时间区间L⁽ⁿ⁾＝[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]设为与说明文中的j₂ ⁽ⁿ⁾的句子对应的车辆行为数据的时间段。

并且，检索结果输出部49将动态图像的时间区间[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]和车辆行为数据的时间区间[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]的对作为检索结果输出。

例如，检索结果输出部49使用与由取得部44取得的检索文q对应的动态图像i的时间区间K⁽ⁿ⁾＝[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]及车辆行为数据的时间区间L⁽ⁿ⁾＝[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]，使动态图像及车辆行为数据向显示装置15显示。由此，得到与检索文q对应的动态图像与车辆行为数据的对。

对显示装置15输出从检索结果输出部49输出的检索结果。例如，在显示装置15上，作为显示的对象的动态图像及车辆行为数据的排名，显示如图5所示的检索结果。

在图5所示的例中，是检索文“Traffic ahead of the car is stopped.The caris stopped.”作为查询而向检索装置14输入的情况的例。在该情况下，“Traffic ahead ofthe car is stopped.”被确定为第一句子q₁，“The car is stopped.”被确定为第二句子q₂。并且，检索第一句子q₁所表示的动态图像和第二句子q₂所表示的车辆行为数据，它们的损失从小到大的顺序的N件作为检索结果输出。需要说明的是，车辆行为数据中的传感器-1、…传感器-M表示由不同的传感器得到的车辆行为数据。

学习装置12及检索装置14例如能够由如图6所示的计算机50实现。计算机50具备CPU51、作为暂时存储区域的存储器52及非易失性的存储部53。另外，计算机50具备与输入输出装置等(图示省略)连接的输入输出接口(I/F)54及控制数据相对于记录介质59的读入及写入的读/写(R/W)部55。另外，计算机50具备与互联网等网络连接的网络I/F56。CPU51、存储器52、存储部53、输入输出I/F54、R/W部55及网络I/F56经由总线57而互相连接。

存储部53能够由硬盘驱动器(HDD)、固态驱动器(SSD)、快闪存储器等实现。在作为存储介质的存储部53中存储有用于使计算机50发挥功能的程序。CPU51将程序从存储部53读出并向存储器52展开，依次执行程序所具有的工序。

接着，对实施方式的检索系统10的作用进行说明。

在学习装置12的数据库16中保存多个学习用数据，当学习装置12接受了学习处理的指示信号时，学习装置12执行图7所示的学习处理例程。

在步骤S100中，第一损失算出部20取得保存于数据库16的多个学习用数据。另外，第二损失算出部22取得保存于数据库16的多个学习用数据。

在步骤S102中，第一损失算出部20关于在上述步骤S100中取得的学习用数据的每一个，通过将动态图像向动态图像特征量提取模型32输入来取得动态图像的特征量f_j ⁱ，通过将说明文中的各句子向句子特征量提取模型31输入来取得说明文的特征量w_j ⁱ。并且，第一损失算出部20将动态图像的特征量f_j ⁱ及说明文的特征量w_j ⁱ向第一映射模型输入来取得动态图像的新的特征量F_j ⁱ和句子的新的特征量W_j ⁱ，算出表示动态图像的新的特征量F_j ⁱ与句子的新的特征量W_j ⁱ之间的差异的第一损失L_VT。

在步骤S104中，第二损失算出部22关于在上述步骤S100中取得的学习用数据的每一个，通过将车辆行为数据向车辆行为特征量提取模型34输入来取得车辆行为数据的特征量g_j ⁱ。并且，第二损失算出部22将车辆行为数据的特征量g_j ⁱ及说明文的特征量w_j ⁱ向第二映射模型35输入来取得动态图像的新的特征量G_j ⁱ和句子的新的特征量W_j ^i～，算出表示动态图像的G_j ⁱ与句子的新的特征量W_j ^i～之间的差异的第二损失L_CT。

在步骤S106中，统合部24按照上述式(3)来算出将在上述步骤S102中算出的第一损失L_VT与在上述步骤S104中算出的第二损失L_CT统合而得到的统合损失值L。

在步骤S108中，模型取得部30判定在上述步骤S106中算出的统合损失值L是否为规定的阈值ε以上。在统合损失值L为规定的阈值ε以上的情况下，移向步骤S110。另一方面，在统合损失值L比规定的阈值ε小的情况下，结束学习处理例程。

在步骤S110中，第一学习部26以使在上述步骤S106中算出的统合损失值L变小的方式学习句子特征量提取模型31及动态图像特征量提取模型32。

在步骤S112中，第二学习部28以使在上述步骤S106中算出的统合损失值L变小的方式学习句子特征量提取模型31及车辆行为特征量提取模型34。

在步骤S114中，第一学习部26更新保存于学习完毕模型存储部18的动态图像特征量提取模型32中包含的各模型及句子特征量提取模型31。另外，第二学习部28更新保存于学习完毕模型存储部18的车辆行为特征量提取模型34中包含的各模型及句子特征量提取模型31。

当通过学习装置12而各模型的学习结束后，这些各模型向检索装置14的学习完毕模型存储部18保存。另外，由学习装置12算出的各值及多个学习用数据向检索装置14的数据库40保存。

并且，当从用户输入了检索文q时，检索装置14执行图8所示的检索处理例程。

在步骤S200中，取得部44取得从用户输入的检索文q。

在步骤S202中，句子特征量提取部46将在上述步骤S200中取得的检索文q中的表示动态图像的句子即第一句子q₁向保存于学习完毕模型存储部42的句子特征量提取模型31输入，提取第一句子q₁的特征量Q₁。另外，句子特征量提取部46将在上述步骤S200中取得的检索文q中的表示车辆行为数据的句子即第二句子q₂向保存于学习完毕模型存储部42的句子特征量提取模型31输入，提取第二句子q₂的特征量Q₂。

在步骤S204中，句子特征量提取部46关于保存于数据库40的多个学习用数据的每一个，使用保存于学习完毕模型存储部42的各模型，从与动态图像及车辆行为数据建立了对应的说明文的各句子提取特征量。

在步骤S206中，句子距离算出部48关于保存于数据库的多个学习用数据的每一个，算出表示在上述步骤S204中提取出的多个学习用数据的说明文的各句子的特征量(例如，W_j1 ⁱ、W_j2 ⁱ)与在上述步骤S202中提取出的与检索文对应的特征量Q₁、Q₂之间的差异的句子距离。

在步骤S208中，检索结果输出部49根据在上述步骤S206中算出的句子距离的每一个，按照上述式(7)，按照句子距离从小到大的顺序确定N个动态图像i⁽ⁿ⁾和与该动态图像建立了对应的说明文中包含的2个句子j₁ ⁽ⁿ⁾、j₂ ⁽ⁿ⁾。

在步骤S210中，检索结果输出部49关于动态图像与车辆行为数据的N个对中包含的第n(1≤n≤N)个对的每一个，将在上述步骤S208中选择出的动态图像中的区间K⁽ⁿ⁾＝[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]和与该动态图像建立了对应的车辆行为数据的区间L⁽ⁿ⁾＝[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]的对作为检索结果而输出，结束检索处理例程。

如以上说明这样，本实施方式的检索装置14通过对以使表示从句子提取的特征量与从自车辆观察到的标准(正解)的动态图像提取的特征量之间的差异的损失变小的方式且以使表示从句子提取的特征量与从表示车辆的行为的时间序列的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式预先学习的句子特征量提取模型31输入检索文，来检索与检索文对应的特征量。并且，检索装置14关于保存于数据库的包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个组合中的每个组合，算出表示从与动态图像及车辆行为数据建立了对应的说明文的各句子提取的特征量和与检索文对应的特征量之间的差异的句子距离。并且，检索装置14根据句子距离，按照句子距离从小到大的顺序将规定个数的动态图像和车辆行为数据的对作为检索结果而输出。由此，能够合适地检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对。

另外，本实施方式的学习装置12关于包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个学习用数据的每一个，通过对句子特征量提取模型31输入学习用数据的句子来提取句子的特征量。并且，学习装置12通过对动态图像特征量提取模型32输入与同一学习用数据对应的动态图像来提取动态图像的特征量。并且，学习装置12算出表示句子的特征量与动态图像的特征量之间的差异的第一损失。另外，学习装置12通过对车辆行为特征量提取模型34输入与同一学习用数据对应的车辆行为数据来提取车辆行为数据的特征量。并且，学习装置12算出表示句子的特征量与车辆行为数据的特征量之间的差异的第二损失。接着，学习装置12算出将第一损失与第二损失统合而得到的统合损失值。并且，学习装置12以使统合损失值变小的方式学习句子特征量提取模型31及动态图像特征量提取模型32。另外，学习装置12以使统合损失值变小的方式学习句子特征量提取模型31及车辆行为特征量提取模型34。并且，学习装置12通过直到统合损失值变得比规定的阈值小为止使第一学习部的学习处理和第二学习部的学习处理反复进行，来得到学习完毕的句子特征量提取模型31。由此，能够得到用于合适地检索与检索文所表示的驾驶场景对应的动态图像和车辆行为数据的对的句子特征量提取模型31。需要说明的是，为了在学习装置12中进行考虑了动态图像和车辆行为数据的学习方法，句子特征提取模型31及车辆行为特征量提取模型34进行同一句子特征提取。因而，需要并列地学习动态图像和车辆行为数据。

需要说明的是，在上述的实施方式中的各装置中进行的处理设为通过执行程序而进行的软件处理进行了说明，但也可以设为利用硬件进行的处理。或者，还可以设为将软件及硬件双方组合而成的处理。另外，存储于ROM的程序也可以存储于各种存储介质并流通。

而且，公开的技术不限定于上述，除了上述以外，当然也能够在不脱离其主旨的范围内各种变形并实施。

例如，作为上述各模型，也可以采用任意的模型。例如，在图3所示的各模型与图4所示的各模型之间，分别也可以以一级或多级的方式构成有全结合层、卷积层、池化层、活性化及丢弃等。

另外，在上述实施方式中，以动态图像和车辆行为数据分别独立地向说明文和埋入空间映射而求出第一损失及第二损失的情况为例进行了说明，但并不限定于此。例如，也可以将动态图像和车辆行为数据的每一个向相同的埋入空间映射来算出损失。

另外，在上述实施方式中，以将动态图像中的区间K⁽ⁿ⁾＝[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]和与该动态图像建立了对应的车辆行为数据的区间L⁽ⁿ⁾＝[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]的对作为检索结果而输出的情况为例进行了说明，但并不限定于此。例如，也可以仅将动态图像和车辆行为数据的对作为检索结果而输出。

另外，在输出动态图像中的区间K⁽ⁿ⁾＝[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]和与该动态图像建立了对应的车辆行为数据的区间L⁽ⁿ⁾＝[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]的对时，也可以将由用户预先设定的n^*个(n^*<N)对作为检索结果而输出。

Claims

1.一种检索装置，包括：

取得部，取得检索文；

句子特征量提取部，通过对从输入的句子提取特征量的句子特征量提取模型输入由所述取得部取得的检索文来提取与所述检索文对应的特征量，所述句子特征量提取模型是以使表示从句子提取的特征量与从自车辆观察到的标准的动态图像提取的特征量之间的差异的损失变小的方式且以使表示从句子提取的特征量与从表示车辆的行为的时间序列的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式预先学习过的模型；

算出部，关于保存于数据库的包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个组合中的每个组合，算出表示从与动态图像及车辆行为数据建立了对应的说明文的各句子提取的特征量和与检索文对应的特征量之间的差异的句子距离；及

检索结果输出部，根据由所述算出部算出的所述句子距离，按照所述句子距离从小到大的顺序将规定个数的动态图像和车辆行为数据的对作为检索结果而输出。

2.根据权利要求1所述的检索装置，

所述句子特征量提取部通过将所述检索文中的表示动态图像的句子即第一句子q₁向句子特征量提取模型输入来提取第一句子q₁的特征量Q₁，通过将所述检索文中的表示车辆行为数据的句子即第二句子q₂向句子特征量提取模型输入来提取第二句子q₂的特征量Q₂，

所述算出部根据第一句子q₁的特征量Q₁与保存于数据库的多个学习用数据的每一个的相对于第i个动态图像建立了对应的说明文中的第j₁个句子的特征量W_j1 ⁱ之间的差量和第二句子q₂的特征量Q₂与保存于数据库的相对于第i个动态图像建立了对应的说明文中的第j₂个句子的特征量W_j2 ^i～之间的差量，算出所述句子距离，

所述检索结果输出部按照所述句子距离从小到大的顺序将N个动态图像和车辆行为数据的对作为检索结果而输出。

3.根据权利要求2所述的检索装置，

所述检索结果输出部关于动态图像和车辆行为数据的N个对中包含的第n个对的每一个对，

将区间[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]的帧图像与区间[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]的车辆行为的对作为所述检索结果而输出，

所述区间[k_s ⁽ⁿ⁾，k_e ⁽ⁿ⁾]是与相对于对应于第n个对的第i个动态图像建立了对应的说明文中的第j₁ ⁽ⁿ⁾个句子的特征量和所述第i个动态图像中的时刻k的帧图像的特征量之间的相似度sⁱ _jk对应的加权系数aⁱ _j1(n)k比阈值δ₁大的区间，

所述区间[l_s ⁽ⁿ⁾，l_e ⁽ⁿ⁾]是与相对于与对应于第n个对的第i个动态图像对应的车辆行为数据建立了对应的说明文中的第j₂ ⁽ⁿ⁾个句子的特征量和与所述第i个动态图像对应的车辆行为数据中的时刻l的车辆行为的特征量之间的相似度uⁱ _j2(n)l对应的加权系数bⁱ _j2(n)l比阈值δ₂大的区间，

在此，1≤n≤N。

4.根据权利要求1～3中任一项所述的检索装置，

所述检索结果输出部从动态图像和车辆行为数据的N个对的每一个对将由用户预先设定的n^*个对作为所述检索结果而输出。

5.一种学习装置，包括第一损失算出部、第二损失算出部、统合部、第一学习部、第二学习部和模型取得部，

关于包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个学习用数据的每一个，

所述第一损失算出部通过对从输入的句子提取特征量的句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的动态图像提取特征量的动态图像特征量提取模型输入与同一学习用数据对应的动态图像来提取动态图像的特征量，算出表示句子的特征量与动态图像的特征量之间的差异的第一损失；

所述第二损失算出部通过对句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的车辆行为数据提取特征量的车辆行为特征量提取模型输入与同一学习用数据对应的车辆行为数据来提取车辆行为数据的特征量，算出表示句子的特征量与车辆行为数据的特征量之间的差异的第二损失；

所述统合部算出将第一损失与第二损失统合而得到的统合损失值；

所述第一学习部以使由所述统合部算出的所述统合损失值变小的方式使句子特征量提取模型及动态图像特征量提取模型进行学习；

所述第二学习部以使由所述统合部算出的所述统合损失值变小的方式使句子特征量提取模型及车辆行为特征量提取模型进行学习；及

所述模型取得部通过直到由所述统合部算出的统合损失值变得比规定的阈值小为止使第一学习部的学习处理和第二学习部的学习处理反复进行，来得到学习完毕的句子特征量提取模型。

6.根据权利要求5所述的学习装置，

第一损失算出部通过对将多个不同的特征量向同一空间映射的第一映射模型输入由句子特征量提取模型提取出的句子的特征量和由动态图像特征量提取模型提取出的动态图像的特征量，来取得向同一空间映射的句子的新的特征量和动态图像的新的特征量，算出表示句子的新的特征量与动态图像的新的特征量之间的差异的第一损失，

第二损失算出部通过对将多个不同的特征量向同一空间映射的第二映射模型输入由句子特征量提取模型提取出的句子的特征量和由车辆行为特征量提取模型提取出的车辆行为数据的特征量，来取得向同一空间映射的句子的新的特征量和车辆行为数据的新的特征量，算出表示句子的新的特征量与车辆行为数据的新的特征量之间的差异的第二损失。

7.根据权利要求6所述的学习装置，

动态图像特征量提取模型包括从图像提取特征量的图像特征量提取模型、将句子的特征量与图像的特征量进行对照的第一对照模型及基于从第一对照模型输出的对照结果和图像的特征量来输出动态图像的特征量的第一输出模型，

车辆行为特征量提取模型包括从车辆行为数据的各时刻的车辆行为提取特征量的各时刻特征量提取模型、将句子的特征量与车辆行为的特征量进行对照的第二对照模型及基于从第二对照模型输出的对照结果和车辆行为的特征量来输出车辆行为数据的特征量的第二输出模型，

关于多个学习用数据的每一个，

第一损失算出部通过对图像特征量提取模型输入学习用数据的第i个动态图像的时刻k的帧图像，来提取相对于第i个动态图像的时刻k的帧图像的特征量v_k ⁱ，

通过对句子特征量提取模型输入与学习用数据的第i个动态图像建立了对应的说明文中的第j个句子，来提取第j个句子的特征量w_j ⁱ的每一个，

通过对第一对照模型输入相对于学习用数据的第i个动态图像的时刻k的帧图像的特征量v_k ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来计算第i个动态图像的时刻k的帧图像与说明文中的第j个句子之间的相似度s_jk ⁱ，计算与相似度s_jk ⁱ对应的加权系数a_jk ⁱ作为对照结果，

通过对第一输出模型输入学习用数据的第i个动态图像的对照结果即加权系数a_jk ⁱ和相对于第i个动态图像的时刻k的帧图像的特征量v_k ⁱ的组合，来取得相对于第i个动态图像的第j个句子的特征量f_j ⁱ，

通过对第一映射模型输入学习用数据的第i个动态图像的特征量f_j ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来取得与特征量f_j ⁱ对应的动态图像的新的特征量F_j ⁱ和与句子的特征量w_j ⁱ对应的句子的新的特征量W_j ⁱ，

算出表示动态图像的新的特征量F_j ⁱ与句子的新的特征量W_j ⁱ之间的差异的第一损失，

关于多个学习用数据的每一个，

第二损失算出部通过对车辆行为特征量提取模型输入与学习用数据的第i个动态图像建立了对应的车辆行为数据的时刻l的行为，来提取相对于第i个车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ，

通过对第二对照模型输入与学习用数据的第i个动态图像建立了对应的车辆行为数据的时刻l的行为的特征量c_l ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来计算与第i个动态图像建立了对应的车辆行为数据的时刻l的车辆行为与说明文中的第j个句子之间的相似度u_jl ⁱ，计算与相似度u_jl ⁱ对应的加权系数b_jl ⁱ作为对照结果，

通过对第二输出模型输入与学习用数据的第i个动态图像建立了对应的车辆行为数据的对照结果即加权系数b_jl ⁱ和相对于与第i个动态图像建立了对应的车辆行为数据的时刻l的车辆行为的特征量c_l ⁱ的多个组合，来取得车辆行为数据的特征量g_j ⁱ，

通过对第二映射模型输入相对于与学习用数据的第i个动态图像建立了对应的车辆行为数据的第j个句子的特征量g_j ⁱ和相对于第i个动态图像的说明文中的第j个句子的特征量w_j ⁱ的组合，来取得与特征量g_j ⁱ对应的车辆行为数据的新的特征量G_j ⁱ和与句子的特征量w_j ⁱ对应的句子的新的特征量W_j ^i～，

算出表示车辆行为数据的新的特征量G_j ⁱ与句子的新的特征量W_j ^i～之间的差异的第二损失。

8.一种检索系统，包括权利要求1～4中任一项所述的检索装置和权利要求5～7中任一项所述的学习装置，其中，

在所述检索装置中使用的句子特征量提取模型是由所述学习装置进行了学习的学习完毕的句子特征量提取模型。

9.一种记录介质，记录有检索程序，该检索程序用于使计算机执行以下处理：

取得检索文，

通过对从输入的句子提取特征量的句子特征量提取模型输入取得的检索文来提取与所述检索文对应的特征量，所述句子特征量提取模型是以使表示从句子提取的特征量与从自车辆观察到的标准的动态图像提取的特征量之间的差异的损失变小的方式且以使表示从句子提取的特征量与从表示车辆的行为的时间序列的标准的车辆行为数据提取的特征量之间的差异的损失变小的方式预先学习过的模型，

关于保存于数据库的包括多个句子的说明文、从车辆观察到的动态图像及表示车辆的行为的时间序列的车辆行为数据被建立了对应的多个组合中的每个组合，算出表示从与动态图像及车辆行为数据建立了对应的说明文的各句子提取的特征量和与检索文对应的特征量之间的差异的句子距离，

根据算出的所述句子距离，按照所述句子距离从小到大的顺序将规定个数的动态图像和车辆行为数据的对作为检索结果而输出。

10.一种记录介质，记录有学习程序，该学习程序用于使计算机执行以下处理：

通过对从输入的句子提取特征量的句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的动态图像提取特征量的动态图像特征量提取模型输入与同一学习用数据对应的动态图像来提取动态图像的特征量，算出表示句子的特征量与动态图像的特征量之间的差异的第一损失，

通过对句子特征量提取模型输入学习用数据的句子来提取句子的特征量，通过对从输入的车辆行为数据提取特征量的车辆行为特征量提取模型输入与同一学习用数据对应的车辆行为数据来提取车辆行为数据的特征量，算出表示句子的特征量与车辆行为数据的特征量之间的差异的第二损失，

算出将第一损失与第二损失统合而得到的统合损失值，

执行以使算出的所述统合损失值变小的方式使句子特征量提取模型及动态图像特征量提取模型进行学习的第一学习处理，

执行以使算出的所述统合损失值变小的方式使句子特征量提取模型及车辆行为特征量提取模型进行学习的第二学习处理，

通过直到算出的统合损失值变得比规定的阈值小为止使第一学习处理和第二学习处理反复进行，来得到学习完毕的句子特征量提取模型。