CN111950482B

CN111950482B - 基于视频学习和文本学习的三元组获取方法及装置

Info

Publication number: CN111950482B
Application number: CN202010830803.5A
Authority: CN
Inventors: 黄可思; 刘文印; 陈俊洪; 朱展模; 王思涵
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2020-08-18
Filing date: 2020-08-18
Publication date: 2023-09-15
Anticipated expiration: 2040-08-18
Also published as: CN111950482A

Abstract

本发明提供的一种基于视频学习和文本学习的三元组获取方法、装置、共融机器人视觉编程及在线协作系统、机器人，首先对长视频进行学习，得到各个视频段对应的主体物体、受体物体以及动作类型，并组成相应的操作指令三元组，然后利用文本‑三元组正负样本数据集训练自然语言模型，并将操作指令三元组组成的文本信息输入到该自然语言模型中，以得到预测三元组，通过该预测三元组来纠正长视频输出的操作指令三元组，从而实现多模态的融合；并且，通过视频学习和文本学习得到的目标三元组，其准确率相对较高，能够有效提高机器人识别长视频操作指令的正确率，有利于机器人更好地自主学习，提高学习效率。

Description

基于视频学习和文本学习的三元组获取方法及装置

技术领域

本发明涉及人工智能技术领域，尤其涉及一种基于视频学习和文本学习的三元组获取方法、装置、共融机器人视觉编程及在线协作系统、机器人。

背景技术

随着机器人技术的不断发展，机器人的自主学习能力也在不断提高；例如，现有技术中，通常利用长视频来学习操作指令三元组，机器人将输入的长视频按照动作划分为视频段，然后识别各个视频段中的主体物体和受体物体的位置和种类，以及主体物体与受体物体之间的动作，从而构成操作指令三元组，随后机器人执行相应的操作指令，从而完成自主学习的过程，并能够根据不同场景做出不同的动作。

但是，机器人通过长视频来提高自主学习能力的过程中，由于其主要通过识别各个视频段中的主体物体和受体物体的位置和种类，以及主体物体与受体物体之间的动作来执行相应的操作指令，却无法判断出物体间的联系以及动作与物体间的联系，导致出现一些错误的三元组；比如输出的三元组为(榨汁机，榨，碗)，机器人无法判断该组三元组存在常识性的错误，仍旧会按照输出的三元组来执行错误的动作，从而限制了机器人的自主学习能力，使得机器人执行动作的准确度和效率较低。

发明内容

本发明的目的旨在至少能解决上述的技术缺陷之一，特别是现有技术中机器人无法判断出物体间的联系以及动作与物体间的联系，从而限制了机器人的自主学习能力，使得机器人执行动作的准确度和效率较低的技术缺陷。

本发明实施例提供了一种基于视频学习和文本学习的三元组获取方法，应用于机器人，所述方法包括：

获取长视频，将所述长视频分割为多个视频段，并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组；

将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组；其中，所述自然语言模型利用文本-三元组正负样本数据集进行训练；

将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令。

可选地，将所述长视频分割为多个视频段的步骤，包括：

确定所述长视频中每一帧的预测动作，并将相同预测动作对应的帧进行合并，得到多个视频段。

可选地，根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组的步骤，包括：

根据所述视频段中的预测动作确定各个视频段对应的动作类型以及动作识别概率；

对所述视频段进行目标检测并分类，得到与所述视频段对应的主体物体、受体物体以及对应的物体识别概率；

根据所述动作识别概率和所述物体识别概率选取相应的动作类型、主体物体和受体物体，并组成操作指令三元组。

可选地，将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中的步骤之前，还包括：

获取多个长视频，并组成视频数据集，根据所述视频数据集构建文本-三元组正负样本数据集；

利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练，得到训练后的自然语言模型。

可选地，所述自然语言模型为BERT+GRU模型；

利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练的步骤，包括：

通过所述BERT+GRU模型的BERT模型提取所述文本-三元组正负样本数据集的特征数据，并将所述特征数据输入到所述BERT+GRU模型的GRU模型中，得到三个长度相同的矩阵；

利用sigmoid函数确定各个矩阵中各个类别对应的识别概率，并将各个矩阵中识别概率最高的类别组成三元组。

可选地，将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组的步骤，包括：

将所述操作指令三元组输入到固定的句式中得到对应的句子，并将所述句子输入到所述BERT+GRU模型中，通过所述BERT模型提取所述句子的特征数据，并将所述特征数据输入到所述GRU模型中，得到主体物体矩阵、受体物体矩阵和动作类型矩阵；

利用sigmoid函数确定所述主体物体矩阵、受体物体矩阵和动作类型矩阵中各个类别对应的识别概率，并将所述主体物体矩阵、受体物体矩阵和动作类型矩阵中识别概率最高的类别组成预测三元组。

可选地，将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组的步骤，包括：

将所述预测三元组中的各个类别与所述操作指令三元组中的各个类别之间进行比对；

若所述操作指令三元组中的各个类别与所述预测三元组不同，则将所述预测三元组作为目标三元组。

本发明还提供了一种基于视频学习和文本学习的三元组获取装置，应用于机器人，包括：

第一处理模块，用于获取长视频，将所述长视频分割为多个视频段，并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组；

第二处理模块，用于将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组；其中，所述自然语言模型利用文本-三元组正负样本数据集进行训练；

目标确定模块，用于将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令。

本发明还提供了一种共融机器人视觉编程及在线协作系统，所述共融机器人视觉编程及在线协作系统中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述基于视频学习和文本学习的三元组获取方法的步骤。

本发明还提供了一种机器人，所述机器人应用如上述实施例中任一项所述基于视频学习和文本学习的三元组获取方法的步骤，获取目标三元组，并通过所述目标三元组执行相应的操作指令。

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明提供的一种基于视频学习和文本学习的三元组获取方法、装置、共融机器人视觉编程及在线协作系统、机器人，包括：获取长视频，将所述长视频分割为多个视频段，并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组；将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组；其中，所述自然语言模型利用文本-三元组正负样本数据集进行训练；将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令。

本发明首先对长视频进行学习，得到各个视频段对应的主体物体、受体物体以及动作类型，并组成相应的操作指令三元组，然后利用文本-三元组正负样本数据集训练自然语言模型，并将操作指令三元组组成的文本信息输入到该自然语言模型中，以得到预测三元组，通过该预测三元组来纠正长视频输出的操作指令三元组，从而实现多模态的融合；并且，通过视频学习和文本学习得到的目标三元组，其准确率相对较高，能够有效提高机器人识别长视频操作指令的正确率，有利于机器人更好地自主学习，提高学习效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的一种基于视频学习和文本学习的三元组获取方法的流程示意图；

图2为本发明实施例提供的利用BERT+GRU模型确定目标三元组的流程示意图；

图3为本发明实施例提供的一种基于视频学习和文本学习的三元组获取装置的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像本申请实施例中一样被特定定义，否则不会用理想化或过于正式的含义来解释。

现有技术中，一般通过视频学习的方式来使机器人进行自主学习，机器人通过视频学习得到的操作指令三元组来执行相应的操作指令，如利用一个物体对另一个物体进行相关操作等。

然而现有的通过视频学习的方式获取相应的操作指令三元组，无法提高机器人的自主学习能力，而本申请提出了一种基于视频学习和文本学习的三元组获取方法，能够有效提高机器人的自主学习能力，且有利于提高机器人执行操作指令的正确率。

请参阅图1，图1为本发明实施例提供的一种基于视频学习和文本学习的三元组获取方法的流程示意图；图1中，本发明提供了一种基于视频学习和文本学习的三元组获取方法，应用于机器人，所述方法具体包括如下：

S110：获取长视频，将所述长视频分割为多个视频段，并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组。

本步骤中，机器人在进行自主学习时，可先获取长视频，通过长视频来确定相应的操作指令三元组；其中，可通过提取长视频中的特征序列，将长视频分割为多个视频段，每个视频段对应一个动作类型，并且，还可通过神经网络对各个视频段进行目标检测，并使用分类器对目标检测后得到的局部特征，如对手部附近区域的特征序列进行分类，得到各个视频段对应的主体物体和受体物体。

这样，即可得到各个视频段对应的操作指令三元组，该操作指令三元组包含主体物体，动作类型，受体物体，如三元组为(榨汁机，榨，西瓜)。

可以理解的是，这里使用长视频进行学习，主要是由于长视频区别于短视频，拥有相对较长的播放时长，因此，利用长视频进行学习时，可得到更多的特征序列，有利于提高机器人执行操作指令的正确率。

S120：将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组；其中，所述自然语言模型利用文本-三元组正负样本数据集进行训练。

本步骤中，通过步骤S110获取的长视频确定对应的操作指令三元组后，可继续对该操作指令三元组进行文本学习，从而得到相应的预测三元组。

具体地，对操作指令三元组进行文本学习时可采用自然语言模型，该自然语言模型的输入为文本信息，因此，需要先将操作指令三元组进行相应的处理后组成文本信息，如将操作指令三元组填入至固定的句式中，得到一个完整的句子，然后输入至自然语言模型中，通过自然语言模型来对包含操作指令三元组的文本信息进行相应的语言处理操作，该语言处理操作包括但不限于划分该文本信息中的输出类别，以及确定不同输出类别对应的识别概率等。

当利用自然语言模型对包含操作指令三元组的文本信息进行处理后，可得到预测三元组，该预测三元组可以是不同输出类别中识别概率最高的类别组成的三元组。

进一步地，这里的自然语言模型指的是利用文本-三元组正负样本数据集进行训练得到的语言模型，该语言模型包括但不限于BERT+GRU模型，该文本-三元组正负样本数据集中增加了负样本，使得模型在训练的过程中能够根据负样本纠正错误的文本，找到基于本文环境下可能性最高的三元组。

S130：将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令。

本步骤中，当通过视频学习的方式获取操作指令三元组，以及通过文本学习获取预测三元组后，可结合两组三元组来比对，确定最终的目标三元组。

当然，由于自然语言模型是通过文本-三元组正负样本数据集进行训练得到的，该模型能够根据文本-三元组正负样本数据集中的负样本来纠正错误的文本，使得最终预测得到的三元组更为准确。因此，若通过视频学习得到的操作指令三元组与文本学习的方式得到的预测三元组之间不同的话，则优先采用预测三元组作为目标三元组。

得到目标三元组后，可将该目标三元组输入到机器人中，使得机器人根据该目标三元组传入相应的图像，并判断物体的位置和需要执行的动作。

上述实施例中，首先对长视频进行学习，得到各个视频段对应的主体物体、受体物体以及动作类型，并组成相应的操作指令三元组，然后利用文本-三元组正负样本数据集训练自然语言模型，并将操作指令三元组组成的文本信息输入到该自然语言模型中，以得到预测三元组，通过该预测三元组来纠正长视频输出的操作指令三元组，从而实现多模态的融合；并且，通过视频学习和文本学习得到的目标三元组，其准确率相对较高，能够有效提高机器人识别长视频操作指令的正确率，有利于机器人更好地自主学习，提高学习效率。

在一个实施例中，步骤S110中将所述长视频分割为多个视频段的步骤，可以包括：

S111：确定所述长视频中每一帧的预测动作，并将相同预测动作对应的帧进行合并，得到多个视频段。

本实施例中，获取到长视频后，为了更好地对长视频进行学习，可利用卷积神经网络，如I3D、3D卷积神经网络等提取出长视频中的特征序列，然后再利用空洞卷积神经网络等方法把长视频分割成多个视频段。

这里的分割依据主要是利用长视频中每一帧的预测动作来将相同预测动作对应的帧进行合并，从而形成多个视频段，每个视频段中至少包含一个帧数据，并且，每个视频段中有且仅有一个动作类型。

在一个实施例中，步骤S110中根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组的步骤，可以包括：

S112：根据所述视频段中的预测动作确定各个视频段对应的动作类型以及动作识别概率；

S113：对所述视频段进行目标检测并分类，得到与所述视频段对应的主体物体、受体物体以及对应的物体识别概率；

S114：根据所述动作识别概率和所述物体识别概率选取相应的动作类型、主体物体和受体物体，并组成操作指令三元组。

本实施例中，可利用空洞卷积神经网络等方法把长视频分割成多个视频段，由于将长视频分割为多个视频段主要是依据长视频中每一帧的预测动作来将相同预测动作对应的帧进行合并得到的，因而每个视频段中有且仅有一个动作类型，并且，在神经网络的最后一层可添加softmax层或者sigmoid层来提取特征，便能输出多类别的概率，即该动作类型对应的动作识别概率。

接着，为了获取视频段中的主体物体、受体物体，可将视频段输入到预先训练好的Mask R-CNN模型中得到手部附近区域的特征序列，然后将该特征序列输入到XGBoost分类器中，得到主体物体、受体物体，以及它们的物体识别概率；至此，通过上述操作，可得到每一个视频段对应的操作指令三元组：(主体物体，动作，受体物体)。

可以理解的是，这里的动作类型包括但不限于切，切片，削，倒，摇，榨和搅；这里的XGBoost分类器，通过输入手部附近的特征序列得出主体物体、受体物体的识别概率；比如说，主体物体分别为四个类别(苹果，搅拌棍，勺子和刀)，通过全连接层把最后一层特征转化成4个输出：[-0.5，1.2，-0.1，2.4]，该4个输出分别代表苹果，搅拌棍，勺子和刀，接着通过sigmoid层提取特征后，输出[0.37，0.77，0.48，0.91]，其分别代表神经网络中四个类别的主体物体对应的概率。

当得到主体物体和受体物体对应的物体识别概率后，对于主体物体和受体物体，可选取识别概率最大的类别作为它们的识别结果，然后和视频分割得到的动作类型组合成操作指令三元组；；例如，上述通过sigmoid层提取特征后输出为[0.37，0.77，0.48，0.91]，因此可提取概率值最大0.91，它对应的类别为刀，即主体物体为刀。

在一个实施例中，步骤S120中将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中的步骤之前，还可以包括：

S121：获取多个长视频，并组成视频数据集，根据所述视频数据集构建文本-三元组正负样本数据集；

S122：利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练，得到训练后的自然语言模型。

本实施例中，为了保证自然语言模型能够顺利地预测出正确的三元组，可在数据集中增加负样本，即文本中本意的三元组是错误的，但输出的三元组是正确的，是经过纠正的，这样能够帮助模型更好地纠正错误的文本，找到基于文本环境最有可能的三元组。

其中，文本-三元组正负样本数据集主要是根据视频数据集的种类而定的。例如，视频数据集有48类物体和7类动作，则文本-三元组正负样本数据集比视频的数据集的物体种类多一点，也同样有7种动作。

利用文本-三元组正负样本数据集对预先建立的自然语言模型进行训练，输出数据集的主体物体、动作和受体物体对应着每个输出类别的概率，然后取出主受物体和动作中最高概率的类别作为主受物体和动作的最终预测结果，最后组成三元组。

在一个实施例中，所述自然语言模型为BERT+GRU模型；步骤S122中利用所述文本-三元组正负样本数据集对预先建立的自然语言模型进行训练的步骤，可以包括：

S1221：通过所述BERT+GRU模型的BERT模型提取所述文本-三元组正负样本数据集的特征数据，并将所述特征数据输入到所述BERT+GRU模型的GRU模型中，得到三个长度相同的矩阵；

S1222：利用sigmoid函数确定各个矩阵中各个类别对应的识别概率，并将各个矩阵中识别概率最高的类别组成三元组。

本实施例中，当选用BERT+GRU模型作为文本学习的语言模型时，可通过BERT+GRU模型的BERT模型提取文本-三元组正负样本数据集的特征数据，并将特征数据输入到BERT+GRU模型中的GRU模型，得到三个长度相同的矩阵。

举例来说，数据集的输入集为普通的文本，对应的输出集为3*(48+7)的矩阵；其中，48为48类物体，7为7类动作，3为主体受体动作。每一个(48+7)的矩阵中，矩阵的某一位数字代表一种输出类别，有且仅有1个位置上标1，其余47位全部标0，即组成一个OneHot矩阵。比如矩阵第1位代表苹果，第2位代表香蕉...第55位代表刀，那么假如输出为01000...(重复50个0)，则这个OneHot矩阵代表输出类别为香蕉。以此类推，得到每个矩阵中识别概率最高的类别，并组成三元组。

在一个实施例中，步骤S120中将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组的步骤，可以包括：

S123：将所述操作指令三元组输入到固定的句式中得到对应的句子，并将所述句子输入到所述BERT+GRU模型中，通过所述BERT模型提取所述句子的特征数据，并将所述特征数据输入到所述GRU模型中，得到主体物体矩阵、受体物体矩阵和动作类型矩阵；

S124：利用sigmoid函数确定所述主体物体矩阵、受体物体矩阵和动作类型矩阵中各个类别对应的识别概率，并将所述主体物体矩阵、受体物体矩阵和动作类型矩阵中识别概率最高的类别组成预测三元组。

本实施例中，由于自然语言模型的输入为文本信息，因此，将操作指令三元组送入到自然语言模型之前，需要对操作指令三元组进行相应的处理，使得操作指令三元组变为一个文本信息。例如，可将操作指令三元组填入到固定句式中得到对应的句子，然后将该句子输入到自然语言模型中，如BERT+GRU模型。

将句子输入到BERT+GRU模型后，经BERT模型进行特征提取，一个句子会得到固定768长度的特征数据，把该特征数据输入GRU模型中，最终，一个句子会输出3个长度为(48+7)的矩阵，第一个长度为(48+7)的矩阵为主体物体矩阵，第二个长度为(48+7)的矩阵为动作类型矩阵，第三个长度为(48+7)的矩阵为受体物体矩阵。利用sigmoid函数分别找出这三个矩阵中识别概率最高的输出类别，即可组成预测三元组：(主体物体，动作，受体物体)。

在一个实施例中，步骤S130中将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组的步骤，可以包括：

S131：将所述预测三元组中的各个类别与所述操作指令三元组中的各个类别之间进行比对；

S132：若所述操作指令三元组中的各个类别与所述预测三元组不同，则将所述预测三元组作为目标三元组。

本实施例中，由视频学习得到各个视频段对应的操作指令三元组后，可将各个视频段的操作指令三元组组成简单的句子输入到自然语言模型，如BERT+GRU模型后，得出该句子预测出来的最高概率的三元组，即预测三元组，如果和视频段的操作指令三元组不同，则纠正为BERT+GRU模型得出的预测三元组，并将该预测三元组作为机器人输入的目标三元组；具体可参见图2，图2为本发明实施例提供的利用BERT+GRU模型确定目标三元组的流程示意图。

在一个实施例中，如图3所示，图3为本发明实施例提供的一种基于视频学习和文本学习的三元组获取装置的结构示意图；图3中，本发明还提供了一种基于视频学习和文本学习的三元组获取装置，应用于机器人，包括第一处理模块110、第二处理模块120、目标确定模块130，具体包括如下：

第一处理模块110，用于获取长视频，将所述长视频分割为多个视频段，并根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组；

第二处理模块120，用于将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组；其中，所述自然语言模型利用文本-三元组正负样本数据集进行训练；

目标确定模块130，用于将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令。

关于基于视频学习和文本学习的三元组获取装置的具体限定可以参见上文中对于基于视频学习和文本学习的三元组获取方法的限定，在此不再赘述。上述基于视频学习和文本学习的三元组获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器中，也可以以软件形式存储于终端设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，本发明还提供了一种共融机器人视觉编程及在线协作系统，所述共融机器人视觉编程及在线协作系统中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如上述实施例中任一项所述基于视频学习和文本学习的三元组获取方法的步骤。

在一个实施例中，本发明还提供了一种机器人，所述机器人应用如上述实施例中任一项所述基于视频学习和文本学习的三元组获取方法的步骤，获取目标三元组，并通过所述目标三元组执行相应的操作指令。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于视频学习和文本学习的三元组获取方法，应用于机器人，其特征在于，所述方法包括：

将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令；

所述将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中，得到预测三元组的步骤，包括：

将所述操作指令三元组输入到固定的句式中得到对应的句子，并将所述句子输入到BERT+GRU模型中，通过所述BERT模型提取所述句子的特征数据，并将所述特征数据输入到GRU模型中，得到主体物体矩阵、受体物体矩阵和动作类型矩阵；

利用sigmoid函数确定所述主体物体矩阵、受体物体矩阵和动作类型矩阵中各个类别对应的识别概率，并将所述主体物体矩阵、受体物体矩阵和动作类型矩阵中识别概率最高的类别组成预测三元组；

所述将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组的步骤，包括：

2.根据权利要求1所述的基于视频学习和文本学习的三元组获取方法，其特征在于，将所述长视频分割为多个视频段的步骤，包括：

3.根据权利要求2所述的基于视频学习和文本学习的三元组获取方法，其特征在于，根据所述视频段的主体物体、受体物体以及动作类型确定对应的操作指令三元组的步骤，包括：

4.根据权利要求1所述的基于视频学习和文本学习的三元组获取方法，其特征在于，将所述操作指令三元组组成文本信息后输入到预先训练好的自然语言模型中的步骤之前，还包括：

5.根据权利要求4所述的基于视频学习和文本学习的三元组获取方法，其特征在于，所述自然语言模型为BERT+GRU模型；

6.一种基于视频学习和文本学习的三元组获取装置，应用于机器人，其特征在于，包括：

目标确定模块，用于将所述预测三元组与所述操作指令三元组进行比对，确定目标三元组，并将所述目标三元组输入到所述机器人中，以使所述机器人执行相应的操作指令；

所述第二处理模块，包括：

所述目标确定模块，包括：

7.一种共融机器人视觉编程及在线协作系统，其特征在于：所述共融机器人视觉编程及在线协作系统中存储有计算机可读指令，所述计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行如权利要求1至5中任一项所述基于视频学习和文本学习的三元组获取方法的步骤。

8.一种机器人，其特征在于：所述机器人应用如权利要求1至5中任一项所述基于视频学习和文本学习的三元组获取方法的步骤，获取目标三元组，并通过所述目标三元组执行相应的操作指令。