CN114091427A

CN114091427A - 一种图像文本相似度模型训练方法及显示设备

Info

Publication number: CN114091427A
Application number: CN202111375862.9A
Authority: CN
Inventors: 朱飞; 曹晚霞
Original assignee: Hisense Electronic Technology Wuhan Co ltd
Current assignee: Hisense Electronic Technology Wuhan Co ltd
Priority date: 2021-11-19
Filing date: 2021-11-19
Publication date: 2022-02-25
Anticipated expiration: 2041-11-19
Also published as: CN114091427B

Abstract

本申请提供一种图像文本相似度模型训练方法及显示设备，所述方法包括获取图像的文本正样本并存储；所述文本正样本为描述图像内容的文本；构造文本负样本；所述文本负样本通过文本正样本关键词替换得到；根据文本负样本生成文本数据集；所述文本数据集包括图像、文本正样本以及文本负样本；使用所述文本数据集对预设模型进行训练，得到图像文本相似度模型，该模型的损失函数为三元组损失和二分类损失的加权和。通过构造和文本正样本语义接近但是和文本正样本对应的图像不相关的文本负样本，将文本负样本数据融入到模型中训练，迫使模型学习区分和文本正样本更相似的文本负样本，提高相关性判断的能力。

Description

一种图像文本相似度模型训练方法及显示设备

技术领域

本申请涉及图文匹配技术领域，尤其涉及一种图像文本相似度模型训练方法及显示设备。

背景技术

在便携智能设备普及发展的今天，人们所使用的电子设备越来越多，例如智能终端和显示设备，智能终端包括手机、iPad等，显示设备包括智能电视以及带有智能显示屏幕的产品等。

显示设备作为家庭媒体中心，其可配置各种不同的应用程序，使可实现的功能越来越丰富，性能也越来越强大。目前需要一种图像描述功能，即根据输入的一张图像生成能够描述这张图像的文本，通过图像描述功能可在显示设备交互场景中的进行视觉问答，方便用户体验。

发明内容

本申请提供了一种图像文本相似度模型训练方法及显示设备，以解决目前挖掘得到的负样本缺乏针对性，使得模型训练效果不佳，相关性判定存在较大的问题。

第一方面，本申请提供一种图像文本相似度模型训练方法，包括以下步骤：

获取图像的文本正样本并存储；所述文本正样本为描述图像内容的文本；

构造文本负样本；所述文本负样本通过文本正样本关键词替换得到；

根据文本负样本生成文本数据集；所述文本数据集包括图像、文本正样本以及文本负样本；

使用所述文本数据集对预设模型进行训练，得到图像文本相似度模型。

本申请的一些实施例中，使用所述文本数据集对预设模型进行训练，包括：

将训练集代入预设的训练模型进行训练，得到初次训练后的第一模型；其中，训练集是所述文本数据集中用于训练图像文本相似度模型的集合；

将验证集代入第一模型进行验证得到验证结果；其中，验证集是所述文本数据集中用于验证图像文本相似度模型的集合；

根据验证结果计算得到第一模型的第一准确率；所述准确率为验证集的整体准确值；

将训练集代入第一模型进行训练，得到训练后的第二模型；

对第二模型进行验证，得到验证结果；

根据验证结果计算得到第二模型的第二准确率；

若第二准确率不高于第一准确率，则终止所述模型训练。

本申请的一些实施例中，所述构造文本负样本，包括：

对所有文本正样本进行词性分析，得到分析结果；

根据所述分析结果，提取相同词性的文本句子；

将提取后的所述文本句子采用关键词替换构造文本负样本。

本申请的一些实施例中，将提取后的所述文本句子采用关键词替换构造文本负样本包括：

将相同词性的文本句子进行类别分类，构建对应的词库；

从对应的词库选取一个词，获取该词的前N个同义词，再从N个同义词中随机选取进行替换。

本申请的一些实施例中，根据文本负样本生成文本数据集，包括：

将文本正样本的图像、文本正样本以及对应的文本负样本融合生成每一张图像的文本数据；

汇总所有图像的文本数据得到文本数据集；

将所述文本数据集随机切分成训练集以及验证集；所述训练集与验证集的数据量比例为9:1；

所述训练集用于训练所述图像文本相似度模型，所述验证集用于验证所述图像文本相似度模型。

本申请的一些实施例中，所述文本数据包括某个特定图像对应的原始文本正样本caption_triploss、某个特定图像对应的新增的文本样本caption_celoss以及标签值，其中所述新增的文本样本包括文本正样本以及文本负样本；如果是文本正样本，则标签值为1；如果是文本负样本，则标签值为0。

本申请的一些实施例中，将训练集代入预设的训练模型进行训练，得到初次训练后的第一模型，包括：

建立预设的训练模型；

将训练集代入预设的训练模型，遍历所有训练集进行训练，得到初次训练后的第一模型。

本申请的一些实施例中，所述建立预设的训练模型，包括：

根据一个批次内的图像文本对，计算三元组损失L1，得到第一损失函数；

计算该批次内所有图像和对应的负样本构造句子的二分类交叉熵损失L2，得到第二损失函数；

将两个损失函数求和L1+αL2作为模型训练的目标函数，其中α为调和参数，用来控制二分类交叉熵损失的比重。

本申请的一些实施例中，将训练集代入预设的训练模型，遍历所有训练集进行训练，得到初次训练后的第一模型，包括对训练后的模型进行相关性判断，得到判断结果调整后续训练过程：

计算得到image,caption_triploss,caption_celoss的最终向量表示u,v和w；

采用负样本挖掘技术对u和v构造三元组损失，得到三元组损失值；

新增加的文本向量w和图像向量进行特征融合之后进行二分类损失计算，得到二元分类损失计算值；

根据三元损失值以及二分类损失计算值求和，进行相关性判断；

得到判断结果，调整后续训练过程。

本申请的一些实施例中，还包括：

若第二准确率高于第一准确率，则将训练集代入第二模型进行训练，得到训练后的第三模型；

对第三模型进行验证，得到验证结果；

根据验证结果计算得到第三模型的第三准确率；

若第三准确率不高于第二准确率，则终止所述模型训练。

第二方面，本申请还提供一种显示设备，包括：

控制器，被配置为获取图像的文本正样本并存储；

构造文本负样本；

根据文本负样本生成文本数据集；

将训练集代入预设的训练模型进行训练，得到初次训练后的第一模型；

将验证集代入第一模型进行验证得到验证结果；

根据验证结果计算得到第一模型的第一准确率；

将训练集代入第一模型进行训练，得到训练后的第二模型；

对第二模型进行验证，得到验证结果；

根据验证结果计算得到第二模型的第二准确率；

若第二准确率不高于第一准确率，则终止所述模型训练以及，将训练模型对文本数据进行验证的信息进行显示。

第三方面，本申请还提供了一种存储介质，该计算机存储介质可存储有程序，该程序执行时可实现包括本申请提供的远程文件浏览方法各实施例中的部分或全部步骤。

由以上技术方案可知，本申请提供一种图像文本相似度模型训练方法，包括获取图像的文本正样本并存储；所述文本正样本为描述图像内容的文本；构造文本负样本；所述文本负样本通过文本正样本关键词替换得到；根据文本负样本生成文本数据集；所述文本数据集包括图像、文本正样本以及文本负样本；使用所述文本数据集对预设模型进行训练，得到图像文本相似度模型，该模型的损失函数为三元组损失和二分类损失的加权和。通过构造和文本正样本语义接近但是和文本正样本对应的图像不相关的文本负样本，将文本负样本数据融入到模型中训练，迫使模型学习区分和文本正样本更相似的文本负样本，提高相关性判断的能力。

附图说明

为了更清楚地说明本申请的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员而言，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1中示例性示出了根据一些实施例的显示设备操作场景的示意图；

图2中示例性示出了相关图像描述示意图；

图3中示例性示出了根据一些实施例的图像文本相似度模型训练方法的一种流程图；

图4中示例性示出了根据一些实施例显示在显示设备的图像的示意图；

图5中示例性示出了根据一些实施例显示在显示设备的图像的示意图；

图6中示例性示出了根据一些实施例的构造文本负样本的流程示意图；

图7中示例性示出了根据一些实施例的名词提取示意图；

图8中示例性示出了根据一些实施例的名词分类构造示意图；

图9中示例性示出了根据一些实施例的基于关键词替换的文本负样本构造的输出文本示意图；

图10中示例性示出了根据一些实施例的构造的模型的框架示意图；

图11中示例性示出了根据一些实施例的终止模型训练的流程示意图；

图12中示例性示出了根据一些实施例的训练好的模型效果示意图；

图13中示例性示出了根据一些实施例的将训练模型对文本数据进行验证的信息进行显示示意图。

具体实施方式

随着显示设备的快速发展，显示设备的功能将越来越丰富，性能也越来越强大，目前，显示设备包括智能电视、智能机顶盒、智能盒子，以及带有智能显示屏幕的产品等。

图1中示例性示出了根据一些实施例的显示设备的操作场景的示意图。如图1中示出，用户可通过移动终端200操作显示设备100。

在一些实施例中，也可以使用移动终端、平板电脑、计算机、笔记本电脑、和其他智能设备以控制显示设备100。例如，使用在智能设备上运行的应用程序控制显示设备100。该应用程序通过配置可以在与智能设备关联的屏幕上，在直观的用户界面(UI)中为用户提供各种控制。

在一些实施例中，移动终端200可与显示设备100安装软件应用，通过网络通信协议实现连接通信，实现一对一控制操作的和数据通信的目的。如：可以实现用移动终端 200与显示设备100建立控制指令协议，将遥控控制键盘同步到移动终端200上，通过控制移动终端200上用户界面，实现控制显示设备100的功能。也可以将移动终端200 上显示音视频内容传输到显示设备100上，实现同步显示功能。

如图1中还示出，显示设备100还与服务器300通过多种通信方式进行数据通信。可允许显示设备100通过局域网(LAN)、无线局域网(WLAN)和其他网络进行通信连接。服务器300可以向显示设备100提供各种内容和互动。示例的，显示设备100通过发送和接收信息，以及电子节目指南(EPG)互动，接收软件程序更新，或访问远程储存的数字媒体库。服务器300可以是一个集群，也可以是多个集群，可以包括一类或多类服务器。通过服务器300提供视频点播和广告服务等其他网络服务内容。

显示设备100，可以液晶显示器、OLED显示器、投影显示设备。具体显示设备类型，尺寸大小和分辨率等不作限定，本领技术人员可以理解的是，显示设备100可以根据需要做性能和配置上一些改变。

显示设备100除了提供广播接收电视功能之外，还可以附加提供计算机支持功能的智能网络电视功能，包括但不限于，网络电视、智能电视、互联网协议电视(IPTV)等。

在一些实施例中，显示设备100中包括控制器、调谐解调器、通信器、检测器、输入/输出接口、显示器，音频输出接口、存储器、供电电源、用户接口、外部装置接口中的至少一种。

在一些实施例中，显示器，包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件。

在一些实施例中，显示视频内容，可以来自广播电视内容，也可以是说，可通过有线或无线通信协议接收的各种广播信号。或者，可显示来自网络通信协议接收来自网络服务器端发送的各种图像内容。

在一些实施例中，显示器用于呈现显示设备100中产生且用于控制显示设备100的用户操控UI界面。

在一些实施例中，显示器为一种投影显示器，还可以包括一种投影装置和投影屏幕。

在一些实施例中，用户接口，可用于接收控制装置100(如：红外遥控器等)红外控制信号。

在一些实施例中，检测器是显示设备100用于采集外部环境或与外部交互的信号。

在一些实施例中，输入/输出接口被配置为，可进行控制器与外部其他设备或其他控制器之间的数据传输。如接收外部设备的视频信号数据和音频信号数据、或命令指令数据等。

在一些实施例中，调谐解调器解调的频点受到控制器的控制，控制器可根据用户选择发出控制信号，以使的调制解调器响应用户选择的电视信号频率以及调制解调该频率所携带的电视信号。

显示设备需要一种图像描述功能，即根据输入的一张图生成能够描述这张图像的文本，通过图像描述功能可在显示设备交互场景中的进行视觉问答，即可以用来回答“图像中这些人在干什么”，“图像中有什么”这样的用户问题，方便用户体验。

为了实现图像描述功能，需要先对图像进行识别。图像识别过程为：对图像进行预处理以及分割，得到去除干扰以及噪声的图像；将去除干扰以及噪声的图像进行特征提取和分类，得到识别结果。

当完成图像识别后，根据识别结果进行文本生成任务，完成图像描述功能，输出图像描述文本；其中，图像描述文本为在线实时生成的。

图像描述功能在线使用时，根据图像识别结果调用预先离线生成保存在数据库的文本内容，生成图像描述文本。

图像描述文本由于实时在线生成的属性，有时生成出的文本存在错别字、语病以及描述内容错误等问题。对于错别字和语病的问题，可以通过一些规则判断方法进行过滤，但是对于描述错误的问题，会影响用户体验。

例如图2，图像描述的文本可能是“草丛里站着一只豹子和一只动物在吃草”，这个文本中的“和一只动物在吃草”这一部分显然与图像描述不符合，这就出现描述内容错误的情形，因此需要通过一种方法，来过滤对于图像内容描述不恰当的文本。

为此，本发明实施例提供一种图像文本相似度模型训练方法，采用构造和文本正样本语义接近但是和文本正样本对应的图像不相关的文本负样本数据，将这些文本负样本数据融入到构建的模型中训练，迫使模型能够学习区分和文本正样本更相似的文本负样本信息，从而提高相关性判断的能力。

图3示例性示出了根据一些实施例的图像文本相似度模型训练方法的一种流程图；本发明实施例提供的一种图像文本相似度模型训练方法，包括以下步骤：

S1、获取图像的文本正样本并存储。

文本正样本通常指的是与图像对应描述恰当的文本，在实际中也可以为句子中词汇分类正确的文本，文本正样本一般都是人为设定的。

在一些实施例中，用户在通过显示设备使用图像描述功能时，显示设备中的控制器自动获取数据集中图像的文本正样本并进行存储。

在一些实施例中，文本正样本为描述图像内容的文本，在这里并不限定文本正样本的相似度，即文本正样本中也可以包含部分描述错误的文本，如此做的目的是为了增加样本的多样性。

S2、构造文本负样本。

文本负样本通常指的是没有恰当描述图像的文本，可以是与文本中部分词汇不相似或者不相同，当然也可以是与文本中所有词汇完全不同的文本。

在一些实施例中，文本负样本的获取步骤为：确定一个图像1后，随机选取数据库中除图像1以外的其他图像的文本正样本，将随机选取的文本正样本设定为图像1的文本负样本。如此选择的文本负样本可能和图像1没有任何关系，导致模型学习起来是十分容易的，难以学习到文本之间细微的差别。

图4示出了根据一些实施例显示在显示设备的图像的示意图，显示设备展现出的是一张羊在草地上吃草的图像，假如数据库中其他图像中都没有羊和草地，那么数据库其他图像相应的文本正样本也不会出现“羊”，“草地”这些关键词，那么从中找出来的文本负样本和图4的差异性是很大的，模型很容易就学习到这种差异性。相比而言，如图5所示，如果一张牛在吃草的图像对应的描述句子可能对图4而言更有用。因此，本申请又提出一种关于文本负样本的构造过程。

在一些实施例中，采用对文本正样本进行关键词替换构造文本负样本，所述文本负样本可以是与文本正样本最为相似的文本，也可以为与文本正样本毫无关系，相似度特别低的文本负样本，这样做是为了使得用作模型训练的负样本具有针对性。比如给定一张牛在草地上吃草的图像，文本负样本可以是“一个人在草地上”，“一匹马在吃草”等句子。

对于给定的一张图像，生成的描述句子的错误主要有3类：(1)描述实体错误，比如把图像中的“羊”描述为了“牛”；(2)描述属性错误，比如“一个穿着红色衣服的人”描述为“一个穿着蓝色衣服的人”；(3)关键动作错误，比如“一个穿着红色衣服的男人仰着头在喝酒”描述为“一个穿着红色衣服的男人仰着头亲吻”。

本申请的实施例中文本负样本的生成主要是针对这三类错误进行关键词替换。

如图6所示，在一些实施例中，构造文本负样本包括以下步骤：

S21、对所有文本正样本进行词性分析，得到分析结果。

在一些实施例中，对文本正样本进行词性分析(名词，形容词以及动词)，得到分析结果。

S22、根据所述分析结果，提取相同词性的文本句子。

在一些实施例中，确定分析结果之后，将相同词性的文本句子进行类别分类，构建对应的词库。

S23、将提取后的所述文本句子采用关键词替换构造文本负样本。

在一些实施例中，构建词库之后，进行关键词替换步骤，从对应的词库选取一个词，获取该词的前N个同义词，再从N个同义词中随机选取进行替换。

本申请首先通过显示设备中的控制器对所有文本正样本进行词性分析，将文本正样本中的三类词进行提取(名词，形容词以及动词)，后续针对提取的词进行关键词替换，可以得到更多的文本负样本。

下面给出一些具体实施例来针对构造文本负样本进行详细说明。

以描述实体错误为例，描述实体一般都是名词，所以首先会对所有训练数据中的文本数据进行词性分析，词性分析可以采用jieba，lac等词性分析工具，把里面所有的名词提取出来。

图7示例性示出了根据一些实施例的名词提取示意图，句子输入为一个穿着红色衣服的人在打羽毛球，提取的名词有红色，衣服，羽毛球。图8中示例性示出了根据一些实施例的名词分类构造示意图。

提取后对所有名词进行类别分类，比如分为person，animal，ball，traffic等，如下表 1所示。

对于某一条训练句子，如果该句子中包含名词，首先判断它所属的名词类别，然后从其他类别中随机选一个词，获取这个词的前N个同义词，再从N个词中随机选一个进行替换。这样可以保证替换词的多样性。举例如表1：

表1

以描述属性错误为例：描述属性错误主要是指颜色和大小等形容词描述错误，比如将图像中“红色的衣服”描述为了“蓝色的衣服”。

关键词替换方法为：首先对文本句子进行词性分析，词性分析可以采用jieba，lac等工具，把里面的形容词提取出来，对形容词类别进行归类整理，比如颜色包括【红色，蓝色，白色...】，大小【巨大的，渺小的，微小的，瘦骨嶙峋的，...】。对于某一条训练句子，如果该句子中包含某个形容词，首先判断它所属的形容词类别，然后从其他类别中随机选一个词，获取这个词的前N个同义词，再从N个词中随机选一个进行替换。这样可以保证替换词的多样性。对于某些特殊类别，比如颜色类，由于颜色之间是互斥的，则可以直接从该类别中随机选择一个词替换。

以描述动作错误为例：首先对文本句子进行词性分析，词性分析可以采用jieba，lac 等工具，把里面的动词提取出来，构建动词库。

对于某一条训练句子，如果该句子中包含某个动词，则从动词库随机选一个词，获取这个词的前N个同义词，再从N个词中随机选一个进行替换。这样可以保证替换词的多样性。

S3、根据文本负样本生成文本数据集，包括以下执行步骤：

汇总所有图像的文本数据得到文本数据集。

在某一具体的实现方式中，显示设备中的控制器将文本正样本的图像、文本正样本以及对应的文本负样本融合生成该图像的文本数据，将所有图像的文本数据汇总得到文本数据集。

控制器将所述文本数据集随机切分成训练集以及验证集；所述训练集与验证集的数据量比例为9:1；train表示训练集，validation表示验证集；

在一些实施例中，文本数据包括4个部分：图像id(image_id)、文本正样本(caption_tripleloss)、新增样本(caption_celoss)以及标签值(label_celoss)。

image_id：用于表示某一张特定的图像；

caption_tripleloss：和image_id对应的原始文本正样本；

caption_celoss：和image_id对应的新增的文本样本，可能是文本正样本，也可能是文本负样本；

label_celoss：如果caption_celoss是文本正样本，则该值为1；如果是文本负样本，则为0。

控制器将构造的文本数据集用于对图像文本相似度模型训练和验证。图9中示例性示出了根据一些实施例的基于关键词替换的文本负样本构造的输出文本示意图。

可以理解的是，在某一具体的实现方式中，通过关键词替换的文本可以是新的文本正样本也可以是文本负样本，此处值得说明的是，新的文本正样本就是通过关键词替换之后，相似度比初始的文本正样本更高，关于该图像描述内容更加恰当的文本句子。

S4、将训练集代入预设的训练模型进行训练，得到初次训练后的第一模型，包括以下步骤：

建立预设的训练模型；

其中，在图像文本相似度模型训练之前，还需要将文本正样本与文本负样本结合；在一些实施例中，结合的具体内容包括：根据图像、图像对应的为文本正样本以及随机选取的文本负样本，进行三元组损失计算，得到三元组损失函数，将该三元组损失函数设定为图像文本相似度模型的目标函数；得到该目标函数后，利用图像文本相似度模型进行训练，最终提高该模型相关性判断的能力。其中，图像文本相似度模型在图像描述阶段起作用，并不在图像识别过程中起作用。其中模型输入为：一张图像和对应这张图像的描述句子(文本正样本以及系统随机选取的文本负样本)。其中，模型的目标函数为：根据一个批次数据内的图像文本对，计算三元组损失L1，作为模型训练的目标函数。

在一些实施例中，控制器根据一个批次内的图像文本对(文本正样本)，计算三元组损失L1，得到第一损失函数；控制器计算该批次内所有图像和对应的负样本构造句子的二分类交叉熵损失L2，得到第二损失函数；控制器将两个损失函数求和的L1+αL2作为模型训练的目标函数，建立得到预设的训练模型。该模型输入：一张图像和对应这张图像的描述句子，以及通过负样本生成构造的一条描述句子。(文本正样本以及系统随机选取的文本负样本，构建的负样本)。图10中示例性示出了根据一些实施例的构造的模型的框架示意图。

可以理解的是，其中α为调和参数，用来控制二分类交叉熵损失的比重。

在一些实施例中，控制器将训练集代入预设的训练模型，遍历所有训练集进行训练，得到初次训练后的第一模型。

其中，控制器将训练集代入预设的训练模型，遍历所有训练集进行训练，每一次训练集中选取的文本数据可以是文本正样本，也可以是文本负样本。

可以理解的是，在某一具体的实现方式中，控制器得到初次训练后的第一模型还包括对训练后的模型进行相关性判断，得到判断结果调整后续训练过程。

控制器首先计算得到图像image，文本正样本caption_triploss，新增样本caption_celoss 的最终向量表示u，v和w；采用负样本挖掘技术对u和v构造三元组损失，得到三元组损失值；新增加的文本向量w(关键词替换得到文本)和图像向量进行特征融合之后进行二分类损失计算，得到二元分类损失计算值；根据三元损失值以及二分类损失计算值求和，进行相关性判断；得到判断结果，调整后续训练过程。

在一些实施例中，结合图10来针对相关性判断进行详细说明：首先模型的输入为<image， caption_triploss，caption_celoss，label_celoss>，其中两个文本输入caption_triploss和 caption_celoss共享文本编码参数，通过特征抽取模型后，分别得到image，caption_triploss， caption_celoss的最终向量表示u，v和w。u和v采用负样本挖掘技术去构造三元组损失，而新增加的文本向量w则和图像向量进行特征融合之后进行二分类损失计算，具体过程如下：

对向量进入融合，拼接：F1＝concat([u,w,u-w,u*w])；

将融合后的向量送入到一个两层的多层感知机(multi-layer predictor):F2＝MLP(F1)；

将最终的特征向量F2进行softmax操作，实现二分类：probability＝softmax(F2)。

Probability是一个二维的向量[p1，p2]，其中p1+p2＝1，如果p1>p2表明u和w相关，否则不相关。其中，训练时将三元组损失和二分类损失进行直接求和。

S5、将验证集代入第一模型进行验证得到验证结果。

在一些实施例中，控制器将验证集代入初次训练后的第一模型，遍历所有验证集进行验证，得到验证结果。

可以理解的是，每一次验证集中选取的文本数据可以是文本正样本，也可以是文本负样本。

S6、根据验证结果计算得到第一模型的第一准确率。

在一些实施例中，控制器根据验证结果计算得到模型的第一准确率。

可以理解的是，第一准确率的定义为，第一次训练后的第一模型关于验证集的整体准确值。

S7、将训练集代入第一模型进行训练，得到训练后的第二模型。

S8、对第二模型进行验证，得到验证结果。

在一些实施例中，在进行初次训练之后，控制器将运行下一次训练以及验证，训练以及验证与第一模型的操作相同，此处不做赘述，最终得到关于第二模型的验证结果。

可以理解的是，此处训练所使用的模型是第一模型。

S9、根据验证结果计算得到第二模型的第二准确率。

在一些实施例中，控制器根据验证结果计算得到第二模型的第二准确率。

可以理解的是，第二准确率的定义为，第二次训练之后的第二模型关于验证集的整体准确值。

S10、若第二准确率不高于第一准确率，则终止所述模型训练。

在一些实施例中，控制器将第一准确率与第二准确率进行比较，若第二准确率不高于第一准确率，则终止所述模型训练。

如图11所示，在某一具体的实现方式中，若第二准确率不高于第一准确率，则终止所述模型训练还包括以下步骤：

S101、若第二准确率高于第一准确率，则将训练集代入第二模型进行训练，得到训练后的第三模型；

S102、对第三模型进行验证，得到验证结果；

S103、根据验证结果计算得到第三模型的第三准确率；

S104、若第三准确率不高于第二准确率，则终止所述模型训练。

可以理解的是，当第二准确率高于第一准确率的时候，控制器运行下一次训练，针对第二模型进行训练，得到第三模型以及第三模型的第三准确率，再将第三准确率与第二准确率进行比较，判断是否可以终止训练，终止训练的条件为第三准确率不高于第二准确率。如果不满足终止条件，那么控制器运行下一次训练，直至当前模型的准确率不高于前一次模型的准确率。

下面结合具体的实施例对模型终止训练进行详细说明。

对所有数据进行文本负样本生成，然后切分为训练集和验证集(随机切分)。设定模型训练的最大迭代次数max_epoch，对于每一次迭代：模型首先遍历训练集所有数据进行训练，更新模型参数；然后固定住模型参数，遍历验证集所有数据进行验证，得到验证集的整体准确率。

计算当前迭代步相比于上一个迭代步验证集准确率是否有提高，如果有提高，则进入下一个迭代步继续训练，否则终止训练。

根据本申请提供的一种图像文本相似度模型训练方法训练完毕后，对训练好的模型进行预测，也就是可以进行实际运行，具体内容如下：

首先，进行预测阶段。当模型训练好了之后，在实际预测时，只需要输入一张图像image 和相应的一句描述caption，然后得到最终向量u和v之后，进行consin相似度计算即可。

最后，进行实际效果对比。在实际应用中，通过上述文本相似度模型训练后，模型的预测效果如图12所示。

如图12所示：图像描述模型生成的真实句子为“干净整洁的健身房里摆放着许多健身器材”，采用本申请的模型计算的相似度similarity＝0.753；假定生成的句子为“干净整洁的健身房里面有一个男人在锻炼身体”，这是一个不能反应图像内容的文本负样本，其相似度 similarity＝0.5985，和0.753差距比较大，可以做比较好的区分，如果把相似度阈值设置为0.65，小于0.65的结果不输出，就可以屏蔽掉“干净整洁的健身房里面有一个男人在锻炼身体”这样的不好结果。

针对图像描述错误的问题可采用图像文本相似度模型来解决，通过该模型来评估图像和文本相关性，当判定相关性较差时，将不合格的句子屏蔽掉。图像文本相似度模型需要将图像及描述该图像的文本数据(包括文本正样本和文本负样本)输入图像文本相似度模型，然后让该模型不断训练学习，最终提高该模型相关性判断的能力。

本发明实施例提供的一种显示设备，包括：控制器，被配置为获取图像的文本正样本并存储；构造文本负样本；根据文本负样本生成文本数据集；将训练集代入预设的训练模型进行训练，得到初次训练后的第一模型，该模型的损失函数为三元组损失和二分类损失的加权和；将验证集代入第一模型进行验证得到验证结果；根据验证结果计算得到第一模型的第一准确率；将训练集代入第一模型进行训练，得到训练后的第二模型；对第二模型进行验证，得到验证结果；根据验证结果计算得到第二模型的第二准确率；若第二准确率不高于第一准确率，则终止所述模型训练以及，将训练模型对文本数据进行验证的信息进行显示。

图13中示例性示出了根据一些实施例的将训练模型对文本数据进行验证的信息进行显示示意图；如果用户截图到了电视首页，图像描述生成的结果为“干净的展厅里摆放着一个方形的展架”，相似度为0.4454，在实际中将相似度阈值设置为0.65，那么这个描述句子会被屏蔽掉，不会展示给用户，可以保证描述不恰当的结果不会被输出。

具体实现中，本发明还提供一种计算机存储介质，其中，该计算机存储介质可存储有程序，该程序执行时可包括本发明提供的远程文件浏览方法的各实施例中的部分或全部步骤。所述的存储介质可为磁碟、光盘、只读存储记忆体(英文：read-only memory，简称：ROM)或随机存储记忆体(英文：random access memory，简称：RAM)等。

本领域的技术人员可以清楚地了解到本发明实施例中的技术可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本发明实施例中的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。

本说明书中各个实施例之间相同相似的部分互相参见即可。尤其，对于智能终端和显示设备的实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例中的说明即可。

最后应说明的是：以上各实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述各实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。

Claims

1.一种图像文本相似度模型训练方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的图像文本相似度模型训练方法，其特征在于，使用所述文本数据集对预设模型进行训练，包括：

将训练集代入第一模型进行训练，得到训练后的第二模型；

对第二模型进行验证，得到验证结果；

根据验证结果计算得到第二模型的第二准确率；

若第二准确率不高于第一准确率，则终止所述模型训练。

3.根据权利要求1所述的图像文本相似度模型训练方法，其特征在于，所述构造文本负样本，包括：

对所有文本正样本进行词性分析，得到分析结果；

根据所述分析结果，提取相同词性的文本句子；

将提取后的所述文本句子采用关键词替换构造文本负样本。

4.根据权利要求3所述的图像文本相似度模型训练方法，其特征在于，将提取后的所述文本句子采用关键词替换构造文本负样本包括：

将相同词性的文本句子进行类别分类，构建对应的词库；

5.根据权利要求1所述的图像文本相似度模型训练方法，其特征在于，根据文本负样本生成文本数据集，包括：

汇总所有图像的文本数据得到文本数据集；

6.根据权利要求5所述的图像文本相似度模型训练方法，其特征在于，所述文本数据包括某个特定图像对应的原始文本正样本caption_triploss、某个特定图像对应的新增的文本样本caption_celoss以及标签值，其中所述新增的文本样本包括正样本以及负样本；如果是文本正样本，则标签值为1；如果是文本负样本，则标签值为0。

7.根据权利要求2所述的图像文本相似度模型训练方法，其特征在于，将训练集代入预设的训练模型进行训练，得到初次训练后的第一模型，包括：

建立预设的训练模型；

8.根据权利要求7所述的图像文本相似度模型训练方法，其特征在于，所述建立预设的训练模型，包括：

计算该批次内所有图像和对应的文本负样本构造句子的二分类交叉熵损失L2，得到第二损失函数；

9.根据权利要求8所述的图像文本相似度模型训练方法，其特征在于，将训练集代入预设的训练模型，遍历所有训练集进行训练，得到初次训练后的第一模型，包括对训练后的模型进行相关性判断，得到判断结果调整后续训练过程：

得到判断结果，调整后续训练过程。

10.根据权利要求9所述的图像文本相似度模型训练方法，其特征在于，还包括：

对第三模型进行验证，得到验证结果；

根据验证结果计算得到第三模型的第三准确率；

若第三准确率不高于第二准确率，则终止所述模型训练。

11.一种显示设备，其特征在于，包括：

控制器，被配置为获取图像的文本正样本并存储；

构造文本负样本；

根据文本负样本生成文本数据集；

将验证集代入第一模型进行验证得到验证结果；

根据验证结果计算得到第一模型的第一准确率；

将训练集代入第一模型进行训练，得到训练后的第二模型；

对第二模型进行验证，得到验证结果；

根据验证结果计算得到第二模型的第二准确率；