CN117877017B

CN117877017B - 一种基于直播带货视频的商品识别方法及装置

Info

Publication number: CN117877017B
Application number: CN202410050543.8A
Authority: CN
Inventors: 刘健博; 王忠璐; 刘璐; 张士伟
Original assignee: Wuhan Shubo Technology Co ltd
Current assignee: Wuhan Shubo Technology Co ltd
Priority date: 2024-01-12
Filing date: 2024-01-12
Publication date: 2024-08-13
Anticipated expiration: 2044-01-12
Also published as: CN117877017A

Abstract

本发明公开了一种基于直播带货视频的商品识别方法及装置，该方法包括：基于直播带货视频得到主播解说文字和视频文字；基于主播解说文字和视频文字进行词向量转换，得到文本模态的特征矩阵；基于直播带货视频获取目标图像，提取得到目标图像的属性集合；将目标图像的属性集合中的每个属性分别转换为词向量，得到图像属性的特征矩阵；基于获取的多模态知识图谱、主播解说文字和视频文字，得到目标图像的背景知识特征矩阵；拼接图像属性的特征矩阵和背景知识特征矩阵，得到图像模态的特征矩阵；将图像模态的特征矩阵和文本模态的特征矩阵输入条件随机场，得到主播解说文字中每个实体对应商品识别类型的概率，将概率最大的实体作为商品识别结果。

Description

一种基于直播带货视频的商品识别方法及装置

技术领域

本发明涉及一种基于直播带货视频的商品识别方法及装置。

背景技术

短视频平台的兴起推动了直播带货行业的蓬勃发展。典型的直播带货节目通常时间较长，涵盖众多商品，然而观众可能仅对其中少数感兴趣。因此，若能研发一套高效的商品识别系统，能够自动监测当前正在直播介绍的商品品类和型号等信息，将大大节省观众时间，提升购物体验。现有的直播带货商品识别系统主要基于视频中的视觉信息进行识别。这种系统通过对直播视频进行分析，提取视觉特征，从而确定当前讲解的商品种类和型号。

发明内容

为了提供更准确的商品识别结果，本发明实施例提供了一种基于直播带货视频的商品识别方法及装置。

第一方面，本发明实施例提供一种基于直播带货视频的商品识别方法，该方法包括：

基于直播带货视频得到主播解说文字和视频文字；

基于所述主播解说文字和所述视频文字，进行词向量转换，得到文本模态的特征矩阵；

基于所述直播带货视频获取目标图像；

基于所述目标图像，使用预训练视觉模型提取得到所述目标图像的属性集合；

将所述目标图像的属性集合中的每个属性分别转换为词向量并进行拼接，得到图像属性的特征矩阵；

基于获取的多模态知识图谱、所述主播解说文字和所述视频文字，得到所述目标图像的背景知识特征矩阵；

将所述图像属性的特征矩阵和所述背景知识特征矩阵进行拼接，得到图像模态的特征矩阵；

将所述图像模态的特征矩阵和所述文本模态的特征矩阵拼接后输入条件随机场，得到所述主播解说文字中每个实体对应商品识别类型的概率，将概率最大的实体作为商品识别结果。

本申请实施例的一个或一些可选的实施方式中，所述基于所述背景知识，转换得到所述目标图像的背景知识特征矩阵，包括：

将所述背景知识中的每一三元组的头实体、关系和尾实体依次连接，得到背景知识文本集合；

基于所述背景知识文本集合中的每个文本使用预训练语言模型进行词向量转换，得到背景知识词向量集合；

将所述背景知识词向量集合中的所有词向量进行向量相加，得到所述目标图像的背景知识特征矩阵。

本申请实施例的一个或一些可选的实施方式中，还包括：

若所述匹配节点的所有一阶邻居节点中的图像与所述目标图像的相似度都小于所述预设阈值，则判断所述多模态知识图谱中不存在所述目标图像的背景知识，返回背景知识为空值。

本申请实施例的一个或一些可选的实施方式中，所述基于所述目标图像，使用预训练视觉模型提取得到所述目标图像的属性集合，包括：

使用预训练视觉模型提取所述目标图像中的所有对象及其概率；

将概率最高的前预设数量的对象作为所述目标图像的属性集合。

本申请实施例的一个或一些可选的实施方式中，所述基于所述主播解说文字和所述视频文字，进行词向量转换，得到文本模态的特征矩阵，包括：

基于所述主播解说文字和所述视频文字，使用预训练语言模型进行词向量转换，得到解说词向量矩阵和介绍词向量矩阵；

基于自注意力机制分别计算所述解说词向量矩阵和所述介绍词向量矩阵中每个向量的注意力权重，得到更新的解说词向量矩阵和更新的介绍词向量矩阵；

将所述更新的解说词向量矩阵和所述更新的介绍词向量矩阵进行拼接，得到文本模态的特征矩阵。

第二方面，本发明实施例提供一种基于直播带货视频的商品识别装置，该装置包括：

第一获取模块，用于基于直播带货视频得到主播解说文字和视频文字；

第一转换模块，用于基于所述主播解说文字和所述视频文字，进行词向量转换，得到文本模态的特征矩阵；

第二获取模块，用于基于所述直播带货视频获取目标图像；

第一提取模块，用于基于所述目标图像，使用预训练视觉模型提取得到所述目标图像的属性集合；

第二转换模块，用于将所述目标图像的属性集合中的每个属性分别转换为词向量并进行拼接，得到图像属性的特征矩阵；

第三获取模块，用于基于获取的多模态知识图谱、所述主播解说文字和所述视频文字，得到所述目标图像的背景知识特征矩阵；

第一拼接模块，用于将所述图像属性的特征矩阵和所述背景知识特征矩阵进行拼接，得到图像模态的特征矩阵；

第四获取模块，用于将所述图像模态的特征矩阵和所述文本模态的特征矩阵拼接后输入条件随机场，得到所述主播解说文字中每个实体对应商品识别类型的概率，将概率最大的实体作为商品识别结果。

第三方面，本发明实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述的基于直播带货视频的商品识别方法。

第四方面，本发明实施例提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述的基于直播带货视频的商品识别方法。

第五方面，本发明实施例提供一种包含指令的计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行如上述的基于直播带货视频的商品识别方法。

本发明实施例提供的上述技术方案的有益效果至少包括：

本发明实施例提供的基于直播带货视频的商品识别方法，通过结合主播解说文字和视频文字得到文本模态的特征矩阵，提取直播带货视频的图像属性与背景知识，得到图像模态的特征矩阵，将文本模态的特征矩阵与图像模态的特征矩阵拼接输入条件随机场得到商品识别结果，相比只使用直播带货视频中的图像进行识别的方法，本方法同时考虑了文字和图像两种模态的数据，克服了文字与图像两种模态的数据异构问题，能更准确的识别出商品的详细信息。而且，图像模态的特征矩阵包含了背景知识，该背景知识结合了多模态知识图谱，能更好的理解图像的深层次含义，有效缓解多图标图像存在的视觉引导偏见问题，能够更加全面、准确的识别出商品的信息。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例提供的基于直播带货视频的商品识别方法的步骤示意图；

图2为本发明实施例提供的获取目标图像背景知识的流程示意图；

图3为本发明实施例提供的基于直播带货视频的商品识别方法的流程示意图；

图4为本发明实施例提供的匹配节点中的图像示例示意图；

图5为本申请实施例提供的基于直播带货视频的商品识别装置的结构示意图。

具体实施方式

以下描述中，为了说明而不是为了限定，提出了诸如特定系统结构、技术之类的具体细节，以便透彻理解本申请实施例。然而，本领域的技术人员应当清楚，在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中，省略对众所周知的系统、装置、电路以及方法的详细说明，以免不必要的细节妨碍本申请的描述。

应当理解，当在本申请说明书和所附权利要求书中使用时，术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本申请说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

另外，在本申请说明书和所附权利要求书的描述中，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此，在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例，而是意味着“一个或多个但不是所有的实施例”，除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”，除非是以其他方式另外特别强调。

应理解，以下实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

为了说明本申请的技术方案，下面通过具体实施例来进行说明。

发明人发现，在现有技术中，现有的直播带货商品识别方法大多根据直播视频中的视觉信息进行识别，而较少利用主播解说和观众评论等文本信息，因此可能会导致商品识别错误或者商品识别不够精准，例如出现仅能识别出商品为口红，但无法识别出具体品牌的情况。同时，多模态命名实体识别任务常常使用CNN(Convolutional Neural Network，卷积神经网络)、VGG(Visual Geometry Group Network)之类的模型抽取视觉特征，只能抽取图像的浅层特征，不能获取图像深层含义，在处理一些多目标图像存在视觉引导偏见问题。基于此，发明人经过进一步研发，做出本发明，提供一种基于直播带货视频的商品识别方法及装置。

实施例一

本发明实施例提供一种基于直播带货视频的商品识别方法，参照图1所示，该方法包括：

S101：基于直播带货视频得到主播解说文字和视频文字。

本申请实施例中，获取一段待识别的直播带货视频，分别通过语音识别(ASR)技术和光学字符识别(OCR)技术对直播带货视频进行处理，提取直播带货视频中的主播解说文字和视频画面中的视频文字。

S102：基于主播解说文字和视频文字，进行词向量转换，得到文本模态的特征矩阵。

本申请实施例中，为了便于本领域技术人员理解方案，后续将结合表达式对本发明实施例提供的基于直播带货视频的商品识别方法做出更清楚完整地说明。

本申请实施例中，上述步骤S102包括：基于步骤S101得到的主播解说文字t₁与视频文字t₂分别进行分词、去停用词等预处理操作；使用预训练语言模型进行词向量转换，得到主播解说文字t₁与视频文字t₂中每个单词的词向量u和v，分别组成主播解说文字t₁与视频文字t₂对应的解说词向量矩阵U＝{u₁，u₂,...，u_m}和介绍词向量矩阵V＝{v₁，v₂,...，v_n}，其中，m和n分别表示主播解说文字t₁与视频文字t₂中单词的个数；基于自注意力机制(Self-Attention Mechanism)分别计算解说词向量矩阵U和介绍词向量矩阵V中每个词向量的注意力权重，用于表示每个词向量的重要程度，得到更新的解说词向量矩阵和更新的介绍词向量矩阵其中，α_i和β_j分别表示主播解说文字t₁和视频文字t₂中第i个和第j个词向量的注意力权重；将更新的解说词向量矩阵U′和更新的介绍词向量矩阵V′进行拼接，得到文本模态的特征矩阵T＝[U′，V′]。其中，预训练语言模型可以使用BERT、Word2Vec等词嵌入预训练语言模型。

S103：基于直播带货视频获取目标图像。

本申请实施例中，步骤S103包括，基于直播带货视频随机截取其中的一张图像作为目标图像，该目标图像中需包含直播带货视频的目标商品。

S104：基于目标图像，使用预训练视觉模型提取得到目标图像的属性集合。

本申请实施例中，上述步骤S104包括：基于目标图像img使用预训练视觉模型提取所述目标图像中的所有可能包含的对象及其概率；将概率最高的前预设数量的对象作为所述目标图像的属性集合。例如，将概率最高的前三个对象作为图像的属性，从而得到目标图像的属性集合，表达式为Attribute(img)＝argsort{p|p＝InceptionV3(img)}[1∶3]，p∈[0，1]，其中，Atrribute(img)表示目标图像的属性集合，argsort表示对输出的所有对象按照概率值从高到低进行排序，p是任意对象的概率值，InceptionV3表示预训练视觉模型，其中，预训练视觉模型除InceptionV3外，预训练视觉模型还可以使用VGG等。

S105：将目标图像的属性集合中的每个属性分别转换为词向量并进行拼接，得到图像属性的特征矩阵。

本申请实施例中，基于步骤S104获得目标图像最主要的预设数量的属性后，使用预训练语言模型将每个属性转换为词向量，并将多个属性词向量进行拼接，得到图像属性的特征矩阵IA＝[A₁；A₂；…A_j]，其中A₁到A_j分别表示图像第一到第j个目标属性的向量表示，j为上文中的预设数量。

S106：基于获取的多模态知识图谱、主播解说文字和视频文字，得到目标图像的背景知识特征矩阵。

本申请实施例中，上述步骤S106包括：获取多模态知识图谱G；根据词性提取除主播解说文字t₁与视频文字t₂中的所有实体，得到实体集合E；

针对实体集合E中的每一实体e，与多模态知识图谱G进行匹配，得到匹配节点N_e；判断匹配节点N_e中的图像与目标图像img的相似度是否达到预设阈值：

若是，将匹配节点N_e相关的所有三元组作为目标图像img的背景知识；

否则，判断匹配节点N_e的每一一阶邻居节点中的图像与目标图像的相似度是否达到预设阈值，其中，n表示匹配节点N_e的所有一阶邻居节点的数量：

若是，将该一阶邻居节点相关的所有三元组作为目标图像img的背景知识；基于目标图像img的背景知识中的每一三元组的头实体、关系和尾实体依次连接，得到背景知识文本集合；

基于背景知识文本集合中的每个文本使用预训练语言模型进行词向量转换，得到背景知识词向量集合；

将背景知识词向量集合中的所有词向量进行向量相加，得到目标图像的背景知识特征矩阵其中E_i表示图像背景知识第i个三元组对应的词向量，n表示目标图像img的背景知识中三元组的数量。

若匹配节点N_e存在多个一阶邻居节点中的图像与目标图像img的相似度都达到预设阈值，则将达到预设阈值的多个一阶邻居节点中图像与目标图像img的相似度最高的一阶邻居节点相关的所有三元组作为目标图像img的背景知识。

若匹配节点N_e的所有一阶邻居节点中的图像与目标图像img的相似度都小于预设阈值，则判断多模态知识图谱G中不存在目标图像的背景知识，返回背景知识为空值。

其中，在一具体实施例中，基于开源的IMGpedia多模态知识图谱，并通过人工标注的方式对IMGpedia多模态知识图谱进行扩充，得到本发明中使用的多模态知识图谱G。可使用余弦相似度、simhash等方法计算匹配节点N_e中的图像与目标图像img的相似度。

本申请实施例中，步骤S106获取目标图像背景知识的流程示意图如图2所示，其中文本模态包括OCR识别结果和主播解说，分别对应上文中的视频文字和主播解说文字；图2中以实体集合中的“ThinkBook14”为例，展示了匹配节点“ThinkBook14”节点相关的所有三元组，且每个节点中包括多个图像；图像模态中包括视频截图，对应上文中的目标图像，计算目标图像与匹配节点中的图像的相似度，若相似，则输出相关三元组作为背景知识，若不相似，则判断匹配节点的一阶邻居节点中的图像是否与目标图像的相似度达到预设阈值，若是，输出相关三元组作为背景知识，若否，则设置背景知识为空。

本申请实施例中，从多模态知识图谱中得到图像所包含的背景知识，从而帮助商品识别模型更加准确地提取商品相关信息，通过利用多模态知识图谱，获取与图像相关的丰富背景知识，有助于提高商品识别的准确性，使其能够更精确地提取与商品相关的信息。

S107：将图像属性的特征矩阵和背景知识特征矩阵进行拼接，得到图像模态的特征矩阵。

本申请实施例中，将图像属性的特征矩阵IA与背景知识特征矩阵IK进行拼接，得到图像模态的特征矩阵I＝[IA，IK]。

S108：将图像模态的特征矩阵和文本模态的特征矩阵拼接后输入条件随机场，得到主播解说文字中每个实体对应商品识别类型的概率，将概率最大的实体作为商品识别结果。

本申请实施例中，上述步骤S108包括：将图像模态的特征矩阵和文本模态的特征矩阵通过全连接层映射为相同维度的特征矩阵，并进行拼接，实现图像模态和文本模态下特征矩阵的融合，表达式如公式1至公式3所示：

T′＝FCL(T) 公式1；

I′＝FCL(I) 公式2；

W＝[T′，I′] 公式3；

式中，FCL表示全连接层，T和T′分别表示映射前后的文本模态的特征矩阵，I和I′分别表示映射前后的图像模态的特征矩阵，W表示文本模态与图像模态的特征矩阵融合后获得的特征矩阵；

将融合后的特征矩阵W输入条件随机场层(Conditional Random Field，CRF)，计算得到主播解说文字t₁中的每个实体对应不同商品识别类型(例如商品名称、商品型号、商品品牌)的概率，对于每一商品识别类型，选择概率最大的实体作为对应商品识别结果。

为了便于本领域技术人员理解本方案，下面对本发明实施例提供的基于直播带货视频的商品识别方法的具体实现过程做出更清楚完整地说明：本发明的整体流程示意图如图3所示：

首先，基于直播带货视频通过ASR与OCR技术得到主播文字解说与文字介绍，对应步骤S101，其中，主播文字解说和文字介绍分别对应上文中的主播解说文字和视频文字；

然后，基于主播解说文字和视频文字通过BERT词嵌入层、自注意力机制层得到文本模态表示向量，对应步骤S102，其中，文本模态表示向量对应上文中的文本模态的特征矩阵；

然后，基于直播带货视频通过InceptionV3提取图像属性，对应步骤S103-S105，得到图像属性的特征矩阵；

然后，基于主播解说文字和视频文字进行实体提取，再结合多模态知识图谱进行图像背景知识提取，对应步骤S106，得到目标图像的背景知识特征矩阵；

再将图像属性的特征矩阵和背景知识特征矩阵输入BERT词嵌入层，得到图像模态表示向量，对应步骤S107，其中图像模态表示向量即为上文中的图像模态的特征矩阵；

最后，将文本模态的特征矩阵和图像模态的特征矩阵通过模态融合与CRF实体抽取，得到商品识别结果，对应步骤S108。

在一具体实施例中，对于一段关于联想笔记本电脑的直播带货视频，分别通过ASR和OCR技术获得主播解说文字t₁和视频文字t₂。其中，t₁是“今天给大家带来的是今年联想最新款的ThinkBook14笔记本电脑，搭载了性能强悍的锐龙处理器和最高32G内存……”，t₂是“双11限时返场；直播间下单抽奖不停；ThinkPad直播间，爆款限时返场；ThinkBook14+锐龙版直播到手价7399；创作弹指之间”。

对主播解说文字t₁和视频文字t₂分别进行分词、去停用词等预处理操作，使用BERT预训练语言模型获得每个单词的词向量，其中词向量维度设为768。为了保持t₁和t₂的特征矩阵维度一致，将t₁和t₂的单词数量统一设为32。即，若单词数量超过32个，则进行截断操作；若单词数量少于32个，则使用零向量进行填充操作。由此，获得解说词向量矩阵U和介绍词向量矩阵V，维度均为32*768。使用自注意力机制计算每个单词的权重，从而获得更新后的解说词向量矩阵和更新后的介绍词向量矩阵U′和V′，进行拼接，获得文本模态的特征矩阵T，维度为64*768。

将基于联想笔记本电脑的直播带货视频中的某张截图作为目标图像，使用InceptionV3预训练视觉模型来提取目标对象及其概率，得到结果如表1所示：

表1目标对象及概率

对象	概率
		人物/person	0.4732
笔记本电脑/laptop	0.2521
		充电器/charger	0.1209
线材/cable	0.01223
		……	……

根据目标对象及概率结果，将概率最高的“人物”、“笔记本电脑”、“充电器”三个目标对象作为目标图像的属性集合，然后使用BERT词嵌入得到每个属性的词向量，然后将三个词向量拼接，得到图像属性的特征矩阵IA＝[A₁；A₂；A₃]，其中A₁到A₃分别表示图像第一到三个目标属性的词向量，其中，IA的维度为3*768。

基于开源的IMGpedia多模态知识图谱，通过人工标注的方式对其扩充，得到多模态知识图谱G。

基于主播解说文字t₁和视频文字t₂，根据名词词性提取出所有的实体，组成实体集合{“双11”，“直播间”，“ThinkPad”，“Thinkbook14”，“锐龙”，“处理器”，“内存”，……}。这里以匹配节点“Thinkbook14”为例介绍在多模态知识图谱G查找对应节点及关联三元组的过程。

在多模态知识图谱G中，查找到一个名为“Thinkbook14”的节点作为匹配节点，在匹配节点中包括图片如图4所示。将图4与目标图像均压缩到640*480分辨率，然后压缩成形状为640*480维的向量，使用余弦相似度的方式计算两张图片的向量之间的相似度，若相似度高于预设阈值θ，则认为两幅图片相似，将匹配节点“Thinkbook14”相关的所有三元组作为目标图像的背景知识，包括<Thinkbook14,isA,laptop>、<Thinkbook14，madeIn，China>、……、<Thinkbook14，producedBy,Lenovo>。

将目标图像的背景知识中所有三元组的头实体、关系、尾实体连接成文本，得到“Thinkbook14 isA laptop”，“Thinkbook14 madeIn China”，……、“Thinkbook14producedBy Lenovo”等句子作为背景知识文本集合，最后使用BERT词嵌入作为预训练语言模型计算每个句子的特征矩阵，得到背景知识词向量集合，其中，每个句子的特征矩阵维度均为3*768，即每个句子包括3个单词的词向量，每个单词用768维的向量表示。最后，将背景知识词向量集合中的所有句子的特征矩阵相加，得到目标图像的背景知识特征矩阵IK，维度为3*768。

将图像属性的特征矩阵IA与背景知识特征矩阵IK进行拼接，得到图像模态的特征矩阵I，维度为6*768。使用两个全连接层将文本模态的特征矩阵与图像模态的特征矩阵映射到维度为16*768的矩阵空间中，以便对它们进行拼接，从而实现两种模态特征矩阵的融合，文本模态与图像模态的特征矩阵融合后获得的特征矩阵W的维度为32*768。

将W输入到条件随机场层，计算出主播解说文字t₁中每个实体成为某商品识别类型(包括商品名称，商品型号，商品品牌)的概率，将每一商品识别类型中实体概率最大的实体组成商品识别结果。例如，商品品牌的各实体概率如表2所示：

表2商品品牌实体识别概率

	B-商品品牌	I-商品品牌
			今天	0.03123	0.02123
大家	0.12301	0.10123
			今年	0.09212	0.03219
联想	0.54320	0.43291
			ThinkBook14	0.22443	0.23176
笔记本电脑	0.02312	0.13345
			……	……	……

表2中，B-商品品牌表示实体是商品品牌开头(beginning)的概率，I-商品品牌表示实体是商品品牌中间或结尾的概率。“联想”同时是B-商品品牌和I-商品品牌概率最大的实体，故商品品牌识别结果为“联想”。

本申请实施例中，提出了一种基于直播带货视频的商品识别方法，融合了文本模态、图像属性和图像背景知识实现多模态命名实体识别。通过结合主播解说文字和视频文字得到文本模态的特征矩阵，提取直播带货视频的图像属性与背景知识，得到图像模态的特征矩阵，将文本模态的特征矩阵与图像模态的特征矩阵拼接输入条件随机场得到商品识别结果，相比只使用直播带货视频中的图像进行识别的方法，本方法同时考虑了文字和图像两种模态的数据，克服了文字与图像两种模态的数据异构问题，能更准确的识别出商品的详细信息。而且，图像模态的特征矩阵包含了背景知识，该背景知识结合了多模态知识图谱，能更好的理解图像的深层次含义，有效缓解多图标图像存在的视觉引导偏见问题，能够更加全面、准确的识别出商品的信息。

实施例二

基于同一发明构思，本发明实施例还提供一种基于直播带货视频的商品识别装置，参照图5所示，该装置包括：

第一获取模块101，用于基于直播带货视频得到主播解说文字和视频文字；

第一转换模块102，用于基于所述主播解说文字和所述视频文字，进行词向量转换，得到文本模态的特征矩阵；

第二获取模块103，用于基于所述直播带货视频获取目标图像；

第一提取模块104，用于基于所述目标图像，使用预训练视觉模型提取得到所述目标图像的属性集合；

第二转换模块105，用于将所述目标图像的属性集合中的每个属性分别转换为词向量并进行拼接，得到图像属性的特征矩阵；

第三获取模块106，用于基于获取的多模态知识图谱、所述主播解说文字和所述视频文字，得到所述目标图像的背景知识特征矩阵；

第一拼接模块107，用于将所述图像属性的特征矩阵和所述背景知识特征矩阵进行拼接，得到图像模态的特征矩阵；

第四获取模块108，用于将所述图像模态的特征矩阵和所述文本模态的特征矩阵拼接后输入条件随机场，得到所述主播解说文字中每个实体对应商品识别类型的概率，将概率最大的实体作为商品识别结果。

实施例三

基于同一发明构思，本发明实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一中所描述的基于直播带货视频的商品识别方法。

实施例四

基于同一发明构思，本发明实施例还提供一种计算机设备，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述实施例一中所描述的基于直播带货视频的商品识别方法。

实施例五

基于同一发明构思，本发明实施例还提供一种包含指令的计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行如上述实施例一中所描述的基于直播带货视频的商品识别方法。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于直播带货视频的商品识别方法，其特征在于，包括：

基于直播带货视频得到主播解说文字和视频文字；

基于所述直播带货视频获取目标图像；

2.如权利要求1所述的方法，其特征在于，所述基于获取的多模态知识图谱、所述主播解说文字和所述视频文字，得到所述目标图像的背景知识特征矩阵，包括：

提取所述主播解说文字、所述视频文字中的所有实体，得到实体集合；

针对所述实体集合中的每一实体，与所述多模态知识图谱进行匹配，得到匹配节点；

判断所述匹配节点中的图像与所述目标图像的相似度是否达到预设阈值：

若是，将所述匹配节点相关的所有三元组作为所述目标图像的背景知识；

否则，判断所述匹配节点的每一一阶邻居节点中的图像与所述目标图像的相似度是否达到所述预设阈值：

若是，将所述一阶邻居节点相关的所有三元组作为所述目标图像的背景知识；

基于所述背景知识，转换得到所述目标图像的背景知识特征矩阵。

3.如权利要求2所述的方法，其特征在于，所述基于所述背景知识，转换得到所述目标图像的背景知识特征矩阵，包括：

4.如权利要求2所述的方法，其特征在于，还包括：

5.如权利要求1所述的方法，其特征在于，所述基于所述目标图像，使用预训练视觉模型提取得到所述目标图像的属性集合，包括：

6.如权利要求1所述的方法，其特征在于，所述基于所述主播解说文字和所述视频文字，进行词向量转换，得到文本模态的特征矩阵，包括：

7.一种基于直播带货视频的商品识别装置，其特征在于，包括：

第二获取模块，用于基于所述直播带货视频获取目标图像；

8.一种计算机可读存储介质，计算机可读存储介质中存储有指令，当指令在终端上运行时，使得终端执行如权利要求1-6任一项所述的基于直播带货视频的商品识别方法。

9.一种计算机设备，其特征在于，包括存储器，处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-6任一项所述的基于直播带货视频的商品识别方法。

10.一种包含指令的计算机程序产品，当计算机程序产品在计算机设备上运行时，使得计算机设备执行如权利要求1-6任一项所述的基于直播带货视频的商品识别方法。