CN115964520A

CN115964520A - 元数据标签识别

Info

Publication number: CN115964520A
Application number: CN202211254206.8A
Authority: CN
Inventors: 王丁贤; 陈红旭; 徐冠东; 何力
Original assignee: eBay Inc
Current assignee: eBay Inc
Priority date: 2021-10-13
Filing date: 2022-10-13
Publication date: 2023-04-14
Also published as: EP4167109A1; US11966440B2; US20230115897A1

Abstract

描述了一种用于视频的自动元数据标签识别的方法。将内容特征从视频中提取到相应的数据结构中。所提取的内容特征来自至少两种不同的特征模态。使用循环神经网络(RNN)模型的编码器将相应数据结构编码为通用数据结构。使用RNN模型的解码器对通用数据结构进行解码，以识别要与社交内容平台上的视频相关联的内容平台元数据标签。解码是基于社交内容平台的识别用户组的用户的组标签数据以及用户组感兴趣的对应组元数据标签。

Description

元数据标签识别

相关申请的交叉引用

本申请要求于2021年10月13日提交的题为“元数据标签识别”的美国专利申请No.17/500,455的优先权，其全部公开内容通过引用整体并入本文。

技术领域

本申请涉及电子商务和社交媒体技术领域，具体涉及自动元数据标签识别的方法和系统。

背景技术

诸如井号标签之类的元数据标签通常被社交媒体平台用作以允许交叉引用类似内容(例如，具有相关主题或话题的帖子或视频)的方式标记平台上的内容的形式。通常，元数据标签由用户例如通过键入井号和他们期望的文本(例如，“#咖啡”或“#BostonCremeDonut”)进行输入，用于图像中有甜甜圈和咖啡的帖子。由于元数据标签被应用于各种帖子，因此对某些内容感兴趣的其他用户可以使用元数据标签作为对用户更友好的方法来执行搜索，而不是搜索文件名、文件类型、用户名等。内容的元数据标签也可以用于品牌推广和社交媒体讨论。在各种场景下，识别帖子的元数据标签要么在手动执行时很耗时，要么在通过软件例程执行时无法精确定位所期望的用户组。

正是关于这些和其他一般考虑，才描述了实施例。此外，尽管已经讨论了相对具体的问题，但应当理解，实施例不应限于解决背景技术中确定的具体问题。

发明内容

本公开的各方面涉及提高元数据标签处理的效率和准确性。

在一些方面，提供了一种用于视频的自动元数据标签识别的方法。该方法包括：将来自视频的内容特征提取到相应的数据结构中，所提取的内容特征来自至少两种不同的特征模态。该方法还包括使用循环神经网络(RNN)模型的编码器将相应数据结构编码为通用数据结构。该方法还包括：使用RNN模型的解码器对通用数据结构进行解码，以识别要与社交内容平台上的视频相关联的内容平台元数据标签，其中，解码是基于社交内容平台的识别用户组的用户的组标签数据和用户组感兴趣的对应组元数据标签。

在另外的一些方面，提供了一种用于处理元数据标签的方法。该方法包括：接收社交内容平台的先前使用的元数据标签，其中，先前使用的元数据标签对应于社交内容平台的用户。该方法还包括：使用先前使用的元数据标签来训练用于社交内容平台的神经网络模型。该方法还包括：生成社交内容平台的用户的组标签数据，其中，组标签数据识别用户组以及用户组感兴趣的对应元数据标签。该方法还包括：基于组标签数据对与视频相对应的通用数据结构进行解码以上传到社交内容平台，从而对视频的先前使用的元数据标签进行元数据标签识别。

在又另外的一些方面，提供了一种用于自动识别视频的内容平台元数据标签的系统。该系统包括：特征提取器，被配置为将来自视频的内容特征提取到相应的数据结构中。所提取的内容特征来自至少两种不同的特征模态。该系统还包括：对象编码器，被配置为：对社交内容平台的用户的先前使用的元数据标签进行编码，以生成识别用户组的组标签数据和用户组感兴趣的对应组元数据标签。该系统还包括：循环神经网络(RNN)模型，具有多模态编码器和标签解码器。该多模态编码器被配置为将相应的数据结构编码为通用数据结构。该标签解码器被配置为对通用数据结构进行解码以识别要与社交内容平台上的视频相关联的内容平台元数据标签，标签解码器被配置为基于组标签数据进行解码。

提供本发明内容以用简化形式介绍对下面在具体实施方式中进一步描述的构思的选择。发明内容不意在标识所请求保护主题的关键特征或基本特征，也不意在用于限制所请求保护主题的范围。示例的附加方面、特征和/或优点将在以下描述中部分地阐述，并且部分地根据该描述变得显而易见，或者可以通过实践本公开而被获知。

附图说明

参考以下附图来描述非限制性和非穷尽性示例。

图1示出了根据示例实施例的可以实现标签处理器的元数据标签系统的示例的框图。

图2示出了根据示例实施例的图1的元数据标签系统的示例多模态编码器的框图。

图3示出了根据示例实施例的图1的元数据标签系统的示例标签解码器的示意图。

图4示出了根据示例实施例的用于视频的自动元数据标签识别的示例方法的流程图。

图5示出了根据示例实施例的用于处理元数据标签的示例方法的流程图。

图6示出了根据本公开的各方面的可以用来实践本公开的各方面的设备的简化框图。

具体实施方式

在以下详细描述中，参考了构成详细描述的一部分的附图，并且在附图中通过说明性方式示出了具体实施例或示例。可以组合这些方面，可以利用其他方面，并且可以在不脱离本公开的情况下进行结构改变。实施例可以被实践为方法、系统或设备。因此，实施例可以采取硬件实现、完全软件实现、或结合软件和硬件方面实现的形式。因此，以下详细描述不应被视为为限制意义，并且本公开的范围由所附权利要求及其等同物限定。

本公开描述了元数据标签处理的各种示例，包括识别元数据标签(例如，现有标签或先前使用的标签)以及生成新的元数据标签。元数据标签，例如井号标签(例如，“#咖啡”)，可以用于通过关注可能查看与特定元数据标签相关联的内容的目标消费者来提高商品的销售。由于丼号标签在在线营销中发挥着重要作用，放置广告的电子商务平台可以寻求识别相关的元数据标签，以提高提供给消费者的广告的有效性。然而，流行的元数据标签经常在变化，并且在特定的给定时间可能难以识别。

本公开描述了一种标签处理器，该标签处理器可以使用视频的若干种特征模态(例如视觉特征、音频特征和/或文本特征)来自动生成视频(或其他内容)的元数据标签。标签处理器可以从视频中提取内容特征，并将内容特征编码为通用数据结构。换言之，通用数据结构表示视频的视觉特征、音频特征和/或文本特征。标签处理器对通用数据结构进行解码，以识别与社交内容平台(例如，TikTok、Facebook、Instagram等)上的视频相关联的元数据标签。因此，当用户在社交内容平台上搜索或查看具有特定元数据标签的帖子时，该视频更有可能呈现给该用户。标签处理器可以对先前在社交内容平台上使用的元数据标签进行编码，以生成识别可能对该视频感兴趣的用户组的组标签数据。标签处理器可以使用组标签数据对通用数据结构进行解码，以更有效地将可能对该视频感兴趣的用户组作为目标。

本文描述了用于元数据标签处理的这个实施例和许多另外实施例。例如，图1示出了根据示例实施例的可以实现标签处理器120的元数据标签系统100的示例的框图。元数据标签系统100包括电子商务平台110、标签处理器120和内容平台130。电子商务平台110(本文中被称为“平台110”)可以是eBay平台、Amazon平台、Etsy平台或其他合适的在线销售平台和/或服务。平台110可以包括内容生成器112，其生成要用于由平台110提供和/或拍卖以出售的商品或服务的广告的内容，例如微视频广告114。微视频广告114(也被称为“视频114”)可以显示在平台110上的帖子上，例如拍卖列表、销售列表或其他合适的帖子。在一些实施例中，内容生成器112是自动化软件引擎，该自动化软件引擎基于来自帖子的信息(例如，文本、图像、视频)生成微视频广告114。在其他实施例中，内容生成器112是生成平台110的诸如视频114之类的视频的雇员或承包商。尽管本文的示例将视频114称为由内容生成器112生成的内容，但是在其他实施例中，生成不同形式的内容而不是视频114，例如帖子、微视频、图像、推文(即，Twitter上的帖子)、超文本传输协议(HTTP)页面和/或其他合适的内容。

内容平台130可以是网站、托管服务或用于向用户提供内容的其他合适平台。由内容平台130提供的内容示例包括微视频、视频、图像、音频文件、帖子、推文或其他合适的内容。在一些场景中，内容平台130可以是TikTok平台、InstaGram平台、Facebook平台、Imgur平台或其他合适的平台或服务。在一些实施例中，内容平台130利用元数据标签(例如，井号标签)来搜索并组织由内容平台130托管的内容。内容平台130可以包括标签数据库132，其存储与内容平台130上的内容相关联的元数据标签(例如，组元数据标签148)。标签数据库132还可以包括关于元数据标签的使用的数据，例如，使用特定元数据标签的频率(例如，每分钟或每周的使用量，总使用量)，哪些用户已经使用或查看了具有该元数据标签的帖子等，因此可以用于识别在至少一些用户中流行的“趋势”元数据标签。在一些实施例中，标签数据库132包含对内容平台130上的用户、元数据标签和内容(例如，微视频)之间的交互进行建模的数据。

在一些实施例中，视频114包括可用于与视频114相关的搜索的一个或多个元数据标签(例如，井号标签)或与其相关联。例如，与视频114相关联但不被包括在视频114本身内的元数据标签可以被包括在引用、链接到和/或包含视频114的网页或帖子中。内容生成器112可以识别或生成与平台110上的视频114相关联的电子商务平台元数据标签116。例如，平台110上的咖啡研磨机的拍卖列表可以包括有助于在平台110上搜索与咖啡相关的物品的井号标签(例如，“#咖啡”和“#咖啡因”)。

在一些场景中，与平台110上搜索视频114的用户相关或对平台110上搜索视频114的用户有帮助的元数据标签与内容平台130上的用户不太相关。例如，内容平台130上的一些用户在提及咖啡时可能更喜欢使用“#摩卡”、“#CupOfJoe”或“#Java”，而不是如在平台110上使用的“#咖啡”。在各种实施例和/或场景中，标签处理器120被配置为识别和/或生成视频114的元数据标签，这些元数据标签比可以在电子商务平台110上使用的元数据标签(例如，“#咖啡”)更适合于内容平台130(例如，“#CupOfJoe”)。换言之，视频114可以作为具有内容平台元数据标签146的视频140被发布到内容平台130，该内容平台元数据标签146不同于电子商务平台元数据标签116并且特定于内容平台130。通过识别在内容平台130上流行(例如，更频繁地被使用、被更多数量的用户使用、更可能被搜索等)的视频140的内容平台元数据标签146，标签处理器120使得：当那些流行的井号标签被观看时，视频140更有可能被显示，导致在电子商务平台110上基于视频140的附加观看和更高的销售可能性。通常，视频140和视频114具有相同的内容(例如，音频、视觉、文本内容)但不同的元数据标签。然而，在某些场景下，元数据标签可以嵌入到对应的视频中或与视频结合(例如，作为视频中的滚动文本横幅)，从而产生不同的文件。

在各种实施例中，标签处理器120可以被实现为计算设备。例如，标签处理器120可以是任何类型的计算设备，包括移动计算机或移动计算设备(例如，

设备、膝上型计算机、笔记本计算机、诸如Apple iPad^TM的平板计算机、上网本等)，或诸如台式计算机或PC(个人计算机)的固定计算设备。在一些实施例中，标签处理器120是网络服务器、云服务器或其他合适的分布式计算系统。标签处理器120可以被配置为：执行一个或多个软件应用(或“应用”)和/或服务，和/或管理可以由标签处理器120的用户使用的硬件资源(例如，处理器、存储器等)。

在一些实施例中，标签处理器120实现用于元数据标签识别和/或生成的神经网络模型，例如序列到序列(“seq2seq”)循环神经网络(RNN)模型。换言之，标签处理器120将代表视频114的一个序列(例如，通用数据结构，例如向量)转换成可用于在内容平台130上发布视频114的另一序列(例如，一个或多个元数据标签)。在一些实施例中，可以处理视频114的内容特征以生成可变长度序列作为通用数据结构，然后该通用数据结构被编码为固定长度向量表示，并且然后被解码为可变长度序列(例如，元数据标签)。在一些实施例中，标签处理器120被进一步改进以利用“注意力”，其中对解码器(即，标签解码器128)的输入是存储整个上下文(即，通用数据结构)的单个向量，这允许解码器选择性地查看输入序列。

标签处理器120包括多模态编码器124、对象编码器126和标签解码器128。多模态编码器124被配置为：基于视频(例如视频114)的内容特征生成通用数据结构，然后可以对通用数据结构进行解码以获得这些视频的合适元数据标签。通常，将来自视频114的内容特征提取到相应的数据结构中，其中所提取的内容特征来自至少两种不同的特征模态(例如，视频114的视觉特征、视频114的音频特征和/或视频114的文本特征)。在一些实施例中，标签处理器120包括：特征提取器122，被配置为从视频114中提取内容特征以供多模态编码器124进行分析。在其他实施例中，特征提取器122与多模态编码器124集成在一起，例如，如图2所示。在其他实施例中，内容特征不被提取，而是从内容生成器112或其他合适的源接收作为元数据。

对象编码器126被配置为：在个人级别以及也在组级别(例如，享受咖啡或其他主题的用户组)提高对元数据标签的用户偏好的认识，这提高了标签处理器120对微视频广告(例如，视频114)的主题与内容平台130的目标用户组(例如，享受咖啡的用户组)之间的相似性的后续学习。对象编码器126被配置为：例如通过执行组感知兴趣建模(例如，对内容平台130的用户的先前使用的元数据标签进行编码以生成组标签数据(例如，组标签数据330))来处理标签数据库132内的条目以学习目标用户或目标组的偏好。组标签数据可以包括基于标签数据库132的野语言模型。例如，标签数据库132可以是来自内容平台的公共用户和井号标签数据集。在一些场景中，标签数据库132内的条目的个人隐私信息被移除。对象编码器126执行自我监督学习以基于特定元数据标签对用户组进行分类。例如，可以将目标用户划分为若干个兴趣不同的目标组，例如体育爱好者、电影爱好者、咖啡爱好者等。这些基于兴趣的组然后被标签解码器128使用，如下所述。

标签解码器128被配置为：对来自多模态编码器124的通用数据结构进行解码，以获得适合于视频140的元数据标签。在一些实施例中，标签解码器128是生成新元数据标签的基于注意力的顺序语言生成模块。下面进一步描述标签解码器128。

尽管标签处理器120被示为电子商务平台110与内容平台130之间的中间处理器，但在其他实施例中，可以在其他合适的平台之间使用标签处理器120。在一些实施例中，例如，标签处理器120在电子商务平台110内实现为独立的处理器或作为内容生成器112的一部分。

图2示出了根据示例实施例的元数据标签系统的示例多模态编码器200的框图。通常，多模态编码器200对应于图1的多模态编码器124，而微视频广告202(被称为“视频202”)对应于视频114。多模态编码器200将从内容(例如，视频202)中提取的内容特征编码为通用数据结构，例如向量。

多模态编码器200包括特征提取器210、主题预测器230、以及来自至少两种不同特征模态的两个或更多个内容特征处理器(例如，用于文本模态的文本处理器220、用于视觉模态的图像处理器222、以及用于音频模态的音频处理器224)。通常，至少两种模态内的内容特征可以表示为很容易作为数值存储和处理的单词或字符串的向量。换言之，所提取的内容特征由相应的数值的向量来表示，本文示出为以向量形式形成句子的单词的向量。将相应的向量级联到通用数据结构(例如，长向量)中，该通用数据结构组合了来自不同模态的内容特征的表示。主题预测器230然后将向量聚类为不同的组，其中每个组表示不同的主题(例如，咖啡组、硬币收集组等)。尽管在一些实施例中向量被用作通用数据结构，但在其他实施例中可以使用其他数据结构，例如链表、矩阵、树或其他合适的数据结构。

特征提取器210被配置为从视频202(例如，文本数据结构212、图像数据结构214和/或音频数据结构216)中提取数据。文本数据结构212可以包括来自视频202的描述的文本、出现在视频202内的文本、在托管视频202的网页上显示的文本或元数据、或其他合适的文本。文本处理器220被配置为基于由特征提取器210提取的文本数据结构212来生成向量。在实施例中，文本处理器220使用从视频202的描述中导出文本特征的Sentence2Vector例程来实现。在一些实施例中，文本处理器220利用视频202的现有元数据标签、视频202的视频类别描述(例如，来自托管视频202的网站)或其他合适的类别描述作为输入来生成文本内容数据结构。

图像数据结构214可以包括来自从视频202提取的静止帧的图像、来自视频202的关键帧、视频202的封面图像等。图像处理器222被配置为基于由特征提取器210提取的图像数据结构214来生成向量。在实施例中，图像处理器222包括经预训练的ResNet模型以根据从视频202中提取的关键帧(例如，咖啡杯、咖啡研磨机等)获得视觉特征的描述。

音频数据结构216可以包括视频202内的音频波形或声学特征的表示。音频处理器224被配置为基于由特征提取器210提取的音频数据结构216来生成向量。在实施例中，音频处理器224实现VGGish软件(https://github.com/tensorflow/models/tree/master/ research/audioset/vggish)以例如通过接收音频波形作为输入(例如，来自特征提取器210的音频数据)并产生音频波形的语义内容的嵌入表示来学习声学深度学习特征。在一些实施例中，特征提取器210使用FFmpeg6软件来提取音频波形。

多模态编码器200级联来自文本处理器220、图像处理器222和音频处理器224的相应向量以创建通用数据结构。作为示例，文本处理器220可以提供值为(咖啡、马克杯、奶精)的第一向量，图像处理器222可以提供值为(会议、甜甜圈、咖啡)的第二向量，并且音频处理器224可以提供值为(浓咖啡，早上好，甜甜圈)的第三向量。在该示例中，多模态编码器200可以将多个向量级联成单个、通用数据结构作为值为(咖啡、浓咖啡、马克杯、奶精、甜甜圈、会议、早上好)的向量。在一些实施例中，多模态编码器200在级联期间使用加权过程例如以强调出现在多个特征模态中的值(例如，出现在文本和音频模态两者中的“咖啡”)、强调以更高频率出现的值、和/或强调更流行的值(例如，“趋势”)。

主题预测器230被配置为自动处理通用数据结构并识别描述视频202的内容的主要主题或两个或更多个主题。标签解码器128可以利用主题来识别视频202的合适元数据标签。

图3示出了根据示例实施例的元数据标签系统的示例标签解码器300的示意图。通常，标签解码器300对应于标签处理器120的标签解码器128。在图3所示的实施例中，标签解码器300使用多个门控循环单元(GRU)(例如，GRU 310、312和314)来实现循环神经网络。尽管仅示出了三个GRU，但在其他实施例中，标签解码器300可以包括附加的GRU或更少的GRU。此外，在一些实施例中，可以使用长短期存储器而不是GRU 310、312和314来实现GRU 310、312和314中的至少一些GRU的功能。

标签解码器300被配置为从多模态编码器(例如，多模态编码器124或200)接收通用数据结构，并使用组标签数据330将通用数据结构与对象编码器126提供的野语言模型对准。通常，GRU 310、312和314按顺序布置，具有相应的输入和输出。例如，GRU 310在开始处理通用数据结构时接收初始化状态302，并且将当前状态作为输入提供给后续GRU(即，提供给GRU 312)。在一些实施例中，初始化状态302对应于要为其生成元数据标签的所选组。在图3所示的实施例中，通用数据结构是向量，例如(咖啡、甜甜圈、马克杯、奶精、会议、早上好)，并且从通用数据结构的开头<BOS>320开始顺序地处理，经过通用数据结构的中间元素(咖啡322和甜甜圈324)，到通用数据结构的末尾<EOS>326。

GRU中的至少一些被配置为接收组标签数据330作为附加输入。因此，标签解码器300利用视频的主题(例如，视频202)和用户兴趣(例如，组标签数据)并识别或生成元数据标签的单词序列。在不同的场景下，标签解码器300可以例如基于初始化状态302的不同值为不同的目标组生成不同的元数据标签。换言之，标签解码器300可以为视频202生成单独的元数据标签集以向不同的用户组显示。例如，要向第一用户组和第二用户组显示的视频可以具有不同的第一元数据标签组和第二元数据标签组。在一些实施例中，基于目标组的人口统计数据(例如年龄、性别、地理位置、教育水平、婚姻状况、家庭收入、职业、爱好或其他合适的信息)来选择初始化状态302。

图4示出了根据示例实施例的用于视频的自动元数据标签识别的示例方法400的流程图。除非另有说明，否则这些图中所示的技术过程将自动执行。在任何给定实施例中，可以重复过程的一些步骤，可能使用不同的参数或数据来操作。实施例中的步骤也可以按照与图4中从上到下的顺序不同的顺序来执行。步骤可以串行地、以部分重叠的方式或完全并行地执行。因此，执行方法400的步骤的顺序可以从该过程的一个执行到该过程的另一执行而变化。步骤也可以被省略、组合、重命名、重新组合，在一台或多台机器上执行，或者以其他方式偏离所示流程，只要执行的过程是可操作的并且符合至少一项权利要求。图4的步骤可以由标签处理器120(例如，经由特征提取器122、多模态编码器124、对象编码器126和/或标签解码器128)或其他合适的计算设备来执行。

方法400开始于操作402。在操作402，将来自视频的内容特征提取到相应的数据结构中，其中所提取的内容特征来自至少两种不同的特征模态。在实施例中，特征提取器122或特征提取器210从视频114或视频202提取内容特征，并且相应的数据结构可以包括向量，如上所述。在各种实施例中，相应数据结构可以对应于文本数据结构212、图像数据结构214和/或音频数据结构216。至少两种不同的特征模态可以包括视频的视觉特征、视频的音频特征和视频的文本特征中的至少两种。在各种实施例中，提取内容特征可以包括以下中的一项或多项：从视频中提取视觉特征并生成对应的视觉特征数据结构；从视频中提取音频特征并生成相应的音频特征数据结构；和/或提取与视频相关联的文本特征并生成相应的文本特征数据结构。在一些实施例中，方法400还可以包括将与所提取的内容特征相对应的向量级联成单个向量作为通用数据结构。

在操作404，使用循环神经网络(RNN)模型的编码器将相应的数据结构编码为通用数据结构。在实施例中，通用数据结构是形成句子的单词向量并表示视频114或视频202的主题。例如，数据结构212、214和216由主题预测器230进行编码。

在操作406，通用数据结构使用RNN模型的解码器来解码，以识别要与社交内容平台上的视频相关联的内容平台元数据标签。解码是基于社交内容平台的识别用户组的用户的组标签数据和用户组感兴趣的对应组元数据标签。在一些实施例中，标签解码器300使用组标签数据330对通用数据结构进行解码，以识别视频114或视频202的元数据标签。在另一实施例中，标签解码器300为视频114或视频202生成新的元数据标签。在实施例中，社交内容平台对应于内容平台130，内容平台元数据标签对应于内容平台元数据标签146，并且第二元数据标签对应于内容平台元数据标签146。

方法400还可包括对社交内容平台的用户的先前使用的元数据标签进行编码以生成组标签数据。例如，对象编码器126可以对来自标签数据库132的先前使用的元数据标签进行编码以生成组标签数据330。

在一些实施例中，方法400还包括将视频与内容平台元数据标签一起上传到社交内容平台。例如，视频202可以上传到内容平台130。在各种实施例中，视频202与用于多个用户组的内容平台元数据标签146一起被上传，其中该用于多个用户组的内容平台元数据标签146被组合成单个元数据标签集(例如，包括用于第一组的第一元数据标签、用于第二组的第二元数据标签)。在其他实施例中，视频202被上传多次，例如，每个用户组一次，每次仅附带针对该组的对应元数据标签。在又其他一些实施例中，视频202被上传到内容平台130的两个或更多个不同实例(例如，上传到TikTok和上传到InstaGram)，其中内容平台的每个实例接收具有特定于内容平台对应实例的内容平台元数据标签的视频202的副本。

方法400还可以包括选择用户组中的第一用户组，其中解码通用数据结构包括对通用数据结构进行解码以识别第一用户组的第一内容平台元数据标签。方法400还可以包括：选择用户组中的第二用户组，并使用RNN模型的解码器对通用数据结构进行解码，以识别要与社交内容平台上的视频相关联的第二内容平台元数据标签，以便向第二用户组的用户显示。第一内容平台元数据标签中的至少一些可以不同于第二内容平台元数据标签。换言之，同一视频当针对不同的组时可以具有不同的元数据标签。在一些场景中，第一用户组和第二用户组共享至少一些感兴趣的元数据标签，但具有不同的人口统计特征。

图5示出了根据示例实施例的用于处理元数据标签的示例方法500的流程图。除非另有说明，否则这些图中所示的技术过程将自动执行。在任何给定实施例中，可以重复过程的一些步骤，可能使用不同的参数或数据来操作。实施例中的步骤也可以按照与图5中从上到下的顺序不同的顺序来执行。步骤可以串行地、以部分重叠的方式或完全并行地执行。因此，执行方法500的步骤的顺序可以从该过程的一个执行到该过程的另一执行而变化。步骤也可以被省略、组合、重命名、重新组合，在一台或多台机器上执行，或者以其他方式偏离所示流程，只要执行的过程是可操作的并且符合至少一项权利要求。图5的步骤可以由标签处理器120(例如，经由特征提取器122、多模态编码器124、对象编码器126和/或标签解码器128)或其他合适的计算设备来执行。

方法500开始于操作502。在操作502，接收社交内容平台的先前使用的元数据标签。先前使用的元数据标签对应于社交内容平台的用户。在一些实施例中，先前接收的元数据标签是从标签数据库132接收的。

在操作504，使用先前使用的元数据标签为社交内容平台训练神经网络模型。例如，神经网络模型可以对应于对象编码器126。训练神经网络模型可以包括使用神经网络模型执行自我监督学习，以基于先前使用的元数据标签和用户上传到社交内容平台的内容对用户组进行分类。自我监督学习可以包括将社交内容平台的用户划分为用户组，其中用户组中的每个组具有对于该组的用户通用的感兴趣的对应元数据标签。例如，对应于咖啡爱好者组的感兴趣的元数据标签可以包括咖啡、浓咖啡、java、摩卡等。在一些实施例中，神经网络模型被训练用于若干个社交内容平台的跨平台使用(例如，用于TikTok和InstaGram)，但在其他实施例中可以被专门训练用于特定社交内容平台以允许特定于社交内容平台的元数据标签。

在操作506，为社交内容平台的用户生成组标签数据。组标签数据识别用户组和用户组感兴趣的对应元数据标签。在一些实施例中，组标签数据对应于组标签数据330。

在操作508，基于组标签数据对与上传到社交内容平台的视频相对应的通用数据结构进行解码，以对视频的先前使用的元数据标签进行元数据标签识别。例如，标签解码器128从标签数据库132内的其他元数据标签中识别内容平台元数据标签146。在一些实施例中，标签解码器128基于标签数据库132内的其他元数据标签(例如通过级联现有标签)来生成新的元数据标签。

图6示出了根据本公开各方面的可以用来实践本公开各方面的设备的简化框图。本发明的一个或多个方面可以在操作环境600中实现。这只是适当的计算环境的一个示例，并且不意在暗示功能或使用范围的任何限制。其他可能适合使用的众所周知的计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、诸如智能电话的可编程消费者电子设备、网络PC、小型计算机、大型计算机、包括任何上述系统或设备的分布式计算环境等。

在其最基本的配置中，操作环境600通常包括至少一个处理单元602和存储器604。取决于计算设备的确切配置和类型，存储器604(用于本文描述的视频的自动元数据标签识别的指令)可以是易失性的(例如，RAM)、非易失性的(例如，ROM、闪存等)或者两者的某种组合。该最基本的配置在图6中由虚线606示出。此外，操作环境600还可以包括存储设备(可移动的存储设备608，和/或不可移动的存储设备610)，该存储设备包括但不限于磁盘或光盘或磁带。类似地，操作环境600也可以具有：诸如键盘、鼠标、笔、语音输入、板载传感器、触摸屏、加速度计等的输入设备614，以及/或者诸如显示器、扬声器、打印机、电机等的输出设备616。环境中还可以包括一个或多个通信连接612，例如LAN、WAN、近场通信网络、点对点等。

操作环境600通常包括至少某种形式的计算机可读介质。计算机可读介质可以是可由至少一个处理单元602或包括操作环境的其他设备访问的任何可用介质。作为示例而非限制，计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现的易失性和非易失性、可移除和不可移除介质，用于存储信息，如计算机可读指令、数据结构、程序模块或其他数据。计算机存储介质包括：RAM、ROM、EEPROM、闪存或其他存储器技术、CDROM、数字通用光盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁存储设备、或可以用于存储期望信息的任何其他有形、非暂时性介质。计算机存储介质不包括通信介质。计算机存储介质不包括载波或其他传播或调制的数据信号。

通信介质以调制数据信号(如载波或其他传输机制)体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传送介质。术语“调制数据信号”是指以对信号中的信息进行编码的方式设置或改变其特征中的一个或多个特征的信号。作为示例而非限制，通信介质包括诸如有线网络或直接有线连接的有线介质、以及诸如声学、RF、红外线和其他无线介质的无线介质。

操作环境600可以是使用与一个或多个远程计算机的逻辑连接在网络环境中操作的单个计算机。远程计算机可以是个人计算机、服务器、路由器、网络PC、对等设备或其他公共网络节点，并且通常包括许多或所有上述元件以及其他未提及的元件。逻辑连接可以包括可用通信介质支持的任何方法。这种网络环境在办公室、企业范围的计算机网络、内部网和互联网中很常见。

本申请中提供的一个或多个方面的描述和说明并不旨在以任何方式局限或限制本公开所要求保护的范围。本申请中提供的方面、示例和细节被认为足以传达所有权并使其他人能够做出和使用所要求保护的公开的最佳模式。所要求保护的公开不应被解释为限于任何方面，例如，或在本申请中提供的细节。无论是组合地还是单独地示出和描述，各种特征(结构上的和方法上的)旨在选择性地被包括或省略以产生具有特定特征集的实施例。已经提供了本申请的描述和说明，本领域技术人员可以预见落入本申请中体现的总体发明构思的更广泛方面的精神内而不脱离本公开所要求保护的更广泛范围的变型、修改和替代方面。

Claims

1.一种用于视频的自动元数据标签识别的方法，包括：

将来自视频的内容特征提取到相应数据结构中，所提取的内容特征来自至少两种不同的特征模态；

使用循环神经网络RNN模型的编码器将所述相应数据结构编码为通用数据结构；

使用所述RNN模型的解码器对所述通用数据结构进行解码，以识别要与社交内容平台上的所述视频相关联的内容平台元数据标签，其中，解码是基于所述社交内容平台的识别用户组的用户的组标签数据以及所述用户组感兴趣的对应组元数据标签。

2.根据权利要求1所述的方法，其中，所述方法还包括：对所述社交内容平台的用户的先前使用的元数据标签进行编码以生成所述组标签数据。

3.根据权利要求2所述的方法，其中，所述方法还包括：将所述视频与所述内容平台元数据标签一起上传到社交内容平台。

4.根据权利要求2所述的方法，其中，所述方法还包括：选择所述用户组中的第一用户组；

其中，对所述通用数据结构进行解码包括：对所述通用数据结构进行解码以识别所述第一用户组的第一内容平台元数据标签。

5.根据权利要求4所述的方法，其中，所述方法还包括：

选择所述用户组中的第二用户组；

使用所述RNN模型的解码器对所述通用数据结构进行解码，以识别要与所述社交内容平台上的所述视频相关联的第二内容平台元数据标签，以便向所述第二用户组的用户显示，其中，所述第一内容平台元数据标签中的至少一些不同于所述第二内容平台元数据标签。

6.根据权利要求5所述的方法，其中，所述第一用户组和所述第二用户组共享至少一些感兴趣的元数据标签，但具有不同的人口统计特征。

7.根据权利要求1所述的方法，其中，所述至少两种不同的特征模态包括所述视频的视觉特征、所述视频的音频特征和所述视频的文本特征中的至少两种。

8.根据权利要求7所述的方法，其中，提取所述内容特征包括：从所述视频中提取视觉特征并生成对应的视觉特征数据结构。

9.根据权利要求7所述的方法，其中，提取所述内容特征包括：从所述视频中提取音频特征并生成对应的音频特征数据结构。

10.根据权利要求7所述的方法，其中，提取所述内容特征包括：提取与所述视频相关联的文本特征并生成对应的文本特征数据结构。

11.根据权利要求1所述的方法，其中，所述相应数据结构是向量。

12.根据权利要求11所述的方法，其中，所述方法还包括：将与所提取的内容特征相对应的向量级联成单个向量作为所述通用数据结构。

13.一种用于处理元数据标签的方法，包括：

接收社交内容平台的先前使用的元数据标签，其中，所述先前使用的元数据标签对应于所述社交内容平台的用户；

使用所述先前使用的元数据标签来训练用于所述社交内容平台的神经网络模型；

生成所述社交内容平台的用户的组标签数据，其中，所述组标签数据识别所述用户组和所述用户组感兴趣的对应元数据标签；

基于所述组标签数据对与视频相对应的通用数据结构进行解码以上传到所述社交内容平台，从而识别先前使用的元数据标签中针对所述视频的元数据标签。

14.根据权利要求13所述的方法，其中，训练所述神经网络模型包括：使用所述神经网络模型执行自我监督学习，以基于所述先前使用的元数据标签和所述用户上传到所述社交内容平台的内容对所述用户组进行分类。

15.根据权利要求14所述的方法，执行所述自我监督学习包括：将所述社交内容平台的用户划分为用户组，其中，所述用户组中的每个组具有对于该组的用户通用的感兴趣的对应元数据标签。

16.一种用于自动识别视频的内容平台元数据标签的系统，所述系统包括：

特征提取器，被配置为：将来自视频的内容特征提取到相应数据结构中，所提取的内容特征来自至少两种不同的特征模态；

对象编码器，被配置为：对社交内容平台的用户的先前使用的元数据标签进行编码，以生成识别用户组的组标签数据和所述用户组感兴趣的对应组元数据标签；

循环神经网络RNN模型，具有多模态编码器和标签解码器，其中，

所述多模态编码器被配置为将所述相应数据结构编码为通用数据结构，并且

所述标签解码器被配置为对所述通用数据结构进行解码以识别要与所述社交内容平台上的所述视频相关联的内容平台元数据标签，所述标签解码器被配置为基于所述组标签数据进行解码。

17.根据权利要求16所述的系统，其中，所述标签解码器被配置为：选择所述用户组中的第一用户组，并对所述通用数据结构进行解码以识别所述第一用户组的第一内容平台元数据标签。

18.根据权利要求16所述的系统，其中，所述标签解码器被配置为：选择所述用户组中的第二用户组，并对所述通用数据结构进行解码以识别要与所述社交内容平台上的所述视频相关联的第二内容平台元数据标签，以便向所述第二用户组的用户显示，其中，所述第一内容平台元数据标签中的至少一些与所述第二内容平台元数据标签不同。

19.根据权利要求16所述的系统，其中，所述至少两种不同的特征模态包括所述视频的视觉特征、所述视频的音频特征和所述视频的文本特征中的至少两种。

20.根据权利要求16所述的系统，其中，提取所述内容特征包括以下操作中的一项或多项：

从所述视频中提取视觉特征并生成对应的视觉特征数据结构；

从所述视频中提取音频特征并生成对应的音频特征数据结构；以及

提取与所述视频相关联的文本特征并生成对应的文本特征数据结构。