CN112948633B

CN112948633B - 一种内容标签生成方法、装置及电子设备

Info

Publication number: CN112948633B
Application number: CN202110356811.5A
Authority: CN
Inventors: 申利彬
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2023-09-05
Anticipated expiration: 2041-04-01
Also published as: CN112948633A

Abstract

本申请实施例提供了一种内容标签生成方法、装置及电子设备，方法包括：获取视频的文本信息；将文本信息转换为文本嵌入矩阵，并将文本信息转换为实体向量，实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符，预设实体词为预先设置的表示视频中具体内容的词语；将实体向量转换为实体向量矩阵，实体向量矩阵与文本嵌入矩阵的维数相同；融合文本嵌入矩阵和实体向量矩阵，得到融合矩阵；利用融合矩阵和预设标签生成模型，生成视频的内容标签。应用本申请实施例提供的技术方案，能够提高生成的内容标签精准度，提升利用内容标签搜索或推荐视频的效果。

Description

一种内容标签生成方法、装置及电子设备

技术领域

本申请涉及视频处理技术领域，特别是涉及一种内容标签生成方法、装置及电子设备。

背景技术

随着视频技术的快速发展，越来越多的用户喜欢将生活、工作等内容拍摄成视频(尤其是短视频)，并将视频上传至网络侧分享给其他用户。这导致网络侧存储的视频越来越多，且内容丰富多样，这也给为用户精准地搜索或推荐需要的视频带来的困难。

为解决上述问题，现有技术中，将视频的文本信息转换为文本嵌入矩阵，进而将文本嵌入矩阵输入标签生成模型中，得到视频的内容标签。该内容标签用于表示该视频的内容。电子设备利用用户输入的内容标签，可以搜索或推荐用户需要的视频。

上述生成内容标签的方法虽然生成了可以表示视频的内容的内容标签，但是，该生成内容标签的方法中仅关注视频的文本信息，忽略了视频的文本信息中的实体词，这导致生成的内容标签精准度较低，利用内容标签搜索或推荐视频的效果较差。

发明内容

本申请实施例的目的在于提供一种内容标签生成方法、装置及电子设备，以提高生成的内容标签精准度，提升利用内容标签搜索或推荐视频的效果。

具体技术方案如下：

第一方面，本申请实施例提供了一种内容标签生成方法，所述方法包括：

获取视频的文本信息；

将所述文本信息转换为文本嵌入矩阵，并将所述文本信息转换为实体向量，所述实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符，所述预设实体词为预先设置的表示视频中具体内容的词语；

将所述实体向量转换为实体向量矩阵，所述实体向量矩阵与所述文本嵌入矩阵的维数相同；

融合所述文本嵌入矩阵和所述实体向量矩阵，得到融合矩阵；

利用所述融合矩阵和预设标签生成模型，生成所述视频的内容标签。

可选的，所述实体向量为二值向量；

所述将所述文本信息转换为实体向量的步骤，包括：

将预设实体词与所述文本信息进行匹配，得到所述文本信息中存在的目标实体词，以及所述目标实体词在所述文本信息中的位置；

根据所述目标实体词在所述文本信息中的位置，将所述文本信息对应的预设向量中所述目标实体词对应的元素的元素值设置为第一预设值，得到所述文本信息对应的实体向量，所述预设向量包括的元素个数与所述文本信息包括的字符个数相同，所述预设向量包括的元素的初始元素值为第二预设值。

可选的，所述将所述实体向量转换为实体向量矩阵的步骤，包括：

从预设矩阵中，获取所述实体向量中的每个元素的元素值对应的元素行，所述预设矩阵包括：第一元素行和第二元素行，所述第一元素行对应的元素值表示字符为所述预设实体词包括的字符，所述第二元素行对应的元素值表示字符不为所述预设实体词包括的字符；

组合所获取的元素行，得到实体向量矩阵，所述实体向量矩阵的第i行元素为所述实体向量中第i个元素的元素值对应的元素行。

可选的，所述融合所述文本嵌入矩阵和所述实体向量矩阵，得到融合矩阵的步骤，包括：

将所述文本嵌入矩阵和所述实体向量矩阵进行相加或相减，得到融合矩阵。

可选的，在获取所述文本信息之前，所述方法还包括：

从预设实体数据库中获取预设实体类型的多个实体词；

确定所述多个实体词中的每个实体词在预设多条视频的文本信息中的出现频率；

将出现频率高于预设频率阈值的实体词作为预设实体词。

第二方面，本申请实施例提供了一种内容标签生成装置，所述装置包括：

第一获取单元，用于获取视频的文本信息；

转换单元，用于将所述文本信息转换为文本嵌入矩阵，并将所述文本信息转换为实体向量，所述实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符，所述预设实体词为预先设置的表示视频中具体内容的词语；将所述实体向量转换为实体向量矩阵，所述实体向量矩阵与所述文本嵌入矩阵的维数相同；

融合单元，用于融合所述文本嵌入矩阵和所述实体向量矩阵，得到融合矩阵；

生成单元，用于利用所述融合矩阵和预设标签生成模型，生成所述视频的内容标签。

可选的，所述实体向量为二值向量；

所述转换单元，具体用于：

可选的，所述转换单元，具体用于：

可选的，所述融合单元，具体用于：

可选的，所述装置还包括：

第二获取单元，用于在获取所述文本信息之前，从预设实体数据库中获取预设实体类型的多个实体词；

确定单元，用于确定所述多个实体词中的每个实体词在预设多条视频的文本信息中的出现频率；将出现频率高于预设频率阈值的实体词作为预设实体词。

第三方面，本申请实施例提供了一种电子设备，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现第一方面提供的任一内容标签生成方法步骤。

第四方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面提供的任一内容标签生成方法步骤。

本申请实施例还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述任一所述的内容标签生成方法步骤。

本申请实施例有益效果：

本申请实施例提供的技术方案中，将视频的文本信息转换为实体向量，该实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符，将该实体向量转换为实体向量矩阵，此时，实体向量矩阵包括了实体词信息。融合文本嵌入矩阵和实体向量矩阵，并基于融合后得到融合矩阵和预设标签生成模型，生成该视频的内容标签。由于实体向量矩阵包括了实体词信息，由于基于文本嵌入矩阵和实体向量矩阵得到融合矩阵既包括实体词信息，也包括视频的文本信息，因此，视频的内容标签的生成综合考虑了视频的文本信息和文本信息中的实体词，提高了生成的内容标签精准度，提升了利用内容标签搜索或推荐视频的效果。

当然，实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的实施例。

图1为本申请实施例提供的内容标签生成方法的第一种流程示意图；

图2为本申请实施例提供的内容标签生成方法的第二种流程示意图；

图3为本申请实施例提供的内容标签生成方法的第三种流程示意图；

图4为本申请实施例提供的预设实体词确定方法的一种流程示意图；

图5为本申请实施例提供的预设标签生成模型的训练方法的一种流程示意图；

图6为本申请实施例提供的内容标签生成方法的第四种流程示意图；

图7为本申请实施例提供的内容标签生成装置的一种结构示意图；

图8为本申请实施例提供的电子设备的一种结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为便于理解，下面对本申请实施例中出现的词语进行解释说明。

视频的文本信息是指，视频的标题、内容简要等描述信息。视频的文本信息包括但不限于文字、字母、数字和标点符号等字符。

内容标签是指，表示视频的内容的一个抽象词语。

实体词是指，视频的文本信息中包括的表示视频中具体内容的词语。在视频领域中，实体词是指和视频内容相关性比较高的演员名、角色名、剧名的词语。

目前，随着越来越多的用户将视频上传至网络，网络侧储存的视频越来越多，且内容多种多样，这给为用户精准地搜索或推荐需要的视频带来了困难。尤其在短视频领域，短视频多为用户生成，并上传至网络侧的，短视频的属性信息缺失度较大。如果可以丰富短视频的属性信息，比如短视频中的人物、相关剧名等，可以使推荐和搜索更为精准的触及该短视频，本申请实施例可以为短视频生成更为精准的内容标签，对于短视频来说，能打上剧名或者演员名等与短视频内容相关的标签，可以有效提高短视频分发的质量。

为解决上述问题，现有技术中，将视频的文本信息转换为文本嵌入矩阵，进而将文本嵌入矩阵输入标签生成模型中，得到视频的内容标签。电子设备利用用户输入的内容标签，可以搜索或推荐用户需要的视频。

为解决上述问题，本申请实施例中提供了一种内容标签生成方法，该方法可以应用于手机、平板电脑、个人计算机等电子设备。该内容标签生成方法中，将视频的文本信息转换为实体向量，该实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符，将该实体向量转换为实体向量矩阵，此时，实体向量矩阵包括了实体词信息。融合文本嵌入矩阵和实体向量矩阵，并基于融合后得到融合矩阵和预设标签生成模型，生成该视频的内容标签。由于实体向量矩阵包括了实体词信息，由于基于文本嵌入矩阵和实体向量矩阵得到融合矩阵既包括实体词信息，也包括视频的文本信息，因此，视频的内容标签的生成综合考虑了视频的文本信息和文本信息中的实体词，提高了生成的内容标签精准度，提升了利用内容标签搜索或推荐视频的效果。

下面通过具体实施例，对本申请实施例提供的内容标签生成方法进行详细说明。

参见图1，图1为本申请实施例提供的内容标签生成方法的第一种流程示意图，该方法包括如下步骤：

步骤S11，获取视频的文本信息；

步骤S12，将文本信息转换为文本嵌入矩阵，并将文本信息转换为实体向量，实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符，预设实体词为预先设置的表示视频中具体内容的词语；

步骤S13，将实体向量转换为实体向量矩阵，实体向量矩阵与文本嵌入矩阵的维数相同；

步骤S14，融合文本嵌入矩阵和实体向量矩阵，得到融合矩阵；

步骤S15，利用融合矩阵和预设标签生成模型，生成视频的内容标签。

另外，短视频多为用户自行生成，并上传至网络侧的。短视频的属性信息(如内容标签等)由用户自行添加，这极容易造成短视频的属性信息缺失度较大。利用本申请实施例提供的技术方案，可以为短视频添加精准的剧名或者演员名等与短视频内容相关的内容标签，进而有效提高短视频分发的质量。

为便于描述，下面以电子设备为执行主体进行说明，并不起限定作用。

上述步骤S11中，在需要生成一视频的内容标签时，电子设备获取该视频的文本信息。其中，上述视频可以为视频长度小于预设长度阈值的视频，即短视频。上述视频也可以为视频长度大于等于预设长度阈值的视频。预设长度阈值可以根据实际需求进行设定，如预设长度阈值可以为5分钟、6分钟等。

在本申请的一个实施例中，视频的文本信息可以预先存储在视频数据库中。在需要生成视频的内容标签时，电子设备从视频数据库中获取视频的文本信息。

在本申请的另一个实施例中，用户向电子设备输入视频以及视频的文本信息。此时，电子设备获取用户输入的视频的文本信息，进而基于该文本信息，生成该视频的内容标签。

本申请实施例中，电子设备还可以采用其他方式获取视频的文本信息，例如，其他电子设备向该电子设备定时传输视频的文本信息等，对此不做具体限定。

上述步骤S12中，电子设备可以预先设置了文本嵌入矩阵的转换规则以及实体向量的转换规则。电子设备在获取到视频的文本信息后，可根据文本嵌入矩阵的转换规则，将该文本信息转换为文本嵌入矩阵，根据实体向量的转换规则，将文本信息转换为实体向量。

本申请实施例中，文本嵌入矩阵的转换规则可以参见相关技术中的将文本信息转换为文本嵌入矩阵的规则。

一个示例中，电子设备中可以预先设置了N*M维的文本矩阵，以及字符与数值的对应关系，数值的取值范围为1～N，不同的数值与上述文本矩阵中不同行对应。电子设备在获取到视频的文本信息后，根据字符与数值的对应关系，将文本信息中的各个字符转换成相应的数值，并按照文本信息中的各个字符的排列顺序，组合各个字符对应的数值，得到文本信息对应的文本向量。电子设备从文本矩阵中，获取文本向量中每个元素的元素值对应的元素行，按照文本向量中第i个元素的元素值对应的元素行为文本嵌入矩阵的第i个元素行的规则，组合文本向量中每个元素的元素值对应的元素行，得到文本嵌入矩阵。本申请实施例中，文本矩阵中的元素行可以从上往下数，也可以从下往上数。

例如，文本矩阵为50*100的矩阵。电子设备获取的视频的文本信息1为“《完美关系》陈数化身柯南手撕渣男！简直太过瘾！”。该文本信息1共包括24个字符，具体包括23个标点符号和文字，以及1个位于前述23个字符前的EOS字符。电子设备将文本信息1中的EOS字符、“《”、“完”、“美”、…、“！”等字符，依次转换数值，进而得到文本信息1对应的文本向量1，如{0，21，12，18，…，8}。文本信息1对应的文本向量1中，元素值0与EOS字符对应，元素值21与字符“《”对应，元素值12与字符“美”对应，文本信息1对应的文本向量1中元素值与文本信息1中的字符的对应关系，按照文本信息1中字符的顺序以及文本向量1中元素值的顺序，依次类推。

假设，文本向量中，元素值i对应文本矩阵的第i+1个元素行，i＝0,1,2…,49。

电子设备根据文本向量1中的元素值，从文本矩阵中获取元素行，进而得到24*M的文本嵌入矩阵{元素行1，元素行22，元素行13，…，元素行9}^T，其中，元素行j表示文本矩阵的第j个元素行，j＝1,2…,24。

本申请实施例中，电子设备中可以预先存储实体词，也可以从网络中爬取实体词。电子设备在获取到视频的文本信息后，可根据实体向量的转换规则，以及预先存储的实体词或从网络中爬取的实体词，将文本信息转换为实体向量，以标识出文本信息中实体词的位置。具体的如何将文本信息转换为实体向量下面会进行详细介绍，此处不做展开说明。

实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符。实体向量中元素的元素值包括：表示字符为预设实体词包括的字符的元素值，以及表示字符不是预设实体词包括的字符的元素值。

本申请实施例中，表示字符为预设实体词包括的字符的元素值为一个，表示字符不是预设实体词包括的字符的元素值可以为一个或多个。例如，表示字符为预设实体词包括的字符的元素值为1，表示字符不是预设实体词包括的字符的元素值包括0、2、3等。

例如，表示字符为预设实体词包括的字符的元素值为1，表示字符不是预设实体词包括的字符的元素值有0、2、3等。电子设备获取的视频的文本信息1为“《完美关系》陈数化身柯南手撕渣男！简直太过瘾！”。该文本信息1共包括24个字符，具体包括23个标点符号和文字，以及1个EOS字符。电子设备确定文本信息1中的实体词有“完美关系”、“陈数”、“柯南”。此时，电子设备可将文本信息1转换为包括24个元素的实体向量1，即{0,2,1,1,1,1,2,…,3}。

上述步骤S13中，电子设备在得到实体向量后，将实体向量转换为实体向量矩阵。为便于后续实体向量矩阵与文本嵌入矩阵的融合，实体向量矩阵与文本嵌入矩阵的维数相同。

关于将实体向量转换为实体向量矩阵的具体过程，下面将会进行详细介绍，此处不做展开说明。

上述步骤S14中，电子设备在得到实体向量矩阵与文本嵌入矩阵后，融合文本嵌入矩阵和实体向量矩阵，得到融合矩阵。

由于实体向量矩阵包括实体词信息，文本嵌入矩阵包括文本信息，而融合矩阵由文本嵌入矩阵和实体向量矩阵融合得到，因此，融合矩阵既包括实体词信息，也包括视频的文本信息。基于融合矩阵生成视频的内容标签，综合考虑了视频的文本信息和文本信息中的实体词，提高了生成的内容标签精准度，提升了利用内容标签搜索或推荐视频的效果。

在本申请的一个实施例中，电子设备可利用将文本嵌入矩阵和实体向量矩阵进行相加，得到融合矩阵。

在本申请的另一个实施例中，电子设备可利用将文本嵌入矩阵和实体向量矩阵进行相减，得到融合矩阵。

本申请实施例中，电子设备还可以采用其他方法融合文本嵌入矩阵和实体向量矩阵，将实体词信息融入文本信息，以提高生成的内容标签精准度，提升利用内容标签搜索或推荐视频的效果。

上述步骤S15中，预设标签生成模型可以采用相关技术中生成内容标签的标签生成模型。具体的预设标签生成模型的训练过程下面会进行详细介绍，此处不做展开说明。电子设备在得到融合矩阵，可将融合矩阵输入预设标签生成模型，进而预设标签生成模型对融合矩阵进行处理，输出视频的内容标签。

电子设备在得到视频的内容标签后，建立内容标签与视频的对应关系。当用户向电子设备输入了该视频的内容标签时，电子设备可基于该视频的内容标签，向用户推荐该视频。

基于上述内容标签生成方法，本申请实施例还提供了一种内容标签生成方法。参见图2，图2为本申请实施例提供的内容标签生成方法的第二种流程示意图，该方法中，实体向量为二值向量，步骤S12可以细化为如下步骤：

步骤S121，将文本信息转换为文本嵌入矩阵。

步骤S122，将预设实体词与文本信息进行匹配，得到文本信息中存在的目标实体词，以及目标实体词在文本信息中的位置。

步骤S123，根据目标实体词在文本信息中的位置，将文本信息对应的预设向量中目标实体词对应的元素的元素值设置为第一预设值，得到文本信息对应的实体向量，预设向量包括的元素个数与文本信息包括的字符个数相同，预设向量包括的元素的初始元素值为第二预设值。

本申请实施例提供的技术方案中，采用二值向量表示实体向量，简化了实体向量的表示方式，降低了算法的复杂度，提高了生成的内容标签效率。

上述步骤S121中，电子设备将文本信息转换为文本嵌入矩阵的具体过程，可参见上述步骤S12部分的描述，此处不再赘述。

上述步骤S122中，电子设备中预先存储了实体词，即预设实体词。预设实体词可以为一个或多个。电子设备将预设实体词与获取的文本信息进行匹配，得到文本信息中存在的预设实体词(为便于理解，以下称为“目标实体词”)，以及目标实体词在文本信息中的位置。目标实体词的个数可以为一个或多个。

一个可选的实施例中，电子设备可以利用预设实体词初始化Aho-Corasick匹配算法(以下简称为“AC自动机”)的前缀树。电子设备利用AC自动机匹配视频的文本信息，得到文本信息中存在的目标实体词，以及目标实体词在文本信息中的位置。

本申请实施例不限定上述步骤S121和步骤S122的执行顺序。

上述步骤S123中，电子设备中预先设置了一个向量，即预设向量。该预设向量包括的元素个数与文本信息包括的字符个数相同，且该预设向量包括的元素的初始元素值为第二预设值。电子设备在确定目标实体词在文本信息中的位置后，可确定预设向量中与目标实体词在文本信息中的位置相匹配的位置处的元素为目标实体词对应的元素，并将目标实体词对应的元素的元素值设置为第一预设值。此时，电子设备可得到文本信息对应的实体向量。

本申请实施例中，第一预设值表示字符为预设实体词包括的字符，第二预设值表示字符不是预设实体词包括的字符。第一预设值和第二预设值可以根据实际需求进行设定，对此不进行限定。

例如，表示字符为预设实体词包括的字符的元素值为1，表示字符不是预设实体词包括的字符的元素值有0等。电子设备获取的视频的文本信息1为“《完美关系》陈数化身柯南手撕渣男！简直太过瘾！”。该文本信息1共包括24个字符，具体包括23个标点符号和文字，以及1个EOS字符。电子设备确定文本信息1中的实体词有“完美关系”、“陈数”、“柯南”。此时，电子设备可将文本信息1转换为包括24个元素的实体向量1，即{0,0,1,1,1,1,0,…,0}。

基于上述内容标签生成方法，本申请实施例还提供了一种内容标签生成方法。参见图3，图3为本申请实施例提供的内容标签生成方法的第三种流程示意图，该方法中，步骤S13可以细化为如下步骤：

步骤S131，从预设矩阵中，获取实体向量中的每个元素的元素值对应的元素行，预设矩阵包括：第一元素行和第二元素行，第一元素行对应的元素值表示字符为预设实体词包括的字符，第二元素行对应的元素值表示字符不为预设实体词包括的字符；

步骤S132，组合所获得的元素行，得到实体向量矩阵，实体向量矩阵的第i行元素为实体向量中第i个元素的元素值对应的元素行。

本申请实施例提供的技术方案中，基于预设矩阵将实体向量转换为与文本嵌入矩阵的维数相同的实体向量矩阵，便于后续融合文本嵌入矩阵和实体向量矩阵。

上述步骤S131中，预设矩阵可以为N'*M的矩阵，N'≥2。该预设矩阵包括第一元素行和第二元素行，且预设矩阵的列数与文本嵌入矩阵的列数相同。为了简化预设矩阵，节约电子设备的存储空间，预设矩阵可以为2*M的矩阵。

电子设备在得到实体向量后，从预设矩阵中，获取实体向量中的每个元素的元素值对应的元素行。

上述步骤S132中，电子设备在得到实体向量中的每个元素的元素值对应的元素行后，可按照实体向量中元素的顺序，组合所获取的元素行，得到实体向量矩阵。基于此得到实体向量矩阵中，第i行元素为实体向量中第i个元素的元素值对应的元素行。

例如，预设矩阵可以为2*M的矩阵，包括元素行1和元素行2。元素行1与元素值1对应，元素行2与元素值0对应。元素值1表示字符为预设实体词包括的字符，元素值0表示字符不为预设实体词包括的字符。

若电子设备获取的视频的文本信息1为“《完美关系》陈数化身柯南手撕渣男！简直太过瘾！”，文本信息1对应的实体向量1为{0,0,1,1,1,1,0,…,0}。则电子设备从预设矩阵中获取实体向量1的每个元素的元素值对应的元素行，并组合所获取的元素行，得到24*M的实体向量矩阵为：{元素行2，元素行2，元素行1，元素行1，元素行1，元素行1，元素行2，…，元素行2}^T。

基于上述内容标签生成方法，本申请实施例还提供了一种预设实体词确定方法。参见图4，图4为本申请实施例提供的预设实体词确定方法的一种流程示意图，该方法包括如下步骤：

步骤S41，从预设实体数据库中获取预设实体类型的多个实体词；

步骤S42，确定多个实体词中的每个实体词在预设多条视频的文本信息中的出现频率；

步骤S43，将出现频率高于预设阈值的实体词作为预设实体词。

本申请实施例提供的技术方案中，根据实体词的类型从预设实体数据库中获取多个实体词，并确定上述多个实体词在预设多条视频的文本信息中的出现频率，将出现频率高于预设频率的实体词作为预设实体词。此时，电子设备可筛选出出现频率较高的实体词，过滤掉出现频率较低的实体词，基于筛选出的实体词确定文本信息中的实体向量，可有效降低由文本信息转换为实体向量的时间，进而提高内容标签的生成效率。

上述步骤S41中，预设实体数据库包括大量的实体词。预设实体类型为比较重要的实体词的类型。

实体词在不同领域有不同的定义。例如，在视频领域，演员名、角色名、剧名、游戏名、地名，尤其是和视频相关性比较高的演员名、角色名、剧名这些实体词，是比较重要。对于短视频来说，能打上剧名或者演员名的内容标签，可以有效提高短视频分发的质量。因此，预设实体类型具体可根据实际需求进行设定。以短视频来说，预设实体类型包括剧名、演员名、角色名、游戏名和地名。

本申请实施例中，为了简化计算的复杂度，电子设备从预设实体数据库中筛选出预设实体类型的多个实体词，也就是，从预设实体数据库中筛选出比较重要的实体词。

上述步骤S42中，电子设备获取的预设实体类型的实体词的数量仍然很多，将预设实体类型的实体词与文本信息匹配，以将文本信息转换为实体向量的耗时仍然很长。例如，预设实体类型的实体词为30万，则将预设实体类型的实体词与文本信息匹配一次的耗时为30w*f(n)次，其中n是视频的文本信息的长度，f(n)是视频的文本信息长度的线性函数，可见，匹配一次的耗时很长。

为了进一步降低匹配一次的耗时，提高内容标签的生成效率，电子设备确定预设实体类型的多个实体词中的每个实体词在预设多条视频的文本信息中的出现频率。其中，预设多条视频的文本信息的数量可以根据实际需求进行设定，例如，预设多条视频的文本信息的数量可以为5000万、6000万等。

上述步骤S43中，电子设备在确定每个实体词的出现频率后，从预设实体类型的多个实体词中，筛选出出现频率高于预设频率阈值的实体词，将筛选出的实体词作为预设实体词。

基于上述的内容标签生成方法，本申请实施例还提供了一种预设标签生成模型的训练方法，具体参见图5，图5为本申请实施例提供的预设标签生成模型的训练方法的一种流程示意图，该方法包括如下步骤：

步骤S51，获取预设训练集，该预设训练集包括样本视频的文本信息以及样本视频的预设内容标签；

步骤S52，将样本视频的文本信息转换为文本嵌入矩阵，基于样本视频的文本信息包括的预设实体词，将样本视频的文本信息转换为实体向量矩阵；

步骤S53，融合样本视频的文本嵌入矩阵和实体向量矩阵，得到样本视频的融合矩阵；

步骤S54，将样本视频的融合矩阵输入预设标签生成模型，得到样本视频的预测内容标签；

步骤S55，基于样本视频的预测内容标签和预设内容标签，确定生成内容标签的损失值；

步骤S56，根据上述损失值，确定预设标签生成模型是否收敛。若是，则执行步骤S57；若否，则执行步骤S58；

步骤S57，结束预设标签生成模型的训练。

步骤S58，调整预设标签生成模型中的参数，并返回执行步骤S54。

本申请实施例中，预设标签生成模型可以采用相关技术中生成内容标签的标签生成模型，在不改变相关技术中标签生成模型的结构的情况下，将文本嵌入矩阵和实体向量矩阵融合，来训练标签生成模型，并仅可以有效的利用实体词，还加快了标签生成模型的收敛。

发明人发现，利用上述方式训练，相对于没有结合实体词训练标签生成模型，在F1值上提升了2％。F1值其中，F1值表示：正确率*召回率*2/(正确率+召回率)。

上述步骤S51中，预设训练集包括的样本视频的信息的数量可以根据实际需求进行设定。例如，为了提高训练得到的标签生成模型的稳定性，预设训练集包括的样本视频的信息的数量越多越好；为了提高训练得到的标签生成模型的速率，预设训练集包括的样本视频的信息的数量越少越好。

预设训练集包括的样本视频的信息，可以通过网络爬手，进行爬取获得，也可以用户输入电子设备获得。本申请实施例中，对预设训练集的获取方式不做限定。

上述步骤S52-步骤S53具体可以参考上述步骤S12-S14部分的描述，此处不再赘述。

上述步骤S54中，电子设备获取到样本视频的融合矩阵后，将样本视频的融合矩阵输入预设标签生成模型，预设标签生成模型对样本视频的融合矩阵进行处理，进而输出样本视频的预测内容标签。

上述步骤S55中，损失值可以为生成内容标签的错误率，或样本视频的预测内容标签和预设内容标签的相似度等。具体的可以根据实际需求，确定损失值的表现形式，对此不做限定。

上述步骤S56中，电子设备基于得到的损失值，确定预设标签生成模型是否收敛。

一个示例中，电子设备中可以预先设置损失阈值，即预设损失阈值。电子设备若确定得到的损失值小于预设损失阈值，则确定预设标签生成模型收敛，执行步骤S57，结束训练过程；否则，确定预设标签生成模型未收敛，执行步骤S58，调整预设标签生成模型中的参数，并返回执行步骤S54，继续训练过程。

另一个示例中，电子设备中可以预先设置迭代次数，即预设迭代次数。电子设备若确定得到的损失值小于预设损失阈值，或确定当前的迭代次数大于等于预设迭代次数，则确定预设标签生成模型收敛，执行步骤S57，结束训练过程；否则，确定预设标签生成模型未收敛，执行步骤S58，调整预设标签生成模型中的参数，并累加迭代次数，返回执行步骤S54，继续训练过程。

下面结合图6所示的内容标签生成方法流程，对本申请实施例提供的内容标签生成方法进行详细说明。

步骤S61，电子设备收集实体词。

具体的，电子设备收集实体词，构建预设实体数据库。

步骤S62，电子设备清洗实体词。

具体的，电子设备从预设实体数据库中获取预设实体类型的多个实体词；确定多个实体词中的每个实体词在预设多条视频的文本信息中的出现频率；将出现频率高于预设阈值的实体词作为预设实体词。

步骤S63，电子设备初始化匹配算法。

具体的，电子设备利用预设实体词初始化AC自动机的前缀树。

步骤S64，电子设备匹配文本信息中的实体词，并确定实体词的位置。

具体的，电子设备利用AC自动机匹配视频的文本信息，得到文本信息中存在的目标实体词，以及目标实体词在文本信息中的位置。

步骤S65，电子设备建立实体向量。

具体的，电子设备基于目标实体词在文本信息中的位置，将文本信息转换为实体向量，

步骤S66，电子设备将实体向量转换为实体向量矩阵。

实体向量矩阵可以理解为连续实值向量。

步骤S67，电子设备融合文本嵌入矩阵和实体向量矩阵。

之后，电子设备可利用融合文本嵌入矩阵和实体向量矩阵所得到的融合矩阵，生成视频的内容标签。

上述步骤S61-S67的描述相对简单，具体可参见上述图1-图5部分的描述，此处不再赘述。

与上述内容标签生成方法对应，本申请实施例还提供了一种内容标签生成装置，参见图7，内容标签生成装置包括：

第一获取单元71，用于获取视频的文本信息；

转换单元72，用于将文本信息转换为文本嵌入矩阵，并将文本信息转换为实体向量，实体向量中的每个元素的元素值表示该元素对应的字符是否为预设实体词包括的字符，预设实体词为预先设置的表示视频中具体内容的词语；将实体向量转换为实体向量矩阵，实体向量矩阵与文本嵌入矩阵的维数相同；

融合单元73，用于融合文本嵌入矩阵和实体向量矩阵，得到融合矩阵；

生成单元74，用于利用融合矩阵和预设标签生成模型，生成视频的内容标签。

一个可选的实施例中，实体向量可以为二值向量；

这种情况下，转换单元72，具体可以用于：

将预设实体词与文本信息进行匹配，得到文本信息中存在的目标实体词，以及目标实体词在文本信息中的位置；

根据目标实体词在文本信息中的位置，将文本信息对应的预设向量中目标实体词对应的元素的元素值设置为第一预设值，得到文本信息对应的实体向量，预设向量包括的元素个数与文本信息包括的字符个数相同，预设向量包括的元素的初始元素值为第二预设值。

一个可选的实施例中，转换单元72，具体可以用于：

从预设矩阵中，获取实体向量中的每个元素的元素值对应的元素行，预设矩阵包括：第一元素行和第二元素行，第一元素行对应的元素值表示字符为预设实体词包括的字符，第二元素行对应的元素值表示字符不为预设实体词包括的字符；

组合所获取的元素行，得到实体向量矩阵，实体向量矩阵的第i行元素为实体向量中第i个元素的元素值对应的元素行。

一个可选的实施例中，融合单元73，具体可以用于：

将文本嵌入矩阵和实体向量矩阵进行相加或相减，得到融合矩阵。

一个可选的实施例中，上述内容标签生成装置还可以包括：

第二获取单元，用于在获取文本信息之前，从预设实体数据库中获取预设实体类型的多个实体词；

确定单元，用于确定多个实体词中的每个实体词在预设多条视频的文本信息中的出现频率；将出现频率高于预设频率阈值的实体词作为预设实体词。

与上述内容标签生成方法对应，本申请实施例还提供了一种电子设备，如图8所示，包括处理器81和机器可读存储介质82，机器可读存储介质82存储有能够被处理器81执行的机器可执行指令，处理器81被机器可执行指令促使：实现上述任一内容标签生成方法步骤。

机器可读存储介质可以包括随机存取存储器(Random Access Memory，RAM)，也可以包括非易失性存储器(Non-Volatile Memory，NVM)，例如至少一个磁盘存储器。可选的，机器可读存储介质还可以是至少一个位于远离前述处理器的存储装置。

处理器可以是通用处理器，包括中央处理器(Central Processing Unit，CPU)、网络处理器(Network Processor，NP)等；还可以是数字信号处理器(Digital SignalProcessor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本申请提供的又一实施例中，还提供了一种计算机可读存储介质，该计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现上述任一内容标签生成方法步骤。

在本申请提供的又一实施例中，还提供了一种计算机程序，当其在计算机上运行时，使得计算机执行上述实施例中任一内容标签生成方法步骤。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、电子设备、计算机可读存储介质、计算机程序实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的较佳实施例，并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本申请的保护范围内。

Claims

1.一种内容标签生成方法，其特征在于，所述方法包括：

获取视频的文本信息；

利用所述融合矩阵和预设标签生成模型，生成所述视频的内容标签；

所述文本嵌入矩阵通过如下步骤获得：根据预设的字符与数值的对应关系，将所述文本信息转换为文本向量；从预设文本矩阵中，获取所述文本向量中每个元素的元素值对应的元素行；根据所述文本向量中第i个元素的元素值对应的元素行为所述文本嵌入矩阵的第i个元素行的规则，组合所述文本向量中每个元素的元素值对应的元素行，得到所述文本嵌入矩阵；

所述将所述实体向量转换为实体向量矩阵的步骤，包括：

2.根据权利要求1所述的方法，其特征在于，所述实体向量为二值向量；

所述将所述文本信息转换为实体向量的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述融合所述文本嵌入矩阵和所述实体向量矩阵，得到融合矩阵的步骤，包括：

4.根据权利要求1-3任一项所述的方法，其特征在于，在获取所述文本信息之前，所述方法还包括：

从预设实体数据库中获取预设实体类型的多个实体词；

将出现频率高于预设频率阈值的实体词作为预设实体词。

5.一种内容标签生成装置，其特征在于，所述装置包括：

第一获取单元，用于获取视频的文本信息；

生成单元，用于利用所述融合矩阵和预设标签生成模型，生成所述视频的内容标签；

所述转换单元，具体用于：

6.根据权利要求5所述的装置，其特征在于，所述实体向量为二值向量；

所述转换单元，具体用于：

7.根据权利要求5所述的装置，其特征在于，所述融合单元，具体用于：

8.根据权利要求5-7任一项所述的装置，其特征在于，所述装置还包括：

9.一种电子设备，其特征在于，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：实现权利要求1-4任一所述的方法步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1-4任一所述的方法步骤。