CN114979767B

CN114979767B - 视频推荐方法、装置、设备及计算机可读存储介质

Info

Publication number: CN114979767B
Application number: CN202210526509.4A
Authority: CN
Inventors: 刘京川
Original assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-05-07
Filing date: 2022-05-07
Publication date: 2023-11-21
Anticipated expiration: 2042-05-07
Also published as: CN114979767A

Abstract

本发明公开了一种视频推荐方法、装置、设备及计算机可读存储介质，视频推荐方法包括：根据为用户播放的视频，确定所述视频的特征信息；根据所述特征信息确定预训练好的多个预测网络模型中的目标模型，将所述特征信息输入至目标模型进行模型训练，得到目标特征信息；确定多个待播放视频中和所述目标特征信息匹配的匹配视频，将所述匹配视频作为所述用户的目标待播放视频。本发明避免了视频推荐的视频为定性视频，无法根据当前播放的视频进行调整推荐的现象发生。

Description

视频推荐方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及一种视频推荐方法、装置、设备及计算机可读存储介质。

背景技术

当前的视频软件里的短视频，都是根据用户行为推荐的视频内容，视频都是离线或异步计算好的，需要先采集用户行为数据，经过大数据模型推算出用户感兴趣的内容。也就是在推荐视频之前，会先计算好所有的待推荐的视频，并将其放置在内容池中依次进行推荐，即推荐的所有视频都是定性的视频，不能进行调整。

发明内容

本发明的主要目的在于提供一种视频推荐方法、装置、设备及计算机可读存储介质，旨在解决目前视频推荐的视频为定性视频，无法根据当前播放的视频进行调整推荐的技术问题。

为实现上述目的，本发明提供一种视频推荐方法，包括以下步骤：

根据为用户播放的视频，确定所述视频的特征信息；

根据所述特征信息确定预训练好的多个预测网络模型中的目标模型，将所述特征信息输入至目标模型进行模型训练，得到目标特征信息；

确定多个待播放视频中和所述目标特征信息匹配的匹配视频，将所述匹配视频作为所述用户的目标待播放视频。

可选地，根据所述特征信息确定预训练好的多个预测网络模型中的目标模型的步骤，包括：

根据所述特征信息，确定所述特征信息的数量和/或所述特征信息中是否包含所述视频的主题信息；

根据所述特征信息的数量和/或所述特征信息中是否包括所述视频的主题信息，确定预训练好的多个预测网络模型中的目标模型。

可选地，根据所述特征信息的数量和/或所述特征信息中是否包括所述视频的主题信息，确定预训练好的多个预测网络模型中的目标模型的步骤，包括：

若所述特征信息的数量小于或等于预设阈值，则将预训练好的多个预测网络模型中的跳字模型作为目标模型；

若所述特征信息的数量大于预设阈值，且所述特征信息不包含所述视频的主题信息，则将预训练好的多个预测网络模型中的连接词袋模型作为目标模型；

若所述特征信息的数量大于预设阈值，且所述特征信息包含所述视频的主题信息，则将预训练好的多个预测网络模型中的循环神经网络模型作为目标模型。

可选地，将所述匹配视频作为所述用户的目标待播放视频的步骤之后，还包括：

播放所述目标待播放视频，并执行所述根据为用户播放的视频，确定所述视频的特征信息的步骤。

可选地，确定所述视频的特征信息的步骤，包括：

识别所述视频中的参数特征，并根据所述参数特征切割所述视频，得到视频片段，提取所述视频片段中的特征信息。

可选地，根据所述参数特征切割所述视频，得到视频片段的步骤，包括：

若所述参数特征为画面台词内容，则确定所述画面台词内容对应的台词间隔，根据所述台词间隔切割所述视频，得到视频片段；或，

若所述参数特征为背景画面，则确定所述背景画面的背景变化率，根据所述背景变化率切割所述视频，得到视频片段；或，

若所述参数特征为生物体图像，则确定所述生物体图像对应的生物体变化量，根据所述生物体变化量切割所述视频，得到视频片段。

可选地，将所述特征信息输入至目标模型进行模型训练，得到目标特征信息的步骤，还包括：

若接收到用户输入的输入信息，则根据所述特征信息的格式对所述输入信息进行格式转换，并将进行格式转换后的所述输入信息和所述特征信息共同输入至目标模型进行模型训练，得到目标特征信息。

此外，为实现上述目的，本发明还提供一种视频推荐装置，包括：

确定模块，用于根据为用户播放的视频，确定所述视频的特征信息；

训练模块，用于根据所述特征信息确定预训练好的多个预测网络模型中的目标模型，将所述特征信息输入至目标模型进行模型训练，得到目标特征信息；

匹配模块，用于确定多个待播放视频中和所述目标特征信息匹配的匹配视频，将所述匹配视频作为所述用户的目标待播放视频。

此外，为实现上述目的，本发明还提供一种视频推荐设备，视频推荐设备包括存储器、处理器及存储在存储器上并可在处理器上运行的视频推荐程序，视频推荐程序被处理器执行时实现如上述的视频推荐方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，计算机可读存储介质上存储有视频推荐程序，视频推荐程序被处理器执行时实现如上述的视频推荐方法的步骤。

本发明通过确定为用户播放的视频中的特征信息，将特征信息输入到预测网络模型中的目标模型进行模型训练，得到目标特征信息，再从所有待播放视频中选择一个和目标特征信息匹配的匹配视频作为目标待播放视频，从而可以实现根据当前播放的视频预测后续的目标待播放视频，避免了后续的目标待播放视频为定性视频，不能根据当前播放的视频进行调整推荐的现象发生，并且由于目标待播放视频是根据播放的视频来获取的，因此获取的目标待播放视频和播放的视频之间存在关联关系，两者并不是相互独立的，使得用户在观看完成播放的视频后，又能继续观看与之关联的目标待播放视频，提高了用户的观看兴趣。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的终端\装置结构示意图；

图2为本发明视频推荐方法第一实施例的流程示意图；

图3为本发明视频推荐装置的装置单元示意图；

图4为本发明视频推荐方法中循环推荐视频的示意图；

图5为本发明视频推荐方法中一场景下的视频推荐流程示意图；

图6为本发明视频推荐方法中各词汇的矢量转换示意图。

本发明目的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境的终端结构示意图。

本发明实施例终端为视频推荐设备。

如图1所示，该终端可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，终端还可以包括摄像头、RF(Radio Frequency，射频)电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示屏的亮度，接近传感器可在终端设备移动到耳边时，关闭显示屏和/或背光。当然，终端设备还可配置陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频推荐程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频推荐程序，并执行以下操作：

参照图2，本发明提供一种视频推荐方法，在视频推荐方法的第一实施例中，视频推荐方法包括以下步骤：

步骤S10，根据为用户播放的视频，确定所述视频的特征信息；

由于目前视频软件推送的视频内容与视频内容之间无关联关系。因此在本实施例中，向用户推荐视频时，根据视频的语义表征与用户画面是否匹配来向用户推送，视频的语义表征是基于视频的图像特征向量、文本特征向量和音频特征向量，通过目标语义转换模型得到的。即本实施例中综合了视频各个单模态的特征信息，提升最终视频语义表征的丰富程度，使得到的视频语义表征更加贴合视频的主题，进而为用户推荐更加符合用户兴趣的视频。并且本实施例中的视频推荐方法可以应用于视频类软件，为用户提供一种新的观影体验，将完整的视频切割为多个小片段，再重新整合成具备连贯性的视频，由第一个视频自动关联出下一个视频，使视频能无限制的连续播放且具备连贯性，并且在播放期间，用户也可以手动干预播放的视频内容的走向。

并且在本实施例中，是从视频中提取出关键点并转译成文本信息。将视频的文本信息输入训练好的神经网络模型，计算出结果文本，再反向将结果文本匹配最优的视频内容；以此类推，无限循环。其中，可在文本中间自定义输入关键词改变视频内容走向。将视频的文本信息加上自定义输入的关键词，输入训练好的神经网络模型，计算出结果文本，再反向将结果文本匹配最优的视频内容；以此类推，无限循环。

在本实施例中，进行视频推荐时，先确定终端当前时刻为用户播放的视频，再根据此视频为用户推荐下一个待播放的视频。因此可以对播放的视频做最小颗粒媒资素材加工处理并为其定义关键文本，以获取文本信息，即可以利用OCR和物体特征识别技术将初始视频中的视频内容抽象画，提取出关键点并转译成文本信息，并将此文本信息作为视频的特征信息。并且可以是通过台词切割法、镜头切片法和画面素材变化提取法中的至少一种方式将初始视频片段化，得到视频片段，再提取视频片段中的关键点，并将其转译为文本信息。也就是将视频片段标签化或语句话，使其每一段视频内容中都有特定的文本内容。若某一段视频中仅仅存在一段台词：这里是上海动物园，则可以确定视频中的关键点为台词，并提取台词中的关键信息，如上海、动物园。将提取的关键信息作为文本信息进行存储。其中，单个视频与之对应的文本信息为绝对关系。

步骤S20，根据所述特征信息确定预训练好的多个预测网络模型中的目标模型，将所特征信息输入至目标模型进行模型训练，得到目标特征信息；

在得到播放的视频对应的特征信息后，可以直接将特征信息输入到预训练好的预测网络模型中进行训练，以得到目标特征信息。并且预测网络模型中的输入部分可以仅仅是特征信息。也可以是接收用户输入的输入关键词，将输入关键词和特征信息共同作为预训练好的预测网络模型的输入部分。其中，输入关键词可以是用户输入或选择的任意关键词(如词语、语句等)。例如，如图4所示，第一次数据输入：可以根据用户选择或自定义关键词/句，并根据输入的文本信息(即第一次输入文本)，通过预训练好的预测网络模型(如RNN模型)输出结果，即最佳匹配文本，根据最佳匹配文本确定第一次的视频内容(即视频1)进行推送。第二次数据输入：根据第一次输入文本的文本信息和第一次的视频内容所携带的绝对文本标签(即将第一次视频内容对应的携带文本信息作为第二次输入文本)，通过预测网络模型进行模型训练，得到结果，根据结果确定第二次的视频内容(即视频2)，使得第一次的视频内容与第二次的视频内容之间具有连贯性和连续性。依次类推，直至第N次数据输入：用前N-1次输入的文本信息和第N-1次的视频内容所携带的绝对文本标签(即将第N-1次视频内容对应的携带文本信息作为第N次输入文本)，通过预测网络模型进行模型训练，得到结果，再根据此次结果确定第N次的视频内容(即视频N)。并且中间任何环节都可干预，只需要在文本中间自定义输入关键词/语句改变内容走向。

并且在本实施例中，预训练好的预测网络模型中可以设置多个，因此需要在更改预测网络模型中选择一个模型作为目标模型进行后续的模型训练，当特征信息中存在词汇，且词汇量只有一个时，可以直接选择预训练好的跳字模型(如skip-gram模型)作为目标模型。并且将特征信息输入至跳字模型进行模型训练，得到与特征信息关联的关联信息，如上下文词语，将此关联信息直接作为目标特征信息。

当词汇量存在多个，但是无法根据各个词汇确定一个完整的语义时，则可以直接选择预训练好的连接词袋模型(如CBOW(Continuous Bag-of-Words)模型)作为目标模型。并且将特征信息输入至连接词袋模型进行模型训练，得到特征信息对应的关键词，并将此特征信息对应的关键词作为目标特征信息。

当词汇量存在多个，可以根据各个词汇确定一个完整的语义时，则可以直接选择预训练好的循环神经网络模型作为目标模型。并且将特征信息输入至循环神经网络模型进行模型训练，得到各个特征信息的分类结果和各个分类结果对应的分数权重，选择分数权重最大的一个分类结果作为目标特征信息。例如，当某一段视频的特征信息是文本标签元素，如动物园、大门、小卖部和大象，台词：这里就是上海动物园，拆分标签：上海、动物园。则可以确定特征信息中的词汇为上海、动物园、大门、小卖部和大象，并将其输入至循环神经网络模型中进行模型训练，再按照物体次数、出现时长和台词次数进行统计，如下表一所示：

标签要素	动物园	大门	小卖部	大象	上海
						物体次数	3	1	2	1	1
出现时长	1s	0.5s	0.8s	3s
						台词次数	2	0	0	2	1

表一

根据上述表一可知，用户对上海动物园的大象感兴趣，即可以将其作为目标特征信息，因此可以为用户推荐上海其它动物园的大象视频。而视频转译文本信息的问答关系可以为，上一个视频问“上海(哪个)动物园有大象”，下一个视频回答“上海野生动物园大象”，以此进行类推，将每次的结果作为下一次的问题进行无限循环，在用户不干预的情况下播放所有与动物园有关的视频，直至视频中出现了新的标签，且新的标签在视频对应的文本中所占据的权重较高，例如，新的视频为人群某节假日动物园客流量爆满，此时动物园所占据的权重较低，预测网络模型就会改变后续的视频内容走向，衍生到与新的标签关联的场景，如衍生到其它旅游景点爆满的情况，以此达到无限播放的效果。

步骤S30，确定多个待播放视频中和所述目标特征信息匹配的匹配视频，将所述匹配视频作为所述用户的目标待播放视频。

当确定目标特征信息后，可以通过知识图谱来进行结果映射，以确定在预设的所有待播放视频(即在当前时刻已存在准备进行播放的视频)中和目标特征信息匹配度最高的匹配视频。并且知识图谱的每一个key即为预测网络模型对应的输出结果(即结果文本)，对应的视频即为当前key对应的value，因此在确定目标特征信息后，可以将目标特征信息输入至知识图谱中，以确定各个待播放视频与目标特征信息之间的匹配度，并从中选择匹配度最高的待播放视频作为匹配视频，再向用户推送该匹配视频，并且后续可以继续将匹配视频作为用户的目标待播放视频，执行步骤S10的步骤，以实现无限视频播放。也就是如图5所示，视频介质1转化为文本语言1，将文本语言1输入至预测网络模型进行模型训练，从得到的结果中选择分数最高的结果作为文本语言2，并在数据库中获取和文本语言2匹配度最高的视频介质2。

并且需要说明的是，在进行视频推荐之前，需要对预测网络模型进行模型训练，以得到预训练好的预测网络模型，再根据预训练好的预测网络模型进行视频推荐。即可以先在数据库中获取训练集，并在训练集中确定待进行训练的训练视频，并按照台词切割法、镜头切片法或画面素材变化提取法中的任意一种将训练视频切割为多个视频片段，并通过OCR和物体特征识别技术进行识别，以得到训练视频的文本信息，并将其作为训练时的特征信息。而且由于每段视频片段可能提取的词汇量的数目不同，因此可以先设置所有视频切割后的视频片段能提取的最大词汇量，如设置最大词汇量为200。

并且在确定训练时的特征信息后，可以确定训练时的特征信息中所有词汇对应的标签要素，其中，标签要素可以包括物体次数、出现时长和台词次数。并且当训练文本信息中的词汇为动物园、大门、小卖部、大象和上海时，则各个词汇对应的标签要素则可以如表一所示。如动物园的物体次数为3次，出现时长为1s，台词次数为2次。当确定各个词汇对应的标签要素后，需要根据标签要素计算每个词汇在训练时的特征信息中所占据的权重。如当标签要素为物体次数、出现时长和台词次数三种时，则词汇对应的权重x可以采用如下公式进行计算，即：

其中，x₀为当前词汇的物体次数，x₁为当前词汇的出现时长，x₂为当前词汇的台词次数，为偏置常量，ω₀为物体次数权重，ω₁为出现时长权重，ω₂为台词次数权重。并且

并且在确定词汇对应的权重后，需要进行词汇/文本矢量映射。由于一般的模型只接受数值型输入，因此需要将词汇做数值转换，即可以通过预设的one-hot encoder(独热编码)方式将每一个词汇转换为一个维度w的矢量。但是由于词汇量的维度w多，因此可以通过SVD(奇异值分解)、PCA(主成分分析)、LSI(潜在语义索引)等对词汇进行降维。如使用Word2vec(词汇向矢量转换)进行矢量转换，得到词汇对应的初始矢量。再计算词汇对应的初始矢量和词汇的权重之间的乘积，并将其作为词汇的视频文本矢量。

当计算得到所有词汇的视频文本矢量后，直接将视频文本矢量输入到预设的预测网络模型中进行训练，得到训练好的特征信息，并获取所有历史视频中和训练好的特征信息匹配的视频，检测该匹配的视频和训练集中待播放的视频是否匹配，若匹配，则确定预测网络模型已训练好，并直接将其作为预训练好的预测网络模型。

在本实施例中，通过确定为用户播放的视频中的特征信息，将特征信息输入到预测网络模型中的目标模型进行模型训练，得到目标特征信息，再从所有待播放视频中选择一个和目标特征信息匹配的匹配视频作为目标待播放视频，从而可以实现根据当前播放的视频预测后续的目标待播放视频，避免了后续的目标待播放视频为定性视频，不能根据当前播放的视频进行调整推荐的现象发生，并且由于目标待播放视频是根据播放的视频来获取的，因此获取的目标待播放视频和播放的视频之间存在关联关系，两者并不是相互独立的，使得用户在观看完成播放的视频后，又能继续观看与之关联的目标待播放视频，提高了用户的观看兴趣。

进一步地，基于上述本发明的第一实施例，提出本发明视频推荐方法的第二实施例，在本实施例中，上述实施例步骤S20，根据所述特征信息确定预训练好的多个预测网络模型中的目标模型的步骤，包括：

步骤a，根据所述特征信息，确定所述特征信息的数量和/或所述特征信息中是否包含所述视频的主题信息；

在本实施例中，当获取到播放的视频对应的特征信息后，可以先对特征信息检测，如确定特征信息的数量、和/或特征信息中是否包含此次播放的视频的主题信息，其中，主题信息为视频的核心内容、主题等。而主题信息的获取方式可以是直接根据播放的视频的标题确定，还可以是根据在当前时刻播放的视频之前的前一个视频来确定。例如，前一个视频问“上海(哪个)动物园有大象”，播放的视频回答“上海野生动物园大象”，则提取的主题信息可以包括上海野生动物园大象。因此在确定下一个播放的视频时，需要检测提取的特征信息中是否包括视频的主题信息。此外，特征信息的数量也会影响到后续进行下一个播放的视频的确定，因此也需要确定特征信息的数量。

步骤b，根据所述特征信息的数量和/或所述特征信息中是否包括所述视频的主题信息，确定预训练好的多个预测网络模型中的目标模型。

再确定特征信息的数量和/或特征信息中是否包括视频的主题信息后，就可以在预训练好的多个预测网络模型中选择一个模型作为目标模型，再根据目标模型对特征信息进行模型训练。

在本实施例中，通过根据特征信息的数量和/或特征信息中是否包含视频的主题信息，确定预训练好的多个预测网络模型中的目标模型，以便根据目标模型进行训练，提高后续视频推荐的准确性。

具体地，根据所述特征信息的数量和/或所述特征信息中是否包括所述视频的主题信息，确定预训练好的多个预测网络模型中的目标模型的步骤，包括：

步骤b1，若所述特征信息的数量小于或等于预设阈值，则将预训练好的多个预测网络模型中的跳字模型作为目标模型；

在本实施例中，再通过预训练好的预测网络模型进行模型训练之前，还需要确定选择哪一个模型进行训练。因此可以检测特征信息的数量是否大于预设阈值。其中，在本实施例中，提前对待获取的特征信息进行数量限制，例如，若特征信息为词汇，则提取的词汇的词汇量不能超过最大词汇量，如200。因此预设阈值为不超过数量限制内的任意数值，如1。

并且在一场景中，发现特征信息的数量小于或等于预设阈值，如确定只存在一个特征信息时，此时就可以直接选择预训练好的预测网络模型中的跳字模型作为目标模型，然后将特征信息转换后的视频文本矢量输入到跳字模型中进行模型训练，得到特征信息对应的上下文词语，此时就可以直接将此上下文词语作为目标特征信息。

步骤b2，若所述特征信息的数量大于预设阈值，且所述特征信息不包含所述视频的主题信息，则将预训练好的多个预测网络模型中的连接词袋模型作为目标模型；

在一场景中，发现特征信息的数量大于预设阈值，即确定存在多个特征信息，如至少两个特征信息，并且特征信息中不包含视频的主题信息，则需要根据已得到的特征信息来预测出主题信息。其中，主题信息为视频的核心内容、主题等。例如当特征信息为台词的词汇时，则主题信息为台词的中心词。此时就可以直接选择预训练好的预测网络模型中的连接词袋模型作为目标模型，将每个特征信息对应的视频文本矢量全部输入到连接词袋模型进行模型训练，得到主题信息。并将得到的主题信息作为目标特征信息。

步骤b3，若所述特征信息的数量大于预设阈值，且所述特征信息包含所述视频的主题信息，则将预训练好的多个预测网络模型中的循环神经网络模型作为目标模型。

在一场景中，发现特征信息的数量大于预设阈值，且特征信息中存在视频的主题信息，则选择预训练好的预测网络模型中的循环神经网络模型作为目标模型，并将每个特征信息对应的视频文本矢量全部输入到循环神经网络模型中进行分类训练，得到各个特征信息对应的分类和对应的权重分数，并选择权重分数最大的一类对应的特征信息作为目标特征信息。

此外，在另一场景中，若在播放视频时，无法提前知道主题信息，可以在获取到视频的特征信息时，进行特征信息的数量的判断，当特征信息的数量小于或等于预设阈值时，直接选择预训练好的预测网络模型中的跳字模型作为目标模型。例如，当特征信息的数量仅仅为一个时，将该特征信息输入到跳字模型(如skip-gram模型)进行模型训练，得到该特征信息的上下文语句信息，并将其作为目标特征信息。当特征信息的数量大于预设阈值，可以选择预训练好的预测网络模型中的循环神经网络模型作为目标模型，并直接将所有的特征信息输入至循环神经网络模型中进行训练，得到各个特征信息的分类结果和各个分类结果对应的分数权重，选择分数权重最大的一个分类结果作为目标特征信息。

此外，在另一场景中，当在播放视频前知道主题信息时，可以在获取到视频的特征信息时，对特征信息进行判断，确定获取的特征信息中是否包括主题信息。其中，确定特征信息中是否包括主题信息的步骤，可以是计算特征信息和主题信息之间的关联度，若关联度小于或等于一定值，则确定特征信息中不包括主题信息，此时可以选择预训练好的预测网络模型中的连接词袋模型作为目标模型。并将特征信息输入到连接词袋模型(如CBOW模型)中进行训练，得到能表达主题信息的具体词汇特征信息，并将其作为目标特征信息。若关联度大于一定值，则确定特征信息中包括主题信息，此时可以选择预训练好的预测网络模型中的循环神经网络模型作为目标模型，并将特征信息输入到循环神经网络模型中进行训练，得到各个特征信息的分类结果和各个分类结果对应的分数权重，选择分数权重最大的一个分类结果作为目标特征信息。

在本实施例中，通过在特征信息小于或等于预设阈值时，确定预训练好的预测网络模型中的跳字模型进行模型训练，在特征信息大于预设阈值，且不包含主题信息时，确定预训练好的预测网络模型中的连接词袋模型进行模型训练，在特征信息大于预设阈值，且包含主题信息时，确定预训练好的预测网络模型中的循环神经网络模型进行模型训练，从而可以实现根据不同的特征信息选择不同的模型，以便后续生成的目标特征信息更加准确。

进一步地，在本实施例的另一场景中，在将特征信息输入到预训练好的预测网络模型之前，需要进行格式转换，其转换步骤可以是遍历所有所述特征信息，确定遍历的特征信息对应的标签要素，根据所述标签要素计算所述特征信息对应的权重；计算所述特征信息对应的矢量数值和所述权重之间的乘积，并将所述乘积作为视频文本矢量；将每个所述特征信息对应的所述视频文本矢量输入至预训练好的预测网络模型进行模型训练。

具体地，当获取到播放的视频的特征信息后，若特征信息较多，需要对每个特征信息都进行相同的操作将其转换为预测网络模型能识别的视频文本矢量。因此可以遍历所有的特征信息，并确定遍历的特征信息对应的标签要素。其中，标签要素可以包括物体次数、出现时长和台词次数。然后再根据标签要素计算遍历的特征信息在整体视频中所占据的权重。并且在本实施例中可以按照相同的方式计算每个特征信息对应的权重。其中，计算权重的方式可以采用按照对预测网络模型进行训练时，计算权重的计算公式进行，即：

其中，在通过计算公式计算权重时将训练集中的当前词汇调整为遍历的特征信息，即可以将计算公式中的各个参数进行如下调整：x₀为遍历的特征信息的物体次数，x₁为遍历的特征信息的出现时长，x₂为遍历的特征信息的台词次数，为提前设置的偏置常量，ω₀为物体次数权重，ω₁为出现时长权重，ω₂为台词次数权重。

在计算得到遍历的特征信息对应的权重后，需要进行词汇/文本矢量映射。由于一般的模型只接受数值型输入，因此需要将遍历的特征信息对应的词汇做数值转换，即可以通过预设的one-hot encoder(独热编码)方式将每一个词汇转换为一个维度w的矢量。但是由于词汇量的维度w多，因此可以通过SVD(奇异值分解)、PCA(主成分分析)、LSI(潜在语义索引)等对词汇进行降维。如使用Word2vec(词汇向矢量转换)。例如，当某一段视频的特征信息是文本标签元素，如动物园、大门、小卖部和大象，台词：这里就是上海动物园，拆分标签：上海、动物园。则可以确定特征信息中的词汇为上海、动物园、大门、小卖部和大象，并将其输入至循环神经网络模型中进行模型训练，再按照物体次数、出现时长和台词次数进行统计，如下表一所示：

表一

并且，若需要对特征信息设置维度空间矢量，则上海、大门、动物园和大象对应的矢量可以如图6所示。如假设词汇“上海”在训练视频中的权重为x，“上海”经过word2vect换算的初始矢量为θ。则可以计算词汇对应的初始矢量和权重之间的乘积，并将其作为视频文本矢量。即视频文本矢量y＝x*θ。其中，训练视频中的权重x可以根据公式进行计算得到，其中，x₀为当前词汇的物体次数，x₁为当前词汇的出现时长，x₂为当前词汇的台词次数，/>为偏置常量，ω₀为物体次数权重，ω₁为出现时长权重，ω₂为台词次数权重。

并且无论特征信息是多个还是一个，都需要计算每个特征信息对应的权重，并根据权重进行文本矢量转换，得到每个特征信息对应的视频文本矢量，再将所有的视频文本矢量输入到预训练好的预测网络模型中进行模型训练。

进一步地，所述将所述匹配视频作为所述用户的目标待播放视频的步骤之后，还包括：

步骤f，播放所述目标待播放视频，并执行所述根据为用户播放的视频，确定所述视频的特征信息的步骤。

当获取到匹配视频后，将匹配视频作为目标待播放视频，并在当前播放的视频播放完毕后，播放此目标待播放视频，再执行上述实施例中S10的步骤，以实现无限循环推荐视频的目的。

在本实施例中，通过在确定目标待播放视频后，会播放目标待播放视频，再继续循环执行获取下一个目标待播放视频的步骤，实现了视频播放的无限循环，保障了连续播放的视频之间的连续性。

进一步地，确定所述视频的特征信息的步骤，包括：

步骤g，识别所述视频中的参数特征，并根据所述参数特征切割所述视频，得到视频片段，提取所述视频片段中的特征信息。

在本实施例中，若需要进行视频推荐，当确定播放的视频后，需要识别视频所包含的参数特征，如视频中的画面台词内容、背景画面和生物体图像等参数特征。然后根据识别的参数特征来切割视频，得到视频片段，再提取视频片段中的特征信息，如提取视频片段中的关键点，将关键点转换为具体的词汇，并将转换后的词汇作为文本信息，即特征信息。

在本实施例中，通过根据视频中的参数特征切割视频，得到视频片段，再提取视频片段中的特征信息，从而保障了提取的特征信息的准确性。

具体地，根据所述参数特征切割所述视频，得到视频片段的步骤，包括：

步骤g1，若所述参数特征为画面台词内容，则确定所述画面台词内容对应的台词间隔，根据所述台词间隔切割所述视频，得到视频片段；或，

步骤g2，若所述参数特征为背景画面，则确定所述背景画面的背景变化率，根据所述背景变化率切割所述视频，得到视频片段；或，

步骤g3，若所述参数特征为生物体图像，则确定所述生物体图像对应的生物体变化量，根据所述生物体变化量切割所述视频，得到视频片段。

在本实施例中，当参数特征为画面台词内容时，可以通过OCR技术识别播放的视频中的画面台词内容，然后再对视频进行切割，切割方式可以是先确定画面台词内容中每个台词的时间间隔(即台词间隔)，再根据台词间隔对视频进行切割，得到视频片段，例如，若台词长度为一句完整的语句，若下一句台词出现的时间小于等于3s，则进行切割，并判断为一个完整的视频片段。再将视频片段中的台词转换为具有词汇的文本信息，即特征信息。

当参数特征为背景画面时，可以通过对视频的转场镜头分析切割视频，即在识别到视频的背景画面时，检测背景画面在预设时间范围内的变化量，并将其作为背景变化率，若背景变化率小于等于60％，则将其作为一个视频片段。或者是将背景变化率小于60％且临近的几个切片为包含关系判定为一个视频片段。例如，镜头切片由远场到中场在到近场可以认为是一个视频片段。然后可以通过OCR技术识别提取视频片段中的关键点，并将其转换为文本信息，即特征信息。

当参数特征为生物体图像时，即通过生物体识别技术识别初始视频中的生物体图像，并检测生物体的变化量，若生物体的变化量小于等于60％，则可以进行切割，以得到视频片段，然后可以通过OCR技术识别提取视频片段中的关键点，并将其转换为文本信息，即特征信息。

在本实施例中，通过在参数特征为画面台词内容时，根据台词间隔切割视频，在参数特征为背景画面时，根据背景变化率切割视频，在参数特征为生物体图像时，根据生物体变化量切割视频，从而保障了视频切割后得到的视频片段的准确性。

进一步地，确定预设的所有待播放视频中和所述目标特征信息匹配的匹配视频的步骤，包括：

步骤h，确定预设的所有待播放视频中每个待播放视频的历史特征信息，计算所述目标特征信息和每个所述历史特征信息之间的匹配度；

在本实施例中，在得到目标特征信息后，还需要确定提前存储待进行播放的所有待播放视频，并确定每个待播放视频的特征信息，将其作为历史特征信息，再计算目标特征信息和每个历史特征信息之间的匹配度。例如，当目标特征信息和历史特征信息都为文本信息时，计算两个文本信息之间的匹配度，而计算文本信息之间的匹配度可以通过提前设置的文本相似度模型进行计算，得到两个文本信息之间的相似度，并将计算得到的相似度作为两个文本信息之间的匹配度。

步骤i，确定各所述匹配度中最大匹配度对应的待播放视频，并将所述最大匹配度对应的待播放视频作为匹配视频。

当计算得到目标特征信息和每个历史特征信息之间的匹配度后，可以从各个匹配度中选择一个最大匹配度，并将最大匹配度对应的待播放视频作为匹配视频。

在本实施例中，通过先计算目标特征信息和待播放视频的历史特征信息之间的匹配度，再选择最大匹配度对应的待播放视频作为匹配视频，从而保障了获取到的匹配视频的准确性。

进一步地，将所述特征信息输入至目标模型进行模型训练，得到目标特征信息的步骤，还包括：

步骤j，若接收到用户输入的输入信息，则根据所述特征信息的格式对所述输入信息进行格式转换，并将进行格式转换后的所述输入信息和所述特征信息共同输入至目标模型进行模型训练，得到目标特征信息。

在本实施例中，在得到播放的视频的特征信息后，可以选择直接将特征信息输入到预训练好的预测网络模型中的目标模型进行模型训练，也可以接收用户输入的输入信息，再将输入信息和特征信息一起作为目标模型的输入部分，并且由于模型只能识别特定格式的数据，因此可以按照特征信息对应的格式(如文本矢量格式)对输入信息进行格式转换，并在特征信息和输入信息的格式一致，且都为文本矢量格式时，再将其一起输入到目标模型进行模型训练，得到最终的目标特征信息。

在本实施例中，通过在接收到用户的输入信息时，将特征信息和输入信息均进行格式转换，再输入至目标模型进行模型训练，得到目标特征信息，从而保障了获取的目标特征信息更加符合用户的需求。

此外，参照图3，本发明实施例还提供一种视频推荐装置，包括：

确定模块A10，用于根据为用户播放的视频，确定所述视频的特征信息；

训练模块A20，用于根据所述特征信息确定预训练好的多个预测网络模型中的目标模型，将所述特征信息输入至目标模型进行模型训练，得到目标特征信息；

匹配模块A30，用于确定多个待播放视频中和所述目标特征信息匹配的匹配视频，将所述匹配视频作为所述用户的目标待播放视频。

可选地，训练模块A20，还用于：

可选地，匹配模块A30，用于：

可选地，确定模块A10，还用于：

可选地，训练模块A20，还用于：

其中，视频推荐装置的各个功能模块实现的步骤可参照本发明视频推荐方法的各个实施例，此处不再赘述。

此外，本发明还提供一种视频推荐设备，所述视频推荐设备包括：存储器、处理器及存储在所述存储器上的视频推荐程序；所述处理器用于执行所述视频推荐程序，以实现上述视频推荐方法各实施例的步骤。

本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者一个以上程序，所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述视频推荐方法各实施例的步骤。

本发明计算机可读存储介质具体实施方式与上述视频推荐方法各实施例基本相同，在此不再赘述。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频推荐方法，其特征在于，所述视频推荐方法包括以下步骤：

根据为用户播放的视频，确定所述视频的特征信息；

确定多个待播放视频中和所述目标特征信息匹配的匹配视频，将所述匹配视频作为所述用户的目标待播放视频；

其中，将所述特征信息输入至目标模型进行模型训练的步骤，包括：

遍历所有的特征信息，确定遍历的特征信息对应的标签要素，根据所述标签要素计算遍历的特征信息在所述视频中所占据的权重，其中，所述标签要素包括物体出现次数、出现时长和台词次数；

根据所述权重进行特征信息的文本矢量转换，得到每个所述特征信息对应的视频文本矢量，将所述视频文本矢量输入至所述目标模型进行模型训练。

2.如权利要求1所述的视频推荐方法，其特征在于，所述根据所述特征信息确定预训练好的多个预测网络模型中的目标模型的步骤，包括：

3.如权利要求2所述的视频推荐方法，其特征在于，所述根据所述特征信息的数量和/或所述特征信息中是否包括所述视频的主题信息，确定预训练好的多个预测网络模型中的目标模型的步骤，包括：

4.如权利要求1所述的视频推荐方法，其特征在于，所述将所述匹配视频作为所述用户的目标待播放视频的步骤之后，还包括：

5.如权利要求1所述的视频推荐方法，其特征在于，所述确定所述视频的特征信息的步骤，包括：

6.如权利要求5所述的视频推荐方法，其特征在于，所述根据所述参数特征切割所述视频，得到视频片段的步骤，包括：

7.如权利要求1-6任一项所述的视频推荐方法，其特征在于，所述将所述特征信息输入至目标模型进行模型训练，得到目标特征信息的步骤，还包括：

8.一种视频推荐装置，其特征在于，所述视频推荐装置包括：

训练模块，用于根据所述特征信息确定预训练好的多个预测网络模型中的目标模型，将所述特征信息输入至目标模型进行模型训练，得到目标特征信息；其中，将所述特征信息输入至目标模型进行模型训练，包括：遍历所有的特征信息，确定遍历的特征信息对应的标签要素，根据所述标签要素计算遍历的特征信息在所述视频中所占据的权重，其中，所述标签要素包括物体出现次数、出现时长和台词次数；根据所述权重进行特征信息的文本矢量转换，得到每个所述特征信息对应的视频文本矢量，将所述视频文本矢量输入至所述目标模型进行模型训练；

9.一种视频推荐设备，其特征在于，所述视频推荐设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频推荐程序，所述视频推荐程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频推荐方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有视频推荐程序，所述视频推荐程序被处理器执行时实现如权利要求1至7中任一项所述的视频推荐方法的步骤。