CN117609546A - 一种视频数据采集方法、装置、芯片及终端 - Google Patents

一种视频数据采集方法、装置、芯片及终端 Download PDF

Info

Publication number
CN117609546A
CN117609546A CN202311478984.XA CN202311478984A CN117609546A CN 117609546 A CN117609546 A CN 117609546A CN 202311478984 A CN202311478984 A CN 202311478984A CN 117609546 A CN117609546 A CN 117609546A
Authority
CN
China
Prior art keywords
video data
video
preference
user
establishing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311478984.XA
Other languages
English (en)
Inventor
谢英娜
何文钦
何炜程
何炜骏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Borui Hi Tech Co ltd
Original Assignee
Shenzhen Borui Hi Tech Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Borui Hi Tech Co ltd filed Critical Shenzhen Borui Hi Tech Co ltd
Priority to CN202311478984.XA priority Critical patent/CN117609546A/zh
Publication of CN117609546A publication Critical patent/CN117609546A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种视频数据采集方法、装置、芯片及终端,通过确定视频数据集中各视频数据的文本特征,视频数据集包括至少一个视频数据,根据文本卷积神经网络从文本特征中提取视频数据集的各视频数据的视频特征,根据用户特征与各视频特征从视频数据集中的确定视频数据组成偏好视频集,根据用户交互历史节点的视频特征建立偏好特征,基于偏好特征对偏好视频集中的各视频进行偏好评分,并采集满足预设偏好评分的视频数据。本发明通过先提取视频数据集中的视频特征,基于该视频特征和用户特征从视频数据集中确定偏好视频集,可以使得数据粘稠,之后再建立偏好特征基于此对偏好视频集中的各视频数据进行偏好评分,有助于数据查找、采集。

Description

一种视频数据采集方法、装置、芯片及终端
技术领域
本发明涉及人工智能技术领域,特别是涉及一种视频数据采集方法、装置、芯片及存储介质。
背景技术
随着互联网的发展,积累的数据爆炸增长,使得数据库中存在着海量的数据,这些数据中包含用户感兴趣的内容,也存在许多用户不感兴趣的内容,用户感兴趣的内容的数据量和数据库包含的数据量相比如同沧海一粟,造成了数据稀疏的问题,不利于进行数据查找、采集。
发明内容
基于此,本发明提供一种视频数据采集方法、装置、芯片及存储介质,可以解决数据稀疏的技术问题。
第一方面,提供一种视频数据采集方法,包括:
确定视频数据集中各视频数据的文本特征,所述视频数据集包括至少一个视频数据;
根据文本卷积神经网络从所述文本特征中提取所述视频数据集的各视频数据的视频特征;
根据用户特征与各视频特征从所述视频数据集中的确定视频数据组成偏好视频集;
根据用户交互历史节点的视频特征建立偏好特征;
基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分,并采集满足预设偏好评分的视频数据。
可选的,根据用户交互历史节点的视频特征建立偏好特征包括:
构建包含用户交互历史节点与行为边的异构图;
基于所述异构图建立用户与视频数据的多层低维表征向量;
结合所述用户与视频数据的多层低维表征向量,基于多层向量传播按照预设时间周期建立偏好特征。
可选的,基于多层向量传播按照预设时间周期建立偏好特征包括:
借助向量传播方法通过用户第一预设时间周期历史交互结点的表征向量进行建模得到长期偏好特征;
和/或,
借助向量传播方法,通过用户第二预设时间周期历史交互结点的表征向量进行建模得到短期偏好特征;
所述第一预设时间周期长于所述第二预设时间周期。
可选的,基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分,还包括:
拼接所述长期偏好特征和所述短期偏好特征;
利用拼接后的偏好特征,基于注意力网络的预测函数,对所述偏好视频集中的视频数据进行偏好评分。
可选的,文本特征包括视频数据的视频标题、视频标签和/或视频内容文本。
第二方面,提供一种视频数据采集装置,包括:
文本特征确定模块,用于确定视频数据集中各视频数据的文本特征,所述视频数据集包括至少一个视频数据,所述文本特征包括视频数据的视频标题、视频标签、视频内容文本;
视频特征提取模块,用于根据文本卷积神经网络从所述文本特征中提取所述视频数据集的各视频数据的视频特征;
偏好视频集确定模块,根据用户特征与各视频特征从所述视频数据集中的确定视频数据组成偏好视频集;
偏好特征建立模块,用于根据用户交互历史节点的视频特征建立偏好特征;
评分采集模块,用于基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分;
视频数据采集模块,用于采集满足预设偏好评分的视频数据。
可选的,偏好特征建立模块还包括:
异构图建立单元,用于构建包含用户交互历史节点与行为边的异构图;
表征向量建立单元,用于基于所述异构图建立用户与视频数据的多层低维表征向量;
偏好特征建立单元,用于结合所述用户与视频数据的多层低维表征向量,基于多层向量传播按照预设时间周期建立偏好特征。
可选的,偏好特征建立单元还包括:
长期偏好特征建立模块,用于借助向量传播方法通过用户第一预设时间周期历史交互结点的表征向量进行建模得到长期偏好特征;和/或,
短期偏好特征建立模块,用于借助向量传播方法,通过用户第二预设时间周期历史交互结点的表征向量进行建模得到短期偏好特征;
第一预设时间周期长于所述第二预设时间周期。
第三方面,提供一种芯片,包括第一处理器,用于从第一存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如上介绍的视频数据采集方法的各个步骤。
第四方面,提供一种终端,包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序,第二处理器执行所述计算机程序时实现如上介绍的视频数据采集方法的各个步骤。
上述视频数据采集方法、装置、芯片及存储介质,通过确定视频数据集中各视频数据的文本特征,视频数据集包括至少一个视频数据,根据文本卷积神经网络从文本特征中提取视频数据集的各视频数据的视频特征,根据用户特征与各视频特征从视频数据集中的确定视频数据组成偏好视频集,根据用户交互历史节点的视频特征建立偏好特征,基于偏好特征对偏好视频集中的各视频进行偏好评分,并采集满足预设偏好评分的视频数据。本发明通过先提取视频数据集中的视频特征,基于该视频特征和用户特征从视频数据集中确定偏好视频集,可以使得数据粘稠,之后再建立偏好特征基于此对偏好视频集中的各视频数据进行偏好评分,有助于数据查找、采集。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种视频数据采集方法的基本流程示意图;
图2为本发明实施例提供的CBOW模型框架示意图;
图3为本发明实施例提供的Skip-gram模型框架示意图;
图4为本发明实施例提供的随机失活网络示意图;
图5为本发明实施例视频数据采集装置的基本结构框图;
图6为本发明实施例提供的一种终端的基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(AI:Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
具体地请参阅图1,图1为本实施例视频数据采集方法的基本流程示意图。
如图1所示,一种视频数据采集方法,包括:
S11、确定视频数据集中各视频数据的文本特征,所述视频数据集包括至少一个视频数据。
在本申请实施例中,文本特征包括视频数据的视频标题、视频标签和/或视频内容文本。
采用Word2Vec技术中的CBOW模型将视频标签、标题等文本信息转换为分布式词向量然后输入至文本卷积神经网络中进行特征处理。Word2vec是自然语言处理(NaturalLanguage Processing,NLP)领域的一项技术,可以将词转化为可计算的向量,具体的Word2Vec技术可以将自然语言采用低纬度的分布式词向量进行表示,其主要原理主要是通过维度高的分布式向量通过模型进行转换成维度低、数据稠密的分布式向量,主要运用于大数据中提取语义信息。Word2Vec技术基于神经网络研发得到,结合深度学习和自然语言的模型,通过词语的关联建立语言模型,可以将自然语言转化到低纬度的向量空间中,通过一定的训练转化成分布式词向量,这种形式的词向量可以更多的表达词向量的信息。
Word2Vec技术主要模型有CBOW模型(模型框架如图2所示)、Skip-gram模型(模型框架图3所示)。CBOW模型的原理是通过上下文(即当前词的前n个词和后n个词)来预测当前词出现的概率,如图2所示,W(t)表示t词出现的概率是由t词上文t-1词、t-2词,和下文t+1词、t+2词预测得到的,在输入上文t-1词、t-2词,和下文t+1词、t+2词后,经过CBOW模型(预测模型)可以输出得到t词以及其出现的概率。而Skip-gram模型的原理则是通过当前词出现的概率来预测上下文,如图3所示,W(t)表示t词出现的概率,基于t词出现的概率W(t)可以预测t词的上文t-1词、t-2词,和下文t+1词、t+2词出现的概率,输入t词,经过Skip-gram模型(预测模型)可以计算得到t词的上文t-1词、t-2词,和下文t+1词、t+2词及对应的概率。在本申请中,CBOW模型在处理较小的语料库时表现较好,本申请实施例选用CBOW模型,来将词训练成连续稠密的向量。
CBOW模型:设置词汇量的大小为V,隐藏层的大小为N,相邻层上的节点完全连接。对于给定的输入单词i用向量表示为其中只有其中只有一个对应节点/>其他无关节点/>此时输入层和输出层之间的权重可以用V×N的矩阵WV×N表示,矩阵中的每一行代表的是一个与输入层相关的单词的N为向量表示VW。最终,训练后得到的更新参数矩阵即为对应的词向量矩阵:
S12、根据文本卷积神经网络从所述文本特征中提取所述视频数据集的各视频数据的视频特征;
向量矩阵表示的文本特征具有低维稠密的特点。将利用Word2Vec技术中的CBOW模型得到的词向量矩阵Wm×n作为输入数据,使用文本卷积神经网络进行深层次的特征提取。
文本卷积神经网络包括:
A)嵌入层:文本卷积神经网络的第一层是词嵌入层,输入数据是利用Word2Vec技术进行处理得到隐藏层的词向量矩阵。设xi∈Rn为文本中第i个词的n维词向量,每个文本分别用X=(x1,x2,...,xm)表示,m表示文本中词的个数。一个m×n的词向量矩阵W表示为:
其中表示向量拼接。
B)卷积层:卷积层是文本卷积祌经网络中的重点,主要负责提取数据的深层特征。通过该层的参数设置实现了文本卷积神经网络加权共享、局部感受野的优点。具体体现在设置的卷积核大小不同,将不同的卷积核针对输入数据的不同局部进行卷积运算,卷积窗口的宽度即为通过Word2Vec技术得到的词向量矩阵的词向量维数,卷积窗口的高度设置为2,3,4个单词数。对于大小为的卷积核,令/>表示第i个词到第/>个词组成的局部特征矩阵,最后得到卷积层的输出特征图,表示为:
其中,coni是表示特征图中第i个特征值,为滤波器,bΛ是偏置值,relu为relu激活函数,表示为:
relu激活函数的梯度不变,导数不等于0,以此缓解训练过程中梯度消失的问题。
C)池化层
池化层是用来进行更高质量的特征选择和信息过滤的。若特征向量的维数过大,则代表数据中的噪声越大,就会出现“过拟合”现象。本文采用的池化函数是最大池化得到的池化特征值,表示为:
D)全连接层
全连接层主要目的是对于特征进行空间变换。通过卷积层和池化层的处理后将词向量矩阵映射到隐藏的特征空间,整个全连层通过特征空间转换将生成的分散特征表示映射到样本的标记空间。
完全连接层可以使用随机失活(Dropout)技术规范化,随机失活可以对神经网络进行很好的优化,同时可以降低过度拟合和梯度方面的问题。请见图4,对该网络中每层的每个节点设置0-1之间的概率来判断该节点是否保留。通过这样的方法减少各个节点之间的依赖程度,消除数据噪声,减少不必要的“过拟合”,实现该网络的规范化。
S13、根据用户特征与各视频特征从所述视频数据集中的确定视频数据组成偏好视频集;
用户特征为用户的视频查阅历史特征,在用户无历史数据的情况下,可以预设至少一个特征为用户特征,本申请实施例可以根据用户特征与步骤S12中提取的视频数据集中的各个视频数据的数据特征进行匹配,筛选与用户特征匹配度高的视频数据组成偏好视频集,进一步的从偏好视频集中采集目标数据(满足预设偏好评分的视频数据)。
S14、根据用户交互历史节点的视频特征建立偏好特征;
S141、构建包含用户交互历史节点与行为边的异构图;
异构图构建:构建异构图G=<V,E>,其中,V表示所有结点的集合,E表示所有边的集合。同时集合V中有两类结点:用户结点u∈U与视频结点i∈I。
集合E中有两类边:一类是用户与视频的交互边rui∈R,其中rui代表用户u与视频i存在交互行为(观看);另一类是视频切换边rij∈T,其中rij代表视频i到视频j的切换行为,并且该边的权重由数据集中所有用户的切换次数决定。如果该权重为0,即边不存在,则代表没有用户产生从观看i切换到观看j的行为。基于此可以得到包含两类结点与两类边的异构图。
S141、基于所述异构图建立用户与视频数据的多层低维表征向量;
针对ID特征设计适用于独热编码的嵌入层,为用户与视频分别建立嵌入矩阵P与Q。P的维度为N乘以D,Q的维度为M乘以D。其中,N为用户的数目,M为视频的数目。D为低维空间的维度,是一个可以调整的超参数,其过大的维度会带来过拟合问题,而过小的维度则存在欠拟合问题。我们通过用户与视频的嵌入矩阵与独热编码可得到每个用户与视频的低维表征向量:
其中,分别为用户与视频的独热编码。用户独热编码的长度为N,视频独热编码的长度为M。在嵌入矩阵完成随机初始化后,模型的后续部分将从嵌入矩阵得到最终的预测结果。当基于预测损失的随机梯度下降时,嵌入矩阵即可从初始化的随机向量逐渐调整至可刻画用户与视频特征的高质量表征向量。
S143、结合所述用户与视频数据的多层低维表征向量;
向量传播层:将向量传播给图上的邻居结点,以实现图结构邻接性到向量相似性的转化,并可通过多层向量传播实现对高阶邻接关系的建模。
在本申请实施例中可以借助向量传播方法,通过用户结点的表征向量对其长期兴趣进行建模,也可以通过用户上一时刻交互的结点的表征向量对其短期兴趣进行建模。这种做法更与用户长期兴趣与短时兴趣的物理意义相契合,本申请实施例也分别介绍
长期兴趣向量传播层:
其中,σ是非线性激活函数,与/>分别是从第l层往l+1层传播时的网络参数与偏置参数(下标1是为了与后文的短时兴趣相关参数加以区分),Ru是用户u交互过的所有视频,Ri是观看过视频i的所有用户,aggregate(·)是向量聚合操作,/>为用户u第l层的表征向量,/>为用户u第l+1层的表征向量(偏好特征),/>为视频i第l层的表征向量(偏好特征),/>为视频i第l层的表征。
短时兴趣向量传播层:
其中,σ是非线性激活函数,与/>是从第l层往l+1层传播时的网络参数与偏置参数(添加下标2,以与前文所述的长期兴趣相关参数加以区分),Ti是存在往i有向边的所有视频的集合。/>为视频第l层的表征向量(偏好特征)。此处的aggregate(·)是带权重的聚合操作,该权重为往i的有向边的权重,即存在该切换行为的用户的个数,同时该权重可从一定程度上对切换关系的强弱进行建模。
S144、基于多层向量传播按照预设时间周期建立偏好特征。
基于多层向量传播按照预设时间周期建立偏好特征有两种情况:
第一种情况是借助向量传播方法通过用户第一预设时间周期历史交互结点的表征向量进行建模得到长期偏好特征。在该情况下,后续也将基于该长期偏好评分对偏好视频集中的各视频进行偏好评分。
第二种情况是借助向量传播方法,通过用户第二预设时间周期历史交互结点的表征向量进行建模得到短期偏好特征,其中第一预设时间周期长于所述第二预设时间周期。在该情况下,后续也将基于该短期偏好评分对偏好视频集中的各视频进行偏好评分。
第三种情况是借助向量传播方法通过用户第一预设时间周期历史交互结点的表征向量进行建模得到长期偏好特征,并通过用户第二预设时间周期历史交互结点的表征向量进行建模得到短期偏好特征。本申请以该情况为主对该数据采集方法进行介绍,进一步的执行步骤S15。
S15、基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分。
基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分的实现方式可以是拼接长期偏好特征和所述短期偏好特征,利用拼接后的偏好特征,基于注意力网络的预测函数,对偏好视频集中的视频数据进行偏好评分,这样更全面的概括用户偏好特征。
在本申请实施例中既有短期偏好特征,又有长期偏好特征,可以使用求和操作,将长期偏好特征和短期偏好特征两部分合并为一部分,即考虑到不同层数的用户或视频向量包含了不同阶数的图上邻接关系,可以将不同层数的向量使用拼接操作进行聚合:
其中,L为一个可以调整的超参数,代表向量的拼接操作。随后,我们通过一个基于注意力网络的预测函数,对给定的用户与视频预测观看概率,具体如公式为:
其中,MLP代表一个多层感知机,ATN代表一个注意力网络。最终输出的为一个从0到1之间的概率值,该值越大,用户u越有可能观看视频i。
S16、采集满足预设偏好评分的视频数据。
越大则越属于用户偏好的视频,对应视频的偏好评分越高,则可以采集该满足预设偏好评分的视频数据。预设偏好评分在0到1之间。
本发明通过先提取视频数据集中的视频特征,基于该视频特征和用户特征从视频数据集中确定偏好视频集,可以使得数据粘稠,之后再建立偏好特征基于此对偏好视频集中的各视频数据进行偏好评分,有助于数据查找、采集。
为解决上述技术问题,本发明实施例还提供一种视频数据采集装置。具体请参阅图5,图5为本实施视频数据采集装置的基本结构框图,包括:
文本特征确定模块,用于确定视频数据集中各视频数据的文本特征,所述视频数据集包括至少一个视频数据,所述文本特征包括视频数据的视频标题、视频标签、视频内容文本;
视频特征提取模块,用于根据文本卷积神经网络从所述文本特征中提取所述视频数据集的各视频数据的视频特征;
偏好视频集确定模块,根据用户特征与各视频特征从所述视频数据集中的确定视频数据组成偏好视频集;
偏好特征建立模块,用于根据用户交互历史节点的视频特征建立偏好特征;
评分采集模块,用于基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分;
视频数据采集模块,用于采集满足预设偏好评分的视频数据。
在一些实施例中,偏好特征建立模块还包括:
异构图建立单元,用于构建包含用户交互历史节点与行为边的异构图;
表征向量建立单元,用于基于所述异构图建立用户与视频数据的多层低维表征向量;
偏好特征建立单元,用于结合所述用户与视频数据的多层低维表征向量,基于多层向量传播按照预设时间周期建立偏好特征。
在一些实施例中,偏好特征建立单元还包括:
长期偏好特征建立模块,用于借助向量传播方法通过用户第一预设时间周期历史交互结点的表征向量进行建模得到长期偏好特征;和/或,
短期偏好特征建立模块,用于借助向量传播方法,通过用户第二预设时间周期历史交互结点的表征向量进行建模得到短期偏好特征;
所述第一预设时间周期长于所述第二预设时间周期。
为解决上述技术问题,本发明实施例还提供一种芯片,该芯片可以为通用处理器,也可以为专用处理器。该芯片包括处理器,处理器用于支持终端执行上述相关步骤,例如从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行,以实现上述各个实施例中的视频数据采集方法。
可选的在一些示例下,该芯片还包括收发器,收发器用于接受处理器的控制,用于支持终端执行上述相关步骤,以实现上述各个实施例中的视频数据采集方法。
可选的,该芯片还可以包括存储介质。
需要说明的是,该芯片可以使用下述电路或者器件来实现:一个或多个现场可编程门阵列(field programmable gate array,FPGA)、可编程逻辑器件(programmablelogicdevice,PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其他适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。
本发明还提供一种终端,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,处理器执行所述计算机程序时实现如上介绍的视频数据采集方法的各个步骤。
具体请参阅图6,图6为示出的一种终端的基本结构框图,该终端包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该终端的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种视频数据采集方法。该终端的处理器用于提供计算和控制能力,支撑整个终端的运行。该终端的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种视频数据采集方法。该终端的网络接口用于与终端连接通信。本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的终端的限定,具体的终端可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的电子设备。这种电子设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal DigitalAssistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile InternetDevice,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任意实施例介绍的视频数据采集方法的各个步骤。
本实施例还提供了一种计算机程序,该计算机程序可以分布在计算机可读介质上,由可计算装置来执行,以实现上述介绍的视频数据采集方法的至少一个步骤;并且在某些情况下,可以采用不同于上述实施例所描述的顺序执行所示出或描述的至少一个步骤。
本实施例还提供了一种计算机程序产品,包括计算机可读装置,该计算机可读装置上存储有如上所示的计算机程序。本实施例中该计算机可读装置可包括如上所示的计算机可读存储介质。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种视频数据采集方法,其特征在于,包括:
确定视频数据集中各视频数据的文本特征,所述视频数据集包括至少一个视频数据;
根据文本卷积神经网络从所述文本特征中提取所述视频数据集的各视频数据的视频特征;
根据用户特征与各视频特征从所述视频数据集中的确定视频数据组成偏好视频集;
根据用户交互历史节点的视频特征建立偏好特征;
基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分,并采集满足预设偏好评分的视频数据。
2.如权利要求1所述的视频数据采集方法,其特征在于,所述根据用户交互历史节点的视频特征建立偏好特征包括:
构建包含用户交互历史节点与行为边的异构图;
基于所述异构图建立用户与视频数据的多层低维表征向量;
结合所述用户与视频数据的多层低维表征向量,基于多层向量传播按照预设时间周期建立偏好特征。
3.如权利要求2所述的视频数据采集方法,其特征在于,所述基于多层向量传播按照预设时间周期建立偏好特征包括:
借助向量传播方法通过用户第一预设时间周期历史交互结点的表征向量进行建模得到长期偏好特征;
和/或,
借助向量传播方法,通过用户第二预设时间周期历史交互结点的表征向量进行建模得到短期偏好特征;
所述第一预设时间周期长于所述第二预设时间周期。
4.如权利要求3所述的视频数据采集方法,其特征在于,所述基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分,还包括:
拼接所述长期偏好特征和所述短期偏好特征;
利用拼接后的偏好特征,基于注意力网络的预测函数,对所述偏好视频集中的视频数据进行偏好评分。
5.如权利要求1至4任意一项所述的视频数据采集方法,其特征在于,所述文本特征包括视频数据的视频标题、视频标签和/或视频内容文本。
6.一种视频数据采集装置,其特征在于,包括:
文本特征确定模块,用于确定视频数据集中各视频数据的文本特征,所述视频数据集包括至少一个视频数据,所述文本特征包括视频数据的视频标题、视频标签、视频内容文本;
视频特征提取模块,用于根据文本卷积神经网络从所述文本特征中提取所述视频数据集的各视频数据的视频特征;
偏好视频集确定模块,根据用户特征与各视频特征从所述视频数据集中的确定视频数据组成偏好视频集;
偏好特征建立模块,用于根据用户交互历史节点的视频特征建立偏好特征;
评分采集模块,用于基于所述偏好特征对所述偏好视频集中的各视频进行偏好评分;
视频数据采集模块,用于采集满足预设偏好评分的视频数据。
7.如权利要求6所述的视频数据采集装置,其特征在于,所述偏好特征建立模块还包括:
异构图建立单元,用于构建包含用户交互历史节点与行为边的异构图;
表征向量建立单元,用于基于所述异构图建立用户与视频数据的多层低维表征向量;
偏好特征建立单元,用于结合所述用户与视频数据的多层低维表征向量,基于多层向量传播按照预设时间周期建立偏好特征。
8.如权利要求7所述的视频数据采集装置,其特征在于,偏好特征建立单元还包括:
长期偏好特征建立模块,用于借助向量传播方法通过用户第一预设时间周期历史交互结点的表征向量进行建模得到长期偏好特征;和/或,
短期偏好特征建立模块,用于借助向量传播方法,通过用户第二预设时间周期历史交互结点的表征向量进行建模得到短期偏好特征;
所述第一预设时间周期长于所述第二预设时间周期。
9.一种芯片,其特征在于,包括:第一处理器,用于从第一存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至5任意一项所述的一种视频数据采集方法。
10.一种终端,其特征在于,包括第二存储器、第二处理器以及存储在所述第二存储器中并可在所述第二处理器上运行的计算机程序,其特征在于,所述第二处理器执行所述计算机程序时实现如权利要求1至5中任意一项所述的一种视频数据采集方法。
CN202311478984.XA 2023-11-08 2023-11-08 一种视频数据采集方法、装置、芯片及终端 Pending CN117609546A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311478984.XA CN117609546A (zh) 2023-11-08 2023-11-08 一种视频数据采集方法、装置、芯片及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311478984.XA CN117609546A (zh) 2023-11-08 2023-11-08 一种视频数据采集方法、装置、芯片及终端

Publications (1)

Publication Number Publication Date
CN117609546A true CN117609546A (zh) 2024-02-27

Family

ID=89950580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311478984.XA Pending CN117609546A (zh) 2023-11-08 2023-11-08 一种视频数据采集方法、装置、芯片及终端

Country Status (1)

Country Link
CN (1) CN117609546A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106028071A (zh) * 2016-05-17 2016-10-12 Tcl集团股份有限公司 一种视频推荐方法及系统
CN110418200A (zh) * 2018-04-27 2019-11-05 Tcl集团股份有限公司 一种视频推荐方法、装置及终端设备
CN111538860A (zh) * 2020-07-07 2020-08-14 北京搜狐新媒体信息技术有限公司 视频推荐方法及装置、存储介质及电子设备
CN112818251A (zh) * 2021-04-13 2021-05-18 腾讯科技(深圳)有限公司 视频推荐方法、装置、电子设备以及存储介质
CN114491150A (zh) * 2022-03-28 2022-05-13 苏州浪潮智能科技有限公司 一种视频推荐方法、系统、设备及计算机可读存储介质
CN115170994A (zh) * 2021-04-01 2022-10-11 腾讯科技(深圳)有限公司 一种视频识别方法、装置、设备以及计算机可读存储介质
CN115687691A (zh) * 2022-10-25 2023-02-03 上海幻电信息科技有限公司 视频推荐方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106028071A (zh) * 2016-05-17 2016-10-12 Tcl集团股份有限公司 一种视频推荐方法及系统
CN110418200A (zh) * 2018-04-27 2019-11-05 Tcl集团股份有限公司 一种视频推荐方法、装置及终端设备
CN111538860A (zh) * 2020-07-07 2020-08-14 北京搜狐新媒体信息技术有限公司 视频推荐方法及装置、存储介质及电子设备
CN115170994A (zh) * 2021-04-01 2022-10-11 腾讯科技(深圳)有限公司 一种视频识别方法、装置、设备以及计算机可读存储介质
CN112818251A (zh) * 2021-04-13 2021-05-18 腾讯科技(深圳)有限公司 视频推荐方法、装置、电子设备以及存储介质
CN114491150A (zh) * 2022-03-28 2022-05-13 苏州浪潮智能科技有限公司 一种视频推荐方法、系统、设备及计算机可读存储介质
CN115687691A (zh) * 2022-10-25 2023-02-03 上海幻电信息科技有限公司 视频推荐方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MILDRED BROOK 等: "A Graph Neural Network-based Video Recommendation Model Combining Users’ Long-term and Short-term Preference", PREPRINTS.ORG, 7 November 2022 (2022-11-07), pages 3 *

Similar Documents

Publication Publication Date Title
CN110866140B (zh) 图像特征提取模型训练方法、图像搜索方法及计算机设备
Zhang et al. Temperature Forecasting via Convolutional Recurrent Neural Networks Based on Time‐Series Data
CN109284406B (zh) 基于差异循环神经网络的意图识别方法
CN111667022A (zh) 用户数据处理方法、装置、计算机设备和存储介质
CN112232165B (zh) 一种数据处理方法、装置、计算机及可读存储介质
CN114550053A (zh) 一种交通事故定责方法、装置、计算机设备及存储介质
CN113806580B (zh) 基于层次语义结构的跨模态哈希检索方法
CN114330966A (zh) 一种风险预测方法、装置、设备以及可读存储介质
CN111709493A (zh) 对象分类方法、训练方法、装置、设备及存储介质
CN116368796A (zh) 数据处理方法和装置
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN113010705A (zh) 标签预测方法、装置、设备及存储介质
CN117609546A (zh) 一种视频数据采集方法、装置、芯片及终端
CN113806538B (zh) 标签提取模型训练方法、装置、设备与存储介质
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN116992947A (zh) 模型训练方法、视频查询方法和装置
CN115062769A (zh) 基于知识蒸馏的模型训练方法、装置、设备及存储介质
CN114925681A (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品
CN114329065A (zh) 视频标签预测模型的处理方法、视频标签预测方法和装置
CN114329181A (zh) 一种题目推荐方法、装置及电子设备
WO2020151318A1 (zh) 基于爬虫模型的语料构建方法、装置及计算机设备
CN116975246B (zh) 一种数据采集方法、装置、芯片及终端
CN117649117B (zh) 处置方案的确定方法、装置以及计算机设备
CN115630687B (zh) 模型训练方法、交通流量预测方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination