CN117807270A - 基于新闻内容的视频推荐方法、装置、设备和存储介质 - Google Patents

基于新闻内容的视频推荐方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN117807270A
CN117807270A CN202410228267.XA CN202410228267A CN117807270A CN 117807270 A CN117807270 A CN 117807270A CN 202410228267 A CN202410228267 A CN 202410228267A CN 117807270 A CN117807270 A CN 117807270A
Authority
CN
China
Prior art keywords
video
news
tag
entity
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202410228267.XA
Other languages
English (en)
Other versions
CN117807270B (zh
Inventor
邓劲生
宋省身
尹晓晴
熊炜林
刘娟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202410228267.XA priority Critical patent/CN117807270B/zh
Publication of CN117807270A publication Critical patent/CN117807270A/zh
Application granted granted Critical
Publication of CN117807270B publication Critical patent/CN117807270B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/7867Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, title and artist information, manually generated time, location and usage information, user ratings
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于新闻内容的视频推荐方法、装置、设备和存储介质。所述方法包括:对获取的视频素材进行特征提取和分类,并建立视频数据库;对当前用户阅读的新闻文本进行实体识别,得到实体标签;对当前用户阅读的新闻图片进行图像识别,得到图像标签;根据实体标签和图像标签,在视频数据库中进行匹配,得到匹配视频集合;将匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。本方法提供了精准、多样、新颖的个性化新闻视频推荐,而且提高了新闻的阅读的趣味性,还提高了新闻推荐的精度与准确性。

Description

基于新闻内容的视频推荐方法、装置、设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种基于新闻内容的视频推荐方法、装置、设备和存储介质。
背景技术
信息化时代的当下,传播内容量大,传播呈现方式多样化,新闻作为重要的信息载体之一,也是人们获得信息的主要来源。目前,新闻展示方式较为单调。而在现有技术中,新闻展示大多单以文字或视频为主,对于新闻推荐一般是通过用户观看痕迹,分析计算出用户喜好,并给用户打上标签后,将现有的新闻文案或视频直接推荐给用户,使得推荐视频内容不够多层次与多元化,而导致推荐内容单一与不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种基于新闻内容的视频推荐方法、装置、设备和存储介质。基于新闻内容推荐相关视频,结合新闻一起展现,可以丰富新闻内容本身的涵盖的信息,提升新闻内容档次,有利于增加阅读新闻时的趣味性。
一种基于新闻内容的视频推荐方法,所述方法包括:
对获取的视频素材进行特征提取和分类,并建立视频数据库。
对当前用户阅读的新闻文本进行实体识别,得到实体标签。
对当前用户阅读的新闻图片进行图像识别,得到图像标签。
根据所述实体标签和所述图像标签,在所述视频数据库中进行匹配,得到匹配视频集合。
将所述匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。
在其中一个实施例中,对获取的视频素材进行特征提取和分类,并建立视频数据库,包括:
采用NetVLAD算法对获取的视频素材进行视频特征提取和识别,得到视频特征和分类类别;所述视频特征包括:视频信息、标题、标签、变更时间、识别内容。
根据所述视频特征和所述分类类别,建立视频数据库。
在其中一个实施例中,对当前用户阅读的新闻文本进行实体识别,得到实体标签,包括:
对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签。
在其中一个实施例中,BiLSTM-CRF模型包括embedding层、BiLSTM层、Linear层以及CRF层。
对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签,包括:
将当前用户阅读的新闻文本进行张量化处理,得到新闻文本序列。
将所述新闻文本序列通过embedding层后映射为词向量。
将所述词向量输入到BiLSTM层中,得到向量矩阵;所述向量矩阵的每行代表对应单词经过BiLSTM层后的上下文向量。
将所述向量矩阵经过Linear层进行线性变换,得到发射分数。
将所述发射分数输入到所述CRF层,得到一串标签序。
根据所述标签序和预设损失函数,计算损失值为:
其中,为损失值,/>,/>为标签数,/>为本文长度,/>为第/>跳路径的分数,/>为标签序。
当所述损失值最小时,则将其相应的路径作为最终的预判结果。
在其中一个实施例中,对当前用户阅读的新闻图片进行图像识别,得到图像标签,包括:
对当前用户阅读的新闻图片采用YOLOv7模型进行图像识别,得到图像标签。
在其中一个实施例中,所述YOLOv7模型包括:Backbone骨干网络和Head模块。
所述Backbone骨干网络由若干个CBS模块、1个ELAN模块、3个由MP模块和ELAN模块组成的组合模块。
所述Head模块包括SPPCPC模块、上采样模块、Rep模块以及ELAN-W模块。
在其中一个实施例中,根据所述实体标签和所述图像标签,在所述视频数据库中进行匹配,得到匹配视频集合,包括:
将所述实体标签和所述图像标签按照顺序进行排列,得到特征集合。
按顺序将所述特征集合中的元素与所述视频数据库进行相似度匹配,得到匹配的词序列。
根据匹配的词序列提取视频片段,得到匹配视频集合。
一种基于新闻内容的视频推荐装置,所述装置包括:
视频数据库建立模块,用于对获取的视频素材进行特征提取和分类,并建立视频数据库。
实体标签确定模块,用于对当前用户阅读的新闻文本进行实体识别,得到实体标签。
图像标签确定模块,用于对当前用户阅读的新闻图片进行图像识别,得到图像标签。
视频匹配模块,用于根据所述实体标签和所述图像标签,在所述视频数据库中进行匹配,得到匹配视频集合。
视频推荐模块,用于将所述匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一方法的步骤。
上述基于新闻内容的视频推荐方法、装置、设备和存储介质,所述方法包括:对获取的视频素材进行特征提取和分类,并建立视频数据库;对当前用户阅读的新闻文本进行实体识别,得到实体标签;对当前用户阅读的新闻图片进行图像识别,得到图像标签;根据实体标签和图像标签,在视频数据库中进行匹配,得到匹配视频集合;将匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。本方法提供了精准、多样、新颖的个性化新闻视频推荐,而且提高了新闻的阅读的趣味性,还提高了新闻推荐的精度与准确性。
附图说明
图1为一个实施例中基于新闻内容的视频推荐方法的流程示意图;
图2为另一个实施例中基于新闻内容的视频推荐方法的流程示意图;
图3为一个实施例中基于新闻内容的视频推荐装置的结构框图;
图4为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于新闻内容的视频推荐方法,该方法:
步骤100:对获取的视频素材进行特征提取和分类,并建立视频数据库。
具体的,可以采用NetVLAD算法、Transformer算法或ResNet算法对获取的视频素材进行特征提取和分类,并建立视频数据库。
步骤102:对当前用户阅读的新闻文本进行实体识别,得到实体标签。
具体的,可以采用BiLSTM-CRF模型、UIE模型或BERT模型对当前用户阅读的新闻文本进行实体识别,得到实体标签。
步骤104:对当前用户阅读的新闻图片进行图像识别,得到图像标签。
具体的,可以采用YOLOv7模型、Faster R-CNN模型或SSD模型对当前用户阅读的新闻图片进行图像识别,得到图像标签。
步骤106:根据实体标签和图像标签,在视频数据库中进行匹配,得到匹配视频集合。
步骤108:将匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。
具体的,将匹配视频集合中的视频片段按顺序进行衔接,形成一段新的视频片段,然后将该新的视频片段进行主动推荐。
上述基于新闻内容的视频推荐方法中,所述方法包括:对获取的视频素材进行特征提取和分类,并建立视频数据库;对当前用户阅读的新闻文本进行实体识别,得到实体标签;对当前用户阅读的新闻图片进行图像识别,得到图像标签;根据实体标签和图像标签,在视频数据库中进行匹配,得到匹配视频集合;将匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。本方法提供了精准、多样、新颖的个性化新闻视频推荐,而且提高了新闻的阅读的趣味性,还提高了新闻推荐的精度与准确性。
在其中一个实施例中,步骤100包括:采用NetVLAD算法对获取的视频素材进行视频特征提取和识别,得到视频特征和分类类别;视频特征包括:视频信息、标题、标签、变更时间、识别内容;根据视频特征和分类类别,建立视频数据库。
具体包括如下步骤:
步骤1.1:首先将视频的M帧的每一帧通过卷积神经网络抽取出N维的特征。
步骤1.2:每个视频帧需要进行聚合得到K个聚类中心,其公式如下:
其中表示第/>个图像描述符,/>表示N维的第K个聚类中心,表示/>属于第K个聚类中心的软分配函数,衡量/>和聚类中心的距离,具体公式如下:
步骤1.3:然后通过聚合M个视频帧的特征来得到视频特征,其表达式为:
步骤1.4:最后再经过归一化,NetVLAD的参数量为:,最后做两次归一化得到最终的VLAD特征向量。
步骤1.5:对视频进行分类:根据步骤1.4得到的特征向量,进行分类。
步骤1.6:在步骤1.5的基础上,建立视频数据库:包含视频的名称、操作日期、所属类型、存放路径等。
在其中一个实施例中,步骤102包括:对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签。
在其中一个实施例中,BiLSTM-CRF模型包括embedding层、BiLSTM层、Linear层以及CRF层;对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签,包括:将当前用户阅读的新闻文本进行张量化处理,得到新闻文本序列;将新闻文本序列通过embedding层后映射为词向量;将词向量输入到BiLSTM层中,得到向量矩阵;向量矩阵的每行代表对应单词经过BiLSTM层后的上下文向量;将向量矩阵经过Linear层进行线性变换,得到发射分数;将发射分数输入到CRF层,得到一串标签序;根据标签序和预设损失函数,计算损失值为:
其中,为损失值,/>,/>为标签数,/>为本文长度,/>为第/>跳路径的分数,/>为标签序。
当损失值最小时,则将其相应的路径作为最终的预判结果。
具体的,步骤2.1:将新闻内容作为输入,将新闻文本内容张量化。输入新闻文本序列
步骤2.2:通过embedding层后映射为词向量embs,其大小为,即/>。其中/>对应的词向量为/>
步骤2.3:将embs传入BiLSTM层后,每个词都会产生一个上下文的向量,因此所有向量组合后,得到一个向量矩阵context_vector,用表示。其中每行代表对应单词经过BiLSTM层后的上下文向量。
步骤2.4:通过Linear层进行线性变换,其计算公式为:
和/>是线性层可学习的参数,其中/>的大小为:/>,其中为标签大小,数值为5,5种标签分别为:B-PER、I-PER、B-LOC、I-LOC、O。经过Linear层后,得到发射分数emission_socre,即y,每字词对应一行标签分数,即/>对第一个标签分数为/>,对第二个标签分数为/>,依此类推,对第五个标签分数为/>
步骤2.5:发射分数(标签向量)传入CRF层之后,通过学习标签之间的顺序依赖信息,CRF层会以一种全局的方式进行建模,选择所有路径中最优的那条路径,即会据此解码出一串标签序,以表示,计算其概率的公式为:
其中,为标签数,/>为本文长度,/>为第/>跳路径的分数。
越大时,那么其损失越小,则其损失函数可建模为:
简化后得到式子:
步骤2.6:当loss值最小的时候,则其相应的路径则为最终的预判结果。
在其中一个实施例中,步骤104包括:对当前用户阅读的新闻图片采用YOLOv7模型进行图像识别,得到图像标签。
在其中一个实施例中,YOLOv7模型包括:Backbone骨干网络和Head模块;Backbone骨干网络由若干个CBS模块、1个ELAN模块、3个由MP模块和ELAN模块组成的组合模块;Head模块包括SPPCPC模块、上采样模块、Rep模块以及ELAN-W模块。
具体的,对当前用户阅读的新闻图片采用YOLOv7模型进行图像识别,得到图像标签,具体包括如下步骤:
步骤3.1:首先将新闻图片作为输入进行预处理,输出大小为640像素*640像素,并进行数据增强处理,被送入主干网。
步骤3.2:然后通过Backbone骨干网络,对处理后的图片提取特征。首先通过若干个CBS模块,其由Conv层,即卷积层、BN层、以及SiLU层组成,SiLU层为激活函数,其公式为:
步骤3.3:变化后得到特征图,然后经过ELAN模块。ELAN模块有两个分支,其中一条是经过的卷积做通道变化,另一条是依次经过/>的卷积做通道变化、四个/>的卷积做特征提取,最后把结果叠加得到特征提取结果。改变通道数,输入输出长宽不变。
步骤3.4:接着经过MP模块,MP模块有两个分支,第一条分支先经过一个最大池化(Maxpool),进行下采样,然后经过一个的卷积进行通道数的表变。第二条是先经过一个/>的卷积做通道变化,然后经过一个/>的卷积核、步长为2的卷积块,进行下采样;接着把两个分支的结果叠加在一块儿,得到超级下采样的结果。
步骤3.5:最后通过Head模块,将融合后的特征进行测头,最后输出得到最终结果。Head模块中包括SPPCPC模块、UPSample模块和ELAN-W模块等。SPPCPC模块经历了四条分支进行Maxpool,通过不同的最大池化处理不同的对象,来获得不同感受野,增大感受野。UPSample模块是上采样模块,采用最近邻插值的上采样方式。ELAN-W模块与ElAN模块类似,就是卷积的数量不同。最后经过Rep模块调整通道数,最后使用1×1卷积去预测objectness、class和bbox三部分,即“边界框的置信度”、“类别预测”、“边界框”,得到最后的结果。
在其中一个实施例中,步骤106包括:将实体标签和图像标签按照顺序进行排列,得到特征集合;按顺序将特征集合中的元素与视频数据库进行相似度匹配,得到匹配的词序列;根据匹配的词序列提取视频片段,得到匹配视频集合。
具体的,通过新闻内容识别的实体词汇和从新闻图片识别的标签,按照顺序进行排列,形成集合,按顺序从/>中元素,去匹配视频数据库相近或相同的词,提取视频/>片段,形成视频集合/>
将视频中的/>的视频片段按顺序进行衔接,形成一段新的视频片段Q,然后将Q进行主动推荐。
在一个具体的实施例中,如图2所示,提供了一种基于新闻内容的视频推荐方法,所述的具体方法步骤如下:首先,通过NetVLAD算法对已有的视频素材进行分类,提取标签,建立视频信息数据库。其次,以新闻文本作为输入,以BiLST-CRF算法对文本进行实体识别,得到实体标签;然后,以新闻图片作为输入,以YOLOv7算法该图像进行图像识别,得到图像标签。再次,通过新闻内容识别的实体标签和从新闻图片识别的标签,按照顺序进行排列,形成集合,按集合中元素的顺序,去视频信息数据库中匹配视频。最后,将匹配的视频按顺序进行衔接,形成新的视频,进行主动推荐。
应该理解的是,虽然图1-2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图3所示,提供了一种基于新闻内容的视频推荐装置,包括:视频数据库建立模块、实体标签确定模块、图像标签确定模块、视频匹配模块和视频推荐模块,其中:
视频数据库建立模块,用于对获取的视频素材进行特征提取和分类,并建立视频数据库。
实体标签确定模块,用于对当前用户阅读的新闻文本进行实体识别,得到实体标签。
图像标签确定模块,用于对当前用户阅读的新闻图片进行图像识别,得到图像标签。
视频匹配模块,用于根据实体标签和图像标签,在视频数据库中进行匹配,得到匹配视频集合。
视频推荐模块,用于将匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。
在其中一个实施例中,视频数据库建立模块,还用于采用NetVLAD算法对获取的视频素材进行视频特征提取和识别,得到视频特征和分类类别;视频特征包括:视频信息、标题、标签、变更时间、识别内容;根据视频特征和分类类别,建立视频数据库。
在其中一个实施例中,实体标签确定模块,还用于对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签。
在其中一个实施例中,BiLSTM-CRF模型包括embedding层、BiLSTM层、Linear层以及CRF层;对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签,包括:将当前用户阅读的新闻文本进行张量化处理,得到新闻文本序列;将新闻文本序列通过embedding层后映射为词向量;将词向量输入到BiLSTM层中,得到向量矩阵;向量矩阵的每行代表对应单词经过BiLSTM层后的上下文向量;将向量矩阵经过Linear层进行线性变换,得到发射分数;将发射分数输入到CRF层,得到一串标签序;根据标签序和预设损失函数,计算损失值为:
其中,为损失值,/>,/>为标签数,/>为本文长度,/>为第/>跳路径的分数,/>为标签序。
当损失值最小时,则将其相应的路径作为最终的预判结果。
在其中一个实施例中,图像标签确定模块,还用于对当前用户阅读的新闻图片采用YOLOv7模型进行图像识别,得到图像标签。
在其中一个实施例中,YOLOv7模型包括:Backbone骨干网络和Head模块;Backbone骨干网络由若干个CBS模块、1个ELAN模块、3个由MP模块和ELAN模块组成的组合模块;Head模块包括SPPCPC模块、上采样模块、Rep模块以及ELAN-W模块。
在其中一个实施例中,视频匹配模块,还用于将实体标签和图像标签按照顺序进行排列,得到特征集合;按顺序将特征集合中的元素与视频数据库进行相似度匹配,得到匹配的词序列;根据匹配的词序列提取视频片段,得到匹配视频集合。
关于基于新闻内容的视频推荐装置的具体限定可以参见上文中对于基于新闻内容的视频推荐方法的限定,在此不再赘述。上述基于新闻内容的视频推荐装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于新闻内容的视频推荐方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现上述任一方法实施例的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任一方法实施例的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种基于新闻内容的视频推荐方法,其特征在于,所述方法包括:
对获取的视频素材进行特征提取和分类,并建立视频数据库;
对当前用户阅读的新闻文本进行实体识别,得到实体标签;
对当前用户阅读的新闻图片进行图像识别,得到图像标签;
根据所述实体标签和所述图像标签,在所述视频数据库中进行匹配,得到匹配视频集合;
将所述匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。
2.根据权利要求1所述的方法,其特征在于,对获取的视频素材进行特征提取和分类,并建立视频数据库,包括:
采用NetVLAD算法对获取的视频素材进行视频特征提取和识别,得到视频特征和分类类别;所述视频特征包括:视频信息、标题、标签、变更时间、识别内容;
根据所述视频特征和所述分类类别,建立视频数据库。
3.根据权利要求1所述的方法,其特征在于,对当前用户阅读的新闻文本进行实体识别,得到实体标签,包括:
对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签。
4.根据权利要求3所述的方法,其特征在于,BiLSTM-CRF模型包括embedding层、BiLSTM层、Linear层以及CRF层;
对当前用户阅读的新闻文本采用BiLSTM-CRF模型进行实体识别,得到实体标签,包括:
将当前用户阅读的新闻文本进行张量化处理,得到新闻文本序列;
将所述新闻文本序列通过embedding层后映射为词向量;
将所述词向量输入到BiLSTM层中,得到向量矩阵;所述向量矩阵的每行代表对应单词经过BiLSTM层后的上下文向量;
将所述向量矩阵经过Linear层进行线性变换,得到发射分数;
将所述发射分数输入到所述CRF层,得到一串标签序;
根据所述标签序和预设损失函数,计算损失值为:
其中,为损失值,/>,/>为标签数,/>为本文长度,/>为第j跳路径的分数,为标签序;
当所述损失值最小时,则将其相应的路径作为最终的预判结果。
5.根据权利要求1所述的方法,其特征在于,对当前用户阅读的新闻图片进行图像识别,得到图像标签,包括:
对当前用户阅读的新闻图片采用YOLOv7模型进行图像识别,得到图像标签。
6.根据权利要求5所述的方法,其特征在于,所述YOLOv7模型包括:Backbone骨干网络和Head模块;
所述Backbone骨干网络由若干个CBS模块、1个ELAN模块、3个由MP模块和ELAN模块组成的组合模块;
所述Head模块包括SPPCPC模块、上采样模块、Rep模块以及ELAN-W模块。
7.根据权利要求1所述的方法,其特征在于,根据所述实体标签和所述图像标签,在所述视频数据库中进行匹配,得到匹配视频集合,包括:
将所述实体标签和所述图像标签按照顺序进行排列,得到特征集合;
按顺序将所述特征集合中的元素与所述视频数据库进行相似度匹配,得到匹配的词序列;
根据匹配的词序列提取视频片段,得到匹配视频集合。
8.一种基于新闻内容的视频推荐装置,其特征在于,所述装置包括:
视频数据库建立模块,用于对获取的视频素材进行特征提取和分类,并建立视频数据库;
实体标签确定模块,用于对当前用户阅读的新闻文本进行实体识别,得到实体标签;
图像标签确定模块,用于对当前用户阅读的新闻图片进行图像识别,得到图像标签;
视频匹配模块,用于根据所述实体标签和所述图像标签,在所述视频数据库中进行匹配,得到匹配视频集合;
视频推荐模块,用于将所述匹配视频集合中的元素按顺序进行衔接,并将得到新的视频进行主动推荐。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202410228267.XA 2024-02-29 2024-02-29 基于新闻内容的视频推荐方法、装置、设备和存储介质 Active CN117807270B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410228267.XA CN117807270B (zh) 2024-02-29 2024-02-29 基于新闻内容的视频推荐方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410228267.XA CN117807270B (zh) 2024-02-29 2024-02-29 基于新闻内容的视频推荐方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN117807270A true CN117807270A (zh) 2024-04-02
CN117807270B CN117807270B (zh) 2024-05-07

Family

ID=90430511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410228267.XA Active CN117807270B (zh) 2024-02-29 2024-02-29 基于新闻内容的视频推荐方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN117807270B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160227282A1 (en) * 2013-10-10 2016-08-04 The Trustees Of Columbia University In The City Of New York Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
CN110688526A (zh) * 2019-11-07 2020-01-14 山东舜网传媒股份有限公司 基于关键帧识别和音频文本化的短视频推荐方法及系统
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
CN112163122A (zh) * 2020-10-30 2021-01-01 腾讯科技(深圳)有限公司 确定目标视频的标签的方法、装置、计算设备及存储介质
CN113204709A (zh) * 2021-05-29 2021-08-03 武汉申子仟电子商务有限公司 基于多维数据深度比对分析的短视频搜索匹配推荐方法、系统及计算机存储介质
CN114416995A (zh) * 2022-01-20 2022-04-29 中国平安人寿保险股份有限公司 信息推荐方法、装置及设备
CN114625918A (zh) * 2022-03-18 2022-06-14 腾讯科技(深圳)有限公司 视频推荐方法、装置、设备、存储介质及程序产品
CN115203338A (zh) * 2022-06-24 2022-10-18 中国人民解放军国防科技大学 一种标签及标签实例推荐方法
US20230015606A1 (en) * 2020-10-14 2023-01-19 Tencent Technology (Shenzhen) Company Limited Named entity recognition method and apparatus, device, and storage medium
CN117009577A (zh) * 2022-07-20 2023-11-07 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备及可读存储介质
CN117237835A (zh) * 2023-02-14 2023-12-15 高瑞 一种基于yolov7的货架安全自动检测方法及装置

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160227282A1 (en) * 2013-10-10 2016-08-04 The Trustees Of Columbia University In The City Of New York Methods and systems for aggregation and organization of multimedia data acquired from a plurality of sources
CN110688526A (zh) * 2019-11-07 2020-01-14 山东舜网传媒股份有限公司 基于关键帧识别和音频文本化的短视频推荐方法及系统
CN111581437A (zh) * 2020-05-07 2020-08-25 腾讯科技(深圳)有限公司 一种视频检索方法及装置
US20230015606A1 (en) * 2020-10-14 2023-01-19 Tencent Technology (Shenzhen) Company Limited Named entity recognition method and apparatus, device, and storage medium
CN112163122A (zh) * 2020-10-30 2021-01-01 腾讯科技(深圳)有限公司 确定目标视频的标签的方法、装置、计算设备及存储介质
CN113204709A (zh) * 2021-05-29 2021-08-03 武汉申子仟电子商务有限公司 基于多维数据深度比对分析的短视频搜索匹配推荐方法、系统及计算机存储介质
CN114416995A (zh) * 2022-01-20 2022-04-29 中国平安人寿保险股份有限公司 信息推荐方法、装置及设备
CN114625918A (zh) * 2022-03-18 2022-06-14 腾讯科技(深圳)有限公司 视频推荐方法、装置、设备、存储介质及程序产品
CN115203338A (zh) * 2022-06-24 2022-10-18 中国人民解放军国防科技大学 一种标签及标签实例推荐方法
CN117009577A (zh) * 2022-07-20 2023-11-07 腾讯科技(深圳)有限公司 一种视频数据处理方法、装置、设备及可读存储介质
CN117237835A (zh) * 2023-02-14 2023-12-15 高瑞 一种基于yolov7的货架安全自动检测方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
XHICHAO ZHANG等: "EAWNet:An Edge Attention-Wise Objector for Real-Time Visual Internet of Things", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》, 12 July 2021 (2021-07-12) *
赵磊;朱立松;张勇;: "面向新媒体业务的视频智能标签探索实践", 现代电视技术, no. 07, 15 July 2020 (2020-07-15) *
高晨峰: "多模态内容分析的短视频推荐技术研究", 传播力研究, 10 May 2019 (2019-05-10), pages 277 - 278 *

Also Published As

Publication number Publication date
CN117807270B (zh) 2024-05-07

Similar Documents

Publication Publication Date Title
CN112819023B (zh) 样本集的获取方法、装置、计算机设备和存储介质
CN112364204B (zh) 视频搜索方法、装置、计算机设备及存储介质
CN114332680A (zh) 图像处理、视频搜索方法、装置、计算机设备和存储介质
CN115601582A (zh) 一种基于多模态数据的商品识别方法和系统
CN111507285A (zh) 人脸属性识别方法、装置、计算机设备和存储介质
CN112801425B (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
CN109801101A (zh) 标签确定方法、装置、计算机设备和存储介质
Zhao et al. Emotional semantics-preserved and feature-aligned cyclegan for visual emotion adaptation
Maghari Recognition of partially occluded faces using regularized ICA
CN110807693A (zh) 专辑的推荐方法、装置、设备和存储介质
CN115935049A (zh) 基于人工智能的推荐处理方法、装置及电子设备
CN116701637B (zh) 一种基于clip的零样本文本分类方法、系统及介质
CN117251622A (zh) 对象推荐的方法、装置、计算机设备和存储介质
CN117807270B (zh) 基于新闻内容的视频推荐方法、装置、设备和存储介质
CN114329065A (zh) 视频标签预测模型的处理方法、视频标签预测方法和装置
CN113497978B (zh) 视频的场景分类方法、装置、服务器及存储介质
CN114936327A (zh) 元素识别模型的获取方法、装置、计算机设备和存储介质
CN114548242A (zh) 用户标签识别方法、装置、电子设备和计算机可读存储介质
CN114049634B (zh) 一种图像识别方法、装置、计算机设备和存储介质
Weng et al. Label-based deep semantic hashing for cross-modal retrieval
Hwooi et al. Emotion differentiation based on arousal intensity estimation from facial expressions
CN112287184B (zh) 基于神经网络的迁移标注方法、装置、设备及存储介质
CN117938951B (zh) 信息推送方法、装置、计算机设备和存储介质
CN117114760B (zh) 基于用户消费行为分析的积分兑换智能推荐系统及其方法
Wang et al. A Multi-graph Fusion Based Manifold Embedding for Face Beauty Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant