CN107515934A - 一种基于大数据的电影语义个性化标签优化方法 - Google Patents

一种基于大数据的电影语义个性化标签优化方法 Download PDF

Info

Publication number
CN107515934A
CN107515934A CN201710757109.3A CN201710757109A CN107515934A CN 107515934 A CN107515934 A CN 107515934A CN 201710757109 A CN201710757109 A CN 201710757109A CN 107515934 A CN107515934 A CN 107515934A
Authority
CN
China
Prior art keywords
mrow
label
film
msub
personalized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710757109.3A
Other languages
English (en)
Other versions
CN107515934B (zh
Inventor
阳柯
刘楚雄
唐军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201710757109.3A priority Critical patent/CN107515934B/zh
Publication of CN107515934A publication Critical patent/CN107515934A/zh
Application granted granted Critical
Publication of CN107515934B publication Critical patent/CN107515934B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9562Bookmark management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种基于大数据的电影语义个性化标签优化方法,通过挖掘电影评论数据,获取异化的个性化电影标签;同时通过神经网络模型向量化得到文本、词汇,以电影简介文本的相似度与标签词汇的相似度,结合优化前后自定义标签的偏差,建立机器学习模型,并通过个性化标签初始化机器学习模型。本发明实现了电影已有自定义标签的优化,实现合并冗余标签,纠正错误标签、补全缺失标签以及补全个性化标签;对电影资源进行科学、有效的分类和描述,提供电影信息检索的基础,解决了人工电影标签所引发的一系列问题。

Description

一种基于大数据的电影语义个性化标签优化方法
技术领域
本发明涉及大数据分析技术领域,尤其涉及一种基于大数据的电影语义个性化标签优化方法。
背景技术
在影视行业的发展与人们精神需求的双重因素刺激之下,电影种类与数目日益增多,因此对电影的描述变得越来越重要。同时,随着互联网的迅猛发展,越来越多的共享信息出现在各类网站之上,就电影而言,有豆瓣,腾讯等网站。这些网站允许用户评论以及为不同电影定义类别标签,不但作为一种信息分享,最重要的是将优化在海量视频库中搜索特定视频的过程。但随着互联网数据急剧增加随之产生一些问题,主要如下:
首先,标签本身的问题。因为这些网站的电影标签来自用户自定义,任何人在任何情况下都可以对任何资源定义标签,所以这些标签具有随意性,不严谨性,容易带来矛盾、混乱等问题,缺乏正确以及合理的标签将会使用户迷失在冗余繁杂的检索结果之中。
其次,没有个性化标签。目前电影的标签集中在通用标签集上,特定电影缺乏独特的标签,不能精准描述电影,同时这将导致无法通过独特的标签搜索特定电影。
最后,数据资源的浪费问题,在已有的标签优化方法中,极少数方法考虑到电影简介,同时都忽略了互联网上大量的评论资源,这些资源同样也是对电影的一种描述,这样会导致内容资源的严重浪费。
发明内容
针对现有技术存在的不足之处,本发明的目的在于提供一种基于大数据的电影语义个性化标签优化方法,通过语义的方法,结合电影评论数据,提出丰富电影个性化标签以及用户自定义标签优化方法。首先,有效利用电影评论数据,并挖掘电影评论数据,从电影内容、风格等多角度提炼电影个性化标签,不但丰富了电影标签,同时实现电影标签的个性化,有助于用户实现精准查找。其次,从电影文本语义角度出发,通过理解电影简介语义实现优化标签,通过电影内容语义相似度与标签本身的语义相似度的关联信息,精准筛选电影标签,方便用户在海量数据信息中搜索目标电影,实现简化电影需查找过程。
本发明的目的通过下述技术方案实现:
一种基于大数据的电影语义个性化标签优化方法,其方法步骤如下:
A、收集电影i和电影j的评论信息数据,所述评论信息数据包括电影简介、电影长评和电影短评,采用开源中文分词工具对评论信息数据进行分词处理;建立停用词数据库,通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据;
B、计算词频(TF):词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数,词频(TF)采用计算方式计算:
词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数;
C、计算文档集频率(SF):文档集频率(SF)=某个词在所有评论文档中出现过的文档数目/总评论文档数;
D、生成个性化标签:个性化标签=词频(TF)与计算文档集频率(SF)的乘积,并按照权重值降序排列各标签;
E、标签异化:生成的个性化标签中,通过词向量模型计算出个性化词语之间的距离:
其中,分别表示电影i、电影j的个性化标签,如果距离小于实现设定的阈值ζ=0.28,那么说明这两个个性化标签相似,则将两个个性化标签的权重值叠加,否则,保留两个个性化标签;
F、提取个性化标签:步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签,按照权重值降序排列,选取前N个标签作为该电影的个性化标签L0
本发明还包括步骤G;
G、个性化标签权重归一化:对个性化标签集合按照如下公式做归一化计算:
本发明步骤E中的词向量模型方法如下:
E1、采用如下向量余弦的方法计算文本相似度:
Di,j=cos(xi,xj)
其中xi,xj的值是电影i、电影j的电影简介分别通过Doc2vec算法得到一个固定维度的向量;
E2、比较各自定义电影标签的相似度,得到相似度矩阵S用来表示个性化标签li与个性化标签lj之间标签的相似度,1≥Si,j≥0,相同或近似标签的相似度定义为1,相反标签的相似度定义为0;
E3、引入置信度矩阵Y,Yi,j≥0,其值表示电影xi中标签lj的置信得分,即标签优化结果;
E4、自定义电影标签相似度定义:
其中,yi,yj分别表示电影i,电影j的自定义电影标签;
E5、标签优化目标函数,通过最小化电影简介内容与标签之间的差值,以及最小化电影实质标签与用户自定义标签的差值,定义优化目标函数如下:
其中,表示电影xi是否含有标签lj,αj是比例因子,φ是罚项因子,其中Y、αj是未知参数。
本发明还包括电影标签融合步骤H;
H1、对步骤F的个性化标签集合进行交集、差集运算,交集Inte=L1∩L0,差集Diff0=L0-Inte,差集Diff1=L1-Inte,其中L1,L0分别表示优化之后的自定义标签集合,个性化标签集合;
H2、交集标签Diff作为电影最终标签的部分标签;
H3、融合Diff0、Diff1标签,其中Diff1权重较大,并且全部保留到电影的最终个性化标签中;而Diff0的标签仅取权重前三或前三用以保留电影个性化标签,最后得到最终电影标签L。
本发明电影标签是指基于分析大量的电影评论数据信息,以及用户自定义的电影标签,提取出能描述该电影的关键特征,从而建立一个能描述电影特征信息的n维向量L=(l1,l2,…,ln),向量每一个属性都代表了电影数据的一个重要特性,n是向量维度,它反映了描述信息的完备程度,n越大表示特征信息越完备,当然从实际应用角度而言,并不是n越大越有利于检索电影,实际中n太大反而会引入冗余标签。通过本发明可以达到自动抽取个性化标签并优化电影标签的目的。根据实现过程,制定了如图1所示的电影标签个性化丰富以及优化的框架。
本发明在训练过程中有利于模型偏向选择自定义标签。同时本模型需要保存两个深度神经网络模型:文本向量化模型、词向量化模型;这两种模型引入到标签优化过程中,使标签与标签之间、简介文本与简介文本之间不再孤立,而是相互联系,且得到的向量能更加准确描述标签或文本。在信息资源爆炸时代下,使用户在海量资源内容中迅速检索到自己喜欢的电影变得尤为重要。本发明所带来的技术成果可以直接应用到电影标签中,例如,应用到智能电视中,可以为电视受众提供快捷、准确的检索、推荐、分类服务。各大电影网站、机构同样可以通过本系统方法来丰富、优化电影已有标签,提供更好的实用体验。此外,电影制片方对电影标签的管理与分类,同样有强烈需求。
本发明具有如下有益效果:(1)通过利用大量电影评论数据得到电影个性化标签,有效利用庞大的电影信息中有用的电影内容信息。(2)同时引入最新词向量技术,使词汇或者文本描绘更加准确。(3)从文本内容与标签内容的差值,以及电影最终标签与自定标签的差值角度出发建立一种机器学习模型,并通过机器学习手段求解模型。(4)将个性化与用户自定义标签有机结合,个性化作为自定义优化过程的初始值。(5)标签库能够实现全天候自动更新功能。(6)本发明实现跨平台开发,为多种终端提供相应的开放接口,支持Windows、Linux、Android、iOS操作系统。
本发明较现有技术相比,具有以下优点及有益效果:
本发明实现电影已有自定义标签的优化,实现合并冗余标签,纠正错误标签、补全缺失标签以及补全个性化标签;对电影资源进行科学、有效的分类和描述,提供电影信息检索的基础,解决了人工电影标签所引发的一系列问题。
附图说明
图1为实施例的流程示意图。
具体实施方式
下面结合实施例对本发明作进一步地详细说明:
实施例
如图1所示,一种基于大数据的电影语义个性化标签优化方法,其方法步骤如下:
A、收集电影i和电影j的评论信息数据,所述评论信息数据包括电影简介、电影长评和电影短评,采用开源中文分词工具对评论信息数据进行分词处理;建立停用词数据库,通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据;
B、计算词频(TF):词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数,词频(TF)采用计算方式计算:
词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数;
C、计算文档集频率(SF):文档集频率(SF)=某个词在所有评论文档中出现过的文档数目/总评论文档数;
D、生成个性化标签:个性化标签=词频(TF)与计算文档集频率(SF)的乘积,并按照权重值降序排列各标签;
E、标签异化:生成的个性化标签中,通过词向量模型计算出个性化词语之间的距离:
其中,分别表示电影i、电影j的个性化标签,如果距离小于实现设定的阈值ζ=0.28,那么说明这两个个性化标签相似,则将两个个性化标签的权重值叠加,否则,保留两个个性化标签;
所述步骤E中的词向量模型方法如下:
E1、采用如下向量余弦的方法计算文本相似度:
Di,j=cos(xi,xj)
其中xi,xj的值是电影i、电影j的电影简介分别通过Doc2vec算法得到一个固定维度的向量;
E2、比较各自定义电影标签的相似度,得到相似度矩阵S用来表示个性化标签li与个性化标签lj之间标签的相似度,1≥Si,j≥0,相同或近似标签的相似度定义为1,相反标签的相似度定义为0;
E3、引入置信度矩阵Y,Yi,j≥0,其值表示电影xi中标签lj的置信得分,即标签优化结果;
E4、自定义电影标签相似度定义:
其中,yi,yj分别表示电影i,电影j的自定义电影标签;
E5、标签优化目标函数,通过最小化电影简介内容与标签之间的差值,以及最小化电影实质标签与用户自定义标签的差值,定义优化目标函数如下:
其中,表示电影xi是否含有标签lj,αj是比例因子,φ是罚项因子,其中Y、αj是未知参数。
F、提取个性化标签:步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签,按照权重值降序排列,选取前N个标签作为该电影的个性化标签L0
G、个性化标签权重归一化:对个性化标签集合按照如下公式做归一化计算:
H;对步骤F所得到的个性化标签L0进行电影标签融合方法,其方法如下:
H1、对步骤F的个性化标签集合进行交集、差集运算,交集Inte=L1∩L0,差集Diff0=L0-Inte,差集Diff1=L1-Inte,其中L1,L0分别表示优化之后的自定义标签集合,个性化标签集合;
H2、交集标签Diff作为电影最终标签的部分标签;
H3、融合Diff0、Diff1标签,其中Diff1权重较大,并且全部保留到电影的最终个性化标签中;而Diff0的标签仅取权重前三或前三用以保留电影个性化标签,最后得到最终电影标签L。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种基于大数据的电影语义个性化标签优化方法,其特征在于:其方法步骤如下:
A、收集电影i和电影j的评论信息数据,所述评论信息数据包括电影简介、电影长评和电影短评,采用开源中文分词工具对评论信息数据进行分词处理;建立停用词数据库,通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据;
B、计算词频(TF):词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数,词频(TF)采用计算方式计算:
词频(TF)=某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数;
C、计算文档集频率(SF):文档集频率(SF)=某个词在所有评论文档中出现过的文档数目/总评论文档数;
D、生成个性化标签:个性化标签=词频(TF)与计算文档集频率(SF)的乘积,并按照权重值降序排列各标签;
E、标签异化:生成的个性化标签中,通过词向量模型计算出个性化词语之间的距离:
<mrow> <msub> <mi>K</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>=</mo> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <msubsup> <mi>l</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>,</mo> <msubsup> <mi>l</mi> <mi>j</mi> <mi>c</mi> </msubsup> <mo>)</mo> </mrow> </mrow>
其中,分别表示电影i、电影j的个性化标签,如果距离小于实现设定的阈值ζ=0.28,那么说明这两个个性化标签相似,则将两个个性化标签的权重值叠加,否则,保留两个个性化标签;
F、提取个性化标签:步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签,按照权重值降序排列,选取前N个标签作为该电影的个性化标签L0
2.按照权利要求1所述的一种基于大数据的电影语义个性化标签优化方法,其特征在于:还包括步骤G;
G、个性化标签权重归一化:对个性化标签集合按照如下公式做归一化计算:
<mrow> <msubsup> <mi>l</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>l</mi> <mi>c</mi> <mi>i</mi> </msubsup> <mrow> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>l</mi> <mi>j</mi> <mi>c</mi> </msubsup> </mrow> </mfrac> <mo>.</mo> </mrow>
3.按照权利要求2所述的一种基于大数据的电影语义个性化标签优化方法,其特征在于:所述步骤E中的词向量模型方法如下:
E1、采用如下向量余弦的方法计算文本相似度:
Di,j=cos(xi,xj)
其中xi,xj的值是电影i、电影j的电影简介分别通过Doc2vec算法得到一个固定维度的向量;
E2、比较各自定义电影标签的相似度,得到相似度矩阵S用来表示个性化标签li与个性化标签lj之间标签的相似度,1≥Si,j≥0,相同或近似标签的相似度定义为1,相反标签的相似度定义为0;
E3、引入置信度矩阵Y,Yi,j≥0,其值表示电影xi中标签lj的置信得分,即标签优化结果;
E4、自定义电影标签相似度定义:
<mrow> <msubsup> <mi>y</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>Sy</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>S</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <msub> <mi>Y</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow>
其中,yi,yj分别表示电影i,电影j的自定义电影标签;
E5、标签优化目标函数,通过最小化电影简介内容与标签之间的差值,以及最小化电影实质标签与用户自定义标签的差值,定义优化目标函数如下:
<mrow> <mi>min</mi> <mi> </mi> <msub> <mi>L</mi> <mn>1</mn> </msub> <mo>=</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>S</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <msub> <mi>Y</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&amp;phi;</mi> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&amp;Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&amp;alpha;</mi> <mi>j</mi> </msub> <msub> <mover> <mi>Y</mi> <mo>^</mo> </mover> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>
其中,表示电影xi是否含有标签lj,αj是比例因子,φ是罚项因子,其中Y、αj是未知参数。
4.按照权利要求3所述的一种基于大数据的电影语义个性化标签优化方法,其特征在于:还包括电影标签融合步骤H;
H1、对步骤F的个性化标签集合进行交集、差集运算,交集Inte=L1∩L0,差集Diff0=L0-Inte,差集Diff1=L1-Inte,其中L1,L0分别表示优化之后的自定义标签集合,个性化标签集合;
H2、交集标签Diff作为电影最终标签的部分标签;
H3、融合Diff0、Diff1标签,其中Diff1权重较大,并且全部保留到电影的最终个性化标签中;而Diff0的标签仅取权重前三或前三用以保留电影个性化标签,最后得到最终电影标签L。
CN201710757109.3A 2017-08-29 2017-08-29 一种基于大数据的电影语义个性化标签优化方法 Active CN107515934B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710757109.3A CN107515934B (zh) 2017-08-29 2017-08-29 一种基于大数据的电影语义个性化标签优化方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710757109.3A CN107515934B (zh) 2017-08-29 2017-08-29 一种基于大数据的电影语义个性化标签优化方法

Publications (2)

Publication Number Publication Date
CN107515934A true CN107515934A (zh) 2017-12-26
CN107515934B CN107515934B (zh) 2020-12-15

Family

ID=60724600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710757109.3A Active CN107515934B (zh) 2017-08-29 2017-08-29 一种基于大数据的电影语义个性化标签优化方法

Country Status (1)

Country Link
CN (1) CN107515934B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108491463A (zh) * 2018-03-05 2018-09-04 科大讯飞股份有限公司 标签确定方法及装置
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN109299330A (zh) * 2018-08-13 2019-02-01 中山大学 一种基于影评的电影标签自动生成方法
CN109344255A (zh) * 2018-09-26 2019-02-15 平安科技(深圳)有限公司 标签的填充方法及终端设备
CN109933700A (zh) * 2019-03-07 2019-06-25 王芃翰 基于大数据的学生阅读建议生成方法及相关设备
CN109993544A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 数据处理方法、系统、计算机系统及计算机可读存储介质
CN110019958A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 一种影视作品标签的生成方法、装置和终端设备
CN111314732A (zh) * 2020-03-19 2020-06-19 青岛聚看云科技有限公司 确定视频标签的方法、服务器及存储介质
CN112100443A (zh) * 2020-08-03 2020-12-18 咪咕文化科技有限公司 视频标签的获取方法、装置、电子设备及存储介质
CN112100443B (zh) * 2020-08-03 2024-06-04 咪咕文化科技有限公司 视频标签的获取方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102141977A (zh) * 2010-02-01 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及装置
US20120278337A1 (en) * 2006-09-22 2012-11-01 Limelight Networks, Inc. Methods and systems for generating automated tags for video files
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN105653637A (zh) * 2015-12-28 2016-06-08 苏州大学 一种基于层次结构的兴趣点推荐方法
CN106354861A (zh) * 2016-09-06 2017-01-25 中国传媒大学 电影标签自动标引方法及自动标引系统
CN106681980A (zh) * 2015-11-05 2017-05-17 中国移动通信集团公司 一种垃圾短信分析方法和装置
US20170154077A1 (en) * 2015-12-01 2017-06-01 Le Holdings (Beijing) Co., Ltd. Method for comment tag extraction and electronic device

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120278337A1 (en) * 2006-09-22 2012-11-01 Limelight Networks, Inc. Methods and systems for generating automated tags for video files
CN102141977A (zh) * 2010-02-01 2011-08-03 阿里巴巴集团控股有限公司 一种文本分类的方法及装置
CN103559310A (zh) * 2013-11-18 2014-02-05 广东利为网络科技有限公司 一种从文章中提取关键词的方法
CN106681980A (zh) * 2015-11-05 2017-05-17 中国移动通信集团公司 一种垃圾短信分析方法和装置
US20170154077A1 (en) * 2015-12-01 2017-06-01 Le Holdings (Beijing) Co., Ltd. Method for comment tag extraction and electronic device
CN105653637A (zh) * 2015-12-28 2016-06-08 苏州大学 一种基于层次结构的兴趣点推荐方法
CN106354861A (zh) * 2016-09-06 2017-01-25 中国传媒大学 电影标签自动标引方法及自动标引系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
J.LI 等: "Mining Tags from Flickr User Comments Using a Hybrid Ranking Model", 《2015 INTERNATIONAL CONFERENCE ON SERVICE SCIENCE (ICSS)》 *
张宜浩: "基于半监督学习的个性化推荐研究", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019958A (zh) * 2017-12-28 2019-07-16 Tcl集团股份有限公司 一种影视作品标签的生成方法、装置和终端设备
CN109993544A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 数据处理方法、系统、计算机系统及计算机可读存储介质
CN108491463A (zh) * 2018-03-05 2018-09-04 科大讯飞股份有限公司 标签确定方法及装置
CN108595660A (zh) * 2018-04-28 2018-09-28 腾讯科技(深圳)有限公司 多媒体资源的标签信息生成方法、装置、存储介质及设备
CN109299330A (zh) * 2018-08-13 2019-02-01 中山大学 一种基于影评的电影标签自动生成方法
CN109299330B (zh) * 2018-08-13 2021-06-25 中山大学 一种基于影评的电影标签自动生成方法
CN109344255A (zh) * 2018-09-26 2019-02-15 平安科技(深圳)有限公司 标签的填充方法及终端设备
CN109344255B (zh) * 2018-09-26 2023-05-26 平安科技(深圳)有限公司 标签的填充方法及终端设备
CN109933700A (zh) * 2019-03-07 2019-06-25 王芃翰 基于大数据的学生阅读建议生成方法及相关设备
CN111314732A (zh) * 2020-03-19 2020-06-19 青岛聚看云科技有限公司 确定视频标签的方法、服务器及存储介质
CN112100443A (zh) * 2020-08-03 2020-12-18 咪咕文化科技有限公司 视频标签的获取方法、装置、电子设备及存储介质
CN112100443B (zh) * 2020-08-03 2024-06-04 咪咕文化科技有限公司 视频标签的获取方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
CN107515934B (zh) 2020-12-15

Similar Documents

Publication Publication Date Title
CN107515934A (zh) 一种基于大数据的电影语义个性化标签优化方法
CN110162593B (zh) 一种搜索结果处理、相似度模型训练方法及装置
CN110750656B (zh) 一种基于知识图谱的多媒体检测方法
CN107766371B (zh) 一种文本信息分类方法及其装置
CN109918506B (zh) 一种文本分类方法及装置
CN111858954A (zh) 面向任务的文本生成图像网络模型
CN109635171A (zh) 一种新闻节目智能标签的融合推理系统和方法
CN103678702A (zh) 视频去重方法及装置
CN111931061B (zh) 标签映射方法、装置、计算机设备及存储介质
CN106878632A (zh) 一种视频数据的处理方法和装置
CN103838864A (zh) 一种视觉显著性与短语相结合的图像检索方法
CN111190997A (zh) 一种使用神经网络和机器学习排序算法的问答系统实现方法
CN109344298A (zh) 一种将非结构化数据转化为结构化数据的方法及装置
CN104199838B (zh) 一种基于标签消歧的用户模型建构方法
CN106600213B (zh) 一种个人简历智能管理系统及方法
CN103942274B (zh) 一种基于lda的生物医疗图像的标注系统及方法
CN108268875A (zh) 一种基于数据平滑的图像语义自动标注方法及装置
CN109272440A (zh) 一种联合文本和图像内容的缩略图生成方法及系统
Xu et al. Different data, different modalities! reinforced data splitting for effective multimodal information extraction from social media posts
CN103473275A (zh) 一种采用多特征融合的图像自动标注方法和系统
CN110309360A (zh) 一种短视频的话题标签个性化推荐方法及系统
CN115131698A (zh) 视频属性确定方法、装置、设备及存储介质
CN110363206A (zh) 数据对象的聚类、数据处理及数据识别方法
CN108090098A (zh) 一种文本处理方法及装置
CN107632974A (zh) 适用于多领域的中文分析平台

Legal Events

Date Code Title Description
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant