CN107515934A

CN107515934A - 一种基于大数据的电影语义个性化标签优化方法

Info

Publication number: CN107515934A
Application number: CN201710757109.3A
Authority: CN
Inventors: 阳柯; 刘楚雄; 唐军
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2017-08-29
Filing date: 2017-08-29
Publication date: 2017-12-26
Anticipated expiration: 2037-08-29
Also published as: CN107515934B

Abstract

本发明公开了一种基于大数据的电影语义个性化标签优化方法，通过挖掘电影评论数据，获取异化的个性化电影标签；同时通过神经网络模型向量化得到文本、词汇，以电影简介文本的相似度与标签词汇的相似度，结合优化前后自定义标签的偏差，建立机器学习模型，并通过个性化标签初始化机器学习模型。本发明实现了电影已有自定义标签的优化，实现合并冗余标签，纠正错误标签、补全缺失标签以及补全个性化标签；对电影资源进行科学、有效的分类和描述，提供电影信息检索的基础，解决了人工电影标签所引发的一系列问题。

Description

一种基于大数据的电影语义个性化标签优化方法

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于大数据的电影语义个性化标签优化方法。

背景技术

在影视行业的发展与人们精神需求的双重因素刺激之下，电影种类与数目日益增多，因此对电影的描述变得越来越重要。同时，随着互联网的迅猛发展，越来越多的共享信息出现在各类网站之上，就电影而言，有豆瓣，腾讯等网站。这些网站允许用户评论以及为不同电影定义类别标签，不但作为一种信息分享，最重要的是将优化在海量视频库中搜索特定视频的过程。但随着互联网数据急剧增加随之产生一些问题，主要如下：

首先，标签本身的问题。因为这些网站的电影标签来自用户自定义，任何人在任何情况下都可以对任何资源定义标签，所以这些标签具有随意性，不严谨性，容易带来矛盾、混乱等问题，缺乏正确以及合理的标签将会使用户迷失在冗余繁杂的检索结果之中。

其次，没有个性化标签。目前电影的标签集中在通用标签集上，特定电影缺乏独特的标签，不能精准描述电影，同时这将导致无法通过独特的标签搜索特定电影。

最后，数据资源的浪费问题，在已有的标签优化方法中，极少数方法考虑到电影简介，同时都忽略了互联网上大量的评论资源，这些资源同样也是对电影的一种描述，这样会导致内容资源的严重浪费。

发明内容

针对现有技术存在的不足之处，本发明的目的在于提供一种基于大数据的电影语义个性化标签优化方法，通过语义的方法，结合电影评论数据，提出丰富电影个性化标签以及用户自定义标签优化方法。首先，有效利用电影评论数据，并挖掘电影评论数据，从电影内容、风格等多角度提炼电影个性化标签，不但丰富了电影标签，同时实现电影标签的个性化，有助于用户实现精准查找。其次，从电影文本语义角度出发，通过理解电影简介语义实现优化标签，通过电影内容语义相似度与标签本身的语义相似度的关联信息，精准筛选电影标签，方便用户在海量数据信息中搜索目标电影，实现简化电影需查找过程。

本发明的目的通过下述技术方案实现：

一种基于大数据的电影语义个性化标签优化方法，其方法步骤如下：

A、收集电影i和电影j的评论信息数据，所述评论信息数据包括电影简介、电影长评和电影短评，采用开源中文分词工具对评论信息数据进行分词处理；建立停用词数据库，通过停用词数据库去除分词后的评论信息数据中的停用词得到有效评论数据；

B、计算词频(TF)：词频(TF)＝某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数，词频(TF)采用计算方式计算：

词频(TF)＝某个词在某一评论文章中经过步骤A处理后的有效评论数据出现的次数/该有效评论数据中词数；

C、计算文档集频率(SF)：文档集频率(SF)＝某个词在所有评论文档中出现过的文档数目/总评论文档数；

D、生成个性化标签：个性化标签＝词频(TF)与计算文档集频率(SF)的乘积，并按照权重值降序排列各标签；

E、标签异化：生成的个性化标签中，通过词向量模型计算出个性化词语之间的距离：

其中，分别表示电影i、电影j的个性化标签，如果距离小于实现设定的阈值ζ＝0.28，那么说明这两个个性化标签相似，则将两个个性化标签的权重值叠加，否则，保留两个个性化标签；

F、提取个性化标签：步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签，按照权重值降序排列，选取前N个标签作为该电影的个性化标签L₀。

本发明还包括步骤G；

G、个性化标签权重归一化：对个性化标签集合按照如下公式做归一化计算：

本发明步骤E中的词向量模型方法如下：

E1、采用如下向量余弦的方法计算文本相似度：

D_i,j＝cos(x_i,x_j)

其中x_i，x_j的值是电影i、电影j的电影简介分别通过Doc2vec算法得到一个固定维度的向量；

E2、比较各自定义电影标签的相似度，得到相似度矩阵S用来表示个性化标签l_i与个性化标签l_j之间标签的相似度，1≥S_i,j≥0，相同或近似标签的相似度定义为1，相反标签的相似度定义为0；

E3、引入置信度矩阵Y，Y_i,j≥0，其值表示电影x_i中标签l_j的置信得分，即标签优化结果；

E4、自定义电影标签相似度定义：

其中，y_i，y_j分别表示电影i，电影j的自定义电影标签；

E5、标签优化目标函数，通过最小化电影简介内容与标签之间的差值，以及最小化电影实质标签与用户自定义标签的差值，定义优化目标函数如下：

其中，表示电影x_i是否含有标签l_j，α_j是比例因子，φ是罚项因子，其中Y、α_j是未知参数。

本发明还包括电影标签融合步骤H；

H1、对步骤F的个性化标签集合进行交集、差集运算，交集Inte＝L₁∩L₀，差集Diff₀＝L₀-Inte，差集Diff₁＝L₁-Inte，其中L₁，L₀分别表示优化之后的自定义标签集合，个性化标签集合；

H2、交集标签Diff作为电影最终标签的部分标签；

H3、融合Diff₀、Diff₁标签，其中Diff₁权重较大，并且全部保留到电影的最终个性化标签中；而Diff₀的标签仅取权重前三或前三用以保留电影个性化标签，最后得到最终电影标签L。

本发明电影标签是指基于分析大量的电影评论数据信息，以及用户自定义的电影标签，提取出能描述该电影的关键特征，从而建立一个能描述电影特征信息的n维向量L＝(l₁,l₂,…,l_n)，向量每一个属性都代表了电影数据的一个重要特性，n是向量维度，它反映了描述信息的完备程度，n越大表示特征信息越完备，当然从实际应用角度而言，并不是n越大越有利于检索电影，实际中n太大反而会引入冗余标签。通过本发明可以达到自动抽取个性化标签并优化电影标签的目的。根据实现过程，制定了如图1所示的电影标签个性化丰富以及优化的框架。

本发明在训练过程中有利于模型偏向选择自定义标签。同时本模型需要保存两个深度神经网络模型：文本向量化模型、词向量化模型；这两种模型引入到标签优化过程中，使标签与标签之间、简介文本与简介文本之间不再孤立，而是相互联系，且得到的向量能更加准确描述标签或文本。在信息资源爆炸时代下，使用户在海量资源内容中迅速检索到自己喜欢的电影变得尤为重要。本发明所带来的技术成果可以直接应用到电影标签中，例如，应用到智能电视中，可以为电视受众提供快捷、准确的检索、推荐、分类服务。各大电影网站、机构同样可以通过本系统方法来丰富、优化电影已有标签，提供更好的实用体验。此外，电影制片方对电影标签的管理与分类，同样有强烈需求。

本发明具有如下有益效果：(1)通过利用大量电影评论数据得到电影个性化标签，有效利用庞大的电影信息中有用的电影内容信息。(2)同时引入最新词向量技术，使词汇或者文本描绘更加准确。(3)从文本内容与标签内容的差值，以及电影最终标签与自定标签的差值角度出发建立一种机器学习模型，并通过机器学习手段求解模型。(4)将个性化与用户自定义标签有机结合，个性化作为自定义优化过程的初始值。(5)标签库能够实现全天候自动更新功能。(6)本发明实现跨平台开发，为多种终端提供相应的开放接口，支持Windows、Linux、Android、iOS操作系统。

本发明较现有技术相比，具有以下优点及有益效果：

本发明实现电影已有自定义标签的优化，实现合并冗余标签，纠正错误标签、补全缺失标签以及补全个性化标签；对电影资源进行科学、有效的分类和描述，提供电影信息检索的基础，解决了人工电影标签所引发的一系列问题。

附图说明

图1为实施例的流程示意图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明：

实施例

如图1所示，一种基于大数据的电影语义个性化标签优化方法，其方法步骤如下：

所述步骤E中的词向量模型方法如下：

E1、采用如下向量余弦的方法计算文本相似度：

D_i,j＝cos(x_i,x_j)

E4、自定义电影标签相似度定义：

其中，y_i，y_j分别表示电影i，电影j的自定义电影标签；

F、提取个性化标签：步骤D的个性化标签经过步骤F标签异化合并之后的个性化标签，按照权重值降序排列，选取前N个标签作为该电影的个性化标签L₀；

H；对步骤F所得到的个性化标签L₀进行电影标签融合方法，其方法如下：

H2、交集标签Diff作为电影最终标签的部分标签；

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据的电影语义个性化标签优化方法，其特征在于：其方法步骤如下：

2.按照权利要求1所述的一种基于大数据的电影语义个性化标签优化方法，其特征在于：还包括步骤G；

<mrow> <msubsup> <mi>l</mi> <mi>i</mi> <mi>c</mi> </msubsup> <mo>=</mo> <mfrac> <msubsup> <mi>l</mi> <mi>c</mi> <mi>i</mi> </msubsup> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msubsup> <mi>l</mi> <mi>j</mi> <mi>c</mi> </msubsup> </mrow> </mfrac> <mo>.</mo> </mrow>

3.按照权利要求2所述的一种基于大数据的电影语义个性化标签优化方法，其特征在于：所述步骤E中的词向量模型方法如下：

E1、采用如下向量余弦的方法计算文本相似度：

D_i,j＝cos(x_i,x_j)

其中xi，x_j的值是电影i、电影j的电影简介分别通过Doc2vec算法得到一个固定维度的向量；

E4、自定义电影标签相似度定义：

<mrow> <msubsup> <mi>y</mi> <mi>i</mi> <mi>T</mi> </msubsup> <msub> <mi>Sy</mi> <mi>j</mi> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>S</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <msub> <mi>Y</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> </mrow>

其中，y_i，y_j分别表示电影i，电影j的自定义电影标签；

<mrow> <mi>min</mi> <mi> </mi> <msub> <mi>L</mi> <mn>1</mn> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mrow> <mo>(</mo> <msub> <mi>D</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msub> <mi>Y</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>k</mi> </mrow> </msub> <msub> <mi>S</mi> <mrow> <mi>k</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <msub> <mi>Y</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>+</mo> <mi>&phi;</mi> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>Y</mi> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>&alpha;</mi> <mi>j</mi> </msub> <msub> <mover> <mi>Y</mi> <mo>^</mo> </mover> <mrow> <mi>j</mi> <mo>,</mo> <mi>l</mi> </mrow> </msub> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

4.按照权利要求3所述的一种基于大数据的电影语义个性化标签优化方法，其特征在于：还包括电影标签融合步骤H；

H2、交集标签Diff作为电影最终标签的部分标签；